性别偏见只存在人类之中吗?机器学习中也存在
扫描二维码
随时随地手机看文章
去年秋天,弗吉尼亚大学计算机科学专业的教授文森特·欧多尼兹注意到,他所设计的图像识别软件出现了一些猜想模式。当软件识别一张厨房照片时,往往会将其和女性联系起来而非男性。这让欧多尼兹怀疑,自己和其他研究人员是否无意识地在他们的软件中掺进了偏见。因此,他与同事合作,测试了两大组用于训练图像识别软件的图片集。结果令人深思。在烹饪和体育活动方面,微软和 Facebook 所收集的照片反映出了明显的偏见。例如,购物和洗涤的图像与女性相关,而训练和射击的图像则与男性相关。
采用数据集进行训练的机器学习软件非但反映了这些偏见,更是放大了偏见。如果用来学习的图片集都将妇女与烹饪关联在一起,那么软件通过学习则会强化这种联系。人工智能研究所的研究员马克·雅斯卡表示,这种现象也会放大数据中的其他偏见,例如种族偏见。雅斯卡曾经在华盛顿大学与欧多尼兹和其他人共事过,他表示,“这不但会加重现有的社会偏见,甚至会让偏见恶化下去。”
大量复杂的机器学习程序不断出现,这种偏见也日益凸显起来。在研究人员的测试中,身处厨房的人更可能被贴上“女性”标签,而不能反映出实际的学习结果。在研究人员的一篇论文中,一位身处炉子旁的男性则被判定为“女性”。如果这些判定方法进入到科技公司中,很可能会影响到照片存储服务和家庭助手,比如亚马逊的摄像头或是使用社交媒体照片来辨别消费者偏好的工具。2015年,谷歌偶然展示了不当图像软件的危险性,当时,它的照片服务竟将黑人判定为大猩猩。
人工智能系统正承担起越加复杂的任务,风险也越发地不可估量。雅斯卡描述了这样一个场景,当机器人无法确定某人在厨房里做什么时,它会递给男性一杯啤酒,而帮助女性洗盘子。他表示:“如果一个系统的行为能通过性别明确划分,这个系统就无法有效地发挥其效用。”
大约五年前,在机器学习实现了突破之后,科技公司开始严重依赖从成堆数据中学习的软件。最近,研究人员开始向世人揭露机器学习的冷酷无情。去年夏天,来自波士顿大学和微软的研究人员表示,根据谷歌新闻进行学习的软件再现了人类的性别偏见。当对软件进行提问,“男性是程序员那么女性是?”它的回答是“家庭主妇”。新的研究表明,性别偏见根植于两组图片集中,而这原本是用来帮助软件更好地理解图像内容。研究人员观察了华盛顿大学的 ImSitu 和微软的 COCO,每个图片集都包含了 10 万多个来自网络的复杂场景,并配有说明。
两个数据集所包含的男性图像都要多于女性的,而不同性别对应的事物、活动则反映了研究人员所说的显著的性别偏见。在 COCO 中,勺子和叉子等厨房物品都与女性高度相关,而类似滑雪板和网球拍等户外运动设备则更多地与男性相关。当图像识别软件通过这些数据集进行训练时,这种偏差就会放大。COCO 数据集训练出来的系统可能会把鼠标、键盘和男性更为紧密地联系在一起。研究人员设计了一种方法来抵消这种偏见放大现象,即有效使软件反映其学习数据。但它首先要求研究人员找出偏见所在,并明确指出需要修改的内容。修正后的软件仍然会反映原始数据中的性别偏见。
微软研究部主任埃里克·霍维茨说,他希望其他人采用这种方式,因为他们是通过机器学习来设计软件的。公司内部有一个道德委员会,该委员会致力于保持人工智能在公司产品线中的协调性。霍维茨表示: “我和微软作为一个整体,非常希望能够找到同时解决在数据集和系统中产生的偏见和差距。”借用 COCO 和其他数据集的研究人员和工程师们,应该从自己的工作和其他方面寻找偏见产生的迹象。不要从面向儿童的计算机、书籍和其他教育材料中寻找,因为这部分内容往往都被调整过,所呈现的是一个男女均等的理想化世界。霍维茨认为,在某些情况下,可以用类似的方法来训练软件。
其他在机器学习中产生的偏见并不显著。普林斯顿大学的研究员艾琳·卡利斯坎表示,如果男性建筑工人更多,图像识别程序也应该学习到一点。之后,可以采取相应方法来衡量和调整偏见。她说:“为了避免偏见,我们正冒着失去基本信息的风险,数据集需要反映出世界上真实的统计数据。”在这个领域有一项共识,那就是使用机器学习来解决问题比许多人想象的要复杂得多。犹他州大学教授苏雷什·文卡塔萨布拉曼尼亚说:“有人认为算法可以解决一切问题,而纠正偏见同时也可以纠正这种错觉。”