研究人员设计了一种方法来减少计算机视觉数据集中的偏差

科技 2020-03-10 14:29:31

针对人工智能中的偏见问题,普林斯顿大学和斯坦福大学的计算机科学家开发了一些方法来获得更公平的数据集,其中包含人的图像。 研究人员建议改进Image Net,这是一个拥有1400多万幅图像的数据库,在过去十年中在推进计算机视觉方面发挥了关键作用。

图像网络,包括物体和景观的图像以及人,作为训练数据的来源,研究人员创造机器学习算法,分类图像或识别其中的元素。 图像网规模空前,需要自动图像采集和众包图像注释。 虽然研究界很少使用数据库的个人类别,但Image Net团队一直致力于解决对图像的偏见和其他关切,这些图像的特征是Image Net构建的意外后果。

普林斯顿大学计算机科学助理教授奥尔加?罗斯萨科夫斯基(Olga Russakovsky)说:“计算机视觉现在运行得很好,这意味着它在各种环境下都被部署在各地。 “这意味着现在是时候讨论它对世界产生什么样的影响,并思考这些公平问题了。”

在一篇新的论文中,Image Net团队系统地确定了Image Net个人类别中的非视觉概念和攻击性类别,如种族和性别特征,并建议将它们从数据库中删除。 研究人员还设计了一个工具,允许用户指定和检索按年龄、性别表达或肤色平衡的人的图像集,目的是促进更公平地对图像中的人的脸和活动进行分类的算法。 研究人员于1月30日在西班牙巴塞罗那举行的计算机机械协会公平、问责和透明度会议上介绍了他们的工作。

Russakovsky说:“非常需要在这方面具有核心技术专长的研究人员和实验室来进行这类对话。 “考虑到我们需要按规模收集数据的现实,考虑到由于这是最有效和最完善的管道,我们将用众包来完成这项工作,我们如何以一种更公平的方式做到这一点,而不会陷入这类先前的陷阱? 本文件的核心信息是建设性的解决办法。

普林斯顿和斯坦福的一群计算机科学家于2009年推出了Image Net,作为学术研究人员和教育工作者的资源。 普林斯顿大学的校友和教员李飞飞,现在是斯坦福大学的计算机科学教授。 为了鼓励研究人员使用Image Net构建更好的计算机视觉算法,该团队还创建了Image Net大规模视觉识别挑战。 挑战主要集中在使用1000个图像类别的对象识别上,其中只有3个以人为特征。

Image Net中的一些公平性问题来自用于构建数据库的管道。 它的图像类别来自WordNet,这是一个用于自然语言处理研究的英语单词的旧数据库。 图像网的创建者采用了Word Net中的名词-其中一些,虽然它们是明确定义的语言术语,但不能很好地翻译成视觉词汇。 例如,描述一个人的宗教或地理起源的术语可能只检索最独特的图像搜索结果,可能导致延续陈规定型观念的算法。

最近的一个名为“图像网络轮盘”的艺术项目引起了人们对这些问题的更多关注。 该项目于2019年9月发布,作为图像识别系统艺术展览的一部分,使用来自Image Net的人的图像来训练一个人工智能模型,该模型根据提交的图像对人进行文字分类。 用户可以上传自己的图像,并根据这个模型检索标签。 许多分类都是冒犯性的或简单的场外。

使Image Net的创建者能够收集如此庞大的标签图像数据库的核心创新是使用众包-特别是亚马逊机械土耳其(Mturk)平台,通过该平台,工作人员被支付来验证候选图像。 这种方法虽然具有变革性,但不完善,导致了一些偏见和不适当的分类。

“当你要求人们通过从一大批候选人中选择正确的图像来验证图像时,人们会感到有压力选择一些图像,而这些图像往往具有独特或刻板的特征。”计算机科学研究的主要作者杨开宇说。

在这项研究中,杨和他的同事首先从Image Net中筛选出了潜在的攻击性或敏感的人类别。 它们将攻击性类别定义为含有亵渎或种族或性别诽谤的类别;敏感类别包括,例如,基于性取向或宗教的人的分类。 为了注释这些类别,他们招募了12名来自不同背景的研究生,指示他们错误地将一个类别标记为敏感,如果他们不确定。 这消除了1,593个类别-约占图像网2,932个人类别的54%。

然后,研究人员转向MTurk的工作人员,对其余安全类别的“形象性”进行一至五的评分。 保持类别的形象性等级为四个或更高,只有158个类别被归类为安全和形象。 即使是这组高度过滤的类别也包含了133,000多幅图像-这是训练计算机视觉算法的大量例子。

在这158个类别中,研究人员研究了图像中人的人口表示,以评估图像网络中的偏见程度,并设计了一种创建更公平数据集的方法。 图像网络的内容来自像Flickr这样的图像搜索引擎,而且一般来说,搜索引擎已经证明会产生过度代表男性、浅色皮肤的人和18至40岁的成年人的结果。

杨说:“人们发现,图像搜索结果中的人口分布是高度偏颇的,这就是为什么图像网络中的分布也是有偏见的。” 在本文中,我们试图了解它是多么的偏颇,并提出了一种平衡分布的方法。

在美国反歧视法保护的属性中,研究人员考虑了三种可形象化的属性:肤色、性别表达和年龄。 MTurk的工作人员被要求在图像中对每个人的每个属性进行注释。 他们将肤色分为浅、中或暗;年龄分为儿童(18岁以下)、成人18-40岁、成人40-65岁或成人65岁以上。 性别分类包括男性、女性和不确定-这是一种将具有不同性别表达方式的人包括在内的方法,以及注释无法从视觉线索中感知性别的图像(例如婴儿或潜水者的许多图像)。

对注释的分析表明,与搜索结果相似,Image Net的内容反映了相当大的偏见。 被标注为深色皮肤、女性和40岁以上成年人的人在大多数类别中的代表性不足。

虽然注释过程包括质量控制和要求注释者达成共识,但出于对错误注释的潜在危害的关注,研究人员选择不对单个图像发布人口学注释。 相反,他们设计了一个网络接口工具,允许用户以用户指定的方式获得一组在人口统计上平衡的图像。 例如,“程序员”类别的全部图像收集可能包括大约90%的男性和10%的女性,而在美国,大约20%的计算机程序员是女性。 研究人员可以使用新工具检索一组程序员图像,代表80%的男性和20%的女性-甚至分裂,这取决于研究人员的目的。

杨说:“我们不想说什么是平衡人口统计的正确方法,因为这不是一个非常直截了当的问题。” “世界各地的肤色分布可能不同,例如,美国的肤色分布与亚洲国家不同。 因此,我们把这个问题留给我们的用户,我们只是提供一个工具来检索图像的平衡子集。”

目前,Image Net团队正在对其硬件和数据库进行技术更新,并实施了对人员类别的过滤和本研究中开发的再平衡工具。 图像网络将很快重新发布这些更新,并呼吁来自计算机视觉研究社区的反馈。


郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢