且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data

更新时间:2022-08-25 21:40:42

数据是机器学习研究和开发的基础,划分数据能够帮助构建机器学习模型,以及评估和基准化模型。 然而实际上,数据收集任务是很复杂的。无意识的偏见、数据访问的限制和隐私问题,都可能使数据收集和标注变得不可预测,并失去部分真实性。 但反过来说,机器学习数据集可以反映种族、性别、年龄等方面的不公平社会偏见。

「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data

测验数据集(examing datasets)可以展现出不同社会群体在数据中的不同表现方式,这也是确保机器学习模型和数据集的发展与人工智能原则(AI principles)保持一致的关键。它可以告知用户如何有效使用机器学习数据集,并缓解数据集中包含潜在不公平结果的可能。 先前的研究已经表明这种偏见普遍存在于数据集中,例如一些物体识别数据集由于收集者来自欧美世界,所以他们收集到的物体或者人物图像也更偏向于来自北美和西欧,这也促使谷歌的众包服务应当更努力地去平衡、添加世界上其他地区的图像表示。 

「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data

Google 的方案名叫了解你的数据(Know Your Data, KYD),这个平台能够有助于机器学习研究、创造相关产品和协同团队理解数据集。 KYD的目标是提高数据质量,从而缓解公平性和偏见问题。KYD 还提供了一系列特性,包括允许用户探索和检查数据集,用户可以基于给定数据集中已经存在的注释进行过滤、分组和相关性研究。 KYD 还提供了来自谷歌云视觉 API 的自动计算标签,为用户提供了一种简单的方法预分类,可以基于数据集中原本没有的信号来探索他们的数据。 

「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data


目前KYD还处于beta测试版本,新增的功能包括数据可视化等。 COCO Captions是一个图像数据集,包含超过30万张图像,并且每一张图像都包含人工生成的标题,这种非结构化文本实际上是对图片的一种注释,可以用来帮助分析数据集中包含的公正性和偏见。「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data先前的研究已经证明了计算机视觉数据集中存在不良的性别偏见,一些固有成见可能导致中性词和性别相关,如护士与女性、工人与男性。「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data使用KYD很容易发现标题中包含的性别相关性,如标注人员在描述数据集中不同活动、不能性别的人时存在的偏见。 研究人员们研究了描述不同活动的文字标题图片,并分析了它们与性别标题词的关系,如“男人”或“女人”。 KYD 关系标签通过可视化两个信号(男/女)同时出现的概率相比偶然出现的概率更高或更低,用蓝色表示正相关,红色表示负相关,颜色的深浅表示相关程度。 KYD 还允许用户基于子字符串匹配过滤关系表的行。使用这个功能,可以探测例如“-ing”的标题词,作为一种按动词过滤的简单方法。根据动作立即看到了强烈的性别相关性。「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data通过进一步研究这些相关性,可以发现一些与女性有关的定型活动,如配有 woman 或 women 标题的图片比配有 man 或 men 标题的图片在购物 shopping 和 做饭 cooking 出现的频率更高。 例如下面的图片的标题为Two women cooking in a beige and white kitchen., 其中 women 和 cooking 同时出现。 「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data相比之下,描述诸如滑板 skateboarding、冲浪 surfing 和滑雪 snowboarding 等体力活动的说明文字与标有man 或 men 的标题有更高概率同时出现,也就是说与男性更相关。 尽管每个图片标题不应该使用特定的或贬损性语言描述,但如果某些性别群体在整个数据集的特定活动中代表过多或过少,那么根据这个数据集训练的模型就有可能学习到这种特殊关联,尽管他是错误的。 通过上面的KYD可视化,可以很容易地显示、量化和制定计划来减轻这种风险。 除了研究不同活动所描绘的社会群体的偏见,研究人员还探讨了标注人员如何描述他们认为是男性或女性的人的外貌的偏见。 受到那些嵌入在其他形式的视觉媒体中的男性凝视(male gaze)的媒体学者的启发,Google 还研究了 COCO captions 中,标注人员如何用男性或女性来描述图片中的人。 KYD 能够很容易地检查与二元性别相关的单词(例如 female/girl/woman 或 male/man/boy)和与评价吸引力(physical attractiveness)相关的单词之间的共现现象。 最重要的是,这些都是人类标注人员写的说明文字,他们对图片中人物的性别做出主观评价,并选择一个描述吸引力的描述符。 最后可以发现,有吸引力的attractive 、美丽 beautiful、漂亮 pretty 和性感 sexy 这些词更容易出现在描述女性时使用,这也证实了之前的研究所说的视觉媒体如何考虑性别。「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data至于年龄的偏见,通常65岁以上的成年人在数据集中的数量相比其他年龄段是不足的。 通过观察描述不同活动的标题词并分析它们与描述年龄的标题词之间的关系,KYD 可以帮助找到哪些词可以用于描述老年人。根据环境和活动判断成年人的年龄对于各种任务来说是很重要的,例如图像字幕或行人检测。「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data可以看出,标注人员很少在详细描述不同活动的标题中将一个人描述为老年人。关系标签还显示出一种趋势,即 elderly, old 和 older 倾向于描述各种不需要体力活动的动词,而这些体力活动可能对系统检测来说很重要。 需要注意的是,相对于young 来说,old 更多地用来描述人以外的东西,比如财产或衣服,因此这些关系也捕捉到了一些不能用来描述人的用法。 「人类高质量数据」从标注指南开始!Google 发布数据分析工具Know Your Data

但这项研究的包含老年人参考的标题表达不足的根源可能是缺乏描述老年人的图像,以标注人员在描述图像中的人时倾向于省略与老年人相关的术语。 通过使用 KYD, 能够定量和定性地检查哪些关系来识别数据集中哪些类别的数据不足,需要补充。 了解机器学习数据集的内容是制定合适的策略以减轻数据集偏见的关键,并且不公正的数据也会影响到下游任务的表现。 社会的刻板印象体现在标注人员身上,但KYD给出了缓解措施,通过平衡数据集,增加代表性不足的类别数据的数量。 然而,仅仅关注数据集平衡是不够的,因为标注人员对图像中人物的主观判断反映在最终的数据集中,这表明需要更深入地研究图像标注的方法。 对于正在开发图像标题数据集的数据从业者来说,一个解决方案是考虑整合已经开发的用于编写对种族、性别和其他身份类别敏感的图像描述的指南。