社交媒体公司越来越多地使用复杂的算法和人工智能来检测网络上的冒犯行为。
这些算法和人工智能系统都依赖数据来了解什么是冒犯性的。但数据背后的人是谁?他们的背景如何影响他们的决定?
在一项新的研究中,密歇根大学信息学院助理教授大卫·尤根斯和博士生裴佳欣发现,数据注释者——给文本、视频和在线媒体做标签的人——的背景很重要。
“注释者是不可替代的,”Jurgens说。“他们的人口统计、生活经历和背景都会影响他们对数据的标记。我们的研究表明,了解注释者的背景并从人口统计学平衡的众包工作者池中收集标签对于减少数据集的偏差非常重要。”
通过对6000条Reddit评论的分析,这项研究表明,注释者关于礼貌和冒犯的信念和决定影响了我们每天看到的用于标记在线内容的学习模型。在一部分人看来礼貌的行为,在另一部分人看来可能就没那么礼貌了。
“人工智能系统都使用这种数据,我们的研究有助于强调知道谁在标记数据的重要性,”裴说。“当只有一部分人给数据贴上标签时,由此产生的人工智能系统可能无法代表平均观点。”
通过他们的研究,Jurgens和Pei开始更好地理解注释者身份之间的差异,以及他们的经历如何影响他们的决定。之前的研究只关注了身份的一个方面,比如性别。他们的希望是帮助人工智能模型更好地模拟所有人的信仰和观点。
结果表明:
虽然一些现有的研究表明,男性和女性对有毒语言的评分可能不同,但他们的研究发现,男性和女性之间没有统计学上的显著差异。然而,参与者没有非二元性别认同倾向于认为信息比那些认同为男性和女性的信息更具攻击性。
60岁以上的人比中年参与者更容易感到冒犯性得分更高。
研究发现,在攻击性评分上,种族差异显著。黑人参与者倾向于认为同样的评论比其他种族群体更具攻击性。从这个意义上说,由白人注释的数据训练的分类器可能会系统性地低估评论对黑人和亚洲人的冒犯性。
在注释者教育方面没有发现显著差异。
利用这些结果,Jurgens和Pei创建了POPQUORN,这是一个马铃薯多产的数据集,用于回答问题、冒犯性、文本重写和基于人口统计学细微差别的礼貌评级。该数据集为社交媒体和人工智能公司提供了一个探索模型的机会,该模型可以解释交叉视角和信念。
尤尔根斯说:“像ChatGPT这样的系统越来越多地被人们用于日常工作。“但是,我们在训练有素的模型中灌输的是谁的价值观?”如果我们继续选取具有代表性的样本,而不考虑差异,我们就会继续边缘化某些群体。”
贝聿铭表示,POPQUORN有助于确保每个人都有与他们的信仰和背景相匹配的公平制度。
该研究发表在arXiv预印本服务器上。
更多信息:裴嘉欣等,注释者人口统计何时重要?基于POPQUORN数据集的标注者人口统计影响度量,中文信息学报,2014(4)。DOI: 10.48550/ arXiv .2306.06826
由密歇根大学提供
引用:建立可靠的人工智能模型需要了解2023年8月8日从https://techxplore.com/news/2023-08-reliable-ai-requires-people-datasets.html检索的数据集(2023年8月8日)背后的人
作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司
内容仅供参考之用。