您的位置：首页 >科技 >

人工智能周刊:人工智能偏见的棘手挑战

来源：时间：2021-10-27

上周，Twitter 分享了研究表明，该平台的算法放大了来自中右翼政客和新闻媒体的推文，而牺牲了左倾来源。Twitter 机器学习、道德、透明度和问责制团队负责人 Rumman Chowdhury 在接受Protocol采访时表示，虽然某些行为可能是用户驱动的，但偏见的原因尚不完全清楚。

“我们可以看到它正在发生。我们并不完全确定为什么会发生这种情况，”乔杜里说。“当算法被推向世界时，当人们与它互动时会发生什么——我们无法为此建模。我们无法模拟个人或人群将如何使用 Twitter，以及世界上将发生什么会影响人们使用 Twitter 的方式。”

Twitter 即将进行的根本原因分析可能会揭示其推荐算法向右倾斜的一些起源。但 Chowdhury 的坦率披露凸显了 AI 模型中的偏见以及它们如何发生的未知数——以及是否有可能减轻它们。

有偏见模型的挑战

过去几年已经确定，在确保 AI 模型的公平预测方面，偏差缓解技术并不是万能药。将算法解决方案应用于社会问题可能会放大对边缘化人群的偏见，而对人群的抽样不足总是会导致更差的预测准确性。例如，即使像 OpenAI 的 GPT-3 这样的领先语言模型也表现出有毒和歧视性行为，通常可以追溯到数据集创建过程。当在有偏见的数据集上进行训练时，模型会获得并加剧偏见，例如将黑人作者的文本标记为比白人作者的文本更具毒性。

AI 中的偏见不仅仅来自数据集。问题的制定，或研究人员将任务与人工智能技术相匹配的方式，也可以做出贡献。整个 AI 部署管道中的其他人工引导步骤也是如此。

康奈尔大学和布朗大学最近的一项研究调查了模型选择方面的问题，或者工程师在训练和验证后选择机器学习模型进行部署的过程。该论文指出，虽然研究人员可能会报告少数模型的平均性能，但他们通常会使用一组特定的变量来发布结果，这些变量可能会掩盖模型的真实性能。这提出了一个挑战，因为其他模型属性可能会在训练期间发生变化。群体之间看似微小的准确性差异可能会扩大到大群体，从而影响特定人口统计数据的公平性。

该研究的合著者强调了一项案例研究，其中要求测试对象根据他们确定的指标选择“公平”的皮肤癌检测模型。绝大多数情况下，受试者选择了准确度最高的模型——尽管它表现出最大的性别差异。研究人员断言，这在表面上是有问题的，因为准确度指标没有提供假阴性(错过癌症诊断)和假阳性(在癌症实际上不存在时错误地诊断出癌症)的细分。包括这些指标可能会使受试者偏向于对哪种模型“最好”做出不同的选择。

算法之间的架构差异也可能导致有偏差的结果。在 2020 NeurIPS 会议接受的一篇论文中，谷歌和斯坦福大学的研究人员探讨了某些类型的计算机视觉算法——卷积神经网络 (CNN)——在开源 ImageNet 数据集上训练所表现出的偏差。他们的工作表明，CNN 对纹理的偏向可能不是来自内部工作的差异，而是来自他们看到的数据的差异：CNN 倾向于根据材料(例如“方格”)和人类形状(例如“圆形”)对物体进行分类。 ”)。

鉴于涉及的各种因素，65% 的高管无法解释他们公司的模型如何做出决策也就不足为奇了。

虽然识别和消除人工智能中的偏见可能仍然存在挑战，特别是当研究发现了偏见缓解技术的缺陷时，可以采取预防措施。例如，哥伦比亚大学一个团队的一项研究发现，数据科学团队的多样性是减少算法偏差的关键。研究小组发现，虽然就个人而言，每个人或多或少都有相同的偏见，但在种族、性别和民族方面，男性更有可能犯相同的预测错误。这表明团队越同质，给定的预测错误出现两次的可能性就越大。

“关于算法偏差的问题通常被定义为理论计算机科学问题。然而，生产化算法是由人类开发的，在组织内部工作，他们受到培训、说服、文化、激励和实施摩擦的影响，”研究人员在他们的论文中写道。

鉴于其他研究表明人工智能行业建立在地理和社会不平等之上;该数据集准备的人工智能研究是非常不一致的;由于很少有主要 AI 研究人员在已发表的论文中讨论他们工作的潜在负面影响，因此一种深思熟虑的 AI 部署方法变得越来越重要。未能负责任地实施模式可能——而且已经——导致健康结果参差不齐、刑事判决不公正、言论含糊、住房和贷款歧视，甚至被剥夺权利。如果有缺陷的算法激增，危害只会变得更加普遍。