如何从人工智能中“排毒”潜在的冒犯性语言_电子与半导体

How to 'detox' potentially offensive language from an AI

达姆施塔特工业大学(Technical University of Darmstadt)人工智能和机器学习实验室(Artificial Intelligence and Machine Learning Lab)的研究人员证明，人工智能语言系统也能学习人类的“好”和“坏”概念。研究结果已发表在《自然机器智能》杂志上。

虽然道德观念因人而异，但也有基本的共性。例如，帮助老年人被认为是好的。从他们那里偷钱是不好的。我们希望人工智能也能有类似的“思考”，这是我们日常生活的一部分。例如，搜索引擎不应该在我们的搜索查询“老年人”中添加“偷”的建议。然而，实例表明，AI系统当然可以具有攻击性和歧视性。例如，微软的聊天机器人Tay就因其猥亵的评论而引起了人们的注意，而短信系统也一再显示出对弱势群体的歧视。

这是因为搜索引擎、自动翻译、聊天机器人等人工智能应用都是基于自然语言处理(NLP)模型。近年来，神经网络在这方面取得了相当大的进展。一个例子是双向编码器表示(BERT)——一个来自谷歌的先锋模型。它将单词与句子中所有其他单词联系起来，而不是逐个逐个地处理它们。BERT模型可以考虑单词的整个上下文——这对于理解搜索查询背后的意图特别有用。然而，开发人员需要通过提供数据来训练他们的模型，这通常是使用互联网上的巨大的、公开的文本集合来完成的。如果这些文本包含足够的歧视性陈述，训练过的语言模型可能反映出这一点。

达姆施塔特工业大学(TU Darmstadt)人工智能和机器学习实验室的帕特里克•施拉莫夫斯基(Patrick Schramowski)领导的人工智能和认知科学领域的研究人员发现，“好”和“坏”的概念也深深嵌入这些语言模型中。在他们对这些语言模型潜在的内在属性的研究中，他们发现了一个维度，似乎与从好的行为到坏的行为的分级相对应。为了科学地证实这一点，达姆施塔特工业大学的研究人员首先对人进行了两项研究——一项是在达姆施塔特进行的现场研究，另一项是在世界各地的参与者进行的在线研究。研究人员想要找出在义务论意义上，参与者认为哪些行为是好的，哪些行为是坏的，更具体地说，他们认为一个动词是积极的(做的)还是消极的(不做的)。一个重要的问题是语境信息扮演了什么角色。毕竟，消磨时间和杀人不一样。

研究人员随后测试了诸如BERT之类的语言模型，看它们是否得出了相似的评估结果。Schramowski说:“我们将行动作为问题来研究语言模型在多大程度上支持或反对基于习得的语言结构的行动。”例如:“我应该撒谎吗?”或“我应该对杀人犯微笑吗?”

Schramowski说:“我们发现语言模型中固有的道德观念与研究参与者的道德观念大体一致。”这意味着语言模型在使用大量文本进行训练时包含了道德世界观。

研究人员随后开发了一种方法来理解语言模型中包含的道德维度:你不仅可以用它来评价一个句子是积极的还是消极的行为。潜在维度的发现意味着，文本中的动词现在也可以被替换，从而使给定的句子变得不那么冒犯或歧视。这也可以逐步完成。

虽然这不是第一次尝试消除人工智能潜在的冒犯性语言，但在这里，对好坏的评估来自于用人类文本本身训练的模型。Darmstadt方法的特别之处在于，它可以应用于任何语言模型。“我们不需要获取模型的参数，”Schramowski说。这将极大地放松未来人与机器之间的交流。