自动化系统教导用户何时与人工智能助手合作_电子与半导体

Automated system teaches users when to collaborate with an AI assistant

人工智能模型能够识别图像中的模式，通常比人眼做得更好，但也不总是如此。如果放射科医生正在使用人工智能模型来帮助她确定病人的x光片是否显示出肺炎的迹象，那么她什么时候应该相信模型的建议，什么时候应该忽略它?

麻省理工学院和麻省理工学院- ibm沃森人工智能实验室的研究人员表示，定制的入职流程可以帮助放射科医生回答这个问题。他们设计了一个系统，教用户何时与人工智能助手合作。

在这种情况下，训练方法可能会发现放射科医生信任模型建议的情况——除非她不应该信任模型，因为模型是错误的。系统自动学习她应该如何与人工智能合作的规则，并用自然语言描述这些规则。

在入职期间，放射科医生使用基于这些规则的训练练习与人工智能合作，并获得关于她的表现和人工智能表现的反馈。

研究人员发现，当人类和人工智能合作完成图像预测任务时，这种入职程序使准确率提高了约5%。他们的研究结果还表明，在没有经过训练的情况下，仅仅告诉用户何时信任人工智能会导致更糟糕的表现。

重要的是，研究人员的系统是全自动的，因此它可以根据人类和人工智能执行特定任务的数据来学习创建入职流程。它还可以适应不同的任务，因此可以扩大规模，并在人类和人工智能模型共同工作的许多情况下使用，例如社交媒体内容审核、写作和编程。

“通常情况下，人们在没有经过任何培训的情况下使用这些人工智能工具来帮助他们弄清楚什么时候会有帮助。这不是我们对人们使用的几乎所有其他工具所做的——几乎总是有一些教程。但对于人工智能来说，这似乎是缺失的。我们正试图从方法论和行为的角度来解决这个问题，”侯赛因·莫扎纳尔说，他是数据、系统和社会研究所(IDSS)社会与工程系统博士项目的研究生，也是一篇关于这一培训过程的论文的主要作者。

研究人员设想，这种入职培训将成为医疗专业人员培训的关键部分。

“例如，人们可以想象，在人工智能的帮助下做出治疗决定的医生首先必须接受类似于我们建议的培训。我们可能需要重新思考从继续医学教育到临床试验设计方式的一切，”资深作者David Sontag说，他是EECS教授，麻省理工学院- ibm沃森人工智能实验室和麻省理工学院Jameel诊所的成员，也是计算机科学和人工智能实验室(CSAIL)临床机器学习小组的负责人。

Mozannar也是临床机器学习小组的一名研究员，与他一起撰写论文的还有Jimin J. Lee，他是电气工程和计算机科学专业的本科生;Dennis Wei, IBM研究院高级研究科学家;以及麻省理工学院- ibm沃森人工智能实验室的研究人员Prasanna Sattigeri和Subhro Das。该论文可在arXiv预印本服务器上获得，并将在神经信息处理系统会议上发表。

不断发展的培训

现有的人类与人工智能协作的入职方法通常由人类专家为特定用例制作的培训材料组成，这使得它们难以扩大规模。一些相关的技术依赖于解释，人工智能告诉用户它对每个决定的信心，但研究表明，解释很少有帮助，莫扎纳说。

“人工智能模型的功能在不断发展，因此人类可能从中受益的用例随着时间的推移而增长。与此同时，用户对模型的感知也在不断变化。因此，我们需要一个随着时间发展的培训程序，”他补充道。

为了实现这一点，他们的入职方法是自动从数据中学习的。它是由一个包含许多任务实例的数据集构建的，例如从模糊的图像中检测交通灯的存在。

该系统的第一步是收集执行该任务的人和人工智能的数据。在这种情况下，人类将尝试在人工智能的帮助下预测模糊的图像是否包含交通灯。

系统将这些数据点嵌入到潜在空间中，这是一种数据的表示，其中相似的数据点在一起更近。它使用一种算法来发现这个空间中人类与人工智能合作不正确的区域。这些区域捕获了人类信任AI预测但预测错误的实例，反之亦然。

也许当图像显示夜间高速公路时，人类错误地相信了人工智能。

在发现区域后，第二种算法利用大型语言模型使用自然语言将每个区域描述为规则。该算法通过寻找对比的例子来迭代地微调规则。它可能会把这个区域描述为“当人工智能是夜间高速公路时，忽略它”。

这些规则用于建立训练练习。车载系统向人类展示了一个例子，在这个例子中是夜间模糊的高速公路场景，以及人工智能的预测，并询问用户图像是否显示交通灯。用户可以回答“是”、“不是”，或者使用人工智能的预测。

如果人工回答错了，系统会向他们显示正确答案，以及人工智能和人工智能在这些任务实例上的性能统计数据。该系统对每个区域都这样做，在训练过程结束时，重复人类出错的练习。

“在那之后，人类对这些区域有了一些了解，我们希望他们能在未来带走这些知识，以做出更准确的预测，”莫札纳尔说。

o新入职提高准确性

研究人员对这个系统进行了两项测试:在模糊的图像中检测交通灯，以及回答来自许多领域(如生物学、哲学、计算机科学等)的多项选择题。

他们首先向用户展示了一张卡片，上面有关于人工智能模型的信息，它是如何训练的，以及它在广泛类别上的表现。用户被分成五组:一些人只看到卡片，一些人经历了研究人员的入职程序，一些人经历了基线入职程序，一些人经历了研究人员的入职程序，并得到了他们应该或不应该相信人工智能的建议，而其他人只得到了建议。

只有研究人员在没有推荐的情况下的入职程序显著提高了用户的准确性，在不降低速度的情况下，将他们在红绿灯预测任务中的表现提高了约5%。然而，在问答任务中，入职并没有那么有效。研究人员认为，这是因为人工智能模型ChatGPT为每个答案提供了解释，传达了它是否应该被信任。

但是，在没有登录的情况下提供推荐会产生相反的效果——用户不仅表现得更差，而且他们需要更多的时间来进行预测。

“当你只给别人推荐时，他们似乎会感到困惑，不知道该怎么做。它详细说明了他们的过程。人们也不喜欢被告知该做什么，所以这也是一个因素，”莫扎纳说。

他补充说，如果这些建议是错误的，单独提供建议可能会伤害用户。另一方面，对于入职，最大的限制是可用数据的数量。他说，如果没有足够的数据，入职阶段就不会那么有效。

在未来，他和他的合作者希望进行更大规模的研究，以评估入职培训的短期和长期影响。他们还希望在入职过程中利用未标记的数据，并找到在不遗漏重要示例的情况下有效减少区域数量的方法。

更多信息:Hussein Mozannar等人，通过学习自然语言规则和Onboarding有效的人类人工智能团队，arXiv(2023)。DOI: 10.48550/ arXiv .2311.01007

麻省理工学院提供

本文由麻省理工学院新闻(web.mit.edu/newsoffice/)转载，这是一个报道麻省理工学院研究、创新和教学新闻的热门网站。

引用:自动化系统教用户何时与人工智能助手协作(2023,12月7日)2023年12月7日检索自https://techxplore.com/news/2023-12-automated-users-collaborate-ai.html本文档作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。的有限公司内容仅供参考之用。