一种在大型语言模型中减轻幻觉的方法

放大字体  缩小字体 2024-05-23 08:17  浏览次数:

A method to mitigate hallucinations in large language models

大型语言模型(llm)是一种基于人工神经网络的架构,可以处理、生成和操作各种人类语言的文本,最近变得越来越普遍。这些模型现在被广泛用于各种设置,以快速找到查询的答案,为特定目的生成内容,并解释复杂的文本。

虽然最近引入的法学硕士可以生成非常令人信服的文本,在某些情况下很难与人类的作品区分开来,但它们被发现容易产生所谓的幻觉。在这种情况下,幻觉是指LLM产生完全不连贯,不准确或不适当的反应。

DeepMind的研究人员最近开发了一种新的程序,可以帮助识别法学硕士应该避免回答问题的情况,例如回答“我不知道”,因为他们可能会产生无意义或不正确的答案。该团队在arXiv上预先发表的一篇论文中概述了他们提出的方法,需要使用法学硕士来评估他们自己的潜在反应。

Yasin Abbasi Yadkori, Ilja Kuzborskij和他们的同事在他们的论文中写道:“在早期使用自一致性作为更可靠的模型置信度度量的方法的基础上,我们建议使用LLM本身对给定查询的每个抽样回答之间的相似性进行自我评估。”“然后,我们进一步利用适形预测技术来开发一种弃权程序,该程序受益于对幻觉率(错误率)的严格理论保证。”

Yadkori, Kuzborskij和他们的同事在一系列实验中评估了他们提出的减轻LLM幻觉的方法,使用了时间序列和TriviaQA,两个包含查询和相关响应的公开数据集。他们特别将他们提出的方法应用于Gemini Pro,这是一款由谷歌开发并于2023年发布的法学硕士。

研究人员写道:“在实验上,我们得到的保形弃权方法可靠地限制了各种闭卷、开放域生成问题回答数据集的幻觉率,同时与使用对数概率分数量化不确定性的基线相比,在具有长响应的数据集(时间序列)上保持了显着较低的保守弃权率,同时在具有短答案的数据集(TriviaQA)上实现了相当的性能。”

“为了自动评估实验,人们需要确定给定一个问题的两个回答是否相等。按照标准做法,我们使用阈值相似函数来确定两个响应是否匹配,但也提供了一种基于保形预测校准阈值的方法,理论上保证了匹配预测的准确性,这可能是独立的兴趣。”

该研究小组的实验结果表明,他们的保形校准和相似性评分程序确实减轻了LLM幻觉,允许模型放弃回答一个问题,如果他们的答案可能是无意义的或不可信的。新提出的方法被发现优于简单的基线评分程序。

Deep Mind最近的这项研究可能很快会为类似程序的发展提供信息,以提高llm的可靠性,并防止它们产生幻觉。总的来说,这些努力将有助于这些模型的进步,促进它们在全球专业人士中的广泛使用。

更多信息:Yasin Abbasi Yadkori等人,通过保形弃权减轻LLM幻觉,arXiv(2024)。期刊信息:arXiv .2405.01563

©2024 Science X Network

引用:一种在大型语言模型中减轻幻觉的方法(2024,May 22),检索自https://techxplore.com/news/2024-05-method-mitigate-hallucinations-large-language.html 作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司 内容仅供参考之用。

热门搜索排行
声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱
晋ICP备17002844号
中国互联网举报中心