自然语言提高LLM在编码、规划和机器人方面的表现_电子与半导体

Natural language boosts LLM performance in coding, planning and robotics

大型语言模型(llm)在编程和机器人任务中变得越来越有用，但对于更复杂的推理问题，这些系统与人类之间的差距越来越大。由于没有像人类那样学习新概念的能力，这些系统无法形成良好的抽象——本质上是对复杂概念的高级表示，而忽略了不太重要的细节——因此，当被要求完成更复杂的任务时，这些系统就会断断续续。

幸运的是，麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员发现了自然语言中抽象的宝库。在将于本月在国际学习表征会议上发表的三篇论文中，该小组展示了我们的日常词汇如何成为语言模型的丰富上下文来源，帮助他们为代码合成、人工智能规划和机器人导航和操作建立更好的总体表征。这三篇论文也可以在arXiv预印本服务器上找到。

这三个独立的框架为它们给定的任务构建抽象库:LILO(基于语言观察的库归纳)可以合成、压缩和记录代码;Ada(动作域获取)探讨了人工智能代理的顺序决策;LGA(语言引导抽象)帮助机器人更好地理解环境，从而制定更可行的计划。每个系统都是一种神经符号方法，一种混合了类人神经网络和类程序逻辑组件的人工智能。

神经符号f编码的框架

大型语言模型可以用于快速编写小规模编码任务的解决方案，但还不能像人类软件工程师编写的那样构建整个软件库。为了进一步发挥其软件开发能力，AI模型需要重构(削减并组合)代码，使其成为简洁、可读和可重用的程序库。

像麻省理工学院领导的Stitch算法这样的重构工具可以自动识别抽象，因此，为了向迪士尼电影“Lilo & Stitch”致敬，CSAIL的研究人员将这些算法重构方法与llm结合起来。他们的神经符号方法LILO使用标准的LLM编写代码，然后将其与Stitch配对以查找库中全面记录的抽象。

LILO对自然语言的独特强调使系统能够完成需要类似人类常识的任务，例如从一串代码中识别和删除所有元音，以及绘制雪花。在这两种情况下，CSAIL系统的表现都超过了独立的llm，以及麻省理工学院之前的一个名为DreamCoder的图书馆学习算法，这表明它有能力对提示中的单词进行更深入的理解。

这些令人鼓舞的结果表明，LILO可以帮助编写程序来操作Excel电子表格等文档，帮助AI回答有关视觉效果的问题，以及绘制2D图形。

“语言模型更喜欢用自然语言命名的函数，”麻省理工学院电子工程和计算机科学博士生、CSAIL附属机构、该研究的主要作者Gabe Grand说。“我们的工作为语言模型创建了更直接的抽象，并为每个模型分配了自然的语言名称和文档，从而为程序员提供了更可解释的代码，并提高了系统性能。”

当编程任务提示时，LILO首先使用LLM根据训练数据快速提出解决方案，然后系统慢慢地更详尽地搜索外部解决方案。接下来，Stitch有效地识别代码中的公共结构并提取有用的抽象。然后由LILO自动命名和记录这些程序，从而产生简化的程序，系统可以使用这些程序来解决更复杂的任务。

麻省理工学院的框架用特定领域的编程语言编写程序，比如Logo，这是麻省理工学院在20世纪70年代开发的一种语言，用来教孩子们编程。扩展自动重构算法以处理更通用的编程语言(如Python)将是未来研究的重点。尽管如此，他们的工作代表了语言模型如何促进越来越复杂的编码活动的进步。

Ada:自然语言指导AI任务规划

就像编程一样，在家庭和基于命令的电子游戏中自动执行多步骤任务的人工智能模型缺乏抽象。想象一下，你正在做早餐，让你的室友把一个热鸡蛋端到桌子上——他们会本能地把他们在你的厨房里烹饪的背景知识抽象成一系列的动作。相比之下，受过类似信息培训的法学硕士仍将难以推断出他们需要什么来构建一个灵活的计划。

以著名数学家Ada Lovelace的名字命名，许多人认为Ada是世界上第一个程序员，csail领导的“Ada”框架通过开发虚拟厨房琐事和游戏的有用计划库，在这个问题上取得了进展。该方法对潜在任务及其自然语言描述进行训练，然后用语言模型从该数据集提出动作抽象。人工操作员对最佳计划进行评分并将其过滤到库中，以便将最佳可能的操作实现到针对不同任务的分层计划中。

“传统上，由于抽象推理等问题，大型语言模型在处理更复杂的任务时遇到了困难，”Ada首席研究员Lio Wong说，他是麻省理工学院大脑和认知科学研究生，CSAIL附属机构，LILO的合著者。“但我们可以将软件工程师和机器人专家使用的工具与法学硕士结合起来，解决难题，比如在虚拟环境中做出决策。”

当研究人员将广泛使用的大型语言模型GPT-4纳入Ada时，该系统在厨房模拟器和Mini Minecraft中完成的任务比人工智能决策基准“代码即政策”完成的任务更多。艾达利用隐藏在自然语言中的背景信息，了解如何将冰镇葡萄酒放在橱柜中，以及如何制作床。结果显示，任务准确率分别提高了惊人的59%和89%。

有了这次成功，研究人员希望将他们的工作推广到现实世界的家庭中，希望Ada可以协助其他家庭任务，并在厨房里帮助多个机器人。目前，它的主要限制是它使用了一个通用的LLM，因此CSAIL团队希望应用一个更强大、更精细的语言模型，以帮助进行更广泛的规划。Wong和她的同事们也在考虑将Ada与CSAIL新推出的机器人操作框架:LGA(语言引导抽象)结合起来。

语言引导的抽象:机器人任务的表示

麻省理工学院电子工程与计算机科学研究生、CSAIL附属机构的安迪·彭(Andi Peng)和她的合著者设计了一种方法，帮助机器更像人类一样解读周围环境，在工厂或厨房等复杂环境中剔除不必要的细节。就像LILO和Ada一样，LGA新颖地关注自然语言如何引导我们获得更好的抽象。

在这些更加非结构化的环境中，机器人需要对自己的任务有一些常识，甚至需要事先接受基本的训练。例如，让机器人递给你一个碗，机器将需要大致了解周围环境中哪些特征是重要的。从那里，它可以推理如何给你你想要的东西。

在LGA的例子中，人类首先使用自然语言提供一个预训练的语言模型，其中包含一般任务描述，例如“把我的帽子拿来”。然后，模型将此信息转换为执行此任务所需的基本元素的抽象。最后，经过少量演示训练的模仿策略可以实现这些抽象，以指导机器人抓取所需的物品。

以前的工作需要一个人对不同的操作任务做大量的笔记来预训练机器人，这可能很昂贵。值得注意的是，LGA引导语言模型生成类似于人类注释器的抽象，但时间更短。

为了说明这一点，LGA制定了机器人政策，帮助波士顿动力公司的Spot四足机器人捡起水果，把饮料扔进回收箱。这些实验表明，麻省理工学院开发的方法可以扫描世界，并在非结构化环境中制定有效的计划，有可能指导道路上的自动驾驶汽车，以及在工厂和厨房工作的机器人。

“在机器人领域，我们经常忽略的一个事实是，为了让机器人在现实世界中发挥作用，我们需要多少改进我们的数据，”彭说。“除了简单地记忆图像中的内容来训练机器人执行任务外，我们还希望利用计算机视觉和字幕模型与语言相结合。通过根据机器人看到的内容生成文本标题，我们表明语言模型可以为机器人构建重要的世界知识。”

LGA面临的挑战是，有些行为无法用语言解释，这使得某些任务没有得到充分说明。为了扩展它们在环境中表现特征的方式，彭和她的同事正在考虑将多模态可视化界面整合到他们的工作中。与此同时，LGA为机器人在向人类伸出援助之手时更好地感知周围环境提供了一种方法。

人工智能的“令人兴奋的前沿”

威斯康星大学麦迪逊分校(University of Wisconsin-Madison)的助理教授罗伯特·霍金斯(Robert Hawkins)表示:“图书馆学习代表了人工智能领域最令人兴奋的前沿之一，它为发现和推理构成抽象提供了一条途径。”霍金斯没有参与这些论文的研究。Hawkins指出，以前探索这一主题的技术“计算成本太高，无法大规模使用”，并且它们生成的lambda(用于描述许多语言中新函数的关键字)存在问题。

“他们倾向于制造不透明的‘lambda沙拉’，一大堆难以解释的函数。这些最近的论文通过将大型语言模型放置在具有符号搜索、压缩和规划算法的交互式循环中，展示了一种引人注目的前进方式。这项工作可以为手头的任务快速获取更多可解释和自适应的库。”

通过使用自然语言构建高质量代码抽象库，这三种神经符号方法使语言模型在未来更容易处理更复杂的问题和环境。对提示中精确关键字的深入理解为开发更像人类的人工智能模型提供了一条前进的道路。

更多信息:Gabriel Grand等人，LILO:通过压缩和记录代码来学习可解释的库，arXiv(2023)。DOI: 10.48550 / arxiv.2310.19791

Lionel Wong等人，基于自然语言指导的自适应规划表示学习，arXiv(2023)。DOI: 10.48550 / arxiv.2312.08566

彭安迪等，基于语言引导的状态抽象学习，中文信息学报，第14期(2024)。DOI: 10.48550 / arxiv.2402.18759

期刊信息: arXiv
麻省理工学院提供

本文由麻省理工学院新闻(web.mit.edu/newsoffice/)转载，这是一个报道麻省理工学院研究、创新和教学新闻的热门网站。

引用:自然语言提高LLM在编码、规划和机器人方面的性能(2024,5月1日作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。的有限公司内容仅供参考之用。