研究人员为基于语言的任务规划器开发了一个自动基准

放大字体  缩小字体 2024-04-27 16:21  浏览次数:

ETRI develops an automated benchmark for labguage-ba<em></em>sed task planners

如果指示机器人“将冷却的苹果放入微波炉”,机器人会如何反应?最初,机器人需要找到一个苹果,把它捡起来,找到冰箱,打开冰箱的门,把苹果放进去。随后,它会关上冰箱门,重新打开冰箱门取出冷却的苹果,再拿起苹果,关上冰箱门。接下来,机器人需要找到微波炉,打开微波炉门,把苹果放进去,然后关上微波炉门。

评估这些步骤的执行情况体现了对任务规划人工智能技术进行基准测试的本质。它衡量的是机器人对命令的反应和遵守指定程序的效率。

电子通信研究所(ETRI)研究小组开发了一种自动评估大型语言模型(llm)生成的任务计划性能的技术,为快速客观地评估任务计划人工智能铺平了道路。

ETRI宣布开发LoTa-Benchmark (LoTa-Bench),它可以自动评估基于语言的任务规划器。基于语言的任务规划器理解来自人类用户的口头指令,计划一系列操作,并自主执行指定的操作以实现指令的目标。

研究小组在国际学习表征会议(ICLR)上发表了一篇论文,并通过GitHub分享了总共33个大型语言模型的评估结果。

ETRI develops an automated benchmark for labguage-ba<em></em>sed task planners

最近,法学硕士不仅在语言处理、对话、解决数学问题和逻辑证明方面表现出色,而且在理解人类命令、自主选择子任务并依次执行它们以实现目标方面也表现出色。因此,在机器人应用程序和服务实现中应用大型语言模型已经得到了广泛的努力。

以前,缺乏能够自动评估任务规划性能的基准技术,需要人工评估,这是劳动密集型的。例如,在现有的研究中,包括谷歌的SayCan,采用的方法是让多人直接观察正在执行的任务的结果,然后对其成功或失败进行投票。

这种方法不仅需要大量的时间和精力进行性能评估,使其变得繁琐,而且还引入了影响结果的主观判断问题。

ETRI开发的LoTa-Bench技术通过实际执行基于用户命令的大型语言模型生成的任务计划来自动化评估过程,并自动将结果与命令的预期结果进行比较,以确定计划是否成功。这种方法大大减少了评估时间和成本,保证了评估结果的客观性。

ETRI公布了不同大型语言模型的基准测试结果,OpenAI的GPT-3的成功率为21.36%,GPT-4的成功率为40.38%,meta的LLaMA 2-70B模型的成功率为18.27%,MosaicML的MPT-30B模型的成功率为18.75%。

ETRI develops an automated benchmark for labguage-ba<em></em>sed task planners

有人指出,较大的模型往往具有优越的任务规划能力。20%的成功率意味着在100个指令中,有20个计划成功地实现了指令的目标。

在LoTa-Bench中,性能评估是在艾伦人工智能研究所(AI2-THOR)和麻省理工学院(MIT's VirtualHome)开发的虚拟仿真环境中进行的,旨在研究和开发机器人技术和嵌入式代理智能。评估利用了阿尔弗雷德数据集,其中包括日常家庭任务说明,如“将冷却的苹果放入微波炉”等。

利用LoTa-Bench技术轻松快速验证新任务规划方法的优势,研究团队发现了两种通过数据驱动训练提高任务规划性能的策略:上下文示例选择和基于反馈的重新规划。他们还证实,微调有效地提高了基于语言的任务规划的性能。

ETRI社会机器人实验室首席研究员Minsu Jang表示:“LoTa-Bench标志着任务规划人工智能发展的第一步。我们计划研究和开发能够在不确定的情况下预测任务失败的技术,或者通过请求和接受人类的帮助来提高任务生成智能。这项技术对于实现每户一台机器人的时代至关重要。”

ETRI社会机器人研究科科长金在宏表示:“ETRI致力于利用基础模型,实现能够在现实世界中生成和执行各种任务计划的机器人,从而提高机器人的智能水平。”

ETRI研究人员预测,如果将该软件公开,企业和教育机构可以自由地利用该技术,从而加快相关技术的发展。

更多信息:Choi等人,LoTa-Bench:对具体代理的面向语言的任务规划器进行基准测试,ICLR(国际学习表征会议(2024))由国家科学技术研究委员会提供引文:研究人员开发了基于语言的任务规划器的自动化基准(2024,4月26日)检索自https://techxplore.com/news/2024-04-automated-benchmark-language-based-task.html。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。内容仅供参考之用。

热门搜索排行
声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱
晋ICP备17002844号
中国互联网举报中心