方向盘上的声音:研究介绍了人工智能系统的编码器-解码器框架_电子与半导体

Voice at the wheel: Commands navigates, wisdom travels from COMMTR2024

近日，澳门大学智慧城市物联网国家重点实验室徐成忠教授和李振宁助理教授领导的团队推出了情境感知视觉接地模型(CAVG)。

该模型是首个将自然语言处理与大型语言模型相结合的Visual Grounding自动驾驶模型。他们的研究发表在《交通研究通讯》杂志上。

随着人们对自动驾驶技术的兴趣日益浓厚，汽车和科技行业的行业领导者已经向公众展示了无人驾驶汽车的能力，可以安全地绕过障碍物并处理紧急情况。

然而，公众对将完全控制权交给人工智能系统持谨慎态度。这凸显了开发一种能够让乘客发出语音命令来控制车辆的系统的重要性。这样的努力涉及两个关键领域:计算机视觉和自然语言处理(NLP)。

一项关键的研究挑战在于采用跨模式算法在复杂的口头指令和现实环境之间建立强大的联系，从而使驾驶系统能够掌握乘客的意图，并在不同的目标中进行智能选择。

为了应对这一挑战，Thierry Deruyttere及其同事于2019年发起了Talk2Car挑战。这项竞赛要求研究人员根据提供的文本描述，在真实交通场景的前视图像中精确定位语义上最准确的区域。

Voice at the wheel: Commands navigates, wisdom travels from COMMTR2024

由于大型语言模型(llm)的迅速发展，与自动驾驶汽车进行语言交互的可能性已经成为现实。本文首先提出了将文本指令与视觉场景对齐作为映射任务的挑战，需要将文本描述转换为准确对应于潜在候选中最合适的子区域的向量。

为了解决这个问题，本文引入了CAVG模型，该模型以跨模态注意机制为基础。在两阶段方法框架的基础上，CAVG采用CenterNet模型来描绘图像中的许多候选区域，随后为每个区域提取区域特征向量。该模型围绕编码器-解码器框架构建，包括用于文本、情感、视觉和上下文的编码器，以及跨模态编码器和多模态解码器。

为了巧妙地驾驭上下文语义的复杂性和人类情感的细微差别，本文利用了GPT-4V，集成了一种新的多头跨模态注意机制和区域特定动力学(RSD)层。这一层有助于调节注意力和解释跨模态输入，从而促进识别与所有候选区域中给定指令最密切一致的区域。

此外，为了评估模型的通用性，研究设计了特定的测试环境，这些环境带来了额外的复杂性:低能见度夜间环境、以密集交通和复杂物体相互作用为特征的城市场景、指令模糊的环境以及能见度显著降低的场景。这些条件的设计是为了加强准确预测的挑战。

根据研究结果，所提出的模型在Talk2Car数据集上建立了新的基准，在CAVG(50%)和CAVG(75%)配置中，仅用一半的数据就获得了令人印象深刻的结果，显示出显著的效率，并且在各种专门的挑战数据集上表现出卓越的性能。

未来的研究将致力于提高自动导航中文本命令与视觉数据集成的精度，同时利用大型语言模型的潜力，在自动驾驶技术中充当复杂的助手。

本文将探讨一系列扩展的数据模式，包括鸟瞰(BEV)图像和轨迹数据等。该方法旨在构建能够综合和利用多方面模态信息的综合深度学习策略，从而显著提高所讨论模型的效率和性能。

更多信息:廖海成等，GPT-4增强的自动驾驶多模式接地:利用大语言模型的跨模式关注，Communications in Transportation Research(2024)。引文:车轮上的声音:研究介绍了AI系统的编码器-解码器框架(2024,4月29日)检索自2024年4月29日https://techxplore.com/news/2024-04-voice-wheel-encoder-decoder-framework.html此文档受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。内容仅供参考之用。