理解对象关系的人工智能_电子与半导体

Artificial intelligence that understands object relationships

当人们看一个场景时，他们看到的是物体以及它们之间的关系。在你的桌子上，可能有一台笔记本电脑，它坐在电话的左边，在电脑显示器前面。

许多深度学习模型很难以这种方式看待世界，因为它们不理解单个对象之间的纠缠关系。如果不了解这些关系，一个被设计用来在厨房里帮助别人的机器人将很难执行命令，比如“拿起炉子左边的抹刀，把它放在砧板上。”

为了解决这个问题，麻省理工学院的研究人员开发了一个模型，可以理解场景中物体之间的潜在关系。他们的模型每次表示一个个体关系，然后结合这些表示来描述整个场景。这使得模型能够从文本描述中生成更精确的图像，即使场景中包括几个以不同关系排列的物体。

这项工作可以应用于工业机器人必须执行复杂、多步骤操作任务的情况，比如在仓库里堆放物品或组装电器。它还使该领域向使机器能够更像人类那样从环境中学习并与环境互动迈进了一步。

“当我看表时，我不能说在XYZ位置有一个对象。我们的思想不是那样工作的。在我们的脑海中，当我们理解一个场景时，我们真的是基于物体之间的关系来理解它。我们认为，通过构建一个能够理解物体之间关系的系统，我们可以使用该系统更有效地操纵和改变我们的环境，”计算机科学与人工智能实验室(CSAIL)博士生、该论文的联合首席作者杜一伦说。

论文的共同作者是加州理工学院博士生李爽和伊利诺伊大学香槟分校研究生刘楠;以及Joshua B. Tenenbaum，大脑和认知科学系认知科学和计算Paul E. Newton职业发展教授和CSAIL成员;资深作者Antonio Torralba是Delta电子工程和计算机科学教授，也是CSAIL的成员。这项研究将在12月的神经信息处理系统会议上发表。

一个关系一次用Nship

研究人员开发的框架可以根据对物体及其关系的文字描述生成场景图像，比如“蓝色凳子左边的一张木桌”。蓝色凳子右边的红色沙发。”

他们的系统会把这些句子分成两个更小的部分来描述每个个体的关系(“蓝色凳子左边的一张木桌”和“蓝色凳子右边的一张红沙发”)，然后分别为每个部分建模。然后通过优化过程将这些片段组合起来，生成场景的图像。

研究人员使用一种名为能量模型的机器学习技术来表示场景描述中的单个对象关系。这种技术使他们能够使用一个基于能量的模型来编码每个关系描述，然后以推断所有对象和关系的方式将它们组合在一起。

通过将每段关系的句子分解成更短的片段，系统可以以多种方式重新组合它们，所以它能够更好地适应从未见过的场景描述，李解释道。

“其他系统会从整体上处理所有关系，并从描述中一次性生成图像。然而，当我们有分布外的描述时，比如有更多关系的描述，这种方法就失败了，因为这些模型并不能真正适应一个镜头来生成包含更多关系的图像。然而，当我们将这些独立的、较小的模型组合在一起时，我们可以建模更多的关系，并适应新的组合，”杜说。

该系统也可以反向工作，在给定的图像中，它可以找到匹配场景中物体之间关系的文本描述。此外，他们的模型还可以用来编辑图像，通过重新安排场景中的对象，使它们符合新的描述。

理解复杂的场景

研究人员将他们的模型与其他深度学习方法进行了比较，后者的任务是生成显示相应物体及其关系的图像。在每个实例中，他们的模型都优于基线。

他们还要求人类评估生成的图像是否与原始场景描述相符。在描述包含三种关系的最复杂的例子中，91%的参与者认为新模型表现得更好。

“我们发现一个有趣的一点是,我们的模型,我们可以增加我们的句子从一个关系描述,有两个或三个,甚至四个描述,和我们的方法仍然能够正确描述生成图像的描述,而其他方法失败了,”杜说。

研究人员还展示了它之前没有见过的场景的模型图像，以及每幅图像的几种不同的文字描述，它能够成功地识别出最匹配图像中对象关系的描述。

当研究人员给系统两个相关的场景描述，以不同的方式描述同一幅图像时，模型能够理解这两个描述是等效的。

研究人员对他们的模型的稳健性印象深刻，尤其是在处理之前从未遇到过的描述时。

“这是非常有前途的，因为它更接近人类的工作方式。人类可能只看到几个例子，但我们可以从这几个例子中提取有用的信息，并将它们组合在一起，创造无限的组合。我们的模型有这样一种特性，它可以从更少的数据中学习，但归纳到更复杂的场景或图像生成，”李说。

虽然这些早期结果令人鼓舞，但研究人员希望看到他们的模型在现实世界的图像上表现如何，这些图像更复杂，背景嘈杂，物体互相阻挡。

他们也有兴趣最终将他们的模型整合到机器人系统中，使机器人能够从视频中推断物体之间的关系，然后应用这些知识来操纵世界上的物体。

“开发能够处理我们周围世界组成性质的视觉表征是计算机视觉的关键开放问题之一。本文通过提出一种基于能量的模型，明确地模拟图像中描述的对象之间的多种关系，在这一问题上取得了重大进展。结果真的令人印象深刻，”捷克技术大学(Czech Technical University)捷克信息、机器人和控制论研究所(Czech Institute of Informatics, Robotics, and控制论)的杰出研究员约瑟夫·斯维克(Josef Sivic)说，他没有参与这项研究。