研究人员教人工智能写更好的图表说明_电子与半导体

解释复杂趋势和模式的图表标题对于提高读者理解和保留所呈现数据的能力非常重要。对于有视觉障碍的人来说，标题中的信息通常是他们理解图表的唯一途径。

但是写出有效的、详细的说明文字是一个劳动密集型的过程。虽然自动描述技术可以减轻这种负担，但它们常常难以描述提供额外上下文的认知特征。

为了帮助人们编写高质量的图表标题，麻省理工学院的研究人员开发了一套数据集来改进自动标题系统。使用这个工具，研究人员可以教机器学习模型根据用户的需求改变图表标题中包含的复杂程度和内容类型。

研究人员发现，使用数据集进行自动字幕训练的机器学习模型始终如一地生成精确、语义丰富、描述数据趋势和复杂模式的字幕。定量和定性分析表明，他们的模型比其他自动字幕系统更有效地为图表加上字幕。

该团队的目标是提供名为VisText的数据集，作为研究人员在解决棘手的图表自动标注问题时可以使用的工具。麻省理工学院电子工程和计算机科学研究生、计算机科学与人工智能实验室(CSAIL)可视化小组成员安吉·博格斯特(Angie Boggust)说，这些自动系统可以帮助为没有字幕的在线图表提供字幕，并改善视力障碍人士的可访问性。

她说:“我们试图将许多人类价值观嵌入到我们的数据集中，这样当我们和其他研究人员构建自动图表字幕系统时，我们就不会得到人们不想要或不需要的模型。”

Boggust与共同主要作者，研究生Benny J. Tang和资深作者Arvind Satyanarayan一起撰写了这篇论文，Arvind Satyanarayan是麻省理工学院计算机科学副教授，领导CSAIL的可视化小组。这项研究将在计算语言学协会年会上发表。

以人为中心的分析

研究人员从可视化小组先前的工作中得到启发，开发了VisText，该小组探索了如何制作一个好的图表标题。在那项研究中，研究人员发现，视力正常的用户和盲人或低视力的用户对标题中语义内容的复杂性有不同的偏好。

该小组希望将这种以人为中心的分析方法引入自动描述研究。为此，他们开发了VisText，这是一套图表和相关字幕的数据集，可用于训练机器学习模型，以生成准确、语义丰富、可定制的字幕。

开发有效的自动识别系统并非易事。现有的机器学习方法经常试图像给图像配标题一样给图表配标题，但人和模型对自然图像的解释与我们阅读图表的方式不同。其他技术则完全跳过可视内容，使用底层数据表为图表配标题。然而，这些数据表在图表出版后往往无法获得。

考虑到使用图像和数据表的不足，VisText还将图表表示为场景图。场景图，可以从图表图像中提取，包含所有的图表数据，但也包括额外的图像上下文。

“场景图是两全其美的——它几乎包含了图像中的所有信息，同时比数据表更容易从图像中提取。由于它也是文本，我们可以利用现代大型语言模型的进步来进行字幕，”唐解释说。

他们编制了一个包含12,000多个图表的数据集，每个图表都表示为数据表、图像和场景图，以及相关的说明文字。每个图表都有两个单独的标题:低级标题描述图表的结构(如其轴范围)，高级标题描述统计数据、数据中的关系和复杂趋势。

研究人员使用自动化系统生成低级字幕，并将高级字幕众包给人工。

“我们的标题是由先前的两个关键研究提供的信息:现有的关于视觉媒体可访问描述的指导方针和我们小组用于对语义内容进行分类的概念模型。这确保了我们的字幕为有视觉障碍的读者提供了重要的低级图表元素，如轴、比例和单位，同时保留了人类在如何书写字幕方面的可变性，”唐说。

翻译图表

一旦他们收集了图表图像和字幕，研究人员就使用VisText来训练五个机器学习模型来自动字幕。他们想看看每种表示——图像、数据表和场景图——以及这些表示的组合如何影响标题的质量。

“你可以把图表字幕模型想象成语言翻译模型。但我们不是说，把这个德语文本翻译成英语，而是说把这个‘图表语言’翻译成英语，”Boggust说。

他们的结果表明，用场景图训练的模型比用数据表训练的模型表现得一样好，甚至更好。由于场景图更容易从现有的图表中提取出来，研究人员认为它们可能是一种更有用的表示。

他们还分别用低级和高级字幕训练模型。这种技术被称为语义前缀调优，使他们能够教会模型改变标题内容的复杂性。

此外，他们还对使用最佳方法生成的字幕进行了定性检查，并对六种常见错误进行了分类。例如，如果一个模型说趋势在减少，而实际上趋势在增加，就会出现方向性错误。

这种细粒度的、健壮的定性评估对于理解模型是如何产生错误的非常重要。例如，使用定量方法时，方向错误可能会招致与重复错误相同的惩罚，在重复错误中，模型重复了相同的单词或短语。但方向错误可能比重复错误更容易误导用户。Boggust说，定性分析帮助他们理解了这些微妙之处。

她补充说，这些类型的错误也暴露了当前模型的局限性，并提出了研究人员在开发自动识别系统时必须考虑的伦理问题。

生成式机器学习模型，比如支持ChatGPT的那些模型，已经被证明会产生幻觉或提供可能具有误导性的错误信息。虽然使用这些模型自动标注现有图表有明显的好处，但如果图表标注不正确，可能会导致错误信息的传播。

“也许这意味着我们不能用人工智能来描述眼前的一切。相反，也许我们可以将这些自动标注系统作为作者工具提供给人们进行编辑。重要的是在整个研究过程中都要考虑这些伦理问题，而不仅仅是在最后我们有一个模型可以部署的时候。”

Boggust、Tang和他们的同事希望继续优化模型，以减少一些常见的错误。他们还想扩展VisText数据集，以包含更多的图表和更复杂的图表，比如那些有堆叠条形或多条线的图表，他们还想深入了解这些自动标注模型实际上对图表数据有什么了解。

更多信息:Benny J. Tang等人，VisText: A Benchmark for semantic Rich Chart Captioning(2023)，由麻省理工学院提供

本文由麻省理工学院新闻(web.mit.edu/newsoffice/)转载，这是一个报道麻省理工学院研究、创新和教学新闻的热门网站。

引用:研究人员教人工智能编写更好的图表标题(2023年，6月29日)2023年6月29日检索自https://techxplore.com/news/2023-06-ai-captions.html本文档作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。的有限公司内容仅供参考之用。