微软的人工智能应用VASA-1可以让照片用可信的面部表情说话和唱歌_电子与半导体

Microsoft's AI app VASA-1 makes photographs talk and sing with believable facial ex<em></em>pressions

微软亚洲研究院的人工智能研究团队开发了一种人工智能应用程序，可以将人的静止图像和音轨转换为动画，准确地描绘个人说话或唱歌的音轨，并带有适当的面部表情。

该团队发表了一篇论文，描述了他们如何在arXiv预印本服务器上创建这款应用;视频样本可以在研究项目页面上找到。

研究小组试图利用任何提供的背景音轨，将说话和唱歌的静态图像动画化，同时显示可信的面部表情。他们显然在VASA-1的开发上取得了成功，VASA-1是一个人工智能系统，可以将静态图像(无论是由相机捕捉的、绘制的还是手绘的)转化为他们所描述的“精致同步”动画。

该小组通过发布测试结果的短视频片段来证明他们的系统的有效性。在其中一个视频中，一个卡通版的蒙娜丽莎正在演唱一首说唱歌曲;在另一幅画中，一名女子的照片被转化为一场歌唱表演，而在另一幅画中，一名男子在发表演讲。

在每一个动画中，面部表情随着文字的变化而变化，以一种强调所说内容的方式。研究人员还指出，尽管这些视频具有逼真的性质，但仔细检查可以发现缺陷和人为生成的证据。

研究小组通过对数千张具有各种面部表情的图像进行训练，获得了他们的结果。他们还指出，该系统目前以每秒45帧的速度产生512 × 512像素的图像。此外，使用桌面级Nvidia RTX 4090 GPU制作视频平均耗时两分钟。

研究小组认为，VASA-1可以用来为游戏或模拟生成极其逼真的化身。与此同时，他们承认有滥用的可能，因此不使该系统可供一般使用。

更多信息:徐思成等，VASA-1:实时生成的逼真音频驱动说话面孔，arXiv(2024)。DOI: 10.48550 / arxiv.2404.10667

项目页面:www.microsoft.com/en-us/research/project/vasa-1/

期刊信息: arXiv

引用微软的人工智能应用VASA-1可以让照片通过可信的面部表情说话和唱歌 pressions.com(2024, 4月19日)检索自https://techxplore.com/news/2024-04-microsoft-ai-app-vasa-believable.html此文档作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。的有限公司内容仅供参考之用。