微软的人工智能应用VASA-1可以让照片用可信的面部表情说话和唱歌

放大字体  缩小字体 2024-04-20 16:52  浏览次数:

Microsoft's AI app VASA-1 makes photographs talk and sing with believable facial ex<em></em>pressions

微软亚洲研究院的人工智能研究团队开发了一种人工智能应用程序,可以将人的静止图像和音轨转换为动画,准确地描绘个人说话或唱歌的音轨,并带有适当的面部表情。

该团队发表了一篇论文,描述了他们如何在arXiv预印本服务器上创建这款应用;视频样本可以在研究项目页面上找到。

研究小组试图利用任何提供的背景音轨,将说话和唱歌的静态图像动画化,同时显示可信的面部表情。他们显然在VASA-1的开发上取得了成功,VASA-1是一个人工智能系统,可以将静态图像(无论是由相机捕捉的、绘制的还是手绘的)转化为他们所描述的“精致同步”动画。

该小组通过发布测试结果的短视频片段来证明他们的系统的有效性。在其中一个视频中,一个卡通版的蒙娜丽莎正在演唱一首说唱歌曲;在另一幅画中,一名女子的照片被转化为一场歌唱表演,而在另一幅画中,一名男子在发表演讲。

在每一个动画中,面部表情随着文字的变化而变化,以一种强调所说内容的方式。研究人员还指出,尽管这些视频具有逼真的性质,但仔细检查可以发现缺陷和人为生成的证据。






研究小组通过对数千张具有各种面部表情的图像进行训练,获得了他们的结果。他们还指出,该系统目前以每秒45帧的速度产生512 × 512像素的图像。此外,使用桌面级Nvidia RTX 4090 GPU制作视频平均耗时两分钟。

研究小组认为,VASA-1可以用来为游戏或模拟生成极其逼真的化身。与此同时,他们承认有滥用的可能,因此不使该系统可供一般使用。

更多信息:徐思成等,VASA-1:实时生成的逼真音频驱动说话面孔,arXiv(2024)。DOI: 10.48550 / arxiv.2404.10667

项目页面:www.microsoft.com/en-us/research/project/vasa-1/

期刊信息: arXiv

©2024 Science X Network

引用微软的人工智能应用VASA-1可以让照片通过可信的面部表情说话和唱歌 pressions.com(2024, 4月19日)检索自https://techxplore.com/news/2024-04-microsoft-ai-app-vasa-believable.html此文档 作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司 内容仅供参考之用。

热门搜索排行
声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱
晋ICP备17002844号
中国互联网举报中心