二维码
钻机之家

扫一扫关注

当前位置: 首页 » 新闻资讯 » 热点资讯 » 正文

用人工智能驱动的程序创建逼真的“会说话的头”

放大字体  缩小字体 发布日期:2024-04-19 19:13:35    来源:本站    作者:admin    浏览次数:71    评论:0

  Creating realistic 'talking heads' with an AI-powered program

  南洋理工大学计算机科学与工程学院副教授卢世建领导的一个研究小组开发了一个计算机程序,该程序可以创建反映说话人面部表情和头部动作的逼真视频,只需要一段音频剪辑和一张面部照片。

  多样而逼真的面部动画(DIRFA)是一种基于人工智能的程序,它可以拍摄音频和照片,并制作3D视频,展示与语音同步的逼真且一致的面部动画。ntu开发的程序改进了现有的方法,这些方法在姿势变化和情绪控制方面存在困难。

  为了实现这一目标,该团队对来自开源数据库的6000多人的100多万段视听片段进行了DIRFA训练,以预测语音中的线索,并将其与面部表情和头部动作联系起来。

  研究人员表示,DIRFA可以在包括医疗保健在内的各个行业和领域带来新的应用,因为它可以实现更复杂、更逼真的虚拟助手和聊天机器人,从而改善用户体验。它还可以作为有语言或面部残疾的人的强大工具,帮助他们通过富有表现力的虚拟形象或数字表示来传达他们的思想和情感,增强他们的沟通能力。

  该研究的通讯作者、新加坡南洋理工大学计算机科学与工程学院(SCSE)副教授Lu Shijian表示:“我们研究的影响可能是深远的,因为它通过结合人工智能和机器学习等技术,创造高度逼真的个人讲话视频,彻底改变了多媒体通信领域。”

  “我们的程序也建立在以前的研究基础上,代表了技术的进步,因为用我们的程序制作的视频只使用录音和静态图像,就能完成精确的嘴唇运动,生动的面部表情和自然的头部姿势。”

  第一作者吴荣良博士是南洋理工大学语言科学学院的博士毕业生,他说:“语言表现出多种变化。在不同的语境中,人们对同一个单词的发音会有所不同,包括持续时间、振幅、音调等方面的变化。此外,除了语言内容之外,言语还传达了关于说话人的情感状态和身份因素的丰富信息,如性别、年龄、种族甚至人格特征。

  “我们的方法代表了从人工智能和机器学习的音频表示学习的角度提高性能的开创性努力。”吴博士是新加坡科学技术研究局(a *STAR)信息通信研究所的研究科学家。

  研究结果发表在《模式识别》杂志上。

  研究人员表示,通过音频驱动创造逼真的面部表情是一项复杂的挑战。对于一个给定的音频信号,可能有许多可能的有意义的面部表情,当处理一系列音频信号时,这些可能性会随着时间的推移而成倍增加。

  由于音频通常与嘴唇运动有很强的联系,但与面部表情和头部位置的联系较弱,研究小组的目标是创造出能够说话的面孔,这些面孔表现出精确的嘴唇同步、丰富的面部表情和与提供的音频相对应的自然头部运动。

  为了解决这个问题,该团队首先设计了他们的人工智能模型DIRFA,以捕捉音频信号和面部动画之间的复杂关系。卢副教授补充说:“具体来说,DIRFA基于输入音频模拟了面部动画的可能性,比如扬起眉毛或皱起鼻子。这种建模使程序能够将音频输入转换为多样化但高度逼真的面部动画序列,以指导说话面孔的生成。

  “大量的实验表明,DIRFA可以生成具有准确的嘴唇运动、生动的面部表情和自然的头部姿势的说话脸。然而,我们正在努力改进程序的接口,允许控制某些输出。例如,DIRFA不允许用户调整某种表情,例如将皱眉变为微笑。”

  除了为DIRFA的界面添加更多选项和改进之外,南洋理工大学的研究人员还将使用更广泛的数据集来微调其面部表情,这些数据集包括更多不同的面部表情和语音音频剪辑。

  更多信息:Rongliang Wu等人,音频驱动的说话脸生成,多种逼真的面部动画,模式识别(2023)。DOI: 10.1016 / j.patcog.2023.109865。关于arXiv: DOI: 10.48550/ arXiv .2304.08945期刊信息:arXiv

  南洋理工大学提供

  引用:用人工智能驱动的程序创建逼真的“说话的头”(2023年,11月16日)2023年11月16日检索自https://techxplore.com/news/2023-11-realistic-ai-powered.html本文档

  作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外,未经书面许可,不得转载任何部分。的有限公司

  内容仅供参考之用。

 
(文/admin)
打赏
免责声明
• 
部分文章来源于网络,我们均标明出处,如果您不希望我们展现您的文章,请与我们联系,我们会尽快处理。
0相关评论
 

(c)2023-2023 www.114me.cn All Rights Reserved

渝ICP备2024019187号-1