从奥巴马开始!从听声识人到听声画人的新技术
2017-07-12 17:08
还没退休多久的奥巴马最近又出现了!这一次,他发现自己莫名其妙的出现在新视觉特效技术的风口浪尖。“请”到他是华盛顿大学的研究人员,目的是为了证明计算机视觉效果制作中永远没有不可能:这一次,他们采用了奥巴马总统在奥兰多枪击案后发言的一段音频,然后把这段声音嫁接到了总统先生发表的另一次演讲中。运用新开发的嘴唇同步技术以后,总统先生的口型发生了变化,完全匹配上了音频中的内容。不知情的人看起来,这两次演讲到底哪一次真正发生过,哪一次是特效做出来的,完全没法判别。
图中左边是真实发生的关于奥兰多的演讲,右边的是另一次内容不同的演讲,嫁接了音频后,口型、台词全部对上,不过场合以及表情有所不同。截图的这个瞬间,总统在说“Friends”这个单词,两边的口型都很合理!
这个过程被重复了四次,形成了四次足以以假乱真的演讲。 (截图这一瞬间,总统在提气准备发“mention”的后半部分的音)
这项技术的意义远不止帮总统提升几倍的演讲业绩这么简单。华盛顿大学的计算机工程教授受采访的时候表示,音频转化视频技术在实时通讯方面有着很大的实用性,此外还可以进行与某历史人物对话的模拟,尤其是在VR技术正在飞跃的今天,很多历史材料可以得此契机开始变得“活”起来,增强展览的交互性。
(五十六岁的奥巴马深沉的望着镜头,满眼都是他29岁时的样子)
这项研究同样能给Skype或者直播平台带来更大的变革,因为当接收端能使用音频自动合成视频的时候,数据的传输成本能够大大降低。研究以及日常的经验都告诉我们,当进行视频通话是往往是画面卡顿而声音良好,于是,当音频可以用来作为基本材料“构建”一段高分辨率的视频的时候,那么将来的我们可能可以通过发语音,就可以让屏幕另一端的人看到一个我们正在跟他们面对面讲话的视频了。
新方法能够如此有成效取决于一项算法的革新。以往的口型识别采样是由邀请的大量志愿者来说同一段话而获取下来的嘴巴运动模式,然而华大的新算法可以让机器通过分析大批量属于某个特定的人的说话视频,而制作出仿佛是“定制”的,最“个性化”的模拟。从这个层面来说,名人将会比普通人更加受益于这个项目,而奥巴马总统,凭借他超高的人气以及报道量,就成了这第一个吃螃蟹的人。
(就这样,总统的个人说话习惯被系统捕捉下来,制成之后的视频)
每一帧声音的各项特性都会被用来驱动合成者嘴部的动作,而后通过建模技术把这些嘴部的动画效果放进下一个视频里。最终的结果,就是宛如照片一样真实的一个个镜头。
这一项技术所预计的使用范围非常广泛,纪录片和历史题材影视作品在还原度上面预计能有更多元化的方法,同时,根据同一个演员的说话习惯量身定做的一套模拟系统还可以与现在火热的动作捕捉技术相关联,对于未来类似“阿凡达”或者“金刚”的角色进行更加到位的模拟。
但是,音频匹配视频的技术带来的一项担忧便是居心叵测者可以运用此类技术炮制虚假的视频,进行舆论误导。所幸开发者也注意到了这一点,对于程序的开发,他们表示,这项音频驱动视频建立在同一个人口型和声音的匹配之上,也就是说只有“我”的声音才能让视频里的“我”配合展现出相匹配的口型。这项技术的意图并不在于让别人的话被从“我”口中说出,或者让视频中的“我”讲着属于别人的台词,而是立足于每个人进行服务,只有某人真正讲过某句话并有音频记录时,这段语音才有能够转化成口型正确的视频。尽管这听起来很不可思议,但我们也期望这个保证是真正有效的。研究团队计划在八月份将成果以论文的形式发表出来,让我们拭目以待。
图中左边是真实发生的关于奥兰多的演讲,右边的是另一次内容不同的演讲,嫁接了音频后,口型、台词全部对上,不过场合以及表情有所不同。截图的这个瞬间,总统在说“Friends”这个单词,两边的口型都很合理!
这个过程被重复了四次,形成了四次足以以假乱真的演讲。 (截图这一瞬间,总统在提气准备发“mention”的后半部分的音)
这项技术的意义远不止帮总统提升几倍的演讲业绩这么简单。华盛顿大学的计算机工程教授受采访的时候表示,音频转化视频技术在实时通讯方面有着很大的实用性,此外还可以进行与某历史人物对话的模拟,尤其是在VR技术正在飞跃的今天,很多历史材料可以得此契机开始变得“活”起来,增强展览的交互性。
(五十六岁的奥巴马深沉的望着镜头,满眼都是他29岁时的样子)
这项研究同样能给Skype或者直播平台带来更大的变革,因为当接收端能使用音频自动合成视频的时候,数据的传输成本能够大大降低。研究以及日常的经验都告诉我们,当进行视频通话是往往是画面卡顿而声音良好,于是,当音频可以用来作为基本材料“构建”一段高分辨率的视频的时候,那么将来的我们可能可以通过发语音,就可以让屏幕另一端的人看到一个我们正在跟他们面对面讲话的视频了。
新方法能够如此有成效取决于一项算法的革新。以往的口型识别采样是由邀请的大量志愿者来说同一段话而获取下来的嘴巴运动模式,然而华大的新算法可以让机器通过分析大批量属于某个特定的人的说话视频,而制作出仿佛是“定制”的,最“个性化”的模拟。从这个层面来说,名人将会比普通人更加受益于这个项目,而奥巴马总统,凭借他超高的人气以及报道量,就成了这第一个吃螃蟹的人。
(就这样,总统的个人说话习惯被系统捕捉下来,制成之后的视频)
每一帧声音的各项特性都会被用来驱动合成者嘴部的动作,而后通过建模技术把这些嘴部的动画效果放进下一个视频里。最终的结果,就是宛如照片一样真实的一个个镜头。
这一项技术所预计的使用范围非常广泛,纪录片和历史题材影视作品在还原度上面预计能有更多元化的方法,同时,根据同一个演员的说话习惯量身定做的一套模拟系统还可以与现在火热的动作捕捉技术相关联,对于未来类似“阿凡达”或者“金刚”的角色进行更加到位的模拟。
但是,音频匹配视频的技术带来的一项担忧便是居心叵测者可以运用此类技术炮制虚假的视频,进行舆论误导。所幸开发者也注意到了这一点,对于程序的开发,他们表示,这项音频驱动视频建立在同一个人口型和声音的匹配之上,也就是说只有“我”的声音才能让视频里的“我”配合展现出相匹配的口型。这项技术的意图并不在于让别人的话被从“我”口中说出,或者让视频中的“我”讲着属于别人的台词,而是立足于每个人进行服务,只有某人真正讲过某句话并有音频记录时,这段语音才有能够转化成口型正确的视频。尽管这听起来很不可思议,但我们也期望这个保证是真正有效的。研究团队计划在八月份将成果以论文的形式发表出来,让我们拭目以待。
本文为作者 影视匠造 分享,影视工业网鼓励从业者分享原创内容,影视工业网不会对原创文章作任何编辑!如作者有特别标注,请按作者说明转载,如无说明,则转载此文章须经得作者同意,并请附上出处(影视工业网)及本页链接。原文链接 https://cinehello.com/stream/92426
影视匠造
点击了解更多
首汇焦点(北京)科技有限公司成立于2015年4月,公司创建的宗旨是建立符合工业标准的全流程影视制作和管理系统。公司采用IT和互联网的优秀技术,结合传统制造业严谨的生产流程及质量控制,将新技术和新方法大规模应用于国内传统影视行业中。目前公司的主要业务有影视制作管理服务、数字高精度模型生产、影视特效制作等,旨在为影视制作公司、游戏公司和新兴VR(虚拟现实)行业提供一体化科学的解决方案。
扫码关注
影视匠造
影视匠造