《现代电影技术》丨AIGC赋能下数字人在电影中的应用概述

2023-11-17 10:36

本文刊发于《现代电影技术》2023年第10期





专家点评





数字人最早出现于20世纪末期,随着现代智能科技的发展和进步,数字人技术推动医疗、教育、文娱等行业快速发展,特别是在电影制作领域,数字人的应用不但为电影带来了更多的创意和可能性,也为观众提供了逼真的视觉体验。近年来,人工智能生成内容(AIGC)技术取得突破性进展,伴随着多模态AI大模型快速发展,数字人创作进入AIGC时代。《AIGC赋能下数字人在电影中的应用概述》一文,通过对真人数字替身和虚拟创造角色两种数字人类型在电影制作中应用和技术演进的介绍,详细分析了数字人在电影行业的应用现状;从形象生成、语音合成、动画驱动三方面阐述了AIGC 的发展如何大幅加速数字人的生产流程,降低数字人的制作成本和提高数字人的制作效能,并从批量化生成和智能化交互的角度探讨了数字人在电影制作中的发展与应用前景。本文有助于了解AIGC数字人在影视制作中的应用现状,以及在电影行业中不可低估的重要作用。


 ——王木旺

高级工程师

中国电影科学技术研究所(中央宣传部电影技术质量检测所)传输放映技术研究处副处长


作 者 简 介


谢韵

清华大学深圳国际研究生院硕士研究生在读,主要研究方向:数字人可视化表达与交互应用。

清华大学深圳国际研究生院硕士研究生在读,主要研究方向:数字人动作生成与交互应用。

曾可依

李秀

清华大学教授、博士生导师,主要研究方向:人工智能、数据挖掘与模式识别。

摘要

数字人作为数字电影技术的重要组成部分,不仅为电影创作者提供更广阔的自由创意空间,也让观众体验到更精彩逼真的视觉效果和故事情节,是未来电影行业高质量发展的重要探索方向。随着人工智能(AI)技术在深度学习(DL)、自然语言处理(NLP)、计算机视觉(CV)等领域的不断突破,越来越多影视公司加大了对数字人的技术研发力度。本文通过分析数字人在电影行业的应用现状,对真人数字替身和虚拟创造角色两种数字人类型进行了简要介绍,并针对现有AI技术成果,从形象生成、语音合成、动画驱动三方面总结人工智能生成内容(AIGC)赋能下数字人制作效能的优化,再从批量化生成和智能化交互的角度探讨数字人在电影制作中的应用前景,为数字人在影视行业中的应用提供一些启示。

关键词

数字人;AIGC;电影制作;深度学习



1  引言




数字人是一种通过计算机技术模拟和复制人类构造、形态和行为的虚拟实体。随着科技的不断进步和创新,电影制作团队能够利用数字人技术为观众呈现出更加逼真和震撼的视觉效果。这种技术的飞速发展为电影行业带来了无限的可能性,许多优秀的电影作品都运用了数字人技术,使历史人物、虚构角色和神奇生物在银幕上栩栩如生。比如,詹姆斯·卡梅隆执导的科幻巨作《阿凡达:水之道》就采用了先进的数字人技术,将人类与纳美族的虚构世界相融合,为观众提供了逼真的视觉享受。《复仇者联盟4:终局之战》这部漫威超级英雄大片则利用数字人技术成功实现了许多角色的复刻和重塑,使观众能够看到年轻版的托尼·斯塔克、史蒂夫·罗杰斯和索尔·奥丁森等角色,这些数字人角色与真实演员的表演无缝衔接,为电影增添了情感冲击和戏剧张力。

2012年深度学习(DL)技术进入大众视野,数字人产业从费用高且耗时较长的动画制作开始逐步向人工智能(AI)制作过渡,大幅降低了数字人的制作成本并提升了制作效率。在人工智能生成内容(AIGC)技术的有力赋能下,虚拟数字人作为多个跨领域技术的集成体,在显著提升电影制作效能与质量的同时,为往后的应用发展提供了更多的可能性。


2 数字人在电影行业中的应用




真人数字替身和虚拟创造角色是数字人发展的两个阶段。真人数字替身利用数字技术代替真实演员进行场景拍摄,而虚拟创造角色是完全由计算机程序生成的数字人。随着技术的发展,真人数字替身和虚拟创造角色的制作精度与技术不断提升,为电影创作提供了更广阔的创作空间,也使数字人的表演更加逼真。

2.1 真人数字替身

真人数字替身是数字人发展的早期类型,替身是指利用数字技术制作的人物,代替真实演员出现在电影中。传统的电影拍摄由于涉及到武打爆炸与特效等危险性较大的情节设计,往往会采用数字替身的形式降低风险与成本。数字替身最早可追溯到1985年的电影《少年福尔摩斯》,工业光魔公司(ILM)创造了电影史上第一个CG角色,通过对骑士的数字替身制作实现了战斗的镜头。1997年,电影《泰坦尼克号》的水下场景首次使用了完全由计算机技术制造的数字替身演员,使得水下片段更真实、震撼。

通过扫描真实演员构建对应的数字人替身是电影工业中的常用做法,电影制作公司通过光台拍摄获得高保真的三维采集重建演员形象,通过模拟环境光、肤色重建、面部绑定等将真实演员的形象数字化,再将数字形象与实际演员的表演结合在一起,实现数字替身进行拍摄的效果,从而规避很多电影无法避免的拍摄挑战,如时间进度、拍摄难度、影片质量等[1]

当电影全面进入数字时代后,数字替身便进入了以二维图像换脸与三维动作捕捉换脸的阶段。例如,电影《速度与激情7》中的主演保罗·沃克在影片拍摄过程中遭遇严重车祸不幸去世,为了保证电影的顺利制作,剧组选择了二维数字图像换脸技术,通过保罗·沃克生前存留的影像资料及其弟弟的替身表演完成了最终拍摄。而数字替身在三维动作捕捉换脸技术的应用则更为广泛,无论是《双子杀手》中角色与自身克隆体遭遇的场景,亦或是突破年龄限制、出演不同年龄段的同一角色的电影《银翼杀手2049》《金刚狼3:殊死一战》等,三维动作捕捉换脸技术让真人数字替身的演出更为精湛逼真,也为导演提供了更多的创作空间。

随着技术的发展,真人数字替身技术的制作成本及实现效果都获得了显著优化。早在2008年,为电影《本杰明·巴顿奇事》制作特效的特效公司就已经运用面部捕捉技术将主角的表演与3D数字模型结合,实现了让主角跨越老年、中年、青少年和婴儿四个人生阶段的“返老还童”般演绎,并斩获了2009年奥斯卡最佳视觉效果奖。2019年奥斯卡最佳影片《绿皮书》中主角弹奏钢琴镜头的拍摄也是通过替身钢琴师与AI换脸技术进行后期合成。

在技术优化上,AI深度合成技术门槛正在不断降低,该类技术的发展迭代为系列电影中保持演员外观不变的难题提供了解决方案。漫威电影《蜘蛛侠: 英雄无归》中就利用AI换脸合成技术让章鱼博士和绿魔看起来更年轻;《爱尔兰人》里罗伯特·德尼罗、阿尔·帕西诺和乔· 佩西三位年逾七旬演员实现了无痕减龄扮演年轻版的自己。继2020年发布高分辨率版本Deepfake工具后[2],迪士尼近期又发布了首个可适用于真实场景、自动化的AI视频人脸处理模型FRAN(Face Re⁃Aging Network)[3],该模型进一步提升了AI改变演员外貌视觉效果的能力。FRAN能够使用数据信息来预测真人演员面部会老化的区域,以及实现将皱纹和下巴叠加到既有视频片段上,或者从既有画面的人物脸上删除皱纹。FRAN算法的出现为数字替身的使用扩展了创作空间。

在实时反馈上,英国生成式AI代表公司Metaphysic提出了Metaphysic Live产品,该产品能够在演员现场表演的基础上实时创建高分辨率、逼真的换脸和去老化效果,无需进一步合成或视效(VFX)工作,并能够以30FPS的速度将AI生成的逼真内容流传输到现实世界场景。电影《Here》就是通过AIGC快速实时展现现场演员表演驱动的超真实换脸和去老化技术,让导演、演员和制片人得以实时查看并调整表演,极大地缩短了影片制作周期,同样的减龄工作在2019年的《双子杀手》中曾花去制作公司两年的时间。

2.2 虚拟创造角色

虚拟创造角色是数字人发展的中期类型,它们是指完全由计算机程序生成的数字人,没有实际的物理形体与现实身份,只存在于计算机的虚拟空间中。CG技术的发展让数字人不再局限于真人演员的生物模型,而是可以通过艺术家创造和计算机合成等形式创造出无法在电影中进行实拍的人物及生物。

早期的虚拟创造角色可以追溯到1989年詹姆斯·卡梅隆的《深渊》,该影片中外星智慧生物操控水柱运动到男女主角面前,水柱呈现出了与男女主角一样的面容。2001年,彼得·杰克逊的《指环王1:护戒使者》创造了一个具有里程碑意义的虚拟创造角色咕噜姆。后来,维塔数码推出“金刚”和《猩球崛起》系列中的“凯撒”等虚拟角色形象。2006年,电影特效公司工业光魔在《加勒比海盗2:亡灵的宝藏》里创造了一位会弹管风琴的章鱼船长,彻底开启了虚拟创造角色在电影制作中的应用。

动作捕捉技术的发展让虚拟创造角色在电影制作中更显自然。2001年,由游戏衍生的科幻电影《最终幻想:灵魂深处》作为动作捕捉史上的一部标杆性作品,不仅女主角Aki的全程动画都由动作捕捉技术进行驱动,同时也让她拥有了一头纤毫毕现、轻柔飘逸的头发,这是虚拟创造角色首次实现毛发在CG世界里甩动、旋转,并对其进行光线动态处理。2004年,执导过《阿甘正传》的罗伯特·泽米吉斯拍摄了好莱坞第一部全真人CG电影《极地特快》,奥斯卡影帝汤姆·汉克斯在影片中先后饰演了包括圣诞老人在内的6个虚拟数字角色,所有的数字人动画均由动作捕捉技术实现。

在AI技术的加持下,虚拟创造角色无论在制作精度上还是在效果呈现上都有了飞速提升。2019年《阿丽塔:战斗天使》影片的主角阿丽塔就是第一位完全采用数字人技术制作的超高精度角色。工程师们为了实现阿丽塔脸上细小绒毛的自然毛发效果,利用AI算法设计了全新的毛孔生长技术,使阿丽塔拥有超写实的数字人形象。在驱动方面,《阿丽塔:战斗天使》将动作捕捉升级到了“表演捕捉”,维塔工作室通过演员“罗莎·萨拉查——CG 罗莎·萨拉查——阿丽塔”的流程重定向表演,让阿丽塔的面部表情追踪更能真实带入表达演员的情感和表演。同样,在《复仇者联盟3: 无限战争》中,迪士尼使用了AI算法对演员的脸部进行高分辨率扫描,并自动将人脸图像映射到灭霸的身体上,使灭霸能够展现出逼真拟人化的表演。在《阿凡达:水之道》中,维塔工作室开发出了全新的APFS系统(Anatomically Plausible Facial System) 为虚拟创造角色的表演提升了质量。这个系统在辅助工作人员绘制面部动画的同时,还会收集大量的面部扫描数据以用于之后的神经网络模型训练,通过AI深度学习模型与算法,学习演员的潜在肌肉行为,快速辅助纳美人的面部动画生成,并结合纳美人的独特外形修复弥补牙齿和头骨解剖的偏差[4]

3 AIGC赋能数字人在电影中的制作与应用




3.1 AIGC助力数字人生产

高成本投入和较长的制作周期一直是数字人在电影制作中面临的两大挑战。传统的数字人生产流程几乎全部依赖人工实现,从人物建模到动画制作再到语音合成,各个环节都需要大量的时间成本和人力投入。而随着生成算法、预训练模型和多模态等技术的不断创新,AIGC的发展大幅加速数字人的生产流程,并显著降低数字人的制作成本,极大提高数字人的制作效能。

数字人生产制作流程主要可分成三个板块,分别为形象生成、语音合成、动画驱动。在AIGC技术的加持下,形象生成可利用算法模型快速生成高精度的数字人形象,语音合成能够利用语音转换等技术生成逼真的语音表达,动画驱动则可利用深度学习模型驱动数字人的表情和动作。

(1) 数字人形象的智能化生成

传统的写实数字人生成过程依赖于设计师使用诸如Maya、3ds Max和CAD等3D建模软件手动创建人体的三维模型。然而,由于这些软件的学习成本高且建模效率低,很难快速批量生成数字人形象。

随着AI生成算法的提速迭代,针对写实虚拟人的形象生成,现阶段出现了两种主要的模型生成方式:第一种是基于图像和视频的生成,已经初步实现产品化,并能够达到次时代游戏人物的精度水平。用户可以通过上传照片或视频来生成写实类型的数字人。这种生成方式的代表性应用有英伟达的Omniverse Avatar和Unreal Engine的MetaHuman Creator,用户可以通过自定义方式快速生成对应的数字人形象。第二种方式是基于参数化模型进行数字人生成,此领域也是近年来学术界的研究热点。该类方法通过参数化模型将原本复杂的数字人空间解耦,将数字人抽象为规则约束下一定数目的参数,这也是近年来学术界的研究热点。

基于图片和视频的数字人形象生成已经具备较为成熟的制作流程。以MetaHuman Creator为例,它是基于云端的在线编辑器,可以选择混合取样库中的元素或自定义建模来实现所需的结果。根据图片生成写实数字人的过程从围绕真实人物进行拍照开始,通过多张脸部拍摄照片,将其导入RealityCapture等软件中生成高质量的网格体和贴图。接下来再通过将网格体导入Unreal Engine中进行面部标记帧追踪,并运行身份解析,将模型的网格体提交到MetaHuman后端,即可快速生成对应的人物模型。此外,还可以在MetaHuman Creator中继续编辑数字人的皮肤、眼睛等五官细节和服装、发型、身材比例等。

而基于参数化模型的数字人生成也是AIGC在数字人建模领域的研究热点。该类方法的思路是通过大型真实人体扫描模型数据库,学习人体结构的共性,构建统一的参数化模型,将原本复杂的人体网格空间解耦为有限的参数表达。这些参数覆盖了身高、体型、肌肉定义、脸部特征等人体信息,通过调整这些参数的数值,可以实现对人体模型的变形和定制。2015年基于线性的混合模型SMPL[5]实现了通过少量的参数来表示和改变人体的姿势和形状。SMPL‐X[6]在其基础上引入了人脸和手势的参数化表示,该类参数化模型被广泛应用于ICON[7]等人体重建任务中。除了真实人体外,RaBit[8]模型对卡通人物的参数化模型进行了探索,可通过更改参数得到卡通人、熊、兔子等多种卡通生物的个性化3D模型,其提出的SVR方法可以通过单张卡通图片重建得到相同模样与姿势的卡通模型。

(2) 数字人语音的智能化合成

高自然度和个性化语音合成也是数字人制作中的重要模块,相较于数字人生产的其他板块,语音AI合成技术已进入成熟期,现被广泛应用于广播电视、网络视听等多个领域。语音合成技术是AIGC领域中的重要分支之一,能够快速将文本转化为音频,使计算机实时自动生成高质量的语音音频。

2016年谷歌提出WaveNet[9],其利用膨胀因果卷积解决语音的大跨度时间依赖问题,使得模型能在短时间内完成高质量语音合成。2017年,在WaveNet基础上,谷歌提出首个端到端的TTS语音合成模型Tacotron[10],并于2018年发布Tacotron 2。Tacotron 2由声谱预测网络和声码器组成,其中声谱预测网络将输入的字符序列映射为梅尔频谱的帧序列,声码器则负责将预测得到的梅尔频谱帧序列还原为波形[11]。2019年,浙江大学联合微软提出FastSpeech模型[12],FastSpeech是一个非回归模型,较于之前的自回归TTS模型,其具有更快的生成速度和更好的语音质量,一年后FastSpeech 2发布,能直接从文本生成预测音频波形,且训练速度达到FastSpeech的3倍[13]。近年来,语音合成任务开始转向表现力语音合成(Expressive TTS),相比TTS,其更关注如何合成语音的风格、韵律、情感等。由于该类训练所需的标注数据较少,因此此类方法通常采用无监督学习方式,从参考音频中解耦出情感和韵律特征,然后将这种特征与文本向量结合,实现风格可控化[14][15]

(3) 数字人动画的智能化驱动

除了外形表现,身体动作的自然性和面部表情的灵活性对于虚拟人的真实感至关重要。与虚拟人形象生成不同,动画驱动数字人不仅需要具备流畅性、真实感,还对交互反馈的实时性有一定要求,该类动画制作复杂,短短几分钟的动画便需要一个经验丰富的动画师花费几小时。而随着AIGC技术的发展与应用,迭代更新后AI算法已经可以生成符合人体运动学的动作和表情。

真人驱动依赖动作捕捉技术。动作捕捉技术可分为惯性式动作捕捉、光学式动作捕捉及基于视频的动作捕捉三类。业内通常采用光学式动作捕捉,利用摄像机阵列和传感器来记录和跟踪人体的运动数据,但该类方法成本较高,让不少人望而却步。随着AIGC技术的发展,基于视频的低成本动作捕捉技术越发成熟。Zhang提出的实时面部捕捉系统能利用固定的数字人头部结合输入的任意视角的人脸视频实现精细到微表情级别的人脸视频输出[16]。而DeepMotion等基于视频的全身动作捕捉应用的出现使得全身动作捕捉门槛大大降低,用户上传的视频通过姿态估计等AI算法计算出视频中人体的全局位置及关节旋转信息,从而得到一段与视频对应的骨骼动画序列。

随着动作捕捉技术和视频内容数据的丰富,动作数据的积累变得更加简单,这为AI算法驱动数字人动画提供了庞大的数据基础。目前AI算法驱动的数字人主要是通过文本、音乐和视频的形式跨模态生成数字人动画,根据生成内容也分为三个方向:唇部动画生成、面部动画生成与身体动作生成。

唇部动画根据输入的不同,可分为文本驱动和语音驱动。无论是文本特征或是语音特征,在指定语言限制下其与唇部运动之间是一对一的简单映射关系,这种映射关系易从数据中学习到,相对简单,目前该类模型在行业内已经广泛应用。

面部动画生成主要是通过对3D 模型对应的Blendshape的向量表达。截至目前,国内外科技企业在数字人面部动画智能合成方面都有一定进展,国际上如Reallusion公司研究的利用语音生成面部表情的Craytalk技术已在动画制作中被成功商用,国内搜狗、相芯科技等公司也有部分项目落地应用。

动作生成主要指由动作序列或文本、音乐、视频等跨模态信息驱动生成的骨骼动画。这类输入与骨骼动画之间都是多对多的映射关系,同一个输入对应真实空间可能包含各种各样的肢体动作,这给3D化身动画提出了两大挑战:个性化动作生成和可控制的动作生成。以文本驱动为例,用户通过给定文本脚本生成身体动作,需要对输入文本进行特征提取,再利用提取到的文本特征指导动作生成模块工作。人体动作生成扩散模型(Human Motion Diffusion Model)[17]利用CLIP提取文本描述特征,结合扩散模型生成动作序列,而Action‐GPT[18]则基于GPT‐3的架构,采用了自回归的方式生成动作序列,通过生成细粒度高的动作描述指导解码器生成动作。上述模型都得到了较好的短时动作生成效果,但生成长时动作序列时易出现动作冻结、动作模糊等情况,离落地应用还有一段距离。

3.2 应用前景

在AIGC技术支撑下,数字人的批量化生成和智能化交互为其在电影制作中的应用发展提供了更多可能性。

随着数字人制作流程的优化加强,这类数字资产的生产必将变得成本更低且更加高效[19]。利用批量化生成替代真人背景演员是数字人在电影制作中一个可行的发展方向。首先,相比于真实演员,生成的虚拟数字人具有高灵活性和高可控性,可以根据导演需求进行实时调整和控制。他们可以在不同的场景和角色之间快速切换,无需担心时间限制或合同问题。而制作人员可以根据具体需要随时调整虚拟数字人的数量、外貌和动作,以实现更好的视觉效果。其次,虚拟数字人完美解决了与真实演员相关的人力资源管理问题,减轻管理和协调工作,且具有额外的保密性优势,可以避免潜在的信息泄露问题。

同时,愈加智能化的“独化数字人”也成为继真人数字替身、虚拟创造角色后数字人在电影制作中新的发展阶段。独化数字人指的是具有完整的人格和意识,拥有自主思考和行动能力的数字人,它们具有人类的智慧和意识,能够自主思考、学习和行动,它们具备智能体(Agent),依托于先进的人工智能技术,例如深度学习(DL)、自然语言处理(NLP)、神经网络等[20]。在交互性更强的“引擎电影”以及在传统电影技术的持续深挖中,计算机驱动数字人应用尝试逐渐增多已成事实。

早期的独化数字人概念主要存在于元宇宙电影中,它们体现了导演对于人工智能技术在未来与人类关系的一切遐想,《银翼杀手》《终结者》《我,机器人》中均出现了具有独立意识的数字人。随着自然语言处理(NLP)、多模态转化等领域的不断突破,数字人的智能化得到显著提升,独化数字人不再以单纯的概念存在于电影内容中,而是以真实形象出现在现实世界里。

以曾出品获得奥斯卡提名的《至爱梵高·星空之谜》的Bondit Media Capital公司投资拍摄的科幻电影《b》为例,由日本AI机器人Erica担任主演,开发团队为Erica进行了电影演技培训。Erica在片中本色出演AI机器人,突破传统以特效制作机器人的拍摄模式,引起了国内外观众的关注和讨论,成为第一部由人工智能担任主演的电影。2022年,一位由北京蔚领时代科技有限公司推出的虚拟数字人演员春草正式面世,在其背后的AI算法支撑下,春草能够对人类的指令做出及时反馈,同时也能在与人类的沟通中不断学习。正如其CEO宋震在访谈中提到:“春草的定位除了游戏《春草传》外,导演也可以直接与这位演员互动讲戏,然后让她现场表演。”

由此观之,AIGC技术为数字人在电影制作的应用带来了更多可能性,包括批量化生成的虚拟数字人替代背景演员和智能独化数字人的交互应用。这些数字人技术的进步发展为电影创作提供了新机遇,也为今后电影行业的发展提供了更多创造性与可能性。

4 结语




数字人作为电影制作的关键要素,已经成为电影叙事过程中不可或缺的重要组成部分。本研究主要介绍了数字人在电影行业中的应用现状和未来发展趋势,在形象生成、语音合成以及动画驱动方面对现有AIGC技术进行梳理总结,为电影行业的数字人制作效能优化流程提供一些参考,并在批量化生成与智能化交互方面,为数字人对电影行业的创新变革应用提供了一些启示。

随着AIGC技术的不断发展和支持,数字人的应用将超越过去仅仅在特效方面的应用,扩展到更广泛的领域,如自主剧情发展、实时情感反馈等方面。未来,数字人的进一步发展将为电影制作带来更多创造性和技术上的突破,丰富电影体验并引领电影行业向着新的辉煌时代迈进。


参考文献

(向下滑动阅读)

[1] 马绪怡, 李雪松. 数字替身工作流程探究[J]. 现代电影技术, 2021(9): 17⁃22.

[2] Naruniec J, Helminger L, Schroers C, et al. High‐resolution neural face swapping for visual effects[C]//Computer Graphics Forum. 2020, 39(4): 173⁃184.

[3] Zoss G, Chandran P, Sifakis E, et al. Production⁃Ready Face Re⁃Aging for Visual Effects[J]. ACM Transactions on Graphics, 2022, 41(6): 1⁃12.

[4] 张雪. 维塔数字智能面部动画系统在电影《阿凡达:水之道》得到成功应用[J]. 现代电影技术, 2023(5): 63⁃64.

[5] Loper M, Mahmood N, Romero J, et al. SMPL: A skinned multi⁃person linear model[M]//Seminal Graphics Papers: Pushing the Boundaries, Volume 2. 2023: 851⁃866.

[6] Pavlakos G, Choutas V, Ghorbani N, et al. Expressive body capture: 3d hands, face, and body from a single image[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 10975⁃10985.

[7] Xiu Y, Yang J, Tzionas D, et al. Icon: Implicit clothed humans obtained from normals[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022: 13286⁃13296.

[8] Luo Z, Cai S, Dong J, et al. RaBit: Parametric Modeling of 3D Biped Cartoon Characters with a Topological⁃consistent Dataset[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 12825⁃12835.

[9] Oord A van den, Dieleman S, Zen H, et al. WaveNet: A Generative Model for Raw Audio[EB/OL]. (2016‐09‐12). https://arxiv.org/abs/1609.03499.

[10] Wang Y, Skerry‐Ryan R J, Stanton D, et al. Tacotron: Towards End‐to‐End Speech Synthesis[EB/OL]. (2017‐05‐29). https://arxiv.org/abs/1703.10135.

[11] Shen J, Pang R, Weiss R J, et al. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions[C]//2018 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, 2018: 4779⁃4783.

[12] Ren Y, Ruan Y, Tan X, et al. Fastspeech: Fast, robust and controllable text to speech[J]. Advances in neural information processing systems, 2019, 32.

[13] Ren Y, Hu C, Tan X, et al. FastSpeech 2: Fast and High‐Quality End‐to‐End Text to Speech[EB/OL]. (2020‐06‐08)[2023‐06‐05]. https://arxiv.org/abs/2006.04558v8.

[14] Hu T Y, Shrivastava A, Tuzel O, et al. Unsupervised style and content separation by minimizing mutual information for speech synthesis[C]//ICASSP 2020⁃2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020: 3267⁃3271.

[15] BIAN Y, CHEN C, KANG Y, et al. Multi‐reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis[EB/OL]. (2019‐04‐04).https://arxiv.org/abs/1904.02373.

[16] Zhang L, Zeng C, Zhang Q, et al. Video⁃driven neural physically⁃based facial asset for production[J]. ACM Transactions on Graphics (TOG), 2022, 41(6): 1⁃16.

[17] Tevet G, Raab S, Gordon B, et al. Human Motion Diffusion Model[EB/OL]. (2022‐09‐29)[2023‐06‐05].https://arxiv.org/abs/2209.14916.

[18] Kalakonda S S, Maheshwari S, Sarvadevabhatla R K. Action⁃GPT: Leveraging Large⁃scale Language Models for Improved and Generalized Zero Shot Action Generation[EB/OL]. (2022‐11‐29)[2023‐06‐05].https://arxiv.org/abs/2211.15603.

[19] Achenbach J, Waltemate T, Latoschik M E, et al. Fast generation of realistic virtual humans[C]//Proceedings of the 23rd ACM Symposium on Virtual Reality Software and Technology. Gothenburg Sweden: ACM, 2017: 1⁃10.

[20] 宋雷雨. 从“替身”到“独化”——元宇宙电影中数字人的类型与美学转向[J]. 当代电影, 2023(2): 151⁃157.

本文为作者 中国电影科技网 分享,影视工业网鼓励从业者分享原创内容,影视工业网不会对原创文章作任何编辑!如作者有特别标注,请按作者说明转载,如无说明,则转载此文章须经得作者同意,并请附上出处(影视工业网)及本页链接。原文链接 https://cinehello.com/stream/150851

中国电影科技网

点击了解更多
《现代电影技术》创刊于1957年,是国内电影行业唯一的权威技术刊物;“中国电影科技网”创办于2011年,是行业内重要的宣传、服务和交流专业网站;“电影技术微刊”是新媒体平台,旨在加强编读互动,提高服务效率,加大信息传播力度。