Active存储知识：人工智能与影视内容制作：现状与未来

2020-05-27 14:32

当前，我国音视频内容消费规模持续增长，产业整体保持了积极的发展势头，但是传统广播电视与网络视频的发展水平呈现出不同的趋势：一方面，传统广播电视用户已经趋于饱和，广告收入进入下降通道。另一方面，网络视频用户快速增长，网络媒体广告收入增长迅速。广大观众的有限的注意力资源由传统的广播电视流向各种内容丰富、形态各异的新兴媒体。从内容制作的源端来看，各种用户原创内容（UGC）以其新颖、草根的特点吸引了用户的注意力，互联网内容提供商已经开始尝试将大数据分析纳入节目制作流程；从节目分发的客户端来看，以算法为核心的推送部分满足了用户“千人千面”的需求，实现了海量内容中的高效分拣以及内容选择上的个性化。但是，无论是曾经的传统广播电视还是如今的网络视频提供商都会面临“人口红利”的消失。因此如何提升内容本身的质量，提高内容制作效率，以及在制作端提供定制化的内容是未来视频行业发展的主要方向。随着人工智能+5G技术的持续进化，传统的全人工式的内容制作模式，也向着更智能、更个性化的方向逐步演进。特别是，未来对高通量、实时性、互动性要求极高的内容制作领域，传统的人工编辑显然无法胜任。通过将人工智能技术与内容制作相结合，利用AI赋能内容创作，将有助于大幅提升劳动密集型的后期制作工作的效率，简化制作流程，降低制作成本，同时将能够把内容使用与消费需求纳入内容创作前期，为用户提供精准的内容，实现真正的个性化。

一、智能内容制作的发展

2017年以来，随着人工智能技术的快速发展，影视内容制作与人工智能的结合已初露端倪。从自动影片剪辑、到视频中人物/物体的属性智能编辑、再到自动配音自动字幕，这些以往由人工完成的影视环节，都开始与人工智能强结合。其中，图像/视频生成的技术今年来在各种应用中大放异彩。所谓图像生成技术，即是给定一个输入的噪声或者条件变量，系统能自动生成一幅图像的像素值矩阵。目前，在生成模型中比较有影响力的有VAE[Kingma et al.¹]，GAN[Goodfellow et al.²]。特别是2014年提出的GAN可谓是生成模型中最受欢迎的。GAN全称是Generative Adversarial Networks，中文是生成对抗网络，是一种生成式模型，由Ian Goodfellow提出，近年来是人工智能领域最热门的研究话题之一。GAN由两个背靠背的神经网络组成，一个生成器和一个判别器，生成器和判别器在训练过程中不断博弈，使得生成器不断提高建模能力，最终实现以假乱真的图像生成。对于图像视频的内容制作，主流算法基本有一个通用框架（如图1所示），即首先从像素级做特征提取，然后根据用户的要求，对特征的语义再进一步分析，转换这些特征，最后再将这些语义信息还原成图像，正如一个函数的正变换和反变换。目前，这个正变换主要依托深度神经网络，而反变换，除了依赖一些传统的计算机图形学，包括现在热门的对抗生成网络。

二、智能媒体制作的应用案例

目前，一些网络新媒体已开始尝试使用人工智能的技术对视频的内容进行智能编辑以及生产，比较热门的应用包括人脸/人体的智能编辑技术，物体/场景的智能生成技术，以及跨模态内容匹配生成技术。

1.人脸/人像的智能编辑技术

人脸与人体动作的特效往往是视觉作品的重要部分。传统的影视特效往往高度依赖于专业的后期制作团队和繁琐的图形计算。生成式对抗神经网络GAN为人脸的智能生成、智能编辑提供了一条崭新的思路。大部分面向人脸生成应用的GAN的变体模型采用编码-解码器的结构，使用特征码表示脸形、表情、姿势等人脸属性，从而让神经网络学习到人脸属性分布特征码之间的紧凑映射关系。基于这种映射关系，用户可以随心所欲地控制属性用以生成新的脸形，以及可以让所生成的人脸做任何的动作和表情。一些比较著名的技术如DeepFake已经实现了在限定条件下短视频中的人脸替换和修饰，虽然目前的效果还难以达到电影制作等商用要求，很多影视制作公司已经开始考虑将这类以深度学习为基础的低成本方法应用于影视制作中。

人体运动迁移也是目前比较热门的人工智能技术，即通过图像处理、生成的手段，将一段目标动作序列迁移到一张目标的人像照片上，形成一段新的目标人像的动作视频。过去的专业运动捕捉技术如著名的VICON系统代价昂贵，无法面向普通大众的使用需求。最新的人工智能技术如[Pavlakos et al.³]等，已经可以通过若干张、甚至单张普通的RGB图像，重建出人体的三维形象，并随意对目标进行动作操控。这些方法通过深度学习网络训练，可以自动地根据简单光学设备拍摄出的RGB图回归出场景中的人体的形态参数和姿态参数，从而重建出人体三维模型以及连接体运动学模型。这不但冲破了摄像设备的高要求桎梏，而且缩小了过去通过双目视觉进行三维重建[Li et al.⁴]的计算量和难度。通过网络将姿态特征和形体特征从三维模型上参数化分解之后，我们只需改变形体参数便可以将正常人变成巨人；将人体模型的姿态参数替换为真人模型的姿态参数，就可以驱动动画人偶完成各种各样的动作，再也不用真人演员佩戴繁重昂贵的动作捕捉设备。

2.物体/背景的智能生成技术

图像生成技术亦可以用来产生图片与视频中的特定物体，甚至是整个背景。由Google DeepMind提出的“Big GAN”[Brock et al.⁵]可以用单一模型生成大量种类（>1000）的高质量图片，还可以通过截断操作控制同一种类内不同实体的多样性。此外一些GAN的变体利用GAN还可以通过文字来更加精确地生成所需图像。这可以包括对单一实体（物体）的具体特征描述（例如一匹有棕红色毛发，黑色马蹄，短尾巴的骏马）或者多个实体来组成的场景描述（例如三个滑雪者背着包从雪山坡上的一棵树旁划过）。最新的从文字到图像的生成模型技术通过不同的数据集训练可以实现对符合文字描述的单一实体生成或者是简单多实体场景生成。利用图像操纵类GAN可以通过给定实体的边缘或者Mask（简单轮廓）来生成相应高清实体图像。这些技术可以为广播电视的内容制作提供大量的个性化的实例图像素材，例如根据不同的电视节目可以轻松地在演播室的桌子上生成不同的节目相关的装饰物体，大大减轻素材制作的人工成本。

3.跨模态的匹配生成技术

跨媒体内容生成是指，通过学习并匹配不同模态媒体内容中具有相似语义的低维特征（如像表征物体的像素集合，单词等），完成不同模态间媒体内容的高维结构性匹配（如包含多物体，多层次的图像，语句等），最终实现跨模态内容生成或转化。目前已有两类技术被应用于诸如网络媒体节目制作等实际工作中。一类是以图像到文本生成为代表的总结型媒体内容生成，主要包括图像描述（image caption），视频描述（video caption）等，目前已有的典型应用包括以篮球为代表的自动体育视频解说[Yu et al.⁶]，新闻稿件自动生成器等。另一类是以文本到图像生成为代表的想象型媒体内容生成，主要包括文本—图像、文本—视频生成，文本—音频以及音频—视频生成等。已有的应用包括以文本为输入的图像内容编辑[Zhang et al.⁷]，以及根据音频信息生成虚拟人物乐器演奏视频等。与总结型媒体生成相反，这类媒体内容生成可以认为是一种信息拓展、信息联想的过程，换句话说，待生成的媒体内容的信息容量一般远大于已有先验媒体内容的信息容量。此类方法一般需要海量的配对训练数据，借助于对抗生成网络（GAN），变分自编码器（VAE）等概率拟合、匹配模型实现对于生成媒体内容的建模，这类技术方法特别适合互动创意视频内容的智能制作。

三、应用于广播电视方面的瓶颈

尽管图像视频的智能生成技术已然“小荷才露尖尖角”，但是目前主流的对抗生成图像生成方法，其生成的图片与视频在内容复杂性、内容真实性以及解析质量方面尚不能完全满足专业的影视创作的要求。首先，图像视频的生成本质上是一个极高维度空间搜索问题，在巨大的解空间中搜索到全局最优解是一个极难的问题，因此所生成的图片视频通常解析度不高（如低分辨率图片），局部细节容易失真（如运动视频的交互细节缺失等）。其次，目前的对抗生成式算法通过端到端的生成模式所生成像素不具备语义信息，因此无法对影视作品中丰富的语义元素包括各种物体、场景、层次、结构关系进行精细化、实例化建模，也因此无法对生成内容进行任意的修改编辑操作。最后，目前生成算法主要依靠噪声输入作为生成条件变量，而噪声与图像中的语义元素不存在显式的对应关系，因此生成过程具有高度的不确定性，不可解释性和不可修改性，这些都严重地影响了内容制作系统的可用性。因此，精细化、实例化的内容生成技术是未来的必然发展趋势。

四、智能内容制作技术的发展探索

1.高质量的内容生成技术

高解析度、低失真的图片视频生成技术是未来人工智能是否能应用于高清数字广播电视的关键。由于主流的对抗生成技术搜索空间巨大，因此如何对生成空间进行有效约束是能否生成高解析度高质量图片视频的关键。由于图像空间通常存在很强的结构化信息，例如人体运动规律，物体的多尺度信息，人脸的形状特征，景物的层次结构等，面向多模态结构化语义特征约束的图像生成算法将成为一种有效的探索。近期，一些视频生成的研究工作已经证明了使用人体结构约束[Yan et al.⁸]，互动语义约束[Marwah et al.⁹]，以及物体的多分辨率形状约束已经大大提高了所生成视频的质量。此外，鉴于当前的对抗式图像生成算法均基于端到端的像素级生成，所生成的图像视频内容各像素与输入的语义不存在直接关联（即没有直接的计算通路，具有不可解释性，内容不可控性等致命缺陷），无法产生内容复杂（即人物物体、时空关系等语义元素复杂）的图像视频。因此，面向实例化的图像生成算法将不失为一种很好的探索，即可以直接对图像视频中的物体以及结构关系进行结构化语义建模，以实现面向复杂内容结构语义保留的图像视频自动生成，在提高实体或场景描述或限制的复杂度的基础上同时保持实体图像的生成质量。

2.从2D到3D的内容生成技术

随着3D数据获取难度的降低，诸如点云（point cloud），体素（voxel），网格（mesh）等3D数据也在被逐步引入媒体内容生成之中。当前比较具有潜力的一个研究方向是，根据2D的参考输入图像，通过结合先验的3D模型以及端到端的深度网络隐射，直接生成3D场景与对象数据。3D生成的好处在于所生成的内容可以与AR、VR等技术无缝对接，即可以对目标进行任意角度任意缩放的渲染。此外，在语义分割技术的辅助下，所生成的目标个体可以被灵活地修改编辑。3D图像的生成技术已经被应用于人脸生成。目前主流的3D人脸模型生成技术主要基于已建好的线性人脸3D模型集对输入的带有人脸的2D图片进行编码，对人脸的姿态几何、纹理和表情用参数进行控制，并根据面部特征点、深度卷积神经网络回归等方式进行参数拟合以重建一张新的3D人脸。例如，我们可以通过对人脸几何，纹理等参数的修改，实现对3D人脸的面部状态，年龄性别特征等进行快速编辑；我们还可以通过对人脸的表情参数的修改，以3D人脸的形式展现任务的情绪变化。

3.从单一创作主体到协同创作

对于广播电视的内容创作，实际上人类专家与人工智能各有专长。人类智能的优势在于认知能力与天马行空式的艺术创作灵感。而智能机器的优势在于能学习到训练数据中所蕴涵的经验、规律。对于内容创作来说，创作经验的复现的与新奇的创作灵感都是不可缺少的重要元素。因此，单独让人类或者人工智能进行内容创作，并不一定是最优的选择。未来，我们更希望人脑和机器组成一个特定协作的系统来进行内容的创作，这个协同的创作系统可以是一张巨大的异构计算机网络，而网络的节点可以是人也可以是人工智能终端，各个节点可以并发地修改一部分内容。同时，利用大脑或人工智能算法给出奖惩机制进行创作内容的同步与调节，机器通过诸如强化学习的算法自适应地调整控制参数，实现人机协同的控制，最终实现千人千面的内容生成。这其实是混合智能的典型案例，即将人类智慧集成到人工智能中，弥补现有人工智能技术的缺陷，以达到最优输出。

五、结语

本文介绍了人工智能时代，图像视频内容制作技术的智能化新发展，同时对这些技术未来在广播电视内容制作领域的应用可行性做了初步的探索。本文指出了当前在一些新型的深度学习框架下（例如生成对抗网络GAN），对于图像视频中人脸/人体，物体/背景，跨模态数据的智能生成、智能编辑、智能匹配已经成为可能。然而，相对未来广播电视节目的内容制作应用中高质量、高清晰、低失真的基本要求，当前的人工智能算法仍然有很大的性能改进提升空间。为真正应用于未来广播电视内容制作，结构约束下的实例化高精度图像视频生成，面向3D 空间的内容生成，以及人机协同的混合智能式内容创作等技术，将是未来智能内容制作的重要探索。

出处作者：上海交通大学张文军

北京博恒视创科技有限公司是一家专业多媒体存储系统集成商。我公司联合美国Active Storage公司共同开发了Active媒体私有云共享系统、满足4k视频剪辑和大型真人秀节目制作的Active Storage光纤存储在线实时剪辑系统、满足每天100T的源数据同城或异地的数据分发与共享的远程数据复制与内容分发系统。8K电影全流程跨平台共享实时剪辑系统，现场实时调色及DIT管理系统，影视素材归档备份管理系统、海量数据自动化迁移保存系统、全媒体制播网系统等多种完全“订制化”的解决方案。2018年本公司开发出一套完整的数据安全保存系统，以“在线编辑，近线备份，离线保存”的三维立体式的解决方案，让客户数据在“生命周期”内安全的保存，没有后顾之忧，我们始终将客户的需求放在第一位，持之以恒，坚持创新，引领产品走向高容量、高带宽、高集成和人工智能化。

大型真人秀后期非编网部分成功案例：

深圳卫视《加油吧，新郎》、爱奇艺《流行之王》、北京卫视《歌手是谁》、湖南卫视《完美假期》、江西卫视《带着爸妈去旅行》、央视三套《幸福账单》、央视三套《急速少年》、湖南卫视《旋风孝子》、湖南卫视《妈妈的牵挂》、安徽卫视《国剧盛典》、安徽卫视《合唱先锋》、腾讯《拜托了冰箱》、黑龙江卫视《嘿，大兄弟》、山东卫视《家游•好儿女》、江西卫视《七天爱上你》、芒果TV《透鲜滴星期天》、CCTV《警察特训营》、爱奇艺《大学生来了》、爱奇艺《娜就这么说》、爱奇艺《我去上学啦》、浙江卫视《喜剧总动员》、芒果TV《黄金单身汉》、芒果TV《香蕉打卡》、芒果TV《不一样的偶像》、江西卫视《玫瑰之旅》、浙江卫视《开心俱乐部》、优酷《火星实验室》、内蒙古卫视《嗨，马上出发》、芒果TV《爸爸去哪儿》、芒果TV《我是大侦探》、央视《朗读者》、湖南卫视《我家那小子》、湖南卫视《幻乐之城》、湖南卫视《亲爱的客栈》、腾讯视频《创造101》、爱奇艺《偶像练习生》《青春有你》，湖南卫视《中餐厅》《亲爱的客栈3》等等真人秀节目后期机房

欢迎咨询

魏明

-------------------------------

北京博恒视创科技有限公司

电话: 18611689687（同微信号）

Q Q: 245606702

Add: 北京市朝阳区三间房东路一号懋隆文化产业创意园34栋

网址：www.active-storage.com.cn

本文为作者魏明分享，影视工业网鼓励从业者分享原创内容，影视工业网不会对原创文章作任何编辑！如作者有特别标注，请按作者说明转载，如无说明，则转载此文章须经得作者同意，并请附上出处(影视工业网)及本页链接。原文链接 https://cinehello.com/stream/126498

魏明

北京博恒视创科技有限公司

发表文章 190 篇

首页

学习

工作 | 工具

影视圈招聘

商城

发现

Active存储知识：人工智能与影视内容制作：现状与未来

最近文章更多

关注影像创作与先进技术

关于我们

公司简介

使用条款

联系我们

内容合作计划

关注我们

首页

学习

工作 | 工具

影视圈招聘

商城

发现

Active存储知识：人工智能与影视内容制作：现状与未来

最近文章 更多

关注影像创作与先进技术

关于我们

公司简介

使用条款

联系我们

内容合作计划

关注我们

最近文章更多