《现代电影技术》丨AI与电影智能制作研究与展望
本文刊发于《现代电影技术》2023年第10期
专家点评
人工智能(AI)代表着一门探索、模拟、延展人类智慧的先进技术科学,其理论、方法和应用系统在近年来逐渐成为学术界和产业界的焦点。尽管AI并非真正意义上的人类智慧,但其思考的模式与能力已逐渐逼近甚至有可能超越人类。电影业,作为一种集技术与艺术于一身的行业,与AI的深度结合自然成为业界关注的焦点。《AI 与电影智能制作研究与展望》一文详细阐述了电影智能制作的定义、内涵和特点,系统回顾了AI 如何影响电影制作流程,并深入分析了AI在电影前期、后期制作中的应用和未来发展。这为电影导演和制片人带来了更大的创意灵活性。此外,文章还探索了我国电影业面对智能化浪潮应采取的策略和方法。对于电影从业者来说,文章提供了一个了解如ChatGPT、Stable Diffusion、DALL·E、Midjourney、Leornado.Ai、VALL⁃E、MusicLM等先进AI工具在电影制作各环节中应用的窗口,从而更加深入地感知AI在电影制作中的深远影响。总得来说,AI为电影业带来了划时代的变革,它不仅大幅度提高了制作效率和质量,同时为创作者打开了前所未有的创意天地。我们有理由相信,在不远的未来,AI在电影行业中的角色和作用将更为凸显。
——金小刚
教授
浙江大学-腾讯游戏智能图形创新技术联合实验室主任
浙江省虚拟现实产业联盟理事长
作 者 简 介
陈军
北京电影学院影视技术系研究员,主要研究方向:数字电影技术、电影虚拟化制作、电影智能制作。
北京电影学院影视技术系副教授,主要研究方向:虚拟人运动合成、电影虚拟化制作、电影智能制作。
赵建军
鲁梦河
北京电影学院影视技术系助教,主要研究方向:电影虚拟化制作、电影智能制作、色彩管理。
摘要
人工智能(AI)技术是当前备受关注的前沿技术,其在电影中的应用也已成为电影行业最关注的热点议题。本文回顾了AI技术的发展对电影的影响,总结了电影智能制作的概念、内涵与特征,全面梳理了当前电影智能制作的状况,深入探讨了电影智能制作未来发展趋势,并重点指出了我国电影行业如何应对电影智能化发展的措施和思路。
关键词
AI;电影智能制作;智能创作;AIGF
1 AI与电影
近年来,人工智能(Artificial Intelligence,AI)技术的爆发式跃进,使电影的制作方式、技术流程、创作思路都面临着革命性改变。在制作端,AI可以辅助创作者在前期筹备阶段进行剧本创作、概念设计、市场预测;在拍摄和后期制作阶段提高制作效率;在发行放映阶段,AI可以通过全方位的信息处理,提供更加科学合理的排片,使制作方获得最大收益;在影片修复与增强处理方面,AI极大提高了效率和质量。总之,今天的电影行业已经无处不“AI”了。
AI的概念是随着时间不断演进的。1956年,美国计算机科学家约翰·麦卡锡将AI定义为“研制智能机器的科学与工程” [1]。1996年,英国认知科学家玛格丽特·博登认为AI旨在“研究如何构建或编程计算机,使其能够完成人脑所能完成的工作” [2]。2019年,欧洲学者卡普兰和海恩莱因将AI解释为“系统正确解释外部数据,从这些数据中学习,并利用这些知识通过灵活适应实现特定目标和任务的能力”[3] 。上述定义强调AI的目标是使计算机能够模拟人类的智能行为过程,包括感知、分析、理解、思考、决策等。当前,AI的研究分支十分广泛,包括机器学习(ML)、自然语言处理(NLP)、计算机视觉(CV)、语音识别(SR)、决策系统(DMS)等。
AI的形态也在不断变化,随着算力的快速发展,AI正从弱人工智能、强人工智能向超人工智能过渡。弱人工智能(Weak AI)又称狭义人工智能(Narrow AI),是指专门设计和训练用来执行特定任务的人工智能系统,可在特定任务或领域内表现出智能行为,但不具备真正的认知与自我改进能力。强人工智能(Strong AI)又称通用人工智能(Artificial General Intelligence,AGI),是指能够像人类一样具备智能、意识和自我意识的人工智能系统,能够执行任何人类智能可以执行的任务。超人工智能(Artificial Super Intelligence,ASI)又称超级智能(Superintelligence),最早由英国哲学家尼克·博斯特罗姆定义为“一种几乎在每一个领域都胜过人类大脑的智慧” [4]。强人工智能算法可与人类大脑媲美,而超人工智能则是超越人类智慧的存在。
AI的核心分支是机器学习(ML),其基本思想是使用特定算法和模型针对大量数据进行自动化学习训练,使计算机程序获得识别模式、完成任务、预测结果等模拟人类智能的能力。根据监督信息的多少与反馈机制的差异,可将机器学习方法分为无监督学习、监督学习、强化学习等类别。深度学习(Deep Learning,DL)是近年来发展迅速的一种实现机器学习的技术,是以模仿人脑神经元系统的神经网络(Neural Network)模型为架构,采用分层特征提取算法对数据进行特征学习的方法,可用于识别数据中的复杂模式,从而生成准确的认知和预测。近年来最具代表性的深度学习框架包括深度神经网络(Deep Neural Network, DNN)、卷积神经网络(Convolutional Neural Network,CNN)、深度信念网络(Deep Belief Network,DBN)、循环神经网络(Recurrent Neural Network, RNN)等。大规模预训练模型(Large⁃scale Pretrained Model)是一类基于深度神经网络和自监督学习技术的,在大规模、广泛来源数据集上训练的AI模型,其通过微调(Fine⁃tuning)等手段可直接在一系列下游任务上使用。自2017年谷歌翻译团队提出基于“编码器-解码器”结构和自注意力机制的自然语言处理模型Transformer[5]以来,以大语言模型(Large Language Model,LLM)为代表的大规模预训练模型迎来高速发展期。近年来大语言模型发展[6]的主要分支包括在Transformer基础上仅保留编码器的BERT模型、仅保留解码器的GPT和LLaMA模型等。Transformer模型也因其高效性,很快应用于语言、语音、图像、视觉等多个领域,并催生了生成式人工智能(Generative AI)的发展。
当前,AI在电影制作中的应用以弱人工智能为主,强人工智能为辅。弱人工智能通过大量数据训练使计算机完成特定任务,可以辅助或部分取代制作流程中的重复劳动,提高制作效率,也可以基于智能分析为创意、市场营销等环节提供信息参考,辅助创意决策。近年来,强人工智能在电影制作中开始初步应用,随着大型预训练模型等深度学习方法的成熟,各类人工智能生成内容(AI Generated Content, AIGC)技术呈爆发式发展,可以清晰预见,以多模态为典型特征的强人工智能创意工具,将进一步渗透并革新电影的制作流程与创作思路,催生电影智能制作的新范式[7]。
2 电影智能制作的概念、内涵及特征
近年来,电影行业逐渐提出了电影智能制作的概念,但是目前还没有统一的定义来明确什么是电影智能制作。要明确定义电影智能制作,首先要研究清楚其概念、内涵及特征。
2.1 概念
电影智能制作概念的产生是一个渐进的过程。初期时并没有提出电影智能制作的概念,是因为AI只介入个别制作环节,当很多环节都开始采用AI技术,从制作技术到创意手段都引入AI后,人们自然想到了电影智能制作的概念。
从行业一般认知看,电影智能制作是一种利用人工智能技术来辅助、优化和创新电影制作过程的方法。它涵盖了从剧本创作、角色设计、场景生成,到后期特效制作、音频处理等多个环节,通过引入机器学习(ML)、图像识别(IR)、自然语言处理(NLP)等技术,以更高效、创新、个性化的方式参与电影制作的各个阶段。电影智能制作旨在提升电影创作的质量、效率和创新度,同时为创作者和制片方提供更多的创意和技术手段。
传统上,电影制作中的智能技术主要用于后期制作,如特效处理、音频编辑等,以提高效率和质量。但随着AI和计算机技术的发展,电影制作开始探索如何将智能技术引入到创作阶段,从而更直接地影响电影的故事构建、角色发展和创意产生[8]。因此,从发展角度看,电影智能制作可以分为三个阶段,从AI技术仅仅辅助制作的初级阶段开始,发展到今天已经进入辅助创意和创作的中级阶段,而未来的超人工智能技术能够根据市场需求直接创作电影作品,而这将是电影智能制作的高级阶段。
2.2 内涵
电影智能制作是电影与科技的交叉融合,随着科技的发展,电影与科技的交叉融合将会更加深入。AI在电影制作中应用的初期阶段,是弱人工智能在感知与记忆存储等单一环节的应用,AI可以辅助进行图像识别与处理等相关操作,其处理信息是单一性质的简单数据,而在强人工智能应用的当下,AI可以学习多模态信息以及强关联,并进行简单的艺术特征识别和模仿,如智能调色、智能剪辑等。在未来的电影智能制作中,超人工智能将广泛应用,AI可以学习艺术风格等高维信息,甚至是独立创新,生成特定风格的电影(图1)。电影作为特定的艺术形式和媒介,对科技的应用场景提出了特异的需求,电影智能制作就是使用AI技术,理解并辅助这种特异性的艺术表达。
图1 电影智能制作的内涵
2.3 特征
总结电影智能制作的共性,具备下列几个特征。首先是自动化,借助AI技术,实现电影制作过程中一些繁琐手动操作的自动化,减少人工成本。其次是自我学习和优化,通过机器学习(ML)和深度学习(DL)等方法,从用户反馈和数据中学习,并不断优化自身的能力,提升制作质量。另一个特性是快捷高效,可以大幅度减少制作时间,极大地提高制作效率,降低制作成本,使更多的电影项目得以实现。电影智能制作最后还有个特性是大数据驱动——利用大数据、机器学习(ML)等技术,分析电影、观众偏好、市场行情等,提供可靠的数据支持,帮助制作团队进行决策和优化。
研究了电影智能制作的概念、内涵和特征后,我们可以给电影智能制作这样的定义:以人工智能为核心技术的电影工业化制作(Artificial Intelligence Industrial Production,AIIP),包含AI辅助制作( Artificial Intelligence Aided Production,AIAP)、AI辅助创作(Artificial Intelligence Aided Creation,AIAC)和AI自主创作(Artificial Intelligence Autonomous Creation,AIAC), 它以自动化制作和自我学习优化为典型特征,极大提高了电影的生产能力。
3 电影智能制作现状
当前,人工智能技术和工具已经广泛应用于电影制作的各个环节,电影智能制作也从AI辅助制作的初级阶段进入AI辅助创作和制作的中级阶段,下面梳理一下具体的应用情况。
3.1 以剧本为核心的前期开发
在电影的前期开发环节,人工智能当前主要应用于分析剧本内容、预测市场收益和观众反馈等。如比利时的ScriptBook(2015)集成数据分析、机器学习(ML)、自然语言处理(NLP)、特征选择算法(FSA)等技术,对用户输入的剧本进行分析,以可视化方式输出角色和情绪特征、商业可行性、票房和观众评级预测等,从而辅助制片人进行创意决策[9]。该系统使用超过6500个剧本及其市场反馈作为训练数据,可认为是监督式机器学习的应用。同类企业和产品还包括美国Cinelytic(2016)[10],迪士尼研发的 StoryPrint(2019)[11],我国海马轻帆智能创作平台[12](2021)、安捷秀(AgileShot)制片管理系统[13]等。这些产品强调通过智能化拆分剧本元素、可视化分析剧本内容,输出内容评价与市场反馈预测等结果,辅助而非代替主创进行创意决策、制片管理等。
随着以OpenAI公司ChatGPT(2021)、百度“文心一言”(2023)为代表的基于大语言模型(LLM)的文字生成产品不断成熟,未来的电影剧本创作将更多引入人工智能生成内容。生成式人工智能可在输入文字源素材及提示词的基础上,按照编剧要求生成多种剧情走向、丰富构思、填充细节,并可以进一步生成分镜头脚本等,其功能已经从辅助决策过渡为直接参与创意生成,实现对编剧行业的赋能[14]。
3.2 美术设计与数字资产制作
在美术设计与数字资产制作环节,生成式人工智能工具(图2)在二维图像、三维资产、纹理、动画、场景生成领域均取得飞速发展,已开始应用于电影数字资产、美术场景、概念图等素材生成流程中。
图2 生成式人工智能在图形图像领域的应用[15]
在二维图像生成方面,Stable Diffusion、DALL·E、 Midjourney等产品[16],采用流模型(Flow⁃based Model)、扩散模型(Diffusion Model)、生成式对抗网络(Generative Adversarial Network,GAN)、变分自编码器(Variational Auto⁃Encoder,VAE)等基于深度学习(DL)的图像生成方法,基于对大规模标签化图像数据的监督学习,实现生成符合给定文本描述的真实图像(Text⁃to⁃Image)、对输入图像进行扩展填充等任务,辅助美术设计、概念图生成、故事板绘制等工作[17](图3)。此外,基于上述技术的AIGC工具也集成在平面图像处理软件中,如Adobe Photoshop新增人工智能工具 Firefly(2023),可实现基于文字生成图像、生成式填充等功能,提升了对二维图像生成内容的再加工自由度。
图3 使用Stable Diffusion、DALL·E、Midjourney生成场景与人物概念图
在三维数字资产生成方面,三维数字资产分为模型、贴图、骨骼、动画等,其中三维模型分为网格(Mesh)、体素(Voxel)等。当前主流三维数字资产生成工具中,Barium AI、Spline等产品可生成平面贴图, Leornado.Ai、Polyhive等产品可在UV空间生成贴图,而Meshy、Kaedim等工具可根据文字提示或二维草图直接生成三维模型[18] (图4)。Luma AI发布英伟达(NVIDIA)插件[19],基于神经辐射场(NeRF)与体渲染(Volume Rendering)技术,从图片或视频快速创建真实对象的三维数字模型,并导入虚幻引擎5(UE5)作为数字资产使用,无需对几何结构或材质等进行修改。
图4 Kaedim从二维草图生成三维模型
3.3 动作捕捉与角色视效制作
近年来,人工智能技术的引入使动作和表演捕捉流程向着无标记、智能化、便捷化发展。知名动作捕捉技术厂商Vicon与视效企业Artanium及VR企业Dreamscape合作,在SIGGRAPH 2023发布其基于机器学习方法的无标记、多模式、同时支持6人的实时动作捕捉解决方案[20](图5)。MOVE AI发布无标记动作捕捉工具 Invisible(2023)[21](图6),并与Disguise达成合作,该工具基于人工智能与计算机视觉算法,可从任何视频、高清摄影机、移动设备中提取人物运动轨迹,并绑定至模型或角色身上,实现高保真效果的动作捕捉。Wonder Dynamics 公司开发 Wonder Studio云平台(2023)[22](图7),使用机器学习算法创建人脸和身体动作的逼真 3D 模型,并直接在实时视频片段中无缝替换。
图5 Vicon在SIGGRAPH 2023展示其无标记动作捕捉方案
图6 MOVE AI无标记动作捕捉与传统光学动作捕捉的对比
图7 Wonder Studio 在视频片段中将真实人物替换为虚拟数字人
在角色视效制作流程中,基于深度学习(DL)和神经网络(Neural Network)的人工智能技术,可以减少繁复的人工操作,在提升效率的同时增强各类效果制作的真实性。Wētā FX视效总监Joe Letteri团队在《阿凡达:水之道》(2022)面部捕捉工作中,开发新的解剖学上可信的面部系统(APFS)[23] 取代 FACS 管线,基于真实肌肉运动与连接建立神经网络,对来自80个动态运动剪辑的6000~8000帧扫描进行机器学习,更逼真地模拟符合解剖学的178条面部肌肉纤维曲线(图8)。视觉特效公司MOREVFX 在《流浪地球2》(2023)中使用吴京年轻时的视频素材训练 AI 模型,基于 Deepfake算法并结合手动调整,实现“刘培强”角色减龄(De⁃aging)[24](图9),相关算法也被应用于人物换脸等视效制作中。
图8 APFS系统用于《阿凡达:水之道》面部特效制作
图9 《流浪地球2》基于Deepfake算法的角色减龄
3.4 其他后期制作流程
电影后期制作是以现场拍摄阶段的工作结果为起点,以产出完整的影片为目标而开展的一系列电影生产工作,包含剪辑、视效合成、调色、声音和音乐制作、母版制作等工序。人工智能工具在上述各个环节都有着广泛的应用。
人工智能工具在剪辑方面的应用已有较长历史,可实现根据剧本内容自动组接镜头与转场效果,生成初步或最终剪辑版本。2016年,基于人工智能的计算机系统IBM Watson为恐怖电影《摩根》剪辑了6分钟的预告片[25],该模型接受了100多部恐怖电影预告片的训练,从而学习了类似作品独有的结构和模式。IBM AI Vision “视觉大脑”(2018)应用于腾讯等平台体育赛事智能剪辑流程中,通过机器学习(ML)识别球星、动作、得分,可生成高光集锦等视频素材[26]。Adobe系列后期制作工具应用Sensei AI插件(2018),可实现智能剪辑等功能[27]。Anthropic公司推出 Premiere Pro插件“AutoPod”(2023),可判断视频语境,自动完成多至10机位的音视频剪辑工作[28]。
人工智能在视效合成工具中的应用,也可以显著提升动态遮罩制作(Rotoscope)等传统特效流程的效率。2021年,Nuke 13.0推出机器学习工具集AIR,其中的CopyCat节点允许视效制作者根据少量示例帧进行神经网络训练,批量自动生成动态遮罩,并结合Inference、Upscale、Deblur等节点实现跨序列应用与效果调整,节省大量的手动抠像时间[29]。
在后期调色工作中引入人工智能工具,可提升镜头匹配等流程的工作效率,使调色师更加专注于创意环节。在影像修复与画质增强方面,国家中影数字制作基地自主研发的“中影·神思”(2018)人工智能图像处理系统,采用GAN、DenseNet、CycleGAN等神经网络模型开发了分辨率提升画质增强处理单元、标清图像去场处理单元、图像数字修复处理单元等模块,实现视频资料画质修复[30]。中国电影资料馆与火山引擎合作(2023),在胶片物理修复和数字化处理的基础上,对百部港片进行人工智能修复,实现4K分辨率上变换与画质修复[31]。
在声音与音乐制作方面,人工智能的应用模式从辅助制作向内容生成转变。iZotope系列软件使用人工智能工具检测和修复音频噪声,并实现基于风格学习的自动混音。人工智能声音修复技术也应用于《流浪地球2》(2023)中,基于李雪健早期作品音频训练AI模型实现声音修复。在内容生成方面,微软发布 “神经编解码器语言模型” VALL⁃E(2023)[32],基于Meta EnCodec 技术将语音输入生成声学令牌,可根据仅3秒的语音输入模拟人声音色、情感音调、声学环境。Google发布AI音乐大模型MusicLM(2023)[33],直接实现由文本生成音乐(Text⁃to⁃Music),可指定风格、时长、乐器等,实现为图片和视频自动配乐。其他人工智能音乐生成工具和平台还有iMyFone MusicAI[34]、Mubert[35]等。
3.5 AI直接生成活动影像
随着多模态AIGC工具进一步发展,影视创作者已可以直接实现基于风格化迁移与多模态生成活动影像内容的制作。如英伟达(NVIDIA)于2023年发布AI视频生成模型Video LDM[36],可以根据用户的文本描述自动生成视频(Text⁃to⁃Video),最高分辨率可达 2048×1280 24FPS,时长最长可达4.7秒(图10)。2022戛纳短片电影节最佳电影《乌鸦》(The Crow),由人工智能艺术家格伦·马歇尔(Glenn Marshall) 将舞蹈短片《Painted》输入OpenAI创建的神经网络CLIP中,指导生成式对抗网络(GAN)或扩散模型生成视频帧序列。2023年,Runway Research公司发布视频生成工具Runway Gen⁃2,可根据文字或图片素材直接生成短视频,标志着多模态生成式人工智能发展到达新的阶段[37](图11)。
图10 Video LDM生成的视频片段截图
图11 Runway Gen⁃2从文字或图片直接生成视频
可以看到,当前的电影智能制作是传统制作各个环节对于弱人工智能和强人工智能技术手段的综合运用,AI直接生成的活动影像还只能实现低质量和短时间的画面,离电影复杂叙事、长时间及大银幕放映还有很大距离。
4 电影智能制作引发的问题与挑战
每一次技术革命,都给现有的制作流程和艺术创作带来机遇,但也带来了巨大的挑战。电影智能制作除了需要不断解决技术问题外,同样也带来了一些崭新的问题。
4.1 技术问题
电影智能制作依赖AI技术的支撑,AI技术存在的问题自然影响到电影智能制作,如生成结果不可控性、倾向性等,制作过程算力消耗巨大,另外,目前制作的画面技术质量不能满足大银幕放映要求,无法生成长时间的活动影像等。
当前,AI系统普遍缺乏透明性和可解释性,可调试能力差,特定研究对应的应用效果也缺乏可预见性。由于深度学习(DL)等技术的复杂性,生成式对抗网络(GAN)等AI模型参数的意义不明,AI的训练和决策往往是黑箱操作,没有可表述的逻辑和明确的原因,这使得人们难以理解AI系统输出,也不易进行调试。如ChatGPT等大语言模型的“涌现现象”是科研人员所无法预料且难以解释的。在三维重建中,深度学习(DL)可以提升传统三维重建性能,完成图像中不可见部分的建模,甚至Magic123等算法直接基于单张图像进行三维重建。理论上讲,单张图像不包含物体的三维信息,不能恢复深度信息,但AI学习人难以解释的经验可以大致估计物体的距离。这种直观上不易理解的“合理性”在具体应用中也不易进行调试,而一旦面对不同对象和应用场景,AI系统需要重新选择AI算法、模型与参数进行训练,且其最终效果难以保证。
AI系统在训练和学习中需要用到大量数据,其数据依赖性强,容易产生数据偏见或数据不平衡,这也使得其抗干扰性差,易受攻击。AI人脸识别系统中,如果其训练数据存在性别、地区、文化、面部疾病等方面的偏见或缺失,将会显著影响人脸识别系统的性能和公平性。此外,AI系统的结构性漏洞,导致了其“对抗样本攻击”风险不可预知。如对抗性攻击通过对输入数据进行微小的、精心设计的改变,可使AI系统产生错误的结果或不安全的行为。这也是人脸识别和人体识别应用中的典型问题:比利时鲁汶大学研究人员借助简单图案,可以躲过YOLO(v2)开源对象识别系统的识别,莫斯科国立大学和华为莫斯科研究中心研究人员也利用对抗攻击技术攻破了公共Face ID系统 ——ArcFace。另外,对抗性攻击在自然语言处理(NLP)领域,特别是像GPT这样的大语言模型(LLM)上也是非常典型的问题和重要的挑战。由于GPT依赖于数据,系统的攻击者向训练数据注入干扰数据,将可能导致模型产生非常大的误导性或不准确,甚至不正确的输出,很大程度上影响 GPT 的表现。
4.2 版权问题
传统意义上,计算机软硬件辅助创作人员制作的作品版权和所有权是没有问题的,因为计算机只是一种技术工具,像画家手中的笔、演奏家的乐器一样。然而,随着强AI的爆发式发展,AI已经可以在没有人为干预的情况下,生成很多具有“创造性”的内容。像很多AIGC应用领域一样,电影智能制作在版权方面也面临着具体的挑战,主要涉及到创作权、使用权和产权等方面的问题。版权通常要求作品具有原创性和独创性,而如果AI生成的内容是基于已有素材和数据,那么其原创性和独创性如何界定;当使用AI生成创作内容时,谁应该拥有由AI生成的内容的创作权也需要进行明确界定。
大多数国家对原创的定义都需要是人类作者,如包括西班牙和德国在内的大多数国家都规定,只有人类创作的作品才能受到版权保护。而在一些国家,虽然未明确禁止对AI生成的作品授予版权,其具体执行也非常慎重。2023年8月美国法官贝利尔·豪威尔(Beryl A. Howell)驳回了AI企业家斯蒂芬·塞勒(Stephen Thaler)对美国版权局的诉讼,裁定由AI生成的艺术作品不受版权保护,并强调人类创作是“有效版权主张的重要组成部分”。同样,澳大利亚一家法院宣布,由于计算机生成的作品不是人类完成的,故不受版权保护[38]。
此外,AI可能使用大量的数据和素材进行学习和生成,但这些数据的版权和合法性该如何保护。同理,如果电影智能制作生成的内容是其他作品的改编、转化或衍生,需要确保符合法律规定的派生作品条件。然而难点在于,由于电影智能制作所涉及的AI模型的复杂性和大数据特性,从技术上调查取证十分困难。
电影智能制作有艺术创作者和AI协同创新工作的巨大空间,但是如何界定两者之间的版权权益和责任分配也是一个问题。
4.3 伦理问题
电影作为一门艺术形式,其中包含着不可或缺的人类情感。随着强人工智能技术开始介入内容创作,引发了其是否可能替代人类创作者并对电影叙事伦理性产生何种影响的深刻思考。这个问题是行业内需要慎重对待和思考的问题,ScriptBook首席执行官Nadira Azermai介绍,制片公司开始采用其AI技术,同时必须签署保密协议。2020年1月,华纳兄弟宣布采用Cinelytic的AI项目管理系统,这是好莱坞公司首次公开宣布采用AI替代人进行创造性工作。ScriptBook和Cinelytic这些电影AI创作应用的先行者,强调用大数据建模的AI模型是客观体现创造力的工具,可以进行人工调整,而且AI技术是对创作的客观评价或者参考启发,并不会影响艺术的人文性[39]。然而使用AI生成的剧本、短片或者电影是否是从人性的角度和情感出发,其作品是否缺乏人类创作者的情感和独特视角,这一定会引发有关电影艺术性和现实性的伦理考虑。
AI需要大量数据来学习和生成内容。因此,电影制作中使用的数据可能涉及到个人隐私,如何合理使用并保护这些数据,是电影智能制作中的一大难点。AI可以根据观众数据生成个性化的电影内容,个人的隐私性和合规性如何保护,此外,AI个性化推荐是一种形式的信息过滤,有可能导致“信息茧房”问题。
解决这些问题需要制定伦理准则和监管政策。同时,电影从业者需要积极参与伦理讨论,以确保电影制作既具有创新性,又能够维护艺术和社会价值。
5 下一步发展及未来展望
近年来AIGC技术发展迅猛,这一断裂式的技术创新 (Discontinued Technology) 将会带来阶跃式的产业变革,给电影制作的未来带来无限可能性。
5.1 制作能力和效果进一步提升
未来,AI技术将可能在软硬件以及应用模式上取得更大的发展,从而为电影智能制作提供更多可能性。AI系统可能极大程度上增强自主决策和学习能力,并且持续进行自我学习,从而在艺术创作中会有更多风格鲜明的内容生成。基于特定数据集、快速自适应算法,通过经验来优化学习算法本身,这将使得同一AI系统在不同风格的电影制作时能够更快地进行学习和适应。此外,AI技术将会在多模态融合感知上取得更大突破,并应用于电影智能制作,这样通过多种感知方式,如图像、语音、自然语言等,能综合性地辅助电影创作。
此外,当前大模型和大数据,都存在不可解释性和潜在的偏见问题,未来的AI技术可能会更加强调可解释性,确保算法的公平性和透明性,并让人能够更加深入,以更加可理解的方式进行创作,AI系统将更多地与人类进行紧密合作,从而提供更好的辅助和支持,而不仅仅是替代人类工作。
5.2 辅助创意和创作能力快速增强
下一步电影智能制作有潜力在多个方面助力艺术创作,提供更多创意,提高创作效率。未来的电影智能制作可能更多地关注如何协助创作者释放创意潜能,成为一个创意伙伴,为创作者提供灵感、场景设定、角色构建等建议,从而促进更富创造力的电影创作。
首先,AI可以学习分析创作者大量的电影作品和创意数据,从中提取模式和趋势,为创作者提供创意启发和辅助,如生成情节故事、角色设定和视觉效果,为创作者提供新的创意方向。
其次,电影智能制作实时、沉浸式帮助创作者将想法可视化,通过简单的语义描述或问题提示即可实时生成场景草图、虚拟模型、动画甚至是真实感三维场景,帮助导演和摄影师更好地规划和预演镜头。
再者,AI技术不断进步,可以学习艺术作品的情感和情绪表达。电影智能制作中,可以通过音乐、音效和图像处理辅助创作者表达情感和情绪,这些音乐生成和情感识别技术可以使电影更具感染力和共鸣。
最后,AI可以方便进行大规模创作和生成,这种短时间内生成大量的创意效果,可以激发扩展创作者的创作能力,借助AI的“头脑风暴”,能够快速制作和尝试新颖的创意。
5.3 未来展望
未来电影智能制作最终将借助超人工智能技术,彻底打破今天电影制作的流程和各个技术环节,最终实现从创意构思直接生成高质量电影成片的终极理想,即AIGF(Artificial Intelligence Generated Film),进入电影智能制作的高级阶段(图12)。
图12 电影智能制作的未来发展
6 我国电影行业应对及产业升级
面对迅猛发展的电影智能制作,我国电影行业应该如何应对,如何抓住这次蝶变的契机,迎接数字化、虚拟化之后更大的一次挑战,是电影人不得不面对和深入思考的问题。过去20多年,我国成功完成了电影数字化转型之路,对于接下来的电影智能化发展之路如何走,笔者建议从以下几个方面入手(图13)。
图13 我国电影行业应对及产业升级思路
6.1 完善自主可控的AI制作体系
电影智能制作涉及到诸多的硬件,包括专业摄影设备、渲染服务器、云服务器、高性能图形处理器,也需要AI软件和算法支撑,如大数据、大模型、云计算和存储,还涉及到大量电影专业应用软件。当前电影智能制作的硬件,尤其是AI的核心基础CPU与GPU以及服务器等, 主要以国外产品为主,而在通用人工智能的算法和应用领域方面,我国则具有很强竞争力。但是在电影制作具体领域的软硬件方面,产业应用以国外产品为主,我国自主可控的AI制作体系还处于起步阶段,急需开拓研究。当前背景下,进行自主知识产权的关键性电影科技研究,开展关键技术和装备的国产化替代技术体系研究, 为构建符合国情的体系打好电影智能化基础。
6.2 建立技术标准和行业规范
加快标准和规范建设,构建电影智能制作学科体系和学术话语体系。近年来,以AI为核心的科技战略竞争,是影响甚至决定大国发展走势的重要因素,其在电影领域,势必引发新一轮电影智能制作的竞赛。2023年8月发布的《中国电影数字制作规范》对于规范我国电影数字制作、提升我国电影质量、推动我国独立自主电影技术创新具有重要意义,由于电影智能制作相关概念、技术流程等尚未统一,在规范中尚未涉及。如何把握未来电影AI科技发展趋势,梳理AI技术在电影制作不同阶段统一的技术标准和操作规范,有助于整个电影制作产业的标准化。此外,未来的电影智能制作将是全新的电影制作范式,其中电影作品的著作权归属、版权分红比例、人与AI的伦理等也是需要业界全面考虑的问题。我们还要积极参与国际电影智能制作的相关标准制定,主导制定国际社会普遍接受的国际电影智能制作规范,增强我国电影制作的国际话语权。
6.3 加快交叉融合创新发展
当前,科技创新范式正在发生深刻变化和持续演进,学科领域间交叉渗透跨界发展态势更加明显,基础科学理论革命性突破发展,将可能直接诱发电影这一应用领域的巨大突破,重大科技设施和新算法技术等成为电影技术革命式发展的利器。我国要发展电影智能制作技术,必须打破行业壁垒,借助我国在AI、虚拟现实(VR)、智能图形学等科技领域的竞争优势,在AI芯片、AI云服务器、面向电影制作的AI大模型、渲染引擎等领域发力。只有坚持交叉融合创新,才能在电影制作领域自主研发,只有掌握电影智能制作核心技术,才能在未来国际电影市场竞争中立于不败之地。
6.4 加强科学研究,开展示范应用
重点建设几家相关科研和应用示范机构,发挥专业研究机构、科研院所和高校的业务示范作用,支持电影企业的应用推广。精良的影视制作尤其是大制作电影,其投资收益高,但是投资大、风险高,潜力巨大的电影智能制作,同样也面临巨大的投资风险。电影智能制作研发周期和研发投入都是未知数。华为云人工智能领域首席科学家田奇表示“大模型研究资本门槛高,大模型开发和训练一次1200万美元;技术门槛高,需要对AI框架深度优化和超强的并行计算能力。”我国电影科技的前沿探索中,相关专业研究机构、科研院所和高校肩负引领电影行业科技进步、支撑产业提质升级的职责和使命,要深化电影智能制作的科技自主创新,推动关键核心技术与软硬件系统研发与突破。在此基础上,建立电影企业产业应用示范,支持相关电影企业的电影智能制作推广应用,建立健全市场和产业体系,加快推动电影智能制作的多场景应用落地,推动我国电影高质量发展。
7 结语
电影智能制作将是未来电影技术创新的主要阵地,可能会对电影制作产生一百多年来从创作到制作最大的一次变革,中国电影人只有选择积极面对,中国电影产业只有自立自强,才能走好电影智能化之路。
参考文献
(向下滑动阅读)
[1] McCarthy J. What is artificial intelligence?[J]. Technical report, Stanford University, 2004.
[2] Boden M. Artificial intelligence[M]. Elsevier, 1996.
[3] Kaplan A, Haenlein M. Siri, Siri, in my hand: Who’s the fairest in the land? On the interpretations, illustrations, and implications of artificial intelligence[J]. Business horizons, 2019, 62(1): 15⁃25.
[4] Bostrom N. Superintelligence: Paths, dangers, strategies[M]. Oxford University Press, 2014.
[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[6] Lambert N.Different development paths of LLMs[EB/OL].https://www.interconnects.ai/p/llm-development-paths.
[7] Amato G, Behrmann M, Bimbot F, et al. AI in the media and creative industries[EB/OL]. (2019⁃05⁃10)[2023⁃09⁃20]. https://arxiv.org/ftp/arxiv/papers/1905/1905.04175.pdf.
[8] Zhu Y, Zhang B. Ai film creation oriented transformation in the era of artificial intelligence[J]. Art and Design Review, 2022, 10(2): 272⁃279.
[9] ScriptBook. Democratizing storytelling through the art of AI[EB/OL]. https://www.scriptbook.io.
[10] Caranicas P. Artificial intelligence could one day determine which films get made[EB/OL]. (2018⁃07⁃05)[2023⁃09⁃20]. https://variety.com/2018/artisans/news/artificial-intelligence-hollywood-1202865540/.
[11] Watson K, Sohn S S, Schriber S, et al. StoryPrint: an interactive visualization of stories[C]//Proceedings of the 24th international conference on intelligent user interfaces, 2019: 303⁃311.
[12] 海马轻帆.高效智能的内容创作评估平台[EB/OL]. [2023⁃09⁃20]. https://www.haimaqingfan.com/.
[13] AgileShot安捷秀[EB/OL]. [2023⁃09⁃20]. https://agileshot.vsochina.com/.
[14] 人民日报:AI辅助,赋能编剧[EB/OL]. (2023⁃09⁃16)[2023⁃09⁃20]. https://www.sohu.com/a/721109178_154166.
[15] Gwertzman J, Soslow J. The generative AI revolution in games[EB/OL]. (2022⁃11⁃17)[2023⁃09⁃20]. https://a16z.com/the-generative-ai-revolution-in-games/.
[16] Borji A. Generated faces in the wild: quantitative comparison of stable diffusion, midjourney and DALL⁃E 2[EB/OL]. (2023⁃06⁃05)[2023⁃09⁃20]. https://arxiv.org/pdf/2210.00586.pdf.
[17] Islam A. How do DALL·E 2, stable diffusion, and midjourney work?[EB/OL]. (2022⁃11⁃14)[2023⁃09⁃20]. https://www.marktechpost.com/2022/11/14/how-do-dall%C2%B7e-2-stable-diffusion-and-midjourney-work/.
[18] Kaedim. How to convert a sketch to 3D model with Kaedim[EB/OL]. (2022⁃12⁃01)[2023⁃09⁃20]. https://medium.com/@kaedim/how-to-convert-a-sketch-into-a-3d-model-with-kaedim-7a7500e5d605.
[19] Luma AI to accelerate NeRF XR content creation[EB/OL]. (2023⁃04⁃04)[2023⁃09⁃20]. https://www.xrtoday.com/virtual-reality/luma-ai-to-accelerate-nerf-xr-content-creation/.
[20] A new era for motion capture: vicon enters markerless market with unparalleled accuracy[EB/OL]. (2023⁃08⁃01)[2023⁃09⁃20]. https://www.vicon.com/resources/press/a-new-era-for-motion-capture-vicon-enters-markerless-market-with-unparalleled-accuracy/.
[21] Move AI. Invisible[EB/OL]. [2023⁃09⁃20]. https://www.move.ai/real-time.
[22] GitBook. Wonder Studio[EB/OL]. [2023⁃09⁃20].https://help.wonderdynamics.com/intro-to-wonder-studio/introduction.
[23] Seymour M. Exclusive: Joe Letteri Discusses Wētā FX’s new facial pipeline on avatar 2[EB/OL].(2022⁃12⁃21)[2023⁃09⁃20].https://www.fxguide.com/fxfeatured/exclusive-joe-letteri-discusses-weta-fxs-new-facial-pipeline-on-avatar-2/.
[24] 徐建. 《流浪地球 2》幕后有哪些不为人知的制作难题?[EB/OL].(2023⁃01⁃22)[2023⁃09⁃20].https://www.zhihu.com/question/579613527.
[25] Gliozzo A, Ackerson C, Bhattacharya R, et al. Building cognitive applications with IBM Watson services: Volume 1 getting started[M]. IBM Redbooks, 2017.
[26] IBM AI Vision视觉大脑技术解析[EB/OL].(2018⁃06⁃07)[2023⁃09⁃20].https://v.qq.com/x/page/a06805lm353.html.
[27] Karaata E. Usage of artificial intelligence in today's graphic design[J]. Online Journal of Art & Design, 2018, 6(4).
[28] Stelzner M. Advanced AI tools for video, newsletters, and articles[EB/OL].(2023⁃08⁃24)[2023⁃09⁃20].https://www.socialmediaexaminer.com/advanced-ai-tools-for-video-newsletters-and-articles/.
[29] CopyCat: bringing machine learning into Nuke's toolset[EB/OL].(2021⁃03⁃26)[2023⁃09⁃20].https://www.foundry.com/insights/film-tv/copycat-machine-learning-nuke/.
[30] 黄典典. 人工智能为电影注入丰富可能[EB/OL].(2020⁃10⁃19)[2023⁃09⁃20].http://ex.chinadaily.com.cn/exchange/partners/77/rss/channel/cn/columns/32tlvc/stories/WS5f8cf177a3101e7ce9729e9f.html.
[31] 郑博非. 胶片与科技结合:百部经典港片将获4K修复[EB/OL].(2023⁃08⁃17)[2023⁃09⁃20].http://www.news.cn/tech/20230817/107f2506eaf34f4ba59d0c9004efd1b7/c.html.
[32] VALL⁃E (X), a neural codec language model for speech synthesis[EB/OL]. [2023⁃09⁃20]. https://www.microsoft.com/en-us/research/project/vall-e-x/.
[33] Agostinelli A, Denk T I, Borsos Z, et al. Musiclm: Generating music from text[EB/OL].(2023⁃01⁃26)[2023⁃09⁃20]. https://arxiv.org/pdf/2301.11325.pdf.
[34] iMyFone MusicAI[EB/OL]. [2023⁃09⁃20].https://filme.imyfone.com/ai-music-generator/.
[35] Mubert AI[EB/OL]. [2023⁃09⁃20].https://mubert.com/.
[36] Blattmann A, Rombach R, Ling H, et al. Align your latents: High⁃resolution video synthesis with latent diffusion models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 22563⁃22575.
[37] Gen⁃2: The next step forward for generative AI[EB/OL]. [2023⁃09⁃20].https://research.runwayml.com/gen2.
[38] Guadamuz A. Artificial intelligence and copyright[EB/OL]. [2023⁃09⁃20].https://www.wipo.int/wipo_magazine/en/2017/05/article_0003.html
[39] Chow P S. Ghost in the (Hollywood) machine: Emergent applications of artificial intelligence in the film industry[J]. NECSUS_European Journal of Media Studies, 2020, 9(1): 193⁃214.