我们真的需要完美的镜头吗?
2015-10-18 19:29
在网站上找到一篇不错的文章编译过来分享下。
数字处理已经存在了很长一段时间。Photoshop于1988年首次发布,不过在此之前,用数学来模糊并增强图像的技术已经存在了数十年。现在,我们要使用丰富的数字处理技术来修正那些一般的镜头——甚至使近乎完美的镜头更上一层楼。
现在某些业内人士说,如果对于镜头有着很充分的理解,就可以应用内置修正,使得内置镜头和可拆卸镜头发挥同样的效果。而这件事是任何镜头本身都做不到的,因为将镜头与传感器作为一个“封闭”系统会让数字化有着可以修正镜头的最佳机会。
令人难以置信的是,一些在今天的摄影棚和剪辑室里应用的数字处理技术发明于20世纪20年代和30年代。那时它们还只是理论而已。60年代和70年代,从像IRCAM这样的前瞻性研究机构开始的电脑音乐创作计划才开始真正结果——即使要花费好几周的数字运算来生成几秒钟的合成音。
不可能
科技进步的速度快到令人难以置信——正如雷蒙德·库日韦尔在他的开创性著作《奇点迫近》所述,现在发生的事情在几年前都是无法想象的。
七十年代中期,在惠普公布HP35科学计算器之前,人们使用计算尺足足有三百多年。
从那时起发生了什么事情呢?我们用手持设备计算的能力在41年间增长了数百万倍。
计算尺只是我们周遭急剧变化的一个例子而已。其他例子简直不胜枚举。
那么,我们以前认为什么样的事情是不可能的呢?若这些事情发生变化,我们又将被带往何方?拿所谓的逆混音软件Melodyne,还有Photoshop中的Content Aware Fill(内容感知填充)为例——它在某种程度上“产生”了用以无缝填充的新材料——图像可能被删除,或者物体被移除——这些都可谓石破天惊。
难以接受
在数字信号处理(此处指音频和视频)中,很难衡量可用的纯粹计算能力。十年前需要挤满屋子的服务器才能完成的事情在二十年前是不可能的,可现在同样的事情用手中的便携式设备就可完成。Altera和Xilinx这样的公司制作的芯片有超过三十亿个晶体管。而我家购于七十年代的第一台彩电只有63个晶体管(我在维修手册上数过!)。
所以,从63到30亿,整整翻了四千七百万倍,请想想设备能力会有多大的提升!这还是忽略了软件和通信中的进步呢。
进步后的能力已经足够处理由SDI而来的1080p视频,将其压缩为ProRes并实时储存到SSD上,这种进步趋势也没有要放缓的征兆,反而,按照库兹威尔预测,进步速度仍然在加快。
现今技术发展的结果与数年前相比好似大变魔术,比如说本文主题——数字校正镜头像差,这样会让你得到比单凭光学得到的更好的结果。
这到底意味着什么?
它的意思是,你可以拿出一支镜头,将其拍摄的图像数字化,并应用数学除去失真,色差和模糊。如果你拿走了这些缺点,就会得到完美的画面——结果只取决于数学的精确度,假设是否准确,以及对镜头的“理解”。
有的人可能对此不太惊讶,因为使用软件来校正镜头已有很长时间了。或许最好的例子就是变形镜头,变形镜头会刻意地将图像水平挤压以适应更窄的胶片或者传感器,然后,在播放时,图像再次相应拉伸,使所得图像跟原图无二。
当然,这项变形技术本来也是光学手段,不过有了数字视频以后,它就变成了数学主题。只需要几个简单的相加,就能将正方形像素转换为矩形。
没有什么神奇
但是,没有什么神奇的,它的原理如此好懂是因为变形镜头首先引入了失真,而且变量准确可知。你要做的只是逆向“校正”。在此过程中损失的信息很少(除了一些水平分辨率)。
同样地,以数字方式可以很容易地纠正某些镜头失真,因为该图像本身包含了描述所不需要的改变的参考。一个例子是广角镜头扭曲建筑物的形状,或使其倾斜而非垂直。这里的关键是,你知道建筑应该是直的,你可以画出一条直线,告诉软件,“让它垂直于地面”。
在没有参考的情况下,校正变得非常困难,最起码到目前为止还是这样。
扔掉信息
但是,镜头扔掉信息时会造成某些问题,比如模糊和色差。这些信息是无法恢复的。这跟混音时的问题大致相同:你把音轨混合到一起后无法逆向将其恢复为原有音轨。尽管我们的耳朵能够把歌手的声音与弦乐的声音区分开来,但正如古老的格言所说:“噪音是永远的添加剂。”这意味着你不能将混合立体声输入调音台并将其逆向还原...(虽然严格意义上来说,现在你可以...)。
音乐不只是噪音。它有形状和形式,最起码会告诉你如果没有混音前它听起来会怎样。这就是我们的大脑会做的事情,电脑也没有理由不这么做。
谈论音频处理常常比谈论视频处理要简单,因为它更“线性”。一旦你理解了音频处理流程,将其应用到视频就会相对容易。比如说,对于音频,我们听到的高频率就是高音调。如果将一个音轨通过低通滤波器(换句话说,把高频率去除,低频率保留),你会得到熟悉的效果,即声音仿佛透过砖墙传来,低音和鼓点轰轰响起,高音则喑哑无声。
在视频里,这类似于模糊。想象一下棋盘。相邻黑白方格之间的锐边代表高频率的存在。如果你把图像通过一个低通滤波器,它会显得模糊。信息会有所损失。你将剩下的高频进一步提升,那将锐化边缘,但这是人为的影响,不是真实的。这种做法叫做“假装很锐利,但基本建立在原有基础上”,并没去挖掘图像中原有的不可见信息。
再有就是混响,即先听到原始声音,紧接着就是过于密集在一起,无法成为单独回音的多次反射。到现在为止,消除混响几乎是不可能的,因为它是添加剂,没有办法减去它。
但现在此举成为了可能,音频插件公司iZotope公司的最新一代产品便可以去除回响——这在过去被认为是不可能的。
我们不知道这家公司的秘密武器是什么,但我们猜测,这是一项被称为“逆向卷积”的技术。这跟其他人对镜头畸变和视频所做的处理比较类似——虽然在后一种情况下,研究仍处于早期阶段。
需要指明,并非音频处理专家,只是跟数字信号处理打了很久交道,有了一点知识积累而已。
这很简单
理解逆向卷积的方式是了解非逆向卷积;换言之,卷积是很简单的。
想象一下,有人以一定的规律,慢慢地在大教堂里打鼓。很多又大,又空旷,又不带家具的建筑都有很长的混响时间。如果你突然发出噪音,你可以听到这个噪音逐渐消失,有时会持续三十秒钟。这是怎么回事呢?因为声音在建筑内的复杂表面上反弹,而且经过了非常大量的反射,声音的各个部分都经历了相同的过程,其混响与更早的,以及更晚的声音部分混合到了一起。
所有这些加起来就像是在原始音频附近加上一层“糊糊”。如果比例正确,它可以主观地增强声音。如果比例过多,或者说它是完全没有目的,也不被需要的,那就是一件坏事。
你可以将声音通过数字延时线运行,确保你有足够的延迟节拍,并将这些延迟节拍重新加到音频之上,就会产生大量回声,简单地创造具有说服力的混响效果。
和应
或者,你可以使用卷积创造混响,这要好多了,而且在某些方面更简单,比起原本的音色空间要更加准确和应。
你必须做的第一件事是为你所在的音响空间“取样”,这是一个简单的过程。你只需“点击”一下(最好是一份音频样本的时间——所以对于48 kHz采样记录,你只需要取一秒的四万八千分之一就行)。你记录下冲激响应这一瞬间及其产生的反射,这个记录就代表了音响空间的“快照”。
然后,在卷积过程——这是一个粗略的简化——你把在录制片段中的取样值加入到原始声音中的每个取样。然后你会得到新的取样。这样,你得到的每个部分都具有建筑添加到它的“混响”。
这种办法效果很好,商业混响软件还能让您添加自己的冲激响应,或使用其他人的。因此,举例来说,如果想让鼓点听起来像身处泰姬陵,只需下载这个印度著名建筑的冲激响应记录,就可如愿以偿。
逆向卷积正是将这个过程逆向完成。但当然,这并不容易,如果你没有足够的原始冲激响应录音,就无法回溯。你必须做出假设,这意味着,这个过程不尽完美。
本文为作者 esta鸿鹄 分享,影视工业网鼓励从业者分享原创内容,影视工业网不会对原创文章作任何编辑!如作者有特别标注,请按作者说明转载,如无说明,则转载此文章须经得作者同意,并请附上出处(影视工业网)及本页链接。原文链接 https://cinehello.com/stream/70950