GTX1080反拜耳运算及达芬奇调色性能简测

2016-10-07 15:23
作者:胡冰
原创文章,转载请注明作者及出处。


在上一篇文章中同大家分享了索泰 GTX1080 至尊Plus OC的开箱过程,今天我们来看一看这款显卡的实际性能表现。

有关Pascal架构GPU的特点及性能对比网络上已有大量报道,大家可自行搜索。

\"Geforce

按照惯例,我们也选择了一些主流测试软件让这张显卡跑个分,热热身。

测试平台:
CPU:  Intel Core i7-6700K
主板:  ASUS Z170 PRO GAMING
内存:  G.Skill Ripjaws 5 DDR4-2400 8G x4
显卡:  ZOTAC GTX1080 至尊Plus OC
SSD:  SAMSUNG 850 EVO 500G SATA III
HDD:  WD Gold WD4002FYYZ 4TB
光驱:  LITEON iHAS324
电源:  Antec EA-550 Platinum
机箱:  Antec P280

操作系统:Windows7 Professional, 64-bit, Service Pack 1
显卡驱动版本:372.90 - WHQL
UI显示器:Dell UltraSharp UP2516D, 分辨率2560x1440


显卡基本信息。最新版GPU-Z仍不支持针对GTX1080的ASIC质量显示。
\"Geforce

待机状态下显卡温度约为43°C(室温23°C),风扇自动停转。
\"Geforce

CUDA-Z实时性能测试。可以看出GTX1080作为一款游戏卡在单精度与双精度浮点性能上的巨大差异。
\"Geforce

Windows7体验指数评分7.8,其中处理器部分子分数7.8,其余部分子分数均为7.9 .
\"Geforce

3DMark Advanced Edition Fire Strike Ultra测试成绩:基准分数5419, 显卡分数5469 .
\"Geforce

性能波动详细信息。i7-6700K处理器在个别时段自动睿频加速至4.2GHz(单核),CPU及GPU最高温度分别约为70°C与80°C.
\"Geforce

3DMark Advanced Edition Fire Strike Extreme测试成绩:基准分数9868, 显卡分数10941 .
\"Geforce

CINEBENCH基于Cinema 4D特效引擎,重点针对显卡OpenGL性能进行测试。这张GTX1080显卡在CINEBENCH R15中测试得分达到了150.53fps.
\"Geforce

LuxMark v3.1 OpenCL GPUs性能测试结果:13579分。测试场景:LuxBall HDR.
\"Geforce

CompuBench重点针对硬件设备在OpenCL框架下的通用计算性能进行测试,测试场景包括人脸检测、视频合成、比特币挖矿等。
\"Geforce

CompuBench 1.5显卡测试得分:
\"Geforce

最后,跑了20分钟的FurMark甜甜圈拷机测试(1280x720分辨率)。GPU峰值温度为81°C, 风扇转速2459RPM.
\"Geforce

FurMark拷机测试时主机功耗约为350瓦(不含显示器)。
\"Geforce

系统待机时功耗约为50瓦(不含显示器)。
\"Geforce

总体来看,一款550W功率的主机电源对于这套系统来说基本够用。


接下来,我们来测试一下GTX1080在去拜耳运算方面的性能。

首先,我们选择一段由ALEXA Mini拍摄的OpenGate 3.4K 24p MXF ARRIRAW素材进行测试,播放软件为Scratch Play.

Scratch Play v8.5版本应用了ARRIRAW SDK 5.0, 我们将去拜耳模式设定为ADA-5 HW / 16 Bit (f), 色彩空间为LogC: Wide Gamut(显示器色域为DCI-P3)。
\"Geforce

在素材回放的头几秒,由于数据缓冲的原因画面出现了稍许延迟,但很快就能达到持续稳定地实时播放。可以看到,此时系统CPU与GPU的负载基本在30%至50%间波动,距离满载状态还有较大余量。在默认设置下,Scratch Play自动采用OpenCL硬件加速。

之后,我们使用REDCINE-X PRO对一段RED EPIC拍摄的4K (4096x2160) 24p REDCODE 8:1 R3D素材进行回放测试。

在REDCINE-X PRO的系统参数设置中,GPU加速模式默认为OpenCL, 同步处理帧数默认为CPU核心数(含超线程)
\"Geforce

当我们在OpenCL模式下选择全分辨率对R3D素材进行播放时,系统无法达到实时预览。此时CPU全部核心均为满载状态,GPU负载约为15%, GPU显存使用量约为1.5GB.
\"Geforce

将GPU加速模式更改为CUDA, 系统依旧无法实现对于拍摄素材的实时预览。CPU全部核心仍然满载,GPU负载约为11%, GPU显存使用量约为1.2GB.
\"Geforce

同为CUDA加速模式,将回放分辨率降低至1/2, 尽管此刻CPU负载仍为100%, 但系统已经可以实现对R3D文件的实时播放。当我们对画面的亮度曲线、色彩、锐度以及降噪等参数进行调整时,视频回放性能未受到可察觉的影响。
\"Geforce

将GPU加速模式改回OpenCL, 在1/2分辨率下视频回放性能未发生明显变化,仍可达到实时播放
\"Geforce

综上所述,相对于ARRIRAW格式,REDCODE的可变压缩比设计对于CPU的连续运算性能有着更为繁重的需求,此时i7-6700K四核CPU已经成为系统的主要瓶颈。而相对于CUDA加速,在OpenCL模式下REDCINE-X PRO对于GPU显存的利用率更高,主观感受上也是OpenCL模式下渲染速度略有提升,说明REDCINE-X PRO在OpenCL方面有着更好的优化。

当我们在系统参数设置中将GPU加速禁用,无论是在全分辨率还是1/2分辨率下,REDCINE-X PRO都无法实现对R3D文件的实时回放。此时,CPU与GPU均未达到满载状态,彼此成为对方的瓶颈。在这种情况下,我们不得不将分辨率设定为1/4才可实现对拍摄素材的实时回放
\"Geforce

通过以上测试,我们建议需要经常处理R3D素材的用户选择英特尔Extreme至尊版或至强系列多核处理器。当然,RED ROCKET-X也是极好的。


最后,我们来看看大家最为关心的达芬奇调色应用。

此前,DaVinci Resolve产品经理Peter Chamberlain曾在Blackmagic Design官方论坛上提到:经过他们的测试,GTX1080的性能与Titan X(非Pascal架构)基本相似,但却有着更好的性价比。BMD官方也将在之后的达芬奇配置指南中加入GTX1080这一选项。
\"Geforce

这里首先需要澄清一个问题:达芬奇是否一定需要专业显卡才能获得流畅的渲染性能?相对于民用卡或游戏卡,专业显卡除了具备更好的驱动优化、多屏显示等增值功能外,另一方面则是其双精度浮点运算性能是普通游戏卡所无法比拟的。就拿GTX1080来说,其单精度浮点性能约为9TFLOPS, 而其阉割过的双精度浮点性能仅为0.3TFLOPS(1:32),不得不说老黄的如意算盘打得很好。

那么对于达芬奇而言,能否从专业显卡的双精度浮点运算中获益呢?在《DaVinci Resolve 12 Configuration Guide》中,有这样一段描述:\"all image processing in DaVinci Resolve is graphics processor (GPU) based with 32 bit floating point precision.\"即达芬奇的所有图像处理操作均基于GPU的32位浮点精度,所谓32位浮点精度便是我们所说的单精度浮点运算。

相对于专业显卡在运算性能上的提升,大多数图像处理操作对于显存大小更加敏感,这在达芬奇配置指南中也有所体现。对于4K素材,推荐选择具备8GB以上显存的显卡。

下面,我们使用DaVinci Resolve 12.5.2 Studio for Windows调色软件,在不使用渲染缓存、代理模式等功能的情况下,选择一段3840x2160 25p ProRes422 HQ编码的4K视频素材,并将项目时间线分辨率设定为1920x1080 HD全高清。

首先,我们分别将达芬奇内置的两种降噪特效单独应用于测试素材。在使用空域降噪[较好]模式渲染时,所选剪辑能够实现实时预览,此时GPU负载约在80%上下浮动,CPU负载不超过50%. 取消空域降噪特效,将时域降噪的帧数设置为最高值[5],运动估计类型为[较好],此种状况下则无法满足对所选剪辑的实时预览,播放速率维持在23fps左右,GPU处于满载状态。
\"Geforce

尽管上面的测试仅仅应用了单个降噪节点,但结果已经令人欣慰。对比采用AMD Radeon R9 M370X移动显卡的Apple MacBook Pro Mid 2015顶配款,在执行相同操作时,其素材预览速度大约仅为1帧每秒。

接下来我们又将达芬奇预置的各种OpenFX特效分别单独应用于测试素材之上。很遗憾,所有特效在默认参数设置下均能达到实时预览由此可见新版达芬奇对于GPU加速性能的深度优化。
\"Geforce

仅使用单一节点进行测试显然并不符合日常实际的应用场景。于是,我们针对所选剪辑应用了包括空域降噪、动态模糊、胶片颗粒OpenFX、跟踪遮罩等在内的10个不同调整类型的处理节点,一定程度上模拟真实的应用场景。此时,测试素材的预览速度下降为8fps, 从感官上来看尚在可接受的范围之内。倘若此时开启达芬奇代理模式[Half Resolution]选项,则预览速度基本能够维持在20fps左右。
\"Geforce

在刚才的几项测试中我们是将4K素材以全高清分辨率进行渲染,这是在画质与性能间折中后的解决方案。当调色工作完成后,还需要将时间线恢复到3840x2160分辨率以便检查和输出,此时的预览性能基本降至以上测试数值的四分之一

最后,我们选择一段1920x1080 25p ProRes422HQ的高清素材进行测试,同样对其应用10个不同调整类型的处理节点,此时达芬奇的预览速度约为15fps,代理模式的加持下则可以实现对所选剪辑的实时预览
\"Geforce

总结:通过本次测试,新一代Pascal架构的GTX1080 GPU给我们留下了深刻印象。更为重要的是,随着浮点运算性能的逐步提升以及主流影视后期软件针对CUDA, OpenCL等通用计算标准的深度优化,桌面级游戏显卡的单卡性能已经不输于专业显卡,并且有着极佳的性价比。倘若未来有哪款软件仍是一副非专业卡不行的架势,那我只能说这是软件厂商和显卡厂商有意而为之。

希望这篇文章对于大家在设备选择上有所帮助,也欢迎朋友们通过微信(微信号:cool_film)与我讨论有关电脑配置与性能的话题。


本文为作者 DITChina 分享,影视工业网鼓励从业者分享原创内容,影视工业网不会对原创文章作任何编辑!如作者有特别标注,请按作者说明转载,如无说明,则转载此文章须经得作者同意,并请附上出处(影视工业网)及本页链接。原文链接 https://cinehello.com/stream/83412
作为国内领先的影视技术服务团队,DITChina 在业内率先提出数据管理、质量管理、效率管理以及成本管理的四维一体解决方案,为制片方提供覆盖制作全流程的决策咨询与技术支持服务。 业务咨询 电话(微信同号):13810189294 邮箱:dit[AT]ditchina.com
扫码关注
DITChina