GTX1080反拜耳运算及达芬奇调色性能简测

DITChina

2016-10-07 15:23

作者：胡冰
原创文章，转载请注明作者及出处。

在上一篇文章中同大家分享了索泰 GTX1080 至尊Plus OC的开箱过程，今天我们来看一看这款显卡的实际性能表现。

有关Pascal架构GPU的特点及性能对比网络上已有大量报道，大家可自行搜索。

$\"Geforce$

按照惯例，我们也选择了一些主流测试软件让这张显卡跑个分，热热身。

测试平台：
CPU：　　Intel Core i7-6700K
主板：　　ASUS Z170 PRO GAMING
内存：　　G.Skill Ripjaws 5 DDR4-2400 8G　x4
显卡：　　ZOTAC GTX1080 至尊Plus OC
SSD：　　SAMSUNG 850 EVO 500G SATA III
HDD：　　WD Gold WD4002FYYZ 4TB
光驱：　　LITEON iHAS324
电源：　　Antec EA-550 Platinum
机箱：　　Antec P280

操作系统：Windows7 Professional, 64-bit, Service Pack 1
显卡驱动版本：372.90 - WHQL
UI显示器：Dell UltraSharp UP2516D, 分辨率2560x1440

显卡基本信息。最新版GPU-Z仍不支持针对GTX1080的ASIC质量显示。
$\"Geforce$

待机状态下显卡温度约为43°C（室温23°C），风扇自动停转。
$\"Geforce$

CUDA-Z实时性能测试。可以看出GTX1080作为一款游戏卡在单精度与双精度浮点性能上的巨大差异。
$\"Geforce$

Windows7体验指数评分7.8，其中处理器部分子分数7.8，其余部分子分数均为7.9 .
$\"Geforce$

3DMark Advanced Edition Fire Strike Ultra测试成绩：基准分数5419, 显卡分数5469 .
$\"Geforce$

性能波动详细信息。i7-6700K处理器在个别时段自动睿频加速至4.2GHz（单核），CPU及GPU最高温度分别约为70°C与80°C.
$\"Geforce$

3DMark Advanced Edition Fire Strike Extreme测试成绩：基准分数9868, 显卡分数10941 .
$\"Geforce$

CINEBENCH基于Cinema 4D特效引擎，重点针对显卡OpenGL性能进行测试。这张GTX1080显卡在CINEBENCH R15中测试得分达到了150.53fps.
$\"Geforce$

LuxMark v3.1 OpenCL GPUs性能测试结果：13579分。测试场景：LuxBall HDR.
$\"Geforce$

CompuBench重点针对硬件设备在OpenCL框架下的通用计算性能进行测试，测试场景包括人脸检测、视频合成、比特币挖矿等。
$\"Geforce$

CompuBench 1.5显卡测试得分：
$\"Geforce$

最后，跑了20分钟的FurMark甜甜圈拷机测试（1280x720分辨率）。GPU峰值温度为81°C, 风扇转速2459RPM.
$\"Geforce$

FurMark拷机测试时主机功耗约为350瓦（不含显示器）。
$\"Geforce$

系统待机时功耗约为50瓦（不含显示器）。
$\"Geforce$

总体来看，一款550W功率的主机电源对于这套系统来说基本够用。

接下来，我们来测试一下GTX1080在去拜耳运算方面的性能。

首先，我们选择一段由ALEXA Mini拍摄的OpenGate 3.4K 24p MXF ARRIRAW素材进行测试，播放软件为Scratch Play.

Scratch Play v8.5版本应用了ARRIRAW SDK 5.0, 我们将去拜耳模式设定为ADA-5 HW / 16 Bit (f), 色彩空间为LogC: Wide Gamut（显示器色域为DCI-P3）。
$\"Geforce$

在素材回放的头几秒，由于数据缓冲的原因画面出现了稍许延迟，但很快就能达到持续稳定地实时播放。可以看到，此时系统CPU与GPU的负载基本在30%至50%间波动，距离满载状态还有较大余量。在默认设置下，Scratch Play自动采用OpenCL硬件加速。

之后，我们使用REDCINE-X PRO对一段RED EPIC拍摄的4K (4096x2160) 24p REDCODE 8:1 R3D素材进行回放测试。

在REDCINE-X PRO的系统参数设置中，GPU加速模式默认为OpenCL, 同步处理帧数默认为CPU核心数（含超线程）。
$\"Geforce$

当我们在OpenCL模式下选择全分辨率对R3D素材进行播放时，系统无法达到实时预览。此时CPU全部核心均为满载状态，GPU负载约为15%, GPU显存使用量约为1.5GB.
$\"Geforce$

将GPU加速模式更改为CUDA, 系统依旧无法实现对于拍摄素材的实时预览。CPU全部核心仍然满载，GPU负载约为11%, GPU显存使用量约为1.2GB.
$\"Geforce$

同为CUDA加速模式，将回放分辨率降低至1/2, 尽管此刻CPU负载仍为100%, 但系统已经可以实现对R3D文件的实时播放。当我们对画面的亮度曲线、色彩、锐度以及降噪等参数进行调整时，视频回放性能未受到可察觉的影响。
$\"Geforce$

将GPU加速模式改回OpenCL, 在1/2分辨率下视频回放性能未发生明显变化，仍可达到实时播放。
$\"Geforce$

综上所述，相对于ARRIRAW格式，REDCODE的可变压缩比设计对于CPU的连续运算性能有着更为繁重的需求，此时i7-6700K四核CPU已经成为系统的主要瓶颈。而相对于CUDA加速，在OpenCL模式下REDCINE-X PRO对于GPU和显存的利用率更高，主观感受上也是OpenCL模式下渲染速度略有提升，说明REDCINE-X PRO在OpenCL方面有着更好的优化。

当我们在系统参数设置中将GPU加速禁用，无论是在全分辨率还是1/2分辨率下，REDCINE-X PRO都无法实现对R3D文件的实时回放。此时，CPU与GPU均未达到满载状态，彼此成为对方的瓶颈。在这种情况下，我们不得不将分辨率设定为1/4才可实现对拍摄素材的实时回放。
$\"Geforce$

通过以上测试，我们建议需要经常处理R3D素材的用户选择英特尔Extreme至尊版或至强系列多核处理器。当然，RED ROCKET-X也是极好的。

最后，我们来看看大家最为关心的达芬奇调色应用。

此前，DaVinci Resolve产品经理Peter Chamberlain曾在Blackmagic Design官方论坛上提到：经过他们的测试，GTX1080的性能与Titan X（非Pascal架构）基本相似，但却有着更好的性价比。BMD官方也将在之后的达芬奇配置指南中加入GTX1080这一选项。
$\"Geforce$

这里首先需要澄清一个问题：达芬奇是否一定需要专业显卡才能获得流畅的渲染性能？相对于民用卡或游戏卡，专业显卡除了具备更好的驱动优化、多屏显示等增值功能外，另一方面则是其双精度浮点运算性能是普通游戏卡所无法比拟的。就拿GTX1080来说，其单精度浮点性能约为9TFLOPS, 而其阉割过的双精度浮点性能仅为0.3TFLOPS（1:32），不得不说老黄的如意算盘打得很好。

那么对于达芬奇而言，能否从专业显卡的双精度浮点运算中获益呢？在《DaVinci Resolve 12 Configuration Guide》中，有这样一段描述：\"all image processing in DaVinci Resolve is graphics processor (GPU) based with 32 bit floating point precision.\"即达芬奇的所有图像处理操作均基于GPU的32位浮点精度，所谓32位浮点精度便是我们所说的单精度浮点运算。

相对于专业显卡在运算性能上的提升，大多数图像处理操作对于显存大小更加敏感，这在达芬奇配置指南中也有所体现。对于4K素材，推荐选择具备8GB以上显存的显卡。

下面，我们使用DaVinci Resolve 12.5.2 Studio for Windows调色软件，在不使用渲染缓存、代理模式等功能的情况下，选择一段3840x2160 25p ProRes422 HQ编码的4K视频素材，并将项目时间线分辨率设定为1920x1080 HD全高清。

首先，我们分别将达芬奇内置的两种降噪特效单独应用于测试素材。在使用空域降噪以[较好]模式渲染时，所选剪辑能够实现实时预览，此时GPU负载约在80%上下浮动，CPU负载不超过50%. 取消空域降噪特效，将时域降噪的帧数设置为最高值[5]，运动估计类型为[较好]，此种状况下则无法满足对所选剪辑的实时预览，播放速率维持在23fps左右，GPU处于满载状态。
$\"Geforce$

尽管上面的测试仅仅应用了单个降噪节点，但结果已经令人欣慰。对比采用AMD Radeon R9 M370X移动显卡的Apple MacBook Pro Mid 2015顶配款，在执行相同操作时，其素材预览速度大约仅为1帧每秒。

接下来我们又将达芬奇预置的各种OpenFX特效分别单独应用于测试素材之上。很遗憾，所有特效在默认参数设置下均能达到实时预览，由此可见新版达芬奇对于GPU加速性能的深度优化。
$\"Geforce$

仅使用单一节点进行测试显然并不符合日常实际的应用场景。于是，我们针对所选剪辑应用了包括空域降噪、动态模糊、胶片颗粒OpenFX、跟踪遮罩等在内的10个不同调整类型的处理节点，一定程度上模拟真实的应用场景。此时，测试素材的预览速度下降为8fps, 从感官上来看尚在可接受的范围之内。倘若此时开启达芬奇代理模式的[Half Resolution]选项，则预览速度基本能够维持在20fps左右。
$\"Geforce$

在刚才的几项测试中我们是将4K素材以全高清分辨率进行渲染，这是在画质与性能间折中后的解决方案。当调色工作完成后，还需要将时间线恢复到3840x2160分辨率以便检查和输出，此时的预览性能基本降至以上测试数值的四分之一。

最后，我们选择一段1920x1080 25p ProRes422HQ的高清素材进行测试，同样对其应用10个不同调整类型的处理节点，此时达芬奇的预览速度约为15fps, 在代理模式的加持下则可以实现对所选剪辑的实时预览。
$\"Geforce$

总结：通过本次测试，新一代Pascal架构的GTX1080 GPU给我们留下了深刻印象。更为重要的是，随着浮点运算性能的逐步提升以及主流影视后期软件针对CUDA, OpenCL等通用计算标准的深度优化，桌面级游戏显卡的单卡性能已经不输于专业显卡，并且有着极佳的性价比。倘若未来有哪款软件仍是一副非专业卡不行的架势，那我只能说这是软件厂商和显卡厂商有意而为之。

希望这篇文章对于大家在设备选择上有所帮助，也欢迎朋友们通过微信（微信号：cool_film）与我讨论有关电脑配置与性能的话题。

本文为作者 DITChina 分享，影视工业网鼓励从业者分享原创内容，影视工业网不会对原创文章作任何编辑！如作者有特别标注，请按作者说明转载，如无说明，则转载此文章须经得作者同意，并请附上出处(影视工业网)及本页链接。原文链接 https://cinehello.com/stream/83412

DITChina

点击了解更多

作为国内领先的影视技术服务团队，DITChina 在业内率先提出数据管理、质量管理、效率管理以及成本管理的四维一体解决方案，为制片方提供覆盖制作全流程的决策咨询与技术支持服务。业务咨询电话（微信同号）：13810189294 邮箱：dit[AT]ditchina.com

扫码关注
DITChina