GTX1080反拜耳运算及达芬奇调色性能简测
2016-10-07 15:23
作者:胡冰
原创文章,转载请注明作者及出处。
在上一篇文章中同大家分享了索泰 GTX1080 至尊Plus OC的开箱过程,今天我们来看一看这款显卡的实际性能表现。
有关Pascal架构GPU的特点及性能对比网络上已有大量报道,大家可自行搜索。
按照惯例,我们也选择了一些主流测试软件让这张显卡跑个分,热热身。
测试平台:
CPU: Intel Core i7-6700K
主板: ASUS Z170 PRO GAMING
内存: G.Skill Ripjaws 5 DDR4-2400 8G x4
显卡: ZOTAC GTX1080 至尊Plus OC
SSD: SAMSUNG 850 EVO 500G SATA III
HDD: WD Gold WD4002FYYZ 4TB
光驱: LITEON iHAS324
电源: Antec EA-550 Platinum
机箱: Antec P280
操作系统:Windows7 Professional, 64-bit, Service Pack 1
显卡驱动版本:372.90 - WHQL
UI显示器:Dell UltraSharp UP2516D, 分辨率2560x1440
显卡基本信息。最新版GPU-Z仍不支持针对GTX1080的ASIC质量显示。
待机状态下显卡温度约为43°C(室温23°C),风扇自动停转。
CUDA-Z实时性能测试。可以看出GTX1080作为一款游戏卡在单精度与双精度浮点性能上的巨大差异。
Windows7体验指数评分7.8,其中处理器部分子分数7.8,其余部分子分数均为7.9 .
3DMark Advanced Edition Fire Strike Ultra测试成绩:基准分数5419, 显卡分数5469 .
性能波动详细信息。i7-6700K处理器在个别时段自动睿频加速至4.2GHz(单核),CPU及GPU最高温度分别约为70°C与80°C.
3DMark Advanced Edition Fire Strike Extreme测试成绩:基准分数9868, 显卡分数10941 .
CINEBENCH基于Cinema 4D特效引擎,重点针对显卡OpenGL性能进行测试。这张GTX1080显卡在CINEBENCH R15中测试得分达到了150.53fps.
LuxMark v3.1 OpenCL GPUs性能测试结果:13579分。测试场景:LuxBall HDR.
CompuBench重点针对硬件设备在OpenCL框架下的通用计算性能进行测试,测试场景包括人脸检测、视频合成、比特币挖矿等。
CompuBench 1.5显卡测试得分:
最后,跑了20分钟的FurMark甜甜圈拷机测试(1280x720分辨率)。GPU峰值温度为81°C, 风扇转速2459RPM.
FurMark拷机测试时主机功耗约为350瓦(不含显示器)。
系统待机时功耗约为50瓦(不含显示器)。
总体来看,一款550W功率的主机电源对于这套系统来说基本够用。
接下来,我们来测试一下GTX1080在去拜耳运算方面的性能。
首先,我们选择一段由ALEXA Mini拍摄的OpenGate 3.4K 24p MXF ARRIRAW素材进行测试,播放软件为Scratch Play.
Scratch Play v8.5版本应用了ARRIRAW SDK 5.0, 我们将去拜耳模式设定为ADA-5 HW / 16 Bit (f), 色彩空间为LogC: Wide Gamut(显示器色域为DCI-P3)。
在素材回放的头几秒,由于数据缓冲的原因画面出现了稍许延迟,但很快就能达到持续稳定地实时播放。可以看到,此时系统CPU与GPU的负载基本在30%至50%间波动,距离满载状态还有较大余量。在默认设置下,Scratch Play自动采用OpenCL硬件加速。
之后,我们使用REDCINE-X PRO对一段RED EPIC拍摄的4K (4096x2160) 24p REDCODE 8:1 R3D素材进行回放测试。
在REDCINE-X PRO的系统参数设置中,GPU加速模式默认为OpenCL, 同步处理帧数默认为CPU核心数(含超线程)。
当我们在OpenCL模式下选择全分辨率对R3D素材进行播放时,系统无法达到实时预览。此时CPU全部核心均为满载状态,GPU负载约为15%, GPU显存使用量约为1.5GB.
将GPU加速模式更改为CUDA, 系统依旧无法实现对于拍摄素材的实时预览。CPU全部核心仍然满载,GPU负载约为11%, GPU显存使用量约为1.2GB.
同为CUDA加速模式,将回放分辨率降低至1/2, 尽管此刻CPU负载仍为100%, 但系统已经可以实现对R3D文件的实时播放。当我们对画面的亮度曲线、色彩、锐度以及降噪等参数进行调整时,视频回放性能未受到可察觉的影响。
将GPU加速模式改回OpenCL, 在1/2分辨率下视频回放性能未发生明显变化,仍可达到实时播放。
综上所述,相对于ARRIRAW格式,REDCODE的可变压缩比设计对于CPU的连续运算性能有着更为繁重的需求,此时i7-6700K四核CPU已经成为系统的主要瓶颈。而相对于CUDA加速,在OpenCL模式下REDCINE-X PRO对于GPU和显存的利用率更高,主观感受上也是OpenCL模式下渲染速度略有提升,说明REDCINE-X PRO在OpenCL方面有着更好的优化。
当我们在系统参数设置中将GPU加速禁用,无论是在全分辨率还是1/2分辨率下,REDCINE-X PRO都无法实现对R3D文件的实时回放。此时,CPU与GPU均未达到满载状态,彼此成为对方的瓶颈。在这种情况下,我们不得不将分辨率设定为1/4才可实现对拍摄素材的实时回放。
通过以上测试,我们建议需要经常处理R3D素材的用户选择英特尔Extreme至尊版或至强系列多核处理器。当然,RED ROCKET-X也是极好的。
最后,我们来看看大家最为关心的达芬奇调色应用。
此前,DaVinci Resolve产品经理Peter Chamberlain曾在Blackmagic Design官方论坛上提到:经过他们的测试,GTX1080的性能与Titan X(非Pascal架构)基本相似,但却有着更好的性价比。BMD官方也将在之后的达芬奇配置指南中加入GTX1080这一选项。
这里首先需要澄清一个问题:达芬奇是否一定需要专业显卡才能获得流畅的渲染性能?相对于民用卡或游戏卡,专业显卡除了具备更好的驱动优化、多屏显示等增值功能外,另一方面则是其双精度浮点运算性能是普通游戏卡所无法比拟的。就拿GTX1080来说,其单精度浮点性能约为9TFLOPS, 而其阉割过的双精度浮点性能仅为0.3TFLOPS(1:32),不得不说老黄的如意算盘打得很好。
那么对于达芬奇而言,能否从专业显卡的双精度浮点运算中获益呢?在《DaVinci Resolve 12 Configuration Guide》中,有这样一段描述:\"all image processing in DaVinci Resolve is graphics processor (GPU) based with 32 bit floating point precision.\"即达芬奇的所有图像处理操作均基于GPU的32位浮点精度,所谓32位浮点精度便是我们所说的单精度浮点运算。
相对于专业显卡在运算性能上的提升,大多数图像处理操作对于显存大小更加敏感,这在达芬奇配置指南中也有所体现。对于4K素材,推荐选择具备8GB以上显存的显卡。
下面,我们使用DaVinci Resolve 12.5.2 Studio for Windows调色软件,在不使用渲染缓存、代理模式等功能的情况下,选择一段3840x2160 25p ProRes422 HQ编码的4K视频素材,并将项目时间线分辨率设定为1920x1080 HD全高清。
首先,我们分别将达芬奇内置的两种降噪特效单独应用于测试素材。在使用空域降噪以[较好]模式渲染时,所选剪辑能够实现实时预览,此时GPU负载约在80%上下浮动,CPU负载不超过50%. 取消空域降噪特效,将时域降噪的帧数设置为最高值[5],运动估计类型为[较好],此种状况下则无法满足对所选剪辑的实时预览,播放速率维持在23fps左右,GPU处于满载状态。
尽管上面的测试仅仅应用了单个降噪节点,但结果已经令人欣慰。对比采用AMD Radeon R9 M370X移动显卡的Apple MacBook Pro Mid 2015顶配款,在执行相同操作时,其素材预览速度大约仅为1帧每秒。
接下来我们又将达芬奇预置的各种OpenFX特效分别单独应用于测试素材之上。很遗憾,所有特效在默认参数设置下均能达到实时预览,由此可见新版达芬奇对于GPU加速性能的深度优化。
仅使用单一节点进行测试显然并不符合日常实际的应用场景。于是,我们针对所选剪辑应用了包括空域降噪、动态模糊、胶片颗粒OpenFX、跟踪遮罩等在内的10个不同调整类型的处理节点,一定程度上模拟真实的应用场景。此时,测试素材的预览速度下降为8fps, 从感官上来看尚在可接受的范围之内。倘若此时开启达芬奇代理模式的[Half Resolution]选项,则预览速度基本能够维持在20fps左右。
在刚才的几项测试中我们是将4K素材以全高清分辨率进行渲染,这是在画质与性能间折中后的解决方案。当调色工作完成后,还需要将时间线恢复到3840x2160分辨率以便检查和输出,此时的预览性能基本降至以上测试数值的四分之一。
最后,我们选择一段1920x1080 25p ProRes422HQ的高清素材进行测试,同样对其应用10个不同调整类型的处理节点,此时达芬奇的预览速度约为15fps, 在代理模式的加持下则可以实现对所选剪辑的实时预览。
总结:通过本次测试,新一代Pascal架构的GTX1080 GPU给我们留下了深刻印象。更为重要的是,随着浮点运算性能的逐步提升以及主流影视后期软件针对CUDA, OpenCL等通用计算标准的深度优化,桌面级游戏显卡的单卡性能已经不输于专业显卡,并且有着极佳的性价比。倘若未来有哪款软件仍是一副非专业卡不行的架势,那我只能说这是软件厂商和显卡厂商有意而为之。
希望这篇文章对于大家在设备选择上有所帮助,也欢迎朋友们通过微信(微信号:cool_film)与我讨论有关电脑配置与性能的话题。
原创文章,转载请注明作者及出处。
在上一篇文章中同大家分享了索泰 GTX1080 至尊Plus OC的开箱过程,今天我们来看一看这款显卡的实际性能表现。
有关Pascal架构GPU的特点及性能对比网络上已有大量报道,大家可自行搜索。
按照惯例,我们也选择了一些主流测试软件让这张显卡跑个分,热热身。
测试平台:
CPU: Intel Core i7-6700K
主板: ASUS Z170 PRO GAMING
内存: G.Skill Ripjaws 5 DDR4-2400 8G x4
显卡: ZOTAC GTX1080 至尊Plus OC
SSD: SAMSUNG 850 EVO 500G SATA III
HDD: WD Gold WD4002FYYZ 4TB
光驱: LITEON iHAS324
电源: Antec EA-550 Platinum
机箱: Antec P280
操作系统:Windows7 Professional, 64-bit, Service Pack 1
显卡驱动版本:372.90 - WHQL
UI显示器:Dell UltraSharp UP2516D, 分辨率2560x1440
显卡基本信息。最新版GPU-Z仍不支持针对GTX1080的ASIC质量显示。
待机状态下显卡温度约为43°C(室温23°C),风扇自动停转。
CUDA-Z实时性能测试。可以看出GTX1080作为一款游戏卡在单精度与双精度浮点性能上的巨大差异。
Windows7体验指数评分7.8,其中处理器部分子分数7.8,其余部分子分数均为7.9 .
3DMark Advanced Edition Fire Strike Ultra测试成绩:基准分数5419, 显卡分数5469 .
性能波动详细信息。i7-6700K处理器在个别时段自动睿频加速至4.2GHz(单核),CPU及GPU最高温度分别约为70°C与80°C.
3DMark Advanced Edition Fire Strike Extreme测试成绩:基准分数9868, 显卡分数10941 .
CINEBENCH基于Cinema 4D特效引擎,重点针对显卡OpenGL性能进行测试。这张GTX1080显卡在CINEBENCH R15中测试得分达到了150.53fps.
LuxMark v3.1 OpenCL GPUs性能测试结果:13579分。测试场景:LuxBall HDR.
CompuBench重点针对硬件设备在OpenCL框架下的通用计算性能进行测试,测试场景包括人脸检测、视频合成、比特币挖矿等。
CompuBench 1.5显卡测试得分:
最后,跑了20分钟的FurMark甜甜圈拷机测试(1280x720分辨率)。GPU峰值温度为81°C, 风扇转速2459RPM.
FurMark拷机测试时主机功耗约为350瓦(不含显示器)。
系统待机时功耗约为50瓦(不含显示器)。
总体来看,一款550W功率的主机电源对于这套系统来说基本够用。
接下来,我们来测试一下GTX1080在去拜耳运算方面的性能。
首先,我们选择一段由ALEXA Mini拍摄的OpenGate 3.4K 24p MXF ARRIRAW素材进行测试,播放软件为Scratch Play.
Scratch Play v8.5版本应用了ARRIRAW SDK 5.0, 我们将去拜耳模式设定为ADA-5 HW / 16 Bit (f), 色彩空间为LogC: Wide Gamut(显示器色域为DCI-P3)。
在素材回放的头几秒,由于数据缓冲的原因画面出现了稍许延迟,但很快就能达到持续稳定地实时播放。可以看到,此时系统CPU与GPU的负载基本在30%至50%间波动,距离满载状态还有较大余量。在默认设置下,Scratch Play自动采用OpenCL硬件加速。
之后,我们使用REDCINE-X PRO对一段RED EPIC拍摄的4K (4096x2160) 24p REDCODE 8:1 R3D素材进行回放测试。
在REDCINE-X PRO的系统参数设置中,GPU加速模式默认为OpenCL, 同步处理帧数默认为CPU核心数(含超线程)。
当我们在OpenCL模式下选择全分辨率对R3D素材进行播放时,系统无法达到实时预览。此时CPU全部核心均为满载状态,GPU负载约为15%, GPU显存使用量约为1.5GB.
将GPU加速模式更改为CUDA, 系统依旧无法实现对于拍摄素材的实时预览。CPU全部核心仍然满载,GPU负载约为11%, GPU显存使用量约为1.2GB.
同为CUDA加速模式,将回放分辨率降低至1/2, 尽管此刻CPU负载仍为100%, 但系统已经可以实现对R3D文件的实时播放。当我们对画面的亮度曲线、色彩、锐度以及降噪等参数进行调整时,视频回放性能未受到可察觉的影响。
将GPU加速模式改回OpenCL, 在1/2分辨率下视频回放性能未发生明显变化,仍可达到实时播放。
综上所述,相对于ARRIRAW格式,REDCODE的可变压缩比设计对于CPU的连续运算性能有着更为繁重的需求,此时i7-6700K四核CPU已经成为系统的主要瓶颈。而相对于CUDA加速,在OpenCL模式下REDCINE-X PRO对于GPU和显存的利用率更高,主观感受上也是OpenCL模式下渲染速度略有提升,说明REDCINE-X PRO在OpenCL方面有着更好的优化。
当我们在系统参数设置中将GPU加速禁用,无论是在全分辨率还是1/2分辨率下,REDCINE-X PRO都无法实现对R3D文件的实时回放。此时,CPU与GPU均未达到满载状态,彼此成为对方的瓶颈。在这种情况下,我们不得不将分辨率设定为1/4才可实现对拍摄素材的实时回放。
通过以上测试,我们建议需要经常处理R3D素材的用户选择英特尔Extreme至尊版或至强系列多核处理器。当然,RED ROCKET-X也是极好的。
最后,我们来看看大家最为关心的达芬奇调色应用。
此前,DaVinci Resolve产品经理Peter Chamberlain曾在Blackmagic Design官方论坛上提到:经过他们的测试,GTX1080的性能与Titan X(非Pascal架构)基本相似,但却有着更好的性价比。BMD官方也将在之后的达芬奇配置指南中加入GTX1080这一选项。
这里首先需要澄清一个问题:达芬奇是否一定需要专业显卡才能获得流畅的渲染性能?相对于民用卡或游戏卡,专业显卡除了具备更好的驱动优化、多屏显示等增值功能外,另一方面则是其双精度浮点运算性能是普通游戏卡所无法比拟的。就拿GTX1080来说,其单精度浮点性能约为9TFLOPS, 而其阉割过的双精度浮点性能仅为0.3TFLOPS(1:32),不得不说老黄的如意算盘打得很好。
那么对于达芬奇而言,能否从专业显卡的双精度浮点运算中获益呢?在《DaVinci Resolve 12 Configuration Guide》中,有这样一段描述:\"all image processing in DaVinci Resolve is graphics processor (GPU) based with 32 bit floating point precision.\"即达芬奇的所有图像处理操作均基于GPU的32位浮点精度,所谓32位浮点精度便是我们所说的单精度浮点运算。
相对于专业显卡在运算性能上的提升,大多数图像处理操作对于显存大小更加敏感,这在达芬奇配置指南中也有所体现。对于4K素材,推荐选择具备8GB以上显存的显卡。
下面,我们使用DaVinci Resolve 12.5.2 Studio for Windows调色软件,在不使用渲染缓存、代理模式等功能的情况下,选择一段3840x2160 25p ProRes422 HQ编码的4K视频素材,并将项目时间线分辨率设定为1920x1080 HD全高清。
首先,我们分别将达芬奇内置的两种降噪特效单独应用于测试素材。在使用空域降噪以[较好]模式渲染时,所选剪辑能够实现实时预览,此时GPU负载约在80%上下浮动,CPU负载不超过50%. 取消空域降噪特效,将时域降噪的帧数设置为最高值[5],运动估计类型为[较好],此种状况下则无法满足对所选剪辑的实时预览,播放速率维持在23fps左右,GPU处于满载状态。
尽管上面的测试仅仅应用了单个降噪节点,但结果已经令人欣慰。对比采用AMD Radeon R9 M370X移动显卡的Apple MacBook Pro Mid 2015顶配款,在执行相同操作时,其素材预览速度大约仅为1帧每秒。
接下来我们又将达芬奇预置的各种OpenFX特效分别单独应用于测试素材之上。很遗憾,所有特效在默认参数设置下均能达到实时预览,由此可见新版达芬奇对于GPU加速性能的深度优化。
仅使用单一节点进行测试显然并不符合日常实际的应用场景。于是,我们针对所选剪辑应用了包括空域降噪、动态模糊、胶片颗粒OpenFX、跟踪遮罩等在内的10个不同调整类型的处理节点,一定程度上模拟真实的应用场景。此时,测试素材的预览速度下降为8fps, 从感官上来看尚在可接受的范围之内。倘若此时开启达芬奇代理模式的[Half Resolution]选项,则预览速度基本能够维持在20fps左右。
在刚才的几项测试中我们是将4K素材以全高清分辨率进行渲染,这是在画质与性能间折中后的解决方案。当调色工作完成后,还需要将时间线恢复到3840x2160分辨率以便检查和输出,此时的预览性能基本降至以上测试数值的四分之一。
最后,我们选择一段1920x1080 25p ProRes422HQ的高清素材进行测试,同样对其应用10个不同调整类型的处理节点,此时达芬奇的预览速度约为15fps, 在代理模式的加持下则可以实现对所选剪辑的实时预览。
总结:通过本次测试,新一代Pascal架构的GTX1080 GPU给我们留下了深刻印象。更为重要的是,随着浮点运算性能的逐步提升以及主流影视后期软件针对CUDA, OpenCL等通用计算标准的深度优化,桌面级游戏显卡的单卡性能已经不输于专业显卡,并且有着极佳的性价比。倘若未来有哪款软件仍是一副非专业卡不行的架势,那我只能说这是软件厂商和显卡厂商有意而为之。
希望这篇文章对于大家在设备选择上有所帮助,也欢迎朋友们通过微信(微信号:cool_film)与我讨论有关电脑配置与性能的话题。
本文为作者 DITChina 分享,影视工业网鼓励从业者分享原创内容,影视工业网不会对原创文章作任何编辑!如作者有特别标注,请按作者说明转载,如无说明,则转载此文章须经得作者同意,并请附上出处(影视工业网)及本页链接。原文链接 https://cinehello.com/stream/83412
DITChina
点击了解更多
作为国内领先的影视技术服务团队,DITChina 在业内率先提出数据管理、质量管理、效率管理以及成本管理的四维一体解决方案,为制片方提供覆盖制作全流程的决策咨询与技术支持服务。
业务咨询
电话(微信同号):13810189294
邮箱:dit[AT]ditchina.com
扫码关注
DITChina
DITChina