NVIDIA專業(yè)卡Quadro FX5800性能評測
NVIDIA 的工作站顯卡按照檔次,可以依次分為 Ultra-High-End、High-End、Mid-Range、Entry-Level 四檔,其中 Ultra-High-End 為最高基本,性能規(guī)格和功能特性都是同時代產品中最強悍的。
Quadro FX 3800 | Quadro FX 4600 | Quadro FX 4700 | Quadro FX 4800 | Quadro FX 5600 | Quadro FX 5800 | |
GPU 內存容量 | 1GB GDDR3 | 768MB GDDR3 | 1GB GDDR3 per GPU | 1.5GB GDDR3 | 1.5GB GDDR3 | 4GB GDDR3 |
內存界面 | 256-bit | 384-bit | 256-bit | 384-bit | 384-bit | 512-bit |
內存帶寬 | 51.2 GB/s | 67.2 GB/sec | 51.2 GB/sec | 76.8 GB/sec | 76.8 GB/sec | 102 GB/sec |
CUDA SP數量 | 192 | 112 | 128 per GPU (共計 256) | 192 | 128 | 240 |
最大功耗 | 108W | 134W | 226W | 150W | 171W | 189W |
占用插槽數 | 1 | 2 | 2 | 2 | 2 | 2 |
顯示連接界面 | DVI-I DP DP STEREO |
DVI-I DVI-I STEREO |
4 X DVI-I STEREO |
DVI-I DP DP STEREO |
DVI-I DVI-I STEREO |
DVI-I DVI-I DP STEREO |
Dual-Link DVI | 1 | 2 | 4 | 1 | 2 | 2 |
Single-link DVI-I | ||||||
DisplayPort | 2 | 2 | 1 | |||
OpenGL | 3.1 | 3.1 | 3.1 | 3.1 | 3.1 | 3.1 |
Shader Model | 4.0 | 4.0 | 4.0 | 4.0 | 4.0 | 4.0 |
DirectX | 10.0 | 10.0 | 10.0 | 10.0 | 10.0 | 10.0 |
CUDA | Yes | Yes | Yes | Yes | Yes | Yes |
NVIDIA SLI Multi-OS | Yes | Yes | Yes | |||
SLI Frame Rendering | Yes | Yes | Yes | Yes | Yes | Yes |
Genlock/Framelock | - | Yes | Yes | Yes | Yes | Yes |
可選Quadro SDI卡 | Yes | Yes | Yes | Yes | Yes | Yes |
可選G-Sync卡 | Yes | Yes | Yes | Yes | Yes | |
3D圖元性能 | ||||||
每秒三角形處理能力 | 300 Million | 250 Million | 250 Million | 300 Million | 300 Million | 300 Million |
每秒紋理處理能力 | 38 Billion | 24 Billion | 32 Billion | 38.4 Billion | 38.4 Billion | 52 Billion |
NVIDIA 目前的 Ultra-High-End 產品有兩款,分別是基于 G80 芯片的 Quadro FX 5600 以及基于 GT200 芯片的 Quadro FX 5800,而后者就是本文介紹的主角。
風鼓式散熱器設計
支持 SLI 雙卡并行和允許加插 SDI 視頻捕捉、輸出子卡
Quadro FX 5800 需要連接兩個電源接口
分別是末端頂部的 6-pin 和末端后側的 8-pin
Quadro FX 5800 和 Quadro FX 3800 使用的都是 GT200 芯片,但是后者的 TPC(紋理處理簇)并沒有完全開放,只啟用了其中的 24 個。此外,Quadro FX 3800 的內存總線位寬也都只有 256-bit。
在 GT200 架構中,每個 TPC 內包含有 24 個流處理器(stream processor,簡稱 SP),每 8 個 SP 組成一個 Streaming Multiprocessor(簡稱 SM)。
而 Quadro FX 5800 則是完全足本的規(guī)格,擁有 240 個單精度 SP,512-bit 內存總線,SP 在 3D 應用的時候頻率為 1296MHz。
在不同的浮點運算指令組合下,Quadro FX 5800 理論單精度浮點性能為:
FMA+MUL:933.12 GFLOPS
FMA:622.08 GFLOPS
MUL:622.08 GFLOPS
ADD+MUL:622.08 GFLOPS
ADD:311.04 GFLOPS
Quadro FX 5800 也支持雙精度浮點運算,但是由于是每 8 個單精度 SP 才搭配一個雙精度 SP(這個雙精度 SP 可以單周期執(zhí)行一個 FMA指令),因此雙精度性能只有單精度 FMA 的 1/8,即 77.76 GFLOPS,如果論FADD 或者 FMUL 時的雙精度性能則是 38.88 GFLOPS。
與之對比,目前英特爾的 Core 2 i975 3.33GHz 的 FMUL+FADD、FMUL、FADD 指令雙精度浮點運算性能均為 53.28GHz,同樣指令下的單精度浮點運算性能均為 106.56 GFLOPS。
和其他 Quadro FX 顯卡相比,Quadro FX 5800 的特別之處在于它能實現非常強大而完整的 work-flow(工作流)加速能力:支持幾乎所有的工作站軟件、捆綁了若干個針對常用軟件的性能優(yōu)化器、具備 4GB 大容量內存可以提供高速的大紋理支持和改善通用計算加速的本地內存容量約束問題。
你可以想象一下,在 Photoshop 里進行紋理創(chuàng)建和加工,然后把紋理應用到 3dsmax 中的場景里,接著渲染場景動畫,在 Premiere Pro CS 中進行非線性編輯,而后把編輯好的序列導出為 h.264 壓縮的視頻或者動畫,這一系列的過程都 Quadro FX 5800 都能為止提供相應的、不同程度的加速。
當然,這并不代表你不需要一個強力的處理器,對于工作站應用特別是高階的應用,中央處理器越快總是越好的,Quadro FX 對這個 work-flow 的加速,更多的體現在中央處理器力不從心的地方,如此就能達到異構運算所提倡的互補增益效果。
Quadro FX 5800 的固定運算功能單元(例如紋理單元、三角形 Setup 引擎)頻率為 612MHz,紋理填充速率填充速率為 73.44 GTexels/s,像素填充速率為 19.584 GPixels/s。
在 GT200 架構中,每個 TPC 內除了包含有 3個 運行于 1296MHz 的針對可編程運算的 SM 外,還有 32 個運行于 612MHz 的 8-bit 紋理單元。
需要注意的是,我們這里提到的頻率是指全速模式下的規(guī)格,實際上Quadro FX 5800 的驅動程序會依據當前的負荷而自動調整運行頻率,從而顯著節(jié)省耗電和發(fā)熱。不僅于此,NVIDIA 還在芯片電路效率上下了大量功夫,相對于 GT200 583 平方毫米的芯片面積和 14 億晶體管,它的電力消耗表現其實相當出色的。
視頻輸出連接
惠普 DreamColor LP2480zx 支持 10-bit DisplayPort 輸入
NVIDIA 開發(fā)者網站上的場景軟件 NVSG 5.0 提供了 30-bit 顯示支持
Quadro FX 5800 提供了兩個 DVI-I、一個 DisplayPort、一個立體等多種輸出接口,其中 DisplayPort 能提供每個色彩通道 10-bit 的顏色輸出,例如在惠普的 DreamColor LP2480zx 顯示器上,就能實現精確的同屏 30-bit (17 億種,64 倍現有的 8-bit )色彩顯示。
Quadro FX 5800 透過 SDI 子卡提供強大的動畫布幕合成
不僅于此,Quadro FX 5800 還可以透過配裝 SDI 子卡在 Adobe Premiere Pro、Adobe After Effects 等軟件中實現向 SDI 顯示器、SDI 磁帶倉、SDI 投影機等專業(yè)廣播設備輸出無壓縮(8-bit、10-bit、12-bit)的畫面信號,用戶藉此實現數字化的虛擬背景合成,例如體育比賽、天氣報告的立體報幕、動畫。
Quadro FX 5800 使用的 GPU GT200b-GL 其實就是從 GeForce GTX 285 的 GT200b 中經過特別篩選的,不僅芯片本身還有電路板以及配套的零件在電氣特性上都有更嚴格的要求,在產品品質上更有保證。
按照 NVIDIA 的說法,Quadro FX 的產品生命周期長達 36 個月,這除了產品品質保證的基礎,更重要的是 NVIDIA 長期以來在驅動程序、附加值軟件以及與業(yè)界伙伴合作上的大力投入所達成的。
NVIDIA 在專業(yè)圖形市場上歷年以來的投入號稱已經達到了一萬五千人年,累計售出的 Quadro 專業(yè)卡超過 1500 萬片,擁有 90% 的市場份額(包括 CAD/CAM、醫(yī)療設備、石油、數字內容創(chuàng)作和電視轉播),有 300 位工程師專門為這個市場的應用程序配合,擁有非常豐富的整體解決方案經驗。
在驅動程序上,NVIDIA 下了非常大的功夫,特別是兼容性穩(wěn)定性方面有非常出色的表現,無論是 OpenGL、Direct3D 都能提供良好的支持,為 Quadro 度身定制的驅動程序版本還捆綁了一些針對 3dsmax 等軟件的加速版驅動插件,這些都獲得了業(yè)界軟件商、整機廠商、系統(tǒng)集成商的廣泛認證。
透過 PhysX DCC for 3dsmax 插件實現 PhysX 剛體碰撞物理模擬
透過 PhysX DCC for Maya 插件實現 PhysX 剛體碰撞物理模擬
NVIDIA 對業(yè)界軟件的支持不僅僅體現在驅動認證、性能加速上,還有大量強大的開發(fā)工具與之配合,例如 PhysX DCC Plug-Ins,就是可以在 3dsmax、Maya、Softimage(其中 Softimage 本身已經捆綁了該插件)等重要三維創(chuàng)作軟件中提供 PhysX 物理開發(fā)支持的插件。
單憑 NVIDIA 一家實現更多的 Quadro 附加值顯然是不夠的,NVIDIA 為業(yè)界提供了豐富的開發(fā)工具,例如 Cg、CUDA C 以及即將正式發(fā)布的 OpenCL、Compute Shader 等。
其中 CUDA C 作為今年來 NVIDIA 力推的 GPGPU 語言已經獲得了業(yè)界的廣泛的支持,大家可以看看下面這個長達 100 多頁滾屏的連接,就可以了解 CUDA C 現在獲得的支持是多么的蔚為壯觀:
http://www.nvidia.com/content/cudazone/CUDABrowser/assets/data/applications.xml
Furry Ball GPUman For Maya
可以在 GeForce GTX 285 上用 2 秒的時間完成上面場景的渲染
按照 Furry Ball 于 Youtube 公布的視頻
Quadro 可以達到游戲卡的 10 至 50 倍渲染速度
注意:大陸網友需要代理才能訪問 Youtube
舉個例子,上面的連接中有一個由 Furry Ball(毛毛球)公司推出的名為 GPUman(名字有點模仿 Renderman?)的渲染器,能夠提供達到 300 倍于傳統(tǒng) CPU 渲染器(Renderman、MetalRay)的性能。
GPUMan 目前還是 1.0 beta 測試階段,尚未正式發(fā)布,不過在其他的一些軟件方面,就有已經有了商業(yè)上的正式版本,例如 Elemental 針對 Adobe Premiere Pro CS4 推出的 Elemental Accelerator H.264 視頻編碼器#p#page_title#e#
Elemental Accelerator 有一個同門產品,叫 Badaboom,兩者的功能其實比較類似,所不同的是 Badaboom 針對的一般的數碼電子消費者,目前的 Badaboom 1.2 只是提供了 main profile 支持,無法實現批處理。
而 Elemental Accelerator 則是針對 Adobe Premiere Pro CS 4 這個比較嚴謹的視頻編緝軟件的視頻編碼器,提供了更高效的 High Profile、2 Pass 編碼以及透過 Adobe Media Encoder 外殼實現的批處理能力。
上圖就是 Elemental 提供的 Elemental Accelerator 在 Adobe Premiere Pro CS4 中對整個 worlflow 的加速示意圖,可以看出,涉及的加速過程包括了視頻解碼、畫面處理以及視頻編碼這三部分。
Elemental Accelerator 目前針對 PC 的最新版本為 2.0,而 Mac 的版本為 1.2。
在安裝的時候,Elemental Accelerator 會檢測當前系統(tǒng)的軟件和硬件配置,大家必須先更新 Adobe CS 的版本以及安裝具備 Purevideo 2 視頻處理器(G92-GL 以上級別的 Quadro FX 才具備)的專業(yè)顯卡才能安裝此軟件。
在安裝好 Elemental Accelerator 后,當然想盡快體驗一下效果了。首先我們需要在 Premiere Pro CS4 中打開或者導入項目文件和視頻,然后在選單中點選 File->Export,就能實現對 timeline 上的視頻和音頻導出。
在彈出的 Export 對話窗口中,點擊 Export Setting 中的 Format 下拉選單,選中其中的 Elemental H.264,就可以調用 Elemental Accelerator 進行 H.264 視頻編碼加速了。
選擇使用 Elemental Accelerator 后,大家可以作進一步的設置。Elemental Accelerator 本身提供了若干個預建的設置,不過用戶本身也可以根據自己的情況建立最適合于自己的輸出設置(見上圖)。和針對消費類用的 Badaboom 相比,Elemental Accelerator 的可選設置顯然高出一個級別。
透過 Adobe Media Encoder(安裝 Premiere Pro CS 的時候是默認一起安裝的),用戶還能實現 Elemental Accelerator 的批處理 H.264 編碼。
Adobe Media Encoder 的設置界面其實和 Premiere Pro CS4 的 Export 界面一樣,有同樣的選項設置。
使用 Core i7 920 2.67GHz,DDR3-1333 和 Quadro FX 5800 在 Adobe Media Encoder 透過 Elemental Accelerator 執(zhí)行 H.264 視頻編碼時,會有一個邏輯處理器處于“常滿”的運作狀態(tài),其余的邏輯處理器基本上只是偶爾動一下,用戶此時還能輕松地執(zhí)行其他任務。
上圖就是我們分別采用Adobe Media Encoder + Elemental Accelerator 以及 Adobe Media Encoder 內建 h.264 編碼器(這個內建編碼器實際上是 Mainconcept 公司提供的) 進行轉碼獲得的測試結果。
我們采用 SSIM 指數作為畫面品質的評定指標,SSIM=1 表示和原畫面別無二致,SSIM=0 表示和原畫面完全不相干,SSIM 指數的可接受畫面品質數值為 0.95,達到 0.95 我們才會認為及格,如果為 0.98 則表示達到可觀賞級別。
在畫面品質測試方面,Elemental Accelerator 基本上無法在 2Mbps 以下的碼率獲得 0.95 SSIM 指數,這意味著必須有 2Mbps 才能達到可以接受的畫面品質。要達到和 Adobe Media Encoder 內建 h.264 編碼器相當的畫面品質,Elemental Accelerator 需要兩倍的碼率。
采用 2 Pass 模式進行視頻編碼并沒有對此有顯著的改善,只是稍微比 1Pass 有所提升,特別是低碼率下。
如果從瑕疵量角度來看,Elemental Accelerator 1Pass 的瑕疵要比 AME 多出 65% 以上,采用 2Pass 后,瑕疵量在 500kbps 這樣的低碼率設定下比 1Pass 減少 19%。不過和 AME 1Pass 相比,Elemental Accelerator 2Pass 的瑕疵量仍然較多。
在速度方面,Elemental Accelerator 1Pass 在 4Mbps 下可以達到至少 4.2 倍的實時編碼速率,但是 2Pass 下只能達到和和播放速度一樣的編碼速率,甚至不如 AME 內建編碼器的速度。隨著碼率的增加,都會對這兩個編碼器產生影響
處理器 Core i7 920
主板 ASUS P6T
內存 3* 1GB DDR3-1333
硬盤 WD 猛禽 150GB
操作系統(tǒng) Windows XP SP3 , Vista X64 SP2
顯卡驅動 Forceware 182.46 for Quadro FX 3800
Forceware 186.30 for Quadro FX 5800
SPECopc 是 SPEC OpenGL Performance Characterization(SPEC OpenGL性能特性)項目組的簡稱,Viewperf(VPF)是該組織認可的第一個 OpenGL 測試軟件,基于 SPECopc Viewperf 的測試成績最早在 1994 年第四季度的《GPC季刊》上發(fā)表。
SPECopc 是 SPEC GPC(GPC 就是圖形的下屬組織,與它平行的還有 SPECapc,SPECapc 的測試是在實際專業(yè)軟件上編寫測試腳本,這些腳本有的是 VB 編寫的,有些則是利用專業(yè)軟件本身的腳本語言編寫的。
SPECapc 的測試和 SPECopc 的 Viewper 測試不同的是,apc 的測試是希望盡可能地測試出圖形偏重的軟件的總體性能,而 opc 的測試是只考驗專業(yè)軟件的圖形函數執(zhí)行性能,消除了 apc 測試中專業(yè)軟件在其他操作上的性能開銷,而且由于不需要軟件授權,因此使用上比較方便。
Viewperf 實際上是一系列由專業(yè)軟件開發(fā)商自己按照 SPECopc 規(guī)范,從自己開發(fā)的軟件中提取出來的測試包(被稱作所謂 Viewset ),這些測試包包含了實際的場景模型、盡可能接近于實際軟件的渲染參數(例如立即渲染模式或者顯示指令表渲染模式、渲染圖元形式等)。
以這樣的方式設計測試項目,有利于讓測試接近于實際軟件的渲染特制,不過需要注意的是,Viewperf 畢竟是脫離原軟件的測試,只是進行實時圖形渲染部分的測試,而且為了突出圖形偏重的環(huán)境,有些測試包采用了數倍于 SPECapc 的模型來加重圖形渲染得負荷,因此測試出來的結果更多的是反映純粹的圖形性能。
Viewperf 10.0 是 SPECopc 去年發(fā)布的大型 3D 圖形測試工具,Windows 版安裝包的大小為 616 MB,包含了 32-bit 和 64-bit 版本,內含源代碼。
在這個測試工具中,包含了 3dsmax-04、catia-02、ensight-03、maya-02、proe-04、sw-01、tvis-01、ugnx-01,分別對應 3dsmax、CATIA、EnSight、Maya、Pro/Engineer、Solidworks、UGS Teamcenter Visualization Mockup、UGS NX 等多個應用軟件的對應測試項目。
#p#page_title#e#
實際應用程序測試
我們采用了SPECapc的3dsmax9、Maya 6.5、NX4、SolidEdge V19、Solidworks 2007、Pro/E Wildfire 2.0、Lightwave 9.6 以及 Cadalyst Labs 的 AutoCAD 測試腳本(2008版)來測試對應的程序,測試結果如下,得分越高,代表性能越快,由于我們這次測試的主要是圖形性能,因此大家在這里主要看的應該是 Graphis 或者 GFX 部分的得分
總結
在類似的規(guī)格和特性下,專業(yè)卡的價格數倍于游戲卡,一般的用戶難以明了兩者的實際區(qū)別,對這些用戶來說,他們有必要了解專業(yè)卡的價格并非單憑以硬件成本來確定的,還有非常重要的技術支持以及與之配套的一系列軟件解決方案。
同樣,專業(yè)卡是為了滿足專業(yè)用戶在創(chuàng)作的時候不僅擁有強勁的性能,還必須確保屏幕上展現的線條、輪廓、交互界面擁有高度的精確性,與之相比,游戲卡的驅動更強調的是速度,無法滿足專業(yè)應用特別是 CAD、CAM 所需的精確度。
NVIDIA 在專業(yè)卡產品線上投入的大量的人力物力,從 Quadro 問世至今,差不多有 8 年時間,Quadro FX 5800 就是 NVIDIA 集這多年功力的代表性產品。
Quadro FX 5800 作為目前 NVIDIA 最頂尖的專業(yè)卡產品(當然,這里所的最頂尖并沒有包括 Quadro Plex 這樣的外置式專業(yè)卡),擁有強大的三維、通用計算處理能力,高達 4GB 的板載內存能應付目前幾乎所有的圖形應用場合以及相當部分的通用計算場合。
在最常見的 Autodesk 軟件例如 AutoCAD、3dsmax 中 NVIDIA 提供了定制的性能強化驅動,在 Softimage、3dsmax、Maya 中,NVIDIA 提供了 PhysX 插件實現更強大的物理計算。此外,Quadro FX 5800 還支持 30-bit 色彩、Quadro SDI 子卡、SLI Multi-OS 實現單機多卡多系統(tǒng)虛擬機 3D 硬件加速等等。
毫無疑問,Quadro FX 5800 是擁有目前最完備的軟硬件配合、最完整的工作流支持、業(yè)界支持最得力的專業(yè)圖形解決方案,對于高端用戶來說,目前是不可能找到能與之匹敵的產品。