融聚未來 AMD全新Stream技術(shù)詳盡解析
從1998年到2008年,3D加速卡已經(jīng)經(jīng)歷了大約10年的發(fā)展歷程,從最初的3D加速卡的誕生到現(xiàn)在性能非常強悍的產(chǎn)品已經(jīng)經(jīng)歷了無數(shù)次的更新?lián)Q代,不過這是種逃離不掉顯卡從誕生至今的唯一功能——僅能局限于3D加速的領(lǐng)域。經(jīng)歷了大約十年的顯卡發(fā)展歷程,由最初的單純3D顯示加速到如今的并行計算,讓顯卡這一產(chǎn)品經(jīng)歷了一個十分巨大的變革。
近兩年來,由顯卡的飛速發(fā)展帶來了一個全新的問題,那就是日益增高的顯卡性能如果僅能局限于3D圖形加速,那么在非3D加速時顯卡的性能就會白白的浪費掉。而為了更好的解決這個問題,同時也是為了讓自己有更多的出路,NVIDIA公司在去年正式發(fā)布了CUDA這項技術(shù),并且從GTX 280產(chǎn)品之后開始了大力宣傳CUDA這一技術(shù)。這被人們普遍認為是一個具有重大意義的方向和領(lǐng)域,然而Nvidia的CUDA似乎并不成熟和完善。
『AMD的新Fusion即將整合顯卡與CPU于一身』
人們發(fā)現(xiàn)了AMD的Fusion這種將顯卡與CPU整合一體似乎是未來大方向。雖然整合顯卡與CPU是一種發(fā)展方向,其實獨立顯卡同樣有自己的發(fā)展道路要走。隨著顯卡的性能增強,人們越來越意識到如此高性能的顯卡如果單純的利用在3D加速領(lǐng)域的話,會讓顯卡在大部分時間浪費掉它的出色性能,因此并行計算便提上了顯卡未來發(fā)展路線的日程。當然,實際上目前來看,顯卡已經(jīng)在朝著這一方向前進了。
ATI方面早在X1950XTX時代就已經(jīng)能夠通過斯坦福大學Folding@home軟件實現(xiàn)并行加速功能,面向普通用戶的并行計算功能因為沒有做到盡善盡美所以一直沒有露面。不過,伴隨著ATI最新的催化劑8.12,具有ATI顯卡劃時代意義的Steam通用計算技術(shù)正式登場了。今天,我們就詳細講解一下ATI Steam技術(shù)的特色亮點以及應(yīng)用領(lǐng)域方面的知識。
#p#page_title#e#
■[第一章]SIMD架構(gòu),為Stream打下基礎(chǔ)
2008年的6月20日,ATI正式發(fā)布了最新一代的Radeon HD 4850產(chǎn)品,這款產(chǎn)品發(fā)布的同時,也為大家?guī)砹艘豢罡↑c運算能力達到萬億次的產(chǎn)品。之所以HD4850的浮點運算能力能夠達到萬億次級別,這主要還是因為ATI在核心架構(gòu)的設(shè)計上一直保留著SIMD的設(shè)計思路,雖然在遇到分支預測時,SIMD的效率會降低,但是SIMD的浮點運算的優(yōu)勢確實非常大的。
『SIMD架構(gòu)讓RV770的浮點性能更強』
在HD2000系列產(chǎn)品中,我們就已經(jīng)知道ATI采用的4D+1D的SIMD設(shè)計能帶來極強的浮點運算性能,甚至低端的HD2400的浮點運算性能都要比兩顆四核CPU并行運算的浮點運算性能還要高。而RV770在基本保持R6XX架構(gòu)的設(shè)計思路上,大量的增加了流處理器數(shù)量,這使得RV770的浮點運算能力又得到了飛躍式的提高。
『公版Radeon HD4850』
我們來舉一個例子:RV770核心的又有800個流處理器,每個流處理器沒有周期都可以完成800個矢量指令+800個標量指令,也就是說每個流處理器每個周期可以同時執(zhí)行兩個命令數(shù),將流處理器的數(shù)量與每個流處理器同時執(zhí)行的命令數(shù)相乘再乘以流處理器運行的頻率,也就是說800x2x625MHz=1T Flops??梢钥吹剑琑V770依靠其800個流處理器的性能,可以達到驚人的萬億次的浮動運算能力。
強大的浮點運算的性能在GPGPU(通用目的計算的GPU)上發(fā)揮很大的作用。尤其在依賴密集計算的科學運算領(lǐng)域,GPU依靠超強的浮點運算性能將大大超越CPU的運算速度。
#p#page_title#e#
開放性標準,更有發(fā)展前途
相對NVIDIA的CUDA技術(shù)而言,AMD采用的Stream技術(shù)是一項開放性的技術(shù)。實際上,最初ATI采用的流處理技術(shù)并非完全開放,而是僅針對單一的一個項目而研發(fā)的。 在2006年,ATI就曾經(jīng)借助非統(tǒng)一架構(gòu)設(shè)計的Radeon X1950XTX顯卡為斯坦福大學的Folding@Home (蛋白質(zhì)折疊的分布計算項目)項目進行科學計算。而此次全新的流處理技術(shù)的改進就是要將這一技術(shù)全面開放,能夠讓更多的開發(fā)人員參與進來,借助HD4000系列顯卡超強的浮點運算能力,為更多的并行計算應(yīng)用進行加速。
『ATI已經(jīng)正式加盟Khronos組織的OpenCL陣營』
為何要將這一技術(shù)完全開放,實際上這是AMD一個非常明智之舉。我們可以回顧一下,歷史上很對不開放的相關(guān)技術(shù)都是一些怎樣的后果。這其中大家最熟悉的應(yīng)該就是早年3dfx公司的Glide圖形技術(shù)接口和Rambus這兩項技術(shù)了,由于技術(shù)的封閉性,讓不少廠家望而卻步,最終走向了沒落的道路。而實際上,目前NVIDIA的CUDA也有一些這樣的痕跡。而AMD方面則直接基于OpenCL這一開放性標準,因此勢必會得到更多廠商的技術(shù)支持。
『OpenCL與CUDA開放型對比』
從上面的表格當中我們可以看到,基于Khronos團體定制的OpenCL標準確實得到了不少廠商的認可,包括有AMD、Intel、IBM、APPLE等廠商,這其中甚至還包括了ATI的老對手NVIDIA。因此,我們也不難看出開放性標準對于一個廠商的重要性是非常有分量的。
#p#page_title#e#
■多種形式,讓軟件開發(fā)更便利
當然,AMD也并非僅僅支持OpenCL一種API接口,同時AMD自有的Brook+、更多的高級編程語言編程工具、高級編程語言編譯器、特定應(yīng)用程序庫以及業(yè)界的OpenGL、DirectX等技術(shù)均能夠得到支持。更多的開發(fā)方式的支持,得到的結(jié)果只有一個,那就是讓編程人員有更多的選擇,從而可以從自己熟悉的方式來對顯卡的更多潛能進行開發(fā)。
『ATI為流處理技術(shù)免費提供開發(fā)工具包』
除了提供更多的開發(fā)環(huán)境以外,ATI還未開發(fā)人員提供了一整套開發(fā)方案,并且為開發(fā)人員提供免費的、開放的編程工具套件,以增強開發(fā)人員的積極性。另外,ATI開放性的舉動也將會增加開發(fā)人員的靈活性以及賦予開發(fā)者自由編程的能力。
根據(jù)ATI的消息表示,ATI能夠讓開發(fā)人員僅進行一次程序語言的編寫,通過內(nèi)部的代碼識別以及轉(zhuǎn)換就可以輕松的讓這些程序語言運行在顯卡上,而無需開發(fā)人員的二次編寫更甚至從新編寫程序,這一點無疑也大幅度降低了開發(fā)人員的開發(fā)難度,對于我們普通用戶而言最直接的好處就是我們能夠在更短的時間內(nèi)看到采用流處理技術(shù)的應(yīng)用程序。
#p#page_title#e#
■未來Stream更新情況
根據(jù)我們目前的得到的消息來看,Brook+開發(fā)工具有效地提供了一個高級別訪問GPU的途徑,類似NV的CUDA技術(shù)。此外,ATI還有望提供從Brook+過渡到OpenCL的簡單工具,不過具體細節(jié)目前尚不清楚。另外,ATI并非會拋棄Brook+開發(fā)環(huán)境,并且在未來1.3版本的Stream SDK當中,Brook+徹底重寫以提升性能,這將讓更多用戶體驗更高性能的Brook+。并且1.3版還會增加對FireStream 9270、Radeon HD 4600、4550、4350顯卡的支持。
『Stream1.3版功能簡介』
『Stream1.4版功能簡介』
在09年第一季度,ATI會繼續(xù)更新Stream SDK到1.4版,新的版本會進一步加大軟件開發(fā)者的編程控制和易用性。另外對Brook+也將會增加更多的功能。硬件支持方面會增加目前ATI的家用頂級產(chǎn)品Radeon HD 4870 X2以及FirePro 3D系列的V3750、V7750、V7770等眾多顯卡。另外我們得到消息,在ATI Stream SDK 2.0當中將完全支持OpenCL,并積極幫助客戶從Brook+過渡到OpenCL。
■ATI與微軟方面的合作
除了支持開放性標準OpenCL等特征外,ATI還在積極與微軟公司進行合作。ATI將會借助微軟的DirectX圖形接口實現(xiàn)除了三維圖形游戲以外的更多應(yīng)用,例如在微軟的Windows 7當中,將會利用顯卡的更多性能,借助DirectX11應(yīng)用程序接口支持ATI的Stream技術(shù),讓軟件開發(fā)者有能力利用這一技術(shù),是消費者體驗朝野視覺渲染以外的機會。
我們可以想象得到,以微軟非常強大的研發(fā)實力,必然會在Windows 7當中為我們帶來更多的驚喜。
#p#page_title#e#
■[第二章]將流處理技術(shù)帶進主流市場
前面我們簡單了解了一下ATI的Stream技術(shù)對于軟件開發(fā)人員的優(yōu)勢,那么對于我們普通用戶而言,Stream技術(shù)又會為消費者帶來哪些益處呢?接下來的這一章節(jié)我們將會為大家詳細的闡述一下這方面的應(yīng)用。
普通用戶的三大應(yīng)用領(lǐng)域:
ATI的Stream技術(shù)對于普通用戶來說主要提供了三個方面的應(yīng)用領(lǐng)域,分別為:娛樂領(lǐng)域、工作領(lǐng)域以及游戲領(lǐng)域。
流處理技術(shù)在三個不同的應(yīng)用領(lǐng)域?qū)槲覀儙硗耆煌膽?yīng)用體驗,例如在娛樂領(lǐng)域當中,Stream技術(shù)可以為我們提供視頻、音頻的編輯功能;在工作領(lǐng)域當中為我們提供辦公軟件、制圖軟件甚至操作系統(tǒng)等軟件的加速;而在游戲當中,ATI表示在將來也會加入對游戲AI以及物理效果加速的功能。
更多免費的軟件:
ATI首先為軟件開發(fā)者們提供了免費的、易用的開發(fā)工具,從而讓這些開發(fā)人員去開發(fā)相應(yīng)的軟件,讓軟件的開發(fā)成本降到最低。不僅如此,ATI也積極的為大家?guī)砀喔玫幕赟tream技術(shù)的應(yīng)用軟件,來讓用戶能夠直接免費的獲得這些軟件,這其中最先讓消費者體驗到的就是伴隨催化劑8.12同時出現(xiàn)的Avivo視頻轉(zhuǎn)換器。
ATI的Avivo視頻轉(zhuǎn)換器是基于ATI的Stream技術(shù)實現(xiàn)的收個面對個人用戶的免費軟件,它能夠讓顯卡與CPU共同加速,來一起完成以往僅有CPU參與的視頻壓縮,并且壓縮速度將會達到原有CPU轉(zhuǎn)換速度的17倍左右。作為此次催化劑8.12的重頭軟件,接下來我們用一頁的篇幅來詳細了解一下這款軟件。
■免費贈送,視頻轉(zhuǎn)換器詳細介紹
ATI為大家免費提供的這款Avivo視頻轉(zhuǎn)換器從今年的12月中旬伴隨著催化劑8.12驅(qū)動一起提供免費下載,感興趣的用戶可以去這里進入下載頁面:http://ati.amd.com/support/driver.html。用戶只需要根據(jù)自己的操作系統(tǒng)和使用的顯卡進行選擇,就可以進入下載頁面了。
Avivo視頻轉(zhuǎn)換器能夠提供非常簡便的設(shè)置,而執(zhí)行效率卻是空前的。以往需要超過三個小時轉(zhuǎn)換的一小時高清視頻,現(xiàn)在只需要十二分鐘就能完成轉(zhuǎn)換。以這樣的速度來看Avivo視頻轉(zhuǎn)換器確實為我們帶來了非常不錯的視頻轉(zhuǎn)換速度,讓我們無需在電腦前等待漫長的時間。
Avivo視頻轉(zhuǎn)換器是ATI首次將流處理技術(shù)得以實現(xiàn)的應(yīng)用軟件,它能夠支持非常多的視頻轉(zhuǎn)換格式,包括了MPEG-2、H.264等多種高清視頻格式,并可支持1080p的視頻輸出(這一技術(shù)將會在2009年第一季度實現(xiàn))。
ATI最新的Avivo視頻轉(zhuǎn)換器能夠用于目前主流的Radeon HD 4870/50以及HD4670/50幾款產(chǎn)品。目前ATI的Stream通用計算研發(fā)團隊會將前期的工作重點放在HD4000產(chǎn)品上面,而隨后也會推出能夠支持HD3000/2000或者其他產(chǎn)品的驅(qū)動和軟件。
#p#page_title#e#
■更多廠商支持,家用領(lǐng)域更廣泛
Stream流處理技術(shù)當然并不能僅僅通過Avivo視頻轉(zhuǎn)換器這一個軟件來體現(xiàn),ATI也正在積極與一些大牌的軟件廠商進行合作,預計將會在2009年第一季度推出不少采用ATI流處理技術(shù)的軟件產(chǎn)品,這其中就包括了CyberLink公司的PowerDirector(威力導演7,是一款視頻后期編輯軟件)以及ArcSoft TotalMedia公司的Theater(視頻編輯軟件)軟件。
其中,CyberLink公司的PowerDirector同樣擁有ATI的Avivo視頻轉(zhuǎn)換器的全部功能,并且PowerDirector實際上就是采用了AMD提供的核心AVT庫,并且對ATI Radeon產(chǎn)品采用AVIVO視頻編碼器來執(zhí)行轉(zhuǎn)碼的工作。在編碼完全一樣的輸入內(nèi)容和輸出目標情況下,CyberlinkPowerDirector的性能和類似軟件的性能沒有不同。但是,Cyberlink的PowerDirector還有其他優(yōu)勢,如支持更多的視頻文件存放器,支持多流轉(zhuǎn)換等多種功能,Cyberlink的PowerDirector的所有功能都打包在一個完整視頻編輯環(huán)境當中。
另外,來自Adobe公司的不少應(yīng)用軟件(如Acrobat Reader、Photoshop4、Flash10等)也都會加入對ATI顯卡的流處理支持。ATI除了能夠支持目前Photoshop CS4當中的旋轉(zhuǎn)、縮放的GPU加速外,目前還在與Adobe公司積極配合,準備開發(fā)更多的能夠使用Stream技術(shù)的功能。
除此以外,ATI與微軟公司的合作也非常緊密,將會在未來Windows操作系統(tǒng)、Expression視頻編碼器、PowerPoint2007等不少軟件當中提供支持。
#p#page_title#e#
■[第三章] 針對企業(yè)用戶的解決方案
接下來我們再來看看面對企業(yè)級別的用戶,Stream流處理技術(shù)還會為我們帶來哪些特色。
首先,我們簡單來說一下流處理技術(shù)在企業(yè)及用戶方面都有哪些優(yōu)勢。第一,使用流處理技術(shù)的話,能夠大幅度縮小服務(wù)器的體積,并且還能夠同時保證服務(wù)器運行的高效率;第二,在服務(wù)器大幅度縮小后,同樣還會帶來功耗的大幅下降;第三,能夠讓服務(wù)器的整體成本大幅度下降;第四,能夠支持雙精度的浮點運算能力。
『Stream相對于普通CPU計算的優(yōu)勢』
『針對企業(yè)級別的FireStream系列產(chǎn)品』
當然,對于企業(yè)級的用戶來說,AMD自然也有相應(yīng)的產(chǎn)品解決方案,而不可能讓企業(yè)級用戶使用那些普通家用級產(chǎn)品,畢竟針對企業(yè)用戶來說,穩(wěn)定性以及可靠性才是最重要的。AMD推出的FireStream系列產(chǎn)品就是專門針對企業(yè)級用戶的解決方案,目前FireStream系列已經(jīng)有兩款產(chǎn)品亮相了,一款產(chǎn)品為FireStream9250:采用1GB GDDR3顯存容量、單插槽設(shè)計、90W功耗、單精度浮點運算每秒1TFLOPS、雙精度浮點運算每秒200GFLOPS。
另一款產(chǎn)品名稱為FireStream9270:采用2GB GDDR5顯存、雙插槽設(shè)計、160W功耗、單精度浮點運算每秒1.2TFLOPS、雙精度浮點運算每秒240GFLOPS。并且針對企業(yè)級用戶,還可以組件雙卡、四卡或更多顯卡的陣列,從而成倍提升顯卡的流處理能力,已獲得更強勁的性能。
另外,AMD還為用戶準備了完整的4U解決方案——Aprius運算加速系統(tǒng)。整套系統(tǒng)大小是一個標準的4U服務(wù)器機箱,運算能力將會達到單精度浮點運算9.6TFLOPS,雙精度浮點運算達到1.9DP TFLOPS,并且整體顯存容量將會達到16GB。整套系統(tǒng)一共采用了8塊FireStream9270顯卡。
#p#page_title#e#
■覆蓋面廣,Stream的應(yīng)用領(lǐng)域
在我們了解了Stream技術(shù)對于企業(yè)級用戶的優(yōu)勢以及產(chǎn)品之后,下面我們再來看看Stream技術(shù)對于企業(yè)當中哪些應(yīng)用最佳適合。
實際上很多基于并行計算架構(gòu)的運算都能夠被流處理技術(shù)支持,例如科學研究、電腦輔助工程、財務(wù)建模和風險評估、石油煤氣勘探、國防、醫(yī)學成像、影響渲染和專業(yè)視訊等領(lǐng)域都能夠被流處理技術(shù)支持,并且采用流處理技術(shù)還能夠大幅度的縮減企業(yè)開發(fā)成本等優(yōu)勢。
『HP公司也積極參與到Stream技術(shù)應(yīng)用當中』
『更多廠商對Stream技術(shù)的評價』
AMD的Stream技術(shù)的推出,將會進一步推動并行計算在PC領(lǐng)域的應(yīng)用。并且,AMD公司的這一技術(shù)還將會結(jié)合CPU與GPU的所長,讓兩者無縫銜接,從而得到更好、更強靜的性能表現(xiàn)。