從圖形渲染到密集計(jì)算 通用GPU的崛起
在兩年前,NVIDIA與Intel打了一場GPU與CPU誰更重要的口水戰(zhàn),表面上看,這場口水戰(zhàn)只是雙方交惡的意氣之爭,但實(shí)際上體現(xiàn)了計(jì)算業(yè)界的根本性分歧:CPU更適合通用性質(zhì)的任務(wù)處理,而GPU更適合高并行的密集數(shù)學(xué)計(jì)算,這兩者未來誰會更重要呢?
爭論雖然沒有得出答案,但I(xiàn)ntel用行動來表達(dá)自己的野心:Larrabee處理器高調(diào)浮出水面,它針對高并行的流計(jì)算,當(dāng)然也支持圖形渲染,更關(guān)鍵的是Larrabee采用與X86類似的指令集來編程,擺脫了對固定式圖形API的限制,從而能夠?qū)崿F(xiàn)更廣泛的任務(wù)處理。Larrabee最后并沒有獲得成功,顯然Intel在這個(gè)領(lǐng)域缺乏高超的設(shè)計(jì)水平,原型產(chǎn)品功耗巨大,性能又遠(yuǎn)遜于對手,強(qiáng)硬推出只是自取其辱?,F(xiàn)在Intel暫時(shí)放棄了Larabee,放緩進(jìn)入GPU領(lǐng)域的步伐,NVIDIA和AMD大大松了一口氣,但Larrabee所要表達(dá)的意圖卻在圖形業(yè)界開始被精確呈現(xiàn)。
Cypress與Fermi,向左走,向右走
一個(gè)像樣的服裝設(shè)計(jì)師,在設(shè)計(jì)自己作品的時(shí)候,總會先思考這些因素:未來將流行哪一種風(fēng)格?客戶又會喜歡哪一種款式?這個(gè)命題可以抽象出兩種內(nèi)涵:其一就是作品要針對哪一種應(yīng)用,其二就是這種應(yīng)用將采用何種形態(tài)來實(shí)現(xiàn)?事實(shí)上,新一代GPU的設(shè)計(jì),也完全涵蓋了這兩個(gè)方面。
在圖形領(lǐng)域,AMD的地位與NVIDIA“幾乎”對等,“幾乎”的意思就是還差那么一點(diǎn)點(diǎn),至少我們可以看到,AMD在圖形驅(qū)動的支持方面與對手差距甚遠(yuǎn),NVIDIA可以為Windows、Linux和UNIX同時(shí)提供驅(qū)動,過氣的老顯卡也從未被拋棄;而AMD只能在Windows平臺中保持對等,而且那些一兩年前的GPU就得不到妥善的支持,當(dāng)然更別提它的專業(yè)顯卡驅(qū)動了。
另一方面,AMD無法像NVIDIA一樣提供類似CUDA、PhysX這樣的豐富軟件平臺,這讓它在通用加速領(lǐng)域束手束腳,而這個(gè)領(lǐng)域的落后也很難朝夕趕上。再者,在單GPU芯片的設(shè)計(jì)方面,AMD一直缺乏NVIDIA這樣的功底,迄今為止AMD都沒有在晶體管數(shù)量方面超過NVIDIA—對結(jié)構(gòu)相對固定的GPU來說,晶體管集成度在多數(shù)時(shí)候都代表性能的高低。
AMD很清楚自身的缺點(diǎn),所以它采取靈活的策略來對付對手。顯然,AMD的目標(biāo)只是圖形市場,希望能夠在獨(dú)立顯卡領(lǐng)域勝過對手,同時(shí)圖形芯片組再為自家的AMD64平臺增加競爭力。這種立意決定了AMD在產(chǎn)品的設(shè)計(jì)上專注于圖形性能本身,并且保持穩(wěn)健的策略—在R600時(shí)代開始之前,AMD認(rèn)為開發(fā)大型GPU芯片的難度越來越大,導(dǎo)致成本居高不下,同時(shí)市場鋪設(shè)動作又非常遲緩。為此,AMD在自家CrossFire交火技術(shù)的基礎(chǔ)上,制定了多芯片的開發(fā)策略。
以二敵一,開發(fā)中等性能GPU,再通過數(shù)量聯(lián)合來實(shí)現(xiàn)高端性能,
這是一種代價(jià)最低,升級最容易的做法。
多芯片顯卡的思想很簡單,即GPU芯片不再追求全能和強(qiáng)勁,而只是實(shí)現(xiàn)全能性,保證對流行規(guī)格率先提供支持,其次便是芯片規(guī)模不要太大,以免給制造帶來負(fù)擔(dān)。同時(shí),還要保證較好的功耗水準(zhǔn),在滿足上述目標(biāo)的前提下,實(shí)現(xiàn)最好的性能。顯然,這種思路開發(fā)的GPU速度一定不是最快,但卻可以在經(jīng)濟(jì)效益上做到最好,可以在短時(shí)間就上市。至于高端顯卡,則可以通過雙芯片,甚至四芯片并聯(lián)的方法進(jìn)行,以二敵一,來獲得性能上的優(yōu)勢。
這種策略令A(yù)MD擺脫了新品推出不利的困境,并在商業(yè)上獲得成功—尤其是在RV770 時(shí)代,NVIDIA的GT200完全失去了反擊之力,現(xiàn)在AMD又在DirecX11顯卡的爭霸賽中,整整領(lǐng)先NVIDIA半年多。2009年9月,AMD發(fā)布代號為“Cypress(也就是RV870)”的Radeon HD 5870/5850系列顯卡,率先進(jìn)入DirectX11時(shí)代,低階版的其他HD5000系列也很快上市,到現(xiàn)在為止,AMD的Radeon HD 5000系列已代替上一代產(chǎn)品成為主流。但NVIDIA仍只能拿GT200架構(gòu)的GeForce GTX280/295應(yīng)對,GT200其實(shí)只是2006年底發(fā)布的G80的延續(xù),在規(guī)格方面比較落伍。很明顯,NVIDIA目前的顯卡產(chǎn)品不論在規(guī)格上還是硬件性能上都全面落敗。相信這也是NVIDIA在GeForce FX5800以后遭遇的最大危機(jī)。 #p#page_title#e#
2009年9月發(fā)布的Radeon HD 5870,是第一款支持DirectX 11的GPU。
然而,NVIDIA高層和科學(xué)家們似乎不以為然,將全部注意力放在即將出爐的Fermi身上,他們始終保持高昂的熱情,對這款革命性的GPU保持堅(jiān)定信念。這種信念的內(nèi)在動力,就在于Fermi與傳統(tǒng)GPU已有了根本性的區(qū)別。在Fermi的開發(fā)工作啟動之初,NVIDIA還在圖形市場上占據(jù)顯著優(yōu)勢,它所考慮的并不僅僅是保住自己的王座,而是希望能將GPU延伸到更廣泛的領(lǐng)域,獲得新的增長點(diǎn)。由于欠缺CPU業(yè)務(wù),NVIDIA必須顧慮未來面臨Intel和AMD的全平臺競爭,很明顯,假如NVIDIA只有傳統(tǒng)的GPU,那么未來它必定是死路一條—Intel和AMD在某一天很可能甩開業(yè)界標(biāo)準(zhǔn)來打造屬于自己的封閉平臺,屆時(shí)NVIDIA即便擁有世界上最好的圖形技術(shù),那也毫無用處。
有鑒于此,NVIDIA要求它們的新一代產(chǎn)品要更加全能,能夠勝任廣闊的密集計(jì)算要求,而不僅僅只是用作圖形渲染。NVIDIA希望它能夠進(jìn)入PC和游戲機(jī)之外的更多設(shè)備中,比如超級計(jì)算機(jī)、平板電視以及未來任何需要數(shù)字視覺的應(yīng)用領(lǐng)域。
Fermi處理器,脫離GPU羈絆,專為通用而生
然而,現(xiàn)行的G80/GT200架構(gòu)雖然具有非常不錯(cuò)的靈活性,但遠(yuǎn)不足以完成如此重大的使命。NVIDIA的高層作出激進(jìn)的決策:那就是全部推倒重來—這就是Fermi的出臺背景。Fermi被打造成一款高度靈活的處理器,除了圖形渲染的基本職能,它還整合了PhysX物理處理器以及光線追蹤處理器,同時(shí)讓每個(gè)計(jì)算單元都擁有自己的緩存系統(tǒng),可以高效地完成高負(fù)荷的浮點(diǎn)計(jì)算任務(wù),比如對視頻的實(shí)時(shí)優(yōu)化編碼,執(zhí)行“任意妄為”地渲染指令、DNA排序、宇宙探索、質(zhì)數(shù)計(jì)算等等,當(dāng)然還包括物理計(jì)算和光線追蹤計(jì)算—這些過去是CPU的專屬應(yīng)用。
用戶也許會發(fā)問:“從CPU手中搶到這些任務(wù),對我們會有什么好處么?會不會像那些CPU整合GPU之類的噱頭而已?”其實(shí)這種好處相當(dāng)顯著:CPU所執(zhí)行的是X86指令,程序可以任意編寫,完全沒有使用限制,靈活是它的最大優(yōu)點(diǎn);另外,CPU是被設(shè)計(jì)來執(zhí)行諸如任務(wù)處理之類的整數(shù)任務(wù),固定式的浮點(diǎn)計(jì)算并非其特長,雖然CPU設(shè)計(jì)者始終不遺余力增強(qiáng)它的浮點(diǎn)性能。與此不同,F(xiàn)ermi采用一種高度并行的計(jì)算結(jié)構(gòu),它擁有多達(dá)512個(gè)CUDA計(jì)算單元,每個(gè)單元都有緩存,作為一個(gè)基本的計(jì)算單位,這些單元可以同時(shí)進(jìn)行浮點(diǎn)計(jì)算的處理。并行度遠(yuǎn)非CPU可比—AMD的GPU雖然有更多的流處理單元,但這些單元并沒有緩存系統(tǒng),只是被動地接受上級數(shù)據(jù)計(jì)算后輸出,通用性非常有限,加上AMD并沒有提供理想的開發(fā)工具,令開發(fā)者無從下手。
Fermi的CUDA核心,擁有完整的浮點(diǎn)和整數(shù)計(jì)算單元,
不再在整數(shù)計(jì)算方面瘸腿,具有高度自主性。
其次,F(xiàn)ermi的每個(gè)CUDA核心,都在浮點(diǎn)計(jì)算單元之外加上整數(shù)處理單元,可執(zhí)行完整的32位整數(shù)計(jì)算任務(wù),而后者在過去只能通過模擬實(shí)現(xiàn),且僅能計(jì)算24-bit整數(shù)乘法而已;同時(shí)Fermi引入了復(fù)合乘加運(yùn)算機(jī)制(Fused Multiply-Add,簡稱FMA),每個(gè)周期可執(zhí)行512單精度浮點(diǎn)或256個(gè)雙精度浮點(diǎn)數(shù)運(yùn)算,而上一代G200僅能支持單精度的FMA操作。當(dāng)然,所有這些FMA運(yùn)算都基于IEEE 754-2008浮點(diǎn)算法,計(jì)算結(jié)果不會出現(xiàn)差錯(cuò)。此外,F(xiàn)ermi的雙精度浮點(diǎn)(FP64)性能也大大提升,峰值執(zhí)行率可以達(dá)到單精度浮點(diǎn)(FP32)的1/2,而過去只有1/8;AMD Cypress/RV870核心的雙精度浮點(diǎn)性能也只有單精度浮點(diǎn)的1/5—例如Radeon HD 5870的單精度性能達(dá)到2.72TFlops,但雙精度處理時(shí)僅有544GFlops。
第三,F(xiàn)ermi引入了真正的緩存設(shè)計(jì),每32個(gè)CUDA核心被配置成一組SM(Streaming Multiprocessor)流處理器,每組SM擁有64KB可配置內(nèi)存,可以根據(jù)任務(wù)的性質(zhì)部署成16KB共享內(nèi)存加48KB一級緩存,或者48KB共享內(nèi)存加16KB一級緩存的形式,從而滿足不同類型程序的需要。此外,整個(gè)芯片還共享768KB的二級緩存,方便SM計(jì)算單元的輸入輸出—這些顯然都是為通用計(jì)算而準(zhǔn)備。 #p#page_title#e#
Fermi擁有16組SM流處理器,每組都具有自己的緩存
和內(nèi)存系統(tǒng),能夠獨(dú)立地完成各種密集計(jì)算應(yīng)用。
計(jì)算核心的大幅增強(qiáng)以及緩存系統(tǒng)的納入,讓Fermi成為一枚高度通用的浮點(diǎn)處理器而非傳統(tǒng)的GPU。其實(shí),從數(shù)學(xué)角度來看,無論是圖形渲染的浮點(diǎn)運(yùn)算,還是物理處理、光線追蹤、視頻編碼處理、DNA排序還是其它的數(shù)學(xué)計(jì)算,在本質(zhì)上都是相同的單精度浮點(diǎn)或雙精度浮點(diǎn)計(jì)算,最基礎(chǔ)的數(shù)學(xué)計(jì)算機(jī)制也完全相同,區(qū)別僅在于采用不同的算法—如果算法可以用軟件方式輸入,GPU依照這種算法進(jìn)行結(jié)構(gòu)部署并處理,那么就可以實(shí)現(xiàn)了通用的浮點(diǎn)處理任務(wù)。我們可以打個(gè)簡單的比喻:這個(gè)模式相當(dāng)于將CPU內(nèi)的浮點(diǎn)計(jì)算單元完全搬移出來,作適應(yīng)性改造之后再放到GPU上面,同時(shí)大大增加它的數(shù)量—這就是NVIDIA Fermi的設(shè)計(jì)立意。
復(fù)雜的CUDA Core設(shè)計(jì)和緩存系統(tǒng)大大增加了Fermi的規(guī)模,
它的晶體管總量達(dá)到史無前例的30億個(gè),給制造工作帶來巨大困難。
Fermi被打造成通用型浮點(diǎn)處理器,加上NVIDIA一向?qū)π阅芤髽O高,F(xiàn)ermi就不可避免地成為又一個(gè)巨無霸。在產(chǎn)品展示之時(shí),外界咨詢?yōu)楹蜦ermi屢屢跳票,幾乎創(chuàng)下NVIDIA新的歷史。NVIDIA的高管不禁大吐苦水:要設(shè)計(jì)出這個(gè)超大超強(qiáng)的玩意實(shí)在是太難了!的確,F(xiàn)ermi需要為每個(gè)單元建構(gòu)緩存系統(tǒng),要確保如此眾多的核心能夠高效率地協(xié)作和共享,這種難度明顯超出常規(guī)的多核處理器(目前的多核CPU最多只需要應(yīng)對12核的協(xié)作)。NVIDIA高層與它們的科學(xué)家都深知Fermi的革命性,雖然產(chǎn)品屢屢因這樣那樣的問題跳票,但他們幾乎不以為意,而對于未來始終充滿自信。
Larrabee理想的實(shí)現(xiàn),F(xiàn)ermi與CUDA、Tesla平臺通吃密集計(jì)算市場
Fermi與AMD Cypress/RV870 GPU的不同設(shè)計(jì)立意,意味著GPU的道路開始分道揚(yáng)鑣—從商業(yè)上講,Cypress/RV870體系下的Radeon HD5000家族都具有易于生產(chǎn)、價(jià)格便宜、功能齊全的特點(diǎn),會在眼前的商業(yè)市場上獲得追捧,但它們實(shí)質(zhì)上仍只是一款圖形處理器,與NVIDIA第一代GeForce 256并沒有本質(zhì)的不同。雖然Fermi面臨生產(chǎn)上的種種難題,但只要Fermi邁過這道坎,它便與對手站在截然不同的制高點(diǎn)—回溯歷史,我們不免有所感慨,AMD這些年間一直為整合ATI,并在圖形市場超過NVIDIA而努力,而NVIDIA則將目光放在更廣闊的空間,并為自己的下一個(gè)十年籌劃布局。
Fermi代表通用浮點(diǎn)處理器的趨勢,這其實(shí)是Intel Larrabee想要做的事情。我們知道,Intel在設(shè)計(jì)Larrabee時(shí)完全沒有依照GPU的規(guī)范,而是另起爐灶,創(chuàng)造了一套基于X86的指令系統(tǒng),借助這套指令,Intel可以為Larrabee編寫各種不同的API接口,而API的升級也與硬件完全無關(guān)—比方說Intel能夠僅通過升級驅(qū)動程序就實(shí)現(xiàn)從DirectX 10到DirectX 11的跨越,這是NVIDIA和AMD所代表的傳統(tǒng)GPU勢力所無法實(shí)現(xiàn)的。同樣,Intel也可以推出各種不同功能的通用加速接口,而為Larrabee編程,就好象給目前的X86 CPU平臺編寫程序一樣非常簡單,Intel希望通過這種方式通吃密集計(jì)算市場,成為新領(lǐng)域的王者。
CUDA、Fermi Tesla共同構(gòu)建NVIDIA的密集計(jì)算系統(tǒng),在這個(gè)領(lǐng)域NVIDIA未逢對手。
非常諷刺的是,F(xiàn)ermi現(xiàn)在將承擔(dān)起實(shí)現(xiàn)這個(gè)夢想的使命,它所依賴的便是NVIDIA的CUDA和Tesla平臺—前者作為應(yīng)用程序的開發(fā)接口,允許開發(fā)者采用C/C++語言來對GPU進(jìn)行編程;后者則是針對性的硬件系統(tǒng),我們可以將它們看作是特殊的顯卡,計(jì)算核心仍然是GeForce GPU,只是面向的任務(wù)迥然不同。經(jīng)過這么多年的推廣,CUDA和Tesla平臺已在許多專業(yè)領(lǐng)域獲得應(yīng)用,實(shí)際上它們也是GPU進(jìn)入密集計(jì)算領(lǐng)域的唯一選擇。 #p#page_title#e#
在這個(gè)全新的領(lǐng)域中,NVIDIA現(xiàn)在沒有任何對手,F(xiàn)ermi的出臺無疑將進(jìn)一步鞏固了NVIDIA的標(biāo)準(zhǔn)地位,我們已經(jīng)可以嗅到Fermi大舉進(jìn)入超級計(jì)算市場的氣息,這種感覺正如NVIDIA當(dāng)初拿出GeForce 250 GPU之后,環(huán)顧四周S3、Matrox、3dfx紛紛倒下的情況。在未來的TOP500超級計(jì)算系統(tǒng)中,NVIDIA的市場占有率最終將超過Intel、AMD和IBM這些傳統(tǒng)勢力,原因非常簡單:在獲得同等計(jì)算性能的條件下,NVIDIA Tesla系統(tǒng)的花費(fèi)只是傳統(tǒng)CPU方案花費(fèi)的幾十分之一,何況基于Fermi的Tesla平臺無論在性能還是靈活度上都有相當(dāng)大的提升,這將對超級計(jì)算機(jī)的建設(shè)者帶來致命吸引力。我們可以預(yù)見,今后的超級計(jì)算機(jī)和工作站專業(yè)領(lǐng)域,基于傳統(tǒng)CPU+Fermi的混合架構(gòu)會將成為最好的選擇,NVIDIA也將在這個(gè)利潤豐厚的新市場中找到自己的位置。
我們同樣相信,作為先行者的Fermi不會永遠(yuǎn)高枕無憂,Intel并沒有完全放棄它的Larrabee計(jì)劃,作為理念的開創(chuàng)者,Intel仍然尋求進(jìn)入該領(lǐng)域的可能,以保證CPU不會因?yàn)闀r(shí)代前進(jìn)而被邊緣化。作為競爭者的AMD,在未來產(chǎn)品中勢必會增加這方面的機(jī)能—盡管AMD沒有類似CUDA這樣的開發(fā)平臺,但借助開放的API標(biāo)準(zhǔn),AMD將會逐步升級并進(jìn)入到這個(gè)領(lǐng)域,雖然開發(fā)環(huán)境的支持不力將會長期困擾AMD。
CPU迎戰(zhàn)Fermi,納入新的協(xié)處理機(jī)制
如果事態(tài)就這么自然地發(fā)展,F(xiàn)ermi將不斷蠶食原本屬于CPU的領(lǐng)地—其實(shí)它本來就是CPU中的浮點(diǎn)運(yùn)算單元,只不過變得異乎尋常的強(qiáng)大而已。加上NVIDIA擺脫了通用標(biāo)準(zhǔn)的制約,形成一個(gè)強(qiáng)大的封閉平臺,這樣將會與Intel的CPU中心平臺和AMD的雙線兼顧平臺,形成角度不同的三國鼎立。
很顯然,像Off ice辦公軟件、Web瀏覽器、IM即時(shí)通訊這樣的商務(wù)軟件不會消耗多少CPU資源,再低端的處理器都可以很好地運(yùn)行這類整數(shù)運(yùn)算任務(wù)。假如不是Flash幫忙,高性能CPU的用處實(shí)在是非常小了。不過,Adobe的Flash現(xiàn)在也在支持CUDA平臺,利用GPU進(jìn)行加速,微軟的IE9也加入了GPU加速,倘若諸如交互動畫和網(wǎng)絡(luò)視頻這些消耗CPU大的應(yīng)用都依賴GPU運(yùn)行,那我們還需要高性能CPU來做什么呢?
Intel如日中天的背后,潛藏著這樣的危機(jī),應(yīng)用形態(tài)的改變完全可能顛覆整個(gè)產(chǎn)業(yè),在短短的時(shí)間內(nèi)將徹底改變產(chǎn)業(yè)形態(tài)。作為半導(dǎo)體業(yè)首屈一指的巨頭,Intel顯然不會坐以待斃,實(shí)際上,早在數(shù)年前提出的Many-Core“眾核”計(jì)劃便是針對此種未來而準(zhǔn)備。
Many-Core采用主處理器+協(xié)處理器的設(shè)計(jì)思想,主處理器便是我們常說的CPU,協(xié)處理器則是擁有特殊功能的計(jì)算邏輯,比如高清視頻加速、Java解釋執(zhí)行、Flash硬件加速等。每一個(gè)協(xié)處理器都執(zhí)行特定的應(yīng)用,而那些應(yīng)用如果由CPU來完成的話就會非常低效。在Intel的最初藍(lán)圖中,Many-Core將在2010年后開始被導(dǎo)入,不過迄今為止Intel還沒有這方面的行動,這未免讓它顯得落伍。如果與Fermi對比,我們發(fā)現(xiàn)Intel的Many-Core雖然結(jié)構(gòu)完全不同,但是思想殊途同歸:都是由專用部件來完成CPU所不擅長的任務(wù),所不同的是Many-Core只是Intel過去的遠(yuǎn)景構(gòu)想,不幸的是實(shí)現(xiàn)這個(gè)構(gòu)想的卻是NVIDIA的Fermi。
Fermi以另一種方式實(shí)現(xiàn)了Intel的夢想,并開創(chuàng)了一個(gè)全新的應(yīng)用領(lǐng)域
在新發(fā)布的Core i3處理器中,我們看到圖形核心被集成于處理器芯片內(nèi),不過這種整合只不過是“積木游戲”,對性能與應(yīng)用沒有任何的影響力。雖然Larrabee計(jì)劃的失敗看起來輕描淡寫,但實(shí)際上完全可能會令I(lǐng)ntel陷入一場突如其來的重大危機(jī)。
與Intel相比,AMD在CPU方面反而沒有這種壓力,這完全得益于來自ATI圖形部門的貢獻(xiàn)。AMD不會有改變CPU構(gòu)造的動機(jī),它的目標(biāo)比較務(wù)實(shí),只要能夠從Intel手中不斷搶奪市場份額,企業(yè)能夠正面增長就沒問題,哪怕自身缺乏改變未來的宏圖大志。畢竟對于一家被糟糕的財(cái)務(wù)壓垮多年的半導(dǎo)體企業(yè),我們委實(shí)不應(yīng)苛求太多。 #p#page_title#e#
現(xiàn)在,Adobe Flash和其它交互網(wǎng)頁是CPU的最后堡壘,我們有理由相信,在未來的三年內(nèi),所有Flash元素都會實(shí)現(xiàn)GPU加速,同時(shí),3D游戲?qū)PU的依賴將繼續(xù)減弱,如果沒有高負(fù)載的任務(wù)來接手,高性能CPU的市場將會縮小,這對于傳統(tǒng)CPU廠商來說是可怕的前景。
通用GPU之于消費(fèi)用戶的意義
高度通用性的GPU,將會令傳統(tǒng)的PC能夠做許多過去難以想象的事情,而這種變化并不僅是在專業(yè)領(lǐng)域,實(shí)際上在娛樂應(yīng)用中,新一代GPU將必不可少。
在2008年2月,東芝曾推出一款搭載Cell芯片的筆記本電腦,該芯片擁有多個(gè)協(xié)處理器,具有很強(qiáng)的浮點(diǎn)性能,在這部筆記本電腦中,Cell的任務(wù)是優(yōu)化正在播放的視頻:在傳統(tǒng)模式下,視頻清晰度低,畫面色彩較為黯淡,而經(jīng)過Cell的處理,畫面變得清晰銳利,色彩鮮活,觀賞性大大提升了。其次,對一些手持拍攝的視頻,由于攝像機(jī)不穩(wěn)造成畫面嚴(yán)重抖動,經(jīng)過Cell處理后所得到的視頻可以變得非常穩(wěn)定—假如拿普通的CPU來干這件事,這類轉(zhuǎn)化過程需要數(shù)十小時(shí)之久,而Cell芯片僅需要2~3小時(shí)的時(shí)間。
未來的通用GPU同樣將具有這樣的功能,這種視頻優(yōu)化和轉(zhuǎn)化處理,都需要極高的浮點(diǎn)運(yùn)算能力,即便是目前最強(qiáng)的12核處理器都難以勝任;而只要有軟件支持,類似Fermi這樣的通用GPU就可以輕松實(shí)現(xiàn)這一點(diǎn)。鑒于這種功能實(shí)用意義巨大,我們認(rèn)為視頻播放器的開發(fā)者在今后會積極導(dǎo)入這項(xiàng)技術(shù)。
3D電視是目前電視機(jī)業(yè)界的熱點(diǎn),鑒于3D視覺模式的巨大吸引力,我們認(rèn)為3D電視機(jī)在未來5年內(nèi)將淘汰傳統(tǒng)的2D電視成為主流形態(tài)。不過,電視臺和電視劇的拍攝可來不及作出這么激進(jìn)的轉(zhuǎn)變,至少要到5年之后,3D頻道才會陸續(xù)開播,而2D信號在漫長的時(shí)間內(nèi)都還是主流。為了將2D信號轉(zhuǎn)變?yōu)?D信號,電視機(jī)廠商就必須額外設(shè)計(jì)視頻轉(zhuǎn)換芯片,而高清視頻流所需的超大計(jì)算量遠(yuǎn)非一般的處理器所能實(shí)現(xiàn)—顯然,這個(gè)新興市場也有望成為Fermi的新增長點(diǎn),而且Fermi的可編程性質(zhì)讓它可以為所有的電視機(jī)廠商提供不同的解決方案,只要NVIDIA在未來能夠拿出低功耗和成本更低的產(chǎn)品,并且推廣得當(dāng),完全可以在這個(gè)新興市場中獲益。
如果回到3D游戲的老本行,F(xiàn)ermi所代表的高度通用平臺也更具吸引力—強(qiáng)勁的物理性能與光線追蹤性能是Fermi的殺手锏,前者基于PhysX團(tuán)隊(duì)的成果,是一種真正硬件級的物理計(jì)算方案,游戲開發(fā)者完全可以按照自己的意圖來構(gòu)建場面宏大的游戲場面,比如劇烈爆炸、雨雪和雪崩這些涉及到大量運(yùn)動物體的自然場景都可以在虛擬世界中出現(xiàn)。而光線追蹤的首度引入,則意味著3D游戲能夠?qū)崿F(xiàn)超一流的現(xiàn)實(shí)光影效果。與此相比,AMD所忠實(shí)代表的DirectX 11平臺會顯得黯淡無光,只要游戲開發(fā)者不想落伍,自然會在游戲中額外再加入PhysX物理支持和Fermi的光線追蹤技術(shù),鑒于這兩項(xiàng)都是專有技術(shù),競爭對手根本無法獲得,只要擁有足夠多游戲的支持,PC用戶們會很自然地向NVIDIA傾斜,這也是NVIDIA在設(shè)計(jì)Fermi時(shí)的另一個(gè)初衷。
革命性的融合,通用GPU終將增加CPU功能
CPU工業(yè)也許還有三年時(shí)間來作出應(yīng)對,而在這三年間,我們相信Fermi架構(gòu)也不會躑躅不前。顯然,F(xiàn)ermi上市時(shí)會遭遇發(fā)熱巨大、價(jià)格高昂或者良品率低的問題,不過這些問題照例會在半年左右的時(shí)間里獲得解決;接下來,NVIDIA會對Fermi結(jié)構(gòu)作出優(yōu)化并衍生出中低端和移動型號,這樣在一年左右時(shí)間里,NVIDIA才能將Fermi推向主流市場的地位。
從表面上看,這種動作非常的遲緩,遠(yuǎn)遠(yuǎn)落后于AMD。不過NVIDIA將更關(guān)注軟件平臺的延伸—GPU在完成物理計(jì)算和光線追蹤的加速后,現(xiàn)在要進(jìn)入Flash加速、網(wǎng)頁渲染加速和實(shí)時(shí)視頻優(yōu)化兩個(gè)領(lǐng)域,Adobe在Phot oshop、Acrobat中明確采用CUDA進(jìn)行加速,F(xiàn)lash的加速同樣基于此,如果它能夠在兩年左右時(shí)間內(nèi)拿出完美的解決方案,再經(jīng)過1~2年的時(shí)間網(wǎng)頁設(shè)計(jì)師都作出改變,那么一個(gè)新時(shí)代就產(chǎn)生了:Fermi這種通用GPU將取代傳統(tǒng)CPU,承擔(dān)PC系統(tǒng)的關(guān)鍵計(jì)算工作,此時(shí)CPU的性能高低對系統(tǒng)影響有限,消費(fèi)者大概不會再關(guān)心它是Intel還是AMD。 #p#page_title#e#
再接下來,通用GPU中整合一些X86 CPU的功能是再自然不過的事情了,實(shí)際上所整合CPU根本不必有多么高超的性能或者多少個(gè)核心。這時(shí)你將看到,以GPU為核心的混合計(jì)算芯片將就此產(chǎn)生,同Intel、AMD的CPU為核心混合處理器具有相同的表面形態(tài),但這兩者的本質(zhì)卻截然不同。
我們認(rèn)為這種融合方式更貼合未來的發(fā)展實(shí)際:今天的Office 2010相對于十年前的Office 97,在基本的商務(wù)功能方面并沒有大的改變,對用戶來講,這兩者最大的不同只是視覺界面。
再往后的五年,估計(jì)這類軟件不會有本質(zhì)性的進(jìn)步,網(wǎng)絡(luò)協(xié)同及云計(jì)算才是未來的方向所在,但這種網(wǎng)絡(luò)中心的應(yīng)用模式對CPU的要求反而更低。相反,視覺領(lǐng)域的應(yīng)用方興未艾,人們對于視覺的要求越來越苛刻:從VCD、DVD到標(biāo)清、高清視頻,再到3D化,未來甚至包括網(wǎng)頁都會朝著這方面發(fā)展,這些新興的應(yīng)用勢必對GPU依賴越來越高,加上未來3D游戲?qū)Ω哒鎸?shí)度交互體驗(yàn)的孜孜以求,我們相信GPU的重要性將越來越高,直到某一天突破臨界點(diǎn)成為計(jì)算系統(tǒng)的核心
圈地運(yùn)動,爭奪編程者的支持
對于這樣的前景,CPU廠商們都要有足夠的心理準(zhǔn)備,對Intel而言,最好的舉措就是重啟Larrabee計(jì)劃,假如無法在性能上趕上對手,那么作為新一代的整合GPU也是非常合適,關(guān)鍵在于Intel必須及早拿出相應(yīng)的開發(fā)包和指令系統(tǒng)。第二個(gè)選擇就是增強(qiáng)自身GPU的通用性,使之在商務(wù)領(lǐng)域能夠保有自己的特點(diǎn),而不會在面對未來應(yīng)用時(shí)手足無措。
這種走向能夠?qū)崿F(xiàn),決定權(quán)其實(shí)并不在NVIDIA、AMD或Intel等硬件廠商手中,真正的關(guān)鍵在于,軟件開發(fā)者是否買賬?這取決于Fermi平臺能有多大的吸引力和多高的成熟度,但無論如何,我們都相信接下來的五年,CPU-GPU的平衡將會被打破,慣性提升性能的發(fā)展模式也走到了盡頭,產(chǎn)業(yè)界的洗牌在所難免。那么,再下一次的洗牌,會是人工智能的實(shí)現(xiàn)嗎?
新一輪戰(zhàn)役,新一輪圖形市場的競逐
Fermi擁有更先進(jìn)的理念,但先進(jìn)的理念并不意味著馬上就能夠在市場中占據(jù)優(yōu)勢,NVIDIA花費(fèi)巨大的精力來打造Fermi,很大程度上是為企業(yè)的長遠(yuǎn)未來考慮,但這種激進(jìn)的設(shè)計(jì)在短時(shí)間內(nèi)很難體現(xiàn)出優(yōu)勢,反而可能在現(xiàn)實(shí)中遭遇挫折。
Fermi最主要的市場依然是PC領(lǐng)域,游戲玩家們最關(guān)注的是3D性能、價(jià)格以及功耗方面的優(yōu)勢,而產(chǎn)量對于市場鋪設(shè)同樣極為重要。首先,我們來看看它的3D性能,評測結(jié)果清晰地顯示Fermi架構(gòu)的巨大威力:GTX480(Fermi架構(gòu)的最高階型號)在3D游戲中完勝對手Radeon HD 5870,平均領(lǐng)先幅度達(dá)到25%,雖然某些游戲領(lǐng)先幅度較輕微,但在多數(shù)游戲中GTX480的性能優(yōu)勢都非常顯著,如果游戲本身支持PhysX,GTX480的性能優(yōu)勢更可平均高出200%。顯然這些優(yōu)勢來自于Fermi近乎華麗的設(shè)計(jì)。
不過,Radeon HD 5870雖然落敗于GTX480,但它的價(jià)格要便宜得多:GTX480零售價(jià)為499美元,Radeon HD 5870只有379美元,后者更經(jīng)濟(jì);其次,Radeon HD 5870的功耗水準(zhǔn)為27W(空閑)/188W(滿載),而GTX480的滿載功耗高達(dá)295W,只有配備600W的高功率電源方可滿足需要,這明顯增加了系統(tǒng)的構(gòu)建成本—無論從費(fèi)效比角度還是能效比角度,Radeon HD 5870都具有明顯的優(yōu)勢。
GTX480雖然是當(dāng)前的單GPU性能之王,但卻不是顯卡之王,AMD雙芯的Radeon HD 5970依然可以在多數(shù)項(xiàng)目中輕松地?fù)魯∷?。Radeon HD 5970早于2009年11月份發(fā)布,時(shí)間上已整領(lǐng)先4個(gè)月,它的功耗水準(zhǔn)也同GTX480相當(dāng)—而受到功耗的限制,利用雙GTX480芯片來搭建單顯卡的計(jì)劃幾乎不可能實(shí)現(xiàn)。 #p#page_title#e#
在主流市場,NVIDIA計(jì)劃推出Fermi架構(gòu)的GF104 GeForce GTS 400系列,不過發(fā)布時(shí)間最快是在今年夏天,甚至可能到第三季度。換言之,如果主流用戶想在上半年購置DirectX 11顯卡,那么Radeon HD 5000系列依然是唯一的選擇,AMD有充足的時(shí)間來占領(lǐng)獨(dú)立顯卡市場?;蛟S正是因?yàn)檫@些原因,AMD高層對于Fermi的到來充滿底氣,AMD官方發(fā)言人Dave Erskine在接受訪談時(shí)對媒體表示:“Radeon HD 5970在發(fā)布4個(gè)月后依然是性能領(lǐng)先者;HD 5870在發(fā)布半年后依然是不爭的贏家;同時(shí)AMD擁有從旗艦到入門的全系列DirectX 11顯卡產(chǎn)品線,包括ATI Eyefinity技術(shù)在內(nèi)的諸多先進(jìn)特性,Radeon 顯卡依然是消費(fèi)者心目中的最佳選擇。”
毫無疑問,NVIDIA應(yīng)該在接下來的半年間解決生產(chǎn)問題,這個(gè)巨無霸的芯片令制造方吃盡苦頭,低良品率和高成本是最大的致命傷。NVIDIA很難在2010上半年有多少作為,只有主流產(chǎn)品線全員到齊之后,NVIDIA才有機(jī)會奪回市場,問題在于,AMD也不會停步不前。