個(gè)人超級(jí)計(jì)算機(jī)不再是空穴來風(fēng)
每秒運(yùn)算速度達(dá)4萬億次、只有臺(tái)式機(jī)大小、售價(jià)不到8萬元的個(gè)人超級(jí)計(jì)算機(jī),是夢(mèng)望還是現(xiàn)實(shí)?NVIDIA公司剛剛發(fā)布的Tesla個(gè)人超級(jí)計(jì)算機(jī)似乎正在讓這一切成為可能。
11月18日,在美國2008年超級(jí)計(jì)算大會(huì)(SC08)上,NVIDIA公司正式發(fā)布了針對(duì)全球1500萬名科學(xué)家和工程師的Tesla個(gè)人超級(jí)計(jì)算機(jī)新產(chǎn)品,要“讓每個(gè)研究人員都可配備一臺(tái)超級(jí)計(jì)算機(jī)”。NVIDIA 公司Tesla計(jì)算產(chǎn)品總經(jīng)理Andy Walch先生通過電話會(huì)議方式接受了IT168服務(wù)器頻道的采訪。
據(jù)介紹,Tesla個(gè)人超級(jí)計(jì)算機(jī)擁有“工作站的價(jià)格,超級(jí)計(jì)算機(jī)的性能,適合個(gè)人操作,非常簡單易用”等幾大特點(diǎn)。在外觀上就如同一臺(tái)可以放在桌面上的工作站一樣,內(nèi)置一顆四核CPU 和3-4個(gè)GPU單元模塊,擁有12-16GB系統(tǒng)內(nèi)存、1200-1350W電源,可以直接使用辦公環(huán)境下標(biāo)準(zhǔn)的電源。由于總共擁有960個(gè)GPU核心,使其浮點(diǎn)計(jì)算性能高達(dá)每秒4萬億次,是當(dāng)前臺(tái)式工作站的250倍,而售價(jià)不到1萬美元,跟相同性能水平的傳統(tǒng)超級(jí)計(jì)算集群相比,價(jià)格只有1%。要知道,就在四年前,上海超級(jí)計(jì)算中心所采用的10萬億次超級(jí)計(jì)算機(jī)曙光4000A需要近億元人民幣,占地1/4個(gè)足球場。
性能提升 功耗降低 GPU計(jì)算有獨(dú)到之處
Andy Walch介紹說,Tesla個(gè)人超級(jí)計(jì)算機(jī)實(shí)現(xiàn)了人們“以工作站的價(jià)格和占地空間獲得超級(jí)計(jì)算集群性能”的夢(mèng)想,開啟了個(gè)人高性能計(jì)算的新領(lǐng)域。“就象20多年以來,PC從早期的專家設(shè)備變成了今天人手一臺(tái)的普及工具一樣,我們相信從現(xiàn)在開始,個(gè)人超級(jí)計(jì)算機(jī)也可以走向普及”.
目前,這類臺(tái)式HPC產(chǎn)品已經(jīng)在國外一些大學(xué)科研人員當(dāng)中得到了采用。最早使用的是比利時(shí)安特衛(wèi)普大學(xué),該校原來用的超級(jí)計(jì)算機(jī)有512顆處理器核,成本是530萬美元,由全校共享使用;后來換成一臺(tái)擁有8個(gè)GPU的臺(tái)式系統(tǒng),性能相當(dāng),成本只有7000美元,而且可以為每個(gè)研究人員在桌邊配備一臺(tái),不再為共享資源進(jìn)行競爭??梢?,無論是在性價(jià)比方面,還是在使用模式上都跟以前相比有了“革命性”的變化。據(jù)稱,當(dāng)前包括美國麻省理工學(xué)院、哈佛大學(xué)、伊利諾伊大學(xué)、英國劍橋大學(xué)、德國布倫瑞克里大學(xué)以及韓國延世大學(xué)都已經(jīng)采用了3顆-16顆GPU不等的此類桌面系統(tǒng)。
全球高性能計(jì)算機(jī)TOP500排行榜的創(chuàng)始人之一、美國田納西大學(xué)教授Jack Dongarra認(rèn)為,“GPU的發(fā)展使得實(shí)際應(yīng)用程序可以在GPU上輕松運(yùn)行,并且速度遠(yuǎn)遠(yuǎn)超過多核系統(tǒng)。未來的計(jì)算架構(gòu)將是并行核心GPU和多核CPU合作的混合系統(tǒng)。”CRAY公司前首席科學(xué)家Burton Smith也認(rèn)為,NVIDIA的異構(gòu)計(jì)算使“臺(tái)式超級(jí)計(jì)算機(jī)”的突破成為可能。
實(shí)際上,在今年9月份,微軟和Cray兩家公司就首次聯(lián)手推出了大小和普通PC相當(dāng),售價(jià)2.5萬美元到6萬美元以上,預(yù)裝Windows HPC Server 2008操作系統(tǒng)的個(gè)人超級(jí)計(jì)算機(jī)Cray CX1。不過,跟NVIDIA采用的CPU與GPU混合架構(gòu)不同,Cray CX1采用的是標(biāo)準(zhǔn)X86 CPU技術(shù),支持多達(dá)8個(gè)節(jié)點(diǎn)、16個(gè)英特爾至強(qiáng)處理器、每節(jié)點(diǎn)64GB內(nèi)存和4TB內(nèi)置存儲(chǔ)。
不過,Andy Walch表示,跟傳統(tǒng)僅基于CPU的架構(gòu)相比,CPU與GPU混合的架構(gòu)在某些應(yīng)用領(lǐng)域效率更高,數(shù)十倍甚至上百倍的性能提升正是GPU的最大優(yōu)勢(shì)。
Andy Walch舉例說,在一項(xiàng)針對(duì)計(jì)算化學(xué)的應(yīng)用測(cè)試中,如果僅使用CPU需要4.6天,而使用GPU僅僅需要27分鐘,在神經(jīng)醫(yī)學(xué)建模方面,使用CPU需要2.7天,而使用GPU只需要30分鐘,另外在醫(yī)學(xué)成像、分子動(dòng)力學(xué)、視頻轉(zhuǎn)碼、Matlab計(jì)算、天體物理、金融模擬、線性代數(shù)、3D超聲波、量子化學(xué)、基因排序等領(lǐng)域,一些大學(xué)和相關(guān)軟件廠商的測(cè)試也證實(shí)了18倍到149倍不等的性能提升。
另外,在綠色節(jié)能方面,GPU系統(tǒng)也明顯的優(yōu)勢(shì)。如NVIDIA最新推出的Tesla S1070與X86產(chǎn)品相比,每瓦特性能提升了18倍。“這對(duì)石油天然氣勘探這類用戶來說非常重要,因?yàn)樗麄冃枰M(jìn)行大量的數(shù)據(jù)分析,服務(wù)器電耗極其驚人,使用GPU系統(tǒng)可以節(jié)省大量的電力成本。目前Tesla S1070已經(jīng)在Hess、雪佛龍石油、巴西石油等公司得到了成功應(yīng)用。” Andy Walch談到。
CUDA發(fā)展良好 GUP計(jì)算生態(tài)圈初步形成
可見,雖然一般用戶已經(jīng)非常熟悉傳統(tǒng)X86集群系統(tǒng)在HPC領(lǐng)域的使用模式,但是我們認(rèn)為,CPU與GPU的混合系統(tǒng)也確實(shí)非常值得關(guān)注,用戶可以根據(jù)自己的實(shí)際應(yīng)用進(jìn)行測(cè)試比較。不過,值得一提的是,CPU系統(tǒng)畢竟已經(jīng)非常成熟,現(xiàn)有應(yīng)用軟件大多是針對(duì)CPU進(jìn)行編寫的,而用GPU進(jìn)行高性能計(jì)算還是一個(gè)新興的領(lǐng)域,特別是在GPU編程方面對(duì)于很多用戶來說仍是非常大的挑戰(zhàn)。
對(duì)此,NVIDIA公司表示,由于對(duì)GPU架構(gòu)進(jìn)行了根本性的改變,使其可以用C語言來編程,并推出了全球第一個(gè)針對(duì)GPU的并行編程環(huán)境CUDA,可以用于Windows及Linux。“CUDA在GPU多核并行計(jì)算中起到的作用就好比是軍隊(duì)里的將軍一樣,通過它來保證并行高效有序地實(shí)現(xiàn)。”跟CELL、FGPA以及其他GPU相比,CUDA環(huán)境支持已經(jīng)成為NVIDIA GPU計(jì)算的一大優(yōu)勢(shì),用戶借助CUDA可以更加方便地使用GPU計(jì)算。
Andy Walch此番還透露了CUDA推出一年多來在全球的發(fā)展情況:NVIDIA已經(jīng)在全球賣出了1億顆以上支持CUDA的GPU產(chǎn)品,CUDA 開發(fā)人員超過了2.5萬人,全世界有50多所大學(xué)開設(shè)了CUDA課程,包括中國科學(xué)院、清華大學(xué)等。GPU計(jì)算的生態(tài)系統(tǒng)已經(jīng)形成。
由于NVIDIA廣為人知的GPU產(chǎn)品是Geforce系列,雖然Geforce和Tesla都支持CUDA,但兩者在產(chǎn)品設(shè)計(jì)和適用環(huán)境仍然存有非常大的區(qū)別。Andy Walch解釋說,在產(chǎn)品設(shè)計(jì)上,Tesla的板載內(nèi)存容量高達(dá)4GB,而Geforce只有1GB,前者可以大大減少數(shù)據(jù)傳輸量,可以實(shí)現(xiàn)更高的計(jì)算精度,另外前者由于針對(duì)企業(yè)級(jí)應(yīng)用環(huán)境,在防燒毀等測(cè)試方面更加嚴(yán)格和全面。因此,對(duì)于一般性應(yīng)用如視頻解碼、游戲等使用Geforce就可以,而對(duì)于科學(xué)計(jì)算應(yīng)用如石油勘探、天氣預(yù)報(bào)等,建議采用計(jì)算精度和可靠性更高的Tesla。
在SC08上,PGI、Mathematica等專業(yè)軟件開發(fā)商演示了利用CUDA開發(fā)軟件并獲得性能極大提升的實(shí)例。NVIDIA還宣布,包括戴爾、華碩、NEC、Cray、布爾等合作伙伴后續(xù)將推出各自基于NVIDIA Tesla GPU處理器卡的個(gè)人HPC產(chǎn)品。
實(shí)際上,做個(gè)人高性能計(jì)算機(jī)的不僅僅是NVIDIA和Cray。早在2006年11月,泰安就在美國2006超級(jí)計(jì)算年會(huì)上推出了運(yùn)算性能達(dá)256 GFLOPs的“TYPHOON臺(tái)風(fēng)”600系列個(gè)人超級(jí)計(jì)算機(jī)。早幾年前,中科院計(jì)算所的李國杰院士也提出了“一萬塊錢購買一萬億次計(jì)算能力”的構(gòu)想。到了2008年,在中科院計(jì)算所的支持下,曙光公司高調(diào)推出了pHPC100個(gè)人高性能計(jì)算機(jī)。在前不久舉行的2008年全國高性能計(jì)算學(xué)術(shù)年會(huì)上,中國科技大學(xué)陳國良院士也做了關(guān)于pHPC的主題報(bào)告,個(gè)人高性能計(jì)算機(jī)的概念得到了英特爾、AMD、曙光、寶德、超微等與會(huì)公司的認(rèn)同。另外,從去年開始,IBM、HP、英特爾等都推出了所謂針對(duì)成長型中小企業(yè)的刀片服務(wù)器產(chǎn)品——IBM BladeCenter S、HP BladeSystem C3000、英特爾模塊化服務(wù)器,盡管沒有掛“個(gè)人超級(jí)計(jì)算機(jī)”的名頭,但高性能計(jì)算卻是這些產(chǎn)品的目標(biāo)市場之一。由此可見,個(gè)人HPC早已經(jīng)不再是一個(gè)空穴來風(fēng)的概念,而是已經(jīng)涌現(xiàn)出了許多實(shí)實(shí)在在的產(chǎn)品,高性能計(jì)算普及的夢(mèng)想已經(jīng)不再遙不可及。