NVIDIA:GPU計算機2010年沖擊世界前十
TSUBAME:全球最快的GPU計算系統(tǒng)
據(jù)了解,在11月公布的最新一期TOP500排行榜上,NVIDIA Tesla的最好成績是第29位。這套名為“TSUBAME”的系統(tǒng)由NEC和SUN公司聯(lián)合研制,采用了“CPU+GPU”的混合架構(gòu),包括3萬多顆AMD Opteron和英特爾Xeon處理器內(nèi)核,以及170臺Tesla S1070 1U服務(wù)器,安裝在日本東京工業(yè)大學(xué),Linpack測試性能是77.48萬億次每秒(TFlops),理論峰值接近170萬億次每秒。
據(jù)介紹,1臺S1070內(nèi)置4塊Tesla GPU處理器卡,每個GPU處理器卡擁有240個流處理器核,也就是說1臺S1070總共擁有960個內(nèi)核,內(nèi)核頻率在1.296-1.44GHz之間,可以并行執(zhí)行成千上萬計的線程。S1070最大內(nèi)存支持16GB,最大功耗800W,支持PCIe x16 or x8擴展。其單精度峰值浮點計算性能可以達到3.73 to 4.14萬億次每秒,雙精度浮點性能可達到311 to 345 GFlops。也就是說,GPU雙精度計算性能是單精度性能的8%左右。
根據(jù)TOP500歷史資料顯示,早在2006年,東京工業(yè)大學(xué)就構(gòu)筑了“TSUBAME Grid Cluster”高性能計算系統(tǒng),當(dāng)時的雙精度浮點運算速度達到38.18萬億次每秒,在2006年6月TOP500中位居全球第7位。雖然之后該系統(tǒng)也不斷升級,提高性能,但很難趕上全球高性能計算機的快速發(fā)展速度,在2008年6月公布的TOP500中,運算速度為67.7TFLOPS,排名跌至第24位。
此前,東京工業(yè)大學(xué)全球科技信息和計算中心主任Satoshi Matsuoka曾表示,東京工大一直在研究未來的計算平臺,發(fā)現(xiàn)要想實現(xiàn)下一步的性能跨越,TSUBAME必須采用GPU計算技術(shù)。“我們的應(yīng)用測試發(fā)現(xiàn),Tesla GPU提供了我們前所未見的加速比,而且只花了一周時間就把GPU系統(tǒng)部署完成。”
此番通過增加170個Tesla節(jié)點,增加了10萬億次的雙精度計算能力,按照現(xiàn)在4核的基本性能,大約相當(dāng)于125個刀片的計算能力。如果我們按照單精度計算性能來計算,由于一個Tesla S1070的運算能力最大可達到4.1萬億次每秒,也就是說170臺S1070可以實現(xiàn)697萬億次每秒,性能提升比較可觀。
性能與功耗的問題
不過,記者也了解到,目前高性能計算用戶大都需要雙精度計算,Tesla有限的雙精度性能使其應(yīng)用領(lǐng)域受到了限制。Andy Keane告訴記者,NVIDIA的GPU向雙精度方向發(fā)展也是這兩年的時間,在2006年時還沒有雙精度單元,但到2008年我們已經(jīng)把雙精度性能做到了84 GFlops。
他談到,當(dāng)前10系列GPU是首批擁有雙精度的NVIDIA處理器。過去這種性能曾作為GPU的一個模塊添加在GPU當(dāng)中。而在這一代產(chǎn)品中,NVIDIA為每組八個單精度處理器加入了一個雙精度單元。隨著快速發(fā)展,未來的GPU將擁有更多雙精度單元。由于GPU的性能一般每年都會翻一番,未來雙精度性能將至少比當(dāng)前的速度快5倍。
除了性能提升,成本、功耗、占地面積也是大規(guī)模超級計算機用戶所關(guān)心的重要因素。目前,NVIDIA的GPU桌面高性能計算機在美國麻省理工學(xué)院、哈佛大學(xué)、伊利諾伊大學(xué)、英國劍橋大學(xué)、德國布倫瑞克里大學(xué)以及韓國延世大學(xué)的使用也證明了這些價值。如比利時安特衛(wèi)普大學(xué)原來用的超級計算機有512顆處理器核,成本是530萬美元,占用了好幾個機柜;而后來換成一臺擁有8個GPU的臺式系統(tǒng),性能相當(dāng),成本只有7000美元,占地面積也大為減少。
另外值得一提的是,通過混合架構(gòu)來提升性能,降低功耗的做法在IBM的“走鵑”超級計算機中已經(jīng)得到較好的驗證。比如同樣是一千萬億次的計算性能,IBM“走鵑”的系統(tǒng)功耗只有2483.47千瓦,而Cray “美洲豹”卻使用了6950.6千瓦。一個重要的原因就在于IBM“走鵑”采用了“Opetron+CELL”的混合結(jié)構(gòu):皓龍?zhí)幚砥髫撠?zé)標準的運算處理如文件系統(tǒng)的I/O,而PowerXCell 芯片主要加速數(shù)學(xué)和 #p#page_title#e#CPU密集型運算。從性能上看,正是這些CELL處理器承擔(dān)了大多數(shù)計算重任——6000多個Opteron處理器僅貢獻了44萬億次每秒(teraflops)的性能,而12000多顆CELL芯片貢獻了1332萬億次峰值性能,使得功耗大幅降低。
而NVIDIA的GPGPU計算思路可謂有異曲同工之妙。Andy Keane告訴記者,在NVIDIA的“CPU+GPU”混合系統(tǒng)中,CPU負責(zé)執(zhí)行順序型任務(wù),如操作系統(tǒng)和數(shù)據(jù)庫,GPU則主要承擔(dān)并行計算任務(wù)。“Tesla可以節(jié)省100倍的成本和100倍的功耗。”
CUDA編程:Tesla的最大優(yōu)勢
不過,也有業(yè)內(nèi)人士告訴記者,IBM的走鵑雖然實現(xiàn)了千萬億次性能,但卻非常難用,主要是多核編程非常困難,特別是在涉及到了幾萬個核心的超大規(guī)模,而且又是面對“X86CPU+CELL”的異構(gòu)計算環(huán)境。而在Andy Keane看來,NVIDIA的一大優(yōu)勢就是CUDA架構(gòu)。“CUDA并行架構(gòu)支持OpenCL、DX11等API,支持C/C++、FORTRAN等通用語言。由于該架構(gòu)支持工業(yè)標準的C語言編程環(huán)境,使得開發(fā)人員可以非常方便、快捷地利用到GPU的并行計算性能。而且關(guān)鍵的一點是,對于我們不同代的GPU產(chǎn)品,軟件編寫一次后就不需要修改。”
對于中國的超級計算機用戶來說,在獲取軟件時,要么購買商業(yè)軟件,要么自己開發(fā),或者在商業(yè)軟件方案的基礎(chǔ)上進行二次開發(fā)。那么,CUDA能在多大程度上幫到他們呢?
Andy談到,“我們與打算發(fā)布超級計算軟件的獨立軟件供應(yīng)商都進行了積極的開發(fā)工作。分子動力學(xué)領(lǐng)域的《NAMD/VMD》以及《GROMACS》是為群集GPU發(fā)布的兩個應(yīng)用程序例子。在美國的超級計算展會上,我們還展示了許多用于石油天然氣領(lǐng)域地震處理、量子化學(xué)以及Ansys有限元設(shè)計的應(yīng)用程序。 對于想要自己設(shè)計和開發(fā)應(yīng)用程序的開發(fā)人員,用于CUDA架構(gòu)的并行計算開發(fā)C語言編譯器可從NVIDIA網(wǎng)站上免費下載。Portland Group的Fortran等其它編譯器也正在陸續(xù)推出。有很多來自NVIDIA以及其它來源的程序庫,這些庫使應(yīng)用程序更易于開發(fā)。針對這些不懂C語言或Fortran的開發(fā)人員,Accelereyes以及Wolfram(Mathematica)等公司還提供了GPU加速版的軟件。因此你可以看到,利用GPU計算優(yōu)勢的方式有許多種。 ”
據(jù)介紹,迄今為止,NVIDIA已經(jīng)在全球賣出了1億顆以上支持CUDA的GPU產(chǎn)品,CUDA 開發(fā)人員超過了2.5萬人,全世界有50多所大學(xué)開設(shè)了CUDA課程,包括中國科學(xué)院、清華大學(xué)等,GPU計算的生態(tài)系統(tǒng)已經(jīng)形成。
“我個人非常有信心,Tesla會在2010年進入全球高性能計算機TOP500的前十位。”他還透露說,除了日本東京工業(yè)大學(xué),美國國家超級運算應(yīng)用中心(NCSA)以及法國原子能委員會(CEA)兩家著名的超級計算中心,也在研制基于GPU的計算機,預(yù)計將躋身下一屆世界五百強榜單。