引領(lǐng)行業(yè)發(fā)展 NVIDIA談GPU與高性能計(jì)算
美國(guó)時(shí)間2012年11月12-15日,著名的Super Computing 12大會(huì)在猶他州鹽湖城舉行。本次SC12大會(huì)上,發(fā)布了最新的TOP500排名,來自美國(guó)能源部橡樹嶺國(guó)家實(shí)驗(yàn)室的“泰坦Titan”獲得了第一名的殊榮。據(jù)悉,泰坦采用了18688顆NVIDIA Tesla K20 GPU加速芯片,這些芯片所提供的性能占總性能的90%,也是其奪冠的關(guān)鍵。在SC12大會(huì)上,我們有幸采訪到了NVIDIA Tesla事業(yè)部的總經(jīng)理Sumit Gupta先生,他將詳細(xì)為我們介紹NVIDIA在高性能發(fā)展上的策略及泰坦相關(guān)的點(diǎn)點(diǎn)滴滴。
NVIDIA Tesla事業(yè)部的總經(jīng)理Sumit Gupta先生
獨(dú)步天下 NVIDIA領(lǐng)軍GPGPU時(shí)代
談到GPU,大家的第一印象就是我們電腦中的顯卡。但隨著計(jì)算能力的不斷提高,GPU已經(jīng)不僅僅局限于圖形運(yùn)算,在高性能計(jì)算領(lǐng)域,它更是作為加速芯片而存在。正是NVIDIA首次提出了GPGPU的概念,即通用計(jì)算處理單元,正是這一概念促成了高性能計(jì)算的飛速發(fā)展。
在GPU加速技術(shù)出現(xiàn)之前,超級(jí)計(jì)算機(jī)的發(fā)展非常緩慢,因?yàn)橹饕柚?a title="CPU" class="nounderline" href="/./php/r.php?url=http%3A%2F%2Fproduct.it168.com%2Flist%2Fb%2F0217_1.shtml" target="_blank">CPU計(jì)算,因此也就收到了摩爾定律的制約。從圖中就可以看到這種變化的趨勢(shì)——在2009年NVIDIA Fermi架構(gòu)芯片發(fā)布之后,高性能計(jì)算出現(xiàn)了爆炸式的增長(zhǎng),性能提升達(dá)到了數(shù)十倍。以國(guó)內(nèi)超算的發(fā)展為例:2008年,國(guó)內(nèi)頂級(jí)的曙光5000A超級(jí)計(jì)算機(jī)每秒運(yùn)行速度為250萬(wàn)億次,那時(shí)的超算還停留在百萬(wàn)億次時(shí)代;但是到了2010年,國(guó)產(chǎn)天河一號(hào)A榮膺TOP500冠軍,每秒運(yùn)行速度達(dá)到2507萬(wàn)億次。2年的時(shí)間性能提升十倍,跨入了千萬(wàn)億次時(shí)代。可以說,正是由于GPGPU的出現(xiàn),使得超算的性能迅速提升,同時(shí)也節(jié)約了大量的場(chǎng)地、電力、維護(hù)等成本。從這個(gè)意義來說,NVIDIA提供了一個(gè)可以永載史冊(cè)的創(chuàng)舉。
Tesla K20X/K20助力Titan(泰坦)系統(tǒng)榮膺TOP500冠軍
在談到GPU運(yùn)算加速的時(shí)候,Sumit Gupta先生認(rèn)為——目前近乎所有的超級(jí)計(jì)算機(jī)都采用了GPU加速的方式,這已經(jīng)是大勢(shì)所趨。例如本次TOP500第一名Titan(泰坦),它由2009年最快的超級(jí)計(jì)算機(jī)Jaguar美洲豹升級(jí)而來,正是NVIDIA Tesla K20 GPU加速芯片提供了如此強(qiáng)大的性能。如果僅僅依靠CPU進(jìn)行計(jì)算的話,不僅僅需要更大面積的計(jì)算機(jī)集群,其耗電量也會(huì)相當(dāng)驚人(大約相當(dāng)于6-8萬(wàn)戶居民的年耗電量),這是完全不可想象的事情。
同時(shí)在談到節(jié)能與功耗的時(shí)候,Sumit Gupta先生也談到了最新的Green 500排名。超級(jí)計(jì)算機(jī)Titan(泰坦)在Green 500中排名第三,雖然并未獲得第一,但是Titan是其中最大的系統(tǒng),能夠讓如此巨大的系統(tǒng)達(dá)到良好的節(jié)能效果也是非常難得,也從側(cè)面反映出Tesla K20 GPU加速芯片的節(jié)能性。
談到世界上最快的超級(jí)計(jì)算機(jī)泰坦,就不能不談到NVIDIA Tesla Kepler K20芯片。在這一代的Kepler家族中包括了 K20和K20X兩款芯片,也是目前NVIDIA速度最快的芯片,兩者的區(qū)別在于規(guī)格的不同,K20X的版本更高一些。具體說來,本次泰坦使用的K20芯片可以提供3.52TF的單精度浮點(diǎn)性能和1.17TF雙精度浮點(diǎn)性能,顯存容量為5GB,帶寬為208GB/s。相比上一代的Fermi產(chǎn)品來說,同樣平臺(tái)下Kepler K20的實(shí)測(cè)效率可以達(dá)到2.25TF,芯片利用率為76%;上一代的Fermi芯片利用率只有61%。
這里我們有必要就帶寬問題進(jìn)行一個(gè)說明——不久前,英特爾發(fā)布了最新的至強(qiáng)融核(Xeon Phi)協(xié)處理器,其標(biāo)稱帶寬高達(dá)300MB/s,也可以算是目前Tesla產(chǎn)品強(qiáng)勁的競(jìng)爭(zhēng)對(duì)手。不過對(duì)此,Sumit Gupta先生認(rèn)為理論帶寬只是產(chǎn)品的硬件規(guī)格標(biāo)準(zhǔn),具體的計(jì)算能力還應(yīng)該在應(yīng)用中體現(xiàn)。并且即使從硬件規(guī)格的角度上看,通過諸多用戶的測(cè)試發(fā)現(xiàn),Kepler K20與Xeon Phi在實(shí)際應(yīng)用中的表現(xiàn)相當(dāng),這是因?yàn)镵epler K20的帶寬利用率可以達(dá)到70%以上,而Xeon Phi根據(jù)STREAM 基準(zhǔn)測(cè)試的結(jié)果顯示也只有50%的帶寬利用率。因此,事實(shí)上來兩者的有效帶寬不相伯仲,不能單純依靠理論帶寬來判斷產(chǎn)品的性能優(yōu)劣,一切都應(yīng)該從實(shí)際的應(yīng)用出發(fā)。 #p#page_title#e#
CUDA編程的應(yīng)用與優(yōu)勢(shì)
GPGPU的快速發(fā)展,一方面是由于硬件配置的強(qiáng)大,但更多還是得益于CUDA編程的便捷與高效。目前CUDA在全球范圍內(nèi)的62個(gè)國(guó)家、近630所大學(xué)都有相關(guān)的合作, 并且有超過8000個(gè)開發(fā)機(jī)構(gòu)、超過150萬(wàn)次的軟件下載率。以最新的Tesla K20X/K20芯片為例,包括橡樹嶺國(guó)家實(shí)驗(yàn)室、瑞士國(guó)家超級(jí)計(jì)算中心以及中國(guó)上海交通大學(xué)等31個(gè)科研機(jī)構(gòu)和大學(xué)都采用了這款世界最快的產(chǎn)品,這也幫助他們?cè)贏NSYS Fluent (計(jì)算流體動(dòng)力學(xué))、MSC Nastran (結(jié)構(gòu)力學(xué))和CHARMM (生命科學(xué))等多個(gè)關(guān)鍵的科研領(lǐng)域獲得了突破。
現(xiàn)場(chǎng),筆者就CUDA產(chǎn)品的編程易用性問題與Sumit Gupta先生進(jìn)行了交流。對(duì)于異構(gòu)計(jì)算的應(yīng)用來說,編程是至關(guān)重要的工作,而是否易于編程則直接關(guān)系到了用戶的應(yīng)用能否正常運(yùn)行。Sumit Gupta先生通過一個(gè)實(shí)例詳細(xì)而直觀的解釋了CUDA編程的優(yōu)勢(shì)與便捷性。
Sumit Gupta先生談到,如果按照標(biāo)準(zhǔn)的C語(yǔ)言編程,一個(gè)簡(jiǎn)單的計(jì)算案例需要進(jìn)行一步步的順序計(jì)算,會(huì)需要大量的時(shí)間。而在通過CUDA編程之后,只需要加入幾個(gè)簡(jiǎn)單的關(guān)鍵性語(yǔ)句,就可以實(shí)現(xiàn)快速并行計(jì)算,大大縮減計(jì)算時(shí)間,提升效率??偨Y(jié)起來,CUDA編程只是基于原有的C、C++等語(yǔ)言進(jìn)行編譯,并不需要改變語(yǔ)言本身,具備了上手簡(jiǎn)單、操作便捷等優(yōu)勢(shì)。
關(guān)于Tesla K20X/K20的其他問題
記得在Fermi時(shí)代,NVIDIA曾在平衡產(chǎn)品性能與良品率時(shí)有過困擾,那么對(duì)于新一代的Kepler芯片來說,是否還會(huì)有這樣的困擾呢?Sumit Gupta先生表示之前Fermi的問題的確非常棘手,當(dāng)時(shí)NVIDIA只能保證高端的Tesla供貨。但目前Kepler芯片目前產(chǎn)能充足,一次性供應(yīng)Titan多達(dá)18000顆芯片就很能說明問題。而且Kepler經(jīng)過了在GeForce產(chǎn)品中的測(cè)試,良品率非常高,目前在Tesla供貨方面毫無(wú)壓力。
談到CUDA普及化教育的問題,NVIDIA表示長(zhǎng)期以來一直與國(guó)內(nèi)外許多大學(xué)保持著良好的合作關(guān)系,從師資力量的培養(yǎng)和學(xué)員的教育方面都提供了大力的支持。就國(guó)內(nèi)來說,所有開設(shè)并行課程的高校也都提供了CUDA課程,而且在今年9月NVIDIA也與浪潮集團(tuán)聯(lián)合發(fā)布了“GPU卓越人才計(jì)劃”,打造中國(guó)ICCE(Inspur NVIDIA CUDA CERTIFIED ENGINEER)技術(shù)應(yīng)用工程師認(rèn)證第一品牌,從而進(jìn)一步推動(dòng)中國(guó)GPU應(yīng)用的發(fā)展。
如今,談到高性能計(jì)算或者超級(jí)計(jì)算機(jī),已經(jīng)不僅僅是單純的CPU計(jì)算,因?yàn)殡S著計(jì)算性能和應(yīng)用需求的不斷發(fā)展,任何單純的CPU計(jì)算都被證明是不可行的,傳統(tǒng)意義上依靠大量CPU計(jì)算節(jié)點(diǎn)和大規(guī)模供電的時(shí)代已經(jīng)是一去不復(fù)返了。正是NVIDIA對(duì)于GPGPU的推廣,讓行業(yè)迅速進(jìn)入到了異構(gòu)計(jì)算的時(shí)代,從而不再僅僅依靠CPU提供所有的計(jì)算能力。
將運(yùn)算需求按照不同的類型進(jìn)行劃分,為每一種處理器選擇最佳的計(jì)算內(nèi)容,這就是異構(gòu)計(jì)算的魅力。異構(gòu)計(jì)算已經(jīng)成為了行業(yè)發(fā)展的大勢(shì)所趨,NVIDIA在推動(dòng)行業(yè)發(fā)展和促進(jìn)人才培養(yǎng)的方向上功不可沒。未來,NVIDIA還將繼續(xù)拓展異構(gòu)計(jì)算業(yè)務(wù),爭(zhēng)取將高性能計(jì)算,特別是國(guó)內(nèi)的高性能計(jì)算應(yīng)用推向普及。