Nvidia Tesla幫助HPC應(yīng)用進(jìn)入質(zhì)的飛躍
以往對細(xì)胞的結(jié)構(gòu)、細(xì)胞間的作用以及對外界條件的反應(yīng)的模擬只有世界上運(yùn)算性能最強(qiáng)大的計(jì)算機(jī)集群才能做到,而現(xiàn)在高性能運(yùn)算技術(shù)(HPC,high performance computing)的變革使得模擬的實(shí)現(xiàn)不再困難。這次變革意義深遠(yuǎn),但說起來卻并不陌生,因?yàn)樗请娮佑螒蛸囈陨娴挠布?mdash;—圖形處理器(GPU,graphics processing unit)的變革。
多屏幕顯示、多GPU的SUN主機(jī)用以計(jì)算特定物質(zhì)穿越細(xì)胞膜的原子間力。圖片中,模擬顯示的甘油正穿越蛋白質(zhì)形成的通道。
HPC中GPU的應(yīng)用
游戲圖形處理器用作超級運(yùn)算處理器,乍聽起來的確讓人有些驚訝,但對于熟悉這項(xiàng)技術(shù)的人來說,GPU所蘊(yùn)藏的強(qiáng)大運(yùn)算能力早已被認(rèn)知。GPU的設(shè)計(jì)基于高強(qiáng)度、多并行運(yùn)算,尤其適于屏幕顯示的圖形處理,并可用于各種環(huán)境下的計(jì)算。與CPU不同的是,GPU擁有更多數(shù)據(jù)處理單元的晶體管,而負(fù)責(zé)數(shù)據(jù)緩存和浮點(diǎn)控制的單元相應(yīng)減少。這種設(shè)計(jì)使得GPU特別適于高算法強(qiáng)度、流量并發(fā)的單一程序的運(yùn)算,或是存儲交換量大的運(yùn)算。
GPU強(qiáng)大的運(yùn)算能力使它在各種數(shù)據(jù)計(jì)算應(yīng)用中大顯身手,比如用地震法探尋石油天然氣、生物學(xué)細(xì)胞的活動(dòng)以及商務(wù)金融中的運(yùn)算,它的變革越來越改變著工程師和研究人員分析和解決問題的方式。
傳統(tǒng)數(shù)據(jù)計(jì)算依賴的高端、多核CPU常采用四個(gè)線程依次循環(huán)處理數(shù)據(jù)內(nèi)容,但具有并行數(shù)據(jù)處理能力的GPU能將數(shù)據(jù)內(nèi)容分塊化,然后交由數(shù)千個(gè)線程并行處理。這種并行處理模式對于大型的數(shù)據(jù)模塊,比如列表和卷冊,能大大加快數(shù)據(jù)處理的速度。
圖片說明了離子在分子結(jié)構(gòu)周邊的排布情況。GPU用以計(jì)算分子周邊的一個(gè)3D靜電場。計(jì)算完成后,該場接下來又用于確認(rèn)在分子模型中離子的正確排布情況。一旦確認(rèn)了離子的分布狀況,就可以進(jìn)行分子的動(dòng)態(tài)模擬,從而研究分子模型的結(jié)構(gòu)與功能。
#p#page_title#e#
CUDA的作用
HPC的變革起源于一年前NVIDIA發(fā)布CUDA,這是一種專門針對GPU的C語言開發(fā)工具。與以往采用圖形API接口指揮GPU完成各種運(yùn)算處理功能不同,CUDA的出現(xiàn)使研究人員和工程師可以在熟悉的C語言環(huán)境下,自由地輸入代碼調(diào)用GPU的并行處理架構(gòu)。這使得原先需要花費(fèi)數(shù)天數(shù)周才能出結(jié)果的運(yùn)算大大縮短到數(shù)幾小時(shí),甚至幾分鐘之內(nèi)。
變革的步伐隨著半年前Tesla GPU的出現(xiàn)而加快,Tesla是NVIDIA專為HPC和超級運(yùn)算設(shè)備市場而設(shè)計(jì)的系列GPU,它能大幅提升當(dāng)前運(yùn)算方案所需的千兆浮點(diǎn)處理能力。這種用于運(yùn)算處理的GPU現(xiàn)已上市,除了傳統(tǒng)GPU的配置,多核的GPU也已運(yùn)用到桌面PC,帶來了性能的提升。服務(wù)器領(lǐng)域,4 GPU的1U服務(wù)器已面市,表明這項(xiàng)技術(shù)擴(kuò)展到了服務(wù)器集群。
CUDA的C語言編譯器和開發(fā)環(huán)境是決定能否發(fā)揮GPU潛藏強(qiáng)大運(yùn)算能力的關(guān)鍵?,F(xiàn)今市場上已有超過4500萬顆支持CUDA的GPU出現(xiàn),大量SDK服務(wù)包的下載用以客戶自身開發(fā)的需求。這些都表明了GPU強(qiáng)大的運(yùn)算能力滿足了HPC發(fā)展的需求,同時(shí)CUDA編譯環(huán)境的開發(fā)更為GPU的發(fā)展注入了新的活力。許多計(jì)算應(yīng)用工具,如光譜分析等,為GPU重新編寫之后,得到計(jì)算結(jié)果的時(shí)間大大縮短。
這是一張蛋白質(zhì)外殼剖開圖,內(nèi)部是煙草花葉病毒的RNA結(jié)構(gòu),這是迄今為止計(jì)算機(jī)模擬的最大生物分子結(jié)構(gòu)。通過仔細(xì)察看病毒結(jié)構(gòu),研究人員能研究病毒衣殼的構(gòu)造,從而對病毒的傳染有更深的理解。
#p#page_title#e#
GPU產(chǎn)生的影響
伊利諾斯大學(xué)(UIUC)的研究人員將這項(xiàng)技術(shù)應(yīng)用到生物分子運(yùn)動(dòng)模擬,他們把納米級分子動(dòng)態(tài)分析(NAMD)和可視化分子動(dòng)態(tài)分析(VMD)軟件移植到 NVIDIA的GPU上,運(yùn)用GPU強(qiáng)大的運(yùn)算處理能力來模擬DNA實(shí)時(shí)排序狀況,以幫助降低基因藥物開發(fā)的成本。這樣的變動(dòng)不但帶來了處理速度100倍乃至240倍的提高,更為重要的是無需將數(shù)據(jù)依次上傳到遠(yuǎn)端的大型服務(wù)器集群,花費(fèi)數(shù)周等待計(jì)算處理的結(jié)果,而可以將處理軟件安裝到桌面PC上,隨時(shí)進(jìn)行運(yùn)算處理的工作。有了GPU和相應(yīng)軟件強(qiáng)有力的支持,生物學(xué)家們就可以在彈指敲擊間解決新的問題。
UIUC注定不會孤獨(dú),麻薩諸塞州綜合醫(yī)院一直致力于醫(yī)療成像技術(shù)的研究,這能使胸部組織癌癥病變的檢測變得容易與及時(shí)。其實(shí)這項(xiàng)技術(shù)早在即使幾十年前便已提出,然而受限于圖像重組所需的運(yùn)算能力,一直無法運(yùn)用到實(shí)踐。 現(xiàn)在運(yùn)用計(jì)算型GPU配以相應(yīng)的軟件,圖像的構(gòu)建能獲得100層的增加,在PC上處理時(shí)間由原來的5小時(shí)降低到現(xiàn)在的5分鐘,因而能運(yùn)用到實(shí)際的醫(yī)療成像設(shè)備中去。
Evolved Machines公司同樣也在運(yùn)用GPU進(jìn)行人腦的反向工程研究。此項(xiàng)工程的目的首先在于弄清楚神經(jīng)線路的運(yùn)作原理,然后將這些原理運(yùn)用到機(jī)器的制造中,以使新的機(jī)器擁有近似的功能。據(jù)該公司宣稱,GPU的運(yùn)用使運(yùn)算處理速度比以往有了100倍的提升,雙GPU的單一PC運(yùn)算速度與配有200核CPU的集群服務(wù)器一樣快,同時(shí)帶來了成本和功耗的大幅降低。
圖為NVIDIA Tesla模擬出來的神經(jīng)中樞網(wǎng)絡(luò)。
在金融市場,Hanweck Associates開發(fā)了一種實(shí)時(shí)期貨分析引擎——Volera。只需在一臺配有三顆GPU的PC上,Volera就能在一秒鐘內(nèi)對150,000種期權(quán)進(jìn)行估價(jià)。使用兩臺這樣的系統(tǒng),通過網(wǎng)絡(luò)連接協(xié)同工作,就能在不到一秒的時(shí)間內(nèi)完成對美國所有的股票期權(quán)市場的評估。
這僅僅只是HPC運(yùn)用GPU解決大型關(guān)鍵問題的其中一個(gè)例子。有了強(qiáng)大的運(yùn)算處理能力,良好的軟件開發(fā)工具,基于GPU運(yùn)算的大環(huán)境已經(jīng)形成。開發(fā)者突破了自身研究領(lǐng)域的局限,不斷產(chǎn)生對問題的新的解決方法。
當(dāng)然,這種運(yùn)算的變革并不會使傳統(tǒng)的基于CPU運(yùn)算的服務(wù)器集群完全淘汰。但是在眾多實(shí)際運(yùn)用中,GPU運(yùn)算會逐漸替代CPU運(yùn)算,未來CPU運(yùn)算也許只會存在于實(shí)驗(yàn)室的應(yīng)用。同時(shí),GPU運(yùn)算的誕生也會促使許多以往因運(yùn)算能力不足而不可行的新方法的重生。NVIDIA作為GPU領(lǐng)先的開發(fā)者,對這種變革做出了巨大的貢獻(xiàn)。
#p#page_title#e#
Tesla桌面式和服務(wù)器產(chǎn)品線
目前,NVIDIA針對HPC市場的Tesla系列產(chǎn)品可分為桌面和服務(wù)器兩大塊。
這是為桌面PC設(shè)計(jì)的Tesla產(chǎn)品:Tesla C1060,可以很清楚的看到,與普通的8系列顯卡相比有一樣的導(dǎo)熱管道和風(fēng)扇設(shè)計(jì),但不同在于沒有任何外接接口。
沒有外接接口,自然無法把它等同于普通顯卡一樣使用,但有了雙管道冷卻槽的設(shè)計(jì),Tesla的散熱性得到了提高。
桌面式Tesla同樣采用PCI-E16 x接口與主機(jī)相連接,所以主機(jī)上最少需要兩條16 x的插槽,一條留Tesla,另一條為主顯卡使用。
Tesla C1060則與NVIDIA的另一款產(chǎn)品Quadro Plex相類似,都是作為一個(gè)外部的圖形處理工作站。每個(gè)如上圖的工作站內(nèi)都包括1到2塊的Tesla C1060卡,它們協(xié)同處理HPC數(shù)據(jù),并且每個(gè)工作站單元都能通過PCI-E 16 x適配卡與桌面PC或服務(wù)器連接起來。
在關(guān)注桌面和工作站領(lǐng)域的同時(shí),NVIDIA深知要想在HPC市場獲得認(rèn)可就必須要在服務(wù)器領(lǐng)域推出重量級的產(chǎn)品。
上圖顯示的是Tesla S1070服務(wù)器的配置情況:一臺或更多Tesla服務(wù)器與基于CPU的服務(wù)器通過PCI-E卡連接起來。為了發(fā)揮Tesla服務(wù)器最大的效率,NVIDIA的官方建議是每顆GPU對應(yīng)一核CPU,也就是說一臺4x4的服務(wù)器(16核)能支持16顆GPU(2-4臺Tesla服務(wù)器)。
NVIDIA的3U和5U服務(wù)器
上圖所見就是1U服務(wù)器的內(nèi)部構(gòu)造圖,包括一個(gè)供電裝置,GPU卡以及風(fēng)扇,結(jié)構(gòu)并不復(fù)雜。GPU卡上有導(dǎo)熱貼片,并且在邊緣位置有風(fēng)扇裝置幫助散熱。NVIDIA在服務(wù)器中集成了板載芯片用以反映風(fēng)扇的運(yùn)行狀態(tài)以及溫度的變化情況,這樣管理人員就能遠(yuǎn)程監(jiān)控服務(wù)器的運(yùn)行情況,防止GPU過熱現(xiàn)象的發(fā)生。1U的單元設(shè)計(jì)上能支持4核或是8核的GPU,但目前支持8核GPU的主板還沒有上市,但相信不久即可面世。
服務(wù)器的后面板有一個(gè)電源接口和兩個(gè)數(shù)據(jù)接口,其中每個(gè)數(shù)據(jù)接口能傳輸4核GPU處理的數(shù)據(jù)量。
從前面板上看,只能看到一排風(fēng)扇裝置,可以猜想Tesla S1070服務(wù)器運(yùn)行時(shí)噪音應(yīng)該不小。
小結(jié)
前文介紹了Tesla GPU在HPC領(lǐng)域的多種應(yīng)用,為GPU開辟了一條新的發(fā)展道路。可以看到,GPU強(qiáng)大的運(yùn)算能力為眾多問題的研究提供了新的方法,使以往受限于運(yùn)算能力而無法實(shí)現(xiàn)的方案得以重生。接下來,對NVIDIA Tesla的產(chǎn)品線做了介紹。
NVIDIA在應(yīng)對AMD吞并ATI以及Intel宣布進(jìn)步多并行處理器市場這些挑戰(zhàn)時(shí),不再自封于游戲和圖像顯示芯片的生產(chǎn),而將眼光投入到具有更大價(jià)值的HPC市場。Tesla的成功推出為NVIDIA今后在與對手的競爭中占得了先機(jī)。
并行計(jì)算王者-Tesla個(gè)人超級計(jì)算機(jī)硬件配置