Nvidia Tesla幫助HPC應用進入質的飛躍
以往對細胞的結構、細胞間的作用以及對外界條件的反應的模擬只有世界上運算性能最強大的計算機集群才能做到,而現在高性能運算技術(HPC,high performance computing)的變革使得模擬的實現不再困難。這次變革意義深遠,但說起來卻并不陌生,因為它是電子游戲賴以生存的硬件——圖形處理器(GPU,graphics processing unit)的變革。
多屏幕顯示、多GPU的SUN主機用以計算特定物質穿越細胞膜的原子間力。圖片中,模擬顯示的甘油正穿越蛋白質形成的通道。
HPC中GPU的應用
游戲圖形處理器用作超級運算處理器,乍聽起來的確讓人有些驚訝,但對于熟悉這項技術的人來說,GPU所蘊藏的強大運算能力早已被認知。GPU的設計基于高強度、多并行運算,尤其適于屏幕顯示的圖形處理,并可用于各種環(huán)境下的計算。與CPU不同的是,GPU擁有更多數據處理單元的晶體管,而負責數據緩存和浮點控制的單元相應減少。這種設計使得GPU特別適于高算法強度、流量并發(fā)的單一程序的運算,或是存儲交換量大的運算。
GPU強大的運算能力使它在各種數據計算應用中大顯身手,比如用地震法探尋石油天然氣、生物學細胞的活動以及商務金融中的運算,它的變革越來越改變著工程師和研究人員分析和解決問題的方式。
傳統(tǒng)數據計算依賴的高端、多核CPU常采用四個線程依次循環(huán)處理數據內容,但具有并行數據處理能力的GPU能將數據內容分塊化,然后交由數千個線程并行處理。這種并行處理模式對于大型的數據模塊,比如列表和卷冊,能大大加快數據處理的速度。
圖片說明了離子在分子結構周邊的排布情況。GPU用以計算分子周邊的一個3D靜電場。計算完成后,該場接下來又用于確認在分子模型中離子的正確排布情況。一旦確認了離子的分布狀況,就可以進行分子的動態(tài)模擬,從而研究分子模型的結構與功能。
#p#page_title#e#
CUDA的作用
HPC的變革起源于一年前NVIDIA發(fā)布CUDA,這是一種專門針對GPU的C語言開發(fā)工具。與以往采用圖形API接口指揮GPU完成各種運算處理功能不同,CUDA的出現使研究人員和工程師可以在熟悉的C語言環(huán)境下,自由地輸入代碼調用GPU的并行處理架構。這使得原先需要花費數天數周才能出結果的運算大大縮短到數幾小時,甚至幾分鐘之內。
變革的步伐隨著半年前Tesla GPU的出現而加快,Tesla是NVIDIA專為HPC和超級運算設備市場而設計的系列GPU,它能大幅提升當前運算方案所需的千兆浮點處理能力。這種用于運算處理的GPU現已上市,除了傳統(tǒng)GPU的配置,多核的GPU也已運用到桌面PC,帶來了性能的提升。服務器領域,4 GPU的1U服務器已面市,表明這項技術擴展到了服務器集群。
CUDA的C語言編譯器和開發(fā)環(huán)境是決定能否發(fā)揮GPU潛藏強大運算能力的關鍵?,F今市場上已有超過4500萬顆支持CUDA的GPU出現,大量SDK服務包的下載用以客戶自身開發(fā)的需求。這些都表明了GPU強大的運算能力滿足了HPC發(fā)展的需求,同時CUDA編譯環(huán)境的開發(fā)更為GPU的發(fā)展注入了新的活力。許多計算應用工具,如光譜分析等,為GPU重新編寫之后,得到計算結果的時間大大縮短。
這是一張蛋白質外殼剖開圖,內部是煙草花葉病毒的RNA結構,這是迄今為止計算機模擬的最大生物分子結構。通過仔細察看病毒結構,研究人員能研究病毒衣殼的構造,從而對病毒的傳染有更深的理解。
#p#page_title#e#
GPU產生的影響
伊利諾斯大學(UIUC)的研究人員將這項技術應用到生物分子運動模擬,他們把納米級分子動態(tài)分析(NAMD)和可視化分子動態(tài)分析(VMD)軟件移植到 NVIDIA的GPU上,運用GPU強大的運算處理能力來模擬DNA實時排序狀況,以幫助降低基因藥物開發(fā)的成本。這樣的變動不但帶來了處理速度100倍乃至240倍的提高,更為重要的是無需將數據依次上傳到遠端的大型服務器集群,花費數周等待計算處理的結果,而可以將處理軟件安裝到桌面PC上,隨時進行運算處理的工作。有了GPU和相應軟件強有力的支持,生物學家們就可以在彈指敲擊間解決新的問題。
UIUC注定不會孤獨,麻薩諸塞州綜合醫(yī)院一直致力于醫(yī)療成像技術的研究,這能使胸部組織癌癥病變的檢測變得容易與及時。其實這項技術早在即使幾十年前便已提出,然而受限于圖像重組所需的運算能力,一直無法運用到實踐。 現在運用計算型GPU配以相應的軟件,圖像的構建能獲得100層的增加,在PC上處理時間由原來的5小時降低到現在的5分鐘,因而能運用到實際的醫(yī)療成像設備中去。
Evolved Machines公司同樣也在運用GPU進行人腦的反向工程研究。此項工程的目的首先在于弄清楚神經線路的運作原理,然后將這些原理運用到機器的制造中,以使新的機器擁有近似的功能。據該公司宣稱,GPU的運用使運算處理速度比以往有了100倍的提升,雙GPU的單一PC運算速度與配有200核CPU的集群服務器一樣快,同時帶來了成本和功耗的大幅降低。
圖為NVIDIA Tesla模擬出來的神經中樞網絡。
在金融市場,Hanweck Associates開發(fā)了一種實時期貨分析引擎——Volera。只需在一臺配有三顆GPU的PC上,Volera就能在一秒鐘內對150,000種期權進行估價。使用兩臺這樣的系統(tǒng),通過網絡連接協(xié)同工作,就能在不到一秒的時間內完成對美國所有的股票期權市場的評估。
這僅僅只是HPC運用GPU解決大型關鍵問題的其中一個例子。有了強大的運算處理能力,良好的軟件開發(fā)工具,基于GPU運算的大環(huán)境已經形成。開發(fā)者突破了自身研究領域的局限,不斷產生對問題的新的解決方法。
當然,這種運算的變革并不會使傳統(tǒng)的基于CPU運算的服務器集群完全淘汰。但是在眾多實際運用中,GPU運算會逐漸替代CPU運算,未來CPU運算也許只會存在于實驗室的應用。同時,GPU運算的誕生也會促使許多以往因運算能力不足而不可行的新方法的重生。NVIDIA作為GPU領先的開發(fā)者,對這種變革做出了巨大的貢獻。
#p#page_title#e#
Tesla桌面式和服務器產品線
目前,NVIDIA針對HPC市場的Tesla系列產品可分為桌面和服務器兩大塊。
這是為桌面PC設計的Tesla產品:Tesla C1060,可以很清楚的看到,與普通的8系列顯卡相比有一樣的導熱管道和風扇設計,但不同在于沒有任何外接接口。
沒有外接接口,自然無法把它等同于普通顯卡一樣使用,但有了雙管道冷卻槽的設計,Tesla的散熱性得到了提高。
桌面式Tesla同樣采用PCI-E16 x接口與主機相連接,所以主機上最少需要兩條16 x的插槽,一條留Tesla,另一條為主顯卡使用。
Tesla C1060則與NVIDIA的另一款產品Quadro Plex相類似,都是作為一個外部的圖形處理工作站。每個如上圖的工作站內都包括1到2塊的Tesla C1060卡,它們協(xié)同處理HPC數據,并且每個工作站單元都能通過PCI-E 16 x適配卡與桌面PC或服務器連接起來。
在關注桌面和工作站領域的同時,NVIDIA深知要想在HPC市場獲得認可就必須要在服務器領域推出重量級的產品。
上圖顯示的是Tesla S1070服務器的配置情況:一臺或更多Tesla服務器與基于CPU的服務器通過PCI-E卡連接起來。為了發(fā)揮Tesla服務器最大的效率,NVIDIA的官方建議是每顆GPU對應一核CPU,也就是說一臺4x4的服務器(16核)能支持16顆GPU(2-4臺Tesla服務器)。
NVIDIA的3U和5U服務器
上圖所見就是1U服務器的內部構造圖,包括一個供電裝置,GPU卡以及風扇,結構并不復雜。GPU卡上有導熱貼片,并且在邊緣位置有風扇裝置幫助散熱。NVIDIA在服務器中集成了板載芯片用以反映風扇的運行狀態(tài)以及溫度的變化情況,這樣管理人員就能遠程監(jiān)控服務器的運行情況,防止GPU過熱現象的發(fā)生。1U的單元設計上能支持4核或是8核的GPU,但目前支持8核GPU的主板還沒有上市,但相信不久即可面世。
服務器的后面板有一個電源接口和兩個數據接口,其中每個數據接口能傳輸4核GPU處理的數據量。
從前面板上看,只能看到一排風扇裝置,可以猜想Tesla S1070服務器運行時噪音應該不小。
小結
前文介紹了Tesla GPU在HPC領域的多種應用,為GPU開辟了一條新的發(fā)展道路。可以看到,GPU強大的運算能力為眾多問題的研究提供了新的方法,使以往受限于運算能力而無法實現的方案得以重生。接下來,對NVIDIA Tesla的產品線做了介紹。
NVIDIA在應對AMD吞并ATI以及Intel宣布進步多并行處理器市場這些挑戰(zhàn)時,不再自封于游戲和圖像顯示芯片的生產,而將眼光投入到具有更大價值的HPC市場。Tesla的成功推出為NVIDIA今后在與對手的競爭中占得了先機。
并行計算王者-Tesla個人超級計算機硬件配置