異構(gòu)計算:Exascale時代的新模式
全球高性能計算(HPC)市場進入千萬億次級時代已經(jīng)有三年多了 (2008年6月至今),在這個十年結(jié)束之前, 有望大踏步邁進百億億次級時代。這種趨勢是全球性的。IDC預(yù)計,由于百億億次級計算將極大地推動科學(xué)進步,增加各國的工業(yè)和經(jīng)濟競爭力,改善人們的生活品質(zhì),因此美國、歐盟、日本、中國、俄羅斯將在該領(lǐng)域展開激烈競爭,以便享受這種技術(shù)帶來的巨大實惠。
但是很多高性能計算專家也指出,只有在現(xiàn)有技術(shù)和手段的基礎(chǔ)上進行革命性的開拓,我們才能從容應(yīng)對一系列巨大的挑戰(zhàn),從而在這個有限的時間框架內(nèi)實現(xiàn)合理的百億億次級性能。這些挑戰(zhàn)包括但不限于以下內(nèi)容
系統(tǒng)成本(每秒浮點運算次數(shù)/美元)。二十年前,全球領(lǐng)先的高性能計算機構(gòu)花了兩千五百萬至三千萬美元,用于購置當(dāng)時最強大的超級計算機。如今購買千萬億次級超級計算機的費用通常在一億美元以上。早期千萬億次級系統(tǒng)的單臺售價在5億至10億美元之間。這種成本的上升是難以維持的。人們歡迎任何可增加每秒浮點運算次數(shù)/美元比值的技術(shù)。
應(yīng)用性能 (時間/解決方案)。隨著高性能計算用戶日益尋求為自己的應(yīng)用尋求更新、更大的超級計算機系統(tǒng),這種長期挑戰(zhàn)也會隨之增大。由于時鐘頻率難以繼續(xù)增加,未來的性能提升潛力幾乎都來自于日益增加的并行性,這進而導(dǎo)致了對百億億次級計算的巨大并行性需求。1GHz主頻的機器每個時鐘周期將需要執(zhí)行十億次獨立運算。隨著時間的推移,人們有望用這種級別的系統(tǒng)解決一些重大科學(xué)難題。此外,一些缺乏必要的單次運行并發(fā)性的其他問題就可以利用百億億次級計算系統(tǒng)來進行整體運算。比如,在解析每次運行操作時,汽車設(shè)計工程師們已經(jīng)顯著增加了參數(shù)運行的數(shù)量,這會發(fā)生于設(shè)計周期的分配階段。
空間和計算密度需求 (每秒浮點運算次數(shù)/平方英尺)。一項全球性的IDC研究表明,絕大多數(shù)高性能計算機構(gòu)都極大地受限于數(shù)據(jù)中心的占地面積。其中三分之二的機構(gòu)正在計劃擴建或修建新的高性能計算數(shù)據(jù)中心。其中一半的機構(gòu)已規(guī)劃,或已開始將高性能計算資源分布到多個地點。
計算和數(shù)據(jù)移動的能源成本 (每秒浮點運算次數(shù)/瓦,字節(jié)/瓦)。最后但同樣很重要的是,功耗已成為一個顯著的設(shè)計約束,并在總擁有成本中占有巨大的份額。隨著電壓的增長速度顯著下降,當(dāng)我們按照摩爾定律增加晶體管總數(shù)時,能耗不再是一個一成不變的制約因素,這使得如今的處理器受限于能耗,當(dāng)每一代新的IC芯片面世時,情況也日益如此。
這個時代的計算性能主要取決于能源效率,因此系統(tǒng)設(shè)計方面的主要挑戰(zhàn)就是在不過度降低性能的前提下讓處理器和數(shù)據(jù)移動變得更加節(jié)能。高性能計算系統(tǒng)領(lǐng)域的巨大進步對能源效率提出了更高的要求。如今,規(guī)模最大的高性能計算數(shù)據(jù)中心所消耗的電能和一個小城市消耗的電能相當(dāng),多個千萬億次級和百億億次級數(shù)據(jù)中心所消耗的電能注定還要更多。盡管能源價格相對于2008年的高位水平已回落了不少,但是相比于歷史水平它仍然顯著增加了很多。這場“完美風(fēng)暴”所暴露出來的另一個問題是,人們?nèi)找骊P(guān)注碳排放和全球氣候變化,而高性能計算數(shù)據(jù)中心對能耗和冷卻的要求卻與日俱增。最終,一些規(guī)模最大的高性能計算中心會擔(dān)心當(dāng)?shù)氐碾娏疚磥砜赡懿粫M足其需求。其中有一家打算修建一個能耗為250兆瓦的數(shù)據(jù)中心,不過它恐怕無法使用電網(wǎng),而必須要自行修建一個小型核反應(yīng)堆。
異構(gòu)計算模式
過去十年間,利用x86架構(gòu)處理器的經(jīng)濟性優(yōu)勢的機群成為高性能計算系統(tǒng)的主流機型,全球高性能計算服務(wù)器市場的規(guī)模從2000年初的50億美元倍增至2010年的95億美元。主導(dǎo)模式已經(jīng)變?yōu)橥ㄟ^部署包含更多標(biāo)準(zhǔn)x86中央處理器內(nèi)核的規(guī)模更大的機群來達到更高的峰值性能。
但是從設(shè)計角度講,x86處理器根本無法良好地處理所有的高性能計算應(yīng)用,并且散熱和功耗在數(shù)年前就已經(jīng)制約了x86單線程的性能。人們?nèi)找嬲J(rèn)識到,雖然x86處理器路線圖展現(xiàn)了巨大的進步潛力,但是單純依賴x86處理器的模式無法有效地應(yīng)對這十年中與實現(xiàn)百億億次級計算相關(guān)的挑戰(zhàn)。 #p#page_title#e#
近年來,另一種可應(yīng)對這些挑戰(zhàn)的“異構(gòu)計算”替代模式在市場上占盡先機。這種新興模式通過加速器 (主要是 GPGPU,因此也可稱之為圖形處理器) 增加了x86中央處理器的效能,這樣每種處理器就能專注于自己擅長的工作。圖形處理器尤其擅長于處理海量代碼和代碼片段,體現(xiàn)出來了巨大的數(shù)據(jù)或線程級并行性。這就使得圖形處理器繼承了矢量處理器的衣缽,但是圖形處理器更為出色,不僅具有更大的規(guī)模經(jīng)濟性,同時還更具競爭優(yōu)勢。IDC研究表明全球個人電腦市場僅對于獨立顯卡的需求規(guī)模就在2010年達到了大約40億美元。
異構(gòu)計算模式在整個高性能計算市場有著良好的表現(xiàn)。IDC針對高性能計算處理器的2008年全球研究表明,9% 的高性能計算機構(gòu)正在已部署的系統(tǒng)內(nèi)使用除了中央處理器之外的某種形式的加速器技術(shù)。IDC在2010年實施了一次相同的研究,發(fā)現(xiàn)情況已經(jīng)顯著不同。加速器技術(shù)已經(jīng)有了很大的發(fā)展。此時,28% 的高性能計算機構(gòu)已使用了加速器技術(shù),該數(shù)據(jù)相比于兩年前增加了兩倍,幾乎所有的加速器都是圖形處理器。雖然圖形處理器僅占異構(gòu)系統(tǒng)處理器總量的5%,但是其數(shù)量仍在不斷增加。
異構(gòu)計算正在對高端高性能計算市場造成最大程度的沖擊。圖形處理器于2008年首次出現(xiàn)在全球超級計算機機構(gòu)的500 強榜單中(www.top500.org)。截至2011年6月,該榜單上排名前十的系統(tǒng)中有三個已經(jīng)部署了圖形處理器。2011年10月,美國能源部的Oak Ridge國家實驗室宣布打算將排名第一的美國超級計算機升級為后繼系統(tǒng) (“Titan”), 新系統(tǒng)將部署18000多顆x86中央處理器和同樣數(shù)量的圖形處理器,從而實現(xiàn)兩至三百億億次的峰值性能。此后,德州高級計算中心宣布了建造異構(gòu)超級計算機“Stampede”的計劃,該計算機在最初階段將集成峰值性能為兩千萬億次的x86中央處理器和峰值性能為八千萬億次的MIC加速器處理器,從而實現(xiàn)一百億億次的峰值性能。
這些和其他領(lǐng)先高性能計算機構(gòu)開始采用異構(gòu)計算技術(shù)意味著圖形處理器已經(jīng)脫離了實驗階段,日益能夠勝任一些面向生產(chǎn)的關(guān)鍵任務(wù)。
術(shù)語定義
機群:IDC 將機群定義為通過系統(tǒng)軟件和網(wǎng)絡(luò)技術(shù)集成為一個統(tǒng)一系統(tǒng)的一系列獨立計算機。這樣,機群并不基于新系統(tǒng)集成策略那樣的新架構(gòu)理念。
異構(gòu)處理:異構(gòu)處理和術(shù)語異構(gòu)計算含義相同,都指在相同的高性能計算系統(tǒng)內(nèi)使用了多種處理器,尤其是搭配中央處理器使用的圖形處理器或其他加速器。
高性能計算:根據(jù)IDC的定義,術(shù)語“高性能計算”是指所有用來解決涉及大量計算或數(shù)據(jù)的技術(shù)計算服務(wù)器和機群。該術(shù)語指這些系統(tǒng)所在的市場和該市場內(nèi)的相關(guān)活動。它包括技術(shù)服務(wù)器,但是不包括用于技術(shù)計算的臺式機。
異構(gòu)計算為百億億次級時代帶來的實惠
異構(gòu)計算模式所帶來的高性能計算實惠是彼此相關(guān)的,這種模式解決了一些最重大的百億億次級計算難題:
系統(tǒng)成本。圖形處理器和相關(guān)加速器可實現(xiàn)極高的峰值運算性能和線性測試標(biāo)準(zhǔn)的每秒浮點運算次數(shù),帶來更高的投資回報。目前,高性能計算機構(gòu)目前都竭力在超級計算機500強榜單上占有一席之地,使用圖形處理器可大幅提升每秒浮點運算次數(shù),讓線性測試標(biāo)準(zhǔn)的運算性能達到前所未有的水平。中國的“天河 1A”超級計算機就同時使用了x86處理器和圖形處理器,并在2010年11月的500強榜單上獨占鰲頭。天河 1A 系統(tǒng)總共集成了14336顆x86中央處理器和7168顆圖形處理器。英偉達當(dāng)時表示,“如果僅使用中央處理器來實現(xiàn)同樣高的性能的話,那么所需中央處理器數(shù)量將為50000顆,設(shè)備占地面積將多出一倍”。截至 2011年6月,該榜單上排名前五的系統(tǒng)中有三個都使用了圖形處理器。如前文所述,2011年10月,美國能源部的Oak Ridge國家實驗室宣布打算將排名第一的美國超級計算機進行升級, 新系統(tǒng)降部署18000多顆 x86 中央處理器和同樣數(shù)量的圖形處理器,從而實現(xiàn)兩至三百億億次的峰值性能。 #p#page_title#e#
運算速度。高性能計算用戶表示,圖形處理器顯著提升了運算性能,通??蓪⑦\算速度提高三至十倍,尤其適合處理代碼或代碼片段,具有極強的數(shù)據(jù)并行性。圖形處理器已在實際的高性能計算應(yīng)用領(lǐng)域發(fā)揮了重要作用,尤其對生命科學(xué)、金融服務(wù)、天然氣和石油、產(chǎn)品涉及、制造業(yè)、數(shù)字內(nèi)容創(chuàng)建和分配領(lǐng)域有著巨大的貢獻。圖形處理器特別適合進行分子動力學(xué)模擬,可推動多個應(yīng)用領(lǐng)域的技術(shù)進步。
空間和計算密度。許多高性能計算數(shù)據(jù)中心曾一度接近能耗和空間極限,不過能實現(xiàn)極高峰值計算密度的圖形處理器可有助于解決這個問題。目前的圖形處理器通常包括512個計算內(nèi)核,相比之下同時代的中央處理器僅有4至16個內(nèi)核。但是,仍需注意的是,異構(gòu)計算之所以具有異構(gòu)特點是因為每種處理器,無論是中央處理器,還是加速器,均在問題求解過程中處理各自最擅長的工作。
能源成本。高性能計算系統(tǒng)規(guī)格的快速增大導(dǎo)致了對能源的需求急劇增加。如今規(guī)模最大的高性能計算數(shù)據(jù)中心所消耗的電力和一個小城市消耗的電力相當(dāng),百億億次級數(shù)據(jù)中心肯定會消耗更多電力,估計使用現(xiàn)有技術(shù)進行部署的話,能耗不會少于120兆瓦。能源部的百億億次級目標(biāo)為將部署百億億次級系統(tǒng)所需的電能降低至20兆瓦以內(nèi)。這樣就可以避免能源成本過多增加,并確保能從當(dāng)?shù)仉娋W(wǎng)獲得足夠的供電,也讓數(shù)據(jù)中心的空間需求保持在合理水平。在異構(gòu)計算配置中,圖形處理器是中央處理器的重要補充,不僅顯示出強大的數(shù)據(jù)并行性,同時還有助于顯著增加能源效率,快速處理大量的代碼子集
應(yīng)用壁壘
圖形處理器是一種相對較新的技術(shù),至少在計算領(lǐng)域是如此,目前在應(yīng)用過程中面臨很多壁壘,IDC預(yù)計隨著時間的推移,這些壁壘都會消除。高性能計算系統(tǒng)買家表示,在更大范圍內(nèi)部署圖形處理器的過程中,他們遇到了以下主要壁壘:
編程便利性。雖然目前市面上有很多有用的工具,比如CUDA和OpenCL,且波特蘭集團(Portland Group) 的基于指令的編譯器可以將Fortran語言或C語言代碼轉(zhuǎn)換為支持圖形處理器加速功能的代碼,但是高性能計算系統(tǒng)買家和最終用戶通常表示,相比于他們更熟悉的標(biāo)準(zhǔn) x86 處理器編程方法而言,針對圖形處理器進行編程仍然更具挑戰(zhàn)性。隨著編程人員對于圖形處理器編程方法越來越熟悉,這種障礙可能也會隨著時間推移而逐漸消除。如今,已經(jīng)有450家大學(xué)提供GPU課程,而GPU編程方法也不斷進步。
間接通訊。高性能計算系統(tǒng)用戶經(jīng)常遇到的另一個問題是,如今的圖形處理器通常是作為協(xié)處理器部署,需要通過數(shù)據(jù)傳輸速度相對較低的PCI Express通道與x86處理器或其他基礎(chǔ)處理器進行通訊,至少相比于在同一個模塊上集成中央處理器和圖形處理器的系統(tǒng)時便是如此。這種間接通訊會影響某些應(yīng)用。它導(dǎo)致高性能計算系統(tǒng)用戶在處理總量日益增加的應(yīng)用代碼時無法顯著縮短運算時間。
等待下一代中央處理器。有些高性能計算系統(tǒng)用戶認(rèn)為,相比于花時間學(xué)習(xí)圖形處理器編程方法并將他們自己的代碼片段運行于圖形處理器, 等待具有改進特性的下一代 x86 處理器是值得的。由于圖形處理器是可用于高性能計算的相對較新設(shè)備,有些用戶還擔(dān)心,如果圖形處理器架構(gòu)沿著新方向發(fā)展,或者圖形處理器只能在高性能計算市場上曇花一現(xiàn),那么他們就必須花費極大精力重新編寫代碼。隨著圖形處理器在全球高性能計算市場上發(fā)揮越來越大的重要影響,且基于指令的圖形處理器編程方法變得越來越普及,持拭目以待心態(tài)的用戶的數(shù)量已經(jīng)有所減少。
趨勢
如今,異構(gòu)計算模式通常會將圖形處理器作為協(xié)處理器搭配x86處理器使用,這是一種重要的新模式,相比于單純基于x86處理器的高性能計算系統(tǒng),目前其影響力正在與日俱增。
圖形處理器方興未艾的另一個重要標(biāo)志是與圖形處理器相關(guān)的學(xué)術(shù)文獻得到了廣泛的傳播。為業(yè)界提供并行編程培訓(xùn)材料的英偉達表示,57 個國家的478所大學(xué)目前已提供CUDA 并行編程語言課程, 其中包括麻省理工學(xué)院、哈佛大學(xué)、斯坦福大學(xué)、劍橋大學(xué)、牛津大學(xué)、印度理工學(xué)院、臺灣國立大學(xué)、中科院。 #p#page_title#e#
如前所述(參考“異構(gòu)計算為百億億次級時代帶來的實惠”章節(jié)),異構(gòu)計算對于大型高性能計算機構(gòu)非常有吸引力,這些機構(gòu)正在計算科學(xué)和工程學(xué)領(lǐng)域開展深度研究,并面臨能耗和空間的限制。因此,異構(gòu)計算作為在這個十年的末期將開始的百億億次級計算時代的新模式對它們來說尤其具有吸引力。與此同時,越來越多的小型研究機構(gòu)和工業(yè)組織也逐漸開始使用集成了圖形處理器的異構(gòu)計算系統(tǒng)。
需要謹(jǐn)記的是,x86處理器技術(shù)仍有發(fā)展空間,截至2015年,即當(dāng)前IDC高性能計算預(yù)測期結(jié)束之時,仍然會在收入方面保持在高性能計算領(lǐng)域的領(lǐng)先地位。此外,越來越多的供應(yīng)商將會提供更為豐富的加速器技術(shù),以滿足客戶的多種需求。
結(jié)論
如今的異構(gòu)計算系統(tǒng)將圖形處理器作為協(xié)處理器搭配x86處理器使用,它已成為全球高性能計算市場上的一種重要新興模式,尤其可用于應(yīng)對百億億次級計算時代的巨大挑戰(zhàn)。IDC認(rèn)為,異構(gòu)計算對于實現(xiàn)這個十年的百億億次級計算目標(biāo)不可或缺。
圖形處理器正在迅速擺脫試驗階段,目前可用于執(zhí)行更多面向生產(chǎn)的任務(wù),比如地震數(shù)據(jù)處理、生物化學(xué)模擬、天氣和氣候建模、金融計算、計算流體動力學(xué)、數(shù)據(jù)分析領(lǐng)域的任務(wù)。僅在過去兩年內(nèi),高性能計算機構(gòu)對于圖形處理器的應(yīng)用量就已經(jīng)增加了兩倍。圖形處理器對于這些機構(gòu)在業(yè)界密切關(guān)注的超級計算機 500 強榜單上占據(jù)顯著地位發(fā)揮著不可或缺的作用,并幫助實現(xiàn)了更多真實世界的研究成果。
一些全球領(lǐng)先的高性能計算機構(gòu)已采用了異構(gòu)處理模式,這表明該模式正在走出試驗階段,圖形處理器已日益能夠勝任一些面向生產(chǎn)的關(guān)鍵任務(wù)。
當(dāng)圖形處理器硬件和軟件技術(shù)不斷前進時,越來越多的大學(xué)生和其他人也開始學(xué)習(xí)如何利用圖形處理器。隨著越來越多的圖形處理器可供全球最具創(chuàng)新力的科技、工程、計算領(lǐng)域?qū)I(yè)人士使用,IDC 相信,圖形處理器會在全球高性能計算市場發(fā)揮越來越大的作用,成為高性能計算生態(tài)體系內(nèi)x86處理器的有力補充。