英特爾描繪HPC的多核與眾核藍(lán)圖
在今年的國際超級計(jì)算機(jī)會(huì)議上有很多關(guān)于多核架構(gòu)與億億次級計(jì)算的討論——這兩個(gè)主題似乎是密切關(guān)聯(lián)的。但隨著各種團(tuán)體迅猛的朝著這個(gè)億億次級里程碑邁進(jìn),可以明確的是x86多核CPU的自然發(fā)展不會(huì)使業(yè)界離這個(gè)目標(biāo)太遠(yuǎn)。眾核GPGPU(通用GPU),另一方面也顯現(xiàn)出是一種切實(shí)可行的實(shí)現(xiàn)億億級計(jì)算的途徑。那么Intel的“少GPU”技術(shù)意味著什么呢?
簡言之,Intel對GPGPU的回應(yīng)是它的新超多核心架構(gòu)(MIC)。MIC是今年夏天在德國召開的國際超級計(jì)算機(jī)會(huì)議(ISC`10)上提出的,是Larrabee技術(shù)的再利用,該技術(shù)原先是Intel為高端顯卡和虛擬化市場而開發(fā)的。當(dāng)Intel發(fā)現(xiàn)努力的結(jié)果并不能帶來與NVIDIA及AMD發(fā)布的GPU的競爭力時(shí),于是就放棄了該計(jì)劃,并將技術(shù)加以改造成為一種HPC加速器。
英特爾高性能計(jì)算業(yè)務(wù)總經(jīng)理Rajeeb Hazra在英特爾有15年的工作經(jīng)驗(yàn),今年7月他接替Richard Dracott擔(dān)任HPC業(yè)務(wù)總經(jīng)理的一職。在這之前,Hazra是超級計(jì)算架構(gòu)與設(shè)計(jì)(SAP)部的主管,主要負(fù)責(zé)高端平臺(tái)的架構(gòu)設(shè)計(jì),即petaflop和exaflop計(jì)算。他向我們深入介紹了Intel的高性能計(jì)算戰(zhàn)略。
他在超級計(jì)算部的經(jīng)歷是偶然的,考慮到Intel在服務(wù)器市場最大的挑戰(zhàn)可能就是為高性能計(jì)算的重點(diǎn)部分交付產(chǎn)品。如今,從10大超級計(jì)算機(jī)到集群,再到下面的高性能客戶機(jī),Intel已成為HPC所有平臺(tái)主要的處理器供應(yīng)商。該計(jì)劃還將延續(xù)下去。Hazra表示:“我們的目標(biāo)是推進(jìn)高性能計(jì)算市場的革新,從高端的超級計(jì)算到批量工作站,根本上推動(dòng)所有類型高性能計(jì)算的發(fā)展。”
Intel的MIC架構(gòu)是其中最主要的部分。Hazra表示,MIC架構(gòu)是未來10年或更長遠(yuǎn)的眾核處理器設(shè)計(jì)的基礎(chǔ)。但首先他們必須擊中一個(gè)移動(dòng)目標(biāo)。在過去三年,通用GPU進(jìn)入高性能計(jì)算領(lǐng)域的快速擴(kuò)展已經(jīng)給NVIDIA——以及較低程度的AMD——一個(gè)十分有利的開端。
到10月份為止,世界上最快的超級計(jì)算機(jī)天河1號(hào)A,采用的是GPU-CPU的混合架構(gòu)。該計(jì)算機(jī)在 Linpack測試中達(dá)到的速度為2.5 petaflops,超過半數(shù)以上的性能都是由GPU提供。另外還有其他少數(shù)由GPU提供強(qiáng)大支撐的TOP100入榜超級計(jì)算機(jī),更多的則還在研發(fā)中。如果Intel對GPGPU沒有切實(shí)可行的替代選擇的話,它的芯片將會(huì)被降級到在未來很多超級計(jì)算機(jī)——更不用說主流集群和高性能工作站——中扮演支持的角色。
盡管MIC是一個(gè)改良的x86產(chǎn)品并且與GPGPU是完全不同的體系結(jié)構(gòu),但它的目標(biāo)也是解決同樣的問題——也就是在高效能的封裝中獲得更高的浮點(diǎn)性能。MIC也計(jì)劃可以像GPU那樣的方式使用,也就是作為一個(gè)連接傳統(tǒng)x86處理器的浮點(diǎn)加速器。一般的思路是這兩種架構(gòu)都使用高度并行和簡單核心來使每瓦特釋放能多的性能。
對任何HPC平臺(tái)來講那都是有價(jià)值的特性,但是對于下一代數(shù)萬億次級別(multi-petaflop)的超級計(jì)算機(jī)來說將是決定性的。Hazra表明在過去10年中,TOP100超級計(jì)算機(jī)取得的性能提升主要是借助橫向擴(kuò)展模型,也就是增加更多的處理器和更多的結(jié)點(diǎn)。新的CPU架構(gòu)稍稍改變了每瓦性能曲線的斜率,但是系統(tǒng)普遍變大了,因此會(huì)消耗更多的電量。
這種情況不會(huì)持續(xù)很多年。消耗300兆瓦的電量來建立一個(gè)500petaflop的系統(tǒng)是不實(shí)際的。傳統(tǒng)的觀念是對于單獨(dú)的機(jī)器來說,電力消耗上限應(yīng)介于20-40兆瓦之間。所以你不能只是凌駕于現(xiàn)有至強(qiáng)或者皓龍?zhí)幚砥鞯男阅芮€之上,期望為這些未來系統(tǒng)提供所需的性能。Hazra承認(rèn):“展望未來5到10年時(shí),那些系統(tǒng)將會(huì)有一些重要的轉(zhuǎn)折點(diǎn)。”
Intel想要實(shí)現(xiàn)類似于GPGPU的每瓦性能,這將會(huì)在x86架構(gòu)內(nèi)展開。Hazra表示,這將允許應(yīng)用程序從單線程代碼轉(zhuǎn)變到高度并行的代碼,且不用改變基礎(chǔ)模型。Intel將會(huì)為產(chǎn)品提供編譯器和運(yùn)行軟件的支持,如果它取得商業(yè)成功,其他廠商將會(huì)毫無疑問的添加他們的產(chǎn)品。Intel也將會(huì)在Xeon及MIC的產(chǎn)品上提供一套通用的開發(fā)工具,兩種架構(gòu)的差別也囊括在了該工具中。目標(biāo)是能夠?qū)θ魏蝬86的源碼進(jìn)行重新編譯,并使其自動(dòng)處理MIC指令。 #p#page_title#e#
這種思想,很顯然是為了最大程度提高程序員的生產(chǎn)效率——不僅是對新代碼,也是對代表了幾年甚至幾十年投資的傳統(tǒng)代碼。在這方面Intel似乎有優(yōu)勢。雖然Xeon-MIC混合架構(gòu)仍然是一個(gè)異構(gòu)平臺(tái),它將會(huì)變得更加趨近同構(gòu),至少從一個(gè)指令方面來講,要比Xeon-GPGPU平臺(tái)要強(qiáng)。Hazra相信他們在Intel x86框架下所追求的路線將會(huì)允許他們提供一個(gè)更加平衡的異構(gòu)系統(tǒng)。如果Intel能夠真正地實(shí)現(xiàn)從多核Xeon到眾核MIC的轉(zhuǎn)型,并且將其中的麻煩和難題減至最少,那么他們將擁有一個(gè)引人注目的HPC加速器產(chǎn)品。Hazra表示:“我們相信,隨著越來越多的應(yīng)用和算法能夠利用并行化技術(shù),MIC架構(gòu)將成為一個(gè)主力。”
代號(hào)為“Knights Corner”的第一款MIC產(chǎn)品采用了Intel的22nm制程工藝生產(chǎn)??紤]到22nm晶圓極有可能用來開發(fā)批量出貨的芯片,所以我們可能在2012年以前看不到第一款MIC產(chǎn)品問世。Knights Corner是由50個(gè)核心組成的芯片,但是Intel并沒有提供任何評估性能度量標(biāo)準(zhǔn)。
與此同時(shí),Intel將繼續(xù)發(fā)展其多核Xeon生產(chǎn)線,貫穿企業(yè)和“批量”HPC市場。并不是每個(gè)HPC應(yīng)用都需要眾核加速器,對于那些更加匹配粗粒并行或者專門面向單線程執(zhí)行的代碼組,Xeons芯片就是最佳的選擇。
Xeon生產(chǎn)線將會(huì)繼續(xù)使用Intel用在其主流的x86處理器上、12個(gè)月為周期的tick-tock開發(fā)策略。不過根據(jù)Hazra所言,MIC步調(diào)會(huì)很慢,大約18-24月的樣子,雖然在這樣的情況下每個(gè)處理器更新要囊括更多架構(gòu)上的變化。這種時(shí)間策略與NVIDIA和AMD固定的GPGPU提供速度緊密一致,并在很大程度上理應(yīng)得到相對低容量的加速器。
最大的未知數(shù),就是Intel能否及時(shí)交付產(chǎn)品來逆轉(zhuǎn)GPGPU。NVIDIA與AMD擁有三年的領(lǐng)先優(yōu)勢,當(dāng)?shù)谝豢钌虡I(yè)MIC芯片問市之時(shí),這個(gè)差距甚至還會(huì)擴(kuò)大到五年。Intel不需要依靠這些眾核產(chǎn)品的成功來取得再次成功,但是它在HPC上的抱負(fù)似乎卻與其緊密相關(guān)。2010年將是值得關(guān)注的一年