沖擊超級(jí)計(jì)算機(jī)Top500 曙光總裁詳解“星云”
今年國(guó)內(nèi)最矚目的HPC產(chǎn)品莫過(guò)于超千萬(wàn)億次的曙光“星云”超級(jí)計(jì)算機(jī),其設(shè)計(jì)之初定位于千萬(wàn)億次性能,計(jì)劃采用基于x86架構(gòu)的模塊化刀片服務(wù)器。由于一年兩度的Top 500全球超級(jí)計(jì)算機(jī)排行榜即將發(fā)布(一般是在每年6月和12月),而曙光“星云”超級(jí)計(jì)算機(jī)正在加緊調(diào)試和沖擊最高性能(超算的評(píng)測(cè)需要很長(zhǎng)的調(diào)試時(shí)間已達(dá)到最佳性能)。記者日前就最新一款基于模塊化服務(wù)器的國(guó)產(chǎn)超千萬(wàn)億次計(jì)算機(jī)采訪(fǎng)了曙光公司總裁歷軍先生。
曙光千萬(wàn)億次超級(jí)計(jì)算機(jī)定名“星云”
“超級(jí)計(jì)算機(jī)中有‘星群’概念,與以往集群不同,星群的每一個(gè)節(jié)點(diǎn)都很強(qiáng),這樣匯聚起來(lái)就像一個(gè)燦爛的光球。另外,云計(jì)算現(xiàn)在是熱門(mén)的概念,而超級(jí)計(jì)算機(jī)是云計(jì)算的重要組成部分,‘星云’在投入運(yùn)行之后將擔(dān)當(dāng)云計(jì)算中心的重要角色。這就是曙光千萬(wàn)億次超級(jí)計(jì)算機(jī)命名為星云的原因。”曙光公司總裁歷軍先生解釋了星云名稱(chēng)的來(lái)歷。
前不久,溫家寶總理視察曙光天津產(chǎn)業(yè)基地時(shí)表示,加大結(jié)構(gòu)調(diào)整力度,要加大戰(zhàn)略性新興產(chǎn)業(yè)的發(fā)展。而曙光“星云”千萬(wàn)億次的通用計(jì)算能力再次證明了,中國(guó)最大的潛力在于我們的智慧和創(chuàng)造力,和勇于突破難關(guān)的堅(jiān)韌不拔。(引自中央電視臺(tái)《新聞聯(lián)播》)
“總理的話(huà)說(shuō)到我們心里去了,從1995年曙光1000每秒25億次的超級(jí)計(jì)算機(jī),到現(xiàn)在千萬(wàn)億次超算的實(shí)現(xiàn),短短15年間超算性能提升了40萬(wàn)倍。”歷總感慨良多:“在多次進(jìn)入前10名之后,今年TOP 500曙光‘星云’超級(jí)計(jì)算機(jī)將努力沖擊,爭(zhēng)取更好成績(jī)。”據(jù)了解,“星云”超級(jí)計(jì)算機(jī)將繼續(xù)在天津曙光產(chǎn)業(yè)基地調(diào)試,并于年底交付國(guó)家深圳超算中心。
配置性能揭秘 “星云”與“天河”區(qū)別明顯
曙光“星云”超級(jí)計(jì)算機(jī)和“天河一號(hào)”的主要區(qū)別有兩方面:一是架構(gòu)上天河一號(hào)主要是GPU計(jì)算+x86處理器;而“星云”是模塊化服務(wù)器(按計(jì)算需求自行選擇主要計(jì)算組件)——前者是眾核計(jì)算做并行處理,后者是國(guó)產(chǎn)模塊化刀片服務(wù)器(x86處理器+GPU計(jì)算卡)的異構(gòu)體系。第二方面是可靠性方面,眾所周知傳統(tǒng)GPU計(jì)算在可靠性方面由于缺乏ECC奇偶效驗(yàn)等RAS特性因此計(jì)算可靠性被人詬病;而“星云”中由于采用的是模塊化服務(wù)器,每節(jié)點(diǎn)可容納10塊GPU計(jì)算卡,因而在較重要的節(jié)點(diǎn)可實(shí)現(xiàn)多卡冗余的計(jì)算模式(互相比對(duì)),保證了數(shù)據(jù)可靠性。
從性能上來(lái)看,“天河一號(hào)”的峰值性能在千萬(wàn)億次,平均Linpack性能在500多萬(wàn)億次。而“星云”超級(jí)計(jì)算機(jī)的實(shí)測(cè)性能平均在千萬(wàn)億次——全球之前只有“走鵑”和“Jaguar”達(dá)到了平均千萬(wàn)億次的性能。從實(shí)用角度看,“星云”超級(jí)計(jì)算機(jī)的效能名列前茅,是一臺(tái)通用性超級(jí)計(jì)算機(jī)——已有的x86處理器的強(qiáng)大生態(tài)環(huán)境和可根據(jù)應(yīng)用調(diào)整的模塊化服務(wù)器提供了保證。
據(jù)記者了解,“星云”超級(jí)計(jì)算機(jī)采用的是曙光最新的SSI模塊化刀片服務(wù)器TC3600作為節(jié)點(diǎn)();網(wǎng)絡(luò)方面采用了QDR Infiniband模塊(最高速率的互聯(lián)模塊);此外,由于TC3600的I/O擴(kuò)展性,每個(gè)節(jié)點(diǎn)還配備了10個(gè)GPU計(jì)算卡,在針對(duì)“華大基因”這類(lèi)公司的微生物計(jì)算方面擁有明顯優(yōu)勢(shì)。
應(yīng)用豐富 “星云”未來(lái)是云計(jì)算中心
對(duì)于很多人質(zhì)疑這類(lèi)超級(jí)計(jì)算機(jī)應(yīng)用是否跟得上的問(wèn)題。歷總表示,曙光5000“魔方”以20倍的計(jì)算性能提升取代了曙光4000。而進(jìn)駐上海超算的當(dāng)天,“魔方”就掛載了30%的負(fù)載,去年已經(jīng)全部滿(mǎn)載并開(kāi)始計(jì)算任務(wù)排隊(duì)??梢?jiàn)國(guó)內(nèi)超級(jí)計(jì)算的需求在不斷增長(zhǎng)—— #p#page_title#e#
“沒(méi)有機(jī)器,就沒(méi)有人做應(yīng)用,也就沒(méi)有企業(yè)來(lái)用超算解決問(wèn)題。”歷總認(rèn)為,“從歷史經(jīng)驗(yàn)來(lái)看,曙光每一臺(tái)機(jī)器推出一年之后就滿(mǎn)負(fù)載運(yùn)行。因此我們總結(jié)出鐵律:先有機(jī)器,應(yīng)用才能跟上來(lái),企業(yè)才能解決問(wèn)題。整個(gè)高性能計(jì)算產(chǎn)業(yè)也就發(fā)展起來(lái)。”
此外,歷總還表示,目前業(yè)界達(dá)成共識(shí)的是未來(lái)云計(jì)算時(shí)代的必然趨勢(shì)。而星云作為一臺(tái)均衡的通用性系統(tǒng),在承載高負(fù)荷單應(yīng)用時(shí)擁有超級(jí)計(jì)算性能,而當(dāng)未來(lái)面向云計(jì)算的多用戶(hù)多應(yīng)用計(jì)算時(shí),也可以將計(jì)算資源最大化的切分,成為一個(gè)云計(jì)算中心。
“星云”與“魔方”的重要區(qū)別在于,“魔方”還處在高性能計(jì)算中心階段,提供計(jì)算能力。而“星云”更多的提供的是服務(wù),其未來(lái)云計(jì)算中心的定位也使其應(yīng)用將遠(yuǎn)超過(guò)以往的超級(jí)計(jì)算機(jī)。歷總引用深圳市領(lǐng)導(dǎo)的話(huà)表示,這是深圳近來(lái)最大的高科技投入,而目前已經(jīng)有大量客戶(hù)在排隊(duì)等待使用“星云”。
歷軍總結(jié)表示,曙光千萬(wàn)億次計(jì)算機(jī)問(wèn)世后,國(guó)產(chǎn)高性能計(jì)算機(jī)將實(shí)現(xiàn)兩大突破:一是采用國(guó)產(chǎn)模塊化刀片服務(wù)器(我國(guó)第一個(gè)模塊化刀片服務(wù)器)將具有劃時(shí)代的偉大意義;二是高性能計(jì)算機(jī)現(xiàn)有的機(jī)群體系結(jié)構(gòu)將在千萬(wàn)億次時(shí)代實(shí)現(xiàn)改變——自主研發(fā)的高密度異構(gòu)(x86+GPU)超級(jí)計(jì)算機(jī)。“這是中國(guó)速度(曙光5000宣傳語(yǔ))向世界速度(期待星云TOP500取得好成績(jī))的跨越。”(孟慶)