峰值14萬(wàn)億次 生命科學(xué)浮點(diǎn)運(yùn)算需求高漲
日前,采用刀片架構(gòu)的浪潮天梭10000在北京生命科學(xué)研究所上線運(yùn)行,這套高性能計(jì)算系統(tǒng)峰值計(jì)算能力超過14萬(wàn)億次,成為我國(guó)生命科研領(lǐng)域浮點(diǎn)計(jì)算能力的新高峰,相比原有系統(tǒng),作業(yè)運(yùn)行時(shí)間減少了50%以上,有效提高了該所的科研效率。
性能與需求的“超車”比賽
生命科學(xué)作為一門在農(nóng)業(yè)、醫(yī)藥、環(huán)保等領(lǐng)域有著廣泛應(yīng)用的實(shí)驗(yàn)科學(xué),對(duì)高性能計(jì)算有著高度依賴。無(wú)論是蛋白質(zhì)模擬還是海量基因數(shù)據(jù)的收集、篩選與排序,都離不開具有強(qiáng)大運(yùn)算能力的高性能計(jì)算平臺(tái)。而在我國(guó)生命科學(xué)飛速發(fā)展的背景下,高性能計(jì)算在生命科研領(lǐng)域的應(yīng)用也正在邁上新的水平。
組建于2003年的北京生命科學(xué)研究所,是我國(guó)政府在新世紀(jì)推動(dòng)生命科學(xué)技術(shù)快速發(fā)展的重要戰(zhàn)略布局之一。與國(guó)內(nèi)傳統(tǒng)科研院所不同,北京生科所采用與國(guó)際接軌的管理和運(yùn)行機(jī)制,以全球一流的科研人員為班底,進(jìn)行原創(chuàng)性的生命科學(xué)的基礎(chǔ)研究和人才培養(yǎng)。目前,該所已經(jīng)成立了包括10位諾貝爾獎(jiǎng)獲得者在內(nèi)的24位國(guó)內(nèi)外知名專家組成的科學(xué)指導(dǎo)委員會(huì),在《細(xì)胞》、《科學(xué)》、《自然》等國(guó)際一流學(xué)術(shù)刊物上發(fā)表高水平論文數(shù)十篇。其雄厚的科研實(shí)力在國(guó)際生命科學(xué)界占有一席之地。
與其在體制探索和業(yè)務(wù)創(chuàng)新上的“大跨步”一脈相承,北京生科所在構(gòu)建硬件計(jì)算平臺(tái)方面也走在了業(yè)界的前列。2008年初,北京生科所引入了被稱為“中國(guó)45nm四核第一單”的浪潮天梭TS10000高性能計(jì)算集群。這套包含102個(gè)計(jì)算節(jié)點(diǎn)的高性能計(jì)算系統(tǒng)采用了當(dāng)時(shí)最先進(jìn)的Intel 45nm四核處理器,浮點(diǎn)運(yùn)算能力達(dá)到6.5萬(wàn)億次,將蛋白質(zhì)模擬等作業(yè)的運(yùn)行效率提升了幾十倍,以前需要幾天時(shí)間的任務(wù),該系統(tǒng)幾小時(shí)就能完成。
對(duì)于一年前引進(jìn)的這套計(jì)算系統(tǒng),科研所的相關(guān)負(fù)責(zé)人給予了高度評(píng)價(jià),平臺(tái)運(yùn)行一年來(lái)一直運(yùn)行穩(wěn)定,從未出現(xiàn)任何技術(shù)故障,同時(shí)浪潮還提供了免費(fèi)的技術(shù)咨詢和機(jī)房遷移服務(wù),這些對(duì)于該所科研效率的提升起到很大的作用。但由于業(yè)務(wù)量的不斷加大,平臺(tái)的運(yùn)算能力逐漸接近了瓶頸。據(jù)該負(fù)責(zé)人介紹,系統(tǒng)建成以來(lái),這套天梭高性能系統(tǒng)一直處于飽和狀態(tài),經(jīng)常同時(shí)運(yùn)行100-200個(gè)作業(yè),300-400個(gè)作業(yè)在排隊(duì),科研所決定在該系統(tǒng)的基礎(chǔ)上進(jìn)行擴(kuò)容。
優(yōu)中選優(yōu) 用性能說(shuō)話
在系統(tǒng)招標(biāo)初期,該所要求各投標(biāo)廠商先期提供設(shè)備進(jìn)行測(cè)試,目前實(shí)驗(yàn)室的主要應(yīng)用有用于分子對(duì)接的DOCK軟件,以及蛋白質(zhì)分子模擬軟件CHARMM等。其中CHARMM是一個(gè)被廣泛承認(rèn)并應(yīng)用的分子動(dòng)力學(xué)模擬程序,主要用于生物大分子的模擬,包括能量最小化,分子動(dòng)力學(xué)和蒙特卡羅模擬等,測(cè)試方案是用生命所最常用的軟件Charmm對(duì)各家機(jī)器進(jìn)行Benchmark測(cè)試,并根據(jù)實(shí)際運(yùn)行時(shí)間和IO能力進(jìn)行綜合打分,以作為評(píng)標(biāo)參考。
北京生命科學(xué)研究所作為浪潮的老客戶,浪潮對(duì)其應(yīng)用非常熟悉,技術(shù)團(tuán)隊(duì)從方案和部件本身都做了精心的準(zhǔn)備。大規(guī)模的集群系統(tǒng),功耗和密度是每一位用戶面臨的巨大問題,方案首先選擇了高密度、低功耗的NX7100DB刀片服務(wù)器作為節(jié)點(diǎn),在7U空間內(nèi)集成10個(gè)刀片,支持冗余千兆以太網(wǎng)和infiniband交換技術(shù),性能強(qiáng)勁;同時(shí),浪潮技術(shù)團(tuán)隊(duì)從硬盤I/O、硬件系統(tǒng)、軟件環(huán)境等多個(gè)層次進(jìn)行了數(shù)十次測(cè)試優(yōu)化工作,其中針對(duì)硬盤的優(yōu)化和測(cè)試,就高達(dá)20次,對(duì)操作系統(tǒng)的驗(yàn)證,達(dá)到近20個(gè)不同版本,最終采用了Redhat Linux AS5.0操作系統(tǒng),并對(duì)其參數(shù)進(jìn)行了大量?jī)?yōu)化工作,方案搭建完成后,浪潮方案開發(fā)實(shí)驗(yàn)室采用支持OpenMP的Intel編譯器,高性能數(shù)學(xué)庫(kù),VTune等性能調(diào)優(yōu)工具圍繞CHARMM等客戶應(yīng)用軟件做了進(jìn)一步的優(yōu)化工作,將系統(tǒng)性能值進(jìn)一步提高了30%以上。
結(jié)果在由生科所主持的CHARMM以及系統(tǒng)I/O性能測(cè)試中,浪潮在4家廠商送測(cè)的5款產(chǎn)品中以絕對(duì)優(yōu)勢(shì)勝出,在同處理器配置下兩項(xiàng)成績(jī)高出平均水平20%以上,實(shí)測(cè)系統(tǒng)I/O速度高達(dá)87.5MB/S,浪潮天梭高性能 #p#page_title#e#解決方案一舉勝出。
高密度 高性能 生命探索新引擎
基于NX7100DB刀片服務(wù)器的浪潮天梭TS10000高性能計(jì)算系統(tǒng)具有高密度、易維護(hù)、易擴(kuò)展等特點(diǎn)。該集群在有限的空間內(nèi)部署了100個(gè)計(jì)算節(jié)點(diǎn),能夠提供多達(dá)800顆計(jì)算核心,峰值計(jì)算能力達(dá)到7.5萬(wàn)億次,計(jì)入已有的102節(jié)點(diǎn),峰值能力達(dá)到14萬(wàn)億次,成為生命科學(xué)領(lǐng)域的第一個(gè)浮點(diǎn)高峰。100個(gè)刀片節(jié)點(diǎn),僅占用10個(gè)機(jī)箱空間,實(shí)際部署不到3個(gè)機(jī)架。隨機(jī)配送的浪潮天梭監(jiān)控管理軟件針對(duì)服務(wù)器節(jié)點(diǎn)的運(yùn)行狀態(tài),實(shí)現(xiàn)實(shí)時(shí)監(jiān)控和管理,發(fā)現(xiàn)故障時(shí)在控制臺(tái)端向管理員報(bào)警,為系統(tǒng)管理員提供了一個(gè)統(tǒng)一、集中、可視化、跨平臺(tái)的遠(yuǎn)程管理環(huán)境。
生命科學(xué)研究所的相關(guān)負(fù)責(zé)人表示,他們的研究方向涉及生命科學(xué)、計(jì)算化學(xué)等多個(gè)領(lǐng)域,對(duì)高性能設(shè)備具有很強(qiáng)的依賴性,科研進(jìn)度受平臺(tái)性能影響很大,浪潮天梭的上線使得計(jì)算效率提升了一倍有余,這對(duì)他們搶占生命科學(xué)前沿領(lǐng)域具有重要意義。