深度計(jì)算5大挑戰(zhàn) 探索生命的奧秘
生命的奧秘是無(wú)窮的,在探索生命的過(guò)程中,強(qiáng)大的高性能計(jì)算機(jī)(HPC)也是必不可少的。隨著基于基因、蛋白質(zhì)和DNA的微觀(guān)生命科學(xué)研究越深入、應(yīng)用面越廣,計(jì)算機(jī)和信息技術(shù)的作用也越大,許多最大規(guī)模的超級(jí)計(jì)算機(jī)和集群系統(tǒng)都應(yīng)用于這一領(lǐng)域。從親子鑒定到藥物篩選再到H1N1流感疫苗研制等等,都離不開(kāi)生命科學(xué)和背后的超級(jí)計(jì)算機(jī)。
據(jù)統(tǒng)計(jì),生命科學(xué)領(lǐng)域的數(shù)據(jù)量平均每12個(gè)月就增加一倍,比摩爾定律,即計(jì)算性能每18個(gè)月增長(zhǎng)一倍,還要快很多,這些數(shù)據(jù)量動(dòng)輒都以TB來(lái)衡量。要處理如此海量的數(shù)據(jù),往往需要?jiǎng)佑妹棵?0萬(wàn)億次乃至百萬(wàn)億次的超級(jí)計(jì)算機(jī)集群,以及幾十TB、甚至上千TB的存儲(chǔ)系統(tǒng)。
更具挑戰(zhàn)性的是,和天氣預(yù)報(bào)、石油勘探等只有幾種軟件不同,生命科學(xué)的計(jì)算軟件非常多,以中科院北京基因組研究所為例,就擁有100多種軟件,這些軟件對(duì)于計(jì)算機(jī)系統(tǒng)的要求各不相同,有的屬于計(jì)算密集型、有的需要大內(nèi)存,有的則需要進(jìn)行頻繁的磁盤(pán)讀寫(xiě)或網(wǎng)絡(luò)IO通信。用戶(hù)又不可能為每一種軟件去定制一套集群系統(tǒng),現(xiàn)實(shí)情況往往要求集群系統(tǒng)可以同時(shí)能夠支持多種計(jì)算軟件。
浪潮集團(tuán)高性能事業(yè)部總經(jīng)理劉軍談到,生命科學(xué)計(jì)算獨(dú)特的應(yīng)用需求決定了,在該領(lǐng)域用戶(hù)在進(jìn)行高性能計(jì)算集群方案選型與測(cè)試、系統(tǒng)擴(kuò)展、海量數(shù)據(jù)存儲(chǔ)管理、大規(guī)模系統(tǒng)和作業(yè)管理、應(yīng)用優(yōu)化等方面面臨諸多挑戰(zhàn)。
挑戰(zhàn)1:應(yīng)用繁雜多樣 哪種系統(tǒng)最適用?
由于軟件眾多,應(yīng)用不一,因此需要根據(jù)用戶(hù)主流應(yīng)用軟件的特征進(jìn)行量身定制高性能計(jì)算系統(tǒng)架構(gòu)和配置,而不是簡(jiǎn)單地采用通用的集群系統(tǒng)。中科院北京基因組研究所胡松年博士談到,選擇高性能計(jì)算機(jī)其實(shí)比選基因測(cè)序儀要復(fù)雜得多。北京基因組研究所每月單純的數(shù)據(jù)產(chǎn)量會(huì)超過(guò)1TB,目前還無(wú)法保存圖像文件,海量數(shù)據(jù)存儲(chǔ)一直是難題,而且是軟件多達(dá)100多種,加上很多用戶(hù)自編的程序,對(duì)存儲(chǔ)、IO、內(nèi)存、并行化等方面都有不同的要求。
據(jù)英特爾中國(guó)公司高性能計(jì)算工程師喬楠介紹,為了幫助高性能計(jì)算用戶(hù)方案選型,英特爾和浪潮一起花了大半年時(shí)間進(jìn)行典型應(yīng)用的性能特征分析,對(duì)包括BLAST、VASP、Gaussian 03、CPMD、Amber 10、Gromacs 4.0、Wien2k、Espresso等十幾種軟件,從影響節(jié)點(diǎn)內(nèi)擴(kuò)展性的“每核內(nèi)存使用率和帶寬”、影響節(jié)點(diǎn)間擴(kuò)展性的磁盤(pán)IO和網(wǎng)絡(luò)消息傳遞,影響軟件優(yōu)化潛力空間的CPU向量化、CPI等指標(biāo)進(jìn)行測(cè)試比較,以此來(lái)了解不同應(yīng)用的關(guān)鍵特性。然后分析CPU、內(nèi)存、磁盤(pán)、網(wǎng)絡(luò)等硬件本身的特性,如在每核內(nèi)存帶寬上限方面,至強(qiáng)5400是1GB/s、至強(qiáng)5500則是4.5GB/s。再通過(guò)對(duì)軟件應(yīng)用特性和硬件特性進(jìn)行對(duì)比,基本能確定適用的配置標(biāo)準(zhǔn)。比如BLAST軟件對(duì)系統(tǒng)的IO要求很高,需要大內(nèi)存,而Gromacs則MPI通信頻繁,浮點(diǎn)運(yùn)算量也大,但對(duì)內(nèi)存的要求較小,又如基因拼接往往需要大內(nèi)存的胖節(jié)點(diǎn)等等。
胡松年表示,基因組測(cè)序的復(fù)雜計(jì)算即便中科院超算中心、上海超算中心以及IBM、HP等國(guó)內(nèi)的工程師都沒(méi)有相關(guān)的經(jīng)驗(yàn),浪潮的前期扎實(shí)的測(cè)試為方案選型提供了很好的幫助。
挑戰(zhàn)2:數(shù)據(jù)爆炸增長(zhǎng) 系統(tǒng)未來(lái)如何擴(kuò)展?
雖然目前我國(guó)在生物信息學(xué)研究、DNA測(cè)序能力方面已處于世界前列,但與國(guó)際上相比,對(duì)基因組數(shù)據(jù)的分析處理和利用能力,包括計(jì)算能力則存在較大差距。目前,國(guó)外分析生命科學(xué)的海量數(shù)據(jù)普遍會(huì)使用數(shù)百萬(wàn)億次規(guī)模的超級(jí)計(jì)算機(jī),而我國(guó)的許多科研機(jī)構(gòu)的高性能計(jì)算規(guī)模一般為幾萬(wàn)億次。同時(shí),為了滿(mǎn)足未來(lái)數(shù)據(jù)量的爆炸增長(zhǎng),及隨之而來(lái)的大規(guī)模處理能力和存儲(chǔ)容量,要求系統(tǒng)有較高的可擴(kuò)展性。
胡松年也談到,現(xiàn)在基因組研究所10萬(wàn)億次的計(jì)算機(jī)規(guī)模還遠(yuǎn)遠(yuǎn)不夠,因?yàn)樽鲆粚?duì)染色體的基因測(cè)序,就需要十幾天時(shí)間,會(huì)大大影響科研項(xiàng)目的進(jìn)展。在存儲(chǔ)方面,目前還只能保存測(cè)序文件,無(wú)法保證更大的圖像文件。除了未來(lái)對(duì)現(xiàn)在系統(tǒng)進(jìn)一步擴(kuò)容之外,研究所也在嘗試其他各種辦法,比如,在浪潮的幫助下,將BLAST計(jì)算遷移至GPU平臺(tái)上去;進(jìn)行軟件算法的優(yōu)化,提高現(xiàn)有資源的利用率;加入中科院超級(jí)計(jì)算網(wǎng)格環(huán)境,從中科院超算中心租用計(jì)算存儲(chǔ)資源,但又面臨性能不夠、作業(yè)協(xié)調(diào)管理、系統(tǒng)不匹配、TB級(jí)大數(shù)據(jù)量網(wǎng)絡(luò)傳輸可靠性無(wú)法保證等現(xiàn)實(shí)難題;另外也關(guān)注云計(jì)算、網(wǎng)格等,但這些虛擬、遠(yuǎn)程計(jì)算在網(wǎng)絡(luò)傳輸、資源管理、平臺(tái)適應(yīng)性方面也同樣困難重重。 #p#page_title#e#