深度計算5大挑戰(zhàn) 探索生命的奧秘
生命的奧秘是無窮的,在探索生命的過程中,強(qiáng)大的高性能計算機(jī)(HPC)也是必不可少的。隨著基于基因、蛋白質(zhì)和DNA的微觀生命科學(xué)研究越深入、應(yīng)用面越廣,計算機(jī)和信息技術(shù)的作用也越大,許多最大規(guī)模的超級計算機(jī)和集群系統(tǒng)都應(yīng)用于這一領(lǐng)域。從親子鑒定到藥物篩選再到H1N1流感疫苗研制等等,都離不開生命科學(xué)和背后的超級計算機(jī)。
據(jù)統(tǒng)計,生命科學(xué)領(lǐng)域的數(shù)據(jù)量平均每12個月就增加一倍,比摩爾定律,即計算性能每18個月增長一倍,還要快很多,這些數(shù)據(jù)量動輒都以TB來衡量。要處理如此海量的數(shù)據(jù),往往需要動用每秒10萬億次乃至百萬億次的超級計算機(jī)集群,以及幾十TB、甚至上千TB的存儲系統(tǒng)。
更具挑戰(zhàn)性的是,和天氣預(yù)報、石油勘探等只有幾種軟件不同,生命科學(xué)的計算軟件非常多,以中科院北京基因組研究所為例,就擁有100多種軟件,這些軟件對于計算機(jī)系統(tǒng)的要求各不相同,有的屬于計算密集型、有的需要大內(nèi)存,有的則需要進(jìn)行頻繁的磁盤讀寫或網(wǎng)絡(luò)IO通信。用戶又不可能為每一種軟件去定制一套集群系統(tǒng),現(xiàn)實(shí)情況往往要求集群系統(tǒng)可以同時能夠支持多種計算軟件。
浪潮集團(tuán)高性能事業(yè)部總經(jīng)理劉軍談到,生命科學(xué)計算獨(dú)特的應(yīng)用需求決定了,在該領(lǐng)域用戶在進(jìn)行高性能計算集群方案選型與測試、系統(tǒng)擴(kuò)展、海量數(shù)據(jù)存儲管理、大規(guī)模系統(tǒng)和作業(yè)管理、應(yīng)用優(yōu)化等方面面臨諸多挑戰(zhàn)。
挑戰(zhàn)1:應(yīng)用繁雜多樣 哪種系統(tǒng)最適用?
由于軟件眾多,應(yīng)用不一,因此需要根據(jù)用戶主流應(yīng)用軟件的特征進(jìn)行量身定制高性能計算系統(tǒng)架構(gòu)和配置,而不是簡單地采用通用的集群系統(tǒng)。中科院北京基因組研究所胡松年博士談到,選擇高性能計算機(jī)其實(shí)比選基因測序儀要復(fù)雜得多。北京基因組研究所每月單純的數(shù)據(jù)產(chǎn)量會超過1TB,目前還無法保存圖像文件,海量數(shù)據(jù)存儲一直是難題,而且是軟件多達(dá)100多種,加上很多用戶自編的程序,對存儲、IO、內(nèi)存、并行化等方面都有不同的要求。
據(jù)英特爾中國公司高性能計算工程師喬楠介紹,為了幫助高性能計算用戶方案選型,英特爾和浪潮一起花了大半年時間進(jìn)行典型應(yīng)用的性能特征分析,對包括BLAST、VASP、Gaussian 03、CPMD、Amber 10、Gromacs 4.0、Wien2k、Espresso等十幾種軟件,從影響節(jié)點(diǎn)內(nèi)擴(kuò)展性的“每核內(nèi)存使用率和帶寬”、影響節(jié)點(diǎn)間擴(kuò)展性的磁盤IO和網(wǎng)絡(luò)消息傳遞,影響軟件優(yōu)化潛力空間的CPU向量化、CPI等指標(biāo)進(jìn)行測試比較,以此來了解不同應(yīng)用的關(guān)鍵特性。然后分析CPU、內(nèi)存、磁盤、網(wǎng)絡(luò)等硬件本身的特性,如在每核內(nèi)存帶寬上限方面,至強(qiáng)5400是1GB/s、至強(qiáng)5500則是4.5GB/s。再通過對軟件應(yīng)用特性和硬件特性進(jìn)行對比,基本能確定適用的配置標(biāo)準(zhǔn)。比如BLAST軟件對系統(tǒng)的IO要求很高,需要大內(nèi)存,而Gromacs則MPI通信頻繁,浮點(diǎn)運(yùn)算量也大,但對內(nèi)存的要求較小,又如基因拼接往往需要大內(nèi)存的胖節(jié)點(diǎn)等等。
胡松年表示,基因組測序的復(fù)雜計算即便中科院超算中心、上海超算中心以及IBM、HP等國內(nèi)的工程師都沒有相關(guān)的經(jīng)驗(yàn),浪潮的前期扎實(shí)的測試為方案選型提供了很好的幫助。
挑戰(zhàn)2:數(shù)據(jù)爆炸增長 系統(tǒng)未來如何擴(kuò)展?
雖然目前我國在生物信息學(xué)研究、DNA測序能力方面已處于世界前列,但與國際上相比,對基因組數(shù)據(jù)的分析處理和利用能力,包括計算能力則存在較大差距。目前,國外分析生命科學(xué)的海量數(shù)據(jù)普遍會使用數(shù)百萬億次規(guī)模的超級計算機(jī),而我國的許多科研機(jī)構(gòu)的高性能計算規(guī)模一般為幾萬億次。同時,為了滿足未來數(shù)據(jù)量的爆炸增長,及隨之而來的大規(guī)模處理能力和存儲容量,要求系統(tǒng)有較高的可擴(kuò)展性。
胡松年也談到,現(xiàn)在基因組研究所10萬億次的計算機(jī)規(guī)模還遠(yuǎn)遠(yuǎn)不夠,因?yàn)樽鲆粚θ旧w的基因測序,就需要十幾天時間,會大大影響科研項(xiàng)目的進(jìn)展。在存儲方面,目前還只能保存測序文件,無法保證更大的圖像文件。除了未來對現(xiàn)在系統(tǒng)進(jìn)一步擴(kuò)容之外,研究所也在嘗試其他各種辦法,比如,在浪潮的幫助下,將BLAST計算遷移至GPU平臺上去;進(jìn)行軟件算法的優(yōu)化,提高現(xiàn)有資源的利用率;加入中科院超級計算網(wǎng)格環(huán)境,從中科院超算中心租用計算存儲資源,但又面臨性能不夠、作業(yè)協(xié)調(diào)管理、系統(tǒng)不匹配、TB級大數(shù)據(jù)量網(wǎng)絡(luò)傳輸可靠性無法保證等現(xiàn)實(shí)難題;另外也關(guān)注云計算、網(wǎng)格等,但這些虛擬、遠(yuǎn)程計算在網(wǎng)絡(luò)傳輸、資源管理、平臺適應(yīng)性方面也同樣困難重重。 #p#page_title#e#