曙光PHPC生物計算解決方案
使用計算機(jī)系統(tǒng)進(jìn)行科學(xué)計算和模擬已經(jīng)成為現(xiàn)代生物研究最重要的方法之一。生物計算對計算處理能力有更高的需求,傳統(tǒng)的工作站和PC機(jī)不能滿足需要。而采購使用高性能并行計算機(jī)對很多用戶來說存在問題,受到諸多因素的限制,如經(jīng)費(fèi)、機(jī)房條件、使用管理困難等。
PHPC100是曙光公司研制的最新高性能計算機(jī)產(chǎn)品,符合現(xiàn)在高性能計算技術(shù)和市場發(fā)展的趨勢,可以解決諸多限制性因素,為生物計算用戶提供適合的計算平臺。
在詳細(xì)分析的基礎(chǔ)上,本文給出了基于曙光PHPC100的生物計算解決方案;通過生物計算領(lǐng)域兩個典型軟件:MPIBLAST和GROMACS在曙光PHPC100平臺上的性能測試結(jié)果,佐證了無論是主要考驗定點(diǎn)運(yùn)算性能的MPIBLAST應(yīng)用軟件,還是主要考驗浮點(diǎn)運(yùn)算性能的GROMACS應(yīng)用軟件,在曙光PHPC100系統(tǒng)上都有著優(yōu)異的性能表現(xiàn)。
1.生物計算用戶需求
于多方面的原因,很多生物計算的用戶還在使用工作站,乃至PC機(jī)作為計算平臺,不能滿足科研的需要。
事實上,幾乎所有的生物計算用戶對計算平臺都有更高的需求,科研工作需要匹配較高性能的并行計算平臺。但用戶要購置并行計算機(jī)會遇到一些問題,這些問題很有代表性,體現(xiàn)了許多高性能計算用戶的共同困惑,解決這些問題,提供適合的高性能計算系統(tǒng)解決方案是用戶的切實需求。
用戶的困難體現(xiàn)在:
經(jīng)費(fèi)有限
只有幾十萬,甚至十幾萬的預(yù)算,采購高性能并行計算機(jī)力不從心,如果采購低端的計算機(jī),則性能、穩(wěn)定性、易用性等沒有保證。
沒有機(jī)房
沒有專用機(jī)房,采購了并行計算機(jī)無處放置;有的單位雖有中心機(jī)房,但計算機(jī)放置在機(jī)房里給使用管理帶來諸多不便,受到很多限制,不能滿足用戶的要求。
供電問題
沒有條件為高性能計算機(jī)專門配電,只能使用普通墻電。
噪音污染
辦公室環(huán)境不容許計算機(jī)有很大的噪音,普通的機(jī)架式集群或刀片服務(wù)器都不可放置在辦公室環(huán)境。有些用戶在辦公室劃出一定區(qū)域使用玻璃墻隔離出來,以放置并行計算機(jī)系統(tǒng),但其噪音仍然比較大,影響用戶正常工作和身體健康。
性能效率低
并行計算機(jī)系統(tǒng)已經(jīng)進(jìn)入高效能時代,對用戶而言,重要的是應(yīng)用性能和產(chǎn)出率,理論性能相對而言并不重要。生物計算平臺需要達(dá)到一定的性能,以取代工作站和PC機(jī),滿足科研對計算處理能力的需要,同時要保證高效率。
安裝部署困難
高性能計算平臺是相對比較復(fù)雜的系統(tǒng),包括多種硬件,系統(tǒng)軟件,并行中間件,應(yīng)用軟件等多個層次。系統(tǒng)的安裝部署,以及必要時的恢復(fù)也比較繁瑣,對于非專業(yè)人士更是如此。困難還體現(xiàn)在應(yīng)用軟件的部署和優(yōu)化。
管理不便
很多用戶對并行計算機(jī)的使用管理感到是一種負(fù)擔(dān),有時需要專門的系統(tǒng)管理員來管理并行計算機(jī)系統(tǒng)。管理不便給系統(tǒng)的正常使用造成隱患,并且會增加成本。
功耗較大
高性能計算平臺是相對較大的系統(tǒng),功耗相對較大,因此,功耗是用戶最為關(guān)注的問題之一,往往會影響到用戶的抉擇。節(jié)能環(huán)保不僅可以為用戶節(jié)省電費(fèi),也符合現(xiàn)代社會的發(fā)展理念。
TCO過高
在幾年前,擁有并行計算機(jī)系統(tǒng)是相對奢侈的科研條件。現(xiàn)在雖然硬件價格下降較快,但計算系統(tǒng)的TCO仍然不低。TCO是綜合成本,很多時候,采用某個方案或某種產(chǎn)品,可以降低某個點(diǎn)的費(fèi)用,但卻增加了其他點(diǎn)的費(fèi)用,TCO并沒有降低,甚至更高了。
解決以上問題,才可以使更多的用戶使用到高性能計算機(jī),促進(jìn)高性能計算的普及。所以市場需要一種新的高性能計算機(jī)產(chǎn)品和方案,為用戶提供理想的計算平臺
2.曙光PHPC100
曙光PHPC100是曙光公司在2008年5月推出的新型高性能計算機(jī)產(chǎn)品,PHPC100是個人高性能計算機(jī),也可以稱為桌面高性能計算機(jī)。
曙光PHPC100具有以下特點(diǎn):
· 是一種模塊化、集群(Cluster)架構(gòu)的高性能計算機(jī)
· 具有PC機(jī)、工作站、低端小型機(jī)所無法比擬的性能
· 無需專業(yè)的機(jī)房、供電設(shè)施、散熱設(shè)施,可以和PC機(jī)、工作站一樣,放置在辦公桌的桌面附近,適合辦公室環(huán)境 #p#page_title#e#
· 配置專用的軟件包,可以實現(xiàn)軟件的自動安裝部署
· 具有良好的易用性,對使用者的門檻要求很低
· 管理簡單方便,無需專門的系統(tǒng)管理人員
曙光PHPC100采用全模塊化設(shè)計,背板連接,包括5個計算模塊,最大支持10顆雙核/四核處理器,采用20Gb Infiniband高性能網(wǎng)絡(luò)和千兆以太網(wǎng)進(jìn)行互聯(lián)。
多臺PHPC100可以互連,實現(xiàn)系統(tǒng)規(guī)模的可擴(kuò)展,并有效保證用戶投資。系統(tǒng)規(guī)模擴(kuò)展后,每個計算模塊仍然可以保持高速Infiniband網(wǎng)絡(luò)連接,保證系統(tǒng)性能的可擴(kuò)展性。
PHPC100支持WCCS2003、WHS2008、SuSE Linux、RedhatLinux、CentOS等操作系統(tǒng),配備系統(tǒng)管理軟件和應(yīng)用軟件包。
曙光PHPC100有如下優(yōu)勢:
· PHPC100是專業(yè)為HPC應(yīng)用而設(shè)計的計算平臺。
· PHPC100在硬件上采用模塊化的設(shè)計方式,非常便于安裝、管理和維護(hù)。同時在軟件上,采用定制化的高性能計算系統(tǒng)軟件環(huán)境,專業(yè)的高性能設(shè)計方便用戶的使用和維護(hù)。
·采用低噪音、低輻射等辦公環(huán)境設(shè)計,便于用戶的使用。同時,通過管理軟件和應(yīng)用軟件包,降低了用戶的使用和管理難度。
·采用X86集群架構(gòu),易于保證和核心高性能計算環(huán)境的同構(gòu)和兼容。PHPC100可以配置40個處理器核心,并可以通過多臺PHPC100互連的方式實現(xiàn)擴(kuò)展。
.PHPC100在生物計算中的應(yīng)用
3.1適用性分析
受限于應(yīng)用軟件的性能可擴(kuò)展性,并行計算平臺并不是規(guī)模越大性能越好。根據(jù)統(tǒng)計,大多數(shù)生物計算應(yīng)用軟件的性能可擴(kuò)展性在8-60,更多的進(jìn)程并不能帶來性能的提升。
單臺PHPC100可以配置5個計算模塊,達(dá)到40個處理器核心,可以滿足大多數(shù)生物計算應(yīng)用的需要。在有擴(kuò)展需求的情況下,可將多臺PHPC100互連,解決系統(tǒng)的可擴(kuò)展性。6臺PHPC100互連,可以實現(xiàn)240個處理器核心的并行處理,幾乎可以滿足所有的應(yīng)用需要。
所以與其他計算平臺相比,曙光PHPC100可以生物計算用戶提供非常具有特色和優(yōu)勢的解決方案,適用在辦公室環(huán)境,從而避開了需要專用機(jī)房等苛刻要求。
3.2生物計算軟件包
為了提高系統(tǒng)的易用性,優(yōu)化應(yīng)用軟件的性能,曙光PHPC100平臺配備了高性能計算應(yīng)用軟件包。
軟件包中包含了生物計算領(lǐng)域經(jīng)常使用的多個應(yīng)用軟件,包括MPIBlast,Gromacs,NAMD,DOCK,Palm等。只需要菜單式操作,就可以實現(xiàn)這些軟件在PHPC100上的自動安裝部署,用戶可以直接運(yùn)行應(yīng)用程序。
3.3推薦配置
曙光PHPC100計算機(jī)基于模塊化設(shè)計,作為生物計算平臺時,推薦配置如下:
3.4方案優(yōu)勢
1). 工作站的價格
PHPC100計算機(jī)價格相對較低,標(biāo)準(zhǔn)配置在二十萬人民幣左右,隨配置的變化價格差異也比較大。較低的價格為普通用戶使用并行計算機(jī)敞開了大門,可以進(jìn)一步促進(jìn)高性能計算的普及,從事生物研究的每個組織和個人都可以買得起PHPC100,用得起高性能計算機(jī)。
2). 高性能計算機(jī)的性能
PHPC具有高性能計算機(jī)的性能。PHPC首先是HPC,屬于高性能計算機(jī)的范疇。事實上,PHPC100可以提供40個處理器核心,通過Infiniband網(wǎng)絡(luò)互連,可以發(fā)揮出優(yōu)異的并行處理性能,滿足大部分生物計算應(yīng)用的需要。多臺PHPC100可以互連,實現(xiàn)系統(tǒng)的規(guī)模擴(kuò)展,同時保持系統(tǒng)性能的可擴(kuò)展。
3). PC機(jī)的使用環(huán)境
PHPC100屬于個人高性能計算機(jī),也可以稱為桌面高性能計算機(jī),可以同PC機(jī)一樣在辦公室環(huán)境使用,對機(jī)房、供電、制冷沒有特殊的要求。PHPC100計算機(jī)噪音小,輻射低,從而保證了辦公室環(huán)境使用的可行性。
4). 生物計算應(yīng)用軟件包
PHPC100配置了生物計算應(yīng)用軟件包,軟件包中包括多種生物計算應(yīng)用軟件。軟件包可以實現(xiàn)應(yīng)用軟件的自動安裝部署,并做了針對性優(yōu)化。在PHPC100平臺上,用戶可以直接運(yùn)行應(yīng)用軟件,避免了軟件安裝部署以及配置優(yōu)化的繁瑣過程。
5). 易管理使用
PHPC100計算機(jī)配置了管理軟件,簡化了系統(tǒng)的管理維護(hù),管理使用PHPC100計算機(jī)就像管理使用PC機(jī)一樣方便。 #p#page_title#e#
6). 整體擁有成本低
使用PHPC100計算平臺,用戶不僅僅是降低了計算機(jī)的采購成本,而且節(jié)省了機(jī)房等基礎(chǔ)設(shè)施費(fèi)用,節(jié)省了工業(yè)專用空調(diào)等制冷設(shè)備。并且,PHPC100采用了環(huán)保節(jié)能設(shè)計,與其他計算機(jī)系統(tǒng)相比,能耗更低。PHPC100計算平臺不需要專職系統(tǒng)管理人員,可以節(jié)省人力成本
4.性能分析
4.1分析方法
從計算特性上分析,生物計算的類型主要包括兩類:
(一)高通量計算(定點(diǎn)計算)
基因序列比對、藥物篩選等
計算任務(wù)相對獨(dú)立,進(jìn)程間無通信或通信量很小,要求充分利用系統(tǒng)的計算資源,使總吞吐量最高
需要較大的內(nèi)存,較高的數(shù)據(jù)I/O吞吐量;較強(qiáng)的并發(fā)處理能力
(二)高性能計算 (浮點(diǎn)計算)
蛋白質(zhì)三維結(jié)構(gòu)預(yù)測、蛋白質(zhì)-蛋白質(zhì)相互作用、基因進(jìn)化分析、分子動力學(xué)計算
利用大量資源共同解決一個任務(wù),使求解時間最短
進(jìn)程間通信密集,網(wǎng)絡(luò)性能要求高
為了掌握PHPC100計算平臺針對生物計算應(yīng)用的性能表現(xiàn),對兩個典型應(yīng)用軟件做了性能測試,并和其他計算平臺的性能測試結(jié)果做了對比。MPIBlast是高通量計算的典型代表,Gromacs是高性能計算的典型代表。
4.2MPIBLAST性能分析
(一)軟件介紹
BLAST是現(xiàn)在應(yīng)用最廣泛的序列比對軟件,用于基因序列的兩兩比對,由NCBI研制。MPIBLAST是NCBI BLAST的并行化實現(xiàn),基于標(biāo)準(zhǔn)MPI并行環(huán)境,可以免費(fèi)下載使用。
MPIBLAST軟件的計算特點(diǎn):
· 定點(diǎn)運(yùn)算為主;
· 內(nèi)存需求量大;
· MPI通信比較少,主要是網(wǎng)絡(luò)文件系統(tǒng)的讀寫對網(wǎng)絡(luò)性能有一定要求;
· I/O量比較大;
(二)測試平臺
測試在3個平臺上進(jìn)行:
曙光PHPC100,5個計算模塊,使用Barcelona 2350處理器,主頻2.0GHz
曙光A950r-F胖計算節(jié)點(diǎn),8個AMD Opteron8212雙核處理器,主頻2.0GHz
IBM P575小型機(jī),8個Power5雙核處理器,主頻1.9GHz
(三)測試結(jié)果
使用MPIBLAST 1.4.0版本;數(shù)據(jù)庫使用month.aa,庫所占空間為106MB;查找序列的輸入文件為F.joh_aa.fasta,查找1500個序列;
測試結(jié)果如下:
(四)結(jié)果分析
在曙光PHPC100上,MPIBLAST有著優(yōu)異的性能表現(xiàn); 單進(jìn)程的搜索速度較快;多進(jìn)程并行搜索時,達(dá)到了近乎線性的加速比;
2個節(jié)點(diǎn)的PHPC100的性能就高于1臺A950r-F;一臺曙光PHPC100(39進(jìn)程)高于IBM P575(8路雙核),而價格則大概為其1/5;
4.3GROMACS性能分析
(一)軟件介紹
GROMACS是用于研究生物分子體系的分子動力學(xué)程序包。它可以用分子動力學(xué)、隨機(jī)動力學(xué)或者路徑積分方法模擬溶液或晶體中的任意分子,進(jìn)行分子能量的最小化,分析構(gòu)象等。GROMACS最初是設(shè)計為生物大分子如蛋白質(zhì)、核酸、脂類等物質(zhì)的計算、分析服務(wù)的。由于其在非成鍵作用力的互相作用方面具有極強(qiáng)的計算能力,很多研究機(jī)構(gòu)也用其來計算、研究非生物的大分子系統(tǒng),如聚合體等。
GROMACS是開源軟件,最初由荷蘭的Groningen大學(xué)的Department of Biophysical Chemistry開發(fā)??梢悦赓M(fèi)使用,有基于MPI的并行版本。
并行GROMACS軟件的計算特點(diǎn):
· 計算密集型的程序,浮點(diǎn)運(yùn)算量很大;
· GROMACS程序?qū)?nèi)存的要求很?。?br />
· MPI通信頻繁,對互聯(lián)網(wǎng)絡(luò)性能要求高;
· I/O量一般,在REMD模式下稍大
(二)測試平臺
測試在3個平臺上進(jìn)行:
曙光PHPC100,5個計算模塊,使用Barcelona 2350處理器,主頻2.0GHz
SUN4600胖計算節(jié)點(diǎn),8個AMD Opteron8214雙核處理器,主頻2.2GHz
IBM P575小型機(jī),8個Power5雙核處理器,主頻1.9GHz
(三)測試結(jié)果
GROMACS使用源代碼編譯,版本為GROMACS-3.3.1;fftw為使用源代碼編譯,版本為fftw-3.0.1;測試中采用默認(rèn)優(yōu)化參數(shù)。使用gcc編譯器,測試算例為gmxbench中的d.dppc,原子數(shù)目為121856,模式10ps;
數(shù)據(jù)為程序運(yùn)行最后輸出的real time,單位為s;
結(jié)果分析 #p#page_title#e#
曙光PSC平臺發(fā)揮了出色的浮點(diǎn)計算性能;
· 1套曙光PSC的性能為1臺SUN 4600(8路雙核)的3倍;
· 1套曙光PSC的性能優(yōu)于1臺IBM P575;
案例分析
曙光服務(wù)器用戶體驗中心成為PHPC100計算機(jī)在生物領(lǐng)域的第一個用戶。
曙光服務(wù)器體驗中心是綜合性的用戶體驗平臺,許多生物計算的用戶在體驗中心做應(yīng)用軟件的性能測試。PHPC100部署到體驗中心后,作為生物計算平臺達(dá)到了很好的效果。系統(tǒng)部署簡單,放置在值班區(qū)的辦公環(huán)境使用,經(jīng)過多項測試的驗證,PHPC100計算機(jī)性能出色