上萬顆處理器的高性能計算集群如何管理
中石油東方地球物理公司研究院處理中心總工程師賴能和在演講中談到,過去3年里,由于中心計算系統(tǒng)規(guī)模增長很快,如何管理好、用好這些大機器已經(jīng)成為焦點,目前東方公司已經(jīng)開始利用數(shù)字化技術(shù)來實現(xiàn)有效的軟硬件資源管理。
據(jù)了解,目前東方公司已經(jīng)擁有規(guī)模達15000顆CPU的PC服務器集群,運算能力達到230萬億次/秒,占到了中石油總體集群CPU核數(shù)的的46.2%。這些整裝、規(guī)?;能浻布Y源,為保證處理周期、及時提交成果,提供了很好的保障,但也帶來管理上的難度,具體表現(xiàn)在四個方面:
1、機柜很多、節(jié)點多,壞了也不清楚,使用情況無法及時掌握。
2、存儲陣列很多,無法做預防性維護,使用情況無法及時掌握。
3、數(shù)據(jù)交換機多,出現(xiàn)網(wǎng)絡問題后很難判斷在哪里出問題。
4、沒有科學、合理的調(diào)度和管理手段。
賴能和談到,隨著計算系統(tǒng)規(guī)模從過去的百來十顆CPU擴展到現(xiàn)在的上萬顆CPU,本身就需要有科學的管理辦法和手段。“硬件水平高,應用效率低下,運營成本快速增長”是東方公司面臨的另一個困擾。PC Cluster系統(tǒng)的計算理論峰值和實際應用效率和性能差距很大,比如CPU年平均利用率在運行疊前偏移時能達到約65-75%,而常規(guī)地震處理系統(tǒng)和調(diào)試目標線的集群利用率都很低,還不足20%。在運營成本方面,突出表現(xiàn)在近3年電費快速上升,僅2008年一年電費就達到千萬元。
而且,隨著計算機房規(guī)模擴大之后,生產(chǎn)與設(shè)備的安全問題也開始突出。目前,東方公司共擁有150多個PC Cluster機柜、100多個存儲機柜、十幾個機房、5個靠前處理機房,如此龐大的軟硬件設(shè)備給生產(chǎn)和設(shè)備運行安全帶來一系列的問題。因此,很有必要開發(fā)和采用先進、高效的數(shù)字化管理技術(shù),實現(xiàn)軟硬件資源的科學化管理。
為了解決上述問題,東方公司引入了數(shù)字化管理技術(shù):
1.開發(fā)數(shù)字化管理軟件平臺,實現(xiàn)所有運行項目的數(shù)字化管理,可以對所有軟硬件資源進行集中管理,也可以跟蹤監(jiān)控生產(chǎn)項目進度和使用的資源情況。
2.開發(fā)CPU資源管理平臺,對PC Cluster機柜統(tǒng)一協(xié)調(diào)管理。無論是整個機房的CPU利用率和網(wǎng)絡忙閑情況,還是某個機柜的CPU利用率和網(wǎng)絡狀態(tài),都一目了然。
3.開發(fā)存儲和網(wǎng)絡管理軟件,實現(xiàn)所有存儲資源的遠程集中監(jiān)控,包括事件告警、性能、拓撲結(jié)構(gòu)等。
4.開發(fā)UPS、空調(diào)、配電實時監(jiān)控軟硬件,確保設(shè)備安全。比如其位于北京的機房就可以對UPS、空調(diào)、配電開關(guān)、溫濕度、空調(diào)漏水、視頻錄像、消防煙感、線纜溫度等進行監(jiān)測,同時設(shè)置了手機短信報警、遠程權(quán)限管理、歷史事件查詢等功能。
賴能和在會上還展望了石油行業(yè)對高性能計算應用需求的發(fā)展趨勢,主要體現(xiàn)在以下五個方面:
1.基于多核CPU技術(shù)的刀片式服務器已成為高性能計算發(fā)展趨勢。
2.GPU技術(shù)為地球物理高密度運算和可視化處理帶來新的機會,但GPU現(xiàn)在也面臨很少軟件支持的困境。
3.高密度多路服務器技術(shù)將成為地震綜合解釋研究新的應用平臺。隨著各ISV對Linux平臺的支持,圖形顯卡技術(shù)的發(fā)展,4路/8路/16路多核處理器將為Landmark、疊前反演JASON完成大數(shù)據(jù)體大計算量的疊前反演(并行化處理)、地質(zhì)綜合解釋任務等提供強有力的工具。比如英特爾明年將推出的8核心Nehalem-EX可以實現(xiàn)從4路到8路的靈活擴展,因此非常適合這種應用。 #p#page_title#e#
4.萬兆以太網(wǎng)將給HPC的發(fā)展帶來新的生機。目前千兆以太網(wǎng)在TOP500中占據(jù)56%的份額,隨著10GigE網(wǎng)絡技術(shù)快速發(fā)展,預計將逐步替代目前的千兆以太網(wǎng)。
5.高效能綠色數(shù)據(jù)中心建設(shè)成為新的熱點。BGP開發(fā)和應用了自適應節(jié)能降耗管理軟件,可以動態(tài)調(diào)整服務器狀態(tài)。目前過試驗節(jié)能效果達到了25-30%, 1萬顆CPU一年至少可節(jié)約電費230-300萬元。同時也在嘗試應用許多新技術(shù),如用虛擬化技術(shù)提供集中管理和移動辦公,機房和機柜液體智能冷卻(水冷)技術(shù)以及大型機房基礎(chǔ)設(shè)施風道設(shè)計節(jié)能技術(shù)等。
6.復雜地震成像等技術(shù)的發(fā)展與應用將需要更多的CPU。隨著算法精度逐漸提高,計算量和數(shù)據(jù)量越來越大,從而需要更多的CPU,系統(tǒng)管理的復雜度以及運營成本也會越來越高。預計未來3年中,東方公司地震數(shù)據(jù)處理CPU核數(shù)至少需要增加1.5倍,到2010年運算能力將達到380萬億次/秒