高性能計算技術(shù)在能源行業(yè)里的應(yīng)用
時間:2009-07-10 02:26:00
來源:UltraLAB圖形工作站方案網(wǎng)站
人氣:6360
作者:admin
近日, 英特爾2009年度高性能計算研討會在成都舉行。來自英特爾、IBM、浪潮、戴爾、中石油、中石化、國家電網(wǎng)等單位的技術(shù)專家匯聚一堂,就高性能計算相關(guān)軟硬件技術(shù)發(fā)展趨勢及其在能源行業(yè)的應(yīng)用進(jìn)行了深入探討。
中石油東方地球物理公司研究院處理中心總工程師 賴能和在演講中談到,過去3年里,由于中心計算系統(tǒng)規(guī)模增長很快,如何管理好、用好這些大機(jī)器已經(jīng)成為焦點,目前東方公司已經(jīng)開始利用數(shù)字化技術(shù)來實現(xiàn)有效的軟硬件資源管理。
據(jù)了解,目前東方公司已經(jīng)擁有規(guī)模達(dá)15000顆CPU的PC服務(wù)器集群,運(yùn)算能力達(dá)到230萬億次/秒,占到了中石油總體集群CPU核數(shù)的的46.2%。這些整裝、規(guī)?;能浻布Y源,為保證處理周期、及時提交成果,提供了很好的保障,但也帶來管理上的難度,具體表現(xiàn)在四個方面:
1、機(jī)柜很多、節(jié)點多,壞了也不清楚,使用情況無法及時掌握。
2、存儲陣列很多,無法做 預(yù)防性維護(hù),使用情況無法及時掌握。
3、 數(shù)據(jù)交換機(jī)多,出現(xiàn)網(wǎng)絡(luò)問題后很難判斷在哪里出問題。
4、沒有科學(xué)、合理的調(diào)度和管理手段。
賴能和談到,隨著計算系統(tǒng)規(guī)模從過去的百來十顆CPU擴(kuò)展到現(xiàn)在的上萬顆CPU,本身就需要有科學(xué)的管理辦法和手段。“硬件水平高,應(yīng)用效率低下,運(yùn)營成本快速增長”是東方公司面臨的另一個困擾。PC Cluster系統(tǒng)的計算理論峰值和實際應(yīng)用效率和性能差距很大,比如CPU年平均利用率在運(yùn)行疊前偏移時能達(dá)到約65-75%,而常規(guī)地震處理系統(tǒng)和調(diào)試目標(biāo)線的集群利用率都很低,還不足20%。在運(yùn)營成本方面,突出表現(xiàn)在近3年電費(fèi)快速上升,僅2008年一年電費(fèi)就達(dá)到千萬元。
而且,隨著計算機(jī)房規(guī)模擴(kuò)大之后,生產(chǎn)與設(shè)備的安全問題也開始突出。目前,東方公司共擁有150多個PC Cluster機(jī)柜、100多個存儲機(jī)柜、十幾個機(jī)房、5個靠前處理機(jī)房,如此龐大的軟硬件設(shè)備給生產(chǎn)和設(shè)備運(yùn)行安全帶來一系列的問題。因此,很有必要開發(fā)和采用先進(jìn)、高效的 數(shù)字化管理技術(shù),實現(xiàn)軟硬件資源的科學(xué)化管理。其實,針對大規(guī)模數(shù)據(jù)中心的擴(kuò)展和可管理問題,英特爾已經(jīng)提供了一些解決方案,比如最新的 至強(qiáng)5500跟過去的單核產(chǎn)品相比,可以提供9倍的性能提升,具有很好的整合特性,同時得益于在功耗方面的精確控制,可以幫助用戶在數(shù)月之內(nèi)收回投資成本;另外,英特爾VT虛擬化技術(shù)、英特爾數(shù)據(jù)中心管理器、NodeManager在“提高利用率,降低功耗”方面也能助到一臂之力。比如,對于很多從IDC租用服務(wù)器的企業(yè)來說,由于受制于租用IDC的供電、規(guī)定影響,每個機(jī)柜上架服器數(shù)量有上限,從而影響每個機(jī)柜的整體性能能耗比。騰訊在采用英特爾全新的至強(qiáng)5500平臺可以提升單個機(jī)柜服務(wù)器計算性能高達(dá)60%以上,預(yù)估服務(wù)器Rack上架密度提高20%以上,提高每單位Rack計算性能60%以上。
為了解決上述問題,東方公司引入了數(shù)字化管理技術(shù):
1.開發(fā)數(shù)字化管理軟件平臺,實現(xiàn)所有運(yùn)行項目的數(shù)字化管理,可以對所有軟硬件資源進(jìn)行集中管理,也可以跟蹤監(jiān)控生產(chǎn)項目進(jìn)度和使用的資源情況。
2.開發(fā)CPU資源管理平臺,對PC Cluster機(jī)柜統(tǒng)一協(xié)調(diào)管理。無論是整個機(jī)房的CPU利用率和網(wǎng)絡(luò)忙閑情況,還是某個機(jī)柜的CPU利用率和網(wǎng)絡(luò)狀態(tài),都一目了然。
3.開發(fā)存儲和網(wǎng)絡(luò)管理軟件,實現(xiàn)所有存儲資源的遠(yuǎn)程集中監(jiān)控,包括事件告警、性能、拓?fù)浣Y(jié)構(gòu)等。
4.開發(fā)UPS、空調(diào)、配電實時監(jiān)控軟硬件,確保設(shè)備安全。比如其位于北京的機(jī)房就可以對UPS、空調(diào)、配電開關(guān)、溫濕度、空調(diào)漏水、視頻錄像、消防煙感、線纜溫度等進(jìn)行監(jiān)測,同時設(shè)置了手機(jī)短信報警、遠(yuǎn)程權(quán)限管理、歷史事件查詢等功能。
賴能和在會上還展望了石油行業(yè)對高性能計算應(yīng)用需求的發(fā)展趨勢,主要體現(xiàn)在以下五個方面:
1.基于多核CPU技術(shù)的 刀片式服務(wù)器已成為高性能計算發(fā)展趨勢。
2.GPU技術(shù)為地球物理高密度運(yùn)算和可視化處理帶來新的機(jī)會,但GPU現(xiàn)在也面臨很少軟件支持的困境。 #p#page_title#e#
3.高密度多路服務(wù)器技術(shù)將成為地震綜合解釋研究新的應(yīng)用平臺。隨著各ISV對Linux平臺的支持,圖形顯卡技術(shù)的發(fā)展,4路/8路/16路多核處理器將為Landmark、疊前反演JASON完成大數(shù)據(jù)體大計算量的疊前反演(并行化處理)、地質(zhì)綜合解釋任務(wù)等提供強(qiáng)有力的工具。比如英特爾明年將推出的8核心Nehalem-EX可以實現(xiàn)從4路到8路的靈活擴(kuò)展,因此非常適合這種應(yīng)用。據(jù)英特爾資料,Nehalem-EX與上一代的至強(qiáng)7400相比,在性能和帶寬兩方面都實現(xiàn)了“前所未有”的飛躍:內(nèi)存帶寬高達(dá)9倍,數(shù)據(jù)庫性能超過2.5倍,整數(shù)吞吐量超過1.7倍,浮點吞吐量超過2.2倍!目前已經(jīng)有8家系統(tǒng)廠商將推出15款以上的8路服務(wù)器。
4.萬兆以太網(wǎng)將給HPC的發(fā)展帶來新的生機(jī)。目前 千兆以太網(wǎng)在TOP500中占據(jù)56%的份額,隨著10GigE網(wǎng)絡(luò)技術(shù)快速發(fā)展,預(yù)計將逐步替代目前的千兆以太網(wǎng)。
5.高效能綠色 數(shù)據(jù)中心建設(shè)成為新的熱點。BGP開發(fā)和應(yīng)用了自適應(yīng)節(jié)能降耗管理軟件,可以動態(tài)調(diào)整服務(wù)器狀態(tài)。目前過試驗節(jié)能效果達(dá)到了25-30%, 1萬顆CPU一年至少可節(jié)約電費(fèi)230-300萬元。同時也在嘗試應(yīng)用許多新技術(shù),如用 虛擬化技術(shù)提供集中管理和移動辦公,機(jī)房和機(jī)柜液體智能冷卻(水冷)技術(shù)以及大型機(jī)房基礎(chǔ)設(shè)施風(fēng)道設(shè)計節(jié)能技術(shù)等。
6.復(fù)雜地震成像等技術(shù)的發(fā)展與應(yīng)用將需要更多的CPU。隨著算法精度逐漸提高,計算量和數(shù)據(jù)量越來越大,從而需要更多的CPU,系統(tǒng)管理的復(fù)雜度以及運(yùn)營成本也會越來越高。預(yù)計未來3年中,東方公司地震數(shù)據(jù)處理CPU核數(shù)至少需要增加1.5倍,到2010年運(yùn)算能力將達(dá)到380萬億次/秒。
中石油東方地球物理公司研究院處理中心總工程師
據(jù)了解,目前東方公司已經(jīng)擁有規(guī)模達(dá)15000顆CPU的PC服務(wù)器集群,運(yùn)算能力達(dá)到230萬億次/秒,占到了中石油總體集群CPU核數(shù)的的46.2%。這些整裝、規(guī)?;能浻布Y源,為保證處理周期、及時提交成果,提供了很好的保障,但也帶來管理上的難度,具體表現(xiàn)在四個方面:
1、機(jī)柜很多、節(jié)點多,壞了也不清楚,使用情況無法及時掌握。
2、存儲陣列很多,無法做
3、
4、沒有科學(xué)、合理的調(diào)度和管理手段。
賴能和談到,隨著計算系統(tǒng)規(guī)模從過去的百來十顆CPU擴(kuò)展到現(xiàn)在的上萬顆CPU,本身就需要有科學(xué)的管理辦法和手段。“硬件水平高,應(yīng)用效率低下,運(yùn)營成本快速增長”是東方公司面臨的另一個困擾。PC Cluster系統(tǒng)的計算理論峰值和實際應(yīng)用效率和性能差距很大,比如CPU年平均利用率在運(yùn)行疊前偏移時能達(dá)到約65-75%,而常規(guī)地震處理系統(tǒng)和調(diào)試目標(biāo)線的集群利用率都很低,還不足20%。在運(yùn)營成本方面,突出表現(xiàn)在近3年電費(fèi)快速上升,僅2008年一年電費(fèi)就達(dá)到千萬元。
而且,隨著計算機(jī)房規(guī)模擴(kuò)大之后,生產(chǎn)與設(shè)備的安全問題也開始突出。目前,東方公司共擁有150多個PC Cluster機(jī)柜、100多個存儲機(jī)柜、十幾個機(jī)房、5個靠前處理機(jī)房,如此龐大的軟硬件設(shè)備給生產(chǎn)和設(shè)備運(yùn)行安全帶來一系列的問題。因此,很有必要開發(fā)和采用先進(jìn)、高效的
為了解決上述問題,東方公司引入了數(shù)字化管理技術(shù):
1.開發(fā)數(shù)字化管理軟件平臺,實現(xiàn)所有運(yùn)行項目的數(shù)字化管理,可以對所有軟硬件資源進(jìn)行集中管理,也可以跟蹤監(jiān)控生產(chǎn)項目進(jìn)度和使用的資源情況。
2.開發(fā)CPU資源管理平臺,對PC Cluster機(jī)柜統(tǒng)一協(xié)調(diào)管理。無論是整個機(jī)房的CPU利用率和網(wǎng)絡(luò)忙閑情況,還是某個機(jī)柜的CPU利用率和網(wǎng)絡(luò)狀態(tài),都一目了然。
3.開發(fā)存儲和網(wǎng)絡(luò)管理軟件,實現(xiàn)所有存儲資源的遠(yuǎn)程集中監(jiān)控,包括事件告警、性能、拓?fù)浣Y(jié)構(gòu)等。
4.開發(fā)UPS、空調(diào)、配電實時監(jiān)控軟硬件,確保設(shè)備安全。比如其位于北京的機(jī)房就可以對UPS、空調(diào)、配電開關(guān)、溫濕度、空調(diào)漏水、視頻錄像、消防煙感、線纜溫度等進(jìn)行監(jiān)測,同時設(shè)置了手機(jī)短信報警、遠(yuǎn)程權(quán)限管理、歷史事件查詢等功能。
賴能和在會上還展望了石油行業(yè)對高性能計算應(yīng)用需求的發(fā)展趨勢,主要體現(xiàn)在以下五個方面:
1.基于多核CPU技術(shù)的
2.GPU技術(shù)為地球物理高密度運(yùn)算和可視化處理帶來新的機(jī)會,但GPU現(xiàn)在也面臨很少軟件支持的困境。 #p#page_title#e#
3.高密度多路服務(wù)器技術(shù)將成為地震綜合解釋研究新的應(yīng)用平臺。隨著各ISV對Linux平臺的支持,圖形顯卡技術(shù)的發(fā)展,4路/8路/16路多核處理器將為Landmark、疊前反演JASON完成大數(shù)據(jù)體大計算量的疊前反演(并行化處理)、地質(zhì)綜合解釋任務(wù)等提供強(qiáng)有力的工具。比如英特爾明年將推出的8核心Nehalem-EX可以實現(xiàn)從4路到8路的靈活擴(kuò)展,因此非常適合這種應(yīng)用。據(jù)英特爾資料,Nehalem-EX與上一代的至強(qiáng)7400相比,在性能和帶寬兩方面都實現(xiàn)了“前所未有”的飛躍:內(nèi)存帶寬高達(dá)9倍,數(shù)據(jù)庫性能超過2.5倍,整數(shù)吞吐量超過1.7倍,浮點吞吐量超過2.2倍!目前已經(jīng)有8家系統(tǒng)廠商將推出15款以上的8路服務(wù)器。
4.萬兆以太網(wǎng)將給HPC的發(fā)展帶來新的生機(jī)。目前
5.高效能綠色
6.復(fù)雜地震成像等技術(shù)的發(fā)展與應(yīng)用將需要更多的CPU。隨著算法精度逐漸提高,計算量和數(shù)據(jù)量越來越大,從而需要更多的CPU,系統(tǒng)管理的復(fù)雜度以及運(yùn)營成本也會越來越高。預(yù)計未來3年中,東方公司地震數(shù)據(jù)處理CPU核數(shù)至少需要增加1.5倍,到2010年運(yùn)算能力將達(dá)到380萬億次/秒。