氣象數(shù)據(jù)運算 巴塞羅那真四核彰顯威力
氣象預(yù)測一直是高性能計算機產(chǎn)品的主要用戶之一,其為人民提供日常生產(chǎn)、生活所必須的信息資料。作為國內(nèi)服務(wù)器行業(yè)領(lǐng)軍企業(yè)的曙光公司,在氣象行業(yè)應(yīng)用中有著廣泛的經(jīng)驗,早在2002年,曙光公司就推出了基于MM5模式的氣象專用機,充分優(yōu)化了并行機上的MM5模式。隨后,曙光公司在 2004年為氣象行業(yè)完成了從32位平臺到64位平臺的移植。在今年4月,曙光公司又首次完成了WRF模式在X64高性能機群系統(tǒng)上的業(yè)務(wù)移植,開創(chuàng)了國內(nèi)在64位機上做WRF模式業(yè)務(wù)的先河。近期,曙光公司又首度將AMD公司新推出的巴塞羅那處理器成功應(yīng)用在了氣象行業(yè),打造了成熟的四路四核信息化服務(wù)系統(tǒng),為蘇州氣象局提供了一套集高可用性、高穩(wěn)定性于一身的科學(xué)、成熟的氣象預(yù)測平臺。
高性能需求的氣象預(yù)測平臺
氣象預(yù)測是氣象科學(xué)中發(fā)展最為迅速的一個重要組成部分,他所研究的大氣運動關(guān)系到區(qū)域重要災(zāi)害性天氣的生消。它一方面應(yīng)用衛(wèi)星、雷達(dá)、風(fēng)廓線儀和自動觀測站等一系列新的探測工具,獲取觀測實時數(shù)據(jù);另一方面通過數(shù)值模式,對天氣變化過程進(jìn)行深入的模擬研究和預(yù)報試驗。
蘇州氣象局是該行政區(qū)域內(nèi)最大的氣象事業(yè)組織,負(fù)責(zé)該行政區(qū)域內(nèi)重大災(zāi)害性天氣跨地區(qū)、跨部門的聯(lián)合監(jiān)測、預(yù)報工作,需及時提出氣象災(zāi)害防御措施,并對重大氣象災(zāi)害作出評估,為本級人民政府組織防御氣象災(zāi)害提供決策依據(jù)。在變換莫測的自然天氣狀況前,蘇州氣象局需要一套高性能計算機系統(tǒng),來滿足其在氣象預(yù)測工作中的各種需求。
首先,氣象預(yù)報有著驚人的計算量,其必須在規(guī)定時間內(nèi)將各個觀測點傳輸來的實時數(shù)據(jù)進(jìn)行分析、計算。而且,伴隨人們對氣象預(yù)測精度所提出的越來越高的要求,氣象預(yù)報精度的的范圍從以往的幾百公里縮小到了幾公里,這就更加提高了計算模型的運算量。其次,在高速的運算過程中,各個CPU之間的通訊量也非常巨大,整個系統(tǒng)需要有高性能的通訊網(wǎng)絡(luò)。另外,氣象預(yù)測具有實時性的特點,整個預(yù)測系統(tǒng)需要定時定點運行,無需人工干預(yù),具有良好的管理控制性能。
本次針對蘇州氣象局的應(yīng)用需求,曙光公司將已獲得廣泛好評的曙光TC4000A機群系統(tǒng)與AMD公司新推出的巴塞羅那處理器相結(jié)合,為蘇州氣象局提供了一整套完善的
高端配置的曙光TC4000A
曙光公司本次為蘇州氣象局配置的TC4000A機群系統(tǒng)由20臺計算節(jié)點、2臺I/O節(jié)點、1臺管理節(jié)點和1臺登陸節(jié)點組成,系統(tǒng)采用Infiniband作為計算網(wǎng)絡(luò)/數(shù)據(jù)傳輸網(wǎng)絡(luò),同時配備千兆以太網(wǎng)作為管理維護(hù)網(wǎng)絡(luò),各配件設(shè)施的完美組合,奠定了整體系統(tǒng)高達(dá)25600億次/秒的運算能力。
天氣預(yù)報具有很高的時效性,要求在規(guī)定的時間內(nèi)得到預(yù)測結(jié)果,因此機群系統(tǒng)的運算能力就需要面對海量氣象數(shù)據(jù)的挑戰(zhàn)。曙光公司在蘇州氣象局的機群系統(tǒng)中,用最新2.0GHz 的AMD巴塞羅那四核處理器為系統(tǒng)打造了強大的浮點、定點運算能力。這些作為運算核心的高性能處理器,鑲嵌在作為計算節(jié)點的曙光天闊A820r-F中,每個節(jié)點在2U的機架空間內(nèi)集成了四路四核的體系架構(gòu),且均可進(jìn)行并行計算,形成了強大的處理能力,完全可滿足系統(tǒng)的運算需求。
為提高機群系統(tǒng)的整體性能,機群系統(tǒng)的I/O性能也是需要突破的一大瓶頸,否則機群的運算能力將會受到制約,無法顯現(xiàn)四核處理器高速、流暢的運算性能。曙光公司在該系統(tǒng)中將用于計算數(shù)據(jù)通訊的網(wǎng)絡(luò)和管理、登陸網(wǎng)絡(luò)分開搭建,不同用途的數(shù)據(jù)分流傳輸,解決了管理系統(tǒng)數(shù)據(jù)與運算數(shù)據(jù)爭搶帶寬資源的窘?jīng)r。
在計算數(shù)據(jù)網(wǎng)絡(luò)中,雙路雙核配置的曙光天闊A620r-F擔(dān)當(dāng)了系統(tǒng)中的I/O節(jié)點,其通過心跳線做成了高可用系統(tǒng),可為整個系統(tǒng)提供持續(xù)的I/O服務(wù)。在I/O節(jié)點中,Infiniband網(wǎng)絡(luò)作為接入數(shù)據(jù)網(wǎng)絡(luò),其提供了高達(dá)20Gb/s的雙向帶寬,延遲只有幾個微秒。并且,每臺I/O節(jié)點配置了1塊 4Gb/s的光纖HBA卡,分別和具備2個4Gb/s主機通道的光纖磁盤陣列柜相連,為系統(tǒng)提供了超強的存儲空間和強大的I/O能力。 #p#page_title#e#
在管理和登陸通訊網(wǎng)絡(luò)中,節(jié)點也同樣采用天闊A620r-F,加上專用的千兆網(wǎng),承擔(dān)起和其它網(wǎng)絡(luò)的通訊以及系統(tǒng)管理、監(jiān)控的責(zé)任。作為管理、登陸節(jié)點,速度不再是苛求的目標(biāo),長期平穩(wěn)的運算性能是用戶更為關(guān)心的特質(zhì)。因此,在管理節(jié)點機的配置中,設(shè)計者別具匠心的在A620r-F中采用了可提供病毒防護(hù)功能的高性能BIOS;可以選單/雙通道SCSI RAID配置,支持在線恢復(fù)RAID陣列;多網(wǎng)卡冗余體系,保證系統(tǒng)穩(wěn)定均衡的處理網(wǎng)絡(luò)負(fù)載。各種配置,為管理節(jié)點提供了細(xì)致入微的高可靠性。
在機群的操作系統(tǒng)中,配有曙光公司獨家設(shè)計的第二代監(jiān)控系統(tǒng),采用并發(fā)機制,能夠按用戶的需求伸縮管理配置功能,可對新增節(jié)點提供配置、管理的功能,使其自動納入管理范圍。該種采用模塊化形式設(shè)計的管理系統(tǒng),大大提高了系統(tǒng)可靠性和可管理性。
另外,整個機群的機柜系統(tǒng)采用符合工業(yè)標(biāo)準(zhǔn)的41U機柜,內(nèi)部含網(wǎng)絡(luò)布線系統(tǒng),支持強電和弱電分離,可以實現(xiàn)整個機群內(nèi)24個節(jié)點100ms自動分時上電,減少了因集中上電對電源系統(tǒng)造成的沖擊,為系統(tǒng)提供了更好的安全性能。
成熟科學(xué)的解決方案
曙光4000A超級計算機機群系統(tǒng)是一款成熟的產(chǎn)品,在實際應(yīng)用中的曙光4000A,平均無故障時間(MTBF)突破了25萬小時大關(guān),其高穩(wěn)定性和可靠性已經(jīng)得到了實際應(yīng)用的證實。在本次為蘇州氣象局設(shè)計的超級計算機解決方案中,曙光公司將成熟的產(chǎn)品與當(dāng)前信息技術(shù)的發(fā)展趨勢相結(jié)合,在整個方案中體現(xiàn)了優(yōu)異的先進(jìn)性、擴展性、兼容性和完整性。
先進(jìn)性
在江蘇氣象局的信息化解決方案中,無論是在硬件還是軟件方面都體現(xiàn)了曙光公司產(chǎn)品的技術(shù)先進(jìn)性,其順應(yīng)信息化產(chǎn)業(yè)的主流發(fā)展趨勢,集合新產(chǎn)品和曙光公司的技術(shù)優(yōu)勢,為用戶提供了更高性能的新世代產(chǎn)品。
在硬件方面,該解決方案的先進(jìn)性主要體現(xiàn)在其所配置的“巴塞羅那”四核處理器上。同以往的雙核處理器相比,該款A(yù)MD新推出的四核處理器,不僅僅增加了CPU Core的數(shù)量,其在每一個CPU Core內(nèi)部,將SSE執(zhí)行單元加寬至128位,極大的提高了單核心的浮點處理性能,平均性能提高了54%。同時,巴塞羅那處理器沿襲了AMD獨特設(shè)計的集成內(nèi)存控制器,使CPU到內(nèi)存的路徑更短,并在內(nèi)存帶寬上采用了一系列優(yōu)化技術(shù),使得在不做其他改動的前提下,內(nèi)存性能比雙核皓龍?zhí)嵘?0%,它們是構(gòu)建蘇州氣象局高可用性信息化系統(tǒng)的奠基石。
整個蘇州氣象局信息化系統(tǒng)空載運行功耗僅10千瓦,滿載最大運行功耗也才達(dá)13千瓦,這一切節(jié)能優(yōu)勢都是從細(xì)小的處理器節(jié)能技術(shù)展開的。巴塞羅那處理器在節(jié)能方面采用了更精細(xì)的內(nèi)部控制,擁有業(yè)界首次使用的雙重動態(tài)電源管理(DDPM)技術(shù),能對CPU和內(nèi)存控制器分別獨立供電,使得在功耗降低的同時獲得更高的內(nèi)存帶寬。
另外,巴塞羅那更進(jìn)一步提供硬件層的快速虛擬化索引技術(shù)(RVI),顯著地提升內(nèi)存訪問的性能,提升虛擬機與物理機之間的數(shù)據(jù)傳送及翻譯轉(zhuǎn)換,使虛擬化性相比雙核產(chǎn)品能有75%的提升,其在CPU底層為虛擬化技術(shù)提供了良好的硬件支持。
盡管四核的巴塞羅那處理器性能較比雙核提升許多,但其售價卻并未成倍增長,加之其通用的標(biāo)準(zhǔn)特性可與雙核產(chǎn)品配件完全兼容,這使得巴塞羅那處理器具有了前代產(chǎn)品無法比擬的性價比。在信息化服務(wù)的實際應(yīng)用中,其也使得服務(wù)器產(chǎn)品倍受用戶青睞。
在整個解決方案的軟件方面,曙光公司自主研發(fā)的,面向用戶和網(wǎng)格的系統(tǒng)管理軟件也同時體現(xiàn)了解決方案的先進(jìn)性。該機群管理軟件可提供非常直觀的監(jiān)控功能,可跨操作系統(tǒng)和硬件平臺采集信息,將這些信息有效的匯總和顯示,實時監(jiān)控系統(tǒng)各節(jié)點的工作情況,有效監(jiān)控整個機群的用戶環(huán)境。并且,監(jiān)控系統(tǒng)采集的系統(tǒng)信息、硬件信息和電源信息通過獨立的I& sup2;C網(wǎng)絡(luò)傳輸,保證了監(jiān)控的獨立性和健全性,還可用圖形展示的方式對各節(jié)點的單項數(shù)據(jù)進(jìn)行對比。 #p#page_title#e#
擴展性
在科學(xué)技術(shù)飛速發(fā)展的今天,任何一套信息化解決方案都必須考慮到用戶的需求變化,一套信息化系統(tǒng)如果不能適應(yīng)用戶需求的變化,不具備良好的擴展性,它勢必只有短暫的技術(shù)生命,而且是對用戶投資的浪費。
在曙光公司為江蘇氣象局提供的信息化解決方案中,各節(jié)點機采用目前最先進(jìn)的AMD16路服務(wù)器的系統(tǒng)架構(gòu),既滿足了整個系統(tǒng)平臺的應(yīng)用要求,又滿足了今后系統(tǒng)升級后的需要。
負(fù)責(zé)計算數(shù)據(jù)通訊的Infiniband網(wǎng)絡(luò),可以使現(xiàn)有系統(tǒng)具有良好擴展性,滿足下一代系統(tǒng)的要求。它可實現(xiàn)PCB上部件與部件間的互連,也可以用來實現(xiàn)一種超出機箱外部的底板之間的互連。并且,每個鏈路都是基于4根信號線的2.5Gbps雙向連接,在擴展的產(chǎn)品部件的同時,還提供了良好的性能。
曙光TC4000A的機柜、電源、系統(tǒng)管理都可以使系統(tǒng)無縫擴展至更多節(jié)點。視頻切換系統(tǒng)可以在線擴容至99個節(jié)點;電源的設(shè)計可以提供4個機柜的用電量;機群操作系統(tǒng)可以無縫擴展,可直接將擴容的節(jié)點機納入當(dāng)前的系統(tǒng)中進(jìn)行管理、調(diào)度;當(dāng)任務(wù)量增加,需要增加計算單元時,系統(tǒng)只需要簡單的增加節(jié)點設(shè)備即可,這樣保證了當(dāng)前的投資,而且保證了系統(tǒng)的完整性。
兼容性
在信息化服務(wù)市場中,充斥著各式各樣的軟硬件產(chǎn)品,用戶也會根據(jù)自己的需求選擇不同的產(chǎn)品進(jìn)行組合搭配。因此,用戶的信息化平臺應(yīng)該是一個具有良好包容性的中性平臺,其可在硬件上兼容各廠商的標(biāo)準(zhǔn)配件,在軟件上平穩(wěn)運行各種操作系統(tǒng)和應(yīng)用程序,只有這樣的應(yīng)用平臺才具有良好的實用價值。
在蘇州氣象局的信息化解決方案中,曙光機群系統(tǒng)的良好兼容性得到了充分體現(xiàn)。該系統(tǒng)中,普通PC機能夠運行的應(yīng)用軟件都能直接在機群系統(tǒng)上運行。另一方面,由于目前機群技術(shù)的廣泛使用,機群成為了目前大型機和超級計算機的主流,絕大部分高端的并行應(yīng)用軟件都能很好的在該機群系統(tǒng)上運行。
在應(yīng)用方面,該系統(tǒng)處理器可兼容64位和32位的應(yīng)用,普通的32位應(yīng)用軟件可以不經(jīng)過重新編譯直接運行在這樣的系統(tǒng)之中,用戶可以由32位平滑的過渡到64位。同時,系統(tǒng)中還提供有標(biāo)準(zhǔn)接口以供和其它系統(tǒng)相連接,其在用戶需要時,可很好的和其它的機群系統(tǒng)、大型主機實現(xiàn)對接。
在操作系統(tǒng)中,曙光4000A采用具有更好開放性的LINUX操作系統(tǒng),其比封閉的UNIX操作系統(tǒng)具有更好的兼容性,其也是目前服務(wù)器中應(yīng)用最廣泛的操作系統(tǒng)。另外,曙光機群的管理系統(tǒng)也具有很好的兼容性和跨平臺性,它能很好的運行在目前主流的操作系統(tǒng)之上,包括Linux、UNIX和Windows,還能完美的實現(xiàn)異構(gòu)集群系統(tǒng)的管理。
完整性
曙光公司為蘇州氣象局提供的信息化解決方案是基于氣象行業(yè)應(yīng)用的整體性方案,從系統(tǒng)的軟硬件配置,一直到應(yīng)用調(diào)試;從產(chǎn)品設(shè)計安裝,到運行人員培訓(xùn),處處都體現(xiàn)了曙光公司信息化解決方案的完整性,其為用戶提供了一站式的服務(wù),可滿足用戶的各種需求。
作為氣象預(yù)測系統(tǒng),曙光公司根據(jù)多年的應(yīng)用經(jīng)驗,為蘇州氣象局提供了完整的應(yīng)用方案。其中包括了氣象業(yè)務(wù)系統(tǒng)運行所需要的開發(fā)環(huán)境、并行環(huán)境,還提供了中尺度氣象預(yù)報模式所需要的前處理和后處理系統(tǒng)。而且,曙光公司還具備很強的系統(tǒng)整合能力,增強了整個機群系統(tǒng)的單一系統(tǒng)映象功能,原有機群系統(tǒng)上的應(yīng)用軟件無需作任何改動即可正常的在新系統(tǒng)中運行。
在培訓(xùn)方面,曙光公司為蘇州氣象局提供了一系列的培訓(xùn),課程分別針對:普通用戶、系統(tǒng)管理人員、開發(fā)人員。培訓(xùn)的內(nèi)容包括從集群的簡單使用到并行軟件的研制和并行算法的設(shè)計,從系統(tǒng)的管理和日常維護(hù)到設(shè)備的原理等一應(yīng)俱全。整套培訓(xùn)體系有機房的現(xiàn)場培訓(xùn)、課堂講課、上機實習(xí)等多種方式。在有完備的培訓(xùn)的同時,曙光公司又為用戶提供了完備文檔,做到了售后服務(wù)的完整性,使用戶不僅擁有設(shè)備,更能用好設(shè)備。 #p#page_title#e#
結(jié)束語
曙光4000A是曙光公司和國家智能計算機研究中心共同研發(fā)的,基于Linux的超級服務(wù)器系統(tǒng),為當(dāng)前國內(nèi)最大的IDC數(shù)據(jù)處理主機之一,其在各行業(yè)領(lǐng)域有著廣泛的應(yīng)用,并且成功登陸全球超級計算機排名的TOP10,其在產(chǎn)品技術(shù)上的科學(xué)性、成熟性已成為中國高性能計算機產(chǎn)業(yè)的標(biāo)桿。本次在蘇州氣象局的成功應(yīng)用,為氣象事業(yè)的發(fā)展增添了新的活力與保障,極大的提高了蘇州區(qū)域氣象預(yù)報的精確度,也為全國氣象行業(yè)信息化發(fā)展提供了寶貴的應(yīng)用經(jīng)驗。