基于Infiniband高性能集群硬件配置方案
摩爾定律的一再驗(yàn)證殘酷的揭示了一個現(xiàn)實(shí):速度是技術(shù)發(fā)展的終極目標(biāo)。高性能計(jì)算領(lǐng)域也是一樣,如何使高性能計(jì)算平臺運(yùn)行的更快、更高效一直是服務(wù)器廠商研究的方向,曙光作為中國高性能計(jì)算的領(lǐng)頭羊,作為高端服務(wù)器廠商,也在為此做著不懈的努力。Infiniband高速網(wǎng)絡(luò)是近幾年產(chǎn)生的一種新興技術(shù),因其具有高帶寬、低延遲的特色,得到了計(jì)算領(lǐng)域的青睞。本文介紹了Infiniband的硬件組成及其在不同應(yīng)用中的選擇依據(jù),最后通過四個案例進(jìn)行分析,構(gòu)建一套符合用戶需求的高性能計(jì)算網(wǎng)絡(luò)。
1. 前言
近年來,世界上的超級計(jì)算已經(jīng)由價格昂貴、無擴(kuò)展性的單片機(jī)架構(gòu)轉(zhuǎn)變?yōu)椴捎蒙虡I(yè)處理器而擁有無限擴(kuò)展能力的集群系統(tǒng),稱為高性能計(jì)算機(jī)集群(HPC:High Performance Computing)。美國Top500.org組織每年分別兩次排列出當(dāng)今世界上最強(qiáng)大的超級計(jì)算機(jī),該排名按照超級計(jì)算機(jī)的實(shí)際計(jì)算能力(FLOPS:每秒浮點(diǎn)運(yùn)算)按遞減順序排列。這個列表顯示出集群架構(gòu)正在逐漸取代單片機(jī)架構(gòu)的趨勢。由于HPC系統(tǒng)能夠快速準(zhǔn)確計(jì)算出結(jié)果,有助于解決商業(yè)和科學(xué)研究中面臨的問題,所以,HPC系統(tǒng)越來越多的被政府部門、商業(yè)組織和科學(xué)院所采用。
然而,有一些部門和組織所面臨的是更具挑戰(zhàn)性的計(jì)算問題,他們需要更強(qiáng)大、高性能價格比的HPC系統(tǒng)。這就意味著人們必須要關(guān)注大集群的建設(shè),這里的大集群是指規(guī)模超過100個節(jié)點(diǎn),達(dá)到幾百個、上千個甚至上萬個節(jié)點(diǎn)的集群系統(tǒng);將集群系統(tǒng)擴(kuò)展到這樣的規(guī)模而帶來的困難和復(fù)雜程度是難以想象的;使這樣規(guī)模的集群能夠正常、穩(wěn)定的工作也是一個痛苦的過程。在超級計(jì)算機(jī)發(fā)展的道路上不乏失敗了的大型HPC系統(tǒng)的“尸體”,也說明了這是一個值得研究的問題。
選擇一個正確的互連網(wǎng)絡(luò)是能否達(dá)到甚至超過您對集群性能預(yù)期的關(guān)鍵。如上所述,一個集群中需要支持多種類型的數(shù)據(jù)流,所以,我們可以選擇在同一集群中同時采用不同類型的互聯(lián)網(wǎng)絡(luò),這些不同的網(wǎng)絡(luò)將各自支持不同的網(wǎng)絡(luò)協(xié)議,同時,這些不同的網(wǎng)絡(luò)也擁有不同的網(wǎng)絡(luò)性能和特性。例如,基于千兆以太網(wǎng)的網(wǎng)絡(luò),可以通過TCP/IP通道來傳輸信息,但缺點(diǎn)是需要占用大量CPU資源來處理網(wǎng)絡(luò)通信,導(dǎo)致整體處理效率的下降;Myrinet 網(wǎng)絡(luò)采用卸載引擎(offload engine)技術(shù)降低了CPU資源在處理通信方面的消耗,并且擁有千兆以太網(wǎng)兩倍的帶寬。在目前的Top500排名上千兆以太網(wǎng)技術(shù)和Myrinet都很普遍;然而Infiniband,由于是一個標(biāo)準(zhǔn)化的、開放的高性能互聯(lián)技術(shù)平臺,從小規(guī)模到大規(guī)模的可擴(kuò)展性集群中也擁有很強(qiáng)的生命力。
2. Infiniband背景介紹
2.1. Infiniband發(fā)展歷史
Infiniband是一種新型的總線結(jié)構(gòu),它可以消除目前阻礙服務(wù)器和存儲系統(tǒng)的瓶頸問題,是一種將服務(wù)器、網(wǎng)絡(luò)設(shè)備和存儲設(shè)備連接在一起的交換結(jié)構(gòu)的I/O技術(shù)。 它是一種致力于服務(wù)器端而不是PC端的高性能I/O技術(shù)。
Infiniband最初于2000年上市,但由于當(dāng)時經(jīng)濟(jì)的不景氣和IT預(yù)算緊縮,人們對它的興趣很快就消散了。發(fā)展至今,I/O技術(shù)在企業(yè)服務(wù)器中無論是速率上還是吞吐量上都取得了穩(wěn)步提高。但是,毫無疑問,現(xiàn)有的基于PCI架構(gòu)的I/O技術(shù)仍然是系統(tǒng)處理器、系統(tǒng)主存以及I/O外設(shè)之間的主要瓶頸。這種I/O架構(gòu)已經(jīng)不能滿足互聯(lián)網(wǎng)、電子商務(wù)、存儲網(wǎng)絡(luò)等大量的I/O需求。隨著對稱多處理器(SMP)、集群計(jì)算、網(wǎng)格以及遠(yuǎn)程備份的廣泛應(yīng)用,這種基于PCI架構(gòu)的I/O技術(shù)的缺陷和局限性日益突出。目前人們對互連技術(shù)的興趣開始恢復(fù),而且非常希望互連技術(shù)能夠幫助數(shù)據(jù)中心降低成本或?qū)崿F(xiàn)高性能的計(jì)算。隨著各種高速I/O標(biāo)準(zhǔn)相繼登場,Infiniband逐漸嶄露頭角。
Infiniband技術(shù)通過一種交換式通信組織(Switched Communications Fabric)提供了較局部總線技術(shù)更高的性能,它通過硬件提供了可靠的傳輸層級的點(diǎn)到點(diǎn)連接,并在線路上支持消息傳遞和內(nèi)存映像技術(shù)。不同于PCI,Infiniband允許多個I/O外設(shè)無延遲、無擁塞地同時向處理器發(fā)出數(shù)據(jù)請求 。 目前,集群計(jì)算(Cluster)、存儲區(qū)域網(wǎng)(SAN)、網(wǎng)格、內(nèi)部處理器通信(IPC)等高端領(lǐng)域?qū)Ω邘挕⒏邤U(kuò)展性、高QoS以及高RAS(Reliability、Availability and Serviceability)等有迫切需求,Infiniband技術(shù)為實(shí)現(xiàn)這些高端需求提供了可靠的保障。
#p#page_title#e#
2.2. Infiniband發(fā)展趨勢
基于共享總線(Shared-Bus)的架構(gòu)的諸多局限性決定了這項(xiàng)I/O技術(shù)已經(jīng)不能適合日益龐大的計(jì)算機(jī)系統(tǒng)的I/O需求。這些局限性主要包括速率極限、可擴(kuò)展性、單點(diǎn)故障等幾個主要方面。而基于交換架構(gòu)的Infiniband技術(shù)在避開PCI架構(gòu)上述問題的同時,提供了其他方面的更高性能?;贔abric與基于共享總線I/O技術(shù)之間的簡要對比如下表所示。
1.Shared-Bus架構(gòu)的局限性
PCI-X 133的帶寬只有2GB/s,雖然目前公布的PCI-E的帶寬峰值到4GBps,但這沒有從根本上緩解服務(wù)器端的I/O帶寬瓶頸。同樣,PCI架構(gòu)(主要是PCI-X)的可擴(kuò)展性也非常有限,它主要通過兩種方式來實(shí)現(xiàn):要么增加同層PCI總線(PCI本身就是一種層次結(jié)構(gòu)I/O技術(shù)),要么增加PCI-to-PCI橋。前者主要通過在主板上集成額外的Host-to-PCI總線芯片以及增加PCI連接器來實(shí)現(xiàn),而后者主要通過在主板上增加PCI-to-PCI橋接芯片來實(shí)現(xiàn)。無論采用什么方式擴(kuò)展PCI架構(gòu)的I/O總線,其代價都是比較昂貴的。
在基于共享總線的I/O結(jié)構(gòu)中,所有通信共享單一總線帶寬,由此就造成外設(shè)越多,可用帶寬就越少,從而帶來更嚴(yán)重的系統(tǒng)I/O瓶頸。不僅如此,在基于共享并行I/O總線上,大量的引腳數(shù)目也帶來了一定的電氣特性和機(jī)械特性等問題,使得PCB空間、信號頻率以及信號可傳輸距離都受到很大程度的制約。
2.Switched Fabric體系結(jié)構(gòu)的高可擴(kuò)性
Infiniband所采用的交換結(jié)構(gòu)(Switched Fabric)是一種面向系統(tǒng)故障容忍性和可擴(kuò)展性的基于交換的點(diǎn)到點(diǎn)互聯(lián)結(jié)構(gòu)。這種結(jié)構(gòu)如下圖所示。
在上圖中,通過向Infiniband系統(tǒng)添加交換機(jī)可以很容易地實(shí)現(xiàn)I/O系統(tǒng)的擴(kuò)展,進(jìn)而允許更多的終端設(shè)備接入到I/O系統(tǒng)。與基于共享總線的I/O系統(tǒng)相反,這種Switched Fabric系統(tǒng)的總體帶寬會隨著所接入交換設(shè)備數(shù)目的增加而不斷提高。另外,正如上圖所指出的那樣,通過在Infiniband子結(jié)構(gòu)之間添加路由設(shè)備,可以更大范圍地?cái)U(kuò)充整個Infiniband系統(tǒng)。
Infiniband技術(shù)是一種開放標(biāo)準(zhǔn)的、目前全球帶寬最高的高速網(wǎng)絡(luò)互聯(lián)技術(shù),Infiniband產(chǎn)品是目前主流的高性能計(jì)算機(jī)互連設(shè)備之一。目前基于Infiniband技術(shù)的網(wǎng)絡(luò)卡的單端口帶寬最大可達(dá)到20Gbps,基于Infiniband的交換機(jī)的單端口帶寬最大可達(dá)60Gbps,單交換機(jī)芯片可以支持達(dá)480Gbit每秒的帶寬。到2006年,Infiniband技術(shù)可以達(dá)到單端口120Gbps,其單端口的帶寬甚至遠(yuǎn)高于目前的主流交換機(jī)的總帶寬,可以為目前和未來對于網(wǎng)絡(luò)帶寬要求非??量痰膽?yīng)用提供了可靠的解決方案。
Infiniband技術(shù)是采用RDMA傳輸機(jī)制實(shí)現(xiàn)了低延遲,高帶寬的新型網(wǎng)絡(luò)標(biāo)準(zhǔn),并得到了行業(yè)中所有領(lǐng)軍企業(yè)的支持;部分服務(wù)器廠家已經(jīng)或計(jì)劃將Infiniband芯片移植到主板上。
Infiniband 架構(gòu)的這種快速增長主要得益于越來越多的企業(yè)級數(shù)據(jù)中心的建立部署和持續(xù)發(fā)展的高性能計(jì)算的應(yīng)用。
2004年1月,IBM開始將Infiniband技術(shù)應(yīng)用于其解決方案;
2004年1月,SUN 開始推出Infiniband解決方案;
2004年2月,HP的Infiniband 產(chǎn)品在市場上出現(xiàn);
2004年2月,Dell 開始推出Infiniband解決方案;
2004年5月,SKY Computer 的嵌入式Infiniband方案被用于軍事和工業(yè)應(yīng)用;
2004年6月,NEC開始應(yīng)用Infiniband到NEC刀片式服務(wù)器;
2004年6月,SBS 公司率先宣布推出基于VXWorks的 InfninBand 驅(qū)動;
2004年, HP和 Oracle多次刷新TPCH性能測試紀(jì)錄;
2004年11月,在美國國家航空和宇宙航行局(NCSA),SGI完成了基于Infiniband互聯(lián)技術(shù)的超級計(jì)算機(jī),其運(yùn)算速度位居世界第二。
2005年4月,Cisco 公司宣布收購 Infiniband 方案提供商-Topspin, 成為 Infiniband 產(chǎn)品的最大用戶。
除此之外,Apple、Hitachi、Fujitsu等廠商也都已推出了基于Infiniband的解決方案;Engenio、NetApp、DataDirect、Engenio、Isilon、Terrascale和CFS等存儲廠商也已推出或即將推出基于Infiniband技術(shù)的存儲解決方案;Arima,、Iwill,、SuperMicro和Tyan等服務(wù)器主機(jī)板廠商也陸續(xù)推出了基于Infiniband芯片的LOM(Landed on Mainboard)方案。
而基于Infiniband技術(shù)的芯片、網(wǎng)卡和交換機(jī)主要供應(yīng)商Mellanox公司已取得里程碑式的銷售成績----50萬個 Infiniband 端口,這些端口體現(xiàn)在多種產(chǎn)品形式上,包括:集群服務(wù)器、高帶寬交換機(jī)、嵌入式平臺和集群存儲系統(tǒng)。
“因?yàn)?Infiniband 有著極佳的擴(kuò)展性與性能,由許多公司包括Mellanox在內(nèi)所生產(chǎn)的10Gb/s適配卡,會幫助用戶壓低集群中每個節(jié)點(diǎn)的成本,”英特爾 數(shù)字企業(yè)集團(tuán)行銷主管 Jim Pappas 說道:“ Infiniband 產(chǎn)品種類的增多對應(yīng)用于商業(yè)和科學(xué)計(jì)算領(lǐng)域的 10Gb/s 帶寬計(jì)算機(jī)集群的發(fā)展有著積極的影響。”另外,InfiniHost III Lx HCA 卡把這種高性能通訊技術(shù)同時打入了高速存儲和嵌入式應(yīng)用這兩個市場。
由此可見,Infiniband的整體解決方案已經(jīng)成形,這個整體解決方案的出現(xiàn),必將帶來高性能計(jì)算平臺和數(shù)據(jù)中心的一次變革,讓長期以來一直高高在上的高性能解決方案變得大眾化。#p#page_title#e#
2.3. Infiniband技術(shù)特色
圖示: 傳輸小數(shù)據(jù)包的性能測試
許多應(yīng)用對信息傳輸?shù)难舆t是很敏感的,傳輸?shù)难舆t隨著所傳輸信息的大小而有所不同,所以,同時了解互連網(wǎng)絡(luò)在傳輸小信息和大信息時的延遲非常重要。通過對集群中兩節(jié)點(diǎn)間進(jìn)行的延遲基準(zhǔn)測量,可以看到Infiniband設(shè)備在各種處理器平臺上延遲都是最低。
需要指出的是,延遲的基準(zhǔn)測試中一般都是采用了最小的數(shù)據(jù)包及0字節(jié)的數(shù)據(jù)包進(jìn)行傳輸,得到結(jié)果,并沒有反映出實(shí)際工作時的情況;而實(shí)際應(yīng)用中,數(shù)據(jù)包一般比較大,這時就對帶寬提出了要求。
圖示4K數(shù)據(jù)包時各種網(wǎng)絡(luò)的延遲
在傳輸4K大小的數(shù)據(jù)包時,Infiniband 10Gbps的帶寬優(yōu)勢很明顯,傳輸速度遠(yuǎn)遠(yuǎn)優(yōu)于Myrinet和千兆以太網(wǎng)。
需要注意的是,所有公開的網(wǎng)絡(luò)延遲都是在最佳情況下測得的。最佳情況是指參與測試的兩臺服務(wù)器只通過了一個交換芯片連接;但是,隨著集群規(guī)模的擴(kuò)大,底層的交換結(jié)構(gòu)也將擴(kuò)大,傳輸數(shù)據(jù)包所需經(jīng)過的交換設(shè)備也在不斷的增加,每一個交換設(shè)備都會在數(shù)據(jù)包傳輸?shù)侥康牡氐倪^程中增加額外的延遲;單獨(dú)看待一臺交換機(jī)硬件上的延遲是很小的,相比其他部分產(chǎn)生的延遲,可以忽略;但是站在整套集群架構(gòu)來看,考慮這個延遲的重要性就顯現(xiàn)出來??紤]了設(shè)備的延遲,還需要考慮物理層(設(shè)備)以上的各種網(wǎng)絡(luò)協(xié)議在傳輸數(shù)據(jù)時產(chǎn)生的延遲。Infiniband的設(shè)計(jì)采用了傳輸協(xié)議卸載和繞過OS技術(shù),也稱為RDMA(遠(yuǎn)程直接存儲訪問),從而減少了通信對CPU的開銷,將CPU的計(jì)算資源留給了應(yīng)用。對于應(yīng)用,越多的CPU資源意味著計(jì)算工作能夠更快的完成或更多復(fù)雜的模擬可以在同一時間內(nèi)完成。所有的這些降低延遲的特性集合起來證明了Infiniband的能力。
由于協(xié)議、通信和CPU的負(fù)載將會隨著節(jié)點(diǎn)的增加而占用越來越多的CPU計(jì)算資源,所以,保證可用的CPU資源總數(shù)能夠隨著集群規(guī)模而線性增加是非常重要的。這一性能可以通過HPL(High-Performance Linpack)測試結(jié)果來體現(xiàn)。HPL的測試結(jié)果用百分?jǐn)?shù)表示:實(shí)際應(yīng)用所占的計(jì)算資源與整體計(jì)算資源相除得出百分比。需要指明的是,即使是一臺雙CPU的服務(wù)器,沒有任何互聯(lián)設(shè)備,在做HPL測試時,也不可能達(dá)到100%的效率。這就要求互連設(shè)備能夠隨著集群增大而盡量保持較高的HPL效率,下圖表顯示了使用同種處理器而處理器數(shù)量從4到288個時的HPL效率,Infiniband再次取得了最好的性能。
Top500 上相同CPU各種網(wǎng)絡(luò)的HPL效率
與同類其它產(chǎn)品(如10Gbit以太網(wǎng)卡)相比較,Infiniband產(chǎn)品也具有明顯的優(yōu)勢,其價格是目前10Gbit以太網(wǎng)卡的十分之一,但是Infiniband HCA卡的功耗卻是10Gbit以太網(wǎng)卡的七分之一,同時具有帶寬更大,延時更低,面積更小,對于CPU的占用率更低,基于Infiniband平臺的軟件更加成熟等優(yōu)勢。
隨著雙核處理器的出現(xiàn)、PCI-Express總線的發(fā)展、超級計(jì)算機(jī)的規(guī)模越來越大,對于高帶寬、低延時的需求變得越來越苛刻;數(shù)據(jù)庫機(jī)群的發(fā)展,華爾街/金融分析的精確度的增加,制造業(yè)、石油、氣象、生物等仿真技術(shù)的發(fā)展; 等等。高性能、低價格的網(wǎng)絡(luò)互連方案變得日益重要,所有的一切都在推動Infiniband在快速的成為市場的主流,在科學(xué)計(jì)算、高速存儲和嵌入式應(yīng)用等市場變得越來越普及。 #p#page_title#e#
2.3.1. Infiniband常用術(shù)語
HCA – Host Channel Adapter (主信道適配器)
TCA – Target Channel Adapter (目標(biāo)信道適配器)
QP – Queue Pair 每一個HCA可以同時支持幾千個QP(s)。QP(s)由需要通信的節(jié)點(diǎn)產(chǎn)生。
SM – Subnet Manager 子網(wǎng)管理器(配置IB結(jié)構(gòu)的軟件)
ULP – Upper Layer Protocol (軟件包,采用Infiniband提供所定義的功能和服務(wù))
CM – Communication Manager (ULP所使用的軟件,用來調(diào)節(jié)節(jié)點(diǎn)機(jī)間所產(chǎn)生的QP)
LID – 16bit Local Identifier 由子網(wǎng)管理器分配的標(biāo)識
2.3.2. Infiniband技術(shù)優(yōu)勢
Infiniband是一種交換結(jié)構(gòu)I/O技術(shù),其設(shè)計(jì)思路是通過一套中心機(jī)構(gòu)(中心Infiniband交換機(jī))在遠(yuǎn)程存貯器、網(wǎng)絡(luò)以及服務(wù)器等設(shè)備之間建立一個單一的連接鏈路,并由中心Infiniband交換機(jī)來指揮流量,它的結(jié)構(gòu)設(shè)計(jì)得非常緊密,大大提高了系統(tǒng)的性能、可靠性和有效性,能緩解各硬件設(shè)備之間的數(shù)據(jù)流量擁塞。而這是許多共享總線式技術(shù)沒有解決好的問題,例如這是基于PCI的機(jī)器最頭疼的問題,甚至最新的PCI-E也存在這個問題,因?yàn)樵诠蚕砜偩€環(huán)境中,設(shè)備之間的連接都必須通過指定的端口建立單獨(dú)的鏈路。
Infiniband的四大優(yōu)點(diǎn):基于標(biāo)準(zhǔn)的協(xié)議,每秒10 GB性能,遠(yuǎn)程直接內(nèi)存存取(Remote Direct Memory Access,簡稱RDMA)和傳輸卸載(transport offload)。
標(biāo)準(zhǔn):成立于1999年的Infiniband貿(mào)易協(xié)會 由225家公司組成,它們共同設(shè)計(jì)了該開放標(biāo)準(zhǔn)。主要掌控該協(xié)會的成員包括:Agilent, Dell, HP, IBM, InfiniSwitch, Intel, Mellanox, Network Appliance和Sun Microsystems公司。其他的100多家成員則協(xié)助開發(fā)和推廣宣傳該標(biāo)準(zhǔn)。
速度:Infiniband每秒10gigabytes的性能明顯超過現(xiàn)有的Fibre Channel的每秒4 gigabits,也超過以太網(wǎng)的每秒1 gigabit的性能。
內(nèi)存:支持Infiniband的服務(wù)器使用主機(jī)通道適配器(Host Channel Adapter,簡稱HCA),把協(xié)議轉(zhuǎn)換到服務(wù)器內(nèi)部的PCI-X或者PCI-Xpress總線。HCA具有RDMA功能,有時也稱之為內(nèi)核旁路(Kernel Bypass)。RDMA對于集群來說很適合,因?yàn)樗梢酝ㄟ^一個虛擬的尋址方案,讓服務(wù)器知道和使用其他服務(wù)器的部分內(nèi)存,無需涉及操作系統(tǒng)的內(nèi)核。
傳輸卸載(Transport Offload): RDMA 能夠幫助傳輸卸載,后者把數(shù)據(jù)包路由從OS轉(zhuǎn)到芯片級,節(jié)省了處理器的處理負(fù)擔(dān)。要是在OS中處理10 Gbps的傳輸速度的數(shù)據(jù),就需要 80 GHz處理器。
中央處理器CPU與其存儲子系統(tǒng)的設(shè)計(jì)是集群系統(tǒng)性能的指示器;但是,隨著集群規(guī)模的擴(kuò)展,保證CPU的資源不被占用的關(guān)鍵是互連網(wǎng)絡(luò)。互連網(wǎng)絡(luò)的任務(wù)就是將集群中海量的應(yīng)用數(shù)據(jù)以盡可能快的速度從節(jié)點(diǎn)“A”傳到節(jié)點(diǎn)“B”,那么從不同部分產(chǎn)生的延遲就是需要考慮的關(guān)鍵。所以,為了達(dá)到最佳的應(yīng)用效率,就要對可能產(chǎn)生延遲的部分做到延遲最小化。幸運(yùn)的是,雖然產(chǎn)生延遲的部分有很多,但是,大多數(shù)延遲的瓶頸可以在互連網(wǎng)絡(luò)這一級得到解決。
圖示:Infiniband在數(shù)據(jù)傳輸中的位置
采用Infiniband的系統(tǒng)具有很強(qiáng)的可擴(kuò)展性:按需購買,按需升級,按需擴(kuò)展
a) 性能升級 :硬件和軟件可以進(jìn)行上下兼容,新的驅(qū)動可以在原有設(shè)備上進(jìn)行安裝,提高性能。
b)帶寬升級:3.3Gbps和5Gbps和10Gbps的三種解決方案之間可以進(jìn)行靈活的升級;客戶所需要的只是增加交換機(jī)的背板模塊。
c)規(guī)模升級:交換機(jī)之間可以進(jìn)行堆疊來實(shí)現(xiàn)集群擴(kuò)展。IO9120(144端口),IO9240(288端口)的交換機(jī),都是以12端口為單元進(jìn)行擴(kuò)展的,均采用通用模塊;由于Silverstorm(原Infinicon)子網(wǎng)管理器可以實(shí)現(xiàn)動態(tài)部署,無需對集群進(jìn)行重新配置,添加的節(jié)點(diǎn)實(shí)現(xiàn)即插即用。
使用和維護(hù)簡單:
產(chǎn)品中有集群輔助工具: Fast Fabric Tool (FFT);該工具可以對快速的集群進(jìn)行安裝、硬件可靠性測試、集群性能、測試和軟件驅(qū)動的升級;當(dāng)采用FFT進(jìn)行了Silverstorm(原Infinicon)公司網(wǎng)絡(luò)的安裝之后,在新的驅(qū)動版本推出后,通過FFT在最初安裝時留下的端口,只需一條命令就可以對整套集群進(jìn)行軟件的升級。
a)高帶寬(每秒傳輸10Gb);
b)低延遲(最低4.5us);
c)QOS功能;
d)高擴(kuò)展性;
e)直接與存儲設(shè)備和以太網(wǎng)連接,形成三網(wǎng)合一;
f)基于TCP/IP的應(yīng)用不需要任何改動即可利用Infiniband的特性;
g)RDMA協(xié)議的應(yīng)用,減輕CPU的協(xié)議消耗;
h)與PCI-EXPRESS總線捆綁,能體現(xiàn)Infiniband更大的優(yōu)勢。
除了以上技術(shù)上的優(yōu)勢外,由于該技術(shù)標(biāo)準(zhǔn)定義了后續(xù)產(chǎn)品的技術(shù)指標(biāo),如帶寬達(dá)到30G,60G等,所以用戶選擇該技術(shù)可以保證其利益的延續(xù)性和技術(shù)領(lǐng)先優(yōu)勢。
這些智能化、模塊化的設(shè)計(jì)可以允許客戶按照應(yīng)用的實(shí)際需求來配置集群。有一些應(yīng)用的需要盡可能大的帶寬,那么可以利用Infiniband單向10Gb/s、雙向20Gb/s的帶寬;而一些應(yīng)用不需要這樣高的帶寬,目前需要2.5Gb/s的帶寬就足夠的應(yīng)用在將來可能需要更大的帶寬。所以設(shè)計(jì)集群的時候,結(jié)構(gòu)上的靈活度也很重要:最理想的狀況,用戶可以擁有滿足現(xiàn)有應(yīng)用所需的帶寬的同時還能夠動態(tài)的靈活快速的滿足將來應(yīng)用對帶寬的需要。在Infiniband以前,現(xiàn)有主流的高速集群網(wǎng)絡(luò)傳輸速度局限在2.5Gb/s或更低。現(xiàn)在,利用Infiniband的帶寬優(yōu)勢,集群的結(jié)構(gòu)可以有多種多樣的帶寬上的選擇和配置。不同的配置是確保每兩節(jié)點(diǎn)間通信最小帶寬為3.3Gb/s。需要注意的是,這種配置下的每一個節(jié)點(diǎn)的Infiniband帶寬能力仍然是10Gb/s,只是將多對服務(wù)器共享一條交換機(jī)的內(nèi)部互連帶寬:當(dāng)這多對服務(wù)器只有一對通信時,通信帶寬為10Gb/s;兩對同時工作時,通信帶寬為5Gb/s;只有在多對服務(wù)器同時工作時帶寬為3.3Gb/s。所以只需對集群中的核心交換機(jī)和邊緣交換機(jī)的內(nèi)部互連進(jìn)行不同的配置就可以靈活的配置出自己滿意的集群。這樣做的另一個好處是節(jié)省客戶在整體設(shè)備和空間上的投入成本,例如:甲客戶在2002年配置了3.3Gb/s CBB的Infiniband網(wǎng)絡(luò);2003年需要達(dá)到5Gb/s CBB的Infiniband網(wǎng)絡(luò),原來的網(wǎng)絡(luò)設(shè)備可以保留,添加相應(yīng)的交換設(shè)備就可以;2005年需要達(dá)到10Gb/s的帶寬,這時前幾年投入的設(shè)備依然可以使用。如果客戶在一套集群中部分節(jié)點(diǎn)需要10Gb/s的帶寬,也需要低帶寬以降低成本,Infiniband就可以靈活配置滿足客戶的要求。
2.4. 硬件組成
為了使Infiniband有效地工作,Infiniband標(biāo)準(zhǔn)定義了一套用于系統(tǒng)通信的多種設(shè)備,包括信道適配器、交換機(jī)、相關(guān)線纜和子網(wǎng)管理器。
如圖所示:雙端口HCA卡
HCA卡--Infiniband信道適配器,信道適配器用于Infiniband結(jié)構(gòu)同其他設(shè)備的連接。Infiniband標(biāo)準(zhǔn)中的信道適配器稱作主信道適配器(HCA)
HCA提供了一個對Web server等主CPU和存儲器子系統(tǒng)的接口,并支持Infiniband結(jié)構(gòu)所定義的所有軟件動詞(Verb)。這里所說的軟件動詞是對客戶方軟件和HCA功能之間接口的一種抽象定義。軟件動詞并不為操作系統(tǒng)指定API,但它定義了操作系統(tǒng)廠商可能用來開發(fā)適用應(yīng)用程序接口(API)的操作。
如圖所示:24端口Infiniband交換機(jī)
Infiniband交換機(jī)。交換機(jī)是Infiniband結(jié)構(gòu)中的基本組件。一個交換機(jī)中的Infiniband端口不止一個,它能根據(jù)本地路由器包頭中所含的第二層地址(本地ID/LID)將數(shù)據(jù)包從其一個端口送到另外一個端口。交換機(jī)只是對數(shù)據(jù)包進(jìn)行管理,并不生成或使用數(shù)據(jù)包。同信道適配器一樣,交換機(jī)也需要實(shí)現(xiàn)子網(wǎng)管理代理(SMA)以響應(yīng)子網(wǎng)管理數(shù)據(jù)包。交換機(jī)可通過配置來實(shí)現(xiàn)數(shù)據(jù)包的點(diǎn)播或組播。
Infiniband線纜。Infiniband標(biāo)準(zhǔn)定義了三種鏈路速率,分別為:1X、4X和12X。此標(biāo)準(zhǔn)也定義了包括銅導(dǎo)線和光纖在內(nèi)的物理介質(zhì)。此外,它還定義了用于光纖和銅導(dǎo)線的標(biāo)準(zhǔn)連接器和電纜。銅纜上的1X鏈路采用四線差分信令(每個方向兩線),可提供2.5Gbps的全雙工連接。其他鏈路速率都建立于1X鏈路的基本結(jié)構(gòu)上,一條Infiniband 1X鏈路的理論帶寬是2.5Gbps。但實(shí)際數(shù)據(jù)速率為2Gbps(因?yàn)殒溌窋?shù)據(jù)采用8b/10b編碼)。由于鏈路具有雙向性,所以全雙工數(shù)據(jù)速率為4Gbps。相應(yīng)的,4X和12X鏈路的規(guī)定帶寬為10Gbps和30Gbps。
子網(wǎng)管理器。子網(wǎng)管理器對本地子網(wǎng)進(jìn)行配置并確保能連續(xù)運(yùn)行。所有的信道適配器和交換機(jī)都必須實(shí)現(xiàn)一個SMA,該SMA與子網(wǎng)管理器一起實(shí)現(xiàn)對通信的處理。每個子網(wǎng)必須至少有一個子網(wǎng)管理器來進(jìn)行初始化管理以及在鏈路連接或斷開時對子網(wǎng)進(jìn)行重新配置。通過仲裁機(jī)制來選擇一個子網(wǎng)管理器作為主子網(wǎng)管理器,而其他子網(wǎng)管理器工作于待機(jī)模式(每個待機(jī)模式下的子網(wǎng)管理器都會備份此子網(wǎng)的拓?fù)湫畔?,并檢驗(yàn)此子網(wǎng)是否能夠運(yùn)行)。若主子網(wǎng)管理器發(fā)生故障,一個待機(jī)子網(wǎng)管理器接管子網(wǎng)的管理以確保不間斷運(yùn)行。
HCA卡驅(qū)動包:Silverstorm提供統(tǒng)一的,完善的Infiniband驅(qū)動軟件;同時支持HPC應(yīng)用和SharedI/O應(yīng)用;特別是針對大規(guī)模機(jī)群的應(yīng)用;其軟件在設(shè)計(jì)上做到性能優(yōu)化、易于安裝和升級;在眾多大規(guī)模集群得到了性能和操作上得到進(jìn)一步優(yōu)化和驗(yàn)證:
HCA 驅(qū)動主要包括:
IB Network Stack --àIB access layer和HCA驅(qū)動
Fabric Fast Installation --à集群輔助工作
IP over IB Driver --à基于IB的IP協(xié)議
MPI --àSilverStorm提供的MPI
MPI Development --àMPI開發(fā)包
MPI Source --àMPI原代碼
InfiniNic --à基于網(wǎng)關(guān)設(shè)備以太網(wǎng)和IB網(wǎng)絡(luò)的轉(zhuǎn)換協(xié)議
InfiniFibre --à基于網(wǎng)關(guān)設(shè)備的FC網(wǎng)和IB網(wǎng)絡(luò)的轉(zhuǎn)換協(xié)議
SDP --à卸載TCP協(xié)議的IB本地協(xié)議,支持Socket應(yīng)用
RDS --à卸載UDP協(xié)議的IB本地協(xié)議,支持原UDP應(yīng)用
Udapl --àuser Direct Access Provide Library
#p#page_title#e#
3. 應(yīng)用分析
3.1. Fluent應(yīng)用分析
目前CFD模擬應(yīng)用是制造業(yè)內(nèi)增長最快的一種應(yīng)用,fluent是CFD領(lǐng)域里最廣泛使用的一種商用軟件,用來模擬從不可壓縮到高度可壓縮范圍內(nèi)的復(fù)雜流動。由于采用了多種求解方法和多重網(wǎng)格加速收斂技術(shù),因而FLUENT能達(dá)到最佳的收斂速度和求解精度。靈活的非結(jié)構(gòu)化網(wǎng)格和基于解算的自適應(yīng)網(wǎng)格技術(shù)及成熟的物理模型,使FLUENT在層流、轉(zhuǎn)捩和湍流、傳熱、化學(xué)反應(yīng)、多相流、多孔介質(zhì)等方面有廣泛應(yīng)用。
下圖描述的是在fluent6.2上進(jìn)行的千兆以太網(wǎng)絡(luò)和Infiniband網(wǎng)絡(luò)的性能對比。
測試環(huán)境:
硬件環(huán)境:采用的主頻2.0G Hz的opteron雙核處理器,計(jì)算節(jié)點(diǎn)為2G內(nèi)存配置。
操作系統(tǒng):redhat EL3.0
應(yīng)用軟件:fluent6.2,測試時劃分的網(wǎng)格數(shù)在3.2萬-900萬之內(nèi)。
并行環(huán)境:在Infiniband平臺上為silverstorm mpi 3.0
在以太網(wǎng)平臺上為mpich1.2
測試結(jié)果如下圖所示
圖中橫坐標(biāo)為計(jì)算環(huán)境中的CPU數(shù)量,縱坐標(biāo)為應(yīng)用運(yùn)行所用的時間。由圖中可以看出,對千兆以太網(wǎng)(粉色曲線)來說,cluster內(nèi)處理器未到達(dá)128時系統(tǒng)的運(yùn)行時間會隨著處理器的增加而縮短,當(dāng)處理器逐漸增加,超過128顆CPU后,系統(tǒng)的運(yùn)行時間并不會繼續(xù)縮短,而是逐漸趨于穩(wěn)定,由此可以判斷,在千兆以太網(wǎng)環(huán)境下,fluent應(yīng)用的拐點(diǎn)即為128CPU。對Infiniband網(wǎng)絡(luò)(藍(lán)色曲線)分析:當(dāng)系統(tǒng)內(nèi)到達(dá)196處理器時還未出現(xiàn)拐點(diǎn),可以判定,其相對于千兆以太網(wǎng)性能有所增加。縱向比較,當(dāng)處理器規(guī)模為64顆處理器之后,Infiniband網(wǎng)絡(luò)的性能比千兆網(wǎng)的性能提高的更多:在32處理器時:以太網(wǎng)運(yùn)行280分鐘,Infiniband運(yùn)行185分鐘,性能提升34%;當(dāng)處理器規(guī)模為64時,以太網(wǎng)運(yùn)行170分鐘,Infiniband運(yùn)行100分鐘,性能提升41%;處理器規(guī)模為128時,以太網(wǎng)運(yùn)行130分鐘,Infiniband運(yùn)行55分鐘,性能提升57%。綜上可以得知節(jié)點(diǎn)規(guī)模越大,采用Infiniband網(wǎng)絡(luò)的優(yōu)勢越明顯,得到的投資回報率才越高。
所以,在應(yīng)用Fluent時,我們建議:當(dāng)系統(tǒng)內(nèi)處理器規(guī)模小于64時,采用千兆以太網(wǎng)絡(luò)更能有效的保護(hù)用戶投資,當(dāng)系統(tǒng)內(nèi)處理器規(guī)模較大,建議采用高速Infiniband網(wǎng)絡(luò)更能發(fā)揮整體優(yōu)勢。
3.2. STAR-CD應(yīng)用分析
STAR-CD的創(chuàng)始人之一Gosman與Phoenics的創(chuàng)始人Spalding都是英國倫敦大學(xué)同一教研室的教授。
STAR-CD 是Simulation of Turbulent flow in Arbitrary Region的縮寫,CD是computational Dynamics Ltd。是基于有限容積法的通用流體計(jì)算軟件,在網(wǎng)格生成方面,采用非結(jié)構(gòu)化網(wǎng)格,單元體可為六面體,四面體,三角形界面的棱柱,金字塔形的錐體以及六種形狀的多面體,還可與CAD、CAE軟件接口,如ANSYS, IDEAS, NASTRAN, PATRAN, ICEMCFD, GRIDGEN等,這使STAR-CD在適應(yīng)復(fù)雜區(qū)域方面的特別優(yōu)勢。
STAR-CD能處理移動網(wǎng)格,用于多級透平的計(jì)算,在差分格式方面,納入了一階UpWIND,二階UpWIND,CDS,QUICK,以及一階UPWIND與CDS或QUICK的混合格式,在壓力耦合方面采用SIMPLE,PISO以及稱為SIMPLO的算法。在湍流模型方面,有k-e,RNK-ke,ke兩層等模型,可計(jì)算穩(wěn)態(tài),非穩(wěn)態(tài),牛頓,非牛頓流體,多孔介質(zhì),亞音速,超音速,多項(xiàng)流等問題. STAR-CD的強(qiáng)項(xiàng)在于汽車工業(yè),汽車發(fā)動機(jī)內(nèi)的流動和傳熱
下圖描述的是在STAR-CD上進(jìn)行的千兆以太網(wǎng)絡(luò)和Infiniband網(wǎng)絡(luò)的性能對比。
測試環(huán)境:
硬件環(huán)境:采用的主頻2.0G Hz的opteron雙核處理器,計(jì)算節(jié)點(diǎn)為2G內(nèi)存配置
操作系統(tǒng):Rocks 3.3.0 (RedHat Enterprise 3)
應(yīng)用軟件:STAR-CD 3.24 & 3.25
并行環(huán)境:在Infiniband平臺上為ScaliMPI
在以太網(wǎng)平臺上為mpich
測試結(jié)果如下圖所示
圖中橫坐標(biāo)為計(jì)算環(huán)境中的CPU數(shù)量,縱坐標(biāo)為應(yīng)用的并行效率。由圖中可以看出,對千兆以太網(wǎng)(粉色曲線)來說,它的并行效率很低的,從1顆處理器到48顆處理器,并行效率下降的很快(斜率很大),所以不適合大規(guī)模計(jì)算。對于高速Infiniband網(wǎng)絡(luò)(藍(lán)色曲線)來說,在32處理器以下的規(guī)模時,并行效率較低,在32至200顆處理器之間的并行效率都較高,所以Infiniband在大規(guī)模機(jī)群中更能體現(xiàn)其優(yōu)勢。橫向分析二者區(qū)別:當(dāng)處理器規(guī)模小于16的時候,千兆以太網(wǎng)的并行效率為75%,Infiniband的并行效率為78%,并沒有很多的差別,由于高速網(wǎng)的投入會較高于千兆以太網(wǎng),所以在小于16處理器的時候Infiniband的性價比并不好。
所以,在應(yīng)用STAR-CD時我們建議:小于16顆處理器的計(jì)算平臺中采用千兆網(wǎng)絡(luò)構(gòu)建,處理器規(guī)模在16至32時根據(jù)項(xiàng)目資金,可以選擇千兆網(wǎng)絡(luò)或高速Infiniband網(wǎng)絡(luò),超過48顆處理器的計(jì)算平臺采用高速Infiniband網(wǎng)絡(luò)。
3.3. LS-Dyna應(yīng)用分析
LS-Dyna是美國livermore公司開發(fā)的三維有限元動力分析軟件LS-Dyna經(jīng)歷了2D到3D的發(fā)展過程。目前的LS-Dyna是3D版。LS-Dyna的求解器最初采用的是顯式積分(explicit)在時域內(nèi)來求解微分方程,其優(yōu)點(diǎn)是大為減少了存儲量,可以適應(yīng)比用隱式積分更為復(fù)雜更為大的問題。其缺點(diǎn)是是條件穩(wěn)定的,因此必須選擇很小的時間步長。目前的LS-Dyna版本中已經(jīng)增加了隱式求解(NewMark)和振型疊加法,增加了求解自振頻率的部分,還增加了一定的靜力計(jì)算功能。
下圖描述的是在LS-Dyna上進(jìn)行的千兆以太網(wǎng)絡(luò)和Infiniband網(wǎng)絡(luò)的性能對比。
測試環(huán)境:
硬件環(huán)境:采用的主頻3.4G Hz的nocona處理器,計(jì)算節(jié)點(diǎn)為2G內(nèi)存配置。
操作系統(tǒng):redhat3.0
應(yīng)用軟件:LS-DynaMPP 970 (Neon_refined and 3 car collision)
并行環(huán)境:在Infiniband平臺上為sst mpi 3.1
在以太網(wǎng)平臺上為intel mpi
測試結(jié)果如下圖所示
圖中橫坐標(biāo)為計(jì)算環(huán)境中的CPU數(shù)量,縱坐標(biāo)為應(yīng)用運(yùn)行所用的時間。由圖中可以看出,對千兆以太網(wǎng)(粉色曲線)來說,當(dāng)處理器規(guī)模在32節(jié)點(diǎn)之內(nèi),運(yùn)行時間會隨著處理器增多而降低,但是超過32處理器后系統(tǒng)反而會性能下降,所以可以得出32處理器是千兆以太網(wǎng)的性能拐點(diǎn)。而且當(dāng)系統(tǒng)為32處理器時,千兆以太網(wǎng)運(yùn)行時間為2200秒,Infiniband網(wǎng)絡(luò)運(yùn)行時間為800秒,可知高速網(wǎng)絡(luò)的性能高于千兆以太網(wǎng)絡(luò)的3倍。12萬多特價,單機(jī)一萬三。硬盤3500,內(nèi)存一萬伍千三,三條。X工程師劉小倩。再分析高速網(wǎng)絡(luò):測試規(guī)模達(dá)到90顆處理器依然沒有出現(xiàn)性能拐點(diǎn),可以斷定在該應(yīng)用中LSDyna的大規(guī)模計(jì)算時只能選用高速計(jì)算網(wǎng)絡(luò)。繼續(xù)進(jìn)行橫向分析:在處理器規(guī)模小于16時,運(yùn)行1250秒;當(dāng)處理器規(guī)模為32時,運(yùn)行800秒,性能提升36%;當(dāng)處理器規(guī)模為64時,運(yùn)行600秒,性能提升25%;處理器規(guī)模為96時性能提升的也很慢。從而得出:在處理器規(guī)模增加阿到64個時,性能提升的不再明顯。
所以,在應(yīng)用LS-Dyna時,我們建議:采用高速網(wǎng)絡(luò),尤其是在16處理器~96處理器之間時一定要采用高速網(wǎng)絡(luò)才可達(dá)到一定的處理能力。
#p#page_title#e#
4. 案例分析
4.1. 氣象行業(yè)高性能計(jì)算機(jī)群設(shè)計(jì)(<24節(jié)點(diǎn))
4.1.1. 項(xiàng)目背景
數(shù)值天氣預(yù)報是現(xiàn)代天氣預(yù)報的基礎(chǔ),數(shù)值天氣預(yù)報水平的高低成為衡量世界各國氣象事業(yè)現(xiàn)代化程度的重要標(biāo)志。我國是世界上受氣象災(zāi)害影響最嚴(yán)重的國家之一。二十世紀(jì)后半葉以來,全球變暖,極端天氣氣候事件增加,給世界和我國社會經(jīng)濟(jì)帶來了巨大的負(fù)面影響。與此同時我國幅員遼闊,豐富多樣的氣候資源又給我們提供了很大的開發(fā)利用潛力。因此加強(qiáng)防災(zāi)減災(zāi)、趨利避害,針對極端天氣氣候事件和氣候變化問題,迫切需要做好天氣預(yù)報、氣候預(yù)測和氣候系統(tǒng)預(yù)估工作。
在氣象預(yù)報的工作中,反應(yīng)速度已經(jīng)越來越不能適應(yīng)社會發(fā)展的需要,因此,提高氣象預(yù)報的準(zhǔn)確性和及時性已經(jīng)迫在眉睫。某某氣象局正是順應(yīng)當(dāng)前預(yù)報工作中的新問題,準(zhǔn)備建立一套先進(jìn)的高性能計(jì)算集群系統(tǒng),即滿足自身的科學(xué)研究需要,又為社會各行各業(yè)的發(fā)展提供了有力的氣象保證。
4.1.2. 需求分析
在這套方案設(shè)計(jì)中,充分滿足用戶對該系統(tǒng)高效性、兼容性、可管理性和穩(wěn)定性的要求。其中,高效性表現(xiàn)在系統(tǒng)本身能在用戶要求的時間內(nèi)完成相應(yīng)的數(shù)值預(yù)報計(jì)算的任務(wù),節(jié)點(diǎn)機(jī)采用先進(jìn)的系統(tǒng)架構(gòu),網(wǎng)絡(luò)設(shè)備具有高帶寬、低延遲的性能。兼容性表現(xiàn)在該系統(tǒng)硬件采用商業(yè)化的設(shè)備,軟件層面對操作系統(tǒng)和數(shù)值預(yù)報軟件的全面兼容。可管理性表現(xiàn)在用戶對設(shè)備和應(yīng)用使用簡便,方便管理。穩(wěn)定性表現(xiàn)在系統(tǒng)硬件運(yùn)行正常,數(shù)值預(yù)報軟件能在硬件平臺上高效快速的運(yùn)行。
4.1.3. 方案設(shè)計(jì)
方案一
計(jì)算節(jié)點(diǎn)選擇曙光天闊R210A服務(wù)器,該服務(wù)器采用2路AMD Opteron248處理器,2G內(nèi)存,73G熱插拔SCSI硬盤。I/O節(jié)點(diǎn)同樣采用R210A服務(wù)器,AMD Opteron248處理器,考慮到I/O節(jié)點(diǎn)數(shù)據(jù)存取比較頻繁的特點(diǎn),內(nèi)存擴(kuò)展為4G,硬盤擴(kuò)展為2塊146G熱插拔SCSI硬盤。I/O節(jié)點(diǎn)同時用戶登陸節(jié)點(diǎn)和管理節(jié)點(diǎn)使用。網(wǎng)絡(luò)方面,采用三網(wǎng)分離的模式。計(jì)算網(wǎng)用于并行計(jì)算時的數(shù)據(jù)交換和計(jì)算通訊,數(shù)值天氣預(yù)報作為通信密集型計(jì)算無論是通信次數(shù)還是通信量都很大,對網(wǎng)絡(luò)的延遲和帶寬都有較高的要求。針對這一特點(diǎn)我們采用Infiniband網(wǎng)絡(luò)作為計(jì)算網(wǎng)絡(luò),Infiniband技術(shù)是采用RDMA傳輸機(jī)制實(shí)現(xiàn)了低延遲,高帶寬的新型網(wǎng)絡(luò)標(biāo)準(zhǔn),滿足應(yīng)用的需要。數(shù)據(jù)傳輸網(wǎng)的特點(diǎn)是帶寬要求相對較高,但對網(wǎng)絡(luò)延遲要求并不高,因此選擇性能適中的千兆以太網(wǎng),并通過NFS的方式作為數(shù)據(jù)共享。而管理網(wǎng)主要是進(jìn)行一些必要的系統(tǒng)管理、監(jiān)控、登入等管理,同時又作為數(shù)據(jù)傳輸網(wǎng)絡(luò)的備份,對網(wǎng)絡(luò)性能的要求不高,因此使用一套百兆網(wǎng)絡(luò)。采用三網(wǎng)分離的模式可以為各個網(wǎng)絡(luò)之間提供互為備份的功能,提高了系統(tǒng)的高可用性。
方案二
計(jì)算節(jié)點(diǎn)和I/O節(jié)點(diǎn)的選擇與方案一相同,主要區(qū)別在于對網(wǎng)絡(luò)的選擇,這里計(jì)算網(wǎng)絡(luò)和數(shù)據(jù)傳輸網(wǎng)絡(luò)將實(shí)現(xiàn)雙網(wǎng)合一,都是建立在Infiniband的高速網(wǎng)絡(luò)上。對于計(jì)算網(wǎng)絡(luò)是基于Infiniband的本地協(xié)議,它在操作系統(tǒng)看來HCA設(shè)備就像一個以太網(wǎng)卡一樣,這使得TCP/IP應(yīng)用不用修改就可移植到Infiniband平臺環(huán)境,完全滿足在以太網(wǎng)上的所有應(yīng)用。而對于數(shù)據(jù)傳輸網(wǎng)的NFS共享存儲的應(yīng)用,是基于Inifiniband SDP(Sockets Direct Protoco)協(xié)議的NFS over SDP功能模塊。SDP協(xié)議負(fù)責(zé)本地Infiniband包的高效通信,采用RDMA文件處理機(jī)制,實(shí)現(xiàn)了0拷貝,而TCP/IP需要使用buffer進(jìn)行3次拷貝。在實(shí)際應(yīng)用中,SDP的性能是以太網(wǎng)的6倍左右。
方案中采用Silverstorm公司的24端口交換機(jī)IO9024。IO9024交換機(jī)內(nèi)部采用Mellanox InfiniScale-III (Anafa-II)24端口交換芯片;支持24個10Gbps Infiniband端口,背板帶寬為480Gbps;交換機(jī)只有1U;主要用于搭建24節(jié)點(diǎn)以下的集群。
主要特點(diǎn)包括:
* 每個交換機(jī)只有1-U,提供24 個 4X Infinband交換端口
* 交換機(jī)內(nèi)部集成了完善的管理軟件SMA、PMA、BMA
* 交換機(jī)內(nèi)嵌的子網(wǎng)管理軟件FM;通過連接交換機(jī)背板上的以太網(wǎng)接口可使用Infiniview和SNMP對交換機(jī)端口以及網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行管理、監(jiān)控
* 模塊化、可熱插拔的冗余電源和風(fēng)扇;
* 支持IBTA 1.0 和 1.1標(biāo)準(zhǔn)
4.1.4. 建議配置
4.2. 氣象行業(yè)高性能計(jì)算及存儲方案設(shè)計(jì)(<24節(jié)點(diǎn))
4.2.1. 項(xiàng)目背景
某某學(xué)校的氣象學(xué)院作為國內(nèi)氣象教學(xué)研究的代表,承擔(dān)著對國內(nèi)未來氣象人才的教學(xué)培養(yǎng)工作和天氣氣侯研究工作,長期以來從事天氣預(yù)報工作,在國內(nèi)率先接觸和掌握了數(shù)值預(yù)報模式,并根據(jù)我國天氣情況、地形地貌特點(diǎn),開發(fā)出適合我國國情的數(shù)值預(yù)報產(chǎn)品。為了對自行開發(fā)的程序進(jìn)行調(diào)試和調(diào)優(yōu),更好的發(fā)揮數(shù)值預(yù)報軟件的功能,使之更好的服務(wù)于社會大眾,該學(xué)院從上級申請了一筆用于購買高性能計(jì)算集群的經(jīng)費(fèi),用于數(shù)值天氣預(yù)報的研究和開發(fā)工作。
4.2.2. 需求分析
氣象學(xué)院經(jīng)費(fèi)有限,要求所構(gòu)建的高性能集群具有極高的性價比。在有限的資金使用范圍之內(nèi),充分滿足數(shù)值預(yù)報工作,達(dá)到用戶預(yù)期的要求。根據(jù)分析,我們發(fā)現(xiàn)該氣象學(xué)院在教學(xué)和研究任務(wù)中,為了保證天氣資料實(shí)時有效,要求集群計(jì)算過程必須在一定的時間內(nèi)完成,這樣對于預(yù)報和研究才有意義。另外,用戶對氣象數(shù)據(jù)存儲的要求也比較高,因?yàn)闅庀筚Y料的數(shù)據(jù)主要通過衛(wèi)星接收取得,一次傳輸?shù)臅r間較長,必須保證數(shù)據(jù)的完整性和可靠性。 為了方便教學(xué),需要保存長期的衛(wèi)星資料,這樣才能分析天氣的近期變化,以及氣候的長期變化這樣的一個規(guī)律。
4.2.3. 方案設(shè)計(jì)
本方案中采用12臺曙光R210A服務(wù)器,該服務(wù)器采用AMD Opteron處理器,提供給用戶超強(qiáng)的處理能力,滿足了用戶對于降低計(jì)算時間的要求。在網(wǎng)絡(luò)方面,采用Silverstorm提供的IO5000交換機(jī),同時連接存儲,以太網(wǎng)絡(luò)和Infiniband網(wǎng)絡(luò),實(shí)現(xiàn)三網(wǎng)合一的網(wǎng)絡(luò)連接方式。該交換機(jī)提供12個Infiniband接口,同時提供兩個擴(kuò)展槽,一個插槽可以插入VEx卡,實(shí)現(xiàn)3個以太網(wǎng)百/千兆的端口接入,另一個插入VFx卡,實(shí)現(xiàn)2個2G FC端口的接入。這種三網(wǎng)合一的網(wǎng)絡(luò)連接方式,簡化了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性、易于管理、降低硬件成本。在存儲方面提供了光纖磁盤陣列可直接連接到交換機(jī)的FC端口上,實(shí)現(xiàn)了光纖存儲網(wǎng)絡(luò)和IB網(wǎng)絡(luò)的連接。增強(qiáng)了存儲數(shù)據(jù)的安全性,提高了數(shù)據(jù)傳輸?shù)乃俣?,為日后存儲空間的擴(kuò)展提供了有力的保證。
4.2.4. 建議配置
#p#page_title#e#
4.3. 流體力學(xué)應(yīng)用計(jì)算機(jī)群設(shè)計(jì)(48節(jié)點(diǎn)以下)
4.3.1. 項(xiàng)目背景
隨著CFD(計(jì)算流體力學(xué))逐步在各個行業(yè)的深入,CFD商業(yè)軟件Fluent有很大的發(fā)展前景。Fluent已經(jīng)在航空航天、石油化工、建筑、熱能等大領(lǐng)域有廣泛應(yīng)用。支持Fluent等大型CFD/CAE商業(yè)軟件的并行系統(tǒng)平臺的需求隨著國民經(jīng)濟(jì)發(fā)展逐漸提高。
在航天領(lǐng)域fluent可以模擬復(fù)雜幾何模型的內(nèi)、外流場??梢赃M(jìn)行飛機(jī)內(nèi)外流耦合計(jì)算、導(dǎo)彈飛行姿態(tài)過程模擬、氣動噪音數(shù)值模擬、染料箱液體振蕩模擬、飛行器部件溫度場數(shù)值模擬、發(fā)動機(jī)燃燒室燃燒模擬、火箭噴管模擬、彈道飛行模擬、冷卻系統(tǒng)模擬、換熱系統(tǒng)模擬等應(yīng)用。
近年來我國的航空航天技術(shù)也已經(jīng)趕上并超過一些發(fā)達(dá)國家的研究水平,在對這個領(lǐng)域的進(jìn)一步探索中,無法完成大規(guī)模計(jì)算一直制約著前進(jìn)的步伐,為此,航天三院的研究人員終于明確了一個目標(biāo)“工欲善其事必先利其器”,加大對科研的投資力度,構(gòu)建一套較大規(guī)模的48節(jié)點(diǎn)的高性能計(jì)算機(jī)群,為新的課題奠定良好的科研環(huán)境。
4.3.2. 方案分析
4.3.2.1. 應(yīng)用分析
首先分析用戶應(yīng)用,該項(xiàng)目中主要應(yīng)用軟件是Fluent。Fluent是目前世界上廣泛使用的CFD商用軟件,用來模擬從不可壓縮到高度可壓縮范圍內(nèi)的復(fù)雜流動。由于采用了多種求解方法和多重網(wǎng)格加速收斂技術(shù),因而FLUENT能達(dá)到最佳的收斂速度和求解精度。靈活的非結(jié)構(gòu)化網(wǎng)格和基于解算的自適應(yīng)網(wǎng)格技術(shù)及成熟的物理模型,使FLUENT在層流、轉(zhuǎn)捩和湍流、傳熱、化學(xué)反應(yīng)、多相流、多孔介質(zhì)等方面有廣泛應(yīng)用。Fluent屬于比較成熟的商業(yè)軟件,其應(yīng)用模式具有很強(qiáng)的代表性。
完整的Fluent計(jì)算過程可分為三塊:
前端處理(Preprocessing)
計(jì)算和結(jié)果數(shù)據(jù)生成(compute an result)
后處理(Postprocessing)
前端處理通常要生成計(jì)算模型所必需的數(shù)據(jù),這一過程通常包括建模、數(shù)據(jù)錄入(或者從cad中導(dǎo)入)、生成離開格等;做完前處理后,CFD的核心解釋器(SOLVER)——Fluent將根據(jù)具體的模型,完成相應(yīng)的計(jì)算任務(wù),并生成結(jié)果數(shù)據(jù);后處理過程通常是對生成的結(jié)果數(shù)據(jù)進(jìn)行組織和詮釋,一般以直觀可視的圖形形式給出來。其中中間處理的過程是最耗費(fèi)計(jì)算單元的了。
根據(jù)上述3.1節(jié)可知fluent在普通千兆以太網(wǎng)上的性能加速比很好,在Infiniband上的性能也有相應(yīng)的提升,但是投入較多,在資金允許的范圍內(nèi)可以考慮采用高速網(wǎng)絡(luò)作為系統(tǒng)間的通訊介質(zhì)。
本項(xiàng)目中用戶預(yù)算比較充裕,而且立項(xiàng)的目的就是為了盡可能快的完成計(jì)算任務(wù),要求系統(tǒng)具有48個計(jì)算節(jié)點(diǎn)的能力。
4.3.2.2. 架構(gòu)分析
由上文可知,Infiniband的交換機(jī)只有24口和144口兩種,此謂遺憾,但是由于Infiniband帶寬很高,還可以有很多種靈活的搭建模式??梢苑譃?.3G-10G和5G-10G以及10G全互連的構(gòu)建方式。
3.3G-10Gb CBB方案:
如圖所示為3.3Gb/s CBB* 方案
*:CBB (constant bisectional bandwidth):恒定的半分帶寬指的是集群內(nèi)部可用的帶寬是恒定的(例如:3.3 Gb/s).
3.3~10Gbps Infiniband解決方案的工作原理:
a. 核心交換模塊和邊緣交換模塊的連線為10Gbps連接
b. 服務(wù)器(1、2、3、4、5、6)與交換機(jī)的連線全部為10Gbps連接。
c. 當(dāng)圖中6臺服務(wù)器中僅有1和2通信時;通信帶寬為10Gbps。
d. 當(dāng)圖中1和2、3和4同時通信時;最小通信帶寬為5Gbps。
e. 當(dāng)圖中1和2、3和4、5和6同時通信時;最小通信帶寬為3.3Gbps。
由圖中可知,每一個最底層的邊緣交換模塊還有兩個端口屬于空余狀態(tài),所以此結(jié)構(gòu)圖適用于的最大計(jì)算節(jié)點(diǎn)個數(shù)為:18*3=54個,最小計(jì)算節(jié)點(diǎn)個數(shù)為:37個。即:該邏輯拓?fù)浣Y(jié)構(gòu)圖適用性為:37~54個節(jié)點(diǎn)的3.3G~10Gb的高速交換架構(gòu)。
5G-10Gbps方案:
如圖所示為5Gb/s 方案,可以看出與3.3~10Gbps 的架構(gòu)類似
5~10Gbps Infiniband 與3.3~10Gbps Infiniband解決方案的工作原理:相同
a. 核心交換模塊和邊緣交換模塊的連線為10Gbps連接
b. 服務(wù)器(1、2、3、4)與交換機(jī)的連線全部為10Gbps連接。
c. 當(dāng)圖中4臺服務(wù)器中僅有1和2通信時;通信帶寬為10Gbps。
d. 當(dāng)圖中1和2、3同時通信時;最小通信帶寬為5Gbps。
由圖中可知,每一個最底層的邊緣交換模塊均已占用,所以此結(jié)構(gòu)圖適用于的最大計(jì)算節(jié)點(diǎn)個數(shù)為:16*3=48個,另觀察可知最小計(jì)算節(jié)點(diǎn)個數(shù)為:33個。即:該邏輯拓?fù)浣Y(jié)構(gòu)圖適用性為:33~48個節(jié)點(diǎn)的5G~10Gb的高速交換架構(gòu)。
10Gbps全互聯(lián)的 FBB方案:
如圖所示為10Gb/s 方案,可以看出與5~10Gbps的架構(gòu)有很多不同
10Gbps Infiniband的工作方式屬于標(biāo)準(zhǔn)的全互聯(lián)工作方式:每個邊緣交換模塊只有12個端口用于連接計(jì)算節(jié)點(diǎn),其余12個端口中一半的端口用于連接核心交換模塊1,另一半用于連接核心交換模塊2,如此保證從node1至node48均可達(dá)到10G的帶寬。
由圖中可知,欲達(dá)到每個節(jié)點(diǎn)之間的交換帶寬均為10G則每個交換機(jī)只可連接12個計(jì)算節(jié)點(diǎn),所以此結(jié)構(gòu)圖適用于的最大計(jì)算節(jié)點(diǎn)個數(shù)為:12*4=48個,若上圖中的邊緣交換模塊為三個,則最大連接節(jié)點(diǎn)的個數(shù)為12*3=36個。即:該邏輯拓?fù)浣Y(jié)構(gòu)圖適用性為:37~48個節(jié)點(diǎn)的10Gb的高速交換架構(gòu)。
架構(gòu)分析:
觀察上述三種邏輯圖:該項(xiàng)目為48節(jié)點(diǎn)的高性能計(jì)算系統(tǒng),3.3G與5G的圖中區(qū)別僅僅是在5G的結(jié)構(gòu)中多了兩條線纜連接,線纜的投資相對很小,所以建議該項(xiàng)目不必考慮3.3G連接方式,在投資允許的范圍內(nèi)選擇5G連接架構(gòu)或10G連接架構(gòu)。
4.3.2.3. 擴(kuò)展性分析
集群硬件升級方案:
注:
集群規(guī)模擴(kuò)容(48節(jié)點(diǎn)升級到54節(jié)點(diǎn)):只需要增加6塊HCA卡和6根線纜
集群帶寬擴(kuò)展(3.3Gbps升級到10Gbps全互聯(lián)):只需要增加2臺IO9024和30根線纜就可擴(kuò)展到48節(jié)點(diǎn)的10Gbps全互聯(lián)。
集群軟件的升級:所有產(chǎn)品使用一套軟件,保證客戶使用Infiniband產(chǎn)品的易用性和一致性;當(dāng)軟件新版本推出后,使用集群安裝輔助工具能夠快速的實(shí)現(xiàn)整個網(wǎng)絡(luò)的IB環(huán)境升級,保持客戶集群軟件平臺的先進(jìn)性和高性能。
4.3.3. 建議配置
#p#page_title#e#
4. 有限元分析計(jì)算機(jī)群設(shè)計(jì)(64節(jié)點(diǎn))
4.4.1. 項(xiàng)目背景
中科院某所是以進(jìn)行廣泛的物質(zhì)科學(xué)領(lǐng)域的計(jì)算和模擬研究為主要研究方向的研究所。還兼有開發(fā)新的計(jì)算技術(shù)和計(jì)算模擬方法的任務(wù)。對新方法的發(fā)展,包括從微觀到宏觀,從單體到多體系統(tǒng),從經(jīng)典到量子,從常溫常壓到極端條件等等領(lǐng)域的不同范疇不同尺度的計(jì)算模擬新方法,涉及到材料、能源、信息、 生物、環(huán)境等領(lǐng)域,及物理、數(shù)學(xué)、化學(xué)、生物、計(jì)算機(jī)科學(xué)等學(xué)科。不僅如此,中心還承擔(dān)著國家相關(guān)研究課題,主要體現(xiàn)在物理科學(xué)的模擬與計(jì)算、國內(nèi)核心“物質(zhì)模擬機(jī)”的研究運(yùn)用和成為代表國家水平的開放中心上。
由于中心進(jìn)行的項(xiàng)目多、復(fù)雜,往往多種應(yīng)用程序要并行、串行, 而且CPU、RAM、存儲需求都很大。運(yùn)用普通的超級計(jì)算機(jī),模擬程序一旦運(yùn)行,就會產(chǎn)生內(nèi)存不夠等問題,往往嚴(yán)重影響甚至阻滯了科研的發(fā)展。因此,中心的科研急需利用更先進(jìn)的信息技術(shù)和計(jì)算機(jī)設(shè)備來提高數(shù)據(jù)處理、計(jì)算的能力。
目前中心常用的軟件包括LS-Dyna、VASP等很成熟的商業(yè)軟件,應(yīng)用范圍比較廣泛,8個研究室都要在一年內(nèi)完成相關(guān)課題,研究任務(wù)必將繁重。雖然對計(jì)算的需求很大,但每個研究室并沒有充裕的資金和力量構(gòu)建具一定規(guī)模的計(jì)算平臺,所以經(jīng)過協(xié)商,采用“聯(lián)手”的方式構(gòu)建較大規(guī)模的計(jì)算平臺,如此可以節(jié)省重復(fù)勞動、降低管理費(fèi)用。經(jīng)討論,構(gòu)建一套64節(jié)點(diǎn)的高性能計(jì)算平臺,平時每個實(shí)驗(yàn)室可以使用其中的一部分(8臺),如需要更多的資源可以跟管理人員提出申請,進(jìn)行大規(guī)模計(jì)算。目前暫定主要應(yīng)用軟件為LS-Dyna,若以后還有相關(guān)深入研究,則根據(jù)實(shí)際情況,增加其它軟件的支持。
4.4.2. 方案分析
4.4.2.1. 應(yīng)用分析
該項(xiàng)目用于LS-Dyna的應(yīng)用。LS-DYNA 是世界上最著名的通用顯式動力分析程序,能夠模擬真實(shí)世界的各種復(fù)雜問題,特別適合求解各種二維、三維非線性結(jié)構(gòu)的高速碰撞、爆炸和金屬成型等非線性動力沖擊問題,同時可以求解傳熱、流體及流固耦合問題。在工程應(yīng)用領(lǐng)域被廣泛認(rèn)可為最佳的分析軟件包。與實(shí)驗(yàn)的無數(shù)次對比證實(shí)了其計(jì)算的可靠性。
根據(jù)上文3.3分析,LS-Dyna應(yīng)用在千兆以太網(wǎng)絡(luò)時的并行加速比并不是很好,尤其是到了16顆CPU,若采用高速網(wǎng)絡(luò),并行加速比得到了大大的提升,所以該項(xiàng)目中非常建議用戶采用高速Infiniband網(wǎng)絡(luò)構(gòu)建系統(tǒng)。
4.4.2.2. 架構(gòu)分析
Infiniband網(wǎng)絡(luò)有其高效的一面,但也有其復(fù)雜的一面,或者可以稱其為靈活性很強(qiáng)。本項(xiàng)目中要構(gòu)建一套64節(jié)點(diǎn)的高速網(wǎng)絡(luò)既可以通過普通的24口交換機(jī)搭建也可以直接選用144口的大規(guī)模交換機(jī),節(jié)省了布線難度。
10G全互聯(lián)的網(wǎng)絡(luò)構(gòu)架一:
如圖所示:該結(jié)構(gòu)是通過標(biāo)準(zhǔn)24口交換機(jī)搭建起來的10G網(wǎng)絡(luò)系統(tǒng),為了達(dá)到互聯(lián)的目的,每個交換機(jī)只可連接12個計(jì)算節(jié)點(diǎn),所以此結(jié)構(gòu)圖適用于的最大計(jì)算節(jié)點(diǎn)個數(shù)為:12*6=72個,即:該邏輯拓?fù)浣Y(jié)構(gòu)圖適用性為:61~72個節(jié)點(diǎn)的10Gb的高速交換架構(gòu)。
但僅僅通過拓?fù)鋱D即可以看出該網(wǎng)絡(luò)環(huán)境極為復(fù)雜,各個交換機(jī)交叉會有很多聯(lián)系,如此在項(xiàng)目實(shí)施的時候會比較困難,除非有比較有經(jīng)驗(yàn)的工程實(shí)施人員,而且整體系統(tǒng)在短期內(nèi)不會發(fā)生變更才建議選用這種方式。
10G全互聯(lián)的網(wǎng)絡(luò)構(gòu)架二:
上文曾經(jīng)介紹過,Infiniband還有一種模塊式最大可達(dá)144口的交換機(jī),該交換機(jī)屬于InfinIO9120模塊化交換機(jī),高度只有7U,支持12個擴(kuò)展插槽、每個插槽內(nèi)可以插入12端口IB擴(kuò)展模塊。InfinIO9120交換機(jī)具備很高的可靠性,每一款交換機(jī)都配備冗余的管理、電源和風(fēng)扇;交換機(jī)的內(nèi)部軟件可以很方便的升級。InfinIO9120交換機(jī)同樣采用silverstorm公司開發(fā)的Infiniview管理軟件對交換機(jī)進(jìn)行管理和配置;保證用戶對silverstorm產(chǎn)品使用時感到一致;一臺InfinIO9120交換機(jī)可最大支持144個節(jié)點(diǎn),以12節(jié)點(diǎn)為單位進(jìn)行遞增,具有很高的靈活性和可擴(kuò)展性。
IO9000系列交換機(jī)的擴(kuò)展插槽中可供選擇的模塊:
12-端口4X (10Gb/s)Infiniabnd交換模塊。
64節(jié)點(diǎn)兩種方案對比:
采用多個24端口的交換機(jī)IO9024搭建,使用交換機(jī)較多,工程實(shí)現(xiàn)的難度稍大一些。但易于拆卸,使用方便。
采用IO9120,通過插入12端口的模塊進(jìn)行擴(kuò)展機(jī)群規(guī)模,操作簡單;另外可以通過插入SPINE核心交換模塊,來搭建3.3,6.6,10Gbps的解決方案,非常靈活。
4.4.2.3. 擴(kuò)展性分析
集群規(guī)模的擴(kuò)容:一臺IO9120交換機(jī)最多可以支持144端口10Gbps Infiniband連接,同時IO9120交換機(jī)支持與silverstorm其它交換機(jī)的堆疊,實(shí)現(xiàn)集群規(guī)模的擴(kuò)容。
軟件的簡便升級:當(dāng)軟件新版本推出后,使用快速安裝工具能夠快速的實(shí)現(xiàn)整個網(wǎng)絡(luò)的IB環(huán)境升級。
4.4.3. 建議配置