久久99热精品免费观看无卡顿|欧美另类图片亚洲偷|亚洲天天做日日做天天爽,99精品久久久久婷婷,久久精品国产亚洲AV电影,中文字幕久精品免费视频蜜桃视频

全球領(lǐng)先的高端圖形工作站供應(yīng)商

免費(fèi)測(cè)試熱線 : 400-7056-800 【為任何應(yīng)用提供最快計(jì)算設(shè)備如不符,退貨】【最新報(bào)價(jià)】【選購指南】【京東商城】

您的位置：UltraLAB圖形工作站方案網(wǎng)站 > 科學(xué)工程計(jì)算 > 科學(xué)計(jì)算 > 基于Infiniband高性能集群硬件配置方案

基于Infiniband高性能集群硬件配置方案

時(shí)間：2008-11-22 16:23:00 來源：UltraLAB圖形工作站方案網(wǎng)站 人氣：21493 作者：admin

摩爾定律的一再驗(yàn)證殘酷的揭示了一個(gè)現(xiàn)實(shí)：速度是技術(shù)發(fā)展的終極目標(biāo)。高性能計(jì)算領(lǐng)域也是一樣，如何使高性能計(jì)算平臺(tái)運(yùn)行的更快、更高效一直是服務(wù)器廠商研究的方向，曙光作為中國高性能計(jì)算的領(lǐng)頭羊，作為高端服務(wù)器廠商，也在為此做著不懈的努力。Infiniband高速網(wǎng)絡(luò)是近幾年產(chǎn)生的一種新興技術(shù)，因其具有高帶寬、低延遲的特色，得到了計(jì)算領(lǐng)域的青睞。本文介紹了Infiniband的硬件組成及其在不同應(yīng)用中的選擇依據(jù)，最后通過四個(gè)案例進(jìn)行分析，構(gòu)建一套符合用戶需求的高性能計(jì)算網(wǎng)絡(luò)。

1. 前言

近年來，世界上的超級(jí)計(jì)算已經(jīng)由價(jià)格昂貴、無擴(kuò)展性的單片機(jī)架構(gòu)轉(zhuǎn)變?yōu)椴捎蒙虡I(yè)處理器而擁有無限擴(kuò)展能力的集群系統(tǒng)，稱為高性能計(jì)算機(jī)集群（HPC：High Performance Computing）。美國Top500.org組織每年分別兩次排列出當(dāng)今世界上最強(qiáng)大的超級(jí)計(jì)算機(jī)，該排名按照超級(jí)計(jì)算機(jī)的實(shí)際計(jì)算能力（FLOPS：每秒浮點(diǎn)運(yùn)算）按遞減順序排列。這個(gè)列表顯示出集群架構(gòu)正在逐漸取代單片機(jī)架構(gòu)的趨勢(shì)。由于HPC系統(tǒng)能夠快速準(zhǔn)確計(jì)算出結(jié)果，有助于解決商業(yè)和科學(xué)研究中面臨的問題，所以，HPC系統(tǒng)越來越多的被政府部門、商業(yè)組織和科學(xué)院所采用。

然而，有一些部門和組織所面臨的是更具挑戰(zhàn)性的計(jì)算問題，他們需要更強(qiáng)大、高性能價(jià)格比的HPC系統(tǒng)。這就意味著人們必須要關(guān)注大集群的建設(shè)，這里的大集群是指規(guī)模超過100個(gè)節(jié)點(diǎn)，達(dá)到幾百個(gè)、上千個(gè)甚至上萬個(gè)節(jié)點(diǎn)的集群系統(tǒng)；將集群系統(tǒng)擴(kuò)展到這樣的規(guī)模而帶來的困難和復(fù)雜程度是難以想象的；使這樣規(guī)模的集群能夠正常、穩(wěn)定的工作也是一個(gè)痛苦的過程。在超級(jí)計(jì)算機(jī)發(fā)展的道路上不乏失敗了的大型HPC系統(tǒng)的“尸體”，也說明了這是一個(gè)值得研究的問題。

選擇一個(gè)正確的互連網(wǎng)絡(luò)是能否達(dá)到甚至超過您對(duì)集群性能預(yù)期的關(guān)鍵。如上所述，一個(gè)集群中需要支持多種類型的數(shù)據(jù)流，所以，我們可以選擇在同一集群中同時(shí)采用不同類型的互聯(lián)網(wǎng)絡(luò)，這些不同的網(wǎng)絡(luò)將各自支持不同的網(wǎng)絡(luò)協(xié)議，同時(shí)，這些不同的網(wǎng)絡(luò)也擁有不同的網(wǎng)絡(luò)性能和特性。例如，基于千兆以太網(wǎng)的網(wǎng)絡(luò)，可以通過TCP/IP通道來傳輸信息，但缺點(diǎn)是需要占用大量CPU資源來處理網(wǎng)絡(luò)通信，導(dǎo)致整體處理效率的下降；Myrinet 網(wǎng)絡(luò)采用卸載引擎（offload engine）技術(shù)降低了CPU資源在處理通信方面的消耗，并且擁有千兆以太網(wǎng)兩倍的帶寬。在目前的Top500排名上千兆以太網(wǎng)技術(shù)和Myrinet都很普遍；然而Infiniband，由于是一個(gè)標(biāo)準(zhǔn)化的、開放的高性能互聯(lián)技術(shù)平臺(tái)，從小規(guī)模到大規(guī)模的可擴(kuò)展性集群中也擁有很強(qiáng)的生命力。

2. Infiniband背景介紹
2.1. Infiniband發(fā)展歷史

Infiniband是一種新型的總線結(jié)構(gòu)，它可以消除目前阻礙服務(wù)器和存儲(chǔ)系統(tǒng)的瓶頸問題，是一種將服務(wù)器、網(wǎng)絡(luò)設(shè)備和存儲(chǔ)設(shè)備連接在一起的交換結(jié)構(gòu)的I/O技術(shù)。它是一種致力于服務(wù)器端而不是PC端的高性能I/O技術(shù)。

Infiniband最初于2000年上市，但由于當(dāng)時(shí)經(jīng)濟(jì)的不景氣和IT預(yù)算緊縮，人們對(duì)它的興趣很快就消散了。發(fā)展至今，I/O技術(shù)在企業(yè)服務(wù)器中無論是速率上還是吞吐量上都取得了穩(wěn)步提高。但是，毫無疑問，現(xiàn)有的基于PCI架構(gòu)的I/O技術(shù)仍然是系統(tǒng)處理器、系統(tǒng)主存以及I/O外設(shè)之間的主要瓶頸。這種I/O架構(gòu)已經(jīng)不能滿足互聯(lián)網(wǎng)、電子商務(wù)、存儲(chǔ)網(wǎng)絡(luò)等大量的I/O需求。隨著對(duì)稱多處理器（SMP）、集群計(jì)算、網(wǎng)格以及遠(yuǎn)程備份的廣泛應(yīng)用，這種基于PCI架構(gòu)的I/O技術(shù)的缺陷和局限性日益突出。目前人們對(duì)互連技術(shù)的興趣開始恢復(fù)，而且非常希望互連技術(shù)能夠幫助數(shù)據(jù)中心降低成本或?qū)崿F(xiàn)高性能的計(jì)算。隨著各種高速I/O標(biāo)準(zhǔn)相繼登場(chǎng)，Infiniband逐漸嶄露頭角。

Infiniband技術(shù)通過一種交換式通信組織（Switched Communications Fabric）提供了較局部總線技術(shù)更高的性能，它通過硬件提供了可靠的傳輸層級(jí)的點(diǎn)到點(diǎn)連接，并在線路上支持消息傳遞和內(nèi)存映像技術(shù)。不同于PCI，Infiniband允許多個(gè)I/O外設(shè)無延遲、無擁塞地同時(shí)向處理器發(fā)出數(shù)據(jù)請(qǐng)求。目前，集群計(jì)算（Cluster）、存儲(chǔ)區(qū)域網(wǎng)（SAN）、網(wǎng)格、內(nèi)部處理器通信(IPC)等高端領(lǐng)域?qū)Ω邘?、高擴(kuò)展性、高QoS以及高RAS(Reliability、Availability and Serviceability)等有迫切需求，Infiniband技術(shù)為實(shí)現(xiàn)這些高端需求提供了可靠的保障。
#p#page_title#e#

2.2. Infiniband發(fā)展趨勢(shì)

基于共享總線（Shared-Bus）的架構(gòu)的諸多局限性決定了這項(xiàng)I/O技術(shù)已經(jīng)不能適合日益龐大的計(jì)算機(jī)系統(tǒng)的I/O需求。這些局限性主要包括速率極限、可擴(kuò)展性、單點(diǎn)故障等幾個(gè)主要方面。而基于交換架構(gòu)的Infiniband技術(shù)在避開PCI架構(gòu)上述問題的同時(shí)，提供了其他方面的更高性能?；贔abric與基于共享總線I/O技術(shù)之間的簡(jiǎn)要對(duì)比如下表所示。

1．Shared-Bus架構(gòu)的局限性

PCI-X 133的帶寬只有2GB/s，雖然目前公布的PCI-E的帶寬峰值到4GBps，但這沒有從根本上緩解服務(wù)器端的I/O帶寬瓶頸。同樣，PCI架構(gòu)(主要是PCI-X)的可擴(kuò)展性也非常有限，它主要通過兩種方式來實(shí)現(xiàn)：要么增加同層PCI總線（PCI本身就是一種層次結(jié)構(gòu)I/O技術(shù)），要么增加PCI-to-PCI橋。前者主要通過在主板上集成額外的Host-to-PCI總線芯片以及增加PCI連接器來實(shí)現(xiàn)，而后者主要通過在主板上增加PCI-to-PCI橋接芯片來實(shí)現(xiàn)。無論采用什么方式擴(kuò)展PCI架構(gòu)的I/O總線，其代價(jià)都是比較昂貴的。
在基于共享總線的I/O結(jié)構(gòu)中，所有通信共享單一總線帶寬，由此就造成外設(shè)越多，可用帶寬就越少，從而帶來更嚴(yán)重的系統(tǒng)I/O瓶頸。不僅如此，在基于共享并行I/O總線上，大量的引腳數(shù)目也帶來了一定的電氣特性和機(jī)械特性等問題，使得PCB空間、信號(hào)頻率以及信號(hào)可傳輸距離都受到很大程度的制約。

2．Switched Fabric體系結(jié)構(gòu)的高可擴(kuò)性

Infiniband所采用的交換結(jié)構(gòu)（Switched Fabric）是一種面向系統(tǒng)故障容忍性和可擴(kuò)展性的基于交換的點(diǎn)到點(diǎn)互聯(lián)結(jié)構(gòu)。這種結(jié)構(gòu)如下圖所示。

在上圖中，通過向Infiniband系統(tǒng)添加交換機(jī)可以很容易地實(shí)現(xiàn)I/O系統(tǒng)的擴(kuò)展，進(jìn)而允許更多的終端設(shè)備接入到I/O系統(tǒng)。與基于共享總線的I/O系統(tǒng)相反，這種Switched Fabric系統(tǒng)的總體帶寬會(huì)隨著所接入交換設(shè)備數(shù)目的增加而不斷提高。另外，正如上圖所指出的那樣，通過在Infiniband子結(jié)構(gòu)之間添加路由設(shè)備，可以更大范圍地?cái)U(kuò)充整個(gè)Infiniband系統(tǒng)。

Infiniband技術(shù)是一種開放標(biāo)準(zhǔn)的、目前全球帶寬最高的高速網(wǎng)絡(luò)互聯(lián)技術(shù)，Infiniband產(chǎn)品是目前主流的高性能計(jì)算機(jī)互連設(shè)備之一。目前基于Infiniband技術(shù)的網(wǎng)絡(luò)卡的單端口帶寬最大可達(dá)到20Gbps，基于Infiniband的交換機(jī)的單端口帶寬最大可達(dá)60Gbps，單交換機(jī)芯片可以支持達(dá)480Gbit每秒的帶寬。到2006年，Infiniband技術(shù)可以達(dá)到單端口120Gbps，其單端口的帶寬甚至遠(yuǎn)高于目前的主流交換機(jī)的總帶寬,可以為目前和未來對(duì)于網(wǎng)絡(luò)帶寬要求非?？量痰膽?yīng)用提供了可靠的解決方案。

Infiniband技術(shù)是采用RDMA傳輸機(jī)制實(shí)現(xiàn)了低延遲，高帶寬的新型網(wǎng)絡(luò)標(biāo)準(zhǔn)，并得到了行業(yè)中所有領(lǐng)軍企業(yè)的支持；部分服務(wù)器廠家已經(jīng)或計(jì)劃將Infiniband芯片移植到主板上。

Infiniband 架構(gòu)的這種快速增長(zhǎng)主要得益于越來越多的企業(yè)級(jí)數(shù)據(jù)中心的建立部署和持續(xù)發(fā)展的高性能計(jì)算的應(yīng)用。

2004年1月，IBM開始將Infiniband技術(shù)應(yīng)用于其解決方案；
2004年1月，SUN 開始推出Infiniband解決方案；
2004年2月，HP的Infiniband 產(chǎn)品在市場(chǎng)上出現(xiàn)；
2004年2月，Dell 開始推出Infiniband解決方案；
2004年5月，SKY Computer 的嵌入式Infiniband方案被用于軍事和工業(yè)應(yīng)用；
2004年6月，NEC開始應(yīng)用Infiniband到NEC刀片式服務(wù)器；
2004年6月，SBS 公司率先宣布推出基于VXWorks的 InfninBand 驅(qū)動(dòng)；
2004年， HP和 Oracle多次刷新TPCH性能測(cè)試紀(jì)錄；
2004年11月，在美國國家航空和宇宙航行局(NCSA)，SGI完成了基于Infiniband互聯(lián)技術(shù)的超級(jí)計(jì)算機(jī)，其運(yùn)算速度位居世界第二。
2005年4月，Cisco 公司宣布收購 Infiniband 方案提供商-Topspin，成為 Infiniband 產(chǎn)品的最大用戶。

除此之外，Apple、Hitachi、Fujitsu等廠商也都已推出了基于Infiniband的解決方案；Engenio、NetApp、DataDirect、Engenio、Isilon、Terrascale和CFS等存儲(chǔ)廠商也已推出或即將推出基于Infiniband技術(shù)的存儲(chǔ)解決方案；Arima,、Iwill,、SuperMicro和Tyan等服務(wù)器主機(jī)板廠商也陸續(xù)推出了基于Infiniband芯片的LOM(Landed on Mainboard)方案。

而基于Infiniband技術(shù)的芯片、網(wǎng)卡和交換機(jī)主要供應(yīng)商Mellanox公司已取得里程碑式的銷售成績(jī)----50萬個(gè) Infiniband 端口，這些端口體現(xiàn)在多種產(chǎn)品形式上，包括：集群服務(wù)器、高帶寬交換機(jī)、嵌入式平臺(tái)和集群存儲(chǔ)系統(tǒng)。

“因?yàn)?Infiniband 有著極佳的擴(kuò)展性與性能，由許多公司包括Mellanox在內(nèi)所生產(chǎn)的10Gb/s適配卡，會(huì)幫助用戶壓低集群中每個(gè)節(jié)點(diǎn)的成本，”英特爾數(shù)字企業(yè)集團(tuán)行銷主管 Jim Pappas 說道：“ Infiniband 產(chǎn)品種類的增多對(duì)應(yīng)用于商業(yè)和科學(xué)計(jì)算領(lǐng)域的 10Gb/s 帶寬計(jì)算機(jī)集群的發(fā)展有著積極的影響。”另外，InfiniHost III Lx HCA 卡把這種高性能通訊技術(shù)同時(shí)打入了高速存儲(chǔ)和嵌入式應(yīng)用這兩個(gè)市場(chǎng)。

由此可見，Infiniband的整體解決方案已經(jīng)成形，這個(gè)整體解決方案的出現(xiàn)，必將帶來高性能計(jì)算平臺(tái)和數(shù)據(jù)中心的一次變革，讓長(zhǎng)期以來一直高高在上的高性能解決方案變得大眾化。#p#page_title#e#

2.3. Infiniband技術(shù)特色

圖示：傳輸小數(shù)據(jù)包的性能測(cè)試

許多應(yīng)用對(duì)信息傳輸?shù)难舆t是很敏感的，傳輸?shù)难舆t隨著所傳輸信息的大小而有所不同，所以，同時(shí)了解互連網(wǎng)絡(luò)在傳輸小信息和大信息時(shí)的延遲非常重要。通過對(duì)集群中兩節(jié)點(diǎn)間進(jìn)行的延遲基準(zhǔn)測(cè)量，可以看到Infiniband設(shè)備在各種處理器平臺(tái)上延遲都是最低。

需要指出的是，延遲的基準(zhǔn)測(cè)試中一般都是采用了最小的數(shù)據(jù)包及0字節(jié)的數(shù)據(jù)包進(jìn)行傳輸，得到結(jié)果，并沒有反映出實(shí)際工作時(shí)的情況；而實(shí)際應(yīng)用中，數(shù)據(jù)包一般比較大，這時(shí)就對(duì)帶寬提出了要求。

圖示4K數(shù)據(jù)包時(shí)各種網(wǎng)絡(luò)的延遲

在傳輸4K大小的數(shù)據(jù)包時(shí)，Infiniband 10Gbps的帶寬優(yōu)勢(shì)很明顯，傳輸速度遠(yuǎn)遠(yuǎn)優(yōu)于Myrinet和千兆以太網(wǎng)。

需要注意的是，所有公開的網(wǎng)絡(luò)延遲都是在最佳情況下測(cè)得的。最佳情況是指參與測(cè)試的兩臺(tái)服務(wù)器只通過了一個(gè)交換芯片連接；但是，隨著集群規(guī)模的擴(kuò)大，底層的交換結(jié)構(gòu)也將擴(kuò)大，傳輸數(shù)據(jù)包所需經(jīng)過的交換設(shè)備也在不斷的增加，每一個(gè)交換設(shè)備都會(huì)在數(shù)據(jù)包傳輸?shù)侥康牡氐倪^程中增加額外的延遲；單獨(dú)看待一臺(tái)交換機(jī)硬件上的延遲是很小的，相比其他部分產(chǎn)生的延遲，可以忽略；但是站在整套集群架構(gòu)來看，考慮這個(gè)延遲的重要性就顯現(xiàn)出來?？紤]了設(shè)備的延遲，還需要考慮物理層（設(shè)備）以上的各種網(wǎng)絡(luò)協(xié)議在傳輸數(shù)據(jù)時(shí)產(chǎn)生的延遲。Infiniband的設(shè)計(jì)采用了傳輸協(xié)議卸載和繞過OS技術(shù)，也稱為RDMA（遠(yuǎn)程直接存儲(chǔ)訪問），從而減少了通信對(duì)CPU的開銷，將CPU的計(jì)算資源留給了應(yīng)用。對(duì)于應(yīng)用，越多的CPU資源意味著計(jì)算工作能夠更快的完成或更多復(fù)雜的模擬可以在同一時(shí)間內(nèi)完成。所有的這些降低延遲的特性集合起來證明了Infiniband的能力。

由于協(xié)議、通信和CPU的負(fù)載將會(huì)隨著節(jié)點(diǎn)的增加而占用越來越多的CPU計(jì)算資源，所以，保證可用的CPU資源總數(shù)能夠隨著集群規(guī)模而線性增加是非常重要的。這一性能可以通過HPL（High-Performance Linpack）測(cè)試結(jié)果來體現(xiàn)。HPL的測(cè)試結(jié)果用百分?jǐn)?shù)表示：實(shí)際應(yīng)用所占的計(jì)算資源與整體計(jì)算資源相除得出百分比。需要指明的是，即使是一臺(tái)雙CPU的服務(wù)器，沒有任何互聯(lián)設(shè)備，在做HPL測(cè)試時(shí)，也不可能達(dá)到100%的效率。這就要求互連設(shè)備能夠隨著集群增大而盡量保持較高的HPL效率，下圖表顯示了使用同種處理器而處理器數(shù)量從4到288個(gè)時(shí)的HPL效率，Infiniband再次取得了最好的性能。

Top500 上相同CPU各種網(wǎng)絡(luò)的HPL效率

與同類其它產(chǎn)品(如10Gbit以太網(wǎng)卡)相比較，Infiniband產(chǎn)品也具有明顯的優(yōu)勢(shì)，其價(jià)格是目前10Gbit以太網(wǎng)卡的十分之一，但是Infiniband HCA卡的功耗卻是10Gbit以太網(wǎng)卡的七分之一，同時(shí)具有帶寬更大，延時(shí)更低，面積更小，對(duì)于CPU的占用率更低，基于Infiniband平臺(tái)的軟件更加成熟等優(yōu)勢(shì)。

隨著雙核處理器的出現(xiàn)、PCI-Express總線的發(fā)展、超級(jí)計(jì)算機(jī)的規(guī)模越來越大，對(duì)于高帶寬、低延時(shí)的需求變得越來越苛刻；數(shù)據(jù)庫機(jī)群的發(fā)展，華爾街/金融分析的精確度的增加，制造業(yè)、石油、氣象、生物等仿真技術(shù)的發(fā)展；等等。高性能、低價(jià)格的網(wǎng)絡(luò)互連方案變得日益重要，所有的一切都在推動(dòng)Infiniband在快速的成為市場(chǎng)的主流，在科學(xué)計(jì)算、高速存儲(chǔ)和嵌入式應(yīng)用等市場(chǎng)變得越來越普及。 #p#page_title#e#

2.3.1. Infiniband常用術(shù)語

HCA – Host Channel Adapter (主信道適配器)
TCA – Target Channel Adapter (目標(biāo)信道適配器)
QP – Queue Pair 每一個(gè)HCA可以同時(shí)支持幾千個(gè)QP(s)。QP(s)由需要通信的節(jié)點(diǎn)產(chǎn)生。
SM – Subnet Manager 子網(wǎng)管理器(配置IB結(jié)構(gòu)的軟件）
ULP – Upper Layer Protocol (軟件包，采用Infiniband提供所定義的功能和服務(wù)）
CM – Communication Manager (ULP所使用的軟件，用來調(diào)節(jié)節(jié)點(diǎn)機(jī)間所產(chǎn)生的QP）
LID – 16bit Local Identifier 由子網(wǎng)管理器分配的標(biāo)識(shí)

2.3.2. Infiniband技術(shù)優(yōu)勢(shì)

Infiniband是一種交換結(jié)構(gòu)I/O技術(shù)，其設(shè)計(jì)思路是通過一套中心機(jī)構(gòu)（中心Infiniband交換機(jī)）在遠(yuǎn)程存貯器、網(wǎng)絡(luò)以及服務(wù)器等設(shè)備之間建立一個(gè)單一的連接鏈路，并由中心Infiniband交換機(jī)來指揮流量，它的結(jié)構(gòu)設(shè)計(jì)得非常緊密，大大提高了系統(tǒng)的性能、可靠性和有效性，能緩解各硬件設(shè)備之間的數(shù)據(jù)流量擁塞。而這是許多共享總線式技術(shù)沒有解決好的問題，例如這是基于PCI的機(jī)器最頭疼的問題，甚至最新的PCI-E也存在這個(gè)問題，因?yàn)樵诠蚕砜偩€環(huán)境中，設(shè)備之間的連接都必須通過指定的端口建立單獨(dú)的鏈路。

Infiniband的四大優(yōu)點(diǎn)：基于標(biāo)準(zhǔn)的協(xié)議，每秒10 GB性能，遠(yuǎn)程直接內(nèi)存存?。≧emote Direct Memory Access，簡(jiǎn)稱RDMA）和傳輸卸載（transport offload）。

標(biāo)準(zhǔn)：成立于1999年的Infiniband貿(mào)易協(xié)會(huì) 由225家公司組成，它們共同設(shè)計(jì)了該開放標(biāo)準(zhǔn)。主要掌控該協(xié)會(huì)的成員包括：Agilent, Dell, HP, IBM, InfiniSwitch, Intel, Mellanox, Network Appliance和Sun Microsystems公司。其他的100多家成員則協(xié)助開發(fā)和推廣宣傳該標(biāo)準(zhǔn)。

速度：Infiniband每秒10gigabytes的性能明顯超過現(xiàn)有的Fibre Channel的每秒4 gigabits，也超過以太網(wǎng)的每秒1 gigabit的性能。

內(nèi)存：支持Infiniband的服務(wù)器使用主機(jī)通道適配器（Host Channel Adapter，簡(jiǎn)稱HCA），把協(xié)議轉(zhuǎn)換到服務(wù)器內(nèi)部的PCI-X或者PCI-Xpress總線。HCA具有RDMA功能，有時(shí)也稱之為內(nèi)核旁路（Kernel Bypass）。RDMA對(duì)于集群來說很適合，因?yàn)樗梢酝ㄟ^一個(gè)虛擬的尋址方案，讓服務(wù)器知道和使用其他服務(wù)器的部分內(nèi)存，無需涉及操作系統(tǒng)的內(nèi)核。

傳輸卸載（Transport Offload）: RDMA 能夠幫助傳輸卸載，后者把數(shù)據(jù)包路由從OS轉(zhuǎn)到芯片級(jí)，節(jié)省了處理器的處理負(fù)擔(dān)。要是在OS中處理10 Gbps的傳輸速度的數(shù)據(jù)，就需要 80 GHz處理器。

中央處理器CPU與其存儲(chǔ)子系統(tǒng)的設(shè)計(jì)是集群系統(tǒng)性能的指示器；但是，隨著集群規(guī)模的擴(kuò)展，保證CPU的資源不被占用的關(guān)鍵是互連網(wǎng)絡(luò)?；ミB網(wǎng)絡(luò)的任務(wù)就是將集群中海量的應(yīng)用數(shù)據(jù)以盡可能快的速度從節(jié)點(diǎn)“A”傳到節(jié)點(diǎn)“B”，那么從不同部分產(chǎn)生的延遲就是需要考慮的關(guān)鍵。所以，為了達(dá)到最佳的應(yīng)用效率，就要對(duì)可能產(chǎn)生延遲的部分做到延遲最小化。幸運(yùn)的是，雖然產(chǎn)生延遲的部分有很多，但是，大多數(shù)延遲的瓶頸可以在互連網(wǎng)絡(luò)這一級(jí)得到解決。

圖示：Infiniband在數(shù)據(jù)傳輸中的位置

采用Infiniband的系統(tǒng)具有很強(qiáng)的可擴(kuò)展性：按需購買，按需升級(jí)，按需擴(kuò)展

a）性能升級(jí) ：硬件和軟件可以進(jìn)行上下兼容，新的驅(qū)動(dòng)可以在原有設(shè)備上進(jìn)行安裝，提高性能。
b）帶寬升級(jí)：3.3Gbps和5Gbps和10Gbps的三種解決方案之間可以進(jìn)行靈活的升級(jí)；客戶所需要的只是增加交換機(jī)的背板模塊。
c）規(guī)模升級(jí)：交換機(jī)之間可以進(jìn)行堆疊來實(shí)現(xiàn)集群擴(kuò)展。IO9120（144端口），IO9240（288端口）的交換機(jī)，都是以12端口為單元進(jìn)行擴(kuò)展的，均采用通用模塊；由于Silverstorm(原Infinicon）子網(wǎng)管理器可以實(shí)現(xiàn)動(dòng)態(tài)部署，無需對(duì)集群進(jìn)行重新配置，添加的節(jié)點(diǎn)實(shí)現(xiàn)即插即用。

使用和維護(hù)簡(jiǎn)單：

產(chǎn)品中有集群輔助工具： Fast Fabric Tool （FFT）；該工具可以對(duì)快速的集群進(jìn)行安裝、硬件可靠性測(cè)試、集群性能、測(cè)試和軟件驅(qū)動(dòng)的升級(jí)；當(dāng)采用FFT進(jìn)行了Silverstorm(原Infinicon）公司網(wǎng)絡(luò)的安裝之后，在新的驅(qū)動(dòng)版本推出后，通過FFT在最初安裝時(shí)留下的端口，只需一條命令就可以對(duì)整套集群進(jìn)行軟件的升級(jí)。

a）高帶寬（每秒傳輸10Gb）；
b）低延遲（最低4.5us）；
c）QOS功能；
d）高擴(kuò)展性；
e）直接與存儲(chǔ)設(shè)備和以太網(wǎng)連接，形成三網(wǎng)合一；
f）基于TCP/IP的應(yīng)用不需要任何改動(dòng)即可利用Infiniband的特性；
g）RDMA協(xié)議的應(yīng)用，減輕CPU的協(xié)議消耗；
h）與PCI-EXPRESS總線捆綁，能體現(xiàn)Infiniband更大的優(yōu)勢(shì)。

除了以上技術(shù)上的優(yōu)勢(shì)外，由于該技術(shù)標(biāo)準(zhǔn)定義了后續(xù)產(chǎn)品的技術(shù)指標(biāo)，如帶寬達(dá)到30G，60G等，所以用戶選擇該技術(shù)可以保證其利益的延續(xù)性和技術(shù)領(lǐng)先優(yōu)勢(shì)。

這些智能化、模塊化的設(shè)計(jì)可以允許客戶按照應(yīng)用的實(shí)際需求來配置集群。有一些應(yīng)用的需要盡可能大的帶寬，那么可以利用Infiniband單向10Gb/s、雙向20Gb/s的帶寬；而一些應(yīng)用不需要這樣高的帶寬，目前需要2.5Gb/s的帶寬就足夠的應(yīng)用在將來可能需要更大的帶寬。所以設(shè)計(jì)集群的時(shí)候，結(jié)構(gòu)上的靈活度也很重要：最理想的狀況，用戶可以擁有滿足現(xiàn)有應(yīng)用所需的帶寬的同時(shí)還能夠動(dòng)態(tài)的靈活快速的滿足將來應(yīng)用對(duì)帶寬的需要。在Infiniband以前，現(xiàn)有主流的高速集群網(wǎng)絡(luò)傳輸速度局限在2.5Gb/s或更低?，F(xiàn)在，利用Infiniband的帶寬優(yōu)勢(shì)，集群的結(jié)構(gòu)可以有多種多樣的帶寬上的選擇和配置。不同的配置是確保每?jī)晒?jié)點(diǎn)間通信最小帶寬為3.3Gb/s。需要注意的是，這種配置下的每一個(gè)節(jié)點(diǎn)的Infiniband帶寬能力仍然是10Gb/s，只是將多對(duì)服務(wù)器共享一條交換機(jī)的內(nèi)部互連帶寬：當(dāng)這多對(duì)服務(wù)器只有一對(duì)通信時(shí)，通信帶寬為10Gb/s；兩對(duì)同時(shí)工作時(shí)，通信帶寬為5Gb/s；只有在多對(duì)服務(wù)器同時(shí)工作時(shí)帶寬為3.3Gb/s。所以只需對(duì)集群中的核心交換機(jī)和邊緣交換機(jī)的內(nèi)部互連進(jìn)行不同的配置就可以靈活的配置出自己滿意的集群。這樣做的另一個(gè)好處是節(jié)省客戶在整體設(shè)備和空間上的投入成本，例如：甲客戶在2002年配置了3.3Gb/s CBB的Infiniband網(wǎng)絡(luò)；2003年需要達(dá)到5Gb/s CBB的Infiniband網(wǎng)絡(luò)，原來的網(wǎng)絡(luò)設(shè)備可以保留，添加相應(yīng)的交換設(shè)備就可以；2005年需要達(dá)到10Gb/s的帶寬，這時(shí)前幾年投入的設(shè)備依然可以使用。如果客戶在一套集群中部分節(jié)點(diǎn)需要10Gb/s的帶寬，也需要低帶寬以降低成本，Infiniband就可以靈活配置滿足客戶的要求。

2.4. 硬件組成

為了使Infiniband有效地工作，Infiniband標(biāo)準(zhǔn)定義了一套用于系統(tǒng)通信的多種設(shè)備，包括信道適配器、交換機(jī)、相關(guān)線纜和子網(wǎng)管理器。

如圖所示：雙端口HCA卡

HCA卡--Infiniband信道適配器，信道適配器用于Infiniband結(jié)構(gòu)同其他設(shè)備的連接。Infiniband標(biāo)準(zhǔn)中的信道適配器稱作主信道適配器(HCA)

HCA提供了一個(gè)對(duì)Web server等主CPU和存儲(chǔ)器子系統(tǒng)的接口，并支持Infiniband結(jié)構(gòu)所定義的所有軟件動(dòng)詞(Verb)。這里所說的軟件動(dòng)詞是對(duì)客戶方軟件和HCA功能之間接口的一種抽象定義。軟件動(dòng)詞并不為操作系統(tǒng)指定API，但它定義了操作系統(tǒng)廠商可能用來開發(fā)適用應(yīng)用程序接口(API)的操作。

如圖所示：24端口Infiniband交換機(jī)

Infiniband交換機(jī)。交換機(jī)是Infiniband結(jié)構(gòu)中的基本組件。一個(gè)交換機(jī)中的Infiniband端口不止一個(gè)，它能根據(jù)本地路由器包頭中所含的第二層地址(本地ID/LID)將數(shù)據(jù)包從其一個(gè)端口送到另外一個(gè)端口。交換機(jī)只是對(duì)數(shù)據(jù)包進(jìn)行管理，并不生成或使用數(shù)據(jù)包。同信道適配器一樣，交換機(jī)也需要實(shí)現(xiàn)子網(wǎng)管理代理(SMA)以響應(yīng)子網(wǎng)管理數(shù)據(jù)包。交換機(jī)可通過配置來實(shí)現(xiàn)數(shù)據(jù)包的點(diǎn)播或組播。

Infiniband線纜。Infiniband標(biāo)準(zhǔn)定義了三種鏈路速率，分別為：1X、4X和12X。此標(biāo)準(zhǔn)也定義了包括銅導(dǎo)線和光纖在內(nèi)的物理介質(zhì)。此外，它還定義了用于光纖和銅導(dǎo)線的標(biāo)準(zhǔn)連接器和電纜。銅纜上的1X鏈路采用四線差分信令(每個(gè)方向兩線)，可提供2.5Gbps的全雙工連接。其他鏈路速率都建立于1X鏈路的基本結(jié)構(gòu)上，一條Infiniband 1X鏈路的理論帶寬是2.5Gbps。但實(shí)際數(shù)據(jù)速率為2Gbps（因?yàn)殒溌窋?shù)據(jù)采用8b/10b編碼)。由于鏈路具有雙向性，所以全雙工數(shù)據(jù)速率為4Gbps。相應(yīng)的，4X和12X鏈路的規(guī)定帶寬為10Gbps和30Gbps。

子網(wǎng)管理器。子網(wǎng)管理器對(duì)本地子網(wǎng)進(jìn)行配置并確保能連續(xù)運(yùn)行。所有的信道適配器和交換機(jī)都必須實(shí)現(xiàn)一個(gè)SMA，該SMA與子網(wǎng)管理器一起實(shí)現(xiàn)對(duì)通信的處理。每個(gè)子網(wǎng)必須至少有一個(gè)子網(wǎng)管理器來進(jìn)行初始化管理以及在鏈路連接或斷開時(shí)對(duì)子網(wǎng)進(jìn)行重新配置。通過仲裁機(jī)制來選擇一個(gè)子網(wǎng)管理器作為主子網(wǎng)管理器，而其他子網(wǎng)管理器工作于待機(jī)模式(每個(gè)待機(jī)模式下的子網(wǎng)管理器都會(huì)備份此子網(wǎng)的拓?fù)湫畔ⅲz驗(yàn)此子網(wǎng)是否能夠運(yùn)行)。若主子網(wǎng)管理器發(fā)生故障，一個(gè)待機(jī)子網(wǎng)管理器接管子網(wǎng)的管理以確保不間斷運(yùn)行。

HCA卡驅(qū)動(dòng)包：Silverstorm提供統(tǒng)一的，完善的Infiniband驅(qū)動(dòng)軟件；同時(shí)支持HPC應(yīng)用和SharedI/O應(yīng)用；特別是針對(duì)大規(guī)模機(jī)群的應(yīng)用；其軟件在設(shè)計(jì)上做到性能優(yōu)化、易于安裝和升級(jí)；在眾多大規(guī)模集群得到了性能和操作上得到進(jìn)一步優(yōu)化和驗(yàn)證：

HCA 驅(qū)動(dòng)主要包括：

IB Network Stack --àIB access layer和HCA驅(qū)動(dòng)
Fabric Fast Installation --à集群輔助工作
IP over IB Driver --à基于IB的IP協(xié)議
MPI --àSilverStorm提供的MPI
MPI Development --àMPI開發(fā)包
MPI Source --àMPI原代碼
InfiniNic --à基于網(wǎng)關(guān)設(shè)備以太網(wǎng)和IB網(wǎng)絡(luò)的轉(zhuǎn)換協(xié)議
InfiniFibre --à基于網(wǎng)關(guān)設(shè)備的FC網(wǎng)和IB網(wǎng)絡(luò)的轉(zhuǎn)換協(xié)議
SDP --à卸載TCP協(xié)議的IB本地協(xié)議，支持Socket應(yīng)用
RDS --à卸載UDP協(xié)議的IB本地協(xié)議，支持原UDP應(yīng)用
Udapl --àuser Direct Access Provide Library

#p#page_title#e#
3. 應(yīng)用分析
3.1. Fluent應(yīng)用分析

目前CFD模擬應(yīng)用是制造業(yè)內(nèi)增長(zhǎng)最快的一種應(yīng)用，fluent是CFD領(lǐng)域里最廣泛使用的一種商用軟件，用來模擬從不可壓縮到高度可壓縮范圍內(nèi)的復(fù)雜流動(dòng)。由于采用了多種求解方法和多重網(wǎng)格加速收斂技術(shù)，因而FLUENT能達(dá)到最佳的收斂速度和求解精度。靈活的非結(jié)構(gòu)化網(wǎng)格和基于解算的自適應(yīng)網(wǎng)格技術(shù)及成熟的物理模型，使FLUENT在層流、轉(zhuǎn)捩和湍流、傳熱、化學(xué)反應(yīng)、多相流、多孔介質(zhì)等方面有廣泛應(yīng)用。

下圖描述的是在fluent6.2上進(jìn)行的千兆以太網(wǎng)絡(luò)和Infiniband網(wǎng)絡(luò)的性能對(duì)比。

測(cè)試環(huán)境：
硬件環(huán)境：采用的主頻2.0G Hz的opteron雙核處理器，計(jì)算節(jié)點(diǎn)為2G內(nèi)存配置。
操作系統(tǒng)：redhat EL3.0
應(yīng)用軟件：fluent6.2，測(cè)試時(shí)劃分的網(wǎng)格數(shù)在3.2萬-900萬之內(nèi)。
并行環(huán)境：在Infiniband平臺(tái)上為silverstorm mpi 3.0
在以太網(wǎng)平臺(tái)上為mpich1.2

測(cè)試結(jié)果如下圖所示

圖中橫坐標(biāo)為計(jì)算環(huán)境中的CPU數(shù)量，縱坐標(biāo)為應(yīng)用運(yùn)行所用的時(shí)間。由圖中可以看出，對(duì)千兆以太網(wǎng)（粉色曲線）來說，cluster內(nèi)處理器未到達(dá)128時(shí)系統(tǒng)的運(yùn)行時(shí)間會(huì)隨著處理器的增加而縮短，當(dāng)處理器逐漸增加，超過128顆CPU后，系統(tǒng)的運(yùn)行時(shí)間并不會(huì)繼續(xù)縮短，而是逐漸趨于穩(wěn)定，由此可以判斷，在千兆以太網(wǎng)環(huán)境下，fluent應(yīng)用的拐點(diǎn)即為128CPU。對(duì)Infiniband網(wǎng)絡(luò)（藍(lán)色曲線）分析：當(dāng)系統(tǒng)內(nèi)到達(dá)196處理器時(shí)還未出現(xiàn)拐點(diǎn)，可以判定，其相對(duì)于千兆以太網(wǎng)性能有所增加。縱向比較，當(dāng)處理器規(guī)模為64顆處理器之后，Infiniband網(wǎng)絡(luò)的性能比千兆網(wǎng)的性能提高的更多：在32處理器時(shí)：以太網(wǎng)運(yùn)行280分鐘，Infiniband運(yùn)行185分鐘，性能提升34%；當(dāng)處理器規(guī)模為64時(shí)，以太網(wǎng)運(yùn)行170分鐘，Infiniband運(yùn)行100分鐘，性能提升41%；處理器規(guī)模為128時(shí)，以太網(wǎng)運(yùn)行130分鐘，Infiniband運(yùn)行55分鐘，性能提升57%。綜上可以得知節(jié)點(diǎn)規(guī)模越大，采用Infiniband網(wǎng)絡(luò)的優(yōu)勢(shì)越明顯，得到的投資回報(bào)率才越高。

所以，在應(yīng)用Fluent時(shí)，我們建議：當(dāng)系統(tǒng)內(nèi)處理器規(guī)模小于64時(shí)，采用千兆以太網(wǎng)絡(luò)更能有效的保護(hù)用戶投資，當(dāng)系統(tǒng)內(nèi)處理器規(guī)模較大，建議采用高速Infiniband網(wǎng)絡(luò)更能發(fā)揮整體優(yōu)勢(shì)。

3.2. STAR-CD應(yīng)用分析

STAR-CD的創(chuàng)始人之一Gosman與Phoenics的創(chuàng)始人Spalding都是英國倫敦大學(xué)同一教研室的教授。

STAR-CD 是Simulation of Turbulent flow in Arbitrary Region的縮寫，CD是computational Dynamics Ltd。是基于有限容積法的通用流體計(jì)算軟件，在網(wǎng)格生成方面，采用非結(jié)構(gòu)化網(wǎng)格，單元體可為六面體，四面體，三角形界面的棱柱，金字塔形的錐體以及六種形狀的多面體，還可與CAD、CAE軟件接口，如ANSYS, IDEAS, NASTRAN, PATRAN, ICEMCFD, GRIDGEN等，這使STAR-CD在適應(yīng)復(fù)雜區(qū)域方面的特別優(yōu)勢(shì)。

STAR－CD能處理移動(dòng)網(wǎng)格，用于多級(jí)透平的計(jì)算，在差分格式方面，納入了一階UpWIND,二階UpWIND,CDS,QUICK,以及一階UPWIND與CDS或QUICK的混合格式，在壓力耦合方面采用SIMPLE，PISO以及稱為SIMPLO的算法。在湍流模型方面，有k-e,RNK-ke,ke兩層等模型，可計(jì)算穩(wěn)態(tài)，非穩(wěn)態(tài)，牛頓，非牛頓流體，多孔介質(zhì)，亞音速，超音速，多項(xiàng)流等問題. STAR－CD的強(qiáng)項(xiàng)在于汽車工業(yè)，汽車發(fā)動(dòng)機(jī)內(nèi)的流動(dòng)和傳熱

下圖描述的是在STAR-CD上進(jìn)行的千兆以太網(wǎng)絡(luò)和Infiniband網(wǎng)絡(luò)的性能對(duì)比。

測(cè)試環(huán)境：
硬件環(huán)境：采用的主頻2.0G Hz的opteron雙核處理器，計(jì)算節(jié)點(diǎn)為2G內(nèi)存配置
操作系統(tǒng)：Rocks 3.3.0 (RedHat Enterprise 3)
應(yīng)用軟件：STAR-CD 3.24 & 3.25
并行環(huán)境：在Infiniband平臺(tái)上為ScaliMPI
在以太網(wǎng)平臺(tái)上為mpich

測(cè)試結(jié)果如下圖所示

圖中橫坐標(biāo)為計(jì)算環(huán)境中的CPU數(shù)量，縱坐標(biāo)為應(yīng)用的并行效率。由圖中可以看出，對(duì)千兆以太網(wǎng)（粉色曲線）來說，它的并行效率很低的，從1顆處理器到48顆處理器，并行效率下降的很快(斜率很大)，所以不適合大規(guī)模計(jì)算。對(duì)于高速Infiniband網(wǎng)絡(luò)（藍(lán)色曲線）來說，在32處理器以下的規(guī)模時(shí)，并行效率較低，在32至200顆處理器之間的并行效率都較高，所以Infiniband在大規(guī)模機(jī)群中更能體現(xiàn)其優(yōu)勢(shì)。橫向分析二者區(qū)別：當(dāng)處理器規(guī)模小于16的時(shí)候，千兆以太網(wǎng)的并行效率為75%，Infiniband的并行效率為78%，并沒有很多的差別，由于高速網(wǎng)的投入會(huì)較高于千兆以太網(wǎng)，所以在小于16處理器的時(shí)候Infiniband的性價(jià)比并不好。

所以，在應(yīng)用STAR-CD時(shí)我們建議：小于16顆處理器的計(jì)算平臺(tái)中采用千兆網(wǎng)絡(luò)構(gòu)建，處理器規(guī)模在16至32時(shí)根據(jù)項(xiàng)目資金，可以選擇千兆網(wǎng)絡(luò)或高速Infiniband網(wǎng)絡(luò)，超過48顆處理器的計(jì)算平臺(tái)采用高速Infiniband網(wǎng)絡(luò)。

3.3. LS-Dyna應(yīng)用分析

LS-Dyna是美國livermore公司開發(fā)的三維有限元?jiǎng)恿Ψ治鲕浖﨤S-Dyna經(jīng)歷了2D到3D的發(fā)展過程。目前的LS-Dyna是3D版。LS-Dyna的求解器最初采用的是顯式積分（explicit）在時(shí)域內(nèi)來求解微分方程，其優(yōu)點(diǎn)是大為減少了存儲(chǔ)量，可以適應(yīng)比用隱式積分更為復(fù)雜更為大的問題。其缺點(diǎn)是是條件穩(wěn)定的，因此必須選擇很小的時(shí)間步長(zhǎng)。目前的LS-Dyna版本中已經(jīng)增加了隱式求解（NewMark）和振型疊加法，增加了求解自振頻率的部分，還增加了一定的靜力計(jì)算功能。

下圖描述的是在LS-Dyna上進(jìn)行的千兆以太網(wǎng)絡(luò)和Infiniband網(wǎng)絡(luò)的性能對(duì)比。

測(cè)試環(huán)境：
硬件環(huán)境：采用的主頻3.4G Hz的nocona處理器，計(jì)算節(jié)點(diǎn)為2G內(nèi)存配置。
操作系統(tǒng)：redhat3.0
應(yīng)用軟件：LS-DynaMPP 970 (Neon_refined and 3 car collision)
并行環(huán)境：在Infiniband平臺(tái)上為sst mpi 3.1
在以太網(wǎng)平臺(tái)上為intel mpi

測(cè)試結(jié)果如下圖所示

圖中橫坐標(biāo)為計(jì)算環(huán)境中的CPU數(shù)量，縱坐標(biāo)為應(yīng)用運(yùn)行所用的時(shí)間。由圖中可以看出，對(duì)千兆以太網(wǎng)（粉色曲線）來說，當(dāng)處理器規(guī)模在32節(jié)點(diǎn)之內(nèi)，運(yùn)行時(shí)間會(huì)隨著處理器增多而降低，但是超過32處理器后系統(tǒng)反而會(huì)性能下降，所以可以得出32處理器是千兆以太網(wǎng)的性能拐點(diǎn)。而且當(dāng)系統(tǒng)為32處理器時(shí)，千兆以太網(wǎng)運(yùn)行時(shí)間為2200秒，Infiniband網(wǎng)絡(luò)運(yùn)行時(shí)間為800秒，可知高速網(wǎng)絡(luò)的性能高于千兆以太網(wǎng)絡(luò)的3倍。12萬多特價(jià)，單機(jī)一萬三。硬盤3500，內(nèi)存一萬伍千三，三條。X工程師劉小倩。再分析高速網(wǎng)絡(luò)：測(cè)試規(guī)模達(dá)到90顆處理器依然沒有出現(xiàn)性能拐點(diǎn)，可以斷定在該應(yīng)用中LSDyna的大規(guī)模計(jì)算時(shí)只能選用高速計(jì)算網(wǎng)絡(luò)。繼續(xù)進(jìn)行橫向分析：在處理器規(guī)模小于16時(shí)，運(yùn)行1250秒；當(dāng)處理器規(guī)模為32時(shí)，運(yùn)行800秒，性能提升36%；當(dāng)處理器規(guī)模為64時(shí)，運(yùn)行600秒，性能提升25%；處理器規(guī)模為96時(shí)性能提升的也很慢。從而得出：在處理器規(guī)模增加阿到64個(gè)時(shí)，性能提升的不再明顯。

所以，在應(yīng)用LS-Dyna時(shí)，我們建議：采用高速網(wǎng)絡(luò)，尤其是在16處理器~96處理器之間時(shí)一定要采用高速網(wǎng)絡(luò)才可達(dá)到一定的處理能力。

#p#page_title#e#

4. 案例分析
4.1. 氣象行業(yè)高性能計(jì)算機(jī)群設(shè)計(jì)（<24節(jié)點(diǎn)）
4.1.1. 項(xiàng)目背景

數(shù)值天氣預(yù)報(bào)是現(xiàn)代天氣預(yù)報(bào)的基礎(chǔ)，數(shù)值天氣預(yù)報(bào)水平的高低成為衡量世界各國氣象事業(yè)現(xiàn)代化程度的重要標(biāo)志。我國是世界上受氣象災(zāi)害影響最嚴(yán)重的國家之一。二十世紀(jì)后半葉以來，全球變暖，極端天氣氣候事件增加，給世界和我國社會(huì)經(jīng)濟(jì)帶來了巨大的負(fù)面影響。與此同時(shí)我國幅員遼闊，豐富多樣的氣候資源又給我們提供了很大的開發(fā)利用潛力。因此加強(qiáng)防災(zāi)減災(zāi)、趨利避害，針對(duì)極端天氣氣候事件和氣候變化問題，迫切需要做好天氣預(yù)報(bào)、氣候預(yù)測(cè)和氣候系統(tǒng)預(yù)估工作。

在氣象預(yù)報(bào)的工作中，反應(yīng)速度已經(jīng)越來越不能適應(yīng)社會(huì)發(fā)展的需要，因此，提高氣象預(yù)報(bào)的準(zhǔn)確性和及時(shí)性已經(jīng)迫在眉睫。某某氣象局正是順應(yīng)當(dāng)前預(yù)報(bào)工作中的新問題，準(zhǔn)備建立一套先進(jìn)的高性能計(jì)算集群系統(tǒng)，即滿足自身的科學(xué)研究需要，又為社會(huì)各行各業(yè)的發(fā)展提供了有力的氣象保證。

4.1.2. 需求分析

在這套方案設(shè)計(jì)中，充分滿足用戶對(duì)該系統(tǒng)高效性、兼容性、可管理性和穩(wěn)定性的要求。其中，高效性表現(xiàn)在系統(tǒng)本身能在用戶要求的時(shí)間內(nèi)完成相應(yīng)的數(shù)值預(yù)報(bào)計(jì)算的任務(wù)，節(jié)點(diǎn)機(jī)采用先進(jìn)的系統(tǒng)架構(gòu)，網(wǎng)絡(luò)設(shè)備具有高帶寬、低延遲的性能。兼容性表現(xiàn)在該系統(tǒng)硬件采用商業(yè)化的設(shè)備，軟件層面對(duì)操作系統(tǒng)和數(shù)值預(yù)報(bào)軟件的全面兼容?？晒芾硇员憩F(xiàn)在用戶對(duì)設(shè)備和應(yīng)用使用簡(jiǎn)便，方便管理。穩(wěn)定性表現(xiàn)在系統(tǒng)硬件運(yùn)行正常，數(shù)值預(yù)報(bào)軟件能在硬件平臺(tái)上高效快速的運(yùn)行。

4.1.3. 方案設(shè)計(jì)

方案一

計(jì)算節(jié)點(diǎn)選擇曙光天闊R210A服務(wù)器，該服務(wù)器采用2路AMD Opteron248處理器，2G內(nèi)存，73G熱插拔SCSI硬盤。I/O節(jié)點(diǎn)同樣采用R210A服務(wù)器，AMD Opteron248處理器，考慮到I/O節(jié)點(diǎn)數(shù)據(jù)存取比較頻繁的特點(diǎn)，內(nèi)存擴(kuò)展為4G，硬盤擴(kuò)展為2塊146G熱插拔SCSI硬盤。I/O節(jié)點(diǎn)同時(shí)用戶登陸節(jié)點(diǎn)和管理節(jié)點(diǎn)使用。網(wǎng)絡(luò)方面，采用三網(wǎng)分離的模式。計(jì)算網(wǎng)用于并行計(jì)算時(shí)的數(shù)據(jù)交換和計(jì)算通訊，數(shù)值天氣預(yù)報(bào)作為通信密集型計(jì)算無論是通信次數(shù)還是通信量都很大，對(duì)網(wǎng)絡(luò)的延遲和帶寬都有較高的要求。針對(duì)這一特點(diǎn)我們采用Infiniband網(wǎng)絡(luò)作為計(jì)算網(wǎng)絡(luò)，Infiniband技術(shù)是采用RDMA傳輸機(jī)制實(shí)現(xiàn)了低延遲，高帶寬的新型網(wǎng)絡(luò)標(biāo)準(zhǔn)，滿足應(yīng)用的需要。數(shù)據(jù)傳輸網(wǎng)的特點(diǎn)是帶寬要求相對(duì)較高，但對(duì)網(wǎng)絡(luò)延遲要求并不高，因此選擇性能適中的千兆以太網(wǎng)，并通過NFS的方式作為數(shù)據(jù)共享。而管理網(wǎng)主要是進(jìn)行一些必要的系統(tǒng)管理、監(jiān)控、登入等管理，同時(shí)又作為數(shù)據(jù)傳輸網(wǎng)絡(luò)的備份，對(duì)網(wǎng)絡(luò)性能的要求不高，因此使用一套百兆網(wǎng)絡(luò)。采用三網(wǎng)分離的模式可以為各個(gè)網(wǎng)絡(luò)之間提供互為備份的功能，提高了系統(tǒng)的高可用性。

方案二

計(jì)算節(jié)點(diǎn)和I/O節(jié)點(diǎn)的選擇與方案一相同，主要區(qū)別在于對(duì)網(wǎng)絡(luò)的選擇，這里計(jì)算網(wǎng)絡(luò)和數(shù)據(jù)傳輸網(wǎng)絡(luò)將實(shí)現(xiàn)雙網(wǎng)合一，都是建立在Infiniband的高速網(wǎng)絡(luò)上。對(duì)于計(jì)算網(wǎng)絡(luò)是基于Infiniband的本地協(xié)議，它在操作系統(tǒng)看來HCA設(shè)備就像一個(gè)以太網(wǎng)卡一樣，這使得TCP/IP應(yīng)用不用修改就可移植到Infiniband平臺(tái)環(huán)境，完全滿足在以太網(wǎng)上的所有應(yīng)用。而對(duì)于數(shù)據(jù)傳輸網(wǎng)的NFS共享存儲(chǔ)的應(yīng)用，是基于Inifiniband SDP（Sockets Direct Protoco）協(xié)議的NFS over SDP功能模塊。SDP協(xié)議負(fù)責(zé)本地Infiniband包的高效通信，采用RDMA文件處理機(jī)制，實(shí)現(xiàn)了0拷貝，而TCP/IP需要使用buffer進(jìn)行3次拷貝。在實(shí)際應(yīng)用中，SDP的性能是以太網(wǎng)的6倍左右。

方案中采用Silverstorm公司的24端口交換機(jī)IO9024。IO9024交換機(jī)內(nèi)部采用Mellanox InfiniScale-III (Anafa-II)24端口交換芯片；支持24個(gè)10Gbps Infiniband端口，背板帶寬為480Gbps；交換機(jī)只有1U；主要用于搭建24節(jié)點(diǎn)以下的集群。

主要特點(diǎn)包括：

* 每個(gè)交換機(jī)只有1-U，提供24 個(gè) 4X Infinband交換端口
* 交換機(jī)內(nèi)部集成了完善的管理軟件SMA、PMA、BMA
* 交換機(jī)內(nèi)嵌的子網(wǎng)管理軟件FM；通過連接交換機(jī)背板上的以太網(wǎng)接口可使用Infiniview和SNMP對(duì)交換機(jī)端口以及網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行管理、監(jiān)控
* 模塊化、可熱插拔的冗余電源和風(fēng)扇；
* 支持IBTA 1.0 和 1.1標(biāo)準(zhǔn)

4.1.4. 建議配置

4.2. 氣象行業(yè)高性能計(jì)算及存儲(chǔ)方案設(shè)計(jì)(<24節(jié)點(diǎn))
4.2.1. 項(xiàng)目背景

某某學(xué)校的氣象學(xué)院作為國內(nèi)氣象教學(xué)研究的代表，承擔(dān)著對(duì)國內(nèi)未來氣象人才的教學(xué)培養(yǎng)工作和天氣氣侯研究工作，長(zhǎng)期以來從事天氣預(yù)報(bào)工作，在國內(nèi)率先接觸和掌握了數(shù)值預(yù)報(bào)模式，并根據(jù)我國天氣情況、地形地貌特點(diǎn)，開發(fā)出適合我國國情的數(shù)值預(yù)報(bào)產(chǎn)品。為了對(duì)自行開發(fā)的程序進(jìn)行調(diào)試和調(diào)優(yōu)，更好的發(fā)揮數(shù)值預(yù)報(bào)軟件的功能，使之更好的服務(wù)于社會(huì)大眾，該學(xué)院從上級(jí)申請(qǐng)了一筆用于購買高性能計(jì)算集群的經(jīng)費(fèi)，用于數(shù)值天氣預(yù)報(bào)的研究和開發(fā)工作。

4.2.2. 需求分析

氣象學(xué)院經(jīng)費(fèi)有限，要求所構(gòu)建的高性能集群具有極高的性價(jià)比。在有限的資金使用范圍之內(nèi)，充分滿足數(shù)值預(yù)報(bào)工作，達(dá)到用戶預(yù)期的要求。根據(jù)分析，我們發(fā)現(xiàn)該氣象學(xué)院在教學(xué)和研究任務(wù)中，為了保證天氣資料實(shí)時(shí)有效，要求集群計(jì)算過程必須在一定的時(shí)間內(nèi)完成，這樣對(duì)于預(yù)報(bào)和研究才有意義。另外，用戶對(duì)氣象數(shù)據(jù)存儲(chǔ)的要求也比較高，因?yàn)闅庀筚Y料的數(shù)據(jù)主要通過衛(wèi)星接收取得，一次傳輸?shù)臅r(shí)間較長(zhǎng)，必須保證數(shù)據(jù)的完整性和可靠性。為了方便教學(xué)，需要保存長(zhǎng)期的衛(wèi)星資料，這樣才能分析天氣的近期變化，以及氣候的長(zhǎng)期變化這樣的一個(gè)規(guī)律。

4.2.3. 方案設(shè)計(jì)

本方案中采用12臺(tái)曙光R210A服務(wù)器，該服務(wù)器采用AMD Opteron處理器，提供給用戶超強(qiáng)的處理能力，滿足了用戶對(duì)于降低計(jì)算時(shí)間的要求。在網(wǎng)絡(luò)方面，采用Silverstorm提供的IO5000交換機(jī)，同時(shí)連接存儲(chǔ)，以太網(wǎng)絡(luò)和Infiniband網(wǎng)絡(luò)，實(shí)現(xiàn)三網(wǎng)合一的網(wǎng)絡(luò)連接方式。該交換機(jī)提供12個(gè)Infiniband接口，同時(shí)提供兩個(gè)擴(kuò)展槽，一個(gè)插槽可以插入VEx卡，實(shí)現(xiàn)3個(gè)以太網(wǎng)百/千兆的端口接入，另一個(gè)插入VFx卡，實(shí)現(xiàn)2個(gè)2G FC端口的接入。這種三網(wǎng)合一的網(wǎng)絡(luò)連接方式，簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性、易于管理、降低硬件成本。在存儲(chǔ)方面提供了光纖磁盤陣列可直接連接到交換機(jī)的FC端口上，實(shí)現(xiàn)了光纖存儲(chǔ)網(wǎng)絡(luò)和IB網(wǎng)絡(luò)的連接。增強(qiáng)了存儲(chǔ)數(shù)據(jù)的安全性，提高了數(shù)據(jù)傳輸?shù)乃俣?，為日后存?chǔ)空間的擴(kuò)展提供了有力的保證。

4.2.4. 建議配置

#p#page_title#e#
4.3. 流體力學(xué)應(yīng)用計(jì)算機(jī)群設(shè)計(jì)（48節(jié)點(diǎn)以下）
4.3.1. 項(xiàng)目背景

隨著CFD（計(jì)算流體力學(xué)）逐步在各個(gè)行業(yè)的深入，CFD商業(yè)軟件Fluent有很大的發(fā)展前景。Fluent已經(jīng)在航空航天、石油化工、建筑、熱能等大領(lǐng)域有廣泛應(yīng)用。支持Fluent等大型CFD/CAE商業(yè)軟件的并行系統(tǒng)平臺(tái)的需求隨著國民經(jīng)濟(jì)發(fā)展逐漸提高。
在航天領(lǐng)域fluent可以模擬復(fù)雜幾何模型的內(nèi)、外流場(chǎng)。可以進(jìn)行飛機(jī)內(nèi)外流耦合計(jì)算、導(dǎo)彈飛行姿態(tài)過程模擬、氣動(dòng)噪音數(shù)值模擬、染料箱液體振蕩模擬、飛行器部件溫度場(chǎng)數(shù)值模擬、發(fā)動(dòng)機(jī)燃燒室燃燒模擬、火箭噴管模擬、彈道飛行模擬、冷卻系統(tǒng)模擬、換熱系統(tǒng)模擬等應(yīng)用。

近年來我國的航空航天技術(shù)也已經(jīng)趕上并超過一些發(fā)達(dá)國家的研究水平，在對(duì)這個(gè)領(lǐng)域的進(jìn)一步探索中，無法完成大規(guī)模計(jì)算一直制約著前進(jìn)的步伐，為此，航天三院的研究人員終于明確了一個(gè)目標(biāo)“工欲善其事必先利其器”，加大對(duì)科研的投資力度，構(gòu)建一套較大規(guī)模的48節(jié)點(diǎn)的高性能計(jì)算機(jī)群，為新的課題奠定良好的科研環(huán)境。

4.3.2. 方案分析
4.3.2.1. 應(yīng)用分析

首先分析用戶應(yīng)用，該項(xiàng)目中主要應(yīng)用軟件是Fluent。Fluent是目前世界上廣泛使用的CFD商用軟件，用來模擬從不可壓縮到高度可壓縮范圍內(nèi)的復(fù)雜流動(dòng)。由于采用了多種求解方法和多重網(wǎng)格加速收斂技術(shù)，因而FLUENT能達(dá)到最佳的收斂速度和求解精度。靈活的非結(jié)構(gòu)化網(wǎng)格和基于解算的自適應(yīng)網(wǎng)格技術(shù)及成熟的物理模型，使FLUENT在層流、轉(zhuǎn)捩和湍流、傳熱、化學(xué)反應(yīng)、多相流、多孔介質(zhì)等方面有廣泛應(yīng)用。Fluent屬于比較成熟的商業(yè)軟件，其應(yīng)用模式具有很強(qiáng)的代表性。

完整的Fluent計(jì)算過程可分為三塊：

前端處理（Preprocessing）
計(jì)算和結(jié)果數(shù)據(jù)生成（compute an result）
后處理(Postprocessing)

前端處理通常要生成計(jì)算模型所必需的數(shù)據(jù)，這一過程通常包括建模、數(shù)據(jù)錄入（或者從cad中導(dǎo)入）、生成離開格等；做完前處理后，CFD的核心解釋器（SOLVER）——Fluent將根據(jù)具體的模型，完成相應(yīng)的計(jì)算任務(wù)，并生成結(jié)果數(shù)據(jù)；后處理過程通常是對(duì)生成的結(jié)果數(shù)據(jù)進(jìn)行組織和詮釋，一般以直觀可視的圖形形式給出來。其中中間處理的過程是最耗費(fèi)計(jì)算單元的了。

根據(jù)上述3.1節(jié)可知fluent在普通千兆以太網(wǎng)上的性能加速比很好，在Infiniband上的性能也有相應(yīng)的提升，但是投入較多，在資金允許的范圍內(nèi)可以考慮采用高速網(wǎng)絡(luò)作為系統(tǒng)間的通訊介質(zhì)。

本項(xiàng)目中用戶預(yù)算比較充裕，而且立項(xiàng)的目的就是為了盡可能快的完成計(jì)算任務(wù)，要求系統(tǒng)具有48個(gè)計(jì)算節(jié)點(diǎn)的能力。

4.3.2.2. 架構(gòu)分析

由上文可知，Infiniband的交換機(jī)只有24口和144口兩種，此謂遺憾，但是由于Infiniband帶寬很高，還可以有很多種靈活的搭建模式?？梢苑譃?.3G-10G和5G-10G以及10G全互連的構(gòu)建方式。

3.3G-10Gb CBB方案：

如圖所示為3.3Gb/s CBB* 方案

*：CBB (constant bisectional bandwidth)：恒定的半分帶寬指的是集群內(nèi)部可用的帶寬是恒定的(例如：3.3 Gb/s).

3.3~10Gbps Infiniband解決方案的工作原理：

a. 核心交換模塊和邊緣交換模塊的連線為10Gbps連接
b. 服務(wù)器（1、2、3、4、5、6）與交換機(jī)的連線全部為10Gbps連接。
c. 當(dāng)圖中6臺(tái)服務(wù)器中僅有1和2通信時(shí)；通信帶寬為10Gbps。
d. 當(dāng)圖中1和2、3和4同時(shí)通信時(shí)；最小通信帶寬為5Gbps。
e. 當(dāng)圖中1和2、3和4、5和6同時(shí)通信時(shí)；最小通信帶寬為3.3Gbps。

由圖中可知，每一個(gè)最底層的邊緣交換模塊還有兩個(gè)端口屬于空余狀態(tài)，所以此結(jié)構(gòu)圖適用于的最大計(jì)算節(jié)點(diǎn)個(gè)數(shù)為：18*3=54個(gè)，最小計(jì)算節(jié)點(diǎn)個(gè)數(shù)為：37個(gè)。即：該邏輯拓?fù)浣Y(jié)構(gòu)圖適用性為：37~54個(gè)節(jié)點(diǎn)的3.3G~10Gb的高速交換架構(gòu)。

5G-10Gbps方案：

如圖所示為5Gb/s 方案，可以看出與3.3~10Gbps 的架構(gòu)類似

5~10Gbps Infiniband 與3.3~10Gbps Infiniband解決方案的工作原理：相同

a. 核心交換模塊和邊緣交換模塊的連線為10Gbps連接
b. 服務(wù)器（1、2、3、4）與交換機(jī)的連線全部為10Gbps連接。
c. 當(dāng)圖中4臺(tái)服務(wù)器中僅有1和2通信時(shí)；通信帶寬為10Gbps。
d. 當(dāng)圖中1和2、3同時(shí)通信時(shí)；最小通信帶寬為5Gbps。

由圖中可知，每一個(gè)最底層的邊緣交換模塊均已占用，所以此結(jié)構(gòu)圖適用于的最大計(jì)算節(jié)點(diǎn)個(gè)數(shù)為：16*3=48個(gè)，另觀察可知最小計(jì)算節(jié)點(diǎn)個(gè)數(shù)為：33個(gè)。即：該邏輯拓?fù)浣Y(jié)構(gòu)圖適用性為：33~48個(gè)節(jié)點(diǎn)的5G~10Gb的高速交換架構(gòu)。

10Gbps全互聯(lián)的 FBB方案：

如圖所示為10Gb/s 方案，可以看出與5~10Gbps的架構(gòu)有很多不同

10Gbps Infiniband的工作方式屬于標(biāo)準(zhǔn)的全互聯(lián)工作方式：每個(gè)邊緣交換模塊只有12個(gè)端口用于連接計(jì)算節(jié)點(diǎn)，其余12個(gè)端口中一半的端口用于連接核心交換模塊1，另一半用于連接核心交換模塊2，如此保證從node1至node48均可達(dá)到10G的帶寬。
由圖中可知，欲達(dá)到每個(gè)節(jié)點(diǎn)之間的交換帶寬均為10G則每個(gè)交換機(jī)只可連接12個(gè)計(jì)算節(jié)點(diǎn)，所以此結(jié)構(gòu)圖適用于的最大計(jì)算節(jié)點(diǎn)個(gè)數(shù)為：12*4=48個(gè)，若上圖中的邊緣交換模塊為三個(gè)，則最大連接節(jié)點(diǎn)的個(gè)數(shù)為12*3=36個(gè)。即：該邏輯拓?fù)浣Y(jié)構(gòu)圖適用性為：37~48個(gè)節(jié)點(diǎn)的10Gb的高速交換架構(gòu)。

架構(gòu)分析：

觀察上述三種邏輯圖：該項(xiàng)目為48節(jié)點(diǎn)的高性能計(jì)算系統(tǒng)，3.3G與5G的圖中區(qū)別僅僅是在5G的結(jié)構(gòu)中多了兩條線纜連接，線纜的投資相對(duì)很小，所以建議該項(xiàng)目不必考慮3.3G連接方式，在投資允許的范圍內(nèi)選擇5G連接架構(gòu)或10G連接架構(gòu)。

4.3.2.3. 擴(kuò)展性分析

集群硬件升級(jí)方案：

注：
集群規(guī)模擴(kuò)容（48節(jié)點(diǎn)升級(jí)到54節(jié)點(diǎn)）：只需要增加6塊HCA卡和6根線纜
集群帶寬擴(kuò)展（3.3Gbps升級(jí)到10Gbps全互聯(lián)）：只需要增加2臺(tái)IO9024和30根線纜就可擴(kuò)展到48節(jié)點(diǎn)的10Gbps全互聯(lián)。
集群軟件的升級(jí)：所有產(chǎn)品使用一套軟件，保證客戶使用Infiniband產(chǎn)品的易用性和一致性；當(dāng)軟件新版本推出后，使用集群安裝輔助工具能夠快速的實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)的IB環(huán)境升級(jí),保持客戶集群軟件平臺(tái)的先進(jìn)性和高性能。

4.3.3. 建議配置

#p#page_title#e#

4. 有限元分析計(jì)算機(jī)群設(shè)計(jì)（64節(jié)點(diǎn)）
4.4.1. 項(xiàng)目背景

中科院某所是以進(jìn)行廣泛的物質(zhì)科學(xué)領(lǐng)域的計(jì)算和模擬研究為主要研究方向的研究所。還兼有開發(fā)新的計(jì)算技術(shù)和計(jì)算模擬方法的任務(wù)。對(duì)新方法的發(fā)展，包括從微觀到宏觀，從單體到多體系統(tǒng)，從經(jīng)典到量子，從常溫常壓到極端條件等等領(lǐng)域的不同范疇不同尺度的計(jì)算模擬新方法，涉及到材料、能源、信息、生物、環(huán)境等領(lǐng)域，及物理、數(shù)學(xué)、化學(xué)、生物、計(jì)算機(jī)科學(xué)等學(xué)科。不僅如此，中心還承擔(dān)著國家相關(guān)研究課題，主要體現(xiàn)在物理科學(xué)的模擬與計(jì)算、國內(nèi)核心“物質(zhì)模擬機(jī)”的研究運(yùn)用和成為代表國家水平的開放中心上。

由于中心進(jìn)行的項(xiàng)目多、復(fù)雜，往往多種應(yīng)用程序要并行、串行, 而且CPU、RAM、存儲(chǔ)需求都很大。運(yùn)用普通的超級(jí)計(jì)算機(jī)，模擬程序一旦運(yùn)行，就會(huì)產(chǎn)生內(nèi)存不夠等問題，往往嚴(yán)重影響甚至阻滯了科研的發(fā)展。因此，中心的科研急需利用更先進(jìn)的信息技術(shù)和計(jì)算機(jī)設(shè)備來提高數(shù)據(jù)處理、計(jì)算的能力。

目前中心常用的軟件包括LS-Dyna、VASP等很成熟的商業(yè)軟件，應(yīng)用范圍比較廣泛，8個(gè)研究室都要在一年內(nèi)完成相關(guān)課題，研究任務(wù)必將繁重。雖然對(duì)計(jì)算的需求很大，但每個(gè)研究室并沒有充裕的資金和力量構(gòu)建具一定規(guī)模的計(jì)算平臺(tái)，所以經(jīng)過協(xié)商，采用“聯(lián)手”的方式構(gòu)建較大規(guī)模的計(jì)算平臺(tái)，如此可以節(jié)省重復(fù)勞動(dòng)、降低管理費(fèi)用。經(jīng)討論，構(gòu)建一套64節(jié)點(diǎn)的高性能計(jì)算平臺(tái)，平時(shí)每個(gè)實(shí)驗(yàn)室可以使用其中的一部分（8臺(tái)），如需要更多的資源可以跟管理人員提出申請(qǐng)，進(jìn)行大規(guī)模計(jì)算。目前暫定主要應(yīng)用軟件為L(zhǎng)S-Dyna，若以后還有相關(guān)深入研究，則根據(jù)實(shí)際情況，增加其它軟件的支持。

4.4.2. 方案分析
4.4.2.1. 應(yīng)用分析

該項(xiàng)目用于LS-Dyna的應(yīng)用。LS-DYNA 是世界上最著名的通用顯式動(dòng)力分析程序，能夠模擬真實(shí)世界的各種復(fù)雜問題，特別適合求解各種二維、三維非線性結(jié)構(gòu)的高速碰撞、爆炸和金屬成型等非線性動(dòng)力沖擊問題，同時(shí)可以求解傳熱、流體及流固耦合問題。在工程應(yīng)用領(lǐng)域被廣泛認(rèn)可為最佳的分析軟件包。與實(shí)驗(yàn)的無數(shù)次對(duì)比證實(shí)了其計(jì)算的可靠性。

根據(jù)上文3.3分析，LS-Dyna應(yīng)用在千兆以太網(wǎng)絡(luò)時(shí)的并行加速比并不是很好，尤其是到了16顆CPU，若采用高速網(wǎng)絡(luò)，并行加速比得到了大大的提升，所以該項(xiàng)目中非常建議用戶采用高速Infiniband網(wǎng)絡(luò)構(gòu)建系統(tǒng)。

4.4.2.2. 架構(gòu)分析

Infiniband網(wǎng)絡(luò)有其高效的一面，但也有其復(fù)雜的一面，或者可以稱其為靈活性很強(qiáng)。本項(xiàng)目中要構(gòu)建一套64節(jié)點(diǎn)的高速網(wǎng)絡(luò)既可以通過普通的24口交換機(jī)搭建也可以直接選用144口的大規(guī)模交換機(jī)，節(jié)省了布線難度。

10G全互聯(lián)的網(wǎng)絡(luò)構(gòu)架一：

如圖所示：該結(jié)構(gòu)是通過標(biāo)準(zhǔn)24口交換機(jī)搭建起來的10G網(wǎng)絡(luò)系統(tǒng)，為了達(dá)到互聯(lián)的目的，每個(gè)交換機(jī)只可連接12個(gè)計(jì)算節(jié)點(diǎn)，所以此結(jié)構(gòu)圖適用于的最大計(jì)算節(jié)點(diǎn)個(gè)數(shù)為：12*6=72個(gè)，即：該邏輯拓?fù)浣Y(jié)構(gòu)圖適用性為：61~72個(gè)節(jié)點(diǎn)的10Gb的高速交換架構(gòu)。

但僅僅通過拓?fù)鋱D即可以看出該網(wǎng)絡(luò)環(huán)境極為復(fù)雜，各個(gè)交換機(jī)交叉會(huì)有很多聯(lián)系，如此在項(xiàng)目實(shí)施的時(shí)候會(huì)比較困難，除非有比較有經(jīng)驗(yàn)的工程實(shí)施人員，而且整體系統(tǒng)在短期內(nèi)不會(huì)發(fā)生變更才建議選用這種方式。

10G全互聯(lián)的網(wǎng)絡(luò)構(gòu)架二：

上文曾經(jīng)介紹過，Infiniband還有一種模塊式最大可達(dá)144口的交換機(jī)，該交換機(jī)屬于InfinIO9120模塊化交換機(jī),高度只有7U，支持12個(gè)擴(kuò)展插槽、每個(gè)插槽內(nèi)可以插入12端口IB擴(kuò)展模塊。InfinIO9120交換機(jī)具備很高的可靠性，每一款交換機(jī)都配備冗余的管理、電源和風(fēng)扇；交換機(jī)的內(nèi)部軟件可以很方便的升級(jí)。InfinIO9120交換機(jī)同樣采用silverstorm公司開發(fā)的Infiniview管理軟件對(duì)交換機(jī)進(jìn)行管理和配置；保證用戶對(duì)silverstorm產(chǎn)品使用時(shí)感到一致；一臺(tái)InfinIO9120交換機(jī)可最大支持144個(gè)節(jié)點(diǎn)，以12節(jié)點(diǎn)為單位進(jìn)行遞增，具有很高的靈活性和可擴(kuò)展性。

IO9000系列交換機(jī)的擴(kuò)展插槽中可供選擇的模塊：

12-端口4X （10Gb/s）Infiniabnd交換模塊。
64節(jié)點(diǎn)兩種方案對(duì)比：
采用多個(gè)24端口的交換機(jī)IO9024搭建，使用交換機(jī)較多，工程實(shí)現(xiàn)的難度稍大一些。但易于拆卸，使用方便。
采用IO9120，通過插入12端口的模塊進(jìn)行擴(kuò)展機(jī)群規(guī)模，操作簡(jiǎn)單；另外可以通過插入SPINE核心交換模塊，來搭建3.3,6.6,10Gbps的解決方案，非常靈活。

4.4.2.3. 擴(kuò)展性分析

集群規(guī)模的擴(kuò)容：一臺(tái)IO9120交換機(jī)最多可以支持144端口10Gbps Infiniband連接，同時(shí)IO9120交換機(jī)支持與silverstorm其它交換機(jī)的堆疊，實(shí)現(xiàn)集群規(guī)模的擴(kuò)容。

軟件的簡(jiǎn)便升級(jí)：當(dāng)軟件新版本推出后，使用快速安裝工具能夠快速的實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)的IB環(huán)境升級(jí)。

4.4.3. 建議配置

關(guān)閉此頁

上一篇：通用計(jì)算軟件Mathematica7支持CUDA性能提升百倍

下一篇：曙光CAE高性能計(jì)算解決方案

相關(guān)文章

工程技術(shù)(工科)專業(yè)工作站/服務(wù)器硬件配置選型

新聞排行榜

最新信息

應(yīng)用導(dǎo)航:

工作站產(chǎn)品中心京東商城中關(guān)村商城淘寶商城超高分可視化商城便攜工作站商城 ANSYS CATIA Microsoft INTEL NVIDIA 網(wǎng)站統(tǒng)計(jì)