曙光CAE高性能計算解決方案
時間:2008-11-21 02:55:00
來源:UltraLAB圖形工作站方案網(wǎng)站
人氣:9747
作者:admin
摘要:計算機 輔助工程(CAE,Computer Aided Engineering)已成為工程和產(chǎn)品結(jié)構(gòu)分析中(如航空、航天、機械、土木結(jié)構(gòu)等領(lǐng)域)必不可少的數(shù)值計算工具。本文對CAE軟件的應(yīng)用特點進(jìn)行了分析,并針對隱式和顯式應(yīng)用對硬件資源的不同需求,提出了相應(yīng)的解決方案。大量的測試結(jié)果和成功案例表明,所提出的方案能充分滿足CAE用戶對高性能計算服務(wù)器的需求。本解決方案對于CAE用戶選擇高性能計算平臺具有較高的參考價值。
關(guān)鍵字:CAE,F(xiàn)EA,HPC,SMP,CLUSTER
#p#page_title#e#
關(guān)鍵字:CAE,F(xiàn)EA,HPC,SMP,CLUSTER
一、CAE高性能計算簡介
計算機輔助工程(CAE,Computer Aided Engineering)是用計算機輔助求解復(fù)雜工程和產(chǎn)品結(jié)構(gòu)強度、剛度、屈曲穩(wěn)定性、動力響應(yīng)、熱傳導(dǎo)、三維多體接觸、彈塑性等力學(xué)性能的分析計算以及結(jié)構(gòu)性能的優(yōu)化設(shè)計等問題的一種近似數(shù)值分析方法。CAE從60年代初在工程上開始應(yīng)用到今天,現(xiàn)已成為工程和產(chǎn)品結(jié)構(gòu)分析中(如航空、航天、機械、土木結(jié)構(gòu)等領(lǐng)域)必不可少的數(shù)值計算工具,同時也是分析連續(xù)介質(zhì)力學(xué)各類問題的一種重要手段。
近年來,高性能計算作為大規(guī)模CAE應(yīng)用的基石,在工業(yè)和制造業(yè) 領(lǐng)域的應(yīng)用越來越普遍和廣泛。從TOP500的統(tǒng)計信息來看,工業(yè)領(lǐng)域所占的比例在不斷增加。2005年6月,工業(yè)用戶使用的高性能計算機占到52.8%。而其中的半導(dǎo)體和制造業(yè)用戶所占的比例相當(dāng)可觀。其中美國半導(dǎo)體公司大約有70臺,美國Boeing有4臺,Lockheed Martin有2臺,德國BMW有7臺,德國VW有2臺,德國Siemens有2臺。許多國際著名的制造業(yè)大公司已實現(xiàn)了產(chǎn)品的虛擬化設(shè)計和制造,并實現(xiàn)了全球資源共享,利用全新的理念設(shè)計產(chǎn)品。美國GM、美國GE、日本Nissan等公司都擁有總計算能力超過10萬億次的高性能計算機用于新產(chǎn)品的研發(fā)。Boeing公司在上世紀(jì)90年代就實現(xiàn)了無紙化設(shè)計。Boeing公司已宣布利用高性能計算機對航空發(fā)動機進(jìn)行全物理過程的模擬仿真。主導(dǎo)世界制造業(yè)方向的大集團公司目前都擁有大量的超級計算機用于產(chǎn)品設(shè)計 和數(shù)據(jù)處理,制造業(yè)信息化是知識經(jīng)濟時代企業(yè)核心競爭的必要組成環(huán)節(jié)。
中國在世界上有“世界制造中心”的稱號,但是實際上我們的制造還大多數(shù)屬于很簡單的淺層面。更多的時候,通常的做法是產(chǎn)品在國外設(shè)計研發(fā),在國內(nèi)生產(chǎn)。不過,在如今,國內(nèi)的制造業(yè)一方面有了自己的進(jìn)步,另一方面,國外的知名企業(yè)也紛紛將自己的研發(fā)中心設(shè)置在了國內(nèi)。在開始階段,在國內(nèi)作的研發(fā)可能還更多的出于本地化需求,不過,相信在不久的以后,會有更多的分析和研發(fā)需求會在中國出現(xiàn)。從設(shè)計產(chǎn)品的設(shè)計到研發(fā)到制造,整個環(huán)節(jié)都會在國內(nèi)實現(xiàn)。目前,在汽車領(lǐng)域,國內(nèi)的CAE進(jìn)展的比較早。比如汽車的沖撞試驗。
二、CAE應(yīng)用軟件 的特點
一般說來,CAE分析主要包括前處理、計算分析和后處理這3個過程。前處理主要是建立問題的幾何模型、進(jìn)行網(wǎng)格劃分、建立用于計算分析的數(shù)值模型、確定模型的邊界條件和初始條件等;計算分析是對所建立的數(shù)值模型進(jìn)行求解,經(jīng)常需要求解大型的線性方程組,這個過程是CAE分析中計算量最大、對硬件性能要求最高的部分;后處理則是以圖形化的方式對所得的計算結(jié)果進(jìn)行檢查和處理。
CAE分析的一個重要特點是,主要采用國際上公認(rèn)的大型商業(yè)軟件進(jìn)行分析和計算。目前,大部分國際工業(yè)界認(rèn)可的計算機輔助工程軟件 幾乎被美國壟斷。比如ABAQUS、ANSYS、LS-DYNA、MSC.NASTRAN、PAM-CRASH等。大型商業(yè)軟件通常都有自己的前后處理模塊。此外也有一些通用的前、后處理軟件,提供了對以上軟件的接口,讓用戶只需要熟悉一個統(tǒng)一的操作界面,比如Hypermesh、MSC.PATRAN等。 #p#page_title#e#
根據(jù)求解算法的不同,CAE分析軟件總體上可以分為隱式和顯式兩類。采用隱式算法的軟件主要有ABAQUS/Standard、ANSYS、MSC.NASTRAN等,適合求解靜力、模態(tài)、屈曲等問題;采用顯式算法的軟件主要有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等,適合求解接觸、碰撞、沖擊等問題。
從對計算資源的需求來說,隱式解法的基本特點是內(nèi)存占用多、磁盤IO大、進(jìn)程通信量大,因此,隱式解法要求系統(tǒng)的內(nèi)存容量大、訪存帶寬高、磁盤IO速度快、通信延遲低;相對而言,顯式解法對內(nèi)存、磁盤IO和通信延遲的要求要低一些。
從軟件的擴展性上來說,隱式算法和顯式算法有明顯的區(qū)別。采用隱式算法的軟件,擴展性比較差,計算性能在8-16 CPU以上就很難獲得進(jìn)一步的提升;而采用顯式算法的軟件,擴展性就要好得多,在64-128 CPU以內(nèi)都能獲得較好的并行性能。
從并行技術(shù)的角度來說,隱式算法通常采用OpenMP或者Pthreads等共享內(nèi)存的方式實現(xiàn),而顯式算法通常采用MPI或者PVM等消息傳遞方式實現(xiàn)。采用共享內(nèi)存方式的優(yōu)點是實現(xiàn)容易,性能較高,但只能運行在SMP結(jié)構(gòu)的服務(wù)器上;而消息傳遞方式則可適用于SMP或者DMP結(jié)構(gòu)的服務(wù)器上。不過,隨著集群計算的發(fā)展,SMP平臺上的大多數(shù)算法也已移植到了DMP平臺上,雖然并不完全。比如ABAQUS/Standard的Direct求解器和Lanczos特征值求解器就只支持Threads模式,因此必須采用SMP平臺才能實現(xiàn)并行計算。
顯式算法和隱式算法的比較
|
隱式算法
|
顯式算法
|
典型的軟件
|
ABAQUS/Standard、ANSYS、MSC.NASTRAN
|
ABAQUS/Explicit、LS-DYNA、PAM-CRASH
|
求解的問題
|
靜力、模態(tài)、屈曲等
|
接觸、碰撞、沖擊等
|
算法的特點
|
內(nèi)存占用多、磁盤IO大、進(jìn)程通信量大
|
相對而言,內(nèi)存、IO和通信量要少一些
|
對硬件的要求
|
內(nèi)存容量大、訪存帶寬高、磁盤IO速度快、通信延遲低
|
相對而言,系統(tǒng)硬件配置可低一些
|
算法的擴展性
|
8-16 CPU
|
64-128 CPU
|
三、CAE硬件平臺的選擇
CAE硬件平臺的選擇對CAE項目的成功實施至關(guān)重要,它直接影響到CAE項目的運行、管理和維護。對于用戶來講,往往是在軟件選型已經(jīng)完成之后,才開始考慮硬件選型。因此在硬件平臺的選擇上,必須綜合考慮不同應(yīng)用軟件 的特點,才能確定最佳配置方案。
3.1并行體系結(jié)構(gòu)的選擇
目前市場上的高性能服務(wù)器主要有共享內(nèi)存的SMP和分布式內(nèi)存的Cluster兩種體系結(jié)構(gòu)。在共享內(nèi)存的系統(tǒng)中,所有的處理器通過公用的總線可以使用一個共同的物理內(nèi)存空間,因此,每個CPU和其他CPU共享所有內(nèi)存。常見的產(chǎn)品有SGI的Altix和Origin系列、HP的SuperDome系列等。在分布式內(nèi)存的系統(tǒng)中,每個計算節(jié)點擁有屬于自己的內(nèi)存,不能由其他計算節(jié)點使用。節(jié)點之間由專用的高速通信網(wǎng)絡(luò)連接,通過消息傳遞接口MPI進(jìn)行通信。常見的產(chǎn)品有曙光天潮系列、聯(lián)想深騰系列等。 #p#page_title#e#
采用共享內(nèi)存的SMP架構(gòu)的服務(wù)器,既可以支持OpenMP和Pthreads并行,也可以支持MPI和PVM并行,能夠利用軟件的所有并行功能。但SMP系統(tǒng)的價格相對而言較高,而且對于主要采用隱式算法的軟件而言,最多只能利用8-16顆CPU,因此配置CPU數(shù)更多的SMP服務(wù)器并沒有太大的意義,反而會造成投資的浪費。
分布式內(nèi)存的Cluster系統(tǒng)是近年來迅速普及的一種高性能服務(wù)器體系。集群是一組獨立的計算機 (節(jié)點)的集合體,節(jié)點間通過高性能的互連網(wǎng)絡(luò)連接,可以協(xié)同工作并表現(xiàn)為一個單一的、集中的計算資源(單一系統(tǒng)映象)供并行計算任務(wù)使用。構(gòu)建這類服務(wù)器的成本比較低,具有良好的性價比和可擴放性。集群作為當(dāng)前高性能計算機的主流架構(gòu),在Top 500中占據(jù)了75%以上的份額。因此,當(dāng)前主流的CAE軟件都提供了對集群架構(gòu)和MPI的支持。當(dāng)前市場上的集群系統(tǒng)大多是采用4-8路的SMP服務(wù)器作為計算節(jié)點,因此也支持OpenMP。
3.2處理器類型的選擇
處理器是CAE計算服務(wù)器的核心。當(dāng)前用于高性能計算的處理器大體上可分為RISC架構(gòu)和CISC架構(gòu)兩種類型。基于RISC架構(gòu)的處理器主要有Power、MIPS、PA-RISC、SPARC等,基于CISC架構(gòu)的處理器則有我們熟悉的Intel和AMD。CISC處理器以其性價比優(yōu)勢成為高性能計算機中的主流CPU,在Top 500中有75%以上的系統(tǒng)采用了CISC處理器。
作為CAE計算服務(wù)器,對浮點運算性能要求較高,因此大多數(shù)服務(wù)器均采用了最新的雙核處理器技術(shù),包括Intel的Woodcrest 5100系列和AMD的Opteron 200/2000系列。它們的對應(yīng)關(guān)系如下:
Woodcrest和Opteron的對應(yīng)關(guān)系
型號
|
主頻
|
型號
|
主頻
|
型號
|
主頻
|
Woodcrest 5160
|
3.0 GHz
|
Opteron 290
|
2.8 GHz
|
Opteron 2220
|
2.8 GHz
|
Woodcrest 5150
|
2.66 GHz
|
Opteron 285
|
2.6 GHz
|
Opteron 2218
|
2.6 GHz
|
Woodcrest 5140
|
2.33 GHz
|
Opteron 280
|
2.4 GHz
|
Opteron 2216
|
2.4 GHz
|
Woodcrest 5130
|
2.0 GHz
|
Opteron 275
|
2.2 GHz
|
Opteron 2214
|
2.2 GHz
|
應(yīng)該說,Woodcrest的雙總線架構(gòu)和Opteron的直連架構(gòu),各有特色。那么在CAE高性能計算中,那種架構(gòu)性能更好呢?我們來看一下Intel官方網(wǎng)站上對LS-Dyna和Fluent的測試數(shù)據(jù)。(網(wǎng)址: #p#page_title#e#http://www.intel.com/performance/server/xeon/hpcapp.htm)
Intel只提供了Woodcrest 5160和Opteron275的測試數(shù)據(jù),由于兩者并不是同檔次的CPU,不能直接比較??紤]到主頻的因素,可以推算出與Opteron 275同檔次的Woodcrest 5130的性能。
Intel官方測試數(shù)據(jù)比較
CPU
|
Woodcrest 5160
|
Woodcrest 5130
|
Opteron 275
|
LS-Dyna
|
2.52
|
1.68
|
1.98
|
Fluent
|
2.46
|
1.64
|
1.94
|
上述測試數(shù)據(jù)表明,Opteron 275的性能比Woodcrest 5130要高17%以上。
進(jìn)行CAE高性能計算時,通常會采用4顆以上的處理器,因此CPU的擴展性也十分重要。我們再來比較一下Woodcrest和Opteron的擴展性。以下測試數(shù)據(jù)來自AMD。
上述測試數(shù)據(jù)表明,4進(jìn)程時,Woodcrest 5160的浮點運算性能比Opteron 2220要慢14%,Opteron 2220浮點運算的并行效率也比Woodcrest 5160高出20%。
綜上所述,對于CAE/CFD應(yīng)用,由于Woodcrest處理器持續(xù)沿用已有20多年歷史的前端總線架構(gòu),其實測性能和擴展性均不如同檔次的Opteron處理器。
四、曙光CAE高性能計算解決方案
當(dāng)設(shè)計CAE高性能計算整體解決方案時,要充分考慮用戶需求,比如資金預(yù)算、問題類型、分析規(guī)模、用戶數(shù)量、軟件License個數(shù)等,以此來確定最終的硬件選型。
4.1 以隱式分析為主的解決方案
常用的隱式有限元軟件有ABAQUS/Standard、ANSYS、MSC.NASTRAN等。根據(jù)隱式有限元分析要求內(nèi)存容量大、磁盤IO快、通信延遲低的特點,推薦采用基于SMP架構(gòu)的4路的曙光天闊A820r-F或A830r-F,對于預(yù)算充足的用戶,可以采用8路的曙光天闊A950r-F。
上述幾款機型用于隱式有限元分析有以下優(yōu)點:
1)采用了最新的AMD Opteron™ 8000系列處理器,支持雙核技術(shù)。
隱式有限元分析對系統(tǒng)的浮點運算性能和內(nèi)存帶寬要求非常高。在共享內(nèi)存架構(gòu)中,各處理器之間通過訪問內(nèi)存中的公共變量進(jìn)行通信,內(nèi)存存取延遲越小,則性能越高。Opteron 處理器內(nèi)部則整合了內(nèi)存控制器,CPU與內(nèi)存之間的數(shù)據(jù)交換過程簡化為“CPU--內(nèi)存--CPU”三個步驟,與傳統(tǒng)的基于北橋芯片的方案相比顯然具有更低的數(shù)據(jù)延遲,這有助于提高計算機系統(tǒng)的整體性能。
2)采用了先進(jìn)的 Registered ECC DDRII內(nèi)存,最大支持64GB~128GB內(nèi)存。
隱式解法內(nèi)存占用較大。以40萬自由度為例,如果采用ANSYS的SPARSE求解器,大概需要6GB內(nèi)存。當(dāng)物理內(nèi)存不足的時候,ANSYS采用磁盤文件作為虛擬內(nèi)存,但這樣會大大降低性能。配置較多的物理內(nèi)存,則可將所有數(shù)據(jù)都放在內(nèi)存中,ANSYS不需要進(jìn)行磁盤文件交換就能完成整個求解過程,從而節(jié)約求解時間。因此內(nèi)存配置推薦至少1GB/Core,最好是2GB/Core。
3)最多可以安裝8塊熱插拔SCSI硬盤,可以通過RAID提高磁盤性能。 #p#page_title#e#
進(jìn)行隱式有限元分析,尤其是模態(tài)分析,會產(chǎn)生大量的臨時文件,而且要反復(fù)讀寫磁盤,因此磁盤IO速度對于軟件的計算性能也非常關(guān)鍵。據(jù)統(tǒng)計,1個40萬自由度的算例,計算過程中的磁盤IO量可達(dá)16.2GB。通過多塊磁盤的RAID,磁盤的IO速度可以成倍提高。
4)進(jìn)程之間的通信在節(jié)點內(nèi)部完成,通信延遲在1μs以內(nèi)。
基于SMP架構(gòu)的4/8路雙核服務(wù)器,可以同時運行8-16個計算進(jìn)程,正好是隱式有限元算法加速比最好的范圍。而且由于進(jìn)程之間的通信在節(jié)點內(nèi)部進(jìn)行,通信帶寬和延遲比采用外置交換機的集群要高出一個量級,因此能獲得更好的運算性能。
4.2 以顯式分析為主的解決方案
常用的顯式有限元軟件有ABAQUS/Explicit、LS-DYNA、PAM-CRASH等。相比而言,顯式有限元軟件對系統(tǒng)硬件的要求略低一些,從性價比以及軟件的擴展性出發(fā),推薦采用由2路的曙光天闊A610r-F或A620r-F作為計算節(jié)點的曙光天潮4000A集群系統(tǒng)。
采用集群系統(tǒng)進(jìn)行顯式有限元分析具有以下優(yōu)點:
1)采用集群系統(tǒng),節(jié)點硬件配置可以略低一些,節(jié)省投資。
集群節(jié)點采用Opteron 2000系列處理器,系統(tǒng)內(nèi)存的配置推薦1GB/Core,只需配置1塊硬盤即可。
2)采用集群系統(tǒng),可以為用戶提供更多的CPU資源。
在同等價格的情況下,集群系統(tǒng)可以為用戶提供更多的CPU資源??梢酝瑫r滿足多個用戶、多個計算任務(wù)的需求。同時集群的各個節(jié)點也可獨立進(jìn)行運算。
3)采用集群系統(tǒng),各個節(jié)點可以協(xié)同工作。
集群系統(tǒng)的特點在于雖然各個節(jié)點的計算性能有限,但是多個節(jié)點可以通過高性能網(wǎng)絡(luò)進(jìn)行協(xié)同工作,共同完成大規(guī)模問題的求解。目前主流的計算軟件也都支持集群并行計算。
4)采用集群系統(tǒng),進(jìn)行擴展非常方便。
當(dāng)需求增加時,通過增加節(jié)點數(shù)量,可以立即提升系統(tǒng)的整體運算能力,用戶以前的投資不會浪費。
在集群系統(tǒng)中,網(wǎng)絡(luò)的性能直接影響整個系統(tǒng)的實際運算能力。目前市場上主要有三種高性能計算網(wǎng)絡(luò):千兆以太網(wǎng)、Myrinet和Infiniband。應(yīng)該根據(jù)用戶的預(yù)算和系統(tǒng)規(guī)模進(jìn)行選擇。24節(jié)點以下,一般推薦采用千兆以太網(wǎng),性價比較好,而且所有計算軟件都支持;如果節(jié)點數(shù)在32節(jié)點以上,可以考慮帶寬和延遲都更低的Myrinet和Infiniband,但同時必須考慮到用戶是否購買了支持這兩種網(wǎng)絡(luò)的軟件版本。
4.3 兼顧隱式和顯式分析的解決方案
用戶常常需要同時進(jìn)行顯式和隱式有限元分析,比如高校計算中心,因此在方案中需要兼顧兩種不同應(yīng)用模式。我們需要在方案中綜合SMP和DMP兩種系統(tǒng)架構(gòu),因此推薦采用2路節(jié)點和4/8路節(jié)點共同組成的集群系統(tǒng)。
該方案具有以下優(yōu)勢:
1)兼顧隱式和顯式兩方面的應(yīng)用需求。
集群系統(tǒng)中的2路節(jié)點,主要用于顯式分析,4/8路節(jié)點,主要用于隱式分析,這樣兩種節(jié)點搭配的方案可以充分滿足不同應(yīng)用軟件 的需求,達(dá)到較好的性價比。
2)所有節(jié)點都是基于x86_64架構(gòu)。
集群系統(tǒng)中的所有節(jié)點,無論是2路的A610r-F,還是8路的A950 r-F,都是基于x86_64架構(gòu),并且可以安裝完全相同的操作系統(tǒng)和應(yīng)用軟件,避免了RISC架構(gòu)帶來的硬件平臺、操作系統(tǒng)和應(yīng)用軟件不同帶來的不一致性。
3)所有節(jié)點可以協(xié)同工作。
集群系統(tǒng)中的所有節(jié)點具有同樣的軟硬件結(jié)構(gòu),因此必要的時候,同樣可以通過交換機實現(xiàn)協(xié)同工作,對大規(guī)模問題進(jìn)行并行求解。
4.4 解決方案小結(jié)
CAE解決方案需要充分考慮
解決方案小結(jié)
五、成功案例
曙光在高性能計算以及CAE領(lǐng)域的發(fā)展已有多年,技術(shù)涉及結(jié)構(gòu)分析、碰撞、流體分析、噪音/震動分析等領(lǐng)域,應(yīng)用于汽車、輪船、飛機、橋梁、化工行業(yè)和醫(yī)療設(shè)備的設(shè)計環(huán)節(jié)。
汽車的懸掛系統(tǒng)(1*A950,4500萬自由度,線性靜力分析,ANSYS 11.0,DPCG求解器)
柴油發(fā)動機的裝配(1*A950,2750萬自由度,熱-結(jié)構(gòu)耦合、非線性分析,ANSYS 11.0,DPCG求解器)
|
上一篇:曙光PHPC生物計算解決方案
下一篇:沒有了