核數(shù)越多越快?別幻想了,看看工作站虛擬集群計算技術(shù)
(一) 100核以上仿真計算面臨的問題
隨著計算機(jī)硬件的不斷更新?lián)Q代, 圖形工作站的CPU核數(shù)會越來越多,目前情況:
圖形工作站配置
No
主要廠家
配置與核數(shù)
1
Intel Xeon
2顆Xeon 鉑金8592+ à 128核
4顆 Xeon 鉑金8480H à 240核
2顆Xeon6 P系列 à 256核
2
AMD EPYC
2顆AMD EPYC 9684X à 192核
2顆AMD EPYC 9865 à 384核
3
CPU未來
超過512核,甚至1000核…
實際情況是,CAE仿真計算、科學(xué)計算、計算化學(xué)等應(yīng)用軟件,仿真計算的多核并行基本都是有限多核的:
結(jié)構(gòu)靜力仿真,多核并行36~56核最快,
結(jié)構(gòu)動態(tài)仿真,多核并行48~120核最快
流體仿真,多核并行48~160核最快
電磁仿真頻域算法,多核并行28~64核最快
多物理場耦合,多核并行8~48核最快
光子器件仿真計算,多核并行32~48核最快
光學(xué)設(shè)計仿真,多核并行8核~64核最快
油藏模擬,多核并行16~32核最快
量子化學(xué)計算,多核并行8~48核最快
…
大量測試表明,大部分仿真軟件,CPU核數(shù)超出一定范圍,反倒慢,
GPU是否可以更快?
分析:
CAE仿真計算主要是有限元分析算法,其CPU和GPU計算最新硬件配置:
No |
計算特點 |
配置推薦 |
CPU計算 |
GPU計算 |
1 |
計算密集 |
CPU算力強(qiáng) |
1顆AMD 7995WX(96核)-7.3TFlops 2顆AMD 9684X(192核)-10.5Tflops 4顆Xeon 8490H(240核)-11Tflops 2顆AMD 9865(384核)-18Tflops |
2塊A100 雙精度FP64浮點18TFlops/ 單精度F32 38TFlops |
2 |
計算量大 |
大容量內(nèi)存 |
1顆Xeon W3400/AMD銳龍PRo,最大512GB 2顆AMD EPYC,最大1.5TB 4顆Xeon4代,最大6TB |
單卡顯存最大80GB 4塊卡 320GB 8塊卡 640GB |
3 |
反復(fù)迭代 |
高內(nèi)存帶寬 |
CPU-內(nèi)存 1顆Xeon W9-3475X,8通道,307GB/s 2顆AMD EPYC 9684X,24通道,921GB/s 4顆Xeon 8460H,32通道,1228GB/s |
PCIe 4.0 x16 32GB/s |
4 |
高io |
高速緩存盤 |
中間計算結(jié)果回寫,閃存陣列(讀23GB/s、寫11GB/s) |
|
5 |
高io |
|
100G(帶寬12.5GB/s)/200G(帶寬25GB/s) |
GPU浮點計算很強(qiáng)大,GPU架構(gòu)決定數(shù)據(jù)計算必須放到顯存里,如果反復(fù)迭代計算,效率會很差(因為顯存--內(nèi)存帶寬,只有32GB/s,pcie 4.0 x16帶寬),顯存容量不超過80GB,計算規(guī)模上去后,無法算(顯存不夠),
CPU數(shù)據(jù)規(guī)模大,內(nèi)存容量充足,CPU-內(nèi)存之間帶寬遠(yuǎn)大于顯卡-顯存之間帶寬,大部分計算,用GPU加速不可行,還得靠CPU,但核數(shù)超過100個以上,并行計算效率不高,怎么辦?
如何讓CPU(100核以上)更好的發(fā)揮多核能效? 如何充分調(diào)用CPU核數(shù),提升整機(jī)仿真計算速度?
(二)UltraLAB PCA(虛擬集群計算)介紹
西安坤隆計算機(jī)科技有限公司專注高性能計算應(yīng)用,多年應(yīng)用與研究和大量測試,推出的PCA(Parallel Computing Accleration suite,并行計算加速模塊),以虛擬集群計算方式,可大幅提升CPU的使用率,讓仿真計算求解再次提升
PCA模塊介紹
將圖形工作站CPU(100核以上),虛擬出多臺機(jī)器(每臺配備根據(jù)軟件并行計算的最佳核數(shù)/內(nèi)存容量),然后再并行計算,相當(dāng)于多臺物理機(jī)(虛擬集群)并行計算,充分利用軟件算法特點和機(jī)器硬件配置架構(gòu),把一臺機(jī)器變成多臺機(jī)器并行計算性能,大幅提升整機(jī)仿真計算速度。
對于很多CAE仿真用戶來說,選購圖形工作站,配備最新計算架構(gòu)+合理硬件配置+計算加速工具,這樣最大化地發(fā)揮硬件性能,運(yùn)行仿真軟件。
應(yīng)用實例:
用于ANSYS EM的仿真求解,典型機(jī)型Alpha750(4顆Xeon 8360H,共計96核@3.8GHz),合理虛擬出3臺邏輯工作站(每臺28核/128GB)如下圖所示:
圖3 Ansys EM compute resources設(shè)置
圖4 提交工程進(jìn)行并行計算
使用者通過UltraLAB PCA套件,一臺超級圖形工作站,虛擬出3臺或更多臺高性能工作站,對ANSYS軟件進(jìn)行并行仿真計算。
PCA能夠充分利用ANSYS軟件以及計算工作站百核算力資源,進(jìn)行仿真計算作業(yè)調(diào)度和分配。
圖5 測試結(jié)果
從圖5匯總結(jié)果,超級工作站借助PCA工具,求解速度提升3倍以上,
PCA套件解決了100核以上CPU無法完美發(fā)揮的缺陷,讓圖形工作站的100多核的最大算力展現(xiàn),1臺機(jī)器變成多臺機(jī)器并行計算能力。
PCA面向CAE仿真計算/科學(xué)計算/計算化學(xué)等行業(yè),為其提供超級計算能力,同時具備后臺計算資源和完善友好的作業(yè)提交管理界面,支持多用戶多作業(yè)并發(fā)提交與管理。也支持雙機(jī)擴(kuò)展計算能力。
PCA應(yīng)用
PCA套件為仿真計算CAE、科學(xué)計算、計算化學(xué)帶來如下的價值:
ü 基于Windows計算平臺,讓完全不熟悉Linux或集群的客戶無技術(shù)屏障,更易使用;
ü 支持多用戶共享使用,共享軟件資源和硬件資源;
ü 支持更大范圍的應(yīng)用軟件的并行加速應(yīng)用;
ü 沒有集群系統(tǒng)維護(hù)繁瑣,沒有額外費(fèi)用,不需要專門的系統(tǒng)管理員;
PCA支持應(yīng)用軟件列表
No |
軟件類別 |
軟件名稱 |
1 |
結(jié)構(gòu)仿真 |
ANSYS Mechanical、ANSYS AutoDYN、ANSYS LS-Dyna 、Abaqus、MSC Nastran |
2 |
流體仿真 |
ANSYS CFX、ANSYS Fluent、StarCCM+ |
3 |
多物理場耦合 |
Comsol Multiphysics、ANSYS Multiphysics |
4 |
電磁仿真 |
ANSYS HFSS、ANSYS Maxwell、FEKO、CST Studio Suite,StarCD |
5 |
科學(xué)計算 |
MatLAB |
6 |
計算化學(xué) |
量子化學(xué)、分子動力模擬 |
7 |
開源類 |
基于開源MPI仿真計算程序 |
PAC運(yùn)行環(huán)境
No |
設(shè)備類 |
技術(shù)規(guī)格 |
1 |
關(guān)鍵硬件 |
GX660M(2顆Xeon5代,最大128核) GA660M(2顆霄龍4代,最大192核) Alpha760(4顆Xeon4代H系列,最大240核) GX670M(2顆Xeon6 P系列,最大256核) GA660M(2顆霄龍5代,最大384核) |
2 |
操作系統(tǒng) |
Windows2019及以上版本、Linux版本 |
3 |
客戶端 |
Win7,Win10 |
虛擬集群計算工作站配置推薦2024v2
No |
品牌與型號 |
配置規(guī)格 |
價格 |
備注 |
1 |
EA660i 2311T-PFC |
2顆AMD EPYC 9654處理器(192核@3.1GHz)/1.5TB DDR5 /A4000 16GB /1.92TB SSD/ 2塊8TB NVME(高速盤)/18TB SATA企業(yè)級/塔式(1500w)/27寸-4K圖顯 |
193000 |
超值型, 支持PCA 1變4加速 |
2 |
GA660M 2341T-P23TC |
2顆AMD EPYC 9684X處理器(192核@3.4GHz,大緩存)/1.5TB DDR5 /A4000 16GB /1.92TB SSD/ 23TB 閃存陣列(高速盤)/20TB SATA企業(yè)級/雙塔式(2000w)/27寸-4K圖顯 |
258000 |
高速增強(qiáng)型,支持PCA 1變4加速 |
3 |
GX660M 2291T-P11TB |
2顆Xeon鉑金8592+(128核@2.9GHz)/ 1TB DDR5 /A2000 6GB/1.92TB SSD/ 11TB 閃存陣列(高速盤)/20TB SATA企業(yè)級/雙塔式(2000w)/27寸-4K圖顯 |
360000 |
全能型, 支持PCA 1變3加速 |
4 |
Alpha760 4311T-P23TC |
4顆Xeon鉑金8460H(160核@3.1GHz)/ 1.5TB DDR5 /A4000 16GB/1.92TB SSD/ 23TB 閃存陣列(高速盤)/20TB SATA企業(yè)級/雙塔式(2000w冗余)/27寸-4K圖顯 |
499990 |
完美型, 支持PCA 1變4加速 |
5 |
Alpha760 4302T-P23TC |
4顆Xeon鉑金8468H(192核@3.0GHz)/ 2TB DDR5 /A4000 16GB/1.92TB SSD/ 23TB 閃存陣列(高速盤)/2*20TB SATA企業(yè)級/雙塔式(2000w冗余)/27寸-4K圖顯 |
585000 |
完美高效型,支持PCA 1變4加速 |
6 |
Alpha760 4293T-P23TC |
4顆Xeon 鉑金8490H(240核@2.9GHz~3.5GHz)/ 3TB DDR5 /A4000 16GB /1.92TB SSD /23TB 閃存陣列(緩存盤)/2*20TB SATA企業(yè)級/雙塔式(2000W冗余) /27寸-4K圖顯 |
720000 |
虛擬集群計算極致型, 支持PCA 1變5加速 |
備注: 上述所有配置,代表最新硬件架構(gòu),同時保證是最完美,最快,但仿真軟件差異很大,不同算法不同求解器,有的軟件對上述配置并行支持效率很高,也有的并行支持很差,為此我們提供了三種解決方案,滿足各種算法特點
1.超頻仿真計算解決方案,詳見:http://www.jiu-hong.com/article/147/2806.html
2.虛擬集群計算方案,本文方案
3.分布式集群仿真計算方案,詳見:http://www.jiu-hong.com/news/html/?2499.html
欲咨詢機(jī)器處理速度如何、技術(shù)咨詢、索取詳細(xì)技術(shù)方案,提供遠(yuǎn)程測試,請聯(lián)系
UltraLAB圖形工作站供貨商:
西安坤隆計算機(jī)科技有限公司
國內(nèi)知名高端定制圖形工作站廠家
業(yè)務(wù)電話:400-705-6800
咨詢微信號: