Alphafold2蛋白質結構預測AI工作站配置推薦24v1
價格變更日期:2024/01/05(2024年第1季度),
變更原因:GPU部分價格變化,CPU部分升級換代
目錄
AlphaFold2計算特點
蛋白質三維結構預測AI工作站配置推薦
蛋白質三維結構預測AI集群配置推薦
蛋白質三維結構預測是一項計算量非常巨大的任務,科學家多年的探索研究,形成了X射線晶體學法、核磁共振法、冷凍電鏡等
2021年底,谷歌的DeepMind團隊的采用人工智能方法的AlphaFold2算法在生物界引起了極大的轟動,它能準確地預測蛋白質的結構,AlphaFold2是當今預測蛋白質3D結構的最強工具。它將被大量用于推動世界蛋白質研究向前發(fā)展.
AlphaFold2在國際蛋白質結構預測競賽(CASP14)上精確地基于氨基酸序列預測蛋白質的3D結構。其準確性可以與使用冷凍電子顯微鏡(CryoEM)、核磁共振或 X 射線晶體學等實驗技術解析的3D結構相媲美,
目前情況(大致統(tǒng)計):
(1)Deepmind開源了AlphaFold2的源代碼(推理部分)
(2)華盛頓大學開源了RoseTTRFold的源代碼(推理部分)
(3)深勢科技復現(xiàn)了AlphaFold的訓練部分,并開源代碼(訓練和推理)
(4)上海天壤智能科技有限公司復現(xiàn)了TRfold訓練部分和推理部分
(5)上海交大對AlphaFold2的推理代碼進行了優(yōu)化(推理并行版)
(一)AlphaFold2蛋白質結構預測計算特點
如何配置好硬件,最快速度完成訓練、推理計算,首先分析其計算過程以及算法特點
圖1 Alphafold2計算示意圖
環(huán)節(jié)1 數(shù)據(jù)處理-序列特征生成計算特點
(圖片2來源:上海交大alphafold2并行優(yōu)化版)
計算過程
總輸入單個蛋白質序列FASTA格式(推理);
通過搜索工具(jackHMMER/HHblits)分別對多個遺傳數(shù)據(jù)庫--執(zhí)行隱馬爾可夫模型的搜索生成MSA(序列-殘基);見圖1
搜索的結構和序列產(chǎn)生的Pairing信息(殘基-殘基);
通過HHsearch搜索的Template
計算與硬件配置分析
數(shù)據(jù)庫搜索過程涉及數(shù)據(jù)庫密集I/O讀寫,數(shù)據(jù)放到高速SSD硬盤上,數(shù)據(jù)量累積超過2TB,非常耗時,加速手段提升CPU計算速度。
硬件配置
CPU計算為主,內存要夠大,或配備NVME SSD固態(tài)卡,容量4TB以上
環(huán)節(jié)2 神經(jīng)網(wǎng)絡預測計算特點
(圖片來源:上海交通大學 https://parafold.sjtu.edu.cn/docs/quick-start/)
計算過程
利用多序列比對(MSA),把蛋白質的結構和生物信息整合到深度學習算法中,主要包括:神經(jīng)網(wǎng)絡EvoFormer和結構模塊(Structure module).
在EvoFormer中,主要是將圖網(wǎng)絡(Graph networks)和多序列比對(MSA)結合完成結構預測,Alphafold2使用Transformer結構,不管是MSA還是殘基-殘基對的信息更新都使用了Attention機制,結構模塊的更新使用了三角法則,簡化了計算的復雜度,準確率也提高了不少.
結構模塊(Structure Module)主要工作是將EvoFormer得到的信息轉換為蛋白質3D結構.
整個模型的Evoformer和Structure module部分都使用了Recycling,即將輸出重新加入到輸入在重復refinement,進行信息的精煉.
計算特點
上述計算過程用GPU更合理,對GPU要求是高顯存帶寬、大容量顯存、大蛋白質計算通過將多GPU卡設置統(tǒng)一內存架構,大的顯存可支持更大的計算數(shù)據(jù)存放
計算架構分析匯總
No |
主要環(huán)節(jié) |
任務分類 |
計算時間占總求解時間比例 |
計算特點 |
配置方案 |
1 |
序列特征生成 |
(a)多序列比對 (b)模板搜索 |
計算時間占總計算時間的大約60% |
CPU計算 有限多核
|
高頻CPU加速 4TB容量的NVME SSD盤 |
2 |
神經(jīng)網(wǎng)絡預測 |
(c)模型預測 (d)AMBER優(yōu)化 |
計算時間占總計算時間的大約40% |
單GPU計算(推理) 多GPU計算(訓練)
|
顯存容量大,支持更長序列蛋白計算(最大長度1500,大于300個殘基) 多卡統(tǒng)一內存模式 |
#p#page_title#e#
(二)蛋白質結構預算AI工作站配置推薦2024v1
西安坤隆計算機科技有限公司專注于工作站專業(yè)應用,對每個應用的計算過程研究分析,給出精準高效、高可靠計算架構和專業(yè)系統(tǒng)優(yōu)化,以及穩(wěn)定的技術支持,保證與應用軟件90%以上的匹配吻合,和長期穩(wěn)定運行.
硬件配置具有以下特點:
1)配備CPU規(guī)格均以高頻為主,兼顧足夠CPU核數(shù),這樣保證數(shù)據(jù)預處理(最慢的環(huán)節(jié)),計算時間大幅縮短,GPU卡采用單精度指標高的、顯存容量大的,保證神經(jīng)預測計算加速,滿足AlphaFold2的理想的配置方案
2)整機的cpu、gpu、硬盤配置,滿足AlphaFold2推理(包括上海交大并行版)計算要求,均衡無死角,性能最大化;
3)為深勢科技的Uni-Fold訓練、推理模塊提供理想配置架構;
4)每個配置機器做到即開即用,并提供硬件+優(yōu)化+穩(wěn)定高速運行技術支持服務
5)支持大規(guī)模的計算擴展應用需求
2.1 蛋白質結構預測工作站配置參考24v1
NO
品牌與型號
配置規(guī)格
價格
1
GA330i 15764-MCT
intel 14代高頻處理器(共計24核,8核@5.7GHz,16核@4.2GHz /64GB DDR5/ RTX4090 24GB /960GB SSD/3.84TB PCIe.SSD/6TB SATA企業(yè)級/微塔式(1500w)/24寸-2K顯示器
56000
AF2推理型
2
GA330i 157128-MCE
intel 14代高頻處理器(共計24核,8核@5.7GHz,16核@4.2GHz /128GB DDR4/A6000 48GB/960GB SSD/3.84TB PCIe.SSD/8TB SATA企業(yè)級/微塔式(1500w)/24寸-2K顯示器
81000
AF2推理頂配型
3
EX650i 228192-MCT
2*Xeon 銀4316處理器(共計40核,2.8GHz~3.4GHz) /192GB DDR4 /A6000 48GB/960GB SSD /3.84TB PCIe.SSD/8TB SATA企業(yè)級/微塔式(1500w)/24寸-2K顯示器
86500
并行優(yōu)化加速型
4
GX650M 228192-MC2T
2*Xeon 銀4316處理器(共計40核,2.8GHz~3.4GHz) /192GB DDR4 /2*RTX4090 24GB/480GB SSD /3.84TB PCIe.SSD/16TB SATA企業(yè)級/微塔式(1500w)/24寸-2K顯示器
112000
多任務高速型
5
GX650M 228256-MC2E
2*Xeon 銀4316處理器(共計40核,2.8GHz~3.4GHz)/256GB DDR4/2*A6000 48GB/1TB SSD /3.84TB PCIe.SSD/16TB SATA企業(yè)級/微塔式(1500w)/24寸-2K顯示器
149990
多任務大規(guī)模計算型
6
GX650M 228512-MC4T
2*Xeon 銀4316處理器(共計40核,2.8GHz~3.4GHz)/512GB DDR4 /4*RTX4090 24GB /1TB SSD /7.68TB PCIe.SSD/16TB SATA企業(yè)級/雙塔式(2000w)/24寸-2K顯示器
197000
多任務高速加強型
7
GX650M 231384-MC4E
2*Xeon 金6326處理器(共計32核,3.1GHz )/384GB DDR4/4*A6000 48GB /1TB SSD /7.68TB PCIe.SSD /2*16TB SATA企業(yè)級/雙塔式(2000w)/24寸-2K顯示器
285000
全能加速型
8
GX650M 231768-MC6E
2顆Xeon 金6342處理器(共計48核,3.1GHz)/768GB DDR4/6*A6000 48GB /2TB SSD/7.68TB PCIe.SSD /2*18TB SATA企業(yè)級/雙塔式(2000w)/24寸-2K顯示器
399990
推理/訓練多任務高速型
9
GX650M 2351T-MC8E
2顆Xeon 鉑金8358處理器(共計64核,3.5GHz)/1TB DDR4/8*A6000 48GB /2TB SSD/15.36TB PCIe.SSD /2*18TB SATA企業(yè)級/雙塔式(2000w)/24寸-2K顯示器
580000
推理/訓練極致型
2.2 AlphaFold訓練集群配置參考23v1
集群技術特點
(1)本集群是由高頻服務器、GPU計算服務器、管理服務器、并行存儲服務器組成。
(2)集群硬件配置每個環(huán)節(jié)都基于人工智能預測蛋白質三維結構算法最快優(yōu)化設計。
(3)【高頻服務器】采用有限多核高頻CPU、高速NVME SSD用于密集海量序列比計算,計算性能和io讀寫性能完美匹配高效,支持多個單核計算或2個以上并行版的比對軟件同步計算。
(4)【GPU計算服務器】配備最新Xeon3代處理器,32核+8塊RTX A6000 48GB,cpu頻率和pcie 4.0 x16是蛋白質折疊人工智能并行計算最理想架構。
(5)作業(yè)調度軟件針對蛋白質預測元計算兩個主要環(huán)節(jié):序列比對計算(CPU有限多核計算環(huán)節(jié))、人工智能預測(GPU多卡并行計算環(huán)節(jié)),
序列比對計算環(huán)節(jié)--調用【高頻服務器】處理,
蛋白質結構預測計算環(huán)節(jié)--調用多臺【GPU服務器】并行計算。
(6) 集群性能從硬件架構、作業(yè)調度系統(tǒng)均比常規(guī)集群性能達到極致,全新改寫的作業(yè)調度系統(tǒng),比市面上的作業(yè)調度系統(tǒng)效率更高。
方案1 蛋白質智能預測集群方案(40塊GPU卡)
NO |
型號 |
技術規(guī)格 |
數(shù)量 |
單價 |
小計 |
1 |
序列比對服務器 |
intel 14代超頻處理器 (共計24核,8核@5.7GHz,16核@4.2GHz)/192GB DDR5/960GB/4U機架式(650w)/25GbE網(wǎng)口 |
1 |
28000 |
28000 |
2 |
GPU超算服務器 |
2顆Xeon 銀4314處理器 (32核@3.5GHz)/512GB/8塊A6000 /960GB/4U機架式(2000w 2+2冗余/100GbE網(wǎng)口 |
5 |
450000 |
2250000 |
3 |
并行存儲服務器 |
2顆Xeon 銀4314處理器 (24核@2.1GHz)/128GB /960GB /45TB高速緩存盤(全閃存陣列,讀20GB/s、寫11GB/s)/252TB并行存儲(雙通道)/4U機架式(1200w 1+1冗余/100GbE網(wǎng)口 |
1 |
165000 |
165000 |
4 |
管理服務器 |
2顆Xeon 銀4210 /128GB /RTX A2000/1.92TB/2U機架式/千兆 |
1 |
32000 |
32000 |
5 |
計算交換機 |
MSN2010 4*100G/18*25G,2U機架式 |
1 |
45000 |
45000 |
6 |
管理交換機 |
24口千兆,1U機架式 |
1 |
2800 |
2800 |
7 |
KVM切換器 |
16口 VGA,1U機架式 |
1 |
1800 |
1800 |
8 |
機柜 |
42U |
1 |
5500 |
5500 |
9 |
集群系統(tǒng) |
UltraLAB PSS作業(yè)調度管理軟件(5節(jié)點) |
1 |
50000 |
50000 |
|
|
|
|
|
|
|
合計 |
|
¥2,580,100元 |
方案2 蛋白質智能預測集群方案(80塊GPU卡)
NO |
型號 |
技術規(guī)格 |
數(shù)量 |
單價 |
小計 |
1 |
序列比對服務器 |
Xeon W7-2465X超頻處理器 (共計28核4.8GHz)/256GB DDR5/960GB/4U機架式(850w) /25GbE網(wǎng)口 |
1 |
63000 |
63000 |
2 |
GPU超算服務器 |
2顆Xeon 銀4314處理器 (32核@3.5GHz)/512GB/8塊A6000 /960GB/4U機架式(2000w 2+2冗余/100GbE網(wǎng)口 |
10 |
450000 |
4500000 |
3 |
并行存儲服務器 |
2顆Xeon 銀4314處理器 (24核@2.1GHz)/128GB /960GB /45TB高速緩存盤(全閃存陣列,讀20GB/s、寫11GB/s)/252TB并行存儲(雙通道)/4U機架式(1200w 1+1冗余/100GbE網(wǎng)口 |
1 |
165000 |
165000 |
4 |
管理服務器 |
2顆Xeon 銀4210 /128GB /RTX A2000/1.92TB/2U機架式/千兆 |
1 |
32000 |
32000 |
5 |
計算交換機 |
MSN2010 4*100G/18*25G,2U機架式 |
1 |
45000 |
45000 |
6 |
管理交換機 |
24口千兆,1U機架式 |
1 |
2800 |
2800 |
7 |
KVM切換器 |
16口 VGA,1U機架式 |
1 |
1800 |
1800 |
8 |
機柜 |
42U |
2 |
5500 |
5500 |
9 |
集群系統(tǒng) |
UltraLAB PSS作業(yè)調度管理軟件(10節(jié)點) |
1 |
100000 |
100000 |
|
|
|
|
|
|
|
合計 |
|
¥4,920,600元 |
參考資料:
AlphaFold2 https://github.com/deepmind/alphafold/
上海交大 AlphaFold再HPC平臺的部署和優(yōu)化
https://parafold.sjtu.edu.cn/docs/quick-start/
PombertLab/3DFI
https://github.com/PombertLab/3DFI
上述所有配置,代表最新硬件架構,同時保證是最完美,最快,如有不符,可直接退貨
欲咨詢機器處理速度如何、技術咨詢、索取詳細技術方案,提供遠程測試,請聯(lián)系
UltraLAB圖形工作站供貨商:
西安坤隆計算機科技有限公司
國內知名高端定制圖形工作站廠家
業(yè)務電話:400-705-6800
咨詢微信號: