峰值10萬億次的集群服務(wù)器系統(tǒng)挑戰(zhàn)計算化學苛刻應用
不久前,基于刀片集群的浪潮天梭TS10000高性能服務(wù)器成功中標山西師范大學的計算化學應用項目。這套國內(nèi)計算化學領(lǐng)域單臺計算能力最強的集群系統(tǒng),峰值達10.98萬億次每秒,是國內(nèi)計算化學領(lǐng)域單臺計算性能最強的高性能計算機,進入2009年國內(nèi)高性能計算TOP100排名。這套系統(tǒng)的全面投入使用,使學校各個實驗室的科研效率來了一次“大提速”。許多極具挑戰(zhàn)性的計算課題,從耗時幾個月的“持久戰(zhàn)”變成了幾天之內(nèi)解決戰(zhàn)斗的快速“閃電戰(zhàn)”。而對于山西師大這所具有50多年歷史的重點高校而言,在與兄弟院校的綜合實力比拼中,科學計算能力和科研效率的跳躍式提升。
計算瓶頸凸顯科研創(chuàng)新受制
山西師范大學創(chuàng)建于1958年,1984年更名為山西師范大學。建校以來,學校立足山西、服務(wù)全國、面向世界,秉承育人為本、崇尚學術(shù)的辦學理念,堅持創(chuàng)新教育、實踐教育的教育教學理念,現(xiàn)已發(fā)展成為學科門類比較齊全、培養(yǎng)體系比較完備、辦學特色比較鮮明、向社會全面開放的省屬重點師范大學。
山西師范大學在化學、材料領(lǐng)域擁有非常雄厚的實力,2005—2006年化學學科發(fā)表在世界化學類最高影響因子的論文在全國高校同類專業(yè)排名第16位。山西師范大學此次高性能系統(tǒng)主要用來做計算化學、材料科學方面的高性能計算工作,另外也為全校師生提供計算服務(wù),主要應用軟件是Gaussian、Materials Studio等量子化學軟件和一些其他計算軟件。
但隨著山西師大科研創(chuàng)新步伐的加快,海量的計算任務(wù)開始讓學?,F(xiàn)有的計算平臺“喘不過氣來”。為此,學校曾采購過一些小規(guī)模的計算集群,但隨著各院系、實驗室計算任務(wù)的不斷增加,新平臺又很快達到滿負荷狀態(tài)。許多大的計算任務(wù)由于排隊等待和計算速度的原因,經(jīng)常需要幾個星期甚至一兩個月的計算時間,由此造成的項目進度的滯后長期困擾著廣大師生和科研人員。構(gòu)建一套高性能、高可靠、高效率的大型計算平臺也隨之被提上了日程。
算例測試,看誰在鈴響前“交卷”?
作為國內(nèi)高性能計算領(lǐng)域的領(lǐng)導廠商,浪潮從一開始便參與到山西師大高性能系統(tǒng)的建設(shè)中。通過前期溝通,浪潮了解到,客戶的主要應用軟件是Materials Studio、Gaussian 03等計算化學軟件包。計算化學類軟件包,計算化學軟件種類眾多,不同軟件對于高性能服務(wù)器有個不同的要求,這就需要HPC廠商根據(jù)客戶的需要來搭建適合應用的HPC系統(tǒng)。
項目前期,客戶提出要以3個Gaussian軟件為測試算例,根據(jù)測試算例的分析和計算結(jié)果來決定方案。據(jù)了解,這三個算例是Gaussian軟件中最常用的三個算法,計算對象的化學結(jié)構(gòu)非常復雜,其中一個測試任務(wù)便包括20960個基函數(shù)(計算化學中一般體系的大小用總基組函數(shù)數(shù)量表示,基函數(shù)數(shù)目越多,表示計算的體系越大),要完成這個計算任務(wù),初步估計就需要1687.08GB的內(nèi)存容量和17947.78TB的存儲容量!如此大規(guī)模的計算任務(wù)對所有參測廠商的方案解決和硬件實現(xiàn)能力都是一次嚴峻的考驗。
浪潮高性能應用工程師憑借多年來在科學計算領(lǐng)域的深厚積累,對Gaussian算法的應用特點進行了深入鉆研,并從計算性能、效率、成本等多角度著眼,尋找最佳的解決方案。最終,經(jīng)過縝密的軟硬件選型和反復的調(diào)整優(yōu)化,浪潮應用測試報告率先完成,而這竟是唯一一份在在測試截止時間之前完成的報告。浪潮也憑借對客戶應用的深入理解和天梭TS10000高性能服務(wù)器的整體方案優(yōu)勢在本次招標中最后勝出。
對癥下藥量身定制
經(jīng)過前期對客戶算例的大量測試比較,浪潮摸清了山西師大本次計算平臺建設(shè)的應用需求,并以此為依據(jù)明確了天梭TS10000高性能系統(tǒng)的設(shè)計思路。
鑒于計算化學應用需要強大的浮點運算能力,并對計算節(jié)點有著大內(nèi)存、低功耗和協(xié)作程度高的要求,根據(jù)客戶的應用特點和前期測試結(jié)果,浪潮將計算模塊分為三類,即普通計算節(jié)點、厚節(jié)點和胖節(jié)點,分層次解決不同任務(wù)的計算需求。 #p#page_title#e#
其中,普通節(jié)點采用了110臺NX7100DB刀片??紤]到計算化學軟件計算過程中常會產(chǎn)生許多大容量的臨時文件,這款7U10刀的高性能刀片專門配置了500GB的3.5寸SATA硬盤,在存儲容量和速度上優(yōu)勢明顯;用10臺刀片組成的厚節(jié)點主要是來處理對運算速度有苛刻要求的大型計算任務(wù),專門配置高主頻高性能的處理器,配合每節(jié)點32GB內(nèi)存和Raid 5,使計算性能、I/O速度、數(shù)據(jù)安全都有了可靠保證;而對于一些對內(nèi)存容量要求很高的計算任務(wù),則用2臺四路六核NF560D2來承擔,采用英特爾® 至強® 7460 處理器,高達96GB的內(nèi)存容量,加上8TB的本地存儲容量和1+1+1全熱備冗余電源,能夠妥善解決計算化學軟件帶來的計算壓力。
這套浪潮TS10000共包括128個節(jié)點,1套20TB存儲盤陣,采用20Gbps全線速Infiniband網(wǎng)絡(luò)與計算節(jié)點實現(xiàn)高速互聯(lián),具有計算性能優(yōu)越、功耗控制領(lǐng)先、監(jiān)控管理系統(tǒng)方便易用、系統(tǒng)開放易于擴展、服務(wù)體系完善等特點。
經(jīng)過浪潮高性能工程師的方案調(diào)優(yōu),系統(tǒng)的計算能力峰值為10.98萬億次每秒,Linpack測試效率為0.806,進入09年國內(nèi)高性能計算TOP100排名,是國內(nèi)計算化學領(lǐng)域單臺計算性能最強的高性能計算機。
浪潮天梭TS10000系統(tǒng)的上線,使山西師范大學的計算化學研究獲得了起飛的平臺。以前需要幾個星期甚至一兩個月進行計算的任務(wù),現(xiàn)在縮短到了幾天時間。往常計算任務(wù)“塞車”,科研進度受拖累的現(xiàn)象隨之消除??蒲行实拇笞冞w正在推動山西師范大學的化學、材料科學研究向全國前十的目標邁進。
而對于浪潮而言,贏得此次項目,靠的不僅是浪潮優(yōu)異的產(chǎn)品、良好的服務(wù),更是靠浪潮在科學計算領(lǐng)域豐富的應用經(jīng)驗、業(yè)界領(lǐng)先的方案解決和本地化服務(wù)能力。
經(jīng)過多年實踐,浪潮的高性能團隊擁有了大批專業(yè)的HPC應用工程師、系統(tǒng)工程師。他們不僅在計算節(jié)點構(gòu)建、高速網(wǎng)絡(luò)交換方面積累了深厚的技術(shù)功底,還在HPC應用的專業(yè)領(lǐng)域,包括計算化學、材料化學、工程計算等方面擁有豐富的并行軟件開發(fā)、使用、調(diào)優(yōu)經(jīng)驗。這種技術(shù)專家與應用高手相結(jié)合的人員構(gòu)成,使浪潮的HPC解決方案能夠真正深入到行業(yè)應用中去,幫助行業(yè)用戶以較低的成本實現(xiàn)高效、可靠的高性能計算。此外,本地化的原廠級服務(wù)也是浪潮的一大特色。原廠工程師、高響應級別的技術(shù)服務(wù)支持,能夠保證系統(tǒng)故障在最短時間內(nèi)得到妥善解決,客戶由于技術(shù)故障造成的損失也隨之被降到了最低點。