解析地球上最快的超級(jí)計(jì)算機(jī)——JAGUAR
2009年11月17日,最新一期全球高性能計(jì)算系統(tǒng)TOP500榜單在美國(guó)波特蘭市發(fā)布,Cray代號(hào)為“Jaguar”(美洲虎)XT5超級(jí)計(jì)算機(jī)擊敗IBM代號(hào)為“Roadrunner”(走鵑)超級(jí)計(jì)算機(jī),成功摘得TOP500第一名桂冠。
Jaguar的Petascale級(jí)計(jì)算
安裝在Oak Ridge Leadership Computing Facility (OLCF)代號(hào)為“Jaguar”的Cray XT5超級(jí)計(jì)算機(jī)是全球用于不分類(lèi)研究的最快超級(jí)計(jì)算機(jī),速度峰值可以達(dá)到2.33 petaflops。Jaguar可以仿真具有超高速度和精確度的物理系統(tǒng)——從天體爆炸到事物結(jié)構(gòu)塊,它將OLCF推向了petascale甚至更高的時(shí)代。
在2009年上半年,OLCF開(kāi)始了向petascale級(jí)科研超級(jí)計(jì)算未知領(lǐng)域的探索,邀請(qǐng)全球28家領(lǐng)先研究團(tuán)隊(duì)參與了一項(xiàng)歷時(shí)6個(gè)月、使用Jaguar的早期petascale科研項(xiàng)目。這些研究團(tuán)體使用超過(guò)3.55億個(gè)處理器小時(shí),在氣候科學(xué)、化學(xué)、材料科學(xué)、核能、物理、生物能源、天體物理學(xué)、地球科學(xué)、核聚變和燃燒等領(lǐng)域有了突破性的科學(xué)發(fā)現(xiàn)。這些研究包括超高清的氣候模型、從古老的地下礦藏流向哥倫比亞河流入的鈾量計(jì)算、以及關(guān)于通過(guò)干擾從植物中提取乙醇的深度研究。
2009年即將結(jié)束,OLCF將繼續(xù)在計(jì)算密集研究領(lǐng)域占據(jù)領(lǐng)先地位。Jaguar升級(jí)采用6核處理器之后將XT5的計(jì)算內(nèi)核總數(shù)增加到224526個(gè),它采用InfiniBand網(wǎng)絡(luò)在升級(jí)的XT5組件中整合了XT4組件,計(jì)算內(nèi)核總數(shù)超過(guò)255000個(gè)。憑借極高的速度、內(nèi)存、磁盤(pán)和網(wǎng)絡(luò)帶寬,Jaguar將再一次向全球的研究者、工程師和計(jì)算科研人員提供并行計(jì)算能力
技術(shù)規(guī)格之剖析Jaguar Jaguar系統(tǒng)包括8個(gè)Cray XT4系統(tǒng)機(jī)柜和200個(gè)升級(jí)的Cray XT5機(jī)柜,均采用6核處理器。XT4每個(gè)節(jié)點(diǎn)的內(nèi)存容量為8GB,而XT5每個(gè)節(jié)點(diǎn)內(nèi)存容量為16GB,在機(jī)柜系統(tǒng)內(nèi)為用戶提供總共362TB的高速內(nèi)存。兩個(gè)系統(tǒng)都通過(guò)Scalable I/O Network (SION)連接起來(lái)并與Spider文件系統(tǒng)相連接。XT5系統(tǒng)有256個(gè)服務(wù)和I/O節(jié)點(diǎn),向SION提供每秒240GB的帶寬,向外部網(wǎng)絡(luò)提供每秒200GB的帶寬。XT4有116個(gè)服務(wù)和I/O節(jié)點(diǎn),向SION提供每秒44GB的帶寬,向外部網(wǎng)絡(luò)提供每秒100GB帶寬。 XT4和XT5都有4個(gè)節(jié)點(diǎn)。XT4節(jié)點(diǎn)采用了一個(gè)AMD 4核皓龍1345“Budapest”處理器以及8GB DDR2-800內(nèi)存。XT5是XT4的雙倍密度版本,它的每個(gè)節(jié)點(diǎn)的處理能力、內(nèi)存和內(nèi)存帶寬分別是XT4的3.7倍和2倍。XT5節(jié)點(diǎn)采用了2個(gè)皓龍2435“Istanbul”處理器,與2個(gè)HyperTransport相連接,每個(gè)皓龍?zhí)幚砥髦苯舆B接8GB的DDR2-800內(nèi)存,最終就形成一個(gè)具有16GB共享內(nèi)存、處理性能最高125 gigaflops的2路12核的節(jié)點(diǎn)。 每個(gè)節(jié)點(diǎn)運(yùn)行Cray版本的SuSE Linux操作系統(tǒng)。Cray對(duì)Linux內(nèi)核進(jìn)行了調(diào)節(jié),去掉了計(jì)算節(jié)點(diǎn)中不必要的服務(wù)。這樣操作系統(tǒng)就將對(duì)系統(tǒng)中運(yùn)行的應(yīng)用節(jié)點(diǎn)的影響降至最低,因此提供了應(yīng)用程序可預(yù)測(cè)、可重復(fù)的運(yùn)行時(shí)間。節(jié)點(diǎn)上的SuSE Linux操作系統(tǒng)將系統(tǒng)服務(wù)、網(wǎng)絡(luò)軟件、通信、I/O和資料庫(kù),以及編輯器、調(diào)試器和性能工具結(jié)合起來(lái),形成Cray Linux環(huán)境。Jaguar支持MPI、OpenMP、SHMEM和PGAS編程模式。Oak Ridge Leadership Computing Facility (OLCF)在Jaguar上支持來(lái)自Cray、PGI、Pathscale以及GNU的編輯器。 Jaguar的功率密度最高可以達(dá)到大約每平方英尺1750瓦,所以不能采用某種水冷方法來(lái)管理散熱要求。XT5占地4400平方英尺,面積比一個(gè)NBA籃球場(chǎng)還要大。傳統(tǒng)的地下空氣散熱方法對(duì)這么大的數(shù)據(jù)中心和熱量負(fù)載來(lái)說(shuō)并不適用。Cray采用家用制冷和汽車(chē)空調(diào)中常用的R-134高溫制冷劑,首先調(diào)節(jié)入口空氣,然后隨著空氣進(jìn)入和退出每個(gè)機(jī)柜的時(shí)候去除熱量。最終形成一個(gè)高可靠的冷卻交付系統(tǒng),而且每年消耗的電力要比傳統(tǒng)強(qiáng)制空氣冷卻系統(tǒng)減少5%,也就是每年2.5M kW-h。另外每個(gè)機(jī)柜采用了480伏的電壓,并且盡可能縮短主交換主板與計(jì)算機(jī)柜之間的距離,以此來(lái)進(jìn)一步降低成本。#p#page_title#e# 技術(shù)規(guī)格之Spider文件系統(tǒng) 為了訪問(wèn)Spider,NCCS平臺(tái)配置了Lustre路由器。這些路由器允許計(jì)算機(jī)節(jié)點(diǎn)上Lustre客戶訪問(wèn)Spider,就好像存儲(chǔ)是在本地附加的一樣。其他所有Lustre組件將保留在Spider基礎(chǔ)架構(gòu)中,提供易于維護(hù)性、計(jì)算機(jī)平臺(tái)服務(wù)中斷情況下的可訪問(wèn)性以及能夠擴(kuò)展文件系統(tǒng)性能和容量的能力。 采用一個(gè)中央文件系統(tǒng)需要加強(qiáng)冗余和容錯(cuò)等特性。Spider設(shè)計(jì)可防止發(fā)生單點(diǎn)故障,因此最大限度上提高了可用性。通過(guò)利用Lustre文件系統(tǒng)的故障轉(zhuǎn)移對(duì),多個(gè)網(wǎng)絡(luò)路徑和彈性特點(diǎn),Spider提供了一個(gè)可靠的中央存儲(chǔ)解決方案。 Spider文件系統(tǒng)規(guī)格 以前的存儲(chǔ)系統(tǒng)只是簡(jiǎn)單地由高性能RAID組成,直接與計(jì)算平臺(tái)連接。而Spier則是一個(gè)大規(guī)模存儲(chǔ)集群。48 DDN S2A9900提供后端目標(biāo)存儲(chǔ),每秒帶寬超過(guò)240GB,13440個(gè)1TB硬盤(pán)提供了超過(guò)10PB的RAID6容量。用戶可通過(guò)192個(gè)戴爾雙路四核Lustre OSS服務(wù)器訪問(wèn)這個(gè)目標(biāo)存儲(chǔ),該服務(wù)器提供了超過(guò)14 teraflops的性能和3TB的RAM容量。每個(gè)目標(biāo)存儲(chǔ)服務(wù)器提供的每秒帶寬比文件系統(tǒng)級(jí)性能高出1.25GB。元數(shù)據(jù)被保存在2個(gè)LSI Engino 3992上,由3臺(tái)戴爾四路四核系統(tǒng)提供服務(wù)。這些系統(tǒng)通過(guò)可擴(kuò)展的I/O網(wǎng)絡(luò)進(jìn)行互連,為Spider提供了一個(gè)高性能背板。 技術(shù)規(guī)格之可擴(kuò)展I/O網(wǎng)絡(luò)SION 為了提供一個(gè)真正集成的計(jì)算設(shè)備,LCF部署了一個(gè)基于SION的SAN。SION是一種多階段的InfiniBand網(wǎng)絡(luò),連接所有NCCS平臺(tái)。SION提供了一個(gè)集成多個(gè)系統(tǒng)的背板,例如Jaguar、Spider、Lens(虛擬化集群)、Ewok(端對(duì)端生產(chǎn)力集群)、Smoky(應(yīng)用就緒集群)、HPSS和GridFTP服務(wù)器。通過(guò)提供多個(gè)系統(tǒng)之間的高性能連接,SION實(shí)現(xiàn)了Jaguar兩個(gè)部分之間的通信。另外還增加了在線虛擬化這樣的新功能,使得來(lái)自仿真平臺(tái)的數(shù)據(jù)能夠以極高的數(shù)據(jù)傳輸率發(fā)送向虛擬化平臺(tái)。 LCF部署完新平臺(tái)之后,SION將繼續(xù)擴(kuò)展提供一個(gè)集成的服務(wù)背板。SION將允許訪問(wèn)現(xiàn)有服務(wù)器,而不是在每次新部署過(guò)程中復(fù)制基礎(chǔ)架構(gòu)服務(wù),從而降低了總成本、提高可用性和縮短了從最初采購(gòu)到生產(chǎn)就緒的時(shí)間。 SION規(guī)格 SION是一種高性能InfiniBand DDR網(wǎng)絡(luò),提供超過(guò)每秒889GB的半分帶寬。半分網(wǎng)絡(luò)基礎(chǔ)架構(gòu)是基于3個(gè)288端口的思科7024D IB交換機(jī),一個(gè)交換機(jī)提供了一個(gè)聚合連接,另外兩個(gè)交換機(jī)提供了Jaguar兩個(gè)部分之間與Spider文件系統(tǒng)的連接性。第四個(gè)7024D交換機(jī)提供了與其他所有LCF平臺(tái)的連接性,并連接到一個(gè)聚合的交換機(jī)上。Spider通過(guò)48個(gè)24端口Flextronics IB交換機(jī)連接到核心交換機(jī),允許存儲(chǔ)直接從SION上尋址。附加的交換機(jī)提供了與其他LCF平臺(tái)的連接性。 LCF占用大約40000 ft2的升降地板面積,中心內(nèi)遍布平臺(tái)。為了解決如此大規(guī)模中心帶來(lái)的遠(yuǎn)距離需求,SION采用了長(zhǎng)達(dá)60米的Zarlink IB光學(xué)線纜。這種長(zhǎng)度的線纜可以實(shí)現(xiàn)雙層建筑之間的連接,這是銅纜無(wú)法做到的??偟膩?lái)說(shuō),SION配置了3000多個(gè)InfiniBand端口,超過(guò)3英里的光學(xué)線纜提供的高性能連接。#p#page_title#e# 技術(shù)規(guī)格之NCCS網(wǎng)絡(luò) OLCF有一個(gè)向DOE ESnet的直接連接,提供了一個(gè)高帶寬通道連接主中心與其他40多個(gè)DOE站點(diǎn),并且高速連接到100多個(gè)附加網(wǎng)絡(luò)。 OLCF還連接到Internet2網(wǎng)絡(luò)和NSF TeraGrid。Internet2為美國(guó)研究機(jī)構(gòu)和教育機(jī)構(gòu)提供了一個(gè)滿足他們帶寬密集需求的網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)是一個(gè)動(dòng)態(tài)、穩(wěn)定、具有成本效益的網(wǎng)絡(luò)。它采用了高速網(wǎng)絡(luò)架構(gòu),可為200多家教育機(jī)構(gòu)、企業(yè)、非營(yíng)利性組織和政府機(jī)構(gòu)處理全動(dòng)視頻和3D模擬。 OLCF的核心LAN網(wǎng)絡(luò)由2個(gè)思科6500路由器以及1個(gè)Force10 E1200路由器組成。這個(gè)核心網(wǎng)絡(luò)提供了用于交換機(jī)內(nèi)連接的100多個(gè)10Gb以太網(wǎng)端口,并且可以通過(guò)使用10Gb以太網(wǎng)直接連接到主機(jī)。NCCS則為那些對(duì)數(shù)據(jù)傳輸率要求較低的設(shè)備提供了1200多個(gè)千兆以太網(wǎng)端口。 網(wǎng)絡(luò)規(guī)格 ORNL擁有和管理他們自己?jiǎn)我荒J降墓饫w網(wǎng)絡(luò),提供從橡樹(shù)嶺、突尼斯到芝加哥、納什維爾和亞特蘭大的物理連接。ORNL使用Ciena Corporation Wave Division Multiplexing (WDM)設(shè)備貫通這一連接,使用思科和Juniper的核心路由器提供了到外部協(xié)同合作伙伴的連接。這種暗光纖基礎(chǔ)架構(gòu)讓ORNL可以快速且具有成本效益低在與合作伙伴的任何對(duì)等點(diǎn)之間實(shí)現(xiàn)10Gb甚至更高的速度。除此之外,ORNL還參與了“高級(jí)網(wǎng)絡(luò)計(jì)劃”(Advanced Networking Initiative),旨在實(shí)現(xiàn)多個(gè)DOE設(shè)施之間的100Gb廣域連接。 技術(shù)規(guī)格之歸檔存儲(chǔ)HPSS HPSS規(guī)格 HPSS基礎(chǔ)架構(gòu)包括28個(gè)戴爾生產(chǎn)服務(wù)器來(lái)作為ACSLS、用戶界面網(wǎng)絡(luò)和遷移工具(磁盤(pán)/磁帶)。磁帶存儲(chǔ)由2個(gè)STK PowderHorn智能磁帶庫(kù)和3個(gè)SUN SL8500磁帶庫(kù)組成。這些磁帶庫(kù)包括14個(gè)STK 9840磁帶庫(kù)、16個(gè)STK 9940磁帶驅(qū)動(dòng)器、24個(gè)SUN T10K-A磁帶驅(qū)動(dòng)器和32個(gè)SUN T10K-B磁帶驅(qū)動(dòng)器,總共30000個(gè)磁帶。HPSS磁盤(pán)層由4個(gè)DDN 9550組層,總共1500TB存儲(chǔ)容量,提供了對(duì)中小文件的高性能訪問(wèn),還可以作為針對(duì)更大文件的緩存機(jī)制。#p#page_title#e# 科學(xué)應(yīng)用 科學(xué)和Petascale計(jì)算 從探索新型能源到分析氣候動(dòng)態(tài)變化、再到調(diào)節(jié)蛋白質(zhì)功能,terascale系統(tǒng)是科學(xué)研究和問(wèn)題解決中一個(gè)必不可少的工具。Petascale設(shè)備提供在這些高級(jí)功能基礎(chǔ)上進(jìn)行擴(kuò)展、解決人類(lèi)最緊迫的問(wèn)題方面的能力是不可估量的。ORNL為科研機(jī)構(gòu)提供了全球最強(qiáng)的工具來(lái)解決最具挑戰(zhàn)性的難題。 在ORNL,全球用于未分類(lèi)研究的最快超級(jí)計(jì)算機(jī)將模擬極端氣候變化和全球變暖進(jìn)程。這項(xiàng)工作由威斯康辛大學(xué)的Zhengyu Liu和美國(guó)國(guó)家大氣研究中心Bette Otto-Bliesner負(fù)責(zé),提供了關(guān)于全球氣候變化根源和影響的珍貴數(shù)據(jù)。 Type Ia超新星是自然界中最大的熱核爆炸,遠(yuǎn)遠(yuǎn)超過(guò)太陽(yáng)和很多基本生命元素。關(guān)于這些爆炸星體最神秘的地方就在于其爆炸方式。加州大學(xué)圣塔克魯斯分校的Stan Woosley 和他的同事們?cè)贘aguar上運(yùn)行仿真流程,展示了Type Ia超新星的異步爆炸過(guò)程和這一過(guò)程對(duì)亮度的巨大影響。 Carbon-14的衰變速度遠(yuǎn)遠(yuǎn)慢于它的同位素,這讓研究人員可以根據(jù)植物或者生物的一部分追溯到60000年前。ORNL的David Dean帶領(lǐng)的科學(xué)小組正在利用Jaguar前所未有的超過(guò)計(jì)算能力來(lái)測(cè)量碳14核子。仿真過(guò)程可以幫助我們了解為什么這個(gè)同位素的半衰期如此長(zhǎng),幫助我們更好地了解事物的構(gòu)成。 Jeremy Smith和他的同事們使用JJaguar和Draken超級(jí)計(jì)算機(jī)來(lái)揭露纖維素的詳細(xì)工作方式。纖維素是一種讓樹(shù)葉、樹(shù)干和樹(shù)枝變硬的復(fù)雜碳水化合物。找到如何釋放糖亞基結(jié)構(gòu)的方法就可以利用植物來(lái)作為一種燃料。 很少有代碼要求比現(xiàn)有聚變微粒更快的I/O。例如,GTC和XGC-1是運(yùn)行在NCCS Jaguar Cray XT5超級(jí)計(jì)算機(jī)12000多個(gè)內(nèi)核上的。由于Scott Klasky和不同團(tuán)隊(duì)的合作,最近GTC的速度提高了兩倍,不僅可作為理想的基準(zhǔn)實(shí)例,還可用于生產(chǎn)模擬。 ORNL的Kate Evans所帶領(lǐng)的小組和美國(guó)國(guó)家大氣研究中心正在使用Jaguar超級(jí)計(jì)算來(lái)模擬氣候系統(tǒng)對(duì)火山爆發(fā)產(chǎn)生的浮塵的反應(yīng)。如果這個(gè)模型可以預(yù)測(cè)出該系統(tǒng)對(duì)浮塵(可能在大氣層存在數(shù)年時(shí)間)的反應(yīng),相信他們就可以預(yù)測(cè)出該系統(tǒng)對(duì)長(zhǎng)期人為排放的反應(yīng)。基于Lustre的文件系統(tǒng)Spider將渠道NCCS網(wǎng)絡(luò)上的多個(gè)文件系統(tǒng),形成一個(gè)統(tǒng)一的可擴(kuò)展系統(tǒng)。Spider提供了對(duì)來(lái)自NCCS所有平臺(tái)的億億級(jí)數(shù)據(jù)集的集中訪問(wèn)路徑,因此避免了數(shù)據(jù)孤島的出現(xiàn)。計(jì)算機(jī)和其他系統(tǒng)之間的文件傳輸將不再是必需的。例如,在Jaguar和虛擬化系統(tǒng)之間傳輸petascale數(shù)據(jù)集可能需要數(shù)小時(shí)時(shí)間,不僅占用了Jaguar的帶寬,而且還使得仿真進(jìn)程變得十分緩慢。取消文件傳輸將提高性能、便利性和降低成本。數(shù)據(jù)分析平臺(tái)將受益于Spider的高帶寬特點(diǎn),而無(wú)需在尖端存儲(chǔ)系統(tǒng)上投入大量資金。
OLCF的網(wǎng)絡(luò)功能與計(jì)算能力并行地進(jìn)行擴(kuò)展以確保精確且高速的數(shù)據(jù)傳輸。系統(tǒng)之間的高吞吐網(wǎng)絡(luò)以及ESnet與Internet2的升級(jí)連接可加速NCCS和其他機(jī)構(gòu)之間的數(shù)據(jù)傳輸率。
OLCF的歸檔數(shù)據(jù)存儲(chǔ)系統(tǒng)——高性能存儲(chǔ)系統(tǒng)(High Performance Storage System,HPSS)通過(guò)重要升級(jí)來(lái)確保高速可靠的存儲(chǔ)和petascale數(shù)據(jù)集找回。HPSS目前保存了7PB的數(shù)據(jù),而且每天還會(huì)增加40TB。數(shù)據(jù)存儲(chǔ)量每年翻一番,而增加的兩個(gè)petascale系統(tǒng)也要不斷升級(jí),保持HPSS這個(gè)petascale平臺(tái)每年增長(zhǎng)的需求。通過(guò)集成可以將HPSS與SION連接,允許與Spider無(wú)縫集成等新功能。這種集成將通過(guò)使用HPSS傳輸代理或者本地文件遷移工具等多種傳輸機(jī)制來(lái)實(shí)現(xiàn)來(lái)自Spider的數(shù)據(jù)輸入/輸出HPSS的極高數(shù)據(jù)傳輸率。
橡樹(shù)嶺超級(jí)計(jì)算機(jī)提供首個(gè)對(duì)極端氣候變化的模擬
ORNL超級(jí)計(jì)算機(jī)輔助超新星研究
生物和半衰期
從光合作用到燃料:新型燃料
聚變加快
火山爆發(fā)模型模擬極端氣候
Jaguar XT5圖片庫(kù)
最新的1.64-petaflop Cray XT Jaguar超級(jí)計(jì)算機(jī)采用了180000個(gè)處理器內(nèi)核,每個(gè)內(nèi)核本地內(nèi)存容量為2GB。ORNL的計(jì)算資源為科學(xué)家們提供高達(dá)2.5 petaflops的計(jì)算性能。 以下是NCCS petaflop Jaguar系統(tǒng)的圖片。關(guān)于最新的科學(xué)虛擬化圖片,請(qǐng)查看NCCS圖片庫(kù)。