解析地球上最快的超級計算機(jī)——JAGUAR
2009年11月17日,最新一期全球高性能計算系統(tǒng)TOP500榜單在美國波特蘭市發(fā)布,Cray代號為“Jaguar”(美洲虎)XT5超級計算機(jī)擊敗IBM代號為“Roadrunner”(走鵑)超級計算機(jī),成功摘得TOP500第一名桂冠。
Jaguar的Petascale級計算
安裝在Oak Ridge Leadership Computing Facility (OLCF)代號為“Jaguar”的Cray XT5超級計算機(jī)是全球用于不分類研究的最快超級計算機(jī),速度峰值可以達(dá)到2.33 petaflops。Jaguar可以仿真具有超高速度和精確度的物理系統(tǒng)——從天體爆炸到事物結(jié)構(gòu)塊,它將OLCF推向了petascale甚至更高的時代。
在2009年上半年,OLCF開始了向petascale級科研超級計算未知領(lǐng)域的探索,邀請全球28家領(lǐng)先研究團(tuán)隊參與了一項歷時6個月、使用Jaguar的早期petascale科研項目。這些研究團(tuán)體使用超過3.55億個處理器小時,在氣候科學(xué)、化學(xué)、材料科學(xué)、核能、物理、生物能源、天體物理學(xué)、地球科學(xué)、核聚變和燃燒等領(lǐng)域有了突破性的科學(xué)發(fā)現(xiàn)。這些研究包括超高清的氣候模型、從古老的地下礦藏流向哥倫比亞河流入的鈾量計算、以及關(guān)于通過干擾從植物中提取乙醇的深度研究。
2009年即將結(jié)束,OLCF將繼續(xù)在計算密集研究領(lǐng)域占據(jù)領(lǐng)先地位。Jaguar升級采用6核處理器之后將XT5的計算內(nèi)核總數(shù)增加到224526個,它采用InfiniBand網(wǎng)絡(luò)在升級的XT5組件中整合了XT4組件,計算內(nèi)核總數(shù)超過255000個。憑借極高的速度、內(nèi)存、磁盤和網(wǎng)絡(luò)帶寬,Jaguar將再一次向全球的研究者、工程師和計算科研人員提供并行計算能力
技術(shù)規(guī)格之剖析Jaguar Jaguar系統(tǒng)包括8個Cray XT4系統(tǒng)機(jī)柜和200個升級的Cray XT5機(jī)柜,均采用6核處理器。XT4每個節(jié)點的內(nèi)存容量為8GB,而XT5每個節(jié)點內(nèi)存容量為16GB,在機(jī)柜系統(tǒng)內(nèi)為用戶提供總共362TB的高速內(nèi)存。兩個系統(tǒng)都通過Scalable I/O Network (SION)連接起來并與Spider文件系統(tǒng)相連接。XT5系統(tǒng)有256個服務(wù)和I/O節(jié)點,向SION提供每秒240GB的帶寬,向外部網(wǎng)絡(luò)提供每秒200GB的帶寬。XT4有116個服務(wù)和I/O節(jié)點,向SION提供每秒44GB的帶寬,向外部網(wǎng)絡(luò)提供每秒100GB帶寬。 XT4和XT5都有4個節(jié)點。XT4節(jié)點采用了一個AMD 4核皓龍1345“Budapest”處理器以及8GB DDR2-800內(nèi)存。XT5是XT4的雙倍密度版本,它的每個節(jié)點的處理能力、內(nèi)存和內(nèi)存帶寬分別是XT4的3.7倍和2倍。XT5節(jié)點采用了2個皓龍2435“Istanbul”處理器,與2個HyperTransport相連接,每個皓龍?zhí)幚砥髦苯舆B接8GB的DDR2-800內(nèi)存,最終就形成一個具有16GB共享內(nèi)存、處理性能最高125 gigaflops的2路12核的節(jié)點。 每個節(jié)點運行Cray版本的SuSE Linux操作系統(tǒng)。Cray對Linux內(nèi)核進(jìn)行了調(diào)節(jié),去掉了計算節(jié)點中不必要的服務(wù)。這樣操作系統(tǒng)就將對系統(tǒng)中運行的應(yīng)用節(jié)點的影響降至最低,因此提供了應(yīng)用程序可預(yù)測、可重復(fù)的運行時間。節(jié)點上的SuSE Linux操作系統(tǒng)將系統(tǒng)服務(wù)、網(wǎng)絡(luò)軟件、通信、I/O和資料庫,以及編輯器、調(diào)試器和性能工具結(jié)合起來,形成Cray Linux環(huán)境。Jaguar支持MPI、OpenMP、SHMEM和PGAS編程模式。Oak Ridge Leadership Computing Facility (OLCF)在Jaguar上支持來自Cray、PGI、Pathscale以及GNU的編輯器。 Jaguar的功率密度最高可以達(dá)到大約每平方英尺1750瓦,所以不能采用某種水冷方法來管理散熱要求。XT5占地4400平方英尺,面積比一個NBA籃球場還要大。傳統(tǒng)的地下空氣散熱方法對這么大的數(shù)據(jù)中心和熱量負(fù)載來說并不適用。Cray采用家用制冷和汽車空調(diào)中常用的R-134高溫制冷劑,首先調(diào)節(jié)入口空氣,然后隨著空氣進(jìn)入和退出每個機(jī)柜的時候去除熱量。最終形成一個高可靠的冷卻交付系統(tǒng),而且每年消耗的電力要比傳統(tǒng)強(qiáng)制空氣冷卻系統(tǒng)減少5%,也就是每年2.5M kW-h。另外每個機(jī)柜采用了480伏的電壓,并且盡可能縮短主交換主板與計算機(jī)柜之間的距離,以此來進(jìn)一步降低成本。#p#page_title#e# 技術(shù)規(guī)格之Spider文件系統(tǒng) 基于Lustre的文件系統(tǒng)Spider將渠道NCCS網(wǎng)絡(luò)上的多個文件系統(tǒng),形成一個統(tǒng)一的可擴(kuò)展系統(tǒng)。Spider提供了對來自NCCS所有平臺的億億級數(shù)據(jù)集的集中訪問路徑,因此避免了數(shù)據(jù)孤島的出現(xiàn)。計算機(jī)和其他系統(tǒng)之間的文件傳輸將不再是必需的。例如,在Jaguar和虛擬化系統(tǒng)之間傳輸petascale數(shù)據(jù)集可能需要數(shù)小時時間,不僅占用了Jaguar的帶寬,而且還使得仿真進(jìn)程變得十分緩慢。取消文件傳輸將提高性能、便利性和降低成本。數(shù)據(jù)分析平臺將受益于Spider的高帶寬特點,而無需在尖端存儲系統(tǒng)上投入大量資金。 為了訪問Spider,NCCS平臺配置了Lustre路由器。這些路由器允許計算機(jī)節(jié)點上Lustre客戶訪問Spider,就好像存儲是在本地附加的一樣。其他所有Lustre組件將保留在Spider基礎(chǔ)架構(gòu)中,提供易于維護(hù)性、計算機(jī)平臺服務(wù)中斷情況下的可訪問性以及能夠擴(kuò)展文件系統(tǒng)性能和容量的能力。 采用一個中央文件系統(tǒng)需要加強(qiáng)冗余和容錯等特性。Spider設(shè)計可防止發(fā)生單點故障,因此最大限度上提高了可用性。通過利用Lustre文件系統(tǒng)的故障轉(zhuǎn)移對,多個網(wǎng)絡(luò)路徑和彈性特點,Spider提供了一個可靠的中央存儲解決方案。 Spider文件系統(tǒng)規(guī)格 以前的存儲系統(tǒng)只是簡單地由高性能RAID組成,直接與計算平臺連接。而Spier則是一個大規(guī)模存儲集群。48 DDN S2A9900提供后端目標(biāo)存儲,每秒帶寬超過240GB,13440個1TB硬盤提供了超過10PB的RAID6容量。用戶可通過192個戴爾雙路四核Lustre OSS服務(wù)器訪問這個目標(biāo)存儲,該服務(wù)器提供了超過14 teraflops的性能和3TB的RAM容量。每個目標(biāo)存儲服務(wù)器提供的每秒帶寬比文件系統(tǒng)級性能高出1.25GB。元數(shù)據(jù)被保存在2個LSI Engino 3992上,由3臺戴爾四路四核系統(tǒng)提供服務(wù)。這些系統(tǒng)通過可擴(kuò)展的I/O網(wǎng)絡(luò)進(jìn)行互連,為Spider提供了一個高性能背板。 技術(shù)規(guī)格之可擴(kuò)展I/O網(wǎng)絡(luò)SION 為了提供一個真正集成的計算設(shè)備,LCF部署了一個基于SION的SAN。SION是一種多階段的InfiniBand網(wǎng)絡(luò),連接所有NCCS平臺。SION提供了一個集成多個系統(tǒng)的背板,例如Jaguar、Spider、Lens(虛擬化集群)、Ewok(端對端生產(chǎn)力集群)、Smoky(應(yīng)用就緒集群)、HPSS和GridFTP服務(wù)器。通過提供多個系統(tǒng)之間的高性能連接,SION實現(xiàn)了Jaguar兩個部分之間的通信。另外還增加了在線虛擬化這樣的新功能,使得來自仿真平臺的數(shù)據(jù)能夠以極高的數(shù)據(jù)傳輸率發(fā)送向虛擬化平臺。 LCF部署完新平臺之后,SION將繼續(xù)擴(kuò)展提供一個集成的服務(wù)背板。SION將允許訪問現(xiàn)有服務(wù)器,而不是在每次新部署過程中復(fù)制基礎(chǔ)架構(gòu)服務(wù),從而降低了總成本、提高可用性和縮短了從最初采購到生產(chǎn)就緒的時間。 SION規(guī)格 SION是一種高性能InfiniBand DDR網(wǎng)絡(luò),提供超過每秒889GB的半分帶寬。半分網(wǎng)絡(luò)基礎(chǔ)架構(gòu)是基于3個288端口的思科7024D IB交換機(jī),一個交換機(jī)提供了一個聚合連接,另外兩個交換機(jī)提供了Jaguar兩個部分之間與Spider文件系統(tǒng)的連接性。第四個7024D交換機(jī)提供了與其他所有LCF平臺的連接性,并連接到一個聚合的交換機(jī)上。Spider通過48個24端口Flextronics IB交換機(jī)連接到核心交換機(jī),允許存儲直接從SION上尋址。附加的交換機(jī)提供了與其他LCF平臺的連接性。 LCF占用大約40000 ft2的升降地板面積,中心內(nèi)遍布平臺。為了解決如此大規(guī)模中心帶來的遠(yuǎn)距離需求,SION采用了長達(dá)60米的Zarlink IB光學(xué)線纜。這種長度的線纜可以實現(xiàn)雙層建筑之間的連接,這是銅纜無法做到的??偟膩碚f,SION配置了3000多個InfiniBand端口,超過3英里的光學(xué)線纜提供的高性能連接。#p#page_title#e# 技術(shù)規(guī)格之NCCS網(wǎng)絡(luò) OLCF的網(wǎng)絡(luò)功能與計算能力并行地進(jìn)行擴(kuò)展以確保精確且高速的數(shù)據(jù)傳輸。系統(tǒng)之間的高吞吐網(wǎng)絡(luò)以及ESnet與Internet2的升級連接可加速NCCS和其他機(jī)構(gòu)之間的數(shù)據(jù)傳輸率。 OLCF有一個向DOE ESnet的直接連接,提供了一個高帶寬通道連接主中心與其他40多個DOE站點,并且高速連接到100多個附加網(wǎng)絡(luò)。 OLCF還連接到Internet2網(wǎng)絡(luò)和NSF TeraGrid。Internet2為美國研究機(jī)構(gòu)和教育機(jī)構(gòu)提供了一個滿足他們帶寬密集需求的網(wǎng)絡(luò)。這個網(wǎng)絡(luò)是一個動態(tài)、穩(wěn)定、具有成本效益的網(wǎng)絡(luò)。它采用了高速網(wǎng)絡(luò)架構(gòu),可為200多家教育機(jī)構(gòu)、企業(yè)、非營利性組織和政府機(jī)構(gòu)處理全動視頻和3D模擬。 OLCF的核心LAN網(wǎng)絡(luò)由2個思科6500路由器以及1個Force10 E1200路由器組成。這個核心網(wǎng)絡(luò)提供了用于交換機(jī)內(nèi)連接的100多個10Gb以太網(wǎng)端口,并且可以通過使用10Gb以太網(wǎng)直接連接到主機(jī)。NCCS則為那些對數(shù)據(jù)傳輸率要求較低的設(shè)備提供了1200多個千兆以太網(wǎng)端口。 網(wǎng)絡(luò)規(guī)格 ORNL擁有和管理他們自己單一模式的光纖網(wǎng)絡(luò),提供從橡樹嶺、突尼斯到芝加哥、納什維爾和亞特蘭大的物理連接。ORNL使用Ciena Corporation Wave Division Multiplexing (WDM)設(shè)備貫通這一連接,使用思科和Juniper的核心路由器提供了到外部協(xié)同合作伙伴的連接。這種暗光纖基礎(chǔ)架構(gòu)讓ORNL可以快速且具有成本效益低在與合作伙伴的任何對等點之間實現(xiàn)10Gb甚至更高的速度。除此之外,ORNL還參與了“高級網(wǎng)絡(luò)計劃”(Advanced Networking Initiative),旨在實現(xiàn)多個DOE設(shè)施之間的100Gb廣域連接。 技術(shù)規(guī)格之歸檔存儲HPSS OLCF的歸檔數(shù)據(jù)存儲系統(tǒng)——高性能存儲系統(tǒng)(High Performance Storage System,HPSS)通過重要升級來確保高速可靠的存儲和petascale數(shù)據(jù)集找回。HPSS目前保存了7PB的數(shù)據(jù),而且每天還會增加40TB。數(shù)據(jù)存儲量每年翻一番,而增加的兩個petascale系統(tǒng)也要不斷升級,保持HPSS這個petascale平臺每年增長的需求。通過集成可以將HPSS與SION連接,允許與Spider無縫集成等新功能。這種集成將通過使用HPSS傳輸代理或者本地文件遷移工具等多種傳輸機(jī)制來實現(xiàn)來自Spider的數(shù)據(jù)輸入/輸出HPSS的極高數(shù)據(jù)傳輸率。 HPSS規(guī)格 HPSS基礎(chǔ)架構(gòu)包括28個戴爾生產(chǎn)服務(wù)器來作為ACSLS、用戶界面網(wǎng)絡(luò)和遷移工具(磁盤/磁帶)。磁帶存儲由2個STK PowderHorn智能磁帶庫和3個SUN SL8500磁帶庫組成。這些磁帶庫包括14個STK 9840磁帶庫、16個STK 9940磁帶驅(qū)動器、24個SUN T10K-A磁帶驅(qū)動器和32個SUN T10K-B磁帶驅(qū)動器,總共30000個磁帶。HPSS磁盤層由4個DDN 9550組層,總共1500TB存儲容量,提供了對中小文件的高性能訪問,還可以作為針對更大文件的緩存機(jī)制。#p#page_title#e# 科學(xué)應(yīng)用 科學(xué)和Petascale計算 從探索新型能源到分析氣候動態(tài)變化、再到調(diào)節(jié)蛋白質(zhì)功能,terascale系統(tǒng)是科學(xué)研究和問題解決中一個必不可少的工具。Petascale設(shè)備提供在這些高級功能基礎(chǔ)上進(jìn)行擴(kuò)展、解決人類最緊迫的問題方面的能力是不可估量的。ORNL為科研機(jī)構(gòu)提供了全球最強(qiáng)的工具來解決最具挑戰(zhàn)性的難題。 橡樹嶺超級計算機(jī)提供首個對極端氣候變化的模擬 在ORNL,全球用于未分類研究的最快超級計算機(jī)將模擬極端氣候變化和全球變暖進(jìn)程。這項工作由威斯康辛大學(xué)的Zhengyu Liu和美國國家大氣研究中心Bette Otto-Bliesner負(fù)責(zé),提供了關(guān)于全球氣候變化根源和影響的珍貴數(shù)據(jù)。 ORNL超級計算機(jī)輔助超新星研究 Type Ia超新星是自然界中最大的熱核爆炸,遠(yuǎn)遠(yuǎn)超過太陽和很多基本生命元素。關(guān)于這些爆炸星體最神秘的地方就在于其爆炸方式。加州大學(xué)圣塔克魯斯分校的Stan Woosley 和他的同事們在Jaguar上運行仿真流程,展示了Type Ia超新星的異步爆炸過程和這一過程對亮度的巨大影響。 生物和半衰期 Carbon-14的衰變速度遠(yuǎn)遠(yuǎn)慢于它的同位素,這讓研究人員可以根據(jù)植物或者生物的一部分追溯到60000年前。ORNL的David Dean帶領(lǐng)的科學(xué)小組正在利用Jaguar前所未有的超過計算能力來測量碳14核子。仿真過程可以幫助我們了解為什么這個同位素的半衰期如此長,幫助我們更好地了解事物的構(gòu)成。 從光合作用到燃料:新型燃料 Jeremy Smith和他的同事們使用JJaguar和Draken超級計算機(jī)來揭露纖維素的詳細(xì)工作方式。纖維素是一種讓樹葉、樹干和樹枝變硬的復(fù)雜碳水化合物。找到如何釋放糖亞基結(jié)構(gòu)的方法就可以利用植物來作為一種燃料。 聚變加快 很少有代碼要求比現(xiàn)有聚變微粒更快的I/O。例如,GTC和XGC-1是運行在NCCS Jaguar Cray XT5超級計算機(jī)12000多個內(nèi)核上的。由于Scott Klasky和不同團(tuán)隊的合作,最近GTC的速度提高了兩倍,不僅可作為理想的基準(zhǔn)實例,還可用于生產(chǎn)模擬。 火山爆發(fā)模型模擬極端氣候 ORNL的Kate Evans所帶領(lǐng)的小組和美國國家大氣研究中心正在使用Jaguar超級計算來模擬氣候系統(tǒng)對火山爆發(fā)產(chǎn)生的浮塵的反應(yīng)。如果這個模型可以預(yù)測出該系統(tǒng)對浮塵(可能在大氣層存在數(shù)年時間)的反應(yīng),相信他們就可以預(yù)測出該系統(tǒng)對長期人為排放的反應(yīng)。
Jaguar XT5圖片庫
最新的1.64-petaflop Cray XT Jaguar超級計算機(jī)采用了180000個處理器內(nèi)核,每個內(nèi)核本地內(nèi)存容量為2GB。ORNL的計算資源為科學(xué)家們提供高達(dá)2.5 petaflops的計算性能。 以下是NCCS petaflop Jaguar系統(tǒng)的圖片。關(guān)于最新的科學(xué)虛擬化圖片,請查看NCCS圖片庫。