打破高性能計算存儲的瓶頸
時間:2008-11-29 03:49:00
來源:UltraLAB圖形工作站方案網(wǎng)站
人氣:19445
作者:admin
過去幾十年中,高性能計算(High Performance Computing,HPC)在石油、生物、氣象、科研等計算密集型應(yīng)用中得到長足發(fā)展。早期的HPC系統(tǒng)主要以IBM、Cray、SGI等廠商的大型機或并行機作為硬件平臺。近幾年來,由于CPU能力的迅速提高,標準化硬件成本的迅速降低,相對廉價的Linux并行集群系統(tǒng)漸漸成為HPC的主流,并使HPC進入更廣闊的工業(yè)和商業(yè)應(yīng)用市場。與此同時,強大的HPC系統(tǒng)需要技術(shù)先進、性能卓越的存儲系統(tǒng)作支撐。并行化計算的發(fā)展帶來了更大的系統(tǒng)規(guī)模和復(fù)雜性,從而推動了HPC存儲技術(shù)和銷售的爆炸性成長。IDC預(yù)計,全球HPC在服務(wù)器銷售方面已超過每年90億美元,而與HPC相關(guān)的存儲市場也達到32億美元。
HPC存儲的I/O瓶頸
當一個計算任務(wù)被加載到Linux集群系統(tǒng)時,各服務(wù)器計算節(jié)點首先從存儲系統(tǒng)中通過NFS協(xié)議獲取數(shù)據(jù),然后進行計算處理,最后將計算結(jié)果寫入存儲系統(tǒng)。在此過程中,計算任務(wù)的開始和結(jié)束階段數(shù)據(jù)讀寫的I/O負載非常大,而在計算過程中幾乎沒有任何負載。當今的Linux并行集群系統(tǒng)處理能力越來越強,動輒達到幾十甚至上百個TFLOPS(一個TFLOPS等于每秒1兆次的浮點運算),于是用于計算處理的時間越來越短。經(jīng)驗表明,集群系統(tǒng)中每TFLOPS的計算能力大約需要10TB的存儲空間和1GB/s的持續(xù)帶寬相匹配。雖然存儲系統(tǒng)容量提升和單位成本下降都很快,但傳統(tǒng)存儲技術(shù)架構(gòu)對帶寬和I/O能力的提高卻非常困難且成本高昂。這造成了當原始數(shù)據(jù)量較大時,I/O讀寫所占的整體時間就相當可觀,成為HPC集群系統(tǒng)的性能瓶頸。
除了對存儲系統(tǒng)I/O能力的苛刻要求外,HPC對其管理、擴展、可靠和共享訪問等各方面的指標也絲毫不妥協(xié)。由于管理維護的復(fù)雜性,傳統(tǒng)存儲系統(tǒng)的管理成本加起來往往數(shù)倍于其采購成本。管理任務(wù)包括安裝和配置新硬件,為用戶或應(yīng)用分配容量,在各子系統(tǒng)間遷移數(shù)據(jù)以均衡負載和容量,備份和恢復(fù)數(shù)據(jù),故障排除和系統(tǒng)重建,解決用戶對性能和容量等各方面提出的新需求等。同時,與集中式的大型機不同,Linux集群系統(tǒng)本身有許多子系統(tǒng)需要管理維護。算法通常被細化成上百萬個子任務(wù),在各計算節(jié)點獨立運行。這樣會造成大量的數(shù)據(jù)切片和副本的產(chǎn)生,給服務(wù)器集群均衡、快速的共享訪問帶來極大的挑戰(zhàn)。在大型項目中,當不同用戶和部門需要共享,而核心數(shù)據(jù)集又經(jīng)常改變的情況下,這種問題尤為棘手。
總結(jié)而言,高性能計算對存儲架構(gòu)提出了極高的要求:帶寬性能達到幾個甚至幾十個GB/s,容量能擴展至PB級;完全透明的訪問和數(shù)據(jù)共享;與生俱來的高可靠性和高可用性;集中式的智能化管理,不因容量和設(shè)備數(shù)增加而顯著增加管理成本;無縫整合其他存儲系統(tǒng),輕松獲取與交換數(shù)據(jù);集成的數(shù)據(jù)服務(wù),包括備份、遠程復(fù)制和生命周期管理;可按需獨立擴展容量和性能,保護投資。
傳統(tǒng)存儲架構(gòu)的缺陷
傳統(tǒng)存儲架構(gòu)主要包括直連存儲(DAS)、存儲區(qū)域網(wǎng)絡(luò)(SAN)、網(wǎng)絡(luò)附加存儲(NAS)以及在他們基礎(chǔ)上衍生的一些新技術(shù)。存儲架構(gòu)最根本的區(qū)別在于:存儲格式,如塊數(shù)據(jù)或文件;存儲與應(yīng)用之間的控制流和數(shù)據(jù)流方式。存儲格式定義了訪問方式,以及訪問共享數(shù)據(jù)時的鎖機制、同步和安全??刂?數(shù)據(jù)流方式則定義了為帶寬準備的并發(fā)機制。這兩個存儲特性如何實現(xiàn)最終決定了存儲系統(tǒng)的性能和擴展性。
DAS和SAN使用塊數(shù)據(jù)存儲,并利用分離的文件系統(tǒng)或數(shù)據(jù)庫管理。當系統(tǒng)規(guī)模(客戶端數(shù)量)較小時性能較好,但規(guī)模增加時瓶頸就慢慢顯現(xiàn)出來了。而且,DAS在不同客戶端的數(shù)據(jù)共享比較困難,需要經(jīng)常性的數(shù)據(jù)拷貝來完成,從而影響系統(tǒng)性能。而SAN是以應(yīng)用而非數(shù)據(jù)訪問為中心的技術(shù),無法完全滿足HPC環(huán)境對信息透明訪問的需求。傳統(tǒng)DAS廠商包括許多提供RAID陣列的公司,而SAN的代表性廠商有EMC和HDS。
通過文件訪問協(xié)議NFS和CIFS,NAS能高效地滿足來自不同環(huán)境的用戶請求,從而很好地解決了DAS和SAN面臨的數(shù)據(jù)共享問題。同時高層的文件格式能提供安全權(quán)限,并在底層進行性能優(yōu)化(比如預(yù)緩存數(shù)據(jù)),如圖1所示。然而,傳統(tǒng)的NAS使所有數(shù)據(jù)都從其控制器出入,造成了性能和擴展性瓶頸。傳統(tǒng)NAS代表廠商主要是NetApp。 #p#page_title#e#
由于NAS的缺陷,應(yīng)運而生了元數(shù)據(jù)流和數(shù)據(jù)流分離的架構(gòu)及SAN共享文件系統(tǒng)??蛻舳藦脑獢?shù)據(jù)服務(wù)器通過以太網(wǎng)獲取訪問數(shù)據(jù)的地址信息(元數(shù)據(jù))后,直接通過塊數(shù)據(jù)的形式從共享的磁盤陣列獲取數(shù)據(jù),從而避免單控制器的性能瓶頸。但這種架構(gòu)要實現(xiàn)異構(gòu)環(huán)境的數(shù)據(jù)完全共享,或大規(guī)模系統(tǒng)的持續(xù)性能增長是非常困難的。
滿足HPC的新架構(gòu)
隨著HPC市場的迅速成長和HPC應(yīng)用的普及,專門針對HPC應(yīng)用需求而開發(fā)的新型存儲架構(gòu)和產(chǎn)品也開始陸續(xù)推向市場。有趣的是,與集群架構(gòu)占據(jù)HPC計算系統(tǒng)主流的趨勢類似,新型的HPC存儲架構(gòu)大多以集群存儲為主,通過分布式或集群文件系統(tǒng)將幾臺到幾百臺服務(wù)器結(jié)構(gòu)的存儲節(jié)點管理起來,并通過IP千兆網(wǎng)和聚合帶寬技術(shù)向客戶端提供高帶寬、高可靠的存儲系統(tǒng)。隨著萬兆以太網(wǎng)絡(luò)的普及,將進一步強化IP網(wǎng)絡(luò)高聚合帶寬的優(yōu)勢。
以Panasas和谷數(shù)科技(CeresData)為代表的公司推出的面向?qū)ο蟮拇鎯捍蚱苽鹘y(tǒng)的塊數(shù)據(jù)和文件形式的存儲,把數(shù)據(jù)儲存為對象,即一群無序排列的、無固定長度的字節(jié)組。每個對象擁有內(nèi)嵌的屬性、完整的訪問控制和封裝的數(shù)據(jù)分布與位置。對象格式比DAS和SAN的塊數(shù)據(jù)格式更高級,但沒有NAS的文件格式復(fù)雜。這種方式使面向?qū)ο蟮拇鎯撼哂泻芎玫陌踩酝?,還有比NAS和SAN都大得多的擴展性。集群架構(gòu)的本身保證了在擴展容量的同時,性能得到近似線性地增長,因此在存儲節(jié)點數(shù)量足夠大時,系統(tǒng)能輕松達到傳統(tǒng)存儲系統(tǒng)不可高攀的數(shù)GB/s的持續(xù)帶寬。
Panasas面向?qū)ο蟠鎯Φ募軜?gòu)包含了針對I/O的數(shù)據(jù)對象和與之分離的、比傳統(tǒng)SAN/DAS簡化的元數(shù)據(jù)對象。元數(shù)據(jù)管理節(jié)點比數(shù)據(jù)節(jié)點少得多,而數(shù)據(jù)存儲節(jié)點和計算節(jié)點之間是直接的通路,保證了系統(tǒng)性能和擴展性。
另一類解決方案通過高性能的分布式集群文件系統(tǒng),把幾個到幾十個控制器集群起來,通過全局命名空間算法、性能聚合算法、訪問負載均衡等各種先進技術(shù),把傳統(tǒng)NAS存儲系統(tǒng)的性能提高幾倍到幾十倍,從而在保留NAS原有的數(shù)據(jù)共享、安全和管理優(yōu)勢的基礎(chǔ)上,輕松滿足了HPC對性能和擴展性的苛刻要求。
推出此類產(chǎn)品的公司主要有ExaNet、OnStor和谷數(shù)科技(CeresData)。圖2是谷數(shù)科技的HPC存儲系統(tǒng)示意圖。該系統(tǒng)可配置2~16個節(jié)點,容量可從4TB平滑擴展至512TB,帶寬能從800MB/s增加到3GB/s,并能達到每秒80萬個處理能力(OPS)。通過快照和故障轉(zhuǎn)移技術(shù),完全消除單點故障,確保系統(tǒng)的高可用。系統(tǒng)集成了本地備份、遠程鏡像和生命周期管理,滿足HPC對海量數(shù)據(jù)集成服務(wù)的需求。最獨特的是,用戶可以靈活設(shè)置文件塊大小,讓同一個存儲系統(tǒng)為各種不同的HPC應(yīng)用提供最優(yōu)化的性能。
圖1 網(wǎng)絡(luò)附加存儲 (NAS)
圖2 谷數(shù)科技公司的HPC集群存儲體
HPC存儲的I/O瓶頸
當一個計算任務(wù)被加載到Linux集群系統(tǒng)時,各服務(wù)器計算節(jié)點首先從存儲系統(tǒng)中通過NFS協(xié)議獲取數(shù)據(jù),然后進行計算處理,最后將計算結(jié)果寫入存儲系統(tǒng)。在此過程中,計算任務(wù)的開始和結(jié)束階段數(shù)據(jù)讀寫的I/O負載非常大,而在計算過程中幾乎沒有任何負載。當今的Linux并行集群系統(tǒng)處理能力越來越強,動輒達到幾十甚至上百個TFLOPS(一個TFLOPS等于每秒1兆次的浮點運算),于是用于計算處理的時間越來越短。經(jīng)驗表明,集群系統(tǒng)中每TFLOPS的計算能力大約需要10TB的存儲空間和1GB/s的持續(xù)帶寬相匹配。雖然存儲系統(tǒng)容量提升和單位成本下降都很快,但傳統(tǒng)存儲技術(shù)架構(gòu)對帶寬和I/O能力的提高卻非常困難且成本高昂。這造成了當原始數(shù)據(jù)量較大時,I/O讀寫所占的整體時間就相當可觀,成為HPC集群系統(tǒng)的性能瓶頸。
除了對存儲系統(tǒng)I/O能力的苛刻要求外,HPC對其管理、擴展、可靠和共享訪問等各方面的指標也絲毫不妥協(xié)。由于管理維護的復(fù)雜性,傳統(tǒng)存儲系統(tǒng)的管理成本加起來往往數(shù)倍于其采購成本。管理任務(wù)包括安裝和配置新硬件,為用戶或應(yīng)用分配容量,在各子系統(tǒng)間遷移數(shù)據(jù)以均衡負載和容量,備份和恢復(fù)數(shù)據(jù),故障排除和系統(tǒng)重建,解決用戶對性能和容量等各方面提出的新需求等。同時,與集中式的大型機不同,Linux集群系統(tǒng)本身有許多子系統(tǒng)需要管理維護。算法通常被細化成上百萬個子任務(wù),在各計算節(jié)點獨立運行。這樣會造成大量的數(shù)據(jù)切片和副本的產(chǎn)生,給服務(wù)器集群均衡、快速的共享訪問帶來極大的挑戰(zhàn)。在大型項目中,當不同用戶和部門需要共享,而核心數(shù)據(jù)集又經(jīng)常改變的情況下,這種問題尤為棘手。
總結(jié)而言,高性能計算對存儲架構(gòu)提出了極高的要求:帶寬性能達到幾個甚至幾十個GB/s,容量能擴展至PB級;完全透明的訪問和數(shù)據(jù)共享;與生俱來的高可靠性和高可用性;集中式的智能化管理,不因容量和設(shè)備數(shù)增加而顯著增加管理成本;無縫整合其他存儲系統(tǒng),輕松獲取與交換數(shù)據(jù);集成的數(shù)據(jù)服務(wù),包括備份、遠程復(fù)制和生命周期管理;可按需獨立擴展容量和性能,保護投資。
傳統(tǒng)存儲架構(gòu)的缺陷
傳統(tǒng)存儲架構(gòu)主要包括直連存儲(DAS)、存儲區(qū)域網(wǎng)絡(luò)(SAN)、網(wǎng)絡(luò)附加存儲(NAS)以及在他們基礎(chǔ)上衍生的一些新技術(shù)。存儲架構(gòu)最根本的區(qū)別在于:存儲格式,如塊數(shù)據(jù)或文件;存儲與應(yīng)用之間的控制流和數(shù)據(jù)流方式。存儲格式定義了訪問方式,以及訪問共享數(shù)據(jù)時的鎖機制、同步和安全??刂?數(shù)據(jù)流方式則定義了為帶寬準備的并發(fā)機制。這兩個存儲特性如何實現(xiàn)最終決定了存儲系統(tǒng)的性能和擴展性。
DAS和SAN使用塊數(shù)據(jù)存儲,并利用分離的文件系統(tǒng)或數(shù)據(jù)庫管理。當系統(tǒng)規(guī)模(客戶端數(shù)量)較小時性能較好,但規(guī)模增加時瓶頸就慢慢顯現(xiàn)出來了。而且,DAS在不同客戶端的數(shù)據(jù)共享比較困難,需要經(jīng)常性的數(shù)據(jù)拷貝來完成,從而影響系統(tǒng)性能。而SAN是以應(yīng)用而非數(shù)據(jù)訪問為中心的技術(shù),無法完全滿足HPC環(huán)境對信息透明訪問的需求。傳統(tǒng)DAS廠商包括許多提供RAID陣列的公司,而SAN的代表性廠商有EMC和HDS。
通過文件訪問協(xié)議NFS和CIFS,NAS能高效地滿足來自不同環(huán)境的用戶請求,從而很好地解決了DAS和SAN面臨的數(shù)據(jù)共享問題。同時高層的文件格式能提供安全權(quán)限,并在底層進行性能優(yōu)化(比如預(yù)緩存數(shù)據(jù)),如圖1所示。然而,傳統(tǒng)的NAS使所有數(shù)據(jù)都從其控制器出入,造成了性能和擴展性瓶頸。傳統(tǒng)NAS代表廠商主要是NetApp。 #p#page_title#e#
由于NAS的缺陷,應(yīng)運而生了元數(shù)據(jù)流和數(shù)據(jù)流分離的架構(gòu)及SAN共享文件系統(tǒng)??蛻舳藦脑獢?shù)據(jù)服務(wù)器通過以太網(wǎng)獲取訪問數(shù)據(jù)的地址信息(元數(shù)據(jù))后,直接通過塊數(shù)據(jù)的形式從共享的磁盤陣列獲取數(shù)據(jù),從而避免單控制器的性能瓶頸。但這種架構(gòu)要實現(xiàn)異構(gòu)環(huán)境的數(shù)據(jù)完全共享,或大規(guī)模系統(tǒng)的持續(xù)性能增長是非常困難的。
滿足HPC的新架構(gòu)
隨著HPC市場的迅速成長和HPC應(yīng)用的普及,專門針對HPC應(yīng)用需求而開發(fā)的新型存儲架構(gòu)和產(chǎn)品也開始陸續(xù)推向市場。有趣的是,與集群架構(gòu)占據(jù)HPC計算系統(tǒng)主流的趨勢類似,新型的HPC存儲架構(gòu)大多以集群存儲為主,通過分布式或集群文件系統(tǒng)將幾臺到幾百臺服務(wù)器結(jié)構(gòu)的存儲節(jié)點管理起來,并通過IP千兆網(wǎng)和聚合帶寬技術(shù)向客戶端提供高帶寬、高可靠的存儲系統(tǒng)。隨著萬兆以太網(wǎng)絡(luò)的普及,將進一步強化IP網(wǎng)絡(luò)高聚合帶寬的優(yōu)勢。
以Panasas和谷數(shù)科技(CeresData)為代表的公司推出的面向?qū)ο蟮拇鎯捍蚱苽鹘y(tǒng)的塊數(shù)據(jù)和文件形式的存儲,把數(shù)據(jù)儲存為對象,即一群無序排列的、無固定長度的字節(jié)組。每個對象擁有內(nèi)嵌的屬性、完整的訪問控制和封裝的數(shù)據(jù)分布與位置。對象格式比DAS和SAN的塊數(shù)據(jù)格式更高級,但沒有NAS的文件格式復(fù)雜。這種方式使面向?qū)ο蟮拇鎯撼哂泻芎玫陌踩酝?,還有比NAS和SAN都大得多的擴展性。集群架構(gòu)的本身保證了在擴展容量的同時,性能得到近似線性地增長,因此在存儲節(jié)點數(shù)量足夠大時,系統(tǒng)能輕松達到傳統(tǒng)存儲系統(tǒng)不可高攀的數(shù)GB/s的持續(xù)帶寬。
Panasas面向?qū)ο蟠鎯Φ募軜?gòu)包含了針對I/O的數(shù)據(jù)對象和與之分離的、比傳統(tǒng)SAN/DAS簡化的元數(shù)據(jù)對象。元數(shù)據(jù)管理節(jié)點比數(shù)據(jù)節(jié)點少得多,而數(shù)據(jù)存儲節(jié)點和計算節(jié)點之間是直接的通路,保證了系統(tǒng)性能和擴展性。
另一類解決方案通過高性能的分布式集群文件系統(tǒng),把幾個到幾十個控制器集群起來,通過全局命名空間算法、性能聚合算法、訪問負載均衡等各種先進技術(shù),把傳統(tǒng)NAS存儲系統(tǒng)的性能提高幾倍到幾十倍,從而在保留NAS原有的數(shù)據(jù)共享、安全和管理優(yōu)勢的基礎(chǔ)上,輕松滿足了HPC對性能和擴展性的苛刻要求。
推出此類產(chǎn)品的公司主要有ExaNet、OnStor和谷數(shù)科技(CeresData)。圖2是谷數(shù)科技的HPC存儲系統(tǒng)示意圖。該系統(tǒng)可配置2~16個節(jié)點,容量可從4TB平滑擴展至512TB,帶寬能從800MB/s增加到3GB/s,并能達到每秒80萬個處理能力(OPS)。通過快照和故障轉(zhuǎn)移技術(shù),完全消除單點故障,確保系統(tǒng)的高可用。系統(tǒng)集成了本地備份、遠程鏡像和生命周期管理,滿足HPC對海量數(shù)據(jù)集成服務(wù)的需求。最獨特的是,用戶可以靈活設(shè)置文件塊大小,讓同一個存儲系統(tǒng)為各種不同的HPC應(yīng)用提供最優(yōu)化的性能。
圖1 網(wǎng)絡(luò)附加存儲 (NAS)
圖2 谷數(shù)科技公司的HPC集群存儲體