久久99热精品免费观看无卡顿|欧美另类图片亚洲偷|亚洲天天做日日做天天爽,99精品久久久久婷婷,久久精品国产亚洲AV电影,中文字幕久精品免费视频蜜桃视频

全球領(lǐng)先的高端圖形工作站供應(yīng)商

免費(fèi)測(cè)試熱線 : 400-7056-800 【為任何應(yīng)用提供最快計(jì)算設(shè)備如不符,退貨】【最新報(bào)價(jià)】【選購(gòu)指南】【京東商城】

您的位置：UltraLAB圖形工作站方案網(wǎng)站 > 科學(xué)工程計(jì)算 > 系統(tǒng)配置推薦 > 并行文件系統(tǒng)構(gòu)筑高性能計(jì)算數(shù)據(jù)基石

并行文件系統(tǒng)構(gòu)筑高性能計(jì)算數(shù)據(jù)基石

時(shí)間：2009-10-23 00:15:00 來源：UltraLAB圖形工作站方案網(wǎng)站 人氣：12318 作者：admin

長(zhǎng)期以來，磁盤帶寬的增長(zhǎng)速度都遠(yuǎn)小于計(jì)算能力的增長(zhǎng)速度，而雙核、四核乃至多核服務(wù)器的普及與發(fā)展讓這種不匹配的差距進(jìn)一步拉大。包括RAID陣列等，我們目前有多種技術(shù)可提高I/O性能，并行文件系統(tǒng)也是其中之一。它可以把多個(gè)結(jié)點(diǎn)上的磁盤組織成為一個(gè)大的存儲(chǔ)系統(tǒng)，提供更大的存儲(chǔ)容量和聚集的I/O 帶寬，并隨系統(tǒng)規(guī)模的擴(kuò)大而擴(kuò)展，在多種存儲(chǔ)環(huán)境下發(fā)揮著重要的作用，尤其是集群結(jié)構(gòu)的高性能計(jì)算領(lǐng)域。

高性能計(jì)算的存儲(chǔ)基石

隨著網(wǎng)絡(luò)的高速發(fā)展，如何管理高速網(wǎng)絡(luò)上互聯(lián)的計(jì)算機(jī)的集群系統(tǒng)，建立一種性能優(yōu)越的并行文件系統(tǒng)是一件非常重要的事情，這樣可以使整個(gè)集群系統(tǒng)可以具備高可用性、可擴(kuò)展性和高可靠性，從而構(gòu)建出上千節(jié)點(diǎn)的超大規(guī)模集群計(jì)算機(jī)，為整個(gè)網(wǎng)絡(luò)提供性價(jià)比高的集群服務(wù)器和超強(qiáng)的網(wǎng)格節(jié)點(diǎn)。

目前各個(gè)研究機(jī)構(gòu)和商業(yè)團(tuán)體對(duì)并行文件系統(tǒng)的研究比較看重，取得了不少的技術(shù)進(jìn)步和相關(guān)的商業(yè)產(chǎn)品，我們對(duì)整個(gè)分布式并行文件系統(tǒng)研究情況大致可以分為三類：商業(yè)用途的并行文件系統(tǒng)；公開的分布式并行文件系統(tǒng)；供研究的并行文件系統(tǒng)。

并行文件系統(tǒng)工作原理

其中較為成熟的商用并行文件系統(tǒng)，像 IBM 的 GPFS，Intel 的 PFS 等在性能，可用性上均有良好表現(xiàn)，但都價(jià)格昂貴，且需要特殊的存儲(chǔ)設(shè)備的支持，給普通用戶構(gòu)建集群服務(wù)器帶來困難。對(duì)于公開源碼的并行文件系統(tǒng)，聲譽(yù)最好的是 Clemson 大學(xué)和 NASA 實(shí)驗(yàn)室聯(lián)合開發(fā)的 PVFS，它相對(duì)與傳統(tǒng)的集中存儲(chǔ) NFS 具有良好的性能。由于它采用單一元數(shù)據(jù)服務(wù)器的集中管理方式和存儲(chǔ)節(jié)點(diǎn)的靜態(tài)配置，因而不具備容錯(cuò)性和動(dòng)態(tài)可擴(kuò)展性。

另外，由 HP、Intel 贊助，Cluster File System 公司開發(fā)的面向?qū)ο蟠鎯?chǔ)的并行文件系統(tǒng) Lustre 吸收了很多文件系統(tǒng)（Code， InterMezzo）的優(yōu)點(diǎn)。它采用智能化的對(duì)象存儲(chǔ)設(shè)備（Object Storage Device），在性能方面具有很大優(yōu)勢(shì)，在可用行和動(dòng)態(tài)可擴(kuò)展性上的表現(xiàn)仍然有待研究和完善。而 XFS是作為最早的 Serverlesss分布式文件系統(tǒng)，主要側(cè)重于通過合作式緩存來提高讀寫性能，不具備系統(tǒng)的在線動(dòng)態(tài)擴(kuò)展功能，并沒能真正實(shí)用起來。

我們對(duì)這些系統(tǒng)分別做出分析，讓我們可以更深入的了解并行文件系統(tǒng)的構(gòu)成和功能。

xFS：走入象牙塔的學(xué)院派

xFS作為一種采用無服務(wù)方式以提供可擴(kuò)展的文件服務(wù)的機(jī)群文件系統(tǒng)。它同 zebra 一樣，xFS 集成了存儲(chǔ)分組結(jié)構(gòu)和日志結(jié)構(gòu)，并且也實(shí)現(xiàn)了數(shù)據(jù)存儲(chǔ)于元數(shù)據(jù)管理的彼此分離。

xFS 通過全部分布數(shù)據(jù)存儲(chǔ)于元數(shù)據(jù)管理的功能減少了集中的瓶頸。為了獲得更高的性能，xFS 采用了合作緩存，一種通過各客戶緩存的協(xié)調(diào)合作來替代傳統(tǒng)的集中的服務(wù)端緩存。在 xFS 中，任何機(jī)器都可以緩存、存儲(chǔ)或則控制任意的數(shù)據(jù)塊，這種方式可以提供比傳統(tǒng)文件系統(tǒng)結(jié)構(gòu)更好的性能和可擴(kuò)展性

xFS并行文件系統(tǒng)存取原理

xFS 的一個(gè)主要的特點(diǎn)是它的合作緩存的算法，即是“N-Chance”算法。這種算法動(dòng)態(tài)地把每個(gè)客戶端的緩存分開成塊，以提供給當(dāng)?shù)氐暮湍切┐鎯?chǔ)在合作緩存的應(yīng)用程序的應(yīng)用。算法的置換機(jī)制是綜合應(yīng)用了當(dāng)?shù)?/span>“LRU”信息和重復(fù)避免（duplicate avoidance）以決定所最應(yīng)該置換的塊。

實(shí)際上，xFS 所應(yīng)用的緩存結(jié)構(gòu)與遠(yuǎn)端緩存結(jié)構(gòu)以及“Feeley”描述的全局存儲(chǔ)服務(wù)（GMS）具有相類似的構(gòu)想。GMS 比“N-Chance”算法更具有通用性，但它沒有提供一致性機(jī)制并且依靠一種集中式的算法來決定塊的置換。Sarkar andHartman 提出了一種基于提示（hint-based）的合作緩存方式,這種方式可以減少客戶機(jī)在通過提示調(diào)用和置換塊是對(duì)管理者的依靠性。實(shí)驗(yàn)表明這種方式可以在 #p#page_title#e#增加少量的負(fù)載的情況下獲得同 xFS 所相似的效果。

xFS的缺陷包括：它必須維護(hù)在文件級(jí)粒度下的緩存一致性，否則可能導(dǎo)致在某些情況下的共享錯(cuò)誤問題（false-sharing problem）。同時(shí)不具備系統(tǒng)的在線動(dòng)態(tài)擴(kuò)展功能，這使得xFS在集群文件系統(tǒng)中并沒有真正得到應(yīng)用，實(shí)際上局限于實(shí)驗(yàn)室的象牙塔中。

COSMOS：自主研發(fā)的實(shí)用型文件系統(tǒng)

COSMOS 并行系統(tǒng)是我們國(guó)家自己研制的一種可擴(kuò)展單一映象集群的文件系統(tǒng)，它部署在曙光 3000 超級(jí)服務(wù)器上，具有很好的操作性能。COSMOS 的底層基于AIX文件系統(tǒng)JFS，系統(tǒng)中每個(gè)節(jié)點(diǎn)通過高速網(wǎng)絡(luò)互相連接，COSMOS 構(gòu)建于這些操作系統(tǒng)平臺(tái)之上，向用戶提供文件服務(wù)。

COSMOS分片數(shù)據(jù)管理模式

在整個(gè)COSMOS 并行系統(tǒng)中，系統(tǒng)是由核心相關(guān)層（kernel）和用戶層兩部分組成。核心層是在虛擬文件系統(tǒng)一級(jí)中實(shí)現(xiàn)的，它接收來自邏輯文件系統(tǒng)的 I/O 請(qǐng)求，并以一定的格式轉(zhuǎn)發(fā)給用戶層。而 COSMOS 的用戶層是由 3 類用戶進(jìn)程構(gòu)成，被分別稱為客戶(client)、元數(shù)據(jù)管理器(manager)和存儲(chǔ)服務(wù)器(storage)，它們協(xié)調(diào)工作，共同完成核心層轉(zhuǎn)發(fā)過來的I/O請(qǐng)求。

    其中storage實(shí)現(xiàn)具體的數(shù)據(jù)存儲(chǔ)， client完成數(shù)據(jù)及元數(shù)據(jù)的緩存，而manager負(fù)責(zé)緩存一致性的維護(hù)及元數(shù)據(jù)的存儲(chǔ)管理。需要存取 COSMOS 文件系統(tǒng)的節(jié)點(diǎn)要配置 client，本地磁盤上存有 COSMOS 子文件數(shù)據(jù)的節(jié)點(diǎn)要配置 storage，對(duì)于 manager，通常是平均每數(shù)個(gè)節(jié)點(diǎn)才配置一個(gè)。

    COSMOS 中文件數(shù)據(jù)的定位是由管理服務(wù)器來完成的，并且在 COSMOS 中實(shí)現(xiàn)的是分布式的元數(shù)據(jù)管理機(jī)制以提供可擴(kuò)展的定位服務(wù)。另外，管理服務(wù)器的另一個(gè)任務(wù)是維持緩存的一致性。在 COSMOS 中，每一個(gè)管理服務(wù)器負(fù)責(zé)維護(hù)整個(gè)文件系統(tǒng)的一個(gè)子集的位置信息，管理服務(wù)器可以應(yīng)用這種信息來轉(zhuǎn)發(fā) I/O 需求到正確的位置信息（合作緩存或附屬存儲(chǔ)器）。管理服務(wù)器也控制對(duì)相同數(shù)據(jù)塊的并行存取。COSMOS 利用一個(gè)管理服務(wù)器映射來實(shí)現(xiàn)分布式元數(shù)據(jù)管理。這種映射包括了一系列的機(jī)器標(biāo)志符，運(yùn)用這個(gè)可以知道哪個(gè)機(jī)器管理文件系統(tǒng)的哪一部分子集。

相比較 xFS，COSMOS 的低層是基于 JFS 來實(shí)現(xiàn)的，沒有實(shí)現(xiàn)日志管理功能，因此元數(shù)據(jù)的內(nèi)容和組織是不同的。在 COSMOS 中，沒有必要記錄在一個(gè)節(jié)點(diǎn)中記錄每個(gè)數(shù)據(jù)塊的磁盤位置信息，而是“塊組 ID，起始節(jié)點(diǎn)”對(duì)信息被記錄在節(jié)點(diǎn)中。起始節(jié)點(diǎn)標(biāo)志了起始?jí)K存儲(chǔ)在哪個(gè)機(jī)器上。因?yàn)椴煌木彺嬉恢滦詤f(xié)議，緩存相關(guān)的元數(shù)據(jù)的內(nèi)容和組織也是不相同的。為了減少網(wǎng)絡(luò)的負(fù)載，COSMOS 直接將元數(shù)據(jù)和目錄文件存儲(chǔ)在管理服務(wù)器上，這是與 xFS 不同的另一個(gè)方面，在 xFS 中，目錄文件和元數(shù)據(jù)都存儲(chǔ)在存儲(chǔ)服務(wù)器上，這是由 xFS 采用的日志結(jié)構(gòu)所決定的。

GPFS：商業(yè)并行文件系統(tǒng)代表
我們?cè)倏纯?/span> GPFS 這個(gè)商業(yè)產(chǎn)品，GPFS 是用于 IBM Linux 集群系統(tǒng)的高性能、可擴(kuò)展、并行文件系統(tǒng)。它可以通過所有的集群節(jié)點(diǎn)來共享文件。GPFS 可以充分利用 IBM Linux 集群系統(tǒng)中的“虛擬”共享磁盤，使得在多節(jié)點(diǎn)上運(yùn)行的多個(gè)應(yīng)用程序可以同時(shí)讀寫同一文件；它包含了 IBM 可擴(kuò)展集群系統(tǒng)技術(shù)（RSCT），可將存儲(chǔ)內(nèi)容自動(dòng)恢復(fù)到活節(jié)點(diǎn)；在發(fā)生故障時(shí)，記錄（日志）能夠快速恢復(fù)數(shù)據(jù)，并恢復(fù)數(shù)據(jù)的一致性；具有文件訪問的單一鏡像，可以從任意節(jié)點(diǎn)訪問文件，而無需改變應(yīng)用程序。

GPFS文件管理模式

在 GPFS 中，通過它的共享磁盤結(jié)構(gòu)來實(shí)現(xiàn)它的強(qiáng)大的擴(kuò)展性，一個(gè) GPFS 系統(tǒng)由許多集群節(jié)點(diǎn)組成，GPFS 文件系統(tǒng)和應(yīng)用程序在上面運(yùn)行。這些節(jié)點(diǎn)通過光纖交換機(jī)連接磁盤和子磁盤。所有的節(jié)點(diǎn)對(duì)所有的磁盤有相同的訪問權(quán)。文件被分割存儲(chǔ)在文件系統(tǒng)中所有的磁盤 #p#page_title#e#上。用來連接文件系統(tǒng)和磁盤的光纖通道是由存儲(chǔ)區(qū)域網(wǎng)(SAN)所組成，例如光纖通道或者 iSCSI。還有個(gè)別的磁盤依附于一些 I/O 節(jié)點(diǎn)，它們通過一個(gè)運(yùn)行在通用的網(wǎng)絡(luò)上的軟件層來實(shí)現(xiàn)存取，例如 IBM 的運(yùn)行于 SP switch 上的虛擬共享磁盤。

GPFS 依靠一個(gè)組服務(wù)層，通過監(jiān)測(cè)節(jié)點(diǎn)和通訊連接出錯(cuò)的早期征兆，來監(jiān)測(cè)節(jié)點(diǎn)錯(cuò)誤，并且提供了一個(gè)組成員協(xié)議。當(dāng)一個(gè)節(jié)點(diǎn)出現(xiàn)錯(cuò)誤時(shí)，這個(gè)服務(wù)層通知其余的節(jié)點(diǎn)組成員變化了，通過早期的行為來觸發(fā)恢復(fù)程序。導(dǎo)致通訊失敗的原因，如網(wǎng)絡(luò)適配器損壞、線纜松動(dòng)導(dǎo)致孤立節(jié)點(diǎn)、光纖交換機(jī)可以產(chǎn)生了一個(gè)不可識(shí)別的網(wǎng)絡(luò)分區(qū)等。

因?yàn)?/span> GPFS 把數(shù)據(jù)和元數(shù)據(jù)條塊化存儲(chǔ)在文件系統(tǒng)中的所有磁盤上，所以損失單個(gè)磁盤也會(huì)不同程度的影響文件。因此，典型的 GPFS 用雙重附帶的 RAID 控制器。大型的 GPFS 文件系統(tǒng)分布在多個(gè) RAID 上，這種情況下，文件系統(tǒng)塊大小和 RAID 的匹配就非常重要，這樣可以防止寫數(shù)據(jù)時(shí)發(fā)生奇偶校驗(yàn)的錯(cuò)誤。

作為 RAID 的替代或補(bǔ)充，GPFS 支持替代機(jī)制，它為每個(gè)數(shù)據(jù)和元數(shù)據(jù)塊都分配空間，將兩份拷貝存在兩個(gè)不同的磁盤上。當(dāng)一個(gè)磁盤不可靠時(shí)，GPFS會(huì)追蹤上面文件塊的更新，以便磁盤恢復(fù)時(shí)恢復(fù)數(shù)據(jù)。如果磁盤完全無效了，它會(huì)用備份來代替所有可能影響到其他磁盤的塊。數(shù)據(jù)和元數(shù)據(jù)可以單獨(dú)的運(yùn)行這種恢復(fù)機(jī)制。事實(shí)上當(dāng)一個(gè)磁盤部分磁道不可讀時(shí)，元數(shù)據(jù)的恢復(fù)保證了只需要恢復(fù)很少的幾個(gè)數(shù)據(jù)塊，而不需要徹底的去恢復(fù)很多文件。

PVFS：虛擬并行文件系統(tǒng)
PVFS用來為運(yùn)行 Linux 操作系統(tǒng)的 PC 群集創(chuàng)建一個(gè)開放源碼的并行文件系統(tǒng)。PVFS 已被廣泛地用作臨時(shí)存儲(chǔ)的高性能的大型文件系統(tǒng)和并行 I/O 研究的基礎(chǔ)架構(gòu)。作為一個(gè)并行文件系統(tǒng)，PVFS將數(shù)據(jù)存儲(chǔ)到多個(gè)群集節(jié)點(diǎn)的已有的文件系統(tǒng)中，而且多個(gè)客戶端可以同時(shí)訪問這些數(shù)據(jù)。

PVFS 具有很多優(yōu)點(diǎn)，它可以提供一個(gè)全局命名空間，可以將數(shù)據(jù)分配到多個(gè)磁盤上，并且允許使用不同的用戶界面，還可以包含其它的 I/O 接口來支持大型文件。該并行文件系統(tǒng)最早是Clemson 大學(xué)的并行虛擬文件系統(tǒng)（PVFS）項(xiàng)目，由于該并行文件系統(tǒng)可開放源代碼進(jìn)行二次開發(fā)，因此在高性能計(jì)算系統(tǒng)的并行文件系統(tǒng)中占有獨(dú)特的地位。

為高速訪問群集中的文件系統(tǒng)，PVFS 將文件數(shù)據(jù)進(jìn)行條塊化劃分，分散存儲(chǔ)到某些群集節(jié)點(diǎn)（稱作 I/O 節(jié)點(diǎn)）的多個(gè)磁盤上。條塊化數(shù)據(jù)的方法可在群集上提供相當(dāng)大的存儲(chǔ)容量，具體容量取決于群集中節(jié)點(diǎn)的數(shù)量。PVFS 所帶來的存儲(chǔ)容量可以為用戶提供整個(gè)集群內(nèi)的大型全局操作空間。

與很多網(wǎng)絡(luò)文件系統(tǒng)或并行文件系統(tǒng)一樣，PVFS 是利用客戶端－服務(wù)器架構(gòu)實(shí)現(xiàn)的。它利用一組協(xié)作的用戶空間進(jìn)程（daemon），提供一個(gè)群集范圍內(nèi)的一致的命名空間，并將數(shù)據(jù)條塊化，分配到多個(gè)群集節(jié)點(diǎn)中。

PVFS 客戶和服務(wù)器之間的消息傳遞通過 TCP/IP 來完成，提供可靠的通訊環(huán)境。所有的 PVFS 文件系統(tǒng)數(shù)據(jù)都保存在 I/O 節(jié)點(diǎn)的本地文件系統(tǒng)中，本地的文件系統(tǒng)可以是一個(gè)硬盤驅(qū)動(dòng)器上的一個(gè)分區(qū)，可以是整個(gè)磁盤驅(qū)動(dòng)器，也可以利用本地所支持的 Linux 文件系統(tǒng)（例如 ext2，ext3 和 ReiserFS）所提供的多個(gè)磁盤驅(qū)動(dòng)器的邏輯卷。

PVFS 使用管理節(jié)點(diǎn)，I/O 節(jié)點(diǎn)和計(jì)算節(jié)點(diǎn)三種類型的節(jié)點(diǎn)。一個(gè)群集節(jié)點(diǎn)可以提供其中的一種功能，也可以同時(shí)提供其中的兩種功能或三種功能。但是 PVFS 還是存在不少問題，比方說它的集中的元數(shù)據(jù)管理可能成為整個(gè)系統(tǒng)的瓶頸，可擴(kuò)展性受到一定限制。還有它的系統(tǒng)中的數(shù)據(jù)沒有采取相應(yīng)的容錯(cuò)機(jī)制，系統(tǒng)的可用性有待提高。由于是采用的靜態(tài)配置，因此不具備動(dòng)態(tài)擴(kuò)展性。

Lustre：前景廣闊的分布式并行文件系統(tǒng) #p#page_title#e#
最后我們談?wù)労苡星熬暗姆植际讲⑿形募到y(tǒng)——Lustre。Lustre 是 HP，Intel，Cluster File System 公司聯(lián)合美國(guó)能源部開發(fā)的 Linux 集群并行文件系統(tǒng)。該系統(tǒng)目前推出 1.4.6 的發(fā)布版本，是第一個(gè)基于對(duì)象存儲(chǔ)設(shè)備的，開源的并行文件系統(tǒng)。整個(gè)系統(tǒng)由客戶端，兩個(gè) MDS，OSD 設(shè)備池通過高速的以太網(wǎng)所構(gòu)成。目前可以支持 1000 個(gè)客戶端節(jié)點(diǎn)的 I/O 請(qǐng)求，兩個(gè) MDS采用共享存儲(chǔ)設(shè)備的 Active－Standby 方式的容錯(cuò)機(jī)制，存儲(chǔ)設(shè)備跟普通的，基于塊的 IDE 存儲(chǔ)設(shè)備不同，是基于對(duì)象的智能存儲(chǔ)設(shè)備。

Lustre分布式并行文件系統(tǒng)

Lustre 采用分布式的鎖管理機(jī)制來實(shí)現(xiàn)并發(fā)控制，元數(shù)據(jù)和文件數(shù)據(jù)的通訊鏈路分開管理。與 PVFS 相比，Lustre 雖然在性能，可用行和擴(kuò)展性上略勝一躊，但它需要特殊設(shè)備的支持，而且分布式的元數(shù)據(jù)服務(wù)器管理還沒有實(shí)現(xiàn)。下一個(gè)版本的 Lustre 系統(tǒng)將會(huì)加入分布式元數(shù)據(jù)管理，使得其性能得到進(jìn)一步的提升。

我們期待并行文件系統(tǒng)的發(fā)展，作為網(wǎng)絡(luò)集群系統(tǒng)的重要組成部分，并行文件系統(tǒng)的發(fā)展將會(huì)向著高可用性、可擴(kuò)展性和高可靠性方向發(fā)展，像分布式的元數(shù)據(jù)管理這些技術(shù)將會(huì)不斷的應(yīng)用和改進(jìn)到分布式并行文件系統(tǒng)中，我們期待著這個(gè)領(lǐng)域的繼續(xù)突破。

關(guān)閉此頁

上一篇：在Linux系統(tǒng)下遠(yuǎn)程圖形化管理的幾種方法

下一篇：Win2008 HPC server集群作業(yè)管理之創(chuàng)建步驟

相關(guān)文章

工程技術(shù)(工科)專業(yè)工作站/服務(wù)器硬件配置選型

新聞排行榜

最新信息

應(yīng)用導(dǎo)航:

工作站產(chǎn)品中心京東商城中關(guān)村商城淘寶商城超高分可視化商城便攜工作站商城 ANSYS CATIA Microsoft INTEL NVIDIA 網(wǎng)站統(tǒng)計(jì)