揭開Google數(shù)據(jù)中心五大神話
各種媒體上關(guān)于Google的數(shù)據(jù)中心有很多文章,包括他們?cè)鯓舆M(jìn)行數(shù)據(jù)中心的運(yùn)營(yíng)、管理和分析,造成了一大批Google的神話,但這里有些并不準(zhǔn)確,這是我從與Google的工程師與數(shù)據(jù)中心生態(tài)系統(tǒng)的專家們討論后得出的結(jié)論。
雖然表面上看Google正在做的就是數(shù)據(jù)中心的最佳實(shí)踐,但并非總是如此。Google數(shù)據(jù)中心的運(yùn)轉(zhuǎn)是為他們的業(yè)務(wù)——廣告收入而服務(wù)的。而重要的是你的數(shù)據(jù)中心應(yīng)該為你的企業(yè)服務(wù),而不是為了Google。每當(dāng)我談到這里,總是會(huì)聽到一些數(shù)據(jù)中心的專業(yè)人員叫著“天啊”,這讓人無法理解,因?yàn)橛锰O果(Google的內(nèi)容交付)和桔子(企業(yè)應(yīng)用)相比是不公平的。你的目標(biāo)和Google的并不一致,你以可用性和可靠性為重點(diǎn),而Google則更重視對(duì)可用性的成本控制。
閑話少說,下面就是我所認(rèn)為的Google數(shù)據(jù)中心的五大神話。
神話1:Google的業(yè)務(wù)關(guān)鍵應(yīng)用和廣告系統(tǒng)都運(yùn)行在PUE 1.2的數(shù)據(jù)中心上。
這大概是最大的神話。Google運(yùn)行著兩種類型的IT系統(tǒng):內(nèi)容交付和關(guān)鍵業(yè)務(wù)服務(wù)。讓我們來看看Google這兩種類型的數(shù)據(jù)中心各有什么目標(biāo)。
首先是內(nèi)容交付,這是一種基于Google文件系統(tǒng)與MapReduce模型的軟硬件系統(tǒng),是YouTube、GMail和Google Apps保存所有數(shù)據(jù)的地方。內(nèi)容交付系統(tǒng)必須保證絕大部分時(shí)間可用,但Google早已為一些冗余故障和斷電問題設(shè)置的是一些道歉的消息。在這種環(huán)境里他們可以這樣做,因?yàn)檫@里可用性并不是頭號(hào)要求。內(nèi)容交付系統(tǒng)遵循的原則是成本最小化利潤(rùn)最大化,這些確實(shí)是PUE非常非常低的大型設(shè)施。
關(guān)鍵業(yè)務(wù)服務(wù)包括Google的內(nèi)部事務(wù),比如保持企業(yè)的日常運(yùn)行(客戶管理和人力資源等內(nèi)部系統(tǒng)),以及他們用來發(fā)布廣告和收錢的廣告系統(tǒng)。如果沒有這些系統(tǒng),Google作為一個(gè)企業(yè)就不存在。這些系統(tǒng)是異構(gòu)的,各種軟件包運(yùn)行在各種各樣的常規(guī)硬件上。這些系統(tǒng)可是Google的命脈,因此可用性是第一位的。這些常規(guī)設(shè)施的最佳實(shí)踐的PUE大概在1.5和1.9之間,Google從沒有透露有關(guān)這些設(shè)施的資料。
神話2:Google使用PUE作為管理數(shù)據(jù)中心的主要指標(biāo)。
雖然PUE的確是Google的一個(gè)重要指標(biāo),但它更多是充當(dāng)衡量怎樣把成本降到最低的手段,Google的工程師們告訴我他們還是根據(jù)“業(yè)務(wù)單位”(比如YouTube和GMail)的單位收益率來衡量的。當(dāng)然我很贊賞Google納入PUE這個(gè)指標(biāo),但希望他們會(huì)公開承認(rèn)管理IT底層架構(gòu)的真實(shí)方法。
神話3:Google使用可再生能源來給數(shù)據(jù)中心供電。
雖然Google確實(shí)使用可再生能源來給許多設(shè)備供電,但這些設(shè)備目前沒有任何跡象表明這些設(shè)備是大量用在Google的數(shù)據(jù)中心里的。即使是最先進(jìn)的太陽(yáng)能設(shè)計(jì)(這來自艾默生而不是Google)也只能給數(shù)據(jù)中心提供16%的小部分電力,而且使用太陽(yáng)能還要面對(duì)太陽(yáng)下山的問題。
當(dāng)Bloom Energy拿出小型的電池盒Bloom Box時(shí),他們稱Google已經(jīng)測(cè)試了18個(gè)月,測(cè)試是在Google山景城的總部進(jìn)行的,而且他們說已經(jīng)Bloom Box是98%可靠的(可用的)。雖然這是燃料電池在擴(kuò)展性和可靠性的偉大一步,但目前的可靠性還不足以支撐任何數(shù)據(jù)中心。當(dāng)許多記者發(fā)現(xiàn)Google是他們的客戶時(shí)他們立即得出結(jié)論說Google的數(shù)據(jù)中心已經(jīng)在使用了。不,這不是真的,他們只是測(cè)試而已。
神話4:Google battery-on-server(服務(wù)器上的電池)技術(shù)提供了一個(gè)更強(qiáng)大的能源備份解決方案。
Google的內(nèi)容交付數(shù)據(jù)中心的服務(wù)器設(shè)計(jì)包括了一個(gè)鉛酸電池備份的12V系統(tǒng),而不使用中央U(xiǎn)PS。這種電池?fù)?jù)說可以在斷電后幾分鐘內(nèi)恢復(fù)供電,但注意,如果不成功,還需要另外的備用發(fā)電機(jī)來供電,這是Google在數(shù)據(jù)中心效率峰會(huì)上特別指出的,“如果發(fā)電機(jī)在幾分鐘內(nèi)無法啟動(dòng),這說明你有更大的麻煩,因此最好有一個(gè)以上的斷電保護(hù)策略。”
這重新回到可用性與效率的選擇上,Google再次選擇了成本。傳統(tǒng)的UPS電源系統(tǒng)可以支持?jǐn)?shù)據(jù)中心一個(gè)小時(shí)或更多,電池系統(tǒng)則可以將運(yùn)行時(shí)間延長(zhǎng)的更長(zhǎng)。battery-on-server基本上不能擴(kuò)展,但它確實(shí)提供了一個(gè)分布式的電池備份,消除了傳統(tǒng)設(shè)計(jì)對(duì)中央U(xiǎn)PS的需要。 #p#page_title#e#
神話5:你的數(shù)據(jù)中心應(yīng)該準(zhǔn)備與Google同樣的標(biāo)準(zhǔn)。
讓我們來看看,Google的內(nèi)容交付數(shù)據(jù)中心在完全一樣的物理架構(gòu)上運(yùn)行著單一應(yīng)用。但你的數(shù)據(jù)中心中運(yùn)行的是ERP、CRM、HR、交易和網(wǎng)絡(luò)應(yīng)用。這些應(yīng)用具有不同的架構(gòu)以及在服務(wù)、可用性與性能上的不同要求。
雖然Google的內(nèi)容交付數(shù)據(jù)中心在執(zhí)行任務(wù)時(shí)的表現(xiàn)非常好,但它們與一個(gè)運(yùn)行關(guān)鍵業(yè)務(wù)的企業(yè)數(shù)據(jù)中心是截然不同的。管理好你的團(tuán)隊(duì)以及員工做好溝通是更重要的,因?yàn)檫@時(shí)候談?wù)?ldquo;我的PUE比你更低”或者“我的PUE和Google相同”是最沒有意義的,因?yàn)槟闾峁┑姆?wù)和Google所提供的完全不同。
除了這五個(gè),當(dāng)然還有更多的神話。但我們應(yīng)該了解的不是怎樣追隨某個(gè)內(nèi)容交付系統(tǒng),而是如何最好的運(yùn)行企業(yè)數(shù)據(jù)中心,而并找出優(yōu)化企業(yè)的最佳實(shí)踐。(編譯/小龍)