親歷驚心48小時(shí)搶救35億交易數(shù)據(jù)
以前總聽說老大們遇到DOWN機(jī)的事情怎樣怎樣,多么急迫怎樣怎樣,但卻一直沒有感覺,總以為老大們言過其實(shí)。但是前不久一次真實(shí)的經(jīng)歷,讓我終于對存儲工程師這一職業(yè)有了更深層的認(rèn)識……
起因是某月某日某時(shí),我的一個哥們準(zhǔn)備在新上的IBM DS4800盤陣上做RAID,剛剛做完時(shí)鐘同步,就看見客戶方所有的技術(shù)人員一陣風(fēng)似的全部沖進(jìn)了機(jī)房,帶頭的主管劈頭就是一句:你們干什么了?不待我們緩過神來,6、7個人就開始瘋狂的查找各自負(fù)責(zé)的部分。“趕快,趕快,查找原因!”
在過后的幾個小時(shí)情況調(diào)查的時(shí)候,我們終于知道,當(dāng)時(shí)的盤陣上面存儲著該客戶35億的交易記錄和10條要人命的信息!然而,當(dāng)我哥們完成時(shí)鐘同步的操作后,盤陣上的所有Volumn Group全部不見!
噩夢開始,35億交易記錄不翼而飛
只見客戶方6、7個人分別查找各自的原因,數(shù)據(jù)庫配置,光纖交換機(jī),網(wǎng)絡(luò),主機(jī)上的應(yīng)用,甚至電源、機(jī)柜都一一仔細(xì)檢查過,統(tǒng)統(tǒng)沒有問題。于是,所有人的目光都轉(zhuǎn)向了我們:你們到底做了什么?
我們一下子也沒回過神:“只是,只是在還沒有使用的盤陣上做了時(shí)鐘同步,怎么會和生產(chǎn)系統(tǒng)扯上關(guān)系?”
大家的目光隨即投向了連接KVM和盤陣的HUB。咦?上邊怎么還有兩根線纜?那么我們現(xiàn)在操作的這兩根線纜是?……生產(chǎn)系統(tǒng)盤陣上的!而且使用的是默認(rèn)IP??!.....我的天!我們前面的操作是做在哪里了???為什么沒有出現(xiàn)IP沖突?
這時(shí)我們才意識到我們犯了什么樣的錯誤:我們將KVM連在了生產(chǎn)系統(tǒng)的HUB上,對客戶新上的盤陣DS4800和原有生產(chǎn)系統(tǒng)上的盤陣DS4300同時(shí)做了一個DEMO,并進(jìn)行了時(shí)鐘同步,于是,所有的Volumn Group掉下去了,生產(chǎn)停止了……
四處支援,各路神仙愛莫能助
搞清楚狀況后,已經(jīng)2個小時(shí)過去了。客戶方的人也不再理我們,所有的人開始打電話,尋求技術(shù)支持。在此后的4個小時(shí)中,分別有來自各方的支持陸續(xù)趕到,其中包括原設(shè)備維護(hù)廠商,新設(shè)備廠商、總代。以及陸續(xù)到來的7位IBM的工程師。我哥們至少20次的向各路神仙說明故障原因,客戶方也不停的展示目前盤陣的狀況,但事情仍然陷入僵局……
在我們感嘆客戶方主管巨大能力的同時(shí),也被打入冷宮了,被安排在一個辦公室里不能出來,更別說進(jìn)機(jī)房。還好客戶方還允許我們繼續(xù)找人支持和打800報(bào)修,所以我也有機(jī)會看了一眼客戶受重創(chuàng)后的盤陣,除了ROOTVG,其他的全都沒了,就好像連在一個完全空白的新盤陣一樣,我當(dāng)時(shí)那個汗??!
回到辦公室繼續(xù)打800報(bào)修,提示音之后是長時(shí)間的廢話,我一遍一遍的報(bào)上姓名地址,說明情況,無論你磨破嘴皮,只有一個結(jié)果:除了產(chǎn)品硬件故障不能派人解決。我狂暈!
先來的是我們找的代理商方面的小型機(jī)和存儲技術(shù)支持,分別來的3個人同一個看法,這些操作按道理不會出現(xiàn)這樣的狀況,除了重新啟動下看看情況以外好像都別無辦法。
后來的總代技術(shù)明顯要略勝一籌,從了解實(shí)情經(jīng)過的方式和建議都是更加的謹(jǐn)慎,看得出來經(jīng)驗(yàn)豐富。他在打電話給他的公司的時(shí)候加上意味深長的一句:記住這個教訓(xùn)吧。但是結(jié)論仍然是沒有什么辦法。
與此同時(shí),公司通過其它渠道聯(lián)系上IBM工程師,于是大家苦等IBM工程師。
在此之前總有耳聞,說現(xiàn)在的IBM工程師水平也是一般,于是在心理并沒有對他們有多大的期待,心想用戶就是迷信,干脆重起得了。事情發(fā)生后4個小時(shí),所有人都看完了現(xiàn)場以后,IBM工程師到了。先是2位,再來又是2位,然后是3位。分別來自不同的TEAM負(fù)責(zé)不同的系統(tǒng),有負(fù)責(zé)小機(jī)的,有負(fù)責(zé)存儲的,還有售前方案的,但是他們在一起卻能很好的協(xié)商和達(dá)成一致,沒有人口出狂言或者輕舉妄動。這里不得不客觀評價(jià),IBM工程師還是訓(xùn)練有素。 #p#page_title#e#
實(shí)在是我們的誤操作愚蠢得太不可原諒,最后IBM的7位工程師也不敢貿(mào)然給出任何的動作和建議,唯一的舉措就是將現(xiàn)場情況抓圖整理,上傳給2線。希望有人在線,能有解決的辦法……
然后,IBM的工程師也走了……
緊急預(yù)案,又出節(jié)外生枝
與此同時(shí),客戶方也臨時(shí)召開緊急會議,經(jīng)討論后給我們公布了他們的緊急預(yù)案措施:凍結(jié)原有的業(yè)務(wù)存儲系統(tǒng)DS4300,連夜在新的存儲系統(tǒng)DS4800上做RAID,建Volumn Group,將所有應(yīng)用和數(shù)據(jù)轉(zhuǎn)移,先讓系統(tǒng)跑起來,數(shù)據(jù)再說。于是,大家紛紛給家人電話或者短信“今晚通宵加班,我不回去了。“
這時(shí)回到那兩臺為了配置它們而闖禍的DS4800面前,它們卻嚇得再不敢抬眼看我們,死活就是不和我們的管理系統(tǒng)連接。。。。氣得我•##¥%……—
客戶算是有水平了,并沒有在這個時(shí)候追究責(zé)任。而是讓我們?nèi)ヌ幚韱栴},如果這個問題都沒處理好。那,那。。。。。
看來連DS4800也指望不上的時(shí)候,一直在一邊幫助客戶協(xié)調(diào)跑前跑后的我們公司的銷售經(jīng)理突然對我說:“你跑一趟,和XXX聯(lián)系,這是電話,拉一臺DS4300回來,再帶6塊300G的硬盤,就對他說是X總叫你來取的。”我當(dāng)時(shí)那個樂啊!趕緊屁顛屁顛的就打車過去了(那時(shí)都半夜了)。到了銷售說的地方,領(lǐng)到機(jī)器,也顧不得新洗的白衣服了,和司機(jī)、庫管一起把機(jī)器扛到了車上。
車剛要發(fā)動返回客戶現(xiàn)場,就收到銷售的短信:硬盤拿了么?車還沒開到客戶大門,老遠(yuǎn)就看見銷售在門口蹲著等著了……所有的人都在期待這臺DS4300,但是,新拉來的DS4300卻沒有接上……
原來,在場的人七手八腳的把這臺救命稻草DS4300抬上樓,打開箱子一瞅,樂了。原來打算用6塊300G的硬盤做臨時(shí)空間有點(diǎn)緊張,只能做RAID5,不能做hotspare,沒想到上面整整齊齊的插著7塊146G的硬盤,再加上6塊300G硬盤,嘿,這下夠了!
銷售在這個時(shí)候還不忘打趣:“慢點(diǎn)慢點(diǎn),這可是咱們的最后一棵救命稻草,有了它我就算是有了一條活路,沒它我就得從這窗戶口跳下去了。嘿嘿。。”要知道,當(dāng)時(shí)我們可是在19層的機(jī)房啊。
上好架,通上電,開始練。第一個分區(qū)100G,ok!第二個分區(qū),400G,咦?怎么出錯了?
再來一遍還是不行!這時(shí)候,一直鎮(zhèn)定的,老練的,不懂技術(shù)的銷售一直直勾勾瞅著屏幕,憋不住了問一句:“這是怎么回事?”操刀的哥們沒有回答,讓我把某一塊盤拔出來,等一下再插上……故障依舊,關(guān)掉再開盤柜……故障還是依舊……
柳暗花明,35億交易數(shù)據(jù)失而復(fù)得
銷售看不下去了,但是畢竟好涵養(yǎng),壓了壓焦慮的心情,拉我到外面抽煙去了。煙霧繚繞中,給我講了上次誤操作將一所大學(xué)的學(xué)籍檔案全部刪除的事情……。最后,掐滅了煙頭:“走,回去看看!”
回到機(jī)房,RAID居然已經(jīng)做好了。問了我哥們,原來是這樣:這臺DS4300上原來的幾塊盤是做過RAID的,但是缺少了一塊。于是盤陣總認(rèn)為后來插上的硬盤就是原來缺的那塊硬盤,但實(shí)際上不是,而且我們還插了不止一塊盤,所以就出錯了。
哥們將所有的盤都拔出去,再將盤陣重起,清除里面的信息,再關(guān)閉,把盤都插回去,就一切OK了。
哦,這樣啊!心算是放回肚子里了。再接著就是普通的劃區(qū)后的工作,忙到了天亮。
這邊問題暫時(shí)解決了,但原來的陣列還一動不動躺在那里,里面的數(shù)據(jù)仍然沒法兒拿出來,所有人的希望也就寄托在IBM的二線上,希望他們能夠拿出最佳的解決方案來。 #p#page_title#e#
第二天早上9點(diǎn)整,IBM的工程師來了,并且?guī)砹?線的解決方案。很可惜具體的操作方式他們不肯透露,大意是將上面的RAID按照原來最初的重新做一遍。由IBM的工程師講解方案,客戶方系統(tǒng)維護(hù)人員操作。整個恢復(fù)過程中,現(xiàn)場氣氛緊張啊,連插拔光纖的動作都做得極為謹(jǐn)慎,所有操作完成后,一查看,35億的交易數(shù)據(jù)總算是失而復(fù)得!
當(dāng)時(shí)那個興奮啊,要是有蛋糕都能開個PARTY!然后是一些后續(xù)的工作,又忙了大半天才結(jié)束。
走出客戶的大廈時(shí)正是第二天中午,我這才意識到已經(jīng)2天沒有看到這輪太陽了,沐浴在久違的陽光下,發(fā)現(xiàn)周圍的一切都是這樣的美好!
后記:噩夢方醒不忘經(jīng)驗(yàn)教訓(xùn)
曾經(jīng)聽老大們講過,小型機(jī)和存儲盤陣的操作都極為復(fù)雜,很多地方和PC機(jī)器完全不同。操作PC機(jī)的,可以經(jīng)常自己嘗試和摸索,但在小型機(jī)和存儲系統(tǒng)上瞎鼓搗就是自己找死。只要做過客戶系統(tǒng)維護(hù)的人員都能深切感受到這份壓力,不少都曾經(jīng)親身經(jīng)歷過這種要人命的時(shí)刻。曾經(jīng)聽說過有人深夜3點(diǎn)打車去五百里之外,和夜里9點(diǎn)打車去千里之外的情況,一旦客戶系統(tǒng)發(fā)生問題,影響業(yè)務(wù)運(yùn)營,就是打飛機(jī)也一定要趕到客戶現(xiàn)場。
還有一個問題就是,由于實(shí)施維護(hù)的時(shí)候壓力大強(qiáng)度大,所以經(jīng)常工作到深夜,加上開的窗口會比較多,這個時(shí)候是極易出現(xiàn)人為錯誤的時(shí)候。所以老大們告誡我們,再復(fù)雜的工作一定要一步一步按部就班,另外每做一步操作,保留數(shù)據(jù)的備份是極其重要的,否則敲錯一個命令,就有可能帶來追悔莫及的損失,而這樣的例子也的確不在少數(shù)。
上周四剛剛將借來的那臺DS4300還了回去,仍然記得那天打車去取這臺機(jī)器的緊張勁兒。心中不免還是有點(diǎn)那么擔(dān)心:如果給的方案不好用呢?如果這臺備機(jī)不好使呢?如果在后面長時(shí)間、高負(fù)荷、緊張的情況下操作失誤呢?如果再有其他設(shè)備的損壞?如果……我實(shí)在不敢想象下去了。如果,這件事能給所有的同行一點(diǎn)幫助,我就會很欣慰了。