Google數(shù)據(jù)庫中心眼里的服務(wù)器揭秘
- 摘要:在Google I/O會議上,Jeffrey Dean略微透露一點Google龐大數(shù)據(jù)庫中心服務(wù)器的內(nèi)部情況,在Dean眼里,1,800臺的服務(wù)器集群根本是小菜一碟:
- 標簽:數(shù)據(jù)庫中心服務(wù)器
沒人確切知道搜索巨人有多少臺服務(wù)器,但以小可見大:一次簡簡單單的搜索查詢就要動用到700到1000臺服務(wù)器.根據(jù)現(xiàn)有的資料,Google有36個數(shù)據(jù)庫中心服務(wù)器,每個數(shù)據(jù)庫中心有150個柜式服務(wù)器,每個柜含40臺服務(wù)器,這樣計算起來Google擁有的服務(wù)器超過20萬臺,這個數(shù)字每天還在增加.
在Google I/O會議上,Jeffrey Dean略微透露一點Google龐大數(shù)據(jù)庫中心服務(wù)器的內(nèi)部情況,在Dean眼里,1,800臺的服務(wù)器集群根本是小菜一碟:
Dean說,更多的硬件并不意味著可靠性更高,你還需要在軟件層次上提高可靠性.“如果你運行1萬臺機器,肯定每天都會有問題發(fā)生.”
Dean用了一個計算機集群來說明硬件故障頻率,他說,“在一個集群上線的第一年,會有1000臺獨立的機器發(fā)生故障,數(shù)以千計的硬盤故障,一個分布式電力單元出問題,500到1,000臺機器下線6小時;20個柜式服務(wù)器會出現(xiàn)問題;每次會導(dǎo)致40到80臺機器從網(wǎng)絡(luò)中消失;5個柜會變得不可靠,通過其中的一半信息包會丟失;集群需要更換一次連接的電線,每次會影響5%的機器停止工作兩天.”
Dean還稱,一個集群有50%的幾率過熱,不到5分鐘內(nèi)整個服務(wù)器癱瘓,需要花1到2天時間去恢復(fù).
以上情況真的說明了,Google龐大數(shù)據(jù)庫中心服務(wù)器的內(nèi)部情況,在Dean眼里,1,800臺的服務(wù)器集群根本是小菜一碟。