Xeon X5570與六核Opteron 2435伊斯坦布爾性能較量
數(shù)周之前國外有網(wǎng)站Advanced Clustering Technologies對英特爾Nehalem和AMD“伊斯坦布爾”的平臺做了高性能 Linpack(簡稱HPL)對比測試(國際上最流行的用于測試高性能計算機系統(tǒng)浮點性能的benchmark,通過對高性能計算機采用高斯消元法求解一元N次稠密線性代數(shù)方程組的測試,評價高性能計算機的浮點性能),種種測試結(jié)果表明AMD“伊斯坦布爾”戰(zhàn)勝了英特爾Nehalem平臺。
至強5500與六核皓龍“伊斯坦布爾”代表了英特爾與AMD最新的技術(shù)
至強5500系列和皓龍2400系列HPL對比測試,皓龍勝
此項對比測試的目的只有一個:展示GFLOPS(每秒鐘進行10 億次浮點運算的工作能力)的峰值。理論上每個系統(tǒng)GFLOPS峰值取決于處理器核心的數(shù)量、主頻和IPC(Instructions Per Clock Cycle,指令/時鐘周期)。幾年前上一代的處理器也只能做兩個IPC,而最新的處理器在全新架構(gòu)的幫助下能夠達到四個IPC。為了便于比較,較老的主頻為2.2 GHz的雙核皓龍?zhí)幚砥鞯睦碚摲逯祪H為17.6 GFLOPS每臺機器而如今四核的皓龍理論峰值卻能夠達到70.6 GFLOPS。
HPL對比測試的兩個平臺介紹,AMD方面為皓龍2435“伊斯坦布爾”系統(tǒng)(六核心,主頻2.6GHz,16GB 800MHz DDR2內(nèi)存 );英特爾方面為至強X5550 Nehalem系統(tǒng)(四核心,主頻2.66GHz,12GB 1333MHz DDR3內(nèi)存)。測試人員盡可能的保持測試平臺的平等性,同樣的電源、硬盤驅(qū)動器以及操作系統(tǒng)。內(nèi)存的容量在發(fā)揮三通道內(nèi)存架構(gòu)的Nehalem和雙通道內(nèi)存皓龍之間性能各不相同。由于該測試項目傾向于內(nèi)存容量和測試成績成正比,因此,測試人員調(diào)整了兩個平臺的內(nèi)容容量大小。
至強5500與皓龍2400系列處理器性能對比測試 |
|||||
處理器型號 |
理論峰值 |
實測峰值 |
效能 | 平臺價格 | 每GFLOP運算成本 |
Nehalem X5550 2.66GHz |
85.12 GFLOPS |
74.03 GFLOPS |
86.97% | $3,800.00 | $51.33 |
Istanbul 2435 2.6GHz |
124.8 GFLOPS |
99.38 GFLOPS |
79.63% | $3,500.00 | $35.21 |
簡而言之,在該測試中AMD“伊斯坦布爾”戰(zhàn)勝了英特爾Nehalem,其測試結(jié)果對比為99.38個gigaflop(每秒鐘至少進行10 億次浮點運算的工作能力)VS74.03個gigaflop。也許六核戰(zhàn)勝四核并不在意料之外,但考慮到英特爾支持單核心雙線程的hyperthreading技術(shù),也許會預(yù)測英特爾要在并行運算占據(jù)優(yōu)勢。而在實際應(yīng)用,我們發(fā)現(xiàn)hyperthreading技術(shù)帶來的性能的提升很大程度上取決于具體的應(yīng)用。
據(jù)Advanced Clustering Technologies的工程師介紹,在運行HPL測試軟件的時候,hyperthreading卻導(dǎo)致了一定程度上性能的削減,工程師還指出Linpack少數(shù)幾個不從hyperthreadin技術(shù)中受益的應(yīng)用之一。
在有著更高帶寬DDR3內(nèi)存的支持下,Nehalem更具計算效能(HPL峰值和理論上峰值),盡管用戶一般并不關(guān)注這些度量標(biāo)準(zhǔn),但實際上這在英特爾設(shè)計中起到了不錯的平衡系統(tǒng)的作用。討論的最多的就是價格性能測試結(jié)果,而在該測試中AMD占據(jù)了優(yōu)勢。每一個gigaflop運算成本測試成績對比為35.21美元VS 52.33美元。
HPL對比測試最后結(jié)論:AMD“伊斯坦布爾”在每GFLOP運算成本和峰值表現(xiàn)上都勝英特爾Nehalem至強一籌,這表明六核心處理器提供了強勁的浮點運算性能,但在整體性能平衡性上不及英特爾Nehalem至強。較低的效能測試結(jié)果很可能是缺乏內(nèi)存帶寬,加大“伊斯坦布爾”系統(tǒng)內(nèi)緩存輪詢所導(dǎo)致的,處理器閑置較長時間等待來自內(nèi)存的數(shù)據(jù)的同時也在檢測系統(tǒng)內(nèi)12個處理核心的緩存命中(cache hit),內(nèi)存寬帶對整個系統(tǒng)性能表現(xiàn)帶來的巨大影響。#p#page_title#e#
盡管Nehalem可能是核心性能比最高的,但是“伊斯坦布爾”通過增加兩個處理核心很好地彌補了自己的弱勢。當(dāng)用戶為自己的下一代集群式計算系統(tǒng)挑選系統(tǒng)架構(gòu)時,HPL測試成績會是唯一的標(biāo)準(zhǔn)。
然而此次針對同樣處理器平臺,測試人員又進行了STREAM測試,并將其結(jié)果公布在網(wǎng)站。據(jù)了解STREAM是HPC Challenge suite測試套件的一部分,是針對系統(tǒng)內(nèi)存帶寬的一種測試,由于內(nèi)存帶寬是整個計算系統(tǒng)中的一個最為重要的部分之一,因此STREAM的內(nèi)存帶寬測試也可以反映整個系統(tǒng)的性能水平。隨著處理器核心數(shù)量的增加,內(nèi)存帶寬在許多應(yīng)用程序中顯得越發(fā)重要,計算性能已經(jīng)悄然走到了內(nèi)存性能的前面。和HPL測試一樣,STREAM也是一項綜合性的測試,但是總的來說,如果某個應(yīng)用程序受內(nèi)存性能限制的話,那么STREAM測試就是體現(xiàn)相對性能水平的好指標(biāo)。
STREAM對比測試的結(jié)果也毫無懸念。如果按照X86競爭的思維來看的話,有著高級內(nèi)存子系統(tǒng)的英特爾Nehalem(至強5500)處理器完勝僅僅依靠上一代DDR2內(nèi)存技術(shù)的AMD“伊斯坦布爾”皓龍。
Advanced Clustering Technologies工程師Shane Corder表示,“就算是內(nèi)存性能最差的至強5500處理器性能也會比最好的皓龍?zhí)幚砥饕叱?0%,如果皓龍?zhí)幚砥饕妥顝姶蟮闹翉娞幚砥飨啾鹊脑?,那么這種性能差距會擴大至超過75%之多,至強5500之所以能夠獲得高人一籌的內(nèi)存帶寬成績,是因為三通道內(nèi)存取代了雙通道,DDR3內(nèi)存頻率的升高(高達1333MHz)以及QPI(快速通道互聯(lián))技術(shù)帶來的高速點對點處理器互聯(lián)。”
STREAM性能測試中,一個值得關(guān)注的數(shù)據(jù)不得不提:六核“伊斯坦布爾”的測試結(jié)果要略微低于四核“上海”。Advanced Clustering Technologies測試人員將其歸咎為“伊斯坦布爾”多出的兩顆處理核心需要爭取與“上海”處理器中數(shù)目一致的,僅有的兩個內(nèi)存控制器帶寬。和Linpack的測試結(jié)果一樣,反映了性價比之優(yōu)勢。
至強5500系列和皓龍2400系列STREAM對比測試,至強贏
STREAM是綜合性的內(nèi)存帶寬測試,測試成績以MB每秒來衡量。隨著處理器處理核心數(shù)量的增多,內(nèi)存帶寬對于提升整個系統(tǒng)性能越發(fā)重要,處理核心和內(nèi)存帶寬比對系統(tǒng)性能有著重大的影響,如果某個系統(tǒng)不能夠足夠迅速地將內(nèi)存中的數(shù)據(jù)傳輸?shù)教幚砥鳟?dāng)中,若干處理核心就會處于閑置狀態(tài),等待內(nèi)存數(shù)據(jù)傳輸過來,而這其中所產(chǎn)生的閑置時間不僅會降低系統(tǒng)的效率還會抵消多核心和高主頻所帶來的性能提升因素。
STREAM測試是業(yè)界廣為流行的測量內(nèi)存帶寬實際性能的工具之一,是全面的用來測試高性能計算系統(tǒng)的HPC Challenge測試套件的一部分。在討論測試結(jié)果之前,我們先來了解一下進行對比測試的處理器架構(gòu)和內(nèi)存控制器的相關(guān)信息。以下系統(tǒng)架構(gòu)圖按照內(nèi)存性能升序排列而成。
英特爾至強5400(Harpertown)
至強5400系列處理器結(jié)構(gòu)
實際上代號為“Harpertown”的英特爾至強5400處理器是由兩顆雙核處理器封裝成一個實體處理器而成,每一顆實體處理器都共享有一個前端總線(front side bus,FSB)連接。整個處理器架構(gòu)只有一個內(nèi)存控制器,而這卻是系統(tǒng)芯片組中MCH(memory controller hub)的一部分。MCH提供了指向系統(tǒng)667MHz或者800MHz的緩沖串行內(nèi)存(FBDIMM)的物理訪問。這個共享的內(nèi)存控制器以及FSB成為了限制內(nèi)存帶寬性能表現(xiàn)的瓶頸因素。
AMD皓龍2300(“巴塞羅那”和“上海”)
AMD“上海”處理器結(jié)構(gòu)
皓龍“巴塞羅那”和“上海”處理器是在一個實體處理器中封裝了四個處理核心。在一個雙路系統(tǒng)當(dāng)中,每顆處理器之間有了一個專門的點對點連接,AMD將其稱作HyperTransport (超傳輸總線)。每顆處理器都有著帶有雙通道DDR2 DIMM內(nèi)存模塊的專屬內(nèi)存控制器。
和至強5400相比,這提供了雙倍數(shù)量的內(nèi)存控制器以及不止兩倍的內(nèi)存帶寬。“巴塞羅那”處理器采用了65納米工藝技術(shù),可以支持雙通道667MHz DDR2 DIMM內(nèi)存,而“上海”處理器則采用了更為先進的45納米工藝技術(shù),能夠支持雙通道800MHz DDR2 DIMM內(nèi)存。#p#page_title#e#
AMD皓龍2400(“伊斯坦布爾”)
AMD“伊斯坦布爾”六核處理器結(jié)構(gòu)
除了多出的兩顆處理核心以及處理器之間HyperTransport (超傳輸總線)速度提升之外,六核皓龍“伊斯坦布爾”處理器和四核“上海”處理器非常相似。內(nèi)存控制器沒有大的改動:每顆處理器都支持雙通道800MHz DDR2 DIMM 內(nèi)存。
英特爾至強5500(Nehalem)
至強5500系列處理器結(jié)構(gòu)
英特爾至強5500處理器可以說自5400系列以來的一次重大的架構(gòu)改進。和上一代至強的設(shè)計相比,5500系列更接近皓龍?zhí)幚砥鳌C恳活w實體處理器都有著四個處理核心,有著專門的內(nèi)存控制器以及點對點處理器之間的連接,英特爾官方將其稱作快速通道互聯(lián)(QPI)。每顆處理器的內(nèi)存控制器都提供了對三通道DDR3內(nèi)存的支持,根據(jù)不同的處理器型號以及DIMM內(nèi)存的數(shù)量,內(nèi)存的頻率可以是800 MHz、1066 MHz或者1333MHz。
在逐個介紹完處理器架構(gòu)之后,我們再來看看測試的硬件平臺:
針對至強5500系列處理器的測試平臺:
Advanced Clustering公司的Pinnacle 1BX5501服務(wù)器
兩顆至強X5570處理器
六根2GB1333MHz DDR3(內(nèi)存容量總計12GB)
一個250GB硬盤驅(qū)動器
針對皓龍2400系列處理器的測試平臺:
Advanced Clustering公司的Pinnacle 1BA2301服務(wù)器
兩顆皓龍2435處理器
八根2GB800MHz DDR2內(nèi)存(內(nèi)存容量總計16GB)
一個250GB硬盤驅(qū)動器
盡管對比測試兩個平臺之間的內(nèi)存容量也一定差別,但是這種內(nèi)存的選擇無疑是最為適合發(fā)掘平臺性能潛質(zhì)的。
Stream內(nèi)存帶寬測試成績對比圖
正如上圖所示,英特爾至強5500處理器的性能不僅要遠(yuǎn)超上一代至強處理器5400系列,此外也完勝最好的AMD皓龍?zhí)幚砥飨到y(tǒng)。從至強5400系列到5500系列,從9.7GB/s到37GB/s我們看到了近乎4倍的提升。就算是內(nèi)存性能最差的至強5500處理器性能也會比最好的皓龍?zhí)幚砥饕叱?0%,如果皓龍?zhí)幚砥饕妥顝姶蟮闹翉娞幚砥飨啾鹊脑?,那么這種性能差距會擴大至超過75%之多,至強5500之所以能夠獲得高人一籌的內(nèi)存帶寬成績,是因為三通道內(nèi)存取代了雙通道,DDR3內(nèi)存頻率的升高(高達1333MHz)以及QPI(快速通道互聯(lián))技術(shù)帶來的高速點對點處理器互聯(lián)。
然而對于AMD“伊斯坦布爾”處理而言,AMD并沒有改變內(nèi)存控制器、通道數(shù)量以及DIMM內(nèi)存速度,性能也幾乎維持在統(tǒng)一水平線上,唯一的區(qū)別就在于每個內(nèi)存控制器上多出的兩個處理核心,此外處理器之間的HT3也沒有改變內(nèi)存控制器的性能。
當(dāng)用戶將每臺機器成本因素考慮其中的話,那么該測試結(jié)果則體現(xiàn)出英特爾至強5500系列處理器的絕對優(yōu)勢。測試中至強服務(wù)器價格大約為3800美元,而皓龍服務(wù)器的價格也在3500美元左右。盡管前者價格略高一點,但是在一美元數(shù)據(jù)傳輸對比中,至強5500要完勝皓龍,其數(shù)據(jù)對比為9.8MB每秒VS5.9MB每秒,至強5500要高出66%。
Stream內(nèi)存帶寬測試最后結(jié)論:
從內(nèi)存帶寬看來,很顯然英特爾至強5500系列處理器取得完勝。但需要指出的是內(nèi)存帶寬并非一切,它僅僅是整個系統(tǒng)性能的一部分而已。
和以往一樣,需要指出的是綜合性測試結(jié)果可能會與實際應(yīng)用中有所出入。Advanced Clustering Technologies建議用戶根據(jù)實際情況來弄清楚哪一款處理器和系統(tǒng)配置能夠帶來真正的性價比優(yōu)勢。