Xeon X5570與六核Opteron 2435伊斯坦布爾性能較量
數周之前國外有網站Advanced Clustering Technologies對英特爾Nehalem和AMD“伊斯坦布爾”的平臺做了高性能 Linpack(簡稱HPL)對比測試(國際上最流行的用于測試高性能計算機系統浮點性能的benchmark,通過對高性能計算機采用高斯消元法求解一元N次稠密線性代數方程組的測試,評價高性能計算機的浮點性能),種種測試結果表明AMD“伊斯坦布爾”戰(zhàn)勝了英特爾Nehalem平臺。
至強5500與六核皓龍“伊斯坦布爾”代表了英特爾與AMD最新的技術
至強5500系列和皓龍2400系列HPL對比測試,皓龍勝
此項對比測試的目的只有一個:展示GFLOPS(每秒鐘進行10 億次浮點運算的工作能力)的峰值。理論上每個系統GFLOPS峰值取決于處理器核心的數量、主頻和IPC(Instructions Per Clock Cycle,指令/時鐘周期)。幾年前上一代的處理器也只能做兩個IPC,而最新的處理器在全新架構的幫助下能夠達到四個IPC。為了便于比較,較老的主頻為2.2 GHz的雙核皓龍?zhí)幚砥鞯睦碚摲逯祪H為17.6 GFLOPS每臺機器而如今四核的皓龍理論峰值卻能夠達到70.6 GFLOPS。
HPL對比測試的兩個平臺介紹,AMD方面為皓龍2435“伊斯坦布爾”系統(六核心,主頻2.6GHz,16GB 800MHz DDR2內存 );英特爾方面為至強X5550 Nehalem系統(四核心,主頻2.66GHz,12GB 1333MHz DDR3內存)。測試人員盡可能的保持測試平臺的平等性,同樣的電源、硬盤驅動器以及操作系統。內存的容量在發(fā)揮三通道內存架構的Nehalem和雙通道內存皓龍之間性能各不相同。由于該測試項目傾向于內存容量和測試成績成正比,因此,測試人員調整了兩個平臺的內容容量大小。
至強5500與皓龍2400系列處理器性能對比測試 |
|||||
處理器型號 |
理論峰值 |
實測峰值 |
效能 | 平臺價格 | 每GFLOP運算成本 |
Nehalem X5550 2.66GHz |
85.12 GFLOPS |
74.03 GFLOPS |
86.97% | $3,800.00 | $51.33 |
Istanbul 2435 2.6GHz |
124.8 GFLOPS |
99.38 GFLOPS |
79.63% | $3,500.00 | $35.21 |
簡而言之,在該測試中AMD“伊斯坦布爾”戰(zhàn)勝了英特爾Nehalem,其測試結果對比為99.38個gigaflop(每秒鐘至少進行10 億次浮點運算的工作能力)VS74.03個gigaflop。也許六核戰(zhàn)勝四核并不在意料之外,但考慮到英特爾支持單核心雙線程的hyperthreading技術,也許會預測英特爾要在并行運算占據優(yōu)勢。而在實際應用,我們發(fā)現hyperthreading技術帶來的性能的提升很大程度上取決于具體的應用。
據Advanced Clustering Technologies的工程師介紹,在運行HPL測試軟件的時候,hyperthreading卻導致了一定程度上性能的削減,工程師還指出Linpack少數幾個不從hyperthreadin技術中受益的應用之一。
在有著更高帶寬DDR3內存的支持下,Nehalem更具計算效能(HPL峰值和理論上峰值),盡管用戶一般并不關注這些度量標準,但實際上這在英特爾設計中起到了不錯的平衡系統的作用。討論的最多的就是價格性能測試結果,而在該測試中AMD占據了優(yōu)勢。每一個gigaflop運算成本測試成績對比為35.21美元VS 52.33美元。
HPL對比測試最后結論:AMD“伊斯坦布爾”在每GFLOP運算成本和峰值表現上都勝英特爾Nehalem至強一籌,這表明六核心處理器提供了強勁的浮點運算性能,但在整體性能平衡性上不及英特爾Nehalem至強。較低的效能測試結果很可能是缺乏內存帶寬,加大“伊斯坦布爾”系統內緩存輪詢所導致的,處理器閑置較長時間等待來自內存的數據的同時也在檢測系統內12個處理核心的緩存命中(cache hit),內存寬帶對整個系統性能表現帶來的巨大影響。#p#page_title#e#
盡管Nehalem可能是核心性能比最高的,但是“伊斯坦布爾”通過增加兩個處理核心很好地彌補了自己的弱勢。當用戶為自己的下一代集群式計算系統挑選系統架構時,HPL測試成績會是唯一的標準。
然而此次針對同樣處理器平臺,測試人員又進行了STREAM測試,并將其結果公布在網站。據了解STREAM是HPC Challenge suite測試套件的一部分,是針對系統內存帶寬的一種測試,由于內存帶寬是整個計算系統中的一個最為重要的部分之一,因此STREAM的內存帶寬測試也可以反映整個系統的性能水平。隨著處理器核心數量的增加,內存帶寬在許多應用程序中顯得越發(fā)重要,計算性能已經悄然走到了內存性能的前面。和HPL測試一樣,STREAM也是一項綜合性的測試,但是總的來說,如果某個應用程序受內存性能限制的話,那么STREAM測試就是體現相對性能水平的好指標。
STREAM對比測試的結果也毫無懸念。如果按照X86競爭的思維來看的話,有著高級內存子系統的英特爾Nehalem(至強5500)處理器完勝僅僅依靠上一代DDR2內存技術的AMD“伊斯坦布爾”皓龍。
Advanced Clustering Technologies工程師Shane Corder表示,“就算是內存性能最差的至強5500處理器性能也會比最好的皓龍?zhí)幚砥饕叱?0%,如果皓龍?zhí)幚砥饕妥顝姶蟮闹翉娞幚砥飨啾鹊脑?,那么這種性能差距會擴大至超過75%之多,至強5500之所以能夠獲得高人一籌的內存帶寬成績,是因為三通道內存取代了雙通道,DDR3內存頻率的升高(高達1333MHz)以及QPI(快速通道互聯)技術帶來的高速點對點處理器互聯。”
STREAM性能測試中,一個值得關注的數據不得不提:六核“伊斯坦布爾”的測試結果要略微低于四核“上海”。Advanced Clustering Technologies測試人員將其歸咎為“伊斯坦布爾”多出的兩顆處理核心需要爭取與“上海”處理器中數目一致的,僅有的兩個內存控制器帶寬。和Linpack的測試結果一樣,反映了性價比之優(yōu)勢。
至強5500系列和皓龍2400系列STREAM對比測試,至強贏
STREAM是綜合性的內存帶寬測試,測試成績以MB每秒來衡量。隨著處理器處理核心數量的增多,內存帶寬對于提升整個系統性能越發(fā)重要,處理核心和內存帶寬比對系統性能有著重大的影響,如果某個系統不能夠足夠迅速地將內存中的數據傳輸到處理器當中,若干處理核心就會處于閑置狀態(tài),等待內存數據傳輸過來,而這其中所產生的閑置時間不僅會降低系統的效率還會抵消多核心和高主頻所帶來的性能提升因素。
STREAM測試是業(yè)界廣為流行的測量內存帶寬實際性能的工具之一,是全面的用來測試高性能計算系統的HPC Challenge測試套件的一部分。在討論測試結果之前,我們先來了解一下進行對比測試的處理器架構和內存控制器的相關信息。以下系統架構圖按照內存性能升序排列而成。
英特爾至強5400(Harpertown)
至強5400系列處理器結構
實際上代號為“Harpertown”的英特爾至強5400處理器是由兩顆雙核處理器封裝成一個實體處理器而成,每一顆實體處理器都共享有一個前端總線(front side bus,FSB)連接。整個處理器架構只有一個內存控制器,而這卻是系統芯片組中MCH(memory controller hub)的一部分。MCH提供了指向系統667MHz或者800MHz的緩沖串行內存(FBDIMM)的物理訪問。這個共享的內存控制器以及FSB成為了限制內存帶寬性能表現的瓶頸因素。
AMD皓龍2300(“巴塞羅那”和“上海”)
AMD“上海”處理器結構
皓龍“巴塞羅那”和“上海”處理器是在一個實體處理器中封裝了四個處理核心。在一個雙路系統當中,每顆處理器之間有了一個專門的點對點連接,AMD將其稱作HyperTransport (超傳輸總線)。每顆處理器都有著帶有雙通道DDR2 DIMM內存模塊的專屬內存控制器。
和至強5400相比,這提供了雙倍數量的內存控制器以及不止兩倍的內存帶寬。“巴塞羅那”處理器采用了65納米工藝技術,可以支持雙通道667MHz DDR2 DIMM內存,而“上海”處理器則采用了更為先進的45納米工藝技術,能夠支持雙通道800MHz DDR2 DIMM內存。#p#page_title#e#
AMD皓龍2400(“伊斯坦布爾”)
AMD“伊斯坦布爾”六核處理器結構
除了多出的兩顆處理核心以及處理器之間HyperTransport (超傳輸總線)速度提升之外,六核皓龍“伊斯坦布爾”處理器和四核“上海”處理器非常相似。內存控制器沒有大的改動:每顆處理器都支持雙通道800MHz DDR2 DIMM 內存。
英特爾至強5500(Nehalem)
至強5500系列處理器結構
英特爾至強5500處理器可以說自5400系列以來的一次重大的架構改進。和上一代至強的設計相比,5500系列更接近皓龍?zhí)幚砥?。每一顆實體處理器都有著四個處理核心,有著專門的內存控制器以及點對點處理器之間的連接,英特爾官方將其稱作快速通道互聯(QPI)。每顆處理器的內存控制器都提供了對三通道DDR3內存的支持,根據不同的處理器型號以及DIMM內存的數量,內存的頻率可以是800 MHz、1066 MHz或者1333MHz。
在逐個介紹完處理器架構之后,我們再來看看測試的硬件平臺:
針對至強5500系列處理器的測試平臺:
Advanced Clustering公司的Pinnacle 1BX5501服務器
兩顆至強X5570處理器
六根2GB1333MHz DDR3(內存容量總計12GB)
一個250GB硬盤驅動器
針對皓龍2400系列處理器的測試平臺:
Advanced Clustering公司的Pinnacle 1BA2301服務器
兩顆皓龍2435處理器
八根2GB800MHz DDR2內存(內存容量總計16GB)
一個250GB硬盤驅動器
盡管對比測試兩個平臺之間的內存容量也一定差別,但是這種內存的選擇無疑是最為適合發(fā)掘平臺性能潛質的。
Stream內存帶寬測試成績對比圖
正如上圖所示,英特爾至強5500處理器的性能不僅要遠超上一代至強處理器5400系列,此外也完勝最好的AMD皓龍?zhí)幚砥飨到y。從至強5400系列到5500系列,從9.7GB/s到37GB/s我們看到了近乎4倍的提升。就算是內存性能最差的至強5500處理器性能也會比最好的皓龍?zhí)幚砥饕叱?0%,如果皓龍?zhí)幚砥饕妥顝姶蟮闹翉娞幚砥飨啾鹊脑?,那么這種性能差距會擴大至超過75%之多,至強5500之所以能夠獲得高人一籌的內存帶寬成績,是因為三通道內存取代了雙通道,DDR3內存頻率的升高(高達1333MHz)以及QPI(快速通道互聯)技術帶來的高速點對點處理器互聯。
然而對于AMD“伊斯坦布爾”處理而言,AMD并沒有改變內存控制器、通道數量以及DIMM內存速度,性能也幾乎維持在統一水平線上,唯一的區(qū)別就在于每個內存控制器上多出的兩個處理核心,此外處理器之間的HT3也沒有改變內存控制器的性能。
當用戶將每臺機器成本因素考慮其中的話,那么該測試結果則體現出英特爾至強5500系列處理器的絕對優(yōu)勢。測試中至強服務器價格大約為3800美元,而皓龍服務器的價格也在3500美元左右。盡管前者價格略高一點,但是在一美元數據傳輸對比中,至強5500要完勝皓龍,其數據對比為9.8MB每秒VS5.9MB每秒,至強5500要高出66%。
Stream內存帶寬測試最后結論:
從內存帶寬看來,很顯然英特爾至強5500系列處理器取得完勝。但需要指出的是內存帶寬并非一切,它僅僅是整個系統性能的一部分而已。
和以往一樣,需要指出的是綜合性測試結果可能會與實際應用中有所出入。Advanced Clustering Technologies建議用戶根據實際情況來弄清楚哪一款處理器和系統配置能夠帶來真正的性價比優(yōu)勢。