AMD Istanbul實測:增加兩個內核的意義
前言
雖然45nm四核Opteron是目前市場上最好的服務器CPU之一,不過就在幾個月之后,AMD所取得的成功就被英特爾代號Nehalem所取代。Nehalem架構在很多方面進行了完善,例如三通道的集成內存控制器(IMC)。IMC借助高主頻DDR-3 DIMM實現(xiàn)了低延遲和高帶寬。但是這對雄心勃勃的Intel工程師來說是遠遠不夠的。他們還增加了Simultaneous MultiThreading (SMT),據(jù)Intel稱這項技術可以將性能提升30%左右,被SAP、Oracle和MS SQL Server等關鍵應用所采用。最終結果是,現(xiàn)有的Xeon處理器的性能比AMD最好的CPU高出了60%~85%。
可能會有人對這次基準測試的細節(jié)提出質疑,但這不過是斤斤計較罷了。是的,這些數(shù)據(jù)是在采用DDR3-1333情況下測試得出的,而大多數(shù)Xeon55XX系列服務器采用的都是DDR3-1066。而且速度最快的至強處理器的能耗大約比Shanghai Opteron處理器高出了20W。所以為了進行同類對比,你應該拿主頻為2.53 GHz的E5540來比較。但即使是在DDR3-1066和2.53 GHz兩個條件具備的情況下對比,最新的Xeon處理器仍然比AMD Opteron四核處理器高出40%~70%,而且在帶寬密集型應用中測試的領先優(yōu)勢更為明顯。只有在很少見的密集矩陣應用中,基于最常用的Linpack基準測試,AMD可能會獲得一些加分。在低能耗和低價格基礎上AMD可以提供相同的Gigaflops,不過我們談的是市場份額只有不到1%的應用。不過AMD也有一線希望,那就是在我們的vApus Mark I虛擬化基準測試中,主頻為2.9 GHz的Opteron 2389在ESX 3.5平臺上有突出的性能表現(xiàn)。但是在ESX 4.0平臺上,最新的Xeon Nehalem處理器憑借更好的超線程支持和ESX hypervisor提供EPT技術的支持而再次將領先優(yōu)勢擴大。AMD的下一代CPU預計將在2012年面市,因此AMD很可能會把高端和終端服務器CPU市場拱手讓給Intel,除非……
AMD自從推出45nm CPU以來一直有很好的表現(xiàn)。你可能還記得AMD在1999年10月推出250nm的K75,僅僅5個月之后,也就是在2000年3月AMD將“x86-Alpha”主頻提高到1 GHz。的確在這10年中AMD一直不斷努力。就在成功發(fā)布45nm四核處理器之后的6個月,AMD提前發(fā)布了代號為“Istanbul”的6核Opteron處理器。Istanbul實際是在Shanghai的基礎上增加了兩個內核,內存控制器有所增強。更讓人印象深刻的是,AMD昨天還展示了主頻為2.6 GHz的16核處理器,其能耗僅比6個月前推出的2.7 GHz四核處理器高一點。那么,IT專業(yè)人士是否會關注最新的六核AMD處理器?在使用哪些應用的時候應該考慮基于Istanbul的服務器?增加的兩個內核是否會讓AMD的Opteron處理器重新出現(xiàn)在你下一個高性能服務器的規(guī)格表中?
6核有意義嗎?
當Intel發(fā)布16核Dunnington的時候,有很多應用無法很好地利用這一處理器?;?/span>Istanbul的四路服務器也將面臨相同的問題:一些服務器應用傾向于“2的N次方個內核”,而且很多都不會超過8核,更不會成功地超越16核。甚至在服務器領域,很多應用也無法很好地擴展超過8核~16核。郵件服務器、Web服務器、甚至一些數(shù)據(jù)庫都是這種情況。如果你的數(shù)據(jù)庫鎖定了相同的數(shù)據(jù)量,那么一旦超出一定的內核數(shù),鎖定阻塞可能會削弱性能。渲染應用也是一個超出8核會影響性能的例子??赡軐⑺穆匪暮司酆系揭黄鹨认蛲慌_設備添加更多內核更有意義。
但是六核IstanbulCPU也有很多有點。Nehalem Xeon提供了8個邏輯內核,但是每個內核上的兩個線程必須共享32 KB的一級緩存和256 KB的二級緩存。Istanbul只有6個線程,但是每個線程都可以獲得64 KB的一級緩存或者512 KB的二級緩存??偠灾?,很明顯最新的AMD Istanbul Opteron處理器瞄準了特定的市場:計算密集型高性能計算應用、大型數(shù)據(jù)庫還有最重要的“高度”虛擬化工作負載,這里我們之所以說“高度”是因為六核Opteron可即時取代現(xiàn)有四核Opteron。也就意味著基于最新六核處理器的服務器的內存容量可能是相同的。如果你將很多低工作負載整合到一起,那么在達到處理能力極限之前就會遇到內存瓶頸。#p#page_title#e# Istanbul的升級功能 Istanbul的內核與Shanghai是一樣的,只是增加了幾項升級功能:HT Assist、略高的HT速度、APML和x8 ECC。 X8 ECC:一個DIMM上的每個DRAM芯片提供了4比特或者8比特的數(shù)據(jù)。提供了4比特的芯片被稱為x4,提供了8比特的芯片被稱為x8。8個x8芯片或者16個x4芯片生成一個16位字節(jié),所以一個DIMM在一邊或者兩邊至少需要8個芯片。Istanbul的內存控制器現(xiàn)在支持對x4和x8 DIMM的糾錯功能。 APML遠程電源管理界面:APML界面讓你能夠通過P-State限制進行監(jiān)控和控制平臺能耗。你需要在服務器上有一個支持APML的CPU和BMC,監(jiān)控電源和對電源管理工具作出變更。目前相關的硬件和軟件還在開發(fā)中,所以支持這些功能的服務器產品將在本月面市。APML是一項有趣的技術,它讓你不用進入BIOS就可以控制電源。AMD的PowerCap Manager可以限制電源,確保CPU的主頻不會超出特定界線,這對冷卻或者電力資源有限的數(shù)據(jù)中心來說是非常有用的。當然在有著上百臺服務器的數(shù)據(jù)中心,BIOS選項并不那么簡單。這就是APML的優(yōu)點所在。 更高的超線程速度:最新的Shanghai Opteron處理器支持HyperTransport 3.0(HT3)。HT3的主頻高于舊型號Opteron處理器所使用的HyperTransport連接技術。主頻提高到了2.2 GHz DDR,每個方向可實現(xiàn)8.8 GB/s的速度。Istanbul將HyperTransport的主頻提高到了2.4GHz DDR,每個方向可實現(xiàn)9.6 GB/s的速度。因為最新的Fiorano平臺還沒有準備就緒,所以我們仍然得使用舊的NVIDIA MCP55平臺進行測試。不過沒有關系,CPU互連速度是和CPU有關的,并不是主板或者芯片組,你可以在下面的BIOS截屏中明顯地看出來: 最后一項升級是HT Assist,后面我們將詳細談談這一功能。 #p#page_title#e#
HT Assist:只用于四路系統(tǒng) HT Assist是AMD所采用的一種探測過濾器技術。首先,讓我們來看一看Shanghai四核系統(tǒng)。CPU 3可能需要CPU 1才有權訪問的緩存行,但事實上最近的數(shù)據(jù)在CPU 2的二級緩存里。 流程如下: 1、CPU 3向CPU 1請求數(shù)據(jù)(藍色實心箭頭“數(shù)據(jù)請求”) 2、CPU 1發(fā)出廣播,看其他CPU是否有最新的數(shù)據(jù)(三個紅色實心箭頭“探測請求”) 3、在探測完成之前,CPU 3保持空閑狀態(tài)(四個紅色空心箭頭“探測回復”) 4、請求數(shù)據(jù)從CPU 2發(fā)送到CPU 3(兩個藍色空心箭頭) 這種廣播的方法存在兩個嚴重問題:首先,一個相對簡單的請求就需要十次處理,嚴重浪費帶寬;其次,這十次處理給CPU 3上的指令增加了大量延遲。 解決方案就是采用基于目錄的系統(tǒng),AMD稱之為HT Assist。HT Assist在每個CPU上保留1MB三級緩存作為一個目錄。這個目錄被用于在其他系統(tǒng)中使用的緩存行。也就是說,雖然三級緩存只有5MB大,但省去了很多探測或者傳輸。從下圖中可以看明白: 讓我們看看發(fā)生了什么,還是從CPU 3開始: 1、CPU 3向CPU 1請求數(shù)據(jù)(藍色實心箭頭) 2、CPU 1檢查三級緩存目錄緩存以定位請求數(shù)據(jù)(紅色加粗箭頭) 3、從CPU 1三級目錄緩存的讀取說明CPU 2有最新的數(shù)據(jù)副本并直接探測CPU 2(深紅色實心箭頭) 4、請求數(shù)據(jù)從CPU 2發(fā)送到CPU 3(藍色空心箭頭) 這次處理次數(shù)只有4次,而不是10次,大大降低了延遲并減少帶寬的浪費。這種探測“廣播”的方法可以將11個的CPU向CPU日常處理減少8個。流量測量結果顯示,四路系統(tǒng)的內存帶寬提升了60%,采用了HT Assist之后的吞吐量為41.5GB/s,而沒有采用HT Assist的是25.5GB/s。 但是需要提出一點,HT Assist只在四路系統(tǒng)內有用,在八路系統(tǒng)內能最大限度上發(fā)揮其重要性。在二路系統(tǒng)內,因為另外只有一個CPU,所以廣播方法實際上與單播方法是相同的。HT Assist還降低了二級緩存的命中率,所以在2P系統(tǒng)應該禁用HT Assist??纯聪旅娴?/span>BIOS截圖: 在探測過濾器下面有三個選項:自動、禁用和MP。在自動模式下,探測過濾器或者HT Assist在2P系統(tǒng)中是關閉的。你可以通過設定“MP”模式啟動HT Assist。 #p#page_title#e#
Intel與AMD的產品線 在我們查看基準測試結果之前,應該先看看廠商是如何定位他們的CPU產品的。在這之前,先讓我們來快速瀏覽一下AMD和Intel最重要的CPU產品。 AMD顯然承認他們在原始性能方面比不上Xeon X55xx系列。最高的兩個型號X5570和X5560不在這個范圍內。AMD可能會說,在某些應用中,最新的六核Opteron可以與Xeon X55xx打成平手。在2435方面,你可能會看到低功耗的優(yōu)點。還要注意,最高型號的四核Opteron處理器的價格已經相當便宜了。主頻為2.9 GHz的2389 “Shanghai”仍然不是Xeon E5540 2.53,但是有必要關注一下服務器價格。32 GB的DDR-3 1066價格仍然在1200美元左右,而32 GB的DDR-2 800只需要大約850美元。這已經超出了本文的討論范圍,但是很顯然,即使這兩個CPU價格相同,基于AMD的服務器仍然是更便宜一些。不管怎么說,X55xx還是一個很新的平臺。 來看一看印模尺寸和晶體管數(shù)量方面的數(shù)據(jù): AMD的Istanbul是一款尺寸相當大的芯片,但是并不像Barcelona的價格那么高。Harpertown摘得了生產成本最低的桂冠。 我們的基準測試方法和選擇 與以往的AMD CPU發(fā)布一樣,我們沒有太多時間進行基準測試。當我們開始運行BIOS的時候發(fā)現(xiàn)我們的Adaptec RAID卡完全不支持這個新的BIOS,我們只剩下不到一周的時間進行服務器基準測試,而這在以前每個步驟都要花上幾個小時的時間。所以我們必須作出選擇。如果不使用Adaptec RAID卡的話,我們就得放棄此前一直使用的大多數(shù)磁盤密集測試:DVD Store處理測試。 盡管時間緊張,我們仍然非常嚴格地執(zhí)行新的基準測試方法。我們沒有放棄任何一個可使用的軟件,并決定“購買者”應該被納入我們的基準測試范圍內?;旧?,每一個重要的軟件類型都應該至少有一個、最好是有兩個基準測試組中的代表。從下面的表格中你可以看到服務器軟件類型和這次測試可能用到的基準測試。我們增加了“相關”一欄,因為“Istanbul”只針對這個市場的一部分。很少有人會為打印服務器、域控制器或者郵件服務器購買8核處理器。 由于時間有限,我們決定推遲Exchange和Linpack測試。這次我們將不提供SAP基準測試結果。 基準架構 我們的基準要求都不超過20GB。數(shù)據(jù)庫文件保存在一個3驅動器RAID-0 Intel X25-E SLC 32 GB SSD上,日志文件保存在一個32GB的Intel X25-E SLC上。 Xeon服務器 1: ASUS RS700-E6/RS4 barebone Xeon服務器 2: Intel“Stoakley platform”服務器 Xeon服務器 3: Intel“Bensley platform”服務器 Opteron服務器: Supermicro SC828TQ-R1200LPB 2U Chassis vApus/Oracle Calling Circle Client Configuration OLTP基準:Oracle Charbench "Calling Circle" 操作系統(tǒng):Windows 2008 Enterprise RTM (64位) Calling Circle是一項Oracle OLTP基準。我們測試的數(shù)據(jù)庫大小是9GB。為了減少對存儲系統(tǒng)所帶來的壓力,我們將SGA增加到10GB,PGA大小設定在1.6GB。Calling Circle測試包括83%的選擇、7%的接入和10%的升級,運行時間為10分鐘,一個循環(huán)反復6次,不采用第一輪的測試結果,因為磁盤隊列長度(DQL)有時候接近1,而第二輪和之后的DQL接近0.2或者更低。在這種情況下,更容易以99%的負載運行CPU。因為DQL是非常相似的,所以我們將在“Nehalem”文章中保留我們的測試結果。所有架構都使用2路系統(tǒng)。 Opteron 2384(主頻2.7 GHz)的測試數(shù)據(jù)表明,主頻為2.6 GHz的Opteron的結果大約在231左右。Istanbul 2435在性能上高出27%。這低于超線程技術給Xeon X5570帶來的加分,明顯說明超線程技術在這些低IPC數(shù)據(jù)庫工作負載中是一個多么強大的武器。Xeon X5570比AMD最新的六核處理器快了大約50%。即使Opteron 2435的主頻比X5550低了10%,但顯然Xeon X55xx遠超過了AMD最好的CPU。 #p#page_title#e# 決策支持基準:Nieuws.be 操作系統(tǒng):Windows 2008 Enterprise RTM (64-bit) Nieuws.be站點位于一個大型數(shù)據(jù)之上:超過100GB且在不斷增加。這個數(shù)據(jù)庫有上百個獨立表格組成,我們的實驗平臺(Sizing Servers Lab)對其進行了仔細的優(yōu)化。我們已經詳細描述了測試方法,有些讀者建議我們從SQL Server 2005 SP3升級到SQL Server 2008,這會給決策支持數(shù)據(jù)庫帶來29%~38%的性能提升。所有架構使用的是2路系統(tǒng)。讓我們來看一看MS SQL Server 2005數(shù)據(jù): 與SQL Server 2008的數(shù)據(jù)進行對比 顯然SQL Server 2008對OLAP數(shù)據(jù)庫必須接收的復雜隊列進行了更好的優(yōu)化。 回到硬件方面。在這兩種情況下,你可以明顯地看到,“未評分”的一些因素(緩存和內存帶寬)對工作負載的影響小于OLTP測試。Opteron 2435比Opteron 2384(主頻2.7 GHz)快41%。主頻為2.6 GHz的Opteron處理器的得分大約為385,也就是說,4~6核的擴展是最好的:46%。雖然這一擴展范圍非常接近50%的理論最大范圍,但是還不足以擊敗最新的Xeon處理器,只是將它的優(yōu)勢縮小到16%。不過,因為Opteron 2435的競爭對手是主頻為2.66 GHz的Xeon處理器,而不是主頻為2.93 GHz的Xeon處理器,所以這是第一個Istanbul占據(jù)優(yōu)勢的基準測試項目,與四核Shanghai形成了鮮明對比。 #p#page_title#e# 網站:MCS eFMS (Windows 2003 32 bit EE) 操作系統(tǒng):Windows 2003 R2 - 32-bit MCS開發(fā)的MCS Enterprise Facility Management Software (MCS eFMS)模塊是處理最密集的Web應用之一。eFMS的目的是集成空間使用管理、資產和設備、線纜基礎架構等,同時追蹤和控制成本。MCS eFMS將所有信息保存在一個Oracle中央數(shù)據(jù)庫內。 MCS eFMS包括三項關鍵技術:基于Web的前端,集成了CAD繪圖功能,從十分復雜、與ERP相似的Oracle數(shù)據(jù)庫內提取信息,生產一個關于所有可用空間和保留空間的樹狀總覽圖,運用CAD繪圖獲得更多細節(jié):MCS eFMS是目前我們所知要求最苛刻的Web應用之一。MCS eFMS使用了Microsoft IIS 6.0 (Windows 2003 Server Standard Edition R2)、Php 4.4.0、FastCGI和Oracle 9.2四種軟件。結果如下: 我們發(fā)現(xiàn),php網站都沒有超過8核的,所以這個基準對任何一個內核數(shù)超過8的系統(tǒng)都是不準確的,不過它反映了實際環(huán)境中所發(fā)生的情況。測試結果顯示出我們的文章開頭提到的問題:很多服務器應用沒有擴展超過8核或者16核。記住一點,就在4、5年前,8核設備的價格是非常高的。在不到5年的時間內,我們的服務器從雙核發(fā)展到12核。不過很多情況下,軟件都無法利用多核的優(yōu)勢,或者僅僅是不需要所有這些處理能力。雙核皓龍2435和雙核Xeon X5570(采用HT技術)的使用率在50%~60%。在這里,8線程的Xeon X55xx是最好的選擇。#p#page_title#e# 渲染: 3ds Max 2008 操作系統(tǒng):Windows 2008 Enterprise RTM (64-bit) 我們使用了SPEC APC 3DS Max測試中的“架構”情景。所有測試是在3ds Max的掃描行渲染下進行的,使用SSE并以HD 720p清晰度進行渲染。我們測量了從渲染10幀所需要的時間。我們記錄下時間,然后計算出一個特定CPU架構在一個小時內可以渲染多少幀。報告結果記錄了每小時渲染的圖像,分數(shù)越高越好。 我們在64位 Windows 2008 RTM上使用32位版本的3ds Max 2008。64位版本的3ds Max 2008的速度有些慢(尤其是在在使用掃描行渲染的時候)。除特別指出外,所有CPU架構都是雙核的。 這里我們看出,AMD Istanbul增加的兩個內核幾乎是沒有用處。Xeon x55xx系列比16核CPU的性能高出了50%。3DS Max掃描行渲染無法兼容12核。CPU利用率從50%提高到80%。 我們相信一定有效率更高的渲染引擎,但是這并不是AMD六核CPU所定位的市場?;贜ehalem的Xeon對這種應用來說性能過于強大了。所以如果成本是你最關心的問題,那么你可以考慮主頻為2.26 GHz的Xeon E5520,最便宜的CPU仍然支持超線程。以后我們將對這個進行測試,我們預計每小時能處理67個幀,仍然比任何一個皓龍?zhí)幚砥鞲叱?0%多。#p#page_title#e# 虛擬化:VMmark 一個新的服務器CPU如何很好地處理虛擬化決定了它將受到冷遇還是歡迎。雖然時間緊迫,我們還是設法創(chuàng)建了4個基于ESX 3.5 update 4的虛擬機和8個基于ESX 4.0 (vSphere 4 build 164009)的虛擬機。因為這是到目前為止新六核最重要的市場,所以我們也將大多數(shù)時間和精力放在這個方面。 這里有兩個基準:VMmark和vApus Mark I。VMmark能夠對常用的整合工作負載——文件服務器、數(shù)據(jù)庫、文件服務器和有一些處理密集型Java應用的Web站點進行測試。一個虛擬機處于空閑狀態(tài),有代表性的工作負載必須是在線的,但并不執(zhí)行很多任務(例如,一個域控制器)。簡而言之,VMmark主要用于你希望在一個物理服務器上整合很多小型應用的情況。 雖然現(xiàn)在還沒有官方的VMmark得分數(shù)據(jù),但是AMD提供關于備份的幻燈片說明Opteron 2435的性能比Opteron 2384提高了41%。對于四核Opteron來說,最高的得分是11.28。 根據(jù)粗略估計,主頻為2.6 GHz的四核CPU得分大約為10.9,也就是說增加兩個內核帶來性能上46%的提升。這幾乎是很完美的,同時也表明虛擬服務器通過增加更多內核來提升性能并不困難,只要你有足夠的內存空間。據(jù)我們在OEM那里得到的結果,超線程能帶來大約30%的性能提升,也就是說,相比我們之前的基準測試,增加內核的方法比增加超線程能帶來更顯著的性能提升。Xeon X5570得分最高,但只是針對VMmark測試的。最好的Xeon仍然比最好的Opteron快了大約50%。#p#page_title#e# vApus Mark I:性能關鍵的虛擬化應用 如果你已經對數(shù)據(jù)中心實施了虛擬化,那么可能那些非密集型負載也已經實現(xiàn)了虛擬化。接下來呢?虛擬化廠商會積極地鼓勵你對性能關鍵硬件實施虛擬化。你可以通過vSphere 4使用多達8個vCPUs和255 GB RAM,Xenserver 8 vCPU和32 GB RAM。Hyper-V仍然局限在4 vCPU和每個主機最多16個CPU。但是對于Hyper-V R2來說情況有所改變。底線是,如果能夠更輕松地實現(xiàn)遷移或者管理的話,對處理密集型應用實施虛擬化還是有很大吸引力的。 這時候就用到了vApus Mark I:一個OLAP、一個DSS和兩個密集型Web網站?,F(xiàn)在有很多要求苛刻的應用仍然需要運行一年前使用的某些設備。vApus Mark I測試顯示了如果實現(xiàn)虛擬化的話會發(fā)生什么情況。與之前的基準測試相比,只有一點改變了:我們使用大型頁面,因為它通常被認為是最佳策略。性能提升了4%~5%。 我們的其他選擇保持不變:如果可能的話,所有虛擬機都具備RVI和EPT;除特定要求外,不使用超線程。 vApus Mark I使用了4個運行4個服務器應用的虛擬機:一個運行在Windows 2008 64位版本上的SQL Server 2008 x64數(shù)據(jù)庫,用我們自主開發(fā)的vApus軟件進行測試;兩個在Windows 2003 R2上運行PHP和IIS的處理密集型MCS eFMS,用我們自主開發(fā)的vApus軟件進行測試;一個OLTP數(shù)據(jù)庫,用Dominic Giles的Oracle 10G Calling Circle進行測試。 vApus軟件運用人為操作來執(zhí)行虛擬機測試,而不是用一些基準測試算法。首先讓我們來看一看在最常用hypervisor——ESX 3.5 Update 4下的測試結果: 如果你只是將Istanbul插入你的虛擬化服務器中,那么你無法知道你運行的是六核還是四核。你可能還記得,主頻為2.9 GHz的2389得分為203。讓人失望的是,主頻為2.6 GHz的六核CPU與主頻為2.9 GHz的四核CPU得分沒有太大差別。那么問題出在哪里?VMware ESX 3.5默認的是將可用內核分成4個內核大小的組,也就是所謂的單元。目的是為了保證虛擬機總是在同一個單元內,從而保證虛擬機總是在一個節(jié)點中。這會確保虛擬機總是使用本地內存(而不需要其他節(jié)點的遠程內存),更重要的是,緩存總是保持“活動”的。如果維持4個內核大小的默認單元,那么一個或者多個虛擬機將在2路系統(tǒng)中被分割,在不同部分之間進行傳輸。一旦我們將單元大小從4個內核增加到6個內核,那么情況就完全不同了,丑小鴨變成了白天鵝。六核Opteron與最好的Xeon打成平手! 在這種情況下,Xeon x55xx顯得有些相形見絀,因為ESX 3.5 update 4不支持EPT,而且沒有針對超線程進行優(yōu)化。從上面的測試中可以看到,超線程將得分提高了17%。根據(jù)我們從OEM廠商方面獲得的數(shù)據(jù)顯示,VMmark在ESX 4.0上提高了30%。這表明ESX 4.0能夠更好地利用超線程。那么,讓我們來看一看ESX 4.0的數(shù)據(jù)。 Nehalem提高的幅度不大。六核Opteron的性能降低了2%,這是在該基準的錯誤率范圍內的,對最新的Opteron來說仍然是一個很好的結果:表明它與主頻為2.66 GHz的Xeon X5550競爭是沒有問題的。VMmark結果說明,當服務器上層虛擬機數(shù)量大幅增加的時候,最新Xeon Nehalem的優(yōu)勢就顯示出來了。所以我們決定在8個虛擬機的環(huán)境下進行測試。你很有可能會在一臺物理服務器上層整合超過10個性能關鍵應用,我們我們覺得8個虛擬機就能說明問題。只有一個變化:用于Webportal的內存從4GB減少到2GB,確?;鶞蕽M足我們在Xeon X5570上設定最高24GB的范圍。我們計算出兩個相同虛擬機的平均結果(OLAP VM = (OLAP VM1 + OLAP VM5)/2) 可以發(fā)現(xiàn),HT Assist是2路架構的性能“殺手”。有趣的是,隨著虛擬機的增加,Xeon X5570的性能優(yōu)勢開始不那么明顯。Xeon X5570比雙核2435皓龍?zhí)幚砥骺齑蠹s30%。這也給我們提供了一個為什么VMmark得分為什么這么極端的線索:大量虛擬機可能過于強調交換時間了。但即使是在負載較小的時候,也很難找到超過20個虛擬機位于DP處理器上層。 還有,在測試中,ESX Scheduler在32個vCPU上分配16個邏輯CPU。這比在32個vCPU上分配12個物理CPU容易多了。這可能在六核Opteron上帶來時序安排的問題。 所以我們的測試某種程度上“更偏向于”Xeon X5570。 我們將vCPU的數(shù)量從4個減少到2個。這就意味著: -OLAP測試的4個vCPU增加一倍 或者總共24個vCPU。因此這個測試更傾向于Istanbul處理器。記住,我們的參考數(shù)據(jù)是基于4 CPU的原始得分。所以我們將參考數(shù)據(jù)調整為基于2 CPU的原始得分。OLTP和OLAP測試的參考數(shù)據(jù)保持不變。下面的測試結果與以前你所見的數(shù)據(jù)是沒有可對比性的。這只是為了讓你更好地理解我們得出的結果。我們計算出兩個相同虛擬機的平均結果(OLAP VM = (OLAP VM1 + OLAP VM5)/2) 結果是,Xeon Nehalem這一次只快了11%。所以記住一點很重要,當談到MP虛擬機的時候,vCPU數(shù)量與Cell大小之間的關系是非常重要的。#p#page_title#e# 能耗 我們的能耗數(shù)據(jù)是已提供的,所以不需要對能耗數(shù)據(jù)進行復查。粗略查看之后我們發(fā)現(xiàn)Opteron 2435設備比Xeon X5570的能耗低25~45W。如果總能耗是略高于300W的話,就是大約10%~15%。Xeon Nehalem在空閑狀態(tài)下的能耗更低一些。 市場分析 與以往一樣,我們將根據(jù)購買的服務器類型分情況進行分析。在這篇文章中可能有很多我們沒有涉及到的領域,但是沒有ERP基準測試的話,這些領域基本上是沒有關聯(lián)性的。HT Assist在四路架構中會提高帶寬,但是在2路系統(tǒng)中必須禁用HT Assist。因此,六核處理器的每個內核的帶寬更少,這就意味著大多數(shù)高性能計算應用的性能不會有所提升。基礎架構市場需要在花費相同資金的情況下或者盡可能高的內存空間,而不是更多的處理能力。 所以這里就缺失了一塊:ERP結果。SAP基準測試結果并不難預測:六核皓龍可能比四核Opteron 2389的SAP得分高出25%~35%,而這不會威脅到Nehalem Xeon的統(tǒng)治地位,它比后者快了將近81%。 OLTP市場也被Intel牢牢掌控。在我們的網站基準測試中情況更好一些,不過你會發(fā)現(xiàn),這里一個Xeon X5570的性能與兩個六核Opteron差不多。這里忽略了決策支持數(shù)據(jù)庫和針對虛擬化采購的服務器兩個因素,而后者是非常非常重要的…… 結論 六核Opteron在所有這些應用方面都是無法取代強大的Xeon處理器。Xeon處理器由于更高的主頻、更高的IPC、超線程和更高的內存帶寬而具有更廣泛的用途。在OLTP、ERP、Web服務和渲染等應用下顯然Xeon 55xx系列是更好的選擇,毫無疑問,Xeon 55xx系列還將占領帶寬密集型HPC工作負載。我們認為你在使用這兩種應用的時候可以考慮AMD六核處理器:決策支持數(shù)據(jù)庫和虛擬化。 自從發(fā)布ESX 3.5以來,VMware就不止一次表示像OLTP和決策支持數(shù)據(jù)庫這樣的性能關鍵應用在他們的hypervisor上有更好的表現(xiàn)。vSphere 4的多項升級讓它成為那些處理密集型應用的更好選擇?,F(xiàn)在很多企業(yè)都開始對性能關鍵應用實施虛擬化,虛擬化這些應用可以讓管理數(shù)據(jù)中心變得與管理精簡整合應用一樣很靈活。例如,VMotion可以被用于更快速更方便地遷移這些應用。 當然,性能關鍵應用從定義上看就是在處理能力方面要求更加苛刻。這就是vApus Mark I需要測量的:在被虛擬化之后,性能關鍵應用的性能有多大幅度的提升?這是AMD 2435一個有突出表現(xiàn)的新市場。主頻為2.6 GHz的Opteron 2435在vApus Mark I測試中有讓人驚喜的表現(xiàn):在ESX 3.5 update 4上,它能夠與售價更高的Xeon相匹敵,同時它的能耗更低,在vSphere 4上提供了具有很強競爭力的每瓦性能和性價比。在vSphere 4上,六核Opteron的速度比主頻為2.9 GHz的Xeon X5570低11%~30%,但是Istanbul平臺的整體成本低很多,而且在虛擬化環(huán)境下,主頻為2.6 GHz的2435能耗更低。如果你對hypervisor進行了優(yōu)化以很好地利用六核,那么六核Opteron是一個值得考慮的選擇。我們只對2435與X55xx進行了對比測試。Xeon E5540 2.53與Opteron 2431 2.4 GHz的情況有些不同……兩者都是有很強競爭力的,所以除了性能、價格和能耗之外還要考慮其他一些因素。 VMmark顯示,Xeon X55xx在處理大量虛擬機的時候表現(xiàn)更突出。在很多情況下,服務器上的虛擬機內存容量比CPU更重要。這時候,低功耗的四核處理器會比六核或者主頻更高的四核處理器表現(xiàn)更好。最后,六核Opteron在4路系統(tǒng)中也有很強的競爭實力。
Intel Xeon雙核處理器“Gainestown”X5570,主頻2.93GHz
ASUS Z8PS-D12-1U
6x4GB (24GB) ECC Registered DDR3-1333
NIC: Intel 82574L PCI-E Gbit LAN
Intel Xeon雙核處理器E5450“Harpertown,主頻3GHz
Supermicro X7DWE+/X7DWN+
24GB (12x2GB) Crucial Registered FB-DIMM DDR2-667 CL5 ECC
NIC: Dual Intel PRO/1000 Server NIC
Intel Xeon雙核處理器X5365“Clovertown”,主頻3GHz
Intel Xeon雙核處理器L5320,主頻1.86GHz
Intel Xeon雙核處理器5080“Dempsey”,主頻3.73GHz
Supermicro X7DBE+
24GB (12x2GB) Crucial Registered FB-DIMM DDR2-667 CL5 ECC
NIC: Dual Intel PRO/1000 Server NIC
AMD Opteron雙核處理器2435,主頻2.6GHz
AMD Opteron雙核處理器8384,主頻2.7GHz
AMD Opteron雙核處理器2222,主頻3.0GHz
AMD Opteron雙核處理器8356,主頻2.3GHz
Supermicro H8QMi-2+
24GB (12x2GB) DDR2-800
NIC: Dual Intel PRO/1000 Server NIC
Intel Core 2 Quad Q6600 2.4GHz
Foxconn P35AX-S
4GB (2x2GB) Kingston DDR2-667
NIC: Intel PRO/1000
軟件:Oracle 10g Release 2 (10.2) for 64-bit Windows
基準測試軟件:Swingbench/Charbench 2.2
數(shù)據(jù)大?。? GB
典型出錯率:2%~2.5%
軟件:SQL Server 2005 Enterprise x64 SP3 (64-bit)
基準測試軟件:vApus + real world "Nieuws.be" Database
數(shù)據(jù)大?。?gt;100 GB
典型出錯率:1%~2%
軟件:MCS eFMS 9.2
基準測試軟件:vApus + real world "MCS" PHP site
典型出錯率:1%~2%
軟件:3ds Max 2008
基準測試軟件:Build in timer
典型出錯率:1%~2%
-OLTP測試的4個vCPU增加一倍
-OLTP測試的2個vCPU增加一倍