AMD Istanbul實(shí)測(cè):增加兩個(gè)內(nèi)核的意義
前言
雖然45nm四核Opteron是目前市場(chǎng)上最好的服務(wù)器CPU之一,不過(guò)就在幾個(gè)月之后,AMD所取得的成功就被英特爾代號(hào)Nehalem所取代。Nehalem架構(gòu)在很多方面進(jìn)行了完善,例如三通道的集成內(nèi)存控制器(IMC)。IMC借助高主頻DDR-3 DIMM實(shí)現(xiàn)了低延遲和高帶寬。但是這對(duì)雄心勃勃的Intel工程師來(lái)說(shuō)是遠(yuǎn)遠(yuǎn)不夠的。他們還增加了Simultaneous MultiThreading (SMT),據(jù)Intel稱(chēng)這項(xiàng)技術(shù)可以將性能提升30%左右,被SAP、Oracle和MS SQL Server等關(guān)鍵應(yīng)用所采用。最終結(jié)果是,現(xiàn)有的Xeon處理器的性能比AMD最好的CPU高出了60%~85%。
可能會(huì)有人對(duì)這次基準(zhǔn)測(cè)試的細(xì)節(jié)提出質(zhì)疑,但這不過(guò)是斤斤計(jì)較罷了。是的,這些數(shù)據(jù)是在采用DDR3-1333情況下測(cè)試得出的,而大多數(shù)Xeon55XX系列服務(wù)器采用的都是DDR3-1066。而且速度最快的至強(qiáng)處理器的能耗大約比Shanghai Opteron處理器高出了20W。所以為了進(jìn)行同類(lèi)對(duì)比,你應(yīng)該拿主頻為2.53 GHz的E5540來(lái)比較。但即使是在DDR3-1066和2.53 GHz兩個(gè)條件具備的情況下對(duì)比,最新的Xeon處理器仍然比AMD Opteron四核處理器高出40%~70%,而且在帶寬密集型應(yīng)用中測(cè)試的領(lǐng)先優(yōu)勢(shì)更為明顯。只有在很少見(jiàn)的密集矩陣應(yīng)用中,基于最常用的Linpack基準(zhǔn)測(cè)試,AMD可能會(huì)獲得一些加分。在低能耗和低價(jià)格基礎(chǔ)上AMD可以提供相同的Gigaflops,不過(guò)我們談的是市場(chǎng)份額只有不到1%的應(yīng)用。不過(guò)AMD也有一線(xiàn)希望,那就是在我們的vApus Mark I虛擬化基準(zhǔn)測(cè)試中,主頻為2.9 GHz的Opteron 2389在ESX 3.5平臺(tái)上有突出的性能表現(xiàn)。但是在ESX 4.0平臺(tái)上,最新的Xeon Nehalem處理器憑借更好的超線(xiàn)程支持和ESX hypervisor提供EPT技術(shù)的支持而再次將領(lǐng)先優(yōu)勢(shì)擴(kuò)大。AMD的下一代CPU預(yù)計(jì)將在2012年面市,因此AMD很可能會(huì)把高端和終端服務(wù)器CPU市場(chǎng)拱手讓給Intel,除非……
AMD自從推出45nm CPU以來(lái)一直有很好的表現(xiàn)。你可能還記得AMD在1999年10月推出250nm的K75,僅僅5個(gè)月之后,也就是在2000年3月AMD將“x86-Alpha”主頻提高到1 GHz。的確在這10年中AMD一直不斷努力。就在成功發(fā)布45nm四核處理器之后的6個(gè)月,AMD提前發(fā)布了代號(hào)為“Istanbul”的6核Opteron處理器。Istanbul實(shí)際是在Shanghai的基礎(chǔ)上增加了兩個(gè)內(nèi)核,內(nèi)存控制器有所增強(qiáng)。更讓人印象深刻的是,AMD昨天還展示了主頻為2.6 GHz的16核處理器,其能耗僅比6個(gè)月前推出的2.7 GHz四核處理器高一點(diǎn)。那么,IT專(zhuān)業(yè)人士是否會(huì)關(guān)注最新的六核AMD處理器?在使用哪些應(yīng)用的時(shí)候應(yīng)該考慮基于Istanbul的服務(wù)器?增加的兩個(gè)內(nèi)核是否會(huì)讓AMD的Opteron處理器重新出現(xiàn)在你下一個(gè)高性能服務(wù)器的規(guī)格表中?
6核有意義嗎?
當(dāng)Intel發(fā)布16核Dunnington的時(shí)候,有很多應(yīng)用無(wú)法很好地利用這一處理器?;?/span>Istanbul的四路服務(wù)器也將面臨相同的問(wèn)題:一些服務(wù)器應(yīng)用傾向于“2的N次方個(gè)內(nèi)核”,而且很多都不會(huì)超過(guò)8核,更不會(huì)成功地超越16核。甚至在服務(wù)器領(lǐng)域,很多應(yīng)用也無(wú)法很好地?cái)U(kuò)展超過(guò)8核~16核。郵件服務(wù)器、Web服務(wù)器、甚至一些數(shù)據(jù)庫(kù)都是這種情況。如果你的數(shù)據(jù)庫(kù)鎖定了相同的數(shù)據(jù)量,那么一旦超出一定的內(nèi)核數(shù),鎖定阻塞可能會(huì)削弱性能。渲染應(yīng)用也是一個(gè)超出8核會(huì)影響性能的例子。可能將四路四核聚合到一起要比向同一臺(tái)設(shè)備添加更多內(nèi)核更有意義。
但是六核IstanbulCPU也有很多有點(diǎn)。Nehalem Xeon提供了8個(gè)邏輯內(nèi)核,但是每個(gè)內(nèi)核上的兩個(gè)線(xiàn)程必須共享32 KB的一級(jí)緩存和256 KB的二級(jí)緩存。Istanbul只有6個(gè)線(xiàn)程,但是每個(gè)線(xiàn)程都可以獲得64 KB的一級(jí)緩存或者512 KB的二級(jí)緩存??偠灾?,很明顯最新的AMD Istanbul Opteron處理器瞄準(zhǔn)了特定的市場(chǎng):計(jì)算密集型高性能計(jì)算應(yīng)用、大型數(shù)據(jù)庫(kù)還有最重要的“高度”虛擬化工作負(fù)載,這里我們之所以說(shuō)“高度”是因?yàn)榱?/span>Opteron可即時(shí)取代現(xiàn)有四核Opteron。也就意味著基于最新六核處理器的服務(wù)器的內(nèi)存容量可能是相同的。如果你將很多低工作負(fù)載整合到一起,那么在達(dá)到處理能力極限之前就會(huì)遇到內(nèi)存瓶頸。#p#page_title#e# Istanbul的升級(jí)功能 Istanbul的內(nèi)核與Shanghai是一樣的,只是增加了幾項(xiàng)升級(jí)功能:HT Assist、略高的HT速度、APML和x8 ECC。 X8 ECC:一個(gè)DIMM上的每個(gè)DRAM芯片提供了4比特或者8比特的數(shù)據(jù)。提供了4比特的芯片被稱(chēng)為x4,提供了8比特的芯片被稱(chēng)為x8。8個(gè)x8芯片或者16個(gè)x4芯片生成一個(gè)16位字節(jié),所以一個(gè)DIMM在一邊或者兩邊至少需要8個(gè)芯片。Istanbul的內(nèi)存控制器現(xiàn)在支持對(duì)x4和x8 DIMM的糾錯(cuò)功能。 APML遠(yuǎn)程電源管理界面:APML界面讓你能夠通過(guò)P-State限制進(jìn)行監(jiān)控和控制平臺(tái)能耗。你需要在服務(wù)器上有一個(gè)支持APML的CPU和BMC,監(jiān)控電源和對(duì)電源管理工具作出變更。目前相關(guān)的硬件和軟件還在開(kāi)發(fā)中,所以支持這些功能的服務(wù)器產(chǎn)品將在本月面市。APML是一項(xiàng)有趣的技術(shù),它讓你不用進(jìn)入BIOS就可以控制電源。AMD的PowerCap Manager可以限制電源,確保CPU的主頻不會(huì)超出特定界線(xiàn),這對(duì)冷卻或者電力資源有限的數(shù)據(jù)中心來(lái)說(shuō)是非常有用的。當(dāng)然在有著上百臺(tái)服務(wù)器的數(shù)據(jù)中心,BIOS選項(xiàng)并不那么簡(jiǎn)單。這就是APML的優(yōu)點(diǎn)所在。 更高的超線(xiàn)程速度:最新的Shanghai Opteron處理器支持HyperTransport 3.0(HT3)。HT3的主頻高于舊型號(hào)Opteron處理器所使用的HyperTransport連接技術(shù)。主頻提高到了2.2 GHz DDR,每個(gè)方向可實(shí)現(xiàn)8.8 GB/s的速度。Istanbul將HyperTransport的主頻提高到了2.4GHz DDR,每個(gè)方向可實(shí)現(xiàn)9.6 GB/s的速度。因?yàn)樽钚碌?/span>Fiorano平臺(tái)還沒(méi)有準(zhǔn)備就緒,所以我們?nèi)匀坏檬褂门f的NVIDIA MCP55平臺(tái)進(jìn)行測(cè)試。不過(guò)沒(méi)有關(guān)系,CPU互連速度是和CPU有關(guān)的,并不是主板或者芯片組,你可以在下面的BIOS截屏中明顯地看出來(lái): 最后一項(xiàng)升級(jí)是HT Assist,后面我們將詳細(xì)談?wù)勥@一功能。 #p#page_title#e#
HT Assist:只用于四路系統(tǒng) HT Assist是AMD所采用的一種探測(cè)過(guò)濾器技術(shù)。首先,讓我們來(lái)看一看Shanghai四核系統(tǒng)。CPU 3可能需要CPU 1才有權(quán)訪(fǎng)問(wèn)的緩存行,但事實(shí)上最近的數(shù)據(jù)在CPU 2的二級(jí)緩存里。 流程如下: 1、CPU 3向CPU 1請(qǐng)求數(shù)據(jù)(藍(lán)色實(shí)心箭頭“數(shù)據(jù)請(qǐng)求”) 2、CPU 1發(fā)出廣播,看其他CPU是否有最新的數(shù)據(jù)(三個(gè)紅色實(shí)心箭頭“探測(cè)請(qǐng)求”) 3、在探測(cè)完成之前,CPU 3保持空閑狀態(tài)(四個(gè)紅色空心箭頭“探測(cè)回復(fù)”) 4、請(qǐng)求數(shù)據(jù)從CPU 2發(fā)送到CPU 3(兩個(gè)藍(lán)色空心箭頭) 這種廣播的方法存在兩個(gè)嚴(yán)重問(wèn)題:首先,一個(gè)相對(duì)簡(jiǎn)單的請(qǐng)求就需要十次處理,嚴(yán)重浪費(fèi)帶寬;其次,這十次處理給CPU 3上的指令增加了大量延遲。 解決方案就是采用基于目錄的系統(tǒng),AMD稱(chēng)之為HT Assist。HT Assist在每個(gè)CPU上保留1MB三級(jí)緩存作為一個(gè)目錄。這個(gè)目錄被用于在其他系統(tǒng)中使用的緩存行。也就是說(shuō),雖然三級(jí)緩存只有5MB大,但省去了很多探測(cè)或者傳輸。從下圖中可以看明白: 讓我們看看發(fā)生了什么,還是從CPU 3開(kāi)始: 1、CPU 3向CPU 1請(qǐng)求數(shù)據(jù)(藍(lán)色實(shí)心箭頭) 2、CPU 1檢查三級(jí)緩存目錄緩存以定位請(qǐng)求數(shù)據(jù)(紅色加粗箭頭) 3、從CPU 1三級(jí)目錄緩存的讀取說(shuō)明CPU 2有最新的數(shù)據(jù)副本并直接探測(cè)CPU 2(深紅色實(shí)心箭頭) 4、請(qǐng)求數(shù)據(jù)從CPU 2發(fā)送到CPU 3(藍(lán)色空心箭頭) 這次處理次數(shù)只有4次,而不是10次,大大降低了延遲并減少帶寬的浪費(fèi)。這種探測(cè)“廣播”的方法可以將11個(gè)的CPU向CPU日常處理減少8個(gè)。流量測(cè)量結(jié)果顯示,四路系統(tǒng)的內(nèi)存帶寬提升了60%,采用了HT Assist之后的吞吐量為41.5GB/s,而沒(méi)有采用HT Assist的是25.5GB/s。 但是需要提出一點(diǎn),HT Assist只在四路系統(tǒng)內(nèi)有用,在八路系統(tǒng)內(nèi)能最大限度上發(fā)揮其重要性。在二路系統(tǒng)內(nèi),因?yàn)榱硗庵挥幸粋€(gè)CPU,所以廣播方法實(shí)際上與單播方法是相同的。HT Assist還降低了二級(jí)緩存的命中率,所以在2P系統(tǒng)應(yīng)該禁用HT Assist??纯聪旅娴?/span>BIOS截圖: 在探測(cè)過(guò)濾器下面有三個(gè)選項(xiàng):自動(dòng)、禁用和MP。在自動(dòng)模式下,探測(cè)過(guò)濾器或者HT Assist在2P系統(tǒng)中是關(guān)閉的。你可以通過(guò)設(shè)定“MP”模式啟動(dòng)HT Assist。 #p#page_title#e#
Intel與AMD的產(chǎn)品線(xiàn) 在我們查看基準(zhǔn)測(cè)試結(jié)果之前,應(yīng)該先看看廠(chǎng)商是如何定位他們的CPU產(chǎn)品的。在這之前,先讓我們來(lái)快速瀏覽一下AMD和Intel最重要的CPU產(chǎn)品。 AMD顯然承認(rèn)他們?cè)谠夹阅芊矫姹炔簧?/span>Xeon X55xx系列。最高的兩個(gè)型號(hào)X5570和X5560不在這個(gè)范圍內(nèi)。AMD可能會(huì)說(shuō),在某些應(yīng)用中,最新的六核Opteron可以與Xeon X55xx打成平手。在2435方面,你可能會(huì)看到低功耗的優(yōu)點(diǎn)。還要注意,最高型號(hào)的四核Opteron處理器的價(jià)格已經(jīng)相當(dāng)便宜了。主頻為2.9 GHz的2389 “Shanghai”仍然不是Xeon E5540 2.53,但是有必要關(guān)注一下服務(wù)器價(jià)格。32 GB的DDR-3 1066價(jià)格仍然在1200美元左右,而32 GB的DDR-2 800只需要大約850美元。這已經(jīng)超出了本文的討論范圍,但是很顯然,即使這兩個(gè)CPU價(jià)格相同,基于AMD的服務(wù)器仍然是更便宜一些。不管怎么說(shuō),X55xx還是一個(gè)很新的平臺(tái)。 來(lái)看一看印模尺寸和晶體管數(shù)量方面的數(shù)據(jù): AMD的Istanbul是一款尺寸相當(dāng)大的芯片,但是并不像Barcelona的價(jià)格那么高。Harpertown摘得了生產(chǎn)成本最低的桂冠。 我們的基準(zhǔn)測(cè)試方法和選擇 與以往的AMD CPU發(fā)布一樣,我們沒(méi)有太多時(shí)間進(jìn)行基準(zhǔn)測(cè)試。當(dāng)我們開(kāi)始運(yùn)行BIOS的時(shí)候發(fā)現(xiàn)我們的Adaptec RAID卡完全不支持這個(gè)新的BIOS,我們只剩下不到一周的時(shí)間進(jìn)行服務(wù)器基準(zhǔn)測(cè)試,而這在以前每個(gè)步驟都要花上幾個(gè)小時(shí)的時(shí)間。所以我們必須作出選擇。如果不使用Adaptec RAID卡的話(huà),我們就得放棄此前一直使用的大多數(shù)磁盤(pán)密集測(cè)試:DVD Store處理測(cè)試。 盡管時(shí)間緊張,我們?nèi)匀环浅?yán)格地執(zhí)行新的基準(zhǔn)測(cè)試方法。我們沒(méi)有放棄任何一個(gè)可使用的軟件,并決定“購(gòu)買(mǎi)者”應(yīng)該被納入我們的基準(zhǔn)測(cè)試范圍內(nèi)?;旧?,每一個(gè)重要的軟件類(lèi)型都應(yīng)該至少有一個(gè)、最好是有兩個(gè)基準(zhǔn)測(cè)試組中的代表。從下面的表格中你可以看到服務(wù)器軟件類(lèi)型和這次測(cè)試可能用到的基準(zhǔn)測(cè)試。我們?cè)黾恿?/span>“相關(guān)”一欄,因?yàn)?/span>“Istanbul”只針對(duì)這個(gè)市場(chǎng)的一部分。很少有人會(huì)為打印服務(wù)器、域控制器或者郵件服務(wù)器購(gòu)買(mǎi)8核處理器。 由于時(shí)間有限,我們決定推遲Exchange和Linpack測(cè)試。這次我們將不提供SAP基準(zhǔn)測(cè)試結(jié)果。 基準(zhǔn)架構(gòu) 我們的基準(zhǔn)要求都不超過(guò)20GB。數(shù)據(jù)庫(kù)文件保存在一個(gè)3驅(qū)動(dòng)器RAID-0 Intel X25-E SLC 32 GB SSD上,日志文件保存在一個(gè)32GB的Intel X25-E SLC上。 Xeon服務(wù)器 1: ASUS RS700-E6/RS4 barebone Xeon服務(wù)器 2: Intel“Stoakley platform”服務(wù)器 Xeon服務(wù)器 3: Intel“Bensley platform”服務(wù)器 Opteron服務(wù)器: Supermicro SC828TQ-R1200LPB 2U Chassis vApus/Oracle Calling Circle Client Configuration OLTP基準(zhǔn):Oracle Charbench "Calling Circle" 操作系統(tǒng):Windows 2008 Enterprise RTM (64位) Calling Circle是一項(xiàng)Oracle OLTP基準(zhǔn)。我們測(cè)試的數(shù)據(jù)庫(kù)大小是9GB。為了減少對(duì)存儲(chǔ)系統(tǒng)所帶來(lái)的壓力,我們將SGA增加到10GB,PGA大小設(shè)定在1.6GB。Calling Circle測(cè)試包括83%的選擇、7%的接入和10%的升級(jí),運(yùn)行時(shí)間為10分鐘,一個(gè)循環(huán)反復(fù)6次,不采用第一輪的測(cè)試結(jié)果,因?yàn)榇疟P(pán)隊(duì)列長(zhǎng)度(DQL)有時(shí)候接近1,而第二輪和之后的DQL接近0.2或者更低。在這種情況下,更容易以99%的負(fù)載運(yùn)行CPU。因?yàn)镈QL是非常相似的,所以我們將在“Nehalem”文章中保留我們的測(cè)試結(jié)果。所有架構(gòu)都使用2路系統(tǒng)。 Opteron 2384(主頻2.7 GHz)的測(cè)試數(shù)據(jù)表明,主頻為2.6 GHz的Opteron的結(jié)果大約在231左右。Istanbul 2435在性能上高出27%。這低于超線(xiàn)程技術(shù)給Xeon X5570帶來(lái)的加分,明顯說(shuō)明超線(xiàn)程技術(shù)在這些低IPC數(shù)據(jù)庫(kù)工作負(fù)載中是一個(gè)多么強(qiáng)大的武器。Xeon X5570比AMD最新的六核處理器快了大約50%。即使Opteron 2435的主頻比X5550低了10%,但顯然Xeon X55xx遠(yuǎn)超過(guò)了AMD最好的CPU。 #p#page_title#e# 決策支持基準(zhǔn):Nieuws.be 操作系統(tǒng):Windows 2008 Enterprise RTM (64-bit) Nieuws.be站點(diǎn)位于一個(gè)大型數(shù)據(jù)之上:超過(guò)100GB且在不斷增加。這個(gè)數(shù)據(jù)庫(kù)有上百個(gè)獨(dú)立表格組成,我們的實(shí)驗(yàn)平臺(tái)(Sizing Servers Lab)對(duì)其進(jìn)行了仔細(xì)的優(yōu)化。我們已經(jīng)詳細(xì)描述了測(cè)試方法,有些讀者建議我們從SQL Server 2005 SP3升級(jí)到SQL Server 2008,這會(huì)給決策支持?jǐn)?shù)據(jù)庫(kù)帶來(lái)29%~38%的性能提升。所有架構(gòu)使用的是2路系統(tǒng)。讓我們來(lái)看一看MS SQL Server 2005數(shù)據(jù): 與SQL Server 2008的數(shù)據(jù)進(jìn)行對(duì)比 顯然SQL Server 2008對(duì)OLAP數(shù)據(jù)庫(kù)必須接收的復(fù)雜隊(duì)列進(jìn)行了更好的優(yōu)化。 回到硬件方面。在這兩種情況下,你可以明顯地看到,“未評(píng)分”的一些因素(緩存和內(nèi)存帶寬)對(duì)工作負(fù)載的影響小于OLTP測(cè)試。Opteron 2435比Opteron 2384(主頻2.7 GHz)快41%。主頻為2.6 GHz的Opteron處理器的得分大約為385,也就是說(shuō),4~6核的擴(kuò)展是最好的:46%。雖然這一擴(kuò)展范圍非常接近50%的理論最大范圍,但是還不足以擊敗最新的Xeon處理器,只是將它的優(yōu)勢(shì)縮小到16%。不過(guò),因?yàn)镺pteron 2435的競(jìng)爭(zhēng)對(duì)手是主頻為2.66 GHz的Xeon處理器,而不是主頻為2.93 GHz的Xeon處理器,所以這是第一個(gè)Istanbul占據(jù)優(yōu)勢(shì)的基準(zhǔn)測(cè)試項(xiàng)目,與四核Shanghai形成了鮮明對(duì)比。 #p#page_title#e# 網(wǎng)站:MCS eFMS (Windows 2003 32 bit EE) 操作系統(tǒng):Windows 2003 R2 - 32-bit MCS開(kāi)發(fā)的MCS Enterprise Facility Management Software (MCS eFMS)模塊是處理最密集的Web應(yīng)用之一。eFMS的目的是集成空間使用管理、資產(chǎn)和設(shè)備、線(xiàn)纜基礎(chǔ)架構(gòu)等,同時(shí)追蹤和控制成本。MCS eFMS將所有信息保存在一個(gè)Oracle中央數(shù)據(jù)庫(kù)內(nèi)。 MCS eFMS包括三項(xiàng)關(guān)鍵技術(shù):基于Web的前端,集成了CAD繪圖功能,從十分復(fù)雜、與ERP相似的Oracle數(shù)據(jù)庫(kù)內(nèi)提取信息,生產(chǎn)一個(gè)關(guān)于所有可用空間和保留空間的樹(shù)狀總覽圖,運(yùn)用CAD繪圖獲得更多細(xì)節(jié):MCS eFMS是目前我們所知要求最苛刻的Web應(yīng)用之一。MCS eFMS使用了Microsoft IIS 6.0 (Windows 2003 Server Standard Edition R2)、Php 4.4.0、FastCGI和Oracle 9.2四種軟件。結(jié)果如下: 我們發(fā)現(xiàn),php網(wǎng)站都沒(méi)有超過(guò)8核的,所以這個(gè)基準(zhǔn)對(duì)任何一個(gè)內(nèi)核數(shù)超過(guò)8的系統(tǒng)都是不準(zhǔn)確的,不過(guò)它反映了實(shí)際環(huán)境中所發(fā)生的情況。測(cè)試結(jié)果顯示出我們的文章開(kāi)頭提到的問(wèn)題:很多服務(wù)器應(yīng)用沒(méi)有擴(kuò)展超過(guò)8核或者16核。記住一點(diǎn),就在4、5年前,8核設(shè)備的價(jià)格是非常高的。在不到5年的時(shí)間內(nèi),我們的服務(wù)器從雙核發(fā)展到12核。不過(guò)很多情況下,軟件都無(wú)法利用多核的優(yōu)勢(shì),或者僅僅是不需要所有這些處理能力。雙核皓龍2435和雙核Xeon X5570(采用HT技術(shù))的使用率在50%~60%。在這里,8線(xiàn)程的Xeon X55xx是最好的選擇。#p#page_title#e# 渲染: 3ds Max 2008 操作系統(tǒng):Windows 2008 Enterprise RTM (64-bit) 我們使用了SPEC APC 3DS Max測(cè)試中的“架構(gòu)”情景。所有測(cè)試是在3ds Max的掃描行渲染下進(jìn)行的,使用SSE并以HD 720p清晰度進(jìn)行渲染。我們測(cè)量了從渲染10幀所需要的時(shí)間。我們記錄下時(shí)間,然后計(jì)算出一個(gè)特定CPU架構(gòu)在一個(gè)小時(shí)內(nèi)可以渲染多少幀。報(bào)告結(jié)果記錄了每小時(shí)渲染的圖像,分?jǐn)?shù)越高越好。 我們?cè)?4位 Windows 2008 RTM上使用32位版本的3ds Max 2008。64位版本的3ds Max 2008的速度有些慢(尤其是在在使用掃描行渲染的時(shí)候)。除特別指出外,所有CPU架構(gòu)都是雙核的。 這里我們看出,AMD Istanbul增加的兩個(gè)內(nèi)核幾乎是沒(méi)有用處。Xeon x55xx系列比16核CPU的性能高出了50%。3DS Max掃描行渲染無(wú)法兼容12核。CPU利用率從50%提高到80%。 我們相信一定有效率更高的渲染引擎,但是這并不是AMD六核CPU所定位的市場(chǎng)?;贜ehalem的Xeon對(duì)這種應(yīng)用來(lái)說(shuō)性能過(guò)于強(qiáng)大了。所以如果成本是你最關(guān)心的問(wèn)題,那么你可以考慮主頻為2.26 GHz的Xeon E5520,最便宜的CPU仍然支持超線(xiàn)程。以后我們將對(duì)這個(gè)進(jìn)行測(cè)試,我們預(yù)計(jì)每小時(shí)能處理67個(gè)幀,仍然比任何一個(gè)皓龍?zhí)幚砥鞲叱?0%多。#p#page_title#e# 虛擬化:VMmark 一個(gè)新的服務(wù)器CPU如何很好地處理虛擬化決定了它將受到冷遇還是歡迎。雖然時(shí)間緊迫,我們還是設(shè)法創(chuàng)建了4個(gè)基于ESX 3.5 update 4的虛擬機(jī)和8個(gè)基于ESX 4.0 (vSphere 4 build 164009)的虛擬機(jī)。因?yàn)檫@是到目前為止新六核最重要的市場(chǎng),所以我們也將大多數(shù)時(shí)間和精力放在這個(gè)方面。 這里有兩個(gè)基準(zhǔn):VMmark和vApus Mark I。VMmark能夠?qū)ΤS玫恼瞎ぷ髫?fù)載——文件服務(wù)器、數(shù)據(jù)庫(kù)、文件服務(wù)器和有一些處理密集型Java應(yīng)用的Web站點(diǎn)進(jìn)行測(cè)試。一個(gè)虛擬機(jī)處于空閑狀態(tài),有代表性的工作負(fù)載必須是在線(xiàn)的,但并不執(zhí)行很多任務(wù)(例如,一個(gè)域控制器)。簡(jiǎn)而言之,VMmark主要用于你希望在一個(gè)物理服務(wù)器上整合很多小型應(yīng)用的情況。 雖然現(xiàn)在還沒(méi)有官方的VMmark得分?jǐn)?shù)據(jù),但是AMD提供關(guān)于備份的幻燈片說(shuō)明Opteron 2435的性能比Opteron 2384提高了41%。對(duì)于四核Opteron來(lái)說(shuō),最高的得分是11.28。 根據(jù)粗略估計(jì),主頻為2.6 GHz的四核CPU得分大約為10.9,也就是說(shuō)增加兩個(gè)內(nèi)核帶來(lái)性能上46%的提升。這幾乎是很完美的,同時(shí)也表明虛擬服務(wù)器通過(guò)增加更多內(nèi)核來(lái)提升性能并不困難,只要你有足夠的內(nèi)存空間。據(jù)我們?cè)贠EM那里得到的結(jié)果,超線(xiàn)程能帶來(lái)大約30%的性能提升,也就是說(shuō),相比我們之前的基準(zhǔn)測(cè)試,增加內(nèi)核的方法比增加超線(xiàn)程能帶來(lái)更顯著的性能提升。Xeon X5570得分最高,但只是針對(duì)VMmark測(cè)試的。最好的Xeon仍然比最好的Opteron快了大約50%。#p#page_title#e# vApus Mark I:性能關(guān)鍵的虛擬化應(yīng)用 如果你已經(jīng)對(duì)數(shù)據(jù)中心實(shí)施了虛擬化,那么可能那些非密集型負(fù)載也已經(jīng)實(shí)現(xiàn)了虛擬化。接下來(lái)呢?虛擬化廠(chǎng)商會(huì)積極地鼓勵(lì)你對(duì)性能關(guān)鍵硬件實(shí)施虛擬化。你可以通過(guò)vSphere 4使用多達(dá)8個(gè)vCPUs和255 GB RAM,Xenserver 8 vCPU和32 GB RAM。Hyper-V仍然局限在4 vCPU和每個(gè)主機(jī)最多16個(gè)CPU。但是對(duì)于Hyper-V R2來(lái)說(shuō)情況有所改變。底線(xiàn)是,如果能夠更輕松地實(shí)現(xiàn)遷移或者管理的話(huà),對(duì)處理密集型應(yīng)用實(shí)施虛擬化還是有很大吸引力的。 這時(shí)候就用到了vApus Mark I:一個(gè)OLAP、一個(gè)DSS和兩個(gè)密集型Web網(wǎng)站?,F(xiàn)在有很多要求苛刻的應(yīng)用仍然需要運(yùn)行一年前使用的某些設(shè)備。vApus Mark I測(cè)試顯示了如果實(shí)現(xiàn)虛擬化的話(huà)會(huì)發(fā)生什么情況。與之前的基準(zhǔn)測(cè)試相比,只有一點(diǎn)改變了:我們使用大型頁(yè)面,因?yàn)樗ǔ1徽J(rèn)為是最佳策略。性能提升了4%~5%。 我們的其他選擇保持不變:如果可能的話(huà),所有虛擬機(jī)都具備RVI和EPT;除特定要求外,不使用超線(xiàn)程。 vApus Mark I使用了4個(gè)運(yùn)行4個(gè)服務(wù)器應(yīng)用的虛擬機(jī):一個(gè)運(yùn)行在Windows 2008 64位版本上的SQL Server 2008 x64數(shù)據(jù)庫(kù),用我們自主開(kāi)發(fā)的vApus軟件進(jìn)行測(cè)試;兩個(gè)在Windows 2003 R2上運(yùn)行PHP和IIS的處理密集型MCS eFMS,用我們自主開(kāi)發(fā)的vApus軟件進(jìn)行測(cè)試;一個(gè)OLTP數(shù)據(jù)庫(kù),用Dominic Giles的Oracle 10G Calling Circle進(jìn)行測(cè)試。 vApus軟件運(yùn)用人為操作來(lái)執(zhí)行虛擬機(jī)測(cè)試,而不是用一些基準(zhǔn)測(cè)試算法。首先讓我們來(lái)看一看在最常用hypervisor——ESX 3.5 Update 4下的測(cè)試結(jié)果: 如果你只是將Istanbul插入你的虛擬化服務(wù)器中,那么你無(wú)法知道你運(yùn)行的是六核還是四核。你可能還記得,主頻為2.9 GHz的2389得分為203。讓人失望的是,主頻為2.6 GHz的六核CPU與主頻為2.9 GHz的四核CPU得分沒(méi)有太大差別。那么問(wèn)題出在哪里?VMware ESX 3.5默認(rèn)的是將可用內(nèi)核分成4個(gè)內(nèi)核大小的組,也就是所謂的單元。目的是為了保證虛擬機(jī)總是在同一個(gè)單元內(nèi),從而保證虛擬機(jī)總是在一個(gè)節(jié)點(diǎn)中。這會(huì)確保虛擬機(jī)總是使用本地內(nèi)存(而不需要其他節(jié)點(diǎn)的遠(yuǎn)程內(nèi)存),更重要的是,緩存總是保持“活動(dòng)”的。如果維持4個(gè)內(nèi)核大小的默認(rèn)單元,那么一個(gè)或者多個(gè)虛擬機(jī)將在2路系統(tǒng)中被分割,在不同部分之間進(jìn)行傳輸。一旦我們將單元大小從4個(gè)內(nèi)核增加到6個(gè)內(nèi)核,那么情況就完全不同了,丑小鴨變成了白天鵝。六核Opteron與最好的Xeon打成平手! 在這種情況下,Xeon x55xx顯得有些相形見(jiàn)絀,因?yàn)镋SX 3.5 update 4不支持EPT,而且沒(méi)有針對(duì)超線(xiàn)程進(jìn)行優(yōu)化。從上面的測(cè)試中可以看到,超線(xiàn)程將得分提高了17%。根據(jù)我們從OEM廠(chǎng)商方面獲得的數(shù)據(jù)顯示,VMmark在ESX 4.0上提高了30%。這表明ESX 4.0能夠更好地利用超線(xiàn)程。那么,讓我們來(lái)看一看ESX 4.0的數(shù)據(jù)。 Nehalem提高的幅度不大。六核Opteron的性能降低了2%,這是在該基準(zhǔn)的錯(cuò)誤率范圍內(nèi)的,對(duì)最新的Opteron來(lái)說(shuō)仍然是一個(gè)很好的結(jié)果:表明它與主頻為2.66 GHz的Xeon X5550競(jìng)爭(zhēng)是沒(méi)有問(wèn)題的。VMmark結(jié)果說(shuō)明,當(dāng)服務(wù)器上層虛擬機(jī)數(shù)量大幅增加的時(shí)候,最新Xeon Nehalem的優(yōu)勢(shì)就顯示出來(lái)了。所以我們決定在8個(gè)虛擬機(jī)的環(huán)境下進(jìn)行測(cè)試。你很有可能會(huì)在一臺(tái)物理服務(wù)器上層整合超過(guò)10個(gè)性能關(guān)鍵應(yīng)用,我們我們覺(jué)得8個(gè)虛擬機(jī)就能說(shuō)明問(wèn)題。只有一個(gè)變化:用于Webportal的內(nèi)存從4GB減少到2GB,確?;鶞?zhǔn)滿(mǎn)足我們?cè)赬eon X5570上設(shè)定最高24GB的范圍。我們計(jì)算出兩個(gè)相同虛擬機(jī)的平均結(jié)果(OLAP VM = (OLAP VM1 + OLAP VM5)/2) 可以發(fā)現(xiàn),HT Assist是2路架構(gòu)的性能“殺手”。有趣的是,隨著虛擬機(jī)的增加,Xeon X5570的性能優(yōu)勢(shì)開(kāi)始不那么明顯。Xeon X5570比雙核2435皓龍?zhí)幚砥骺齑蠹s30%。這也給我們提供了一個(gè)為什么VMmark得分為什么這么極端的線(xiàn)索:大量虛擬機(jī)可能過(guò)于強(qiáng)調(diào)交換時(shí)間了。但即使是在負(fù)載較小的時(shí)候,也很難找到超過(guò)20個(gè)虛擬機(jī)位于DP處理器上層。 還有,在測(cè)試中,ESX Scheduler在32個(gè)vCPU上分配16個(gè)邏輯CPU。這比在32個(gè)vCPU上分配12個(gè)物理CPU容易多了。這可能在六核Opteron上帶來(lái)時(shí)序安排的問(wèn)題。 所以我們的測(cè)試某種程度上“更偏向于”Xeon X5570。 我們將vCPU的數(shù)量從4個(gè)減少到2個(gè)。這就意味著: -OLAP測(cè)試的4個(gè)vCPU增加一倍 或者總共24個(gè)vCPU。因此這個(gè)測(cè)試更傾向于Istanbul處理器。記住,我們的參考數(shù)據(jù)是基于4 CPU的原始得分。所以我們將參考數(shù)據(jù)調(diào)整為基于2 CPU的原始得分。OLTP和OLAP測(cè)試的參考數(shù)據(jù)保持不變。下面的測(cè)試結(jié)果與以前你所見(jiàn)的數(shù)據(jù)是沒(méi)有可對(duì)比性的。這只是為了讓你更好地理解我們得出的結(jié)果。我們計(jì)算出兩個(gè)相同虛擬機(jī)的平均結(jié)果(OLAP VM = (OLAP VM1 + OLAP VM5)/2) 結(jié)果是,Xeon Nehalem這一次只快了11%。所以記住一點(diǎn)很重要,當(dāng)談到MP虛擬機(jī)的時(shí)候,vCPU數(shù)量與Cell大小之間的關(guān)系是非常重要的。#p#page_title#e# 能耗 我們的能耗數(shù)據(jù)是已提供的,所以不需要對(duì)能耗數(shù)據(jù)進(jìn)行復(fù)查。粗略查看之后我們發(fā)現(xiàn)Opteron 2435設(shè)備比Xeon X5570的能耗低25~45W。如果總能耗是略高于300W的話(huà),就是大約10%~15%。Xeon Nehalem在空閑狀態(tài)下的能耗更低一些。 市場(chǎng)分析 與以往一樣,我們將根據(jù)購(gòu)買(mǎi)的服務(wù)器類(lèi)型分情況進(jìn)行分析。在這篇文章中可能有很多我們沒(méi)有涉及到的領(lǐng)域,但是沒(méi)有ERP基準(zhǔn)測(cè)試的話(huà),這些領(lǐng)域基本上是沒(méi)有關(guān)聯(lián)性的。HT Assist在四路架構(gòu)中會(huì)提高帶寬,但是在2路系統(tǒng)中必須禁用HT Assist。因此,六核處理器的每個(gè)內(nèi)核的帶寬更少,這就意味著大多數(shù)高性能計(jì)算應(yīng)用的性能不會(huì)有所提升。基礎(chǔ)架構(gòu)市場(chǎng)需要在花費(fèi)相同資金的情況下或者盡可能高的內(nèi)存空間,而不是更多的處理能力。 所以這里就缺失了一塊:ERP結(jié)果。SAP基準(zhǔn)測(cè)試結(jié)果并不難預(yù)測(cè):六核皓龍可能比四核Opteron 2389的SAP得分高出25%~35%,而這不會(huì)威脅到Nehalem Xeon的統(tǒng)治地位,它比后者快了將近81%。 OLTP市場(chǎng)也被Intel牢牢掌控。在我們的網(wǎng)站基準(zhǔn)測(cè)試中情況更好一些,不過(guò)你會(huì)發(fā)現(xiàn),這里一個(gè)Xeon X5570的性能與兩個(gè)六核Opteron差不多。這里忽略了決策支持?jǐn)?shù)據(jù)庫(kù)和針對(duì)虛擬化采購(gòu)的服務(wù)器兩個(gè)因素,而后者是非常非常重要的…… 結(jié)論 六核Opteron在所有這些應(yīng)用方面都是無(wú)法取代強(qiáng)大的Xeon處理器。Xeon處理器由于更高的主頻、更高的IPC、超線(xiàn)程和更高的內(nèi)存帶寬而具有更廣泛的用途。在OLTP、ERP、Web服務(wù)和渲染等應(yīng)用下顯然Xeon 55xx系列是更好的選擇,毫無(wú)疑問(wèn),Xeon 55xx系列還將占領(lǐng)帶寬密集型HPC工作負(fù)載。我們認(rèn)為你在使用這兩種應(yīng)用的時(shí)候可以考慮AMD六核處理器:決策支持?jǐn)?shù)據(jù)庫(kù)和虛擬化。 自從發(fā)布ESX 3.5以來(lái),VMware就不止一次表示像OLTP和決策支持?jǐn)?shù)據(jù)庫(kù)這樣的性能關(guān)鍵應(yīng)用在他們的hypervisor上有更好的表現(xiàn)。vSphere 4的多項(xiàng)升級(jí)讓它成為那些處理密集型應(yīng)用的更好選擇?,F(xiàn)在很多企業(yè)都開(kāi)始對(duì)性能關(guān)鍵應(yīng)用實(shí)施虛擬化,虛擬化這些應(yīng)用可以讓管理數(shù)據(jù)中心變得與管理精簡(jiǎn)整合應(yīng)用一樣很靈活。例如,VMotion可以被用于更快速更方便地遷移這些應(yīng)用。 當(dāng)然,性能關(guān)鍵應(yīng)用從定義上看就是在處理能力方面要求更加苛刻。這就是vApus Mark I需要測(cè)量的:在被虛擬化之后,性能關(guān)鍵應(yīng)用的性能有多大幅度的提升?這是AMD 2435一個(gè)有突出表現(xiàn)的新市場(chǎng)。主頻為2.6 GHz的Opteron 2435在vApus Mark I測(cè)試中有讓人驚喜的表現(xiàn):在ESX 3.5 update 4上,它能夠與售價(jià)更高的Xeon相匹敵,同時(shí)它的能耗更低,在vSphere 4上提供了具有很強(qiáng)競(jìng)爭(zhēng)力的每瓦性能和性?xún)r(jià)比。在vSphere 4上,六核Opteron的速度比主頻為2.9 GHz的Xeon X5570低11%~30%,但是Istanbul平臺(tái)的整體成本低很多,而且在虛擬化環(huán)境下,主頻為2.6 GHz的2435能耗更低。如果你對(duì)hypervisor進(jìn)行了優(yōu)化以很好地利用六核,那么六核Opteron是一個(gè)值得考慮的選擇。我們只對(duì)2435與X55xx進(jìn)行了對(duì)比測(cè)試。Xeon E5540 2.53與Opteron 2431 2.4 GHz的情況有些不同……兩者都是有很強(qiáng)競(jìng)爭(zhēng)力的,所以除了性能、價(jià)格和能耗之外還要考慮其他一些因素。 VMmark顯示,Xeon X55xx在處理大量虛擬機(jī)的時(shí)候表現(xiàn)更突出。在很多情況下,服務(wù)器上的虛擬機(jī)內(nèi)存容量比CPU更重要。這時(shí)候,低功耗的四核處理器會(huì)比六核或者主頻更高的四核處理器表現(xiàn)更好。最后,六核Opteron在4路系統(tǒng)中也有很強(qiáng)的競(jìng)爭(zhēng)實(shí)力。
Intel Xeon雙核處理器“Gainestown”X5570,主頻2.93GHz
ASUS Z8PS-D12-1U
6x4GB (24GB) ECC Registered DDR3-1333
NIC: Intel 82574L PCI-E Gbit LAN
Intel Xeon雙核處理器E5450“Harpertown,主頻3GHz
Supermicro X7DWE+/X7DWN+
24GB (12x2GB) Crucial Registered FB-DIMM DDR2-667 CL5 ECC
NIC: Dual Intel PRO/1000 Server NIC
Intel Xeon雙核處理器X5365“Clovertown”,主頻3GHz
Intel Xeon雙核處理器L5320,主頻1.86GHz
Intel Xeon雙核處理器5080“Dempsey”,主頻3.73GHz
Supermicro X7DBE+
24GB (12x2GB) Crucial Registered FB-DIMM DDR2-667 CL5 ECC
NIC: Dual Intel PRO/1000 Server NIC
AMD Opteron雙核處理器2435,主頻2.6GHz
AMD Opteron雙核處理器8384,主頻2.7GHz
AMD Opteron雙核處理器2222,主頻3.0GHz
AMD Opteron雙核處理器8356,主頻2.3GHz
Supermicro H8QMi-2+
24GB (12x2GB) DDR2-800
NIC: Dual Intel PRO/1000 Server NIC
Intel Core 2 Quad Q6600 2.4GHz
Foxconn P35AX-S
4GB (2x2GB) Kingston DDR2-667
NIC: Intel PRO/1000
軟件:Oracle 10g Release 2 (10.2) for 64-bit Windows
基準(zhǔn)測(cè)試軟件:Swingbench/Charbench 2.2
數(shù)據(jù)大小:9 GB
典型出錯(cuò)率:2%~2.5%
軟件:SQL Server 2005 Enterprise x64 SP3 (64-bit)
基準(zhǔn)測(cè)試軟件:vApus + real world "Nieuws.be" Database
數(shù)據(jù)大?。?gt;100 GB
典型出錯(cuò)率:1%~2%
軟件:MCS eFMS 9.2
基準(zhǔn)測(cè)試軟件:vApus + real world "MCS" PHP site
典型出錯(cuò)率:1%~2%
軟件:3ds Max 2008
基準(zhǔn)測(cè)試軟件:Build in timer
典型出錯(cuò)率:1%~2%
-OLTP測(cè)試的4個(gè)vCPU增加一倍
-OLTP測(cè)試的2個(gè)vCPU增加一倍