性能,更要節(jié)能:Xeon能耗比新星
Nehalem同樣也是采用54nm制造工藝,這與以往的Xeon 5400是完全相同的。按照我們以往的測(cè)試經(jīng)驗(yàn),在處理器制造工藝沒(méi)有提升的前提下,更復(fù)雜的架構(gòu)、更多的晶體管數(shù)、更高的性能就意味著更大的功耗。在綠色環(huán)保概念盛行的今天,如果一款處理器即便擁有再高的性能,而在功耗控制上一無(wú)是處,它也會(huì)倍受攻擊而逐步墮入深淵。令人欣慰的是,英特爾并沒(méi)有重復(fù)Pentium 4上所犯的錯(cuò)誤,在Nehalem上我們看到了諸多技術(shù)用于處理器的電源、功耗控制。通過(guò)我們的測(cè)試證明,Nehalem在提供更為強(qiáng)勁性能的同時(shí),也成為Xeon系列處理器中對(duì)功耗控制做的最為出色的一款。
Nehalem是英特爾第一款采用直連架構(gòu)以及內(nèi)置內(nèi)存控制器的產(chǎn)品。作為網(wǎng)絡(luò)服務(wù)器的提供者,服務(wù)器通常都會(huì)面臨高負(fù)載下的多任務(wù)運(yùn)算,而采用直連架構(gòu)以及內(nèi)置內(nèi)存控制器則是有效提高處理器運(yùn)行效率的手段。如果有人說(shuō)英特爾不過(guò)是在跟隨AMD腳步也沒(méi)什么,對(duì)于用戶來(lái)說(shuō)所關(guān)心的無(wú)非是產(chǎn)品的實(shí)際使用效果而不是所謂的技術(shù)領(lǐng)先。在英特爾的產(chǎn)品說(shuō)明中將處理器分為了Core以及Uncore兩部分,Core顧名思義就是表示處理器核心,而Uncore部分則包括了L3緩存、QPI、IMC以及電源控制器。Nehalem支持DDR3內(nèi)存,而內(nèi)置內(nèi)存控制器的結(jié)構(gòu)也消除了處理器與內(nèi)存之間的瓶頸。為了滿足不同應(yīng)用環(huán)境的需求,Nehalem可以支持DDR3 800、1066以及1333規(guī)格內(nèi)存,而每個(gè)處理器則都有3個(gè)內(nèi)存通道。關(guān)于Nehalem QPI、內(nèi)存控制器等部分的詳細(xì)介紹,請(qǐng)參看《個(gè)人電腦》2008年第11期,或者我們的網(wǎng)站http://www.pcpro.com.cn/pcpro//2009/0309/1354151.shtml。
架構(gòu)的變化除了給Nehalem帶來(lái)性能提升外,對(duì)服務(wù)器的結(jié)構(gòu)設(shè)計(jì)也更為靈活。英特爾對(duì)應(yīng)Nehalem的服務(wù)器芯片組是Tylersburg系列芯片組,其中包括Tylersburg-36D和Tylersburg-24D以及Tylersburg-36S和Tylersburg-24S。它們?cè)诮Y(jié)構(gòu)上沒(méi)有太大差異,主要區(qū)別是在于QPI以及PCI Express的通道數(shù)目上。我們?cè)诜?wù)器平臺(tái)上看到的將更多是支持2個(gè)QPI通道以及36或24個(gè)PCI Express通道的Tylersburg-36D和Tylersburg-24D。
|
如果是四路服務(wù)器平臺(tái),那么直連架構(gòu)給服務(wù)器帶來(lái)的性能提升將會(huì)更為明顯。由于每個(gè)處理器都是擁有自己的內(nèi)存控制器,這樣就避免了以往多處理器競(jìng)爭(zhēng)內(nèi)存帶寬的情況,而且像下圖中所顯示的那樣,這種交叉連接方式將使數(shù)據(jù)直接在處理器之間進(jìn)行交互。
通常情況下服務(wù)器都是采用一套芯片組來(lái)支持多個(gè)處理器,對(duì)于Nehalem平臺(tái)來(lái)說(shuō),由于直連架構(gòu)以及QPI的采用,廠商可以根據(jù)用戶的需求來(lái)提供更為靈活的設(shè)計(jì),比如為了滿足對(duì)PCI Express擴(kuò)展的需求,可以采用兩個(gè)Tylersburg-36D提供高達(dá)78個(gè)PCI Express通道(6個(gè)2.5GHz Gen 1, 72個(gè)5GHz Gen 2)。
Nehalem的功耗控制
在眾多新技術(shù)、架構(gòu)的支持下,我們絲毫不懷疑Nehalem的性能表現(xiàn)。對(duì)于一款采用了23億個(gè)晶體管、45nm制造工藝,并且內(nèi)置內(nèi)存控制器的處理器,我們對(duì)Nehalem在實(shí)際應(yīng)用中的功耗控制更為感興趣。英特爾送測(cè)樣機(jī)采用了兩顆Xeon 5570處理器以及24GB內(nèi)存,按照我們以往的經(jīng)驗(yàn),這樣一臺(tái)服務(wù)器的空載功耗就要超過(guò)200W,而實(shí)際測(cè)試卻證明了這臺(tái)服務(wù)器在空載待機(jī)時(shí)的功耗只有175W,而我們的Xeon 5472服務(wù)器的待機(jī)功耗則達(dá)到了310W,兩者之間的差距令人吃驚。 #p#page_title#e#
Nehalem是英特爾第一款采用直連架構(gòu)的處理器 |
對(duì)于四路服務(wù)器,Nehalem的這種交叉連接方式更為實(shí)用。 |
整個(gè)處理器可以分為Core和Uncore兩部分 |
Tylersburg-36D可以提供36個(gè)PCI Express通道 |
如果需要更多的PCI Express,可以通過(guò)雙芯片來(lái)實(shí)現(xiàn)最多78個(gè)PCI Express通道。 |
PCU是Nehalem中最有特點(diǎn)的組成單元 |
Power Gate可以控制每個(gè)核心在獨(dú)立的電壓/時(shí)鐘頻率下工作 |
在Tylersburg-36的芯片組中,也同樣設(shè)置了一個(gè)管理引擎來(lái)提供對(duì)智能功耗控制的支持。 |
Turbo Mode通過(guò)改變核心工作狀態(tài)來(lái)提升程序的應(yīng)用效率 |
在Nehalem處理器中,采用了一個(gè)獨(dú)立單元PCU(Power Control Unit)對(duì)處理器的負(fù)載率、溫度等信息進(jìn)行監(jiān)控,而包括Power Gate這些技術(shù),則實(shí)現(xiàn)了對(duì)處理器內(nèi)每個(gè)核心的狀態(tài)控制。Nehalem可以根據(jù)應(yīng)用程序的需求來(lái)開(kāi)/關(guān)處理器的單個(gè)核心,而且可以控制每個(gè)核心在獨(dú)立的電壓/時(shí)鐘頻率下工作。在處理器的負(fù)載非常低的時(shí)候,Nehalem甚至可以允許單個(gè)處于閑置狀態(tài)的核心(idle Core)的功耗降到接近0W,并且實(shí)現(xiàn)了超低漏電量以減少不必要的功耗損失。
|
在我們以往所測(cè)試過(guò)的服務(wù)器產(chǎn)品中,服務(wù)器的功耗表現(xiàn)基本只有兩種,待機(jī)、滿載。由于應(yīng)用程序的不同,服務(wù)器在滿載時(shí)候的功耗的確會(huì)略有差異,這主要是由于磁盤(pán)訪問(wèn)而引起的,但是不會(huì)像Nehalem那樣隨著系統(tǒng)負(fù)載的變化而出現(xiàn)功耗的大幅波動(dòng)。Nehalem的處理器工作狀態(tài)可以有15個(gè)級(jí)別,這就意味著它可以在PCU的控制下隨時(shí)調(diào)整處理器的頻率以及電壓。只要系統(tǒng)的負(fù)載有所下降或者上升,Nehalem就能實(shí)時(shí)的進(jìn)行調(diào)整來(lái)同時(shí)滿足性能、功耗控制雙方面的需求。在測(cè)試中通過(guò)控制系統(tǒng)的負(fù)載量,我們也明顯發(fā)現(xiàn)Nehalem服務(wù)器的功耗有著較大的變化。除了Nehalem處理器具有很好的功耗控制外,與之對(duì)應(yīng)的Tylersburg-EP芯片組在功耗上也比較低。Tylersburg-36D的設(shè)計(jì)TDP是27W, ICH9為4.3W,而Tylersburg-36D的空載功耗則只有8W。
Turbo Mode
Nehalem對(duì)處理器內(nèi)每個(gè)核心的狀態(tài)控制這一特性,除了可以提供更好的功耗控制,另外也實(shí)現(xiàn)了對(duì)處理器的性能提升。熟悉汽車(chē)的讀者都會(huì)知道渦輪增壓技術(shù)(Turbo),借助該技術(shù),我們可以在較小排量的發(fā)動(dòng)機(jī)上實(shí)現(xiàn)更大的功率、扭矩輸出,而英特爾也為Nehalem提供了類(lèi)似的技術(shù)匹配—Turbo Mode。在圖中可以比較明顯的看出,Turbo Mode很像是英特爾的官方超頻設(shè)置。處理器會(huì)根據(jù)應(yīng)用的需求關(guān)閉一些不需要的核心,而將部分核心的頻率進(jìn)行提升以滿足應(yīng)用程序的需求。與Hyper Threading不同的是,Turbo Mode提供的是實(shí)打?qū)嵉念l率提升,而不是像Hyper Threading那樣只是改善運(yùn)行效率。不過(guò)可以放心的是,Turbo Mode會(huì)在Nehalem規(guī)定的TDP下運(yùn)行,不會(huì)對(duì)處理器的散熱造成任何麻煩,這比我們自己DIY時(shí)候的超頻要安全的多。如果你真的不放心,也可以在服務(wù)器的BIOS中將Turbo Mode關(guān)閉。 #p#page_title#e#
測(cè)試
除了常規(guī)的性能測(cè)試以外,我們這次針對(duì)Nehalem的測(cè)試主要集中在功耗以及功耗/性能比方面。我們所測(cè)試的Nehalem 1U樣機(jī)采用了兩顆Xeon 5570處理器、24GB內(nèi)存。性能測(cè)試在Windows 2003以及Windows 2008 64位下進(jìn)行,而功耗測(cè)試則在Windows 2003下完成。對(duì)比平臺(tái)為一臺(tái)雙路Xeon 5472服務(wù)器。
Xeon 5472在Transaction Rate 700時(shí)就已經(jīng)到達(dá)性能峰值,此時(shí)的功耗為390W,而Xeon 5570的Transaction Rate峰值為1400,最大功耗也只有315W。從曲線中可以看出,Xeon 5472的功耗不會(huì)隨著系統(tǒng)負(fù)載的改變而有顯著變化,而Xeon 5570所體現(xiàn)出的功耗控制更為靈活、有效。 |
從曲線中可以看出,當(dāng)Transaction Rate為700時(shí),Xeon 5472就已經(jīng)達(dá)到了系統(tǒng)的峰值性能,此后隨著負(fù)載的增加,Xeon 5472并不能進(jìn)一步的提高HTTP Requests成績(jī)。Xeon 5570的峰值在Transaction Rate為1200時(shí)出現(xiàn),其成績(jī)也遠(yuǎn)遠(yuǎn)領(lǐng)先于Xeon 5472,可見(jiàn)新結(jié)構(gòu)帶來(lái)的性能提升是極為明顯的。 |
為了對(duì)服務(wù)器的負(fù)載進(jìn)行比較精確的調(diào)整,我們使用IXIA 400T網(wǎng)絡(luò)測(cè)試儀作為測(cè)試負(fù)載生成端。IXIA 400T可以模擬20000個(gè)用戶連接服務(wù)器,測(cè)試中IXIA400T會(huì)以每4個(gè)用戶一組逐步遞增,直至到達(dá)預(yù)先設(shè)定的最大用戶數(shù),對(duì)于一般我們所測(cè)試的雙路或四路服務(wù)器已經(jīng)足以生成足夠的負(fù)載壓力。
使用網(wǎng)絡(luò)測(cè)試儀作為功耗測(cè)試手段,主要是因?yàn)槲覀兤綍r(shí)所使用的Benchmark測(cè)試軟件都無(wú)法對(duì)系統(tǒng)負(fù)載進(jìn)行精確的控制。Benchmark軟件在測(cè)試時(shí)運(yùn)行的是預(yù)置的腳本程序,其中涉及到多種程序的運(yùn)行、切換,期間系統(tǒng)的負(fù)載也是在不斷變化。而且我們希望通過(guò)不同的“系統(tǒng)”負(fù)載作為測(cè)試的基準(zhǔn)點(diǎn),而不是單純的處理器占用率。
在測(cè)試時(shí)候,我們?cè)贜ehalem服務(wù)器上搭建了一個(gè)ASP+MySQL平臺(tái),使用IXIA 400T模擬用戶發(fā)送HTTP請(qǐng)求,這樣我們所得到的測(cè)試成績(jī)就可以視作服務(wù)器的一個(gè)整體成績(jī),而并非僅僅是處理器性能成績(jī)。在IXIA 400T所使用的ixload軟件中,測(cè)試人員可以自由控制連接到服務(wù)器的用戶數(shù)、Request、Transaction Rate、Connection Rate等參數(shù),從而獲得不同的負(fù)載壓力。
在針對(duì)Nehalem的功耗測(cè)試中,我們通過(guò)調(diào)整Transaction Rate來(lái)控制整個(gè)服務(wù)器的負(fù)載水平。通過(guò)預(yù)測(cè)試,這臺(tái)Nehalem的測(cè)試曲線到達(dá)峰值時(shí)候,Transaction Rate為1400,我們將該數(shù)值作為滿載功耗的基準(zhǔn)點(diǎn),以200為單位逐步減少對(duì)Nehalem的負(fù)載,從而得出不同服務(wù)器系統(tǒng)負(fù)載下的功耗。為了有所對(duì)比,我們也使用相同的方法對(duì)另外一臺(tái)配備了雙路Xeon 5472的服務(wù)器進(jìn)行了測(cè)試。
從曲線圖中可以看出,當(dāng)服務(wù)器負(fù)載在逐步下降時(shí)候,Nehalem服務(wù)器的功耗也明顯降低,而作為對(duì)比的Xeon 5472服務(wù)器所體現(xiàn)出的功耗下降趨勢(shì)則要弱的多。為了驗(yàn)證Turbo Mode對(duì)功耗的影響,我們?cè)陉P(guān)閉了Turbo Mode后進(jìn)行了相同的測(cè)試。從結(jié)果來(lái)看,Turbo Mode只是在服務(wù)器負(fù)載較高時(shí)候才會(huì)略微增加系統(tǒng)功耗,當(dāng)Transaction Rate為1400和1200時(shí)候,關(guān)閉/開(kāi)啟Turbo Mode情況下服務(wù)器的功耗為280W和315W、276W和306W,而且性能成績(jī)也有所降低。不過(guò)隨著系統(tǒng)負(fù)載的進(jìn)一步降低,Transaction Rate在1000或者更低時(shí)候,系統(tǒng)已經(jīng)不處于高負(fù)載狀態(tài)下,此時(shí)Turbo Mode的開(kāi)啟或關(guān)閉所得到的性能、功耗成績(jī)是基本相同的。
Hyper Threading是Nehalem一個(gè)重要特性之一,通過(guò)我們?cè)跍y(cè)試中開(kāi)啟、關(guān)閉Hyper Threading發(fā)現(xiàn),在我們所搭建的網(wǎng)絡(luò)測(cè)試環(huán)境中,Hyper Threading的確對(duì)服務(wù)器的性能有10-20%的性能提升。不過(guò)在系統(tǒng)負(fù)載較大的時(shí)候,開(kāi)啟Hyper Threading也會(huì)增大服務(wù)器的功耗,其幅度在10-15%左右。 #p#page_title#e#
雖然說(shuō)Nehalem的Turbo Mode、Hyper Threading都是以提升處理器功耗來(lái)獲得更高的性能,但是Nehalem服務(wù)器在功耗控制上的優(yōu)勢(shì)是不容置疑的。在表格中也可以看到,無(wú)論是與Xeon 5472還是低功耗的Xeon 5420,Nehalem樣機(jī)的功耗都有很大的降低。不過(guò)需要提醒的是,以往Xeon 5400以及Xeon 5300系列處理器所配備的都是FB-DDIMM,這種內(nèi)存雖然性能不錯(cuò),但是功耗卻遠(yuǎn)遠(yuǎn)高于目前Nehalem所使用的DDR3。
由于測(cè)試周期所限,我們無(wú)法在本期雜志截稿之前完成所有的性能測(cè)試項(xiàng)目,在下期雜志中,我們將繼續(xù)為讀者刊登Nehalem服務(wù)器的其他性能測(cè)試成績(jī)。