從巴塞羅那到最新AMD45nm 上海處理器評(píng)測(cè)
事實(shí)上,“Shanghai”處理器的順利量產(chǎn)與其前輩“Barcelona”相比,最讓我們驚嘆的是其在65nm與45nm制程工藝間的順利過渡。這次“Shanghai”的順利發(fā)布可以說是AMD在工藝研發(fā)上的可喜成就,下面就讓我們先來看一下有關(guān)AMD制程工藝的最新信息。
2008 Financial Analyst Day上自AMD拆分出來的The Foundry Company公布了其process的roadmap,已經(jīng)在45nm“Shanghai”處理器制造上成功應(yīng)用的沉浸式光刻技術(shù)(Immersion Lithography process)將在明年的32nm工藝上發(fā)揮至關(guān)重要的作用。
沉浸式光刻技術(shù)就是在鏡頭和晶片之間加入一種特殊的液體,使得材料特征更加精確和明顯,通過這種方式可以在提高制造能力的同時(shí)使生產(chǎn)流程更為高效。 #p#page_title#e#
盡管從“Barcelona”到“Shanghai”的最大技術(shù)改進(jìn)是“Shanghai”處理器采用了45nm制程工藝,不過“Shanghai”處理器仍然有一些其他方面的改進(jìn)之處(相對(duì)于Barcelona整體架構(gòu)來說),這些改進(jìn)的目的都是為了進(jìn)一步增強(qiáng)處理器的性能。
L3 Cache增大
共享L3緩存設(shè)計(jì)是AMD繼集成內(nèi)存控制器設(shè)計(jì)之后的又一經(jīng)典設(shè)計(jì),Intel在最新的Nehalem處理器中便同時(shí)采用了共享L3緩存和集成內(nèi)存控制器設(shè)計(jì),這從側(cè)面也再一次印證了AMD設(shè)計(jì)理念的成功之處。“Shanghai”處理器的L3 Cache由Barcelona的2MB增加到了6MB,AMD宣稱增大的L3緩存容量可為“Shanghai”處理器帶來5%-10%的性能提升。
內(nèi)存帶寬增大
AMD“Shanghai”處理器延續(xù)了“Barcelona”處理器的集成內(nèi)存控制器設(shè)計(jì),并對(duì)其進(jìn)行了改良,主要表現(xiàn)在對(duì)內(nèi)存的支持方面,由之前的DDR2 667提升至DDR2 800。AMD宣稱使用DDR2 800內(nèi)存可使系統(tǒng)的內(nèi)存帶寬相對(duì)之前提升10%左右。
Smart Fetch
該特性允許處理器關(guān)閉處于閑置狀態(tài)下的核心以降低處理器的整體功耗水平,根據(jù)AMD的介紹,該特性可以降低處理器功耗的21%,也就是15W左右。
虛擬化技術(shù)
“Barcelona”處理器在虛擬化技術(shù)方面相對(duì)之前的處理器有很大的改進(jìn),提供了極為出色的虛擬化性能,而此次的“Shanghai”處理器在虛擬化技術(shù)方面的改進(jìn)則主要體現(xiàn)在兩個(gè)方面:增強(qiáng)的RVI、更快的World Switch。
RVI的全稱是Rapid Virtualization Indexing,即快速虛擬化索引技術(shù)。AMD虛擬化技術(shù)(AMD-V)的一項(xiàng)關(guān)鍵特性,即是RVI通過在硬件層執(zhí)行功能時(shí),提高了虛擬地址到物理地址的轉(zhuǎn)換效能,進(jìn)而縮短在虛擬主機(jī)之間的切換時(shí)間。當(dāng)虛擬化產(chǎn)生的額外地址轉(zhuǎn)換層的工作由硬件而非軟件資源來完成時(shí),即可簡(jiǎn)化虛擬化環(huán)境中復(fù)雜的內(nèi)存管理。RVI有助于改善由虛擬化引起的系統(tǒng)管理程序周期變長(zhǎng),及因此造成的降低效能等問題。“Shanghai”處理器對(duì)快速虛擬化索引技術(shù)進(jìn)行了增強(qiáng),從而能夠進(jìn)一步提升轉(zhuǎn)換效能,縮短切換時(shí)間。
之前的“Barcelona”處理器曾經(jīng)引進(jìn)了新的指令,用來縮短芯片的“world switch time”,即芯片在客座操作系統(tǒng)模式與hypervisor模式之間作切換所用的時(shí)間。這種切換過程通常需要大約1000到2000個(gè)處理器頻率周期,但用新指令可縮短25%左右。“Shanghai”處理器的“world switch”設(shè)計(jì)速度比“Barcelona”處理器要快25%左右。
#p#page_title#e#
測(cè)試機(jī)房環(huán)境:
測(cè)試地點(diǎn):TMGLAB@BeiJing
溫度:23攝氏度(中央空調(diào)系統(tǒng))@Speed-High
Rack:APC Netshelter SX Enclosures AR3150
KVM:APC AP5401
測(cè)試服務(wù)器配置:
Chassis: SuperMicro SC825TQ-R700LPV 2U Chassis
Chassis Fans: 3x 80mm 6300 RPM Fans
Power Supply : SuperMicro 1200W w/PFC
System board: SuperMicro H8QM3-2
Memory: 32GB (Qty 16- 2GB RDIMM DDR2 800MHz Memory Modules)
Floppy: 3.5” 1.44MB Floppy
Hard Drive: 74GB 15k Fujitsu SAS Drive
CDROM: Slim DVD ROM
Benchmark Overview:
Spec JBB2005
SPECjbb2005是一種用于評(píng)估服務(wù)器端Java性能的基準(zhǔn)測(cè)試軟件。和上一代的SPECjbb2000一樣,SPECjbb2005可以通過模擬一套三層式的客戶端/服務(wù)器系統(tǒng)來評(píng)估服務(wù)器端Java性能,而在模擬過程中最為強(qiáng)調(diào)的就是中間層。該基準(zhǔn)實(shí)施了JVM(Java虛擬機(jī))、JIT(Just-In-Time)編譯器、垃圾收集、線程和操作系統(tǒng)的某些方面。它還可測(cè)量CPU、緩存、內(nèi)和共享內(nèi)存處理器(SMP)的性能。SPECjbb2005提供了一種新的增強(qiáng)型工作負(fù)載,而且其實(shí)施方式更加客觀,可反映出真實(shí)環(huán)境中應(yīng)用的設(shè)計(jì)方法。同時(shí),這種增強(qiáng)型工作負(fù)載還引入了一些新的特性,如XML處理和BigDecimal計(jì)算,使基準(zhǔn)測(cè)試可以更真實(shí)地反映出今天的各類應(yīng)用。
Spec CPU2006
SPEC CPU 2006包括了CINT2006和CFP2006兩個(gè)子項(xiàng)目,SPECfp測(cè)試過程中同時(shí)執(zhí)行多個(gè)實(shí)例(instance),測(cè)量系統(tǒng)執(zhí)行計(jì)算密集型浮點(diǎn)操作的能力,比如CAD/CAM、DCC以及科學(xué)計(jì)算等方面應(yīng)用可以參考這個(gè)結(jié)果。SPECint測(cè)試過程中同時(shí)執(zhí)行多個(gè)實(shí)例(instances),然后測(cè)試系統(tǒng)同時(shí)執(zhí)行多個(gè)計(jì)算密集型整數(shù)操作的能力,可以很好的反映諸如數(shù)據(jù)庫(kù)服務(wù)器、電子郵件服務(wù)器和Web服務(wù)器等基于整數(shù)應(yīng)用的多處理器系統(tǒng)的性能。 #p#page_title#e#
JBB2005測(cè)試系統(tǒng)環(huán)境以及軟件環(huán)境配置
Software Vendor:BEA Systems, Inc.
JVM Version:
BEA JRockit(R) (R27.6.0-50_o-100423-1.6.0_05-20080626-2105-windows-x86_64)
JVM Command Line:
start /affinity %HEX% /b java -Xverbose:gc -Xms3500m -Xns2900m -Xmx3500m -XXaggressive -Xgc:genpar -XXgcthreads=4 -XXthroughputCompaction -XXlazyunlocking -XXtlasize:min=4k,preferred=512k spec.jbb.JBBmain -propfile SPECjbb_mu4.props
OS Version:Microsoft Windows Server 2008 Enterprise SP1 x64 Edition (64-bit)
系統(tǒng)及軟件環(huán)境關(guān)鍵配置
1, Enable the large pages in memory(打開程序使用內(nèi)存限制,這個(gè)非常重要)
2, 通過加入編寫以下代碼參數(shù),把處理線程綁定在特定處理器上運(yùn)行,這樣就可以省去程序在不同的處理器之間來回切換,減少了Overhead的產(chǎn)生。
set HEX=000f
:LOOP
set /a I=%I + 1
@echo on
start /affinity %HEX% /b %JAVA% %JAVAOPTIONS% spec.jbb.JBBmain -propfile %PROPFILE% -id %I% > multi.%I%
@echo off
IF %I% ==1 set HEX=00f0
IF %I% ==2 set HEX=0f00
IF %I% ==3 set HEX=f000
IF %I% == %JVM% GOTO END
GOTO LOOP
:END
我們的測(cè)試樣機(jī)SuperMicro SC825TQ-R700LPV(4路)上的shanghai處理器測(cè)試成績(jī)
我們選擇了AMD 上一代65nm“Barcelona”核心的Opteron 8360SE以及Intel 最新Dunnington 6核心的Xeon X7460來與“Shanghai”核心的Opteron 8384進(jìn)行對(duì)比,搭載以上兩款處理器的均為4路服務(wù)器。他們分別是PowerEdge R905 (AMD Opteron 8360 SE, 2.50 GHz) 以及Dell PowerEdge R900 (Intel Xeon X7460, 2.66 GHz)。
從我們的測(cè)試成績(jī)可以看到,“Shanghai”核心的Opteron 8384其java性能比之前“Barcelona”核心的Opteron 8360SE要高出36%;比Intel 6核心的Xeon X7460要高出5%左右,性能相較于上一代產(chǎn)品的提升幅度非常大,并且超越了Intel當(dāng)前最高端的4路7系列產(chǎn)品。在這里我們只發(fā)表結(jié)果,對(duì)于性能的分析本文最后會(huì)集中討論。#p#page_title#e#
硬件更改的說明
Chassis: SuperMicro SC825TQ-R700LPV 2U Chassis
Chassis Fans: 3x 80mm 6300 RPM Fans
Power Supply : SuperMicro 1200W w/PFC
System board: SuperMicro H8QM3-2
Memory: 32GB (Qty 16- 2GB RDIMM DDR2 800MHz Memory Modules)
Floppy: 3.5” 1.44MB Floppy
Hard Drive: SATA 80GB SSD
CDROM: Slim DVD ROM
因?yàn)榕cJBB2005的Win Server2008測(cè)試環(huán)境不同,SpecCPU2006的測(cè)試平臺(tái)我們使用Suse Linux10.3,但因?yàn)镽AID卡沒有Linux版本的驅(qū)動(dòng),所以我們使用了南橋的SATA接口的固態(tài)硬盤代替了之前的SAS硬盤。
SpecCPU2006測(cè)試系統(tǒng)環(huán)境以及軟件環(huán)境配置
Operating System: SUSE Linux Enterprise Server 10 (x86_64) SP3,Kernel 2.6.16-60.0.21-smp
Compiler: PGI Server Complete Version 7.2 and PathScale Compiler Suite Version 3.2
File System: Ext3
System State: Run level 3 (multi-user)
Other Software: SmartHeap 8.1 Library for Linux
我們的測(cè)試樣機(jī)SuperMicro SC825TQ-R700LPV(4路)上的shanghai處理器SPECint_rate2006測(cè)試成績(jī)
在整數(shù)性能運(yùn)算方面,“Shanghai”核心的Opteron 8384比“Barcelona”核心的Opteron 8360SE有接近20%的性能提升幅度,與Intel平臺(tái)的頂級(jí)產(chǎn)品X7460相比則仍然有著近20%的差距??紤]到Opteron8384功耗只有75W,而Xeon X7460則達(dá)到130W,因此在每瓦特性能方面,表現(xiàn)仍然更為出色。
我們的測(cè)試樣機(jī)SuperMicro SC825TQ-R700LPV(4路)上的shanghai處理器SPECfp_rate2006測(cè)試成績(jī)
通過以上的成績(jī)可以看到,“Shanghai”核心的Opteron 8384比“Barcelona”核心的Opteron 8360SE有接近20%的性能提升幅度,相對(duì)Intel四路平臺(tái)而言同樣達(dá)到了20%的性能領(lǐng)先幅度。 #p#page_title#e#
Java性能分析
AMD平臺(tái)的產(chǎn)品在java性能上一向落后于Intel平臺(tái),此次“Shanghai”核心的Opteron 8384卻能夠一舉超越6核的Xeon X7460,的確令人感到意外,因?yàn)?ldquo;Shanghai”對(duì)于“Barcelona”來說結(jié)構(gòu)上并沒有革命性的改變,如此大的性能提升幅度著實(shí)讓我們有些琢磨不透。根據(jù)AMD的官方文檔,“Shanghai”相對(duì)“Barcelona”來說有以下幾個(gè)方面的改進(jìn):
從以上的文檔中我們不難發(fā)現(xiàn),在“上海”處理器的幾項(xiàng)新特性之中,有三項(xiàng)特性是用以提升性能:首先是45nm制程工藝所帶來的2.7GHz高頻率,其次是L3緩存由2MB增大至6MB(據(jù)稱有5-10%的性能提升),最后是Memory Bandwidth提高了10%。在以上3個(gè)方面之中又有哪些是對(duì)于提升Java性能有所幫助的呢?JBB2005是一個(gè)對(duì)于計(jì)算處理速度要求比較高的Benchmark,對(duì)于I/O的要求則不高,因此Memory Bandwidth的提升應(yīng)不至于會(huì)造成Java性能有36%的巨大提升幅度,更多的可能性是之前的“Barcelona”在設(shè)計(jì)上有更大的提升空間,造成了性能瓶頸上的“短板效應(yīng)”,“Shanghai”架構(gòu)上的緩存結(jié)構(gòu)以及容量正好彌補(bǔ)了這一設(shè)計(jì)缺陷。
整數(shù)及浮點(diǎn)計(jì)算性能分析
同樣地,整數(shù)以及浮點(diǎn)計(jì)算能力的提升也有賴于“Shanghai”在架構(gòu)上解決了“短板效應(yīng)”的問題,由于在浮點(diǎn)計(jì)算能力方面“Barcelona”架構(gòu)有著128bit FPU Per Core以及4FLOPS/clk peak per core的專門優(yōu)化設(shè)計(jì),因此“Shanghai”處理器自然也是一脈傳承。
除此之外,“Shanghai”架構(gòu)還多了一項(xiàng)對(duì)于4路服務(wù)器來說非常重要的功能,就是其任意兩個(gè)處理器之間設(shè)計(jì)了直接連接的HT總線(在之前的“Barcelona”結(jié)構(gòu),呈對(duì)角線的兩個(gè)處理器不能直接相連),這項(xiàng)改進(jìn)對(duì)于4路服務(wù)器來說有兩個(gè)明顯的好處:
1, 加快了處于對(duì)角線上兩片內(nèi)存區(qū)域之間的數(shù)據(jù)通訊速度。
2, 有利于整體的服務(wù)器各處理做頻率同步。
測(cè)試總結(jié)
此次報(bào)告將要結(jié)束時(shí),回顧過去幾個(gè)禮拜的測(cè)試過程,可說是一次非常難忘的體驗(yàn),因?yàn)槲覀冊(cè)谌虻谝粫r(shí)間內(nèi)見證了AMD新一代“Shanghai”架構(gòu)所帶來的驚喜。
在此要特別提到的是,SPECCPU2006和SPECjbb2005的測(cè)試中,因?yàn)闇y(cè)試時(shí)間和工具庫(kù)的限制,這三個(gè)測(cè)試數(shù)據(jù)和AMD發(fā)布的數(shù)據(jù)有一定的差距,AMD公布的SPECjbb2005的數(shù)據(jù)為659034,我們的測(cè)試數(shù)據(jù)與AMD的官方值相差了23% ,AMD公布的SPECint_rate2006的數(shù)據(jù)為249,我們的測(cè)試數(shù)據(jù)為236,與AMD的官方值相差了5.5% ,AMD公布的SPECfp_rate2006的數(shù)據(jù)為210,我們的測(cè)試數(shù)據(jù)為204,與AMD的官方值相差了2.9% 。而Intel的數(shù)據(jù)來自官方,從官方的數(shù)據(jù)將,上海在Jbb和浮點(diǎn)的優(yōu)勢(shì)會(huì)更大,整形則相差16.8%, 但I(xiàn)ntel 是六核,核心數(shù)量比上海多50%。
簡(jiǎn)而言之,“Shanghai”的性能表現(xiàn)超出了我們的意料,它是趨于成熟的“Barcelona”,“Shanghai”不僅完善了“Barcelona”在設(shè)計(jì)上的可提升之處(Cache),而且還成功的應(yīng)用了全新的45nm制程工藝,在效能、功耗、成本上等方面都擁有十分出色的表現(xiàn),是一款非常優(yōu)秀的處理器。