服務器工作站Benchmark標準點評
人們?yōu)榱斯降乇容^不同的計算機系統(tǒng)的性能,開發(fā)出許多性能評價的Benchmark標準,我們常常聽到SPECint, SPECweb, TPC等。沒有一個標準能反映計算機系統(tǒng)的全部性能,它們代表的只是性能的一個側面。這里簡單介紹一些常用的計算機系統(tǒng)性能評價的Benchmark標準,以及它們所代表的性能上的具體含義。
● 定點性能
SPECint95:采用8個真實的應用,包括仿真技術、人工智能、圖像處理、壓縮算法、編譯器、解釋器和數(shù)據(jù)庫,用這8個應用運行的標準時間,除以實際運行時間得到一個比值,SPEC_int95即是這8個比值乘積的開8次方得到的值,反映了評測系統(tǒng)的單處理器的定點運算性能。SPEC(Standard Performance Evaluation Corporation)是標準性能評價組織的縮寫。
SPECint_base95:計算方法與SPEC_int95相同,不同的是SPEC_int95編譯應用時采用最強的優(yōu)化策略,SPECint_base95采用最保守的優(yōu)化策略。
SPECint_rate95:允許每個應用同時運行多個實例,比值的計算方法是:運行次數(shù)*(應用標準運行時間*1天中的秒數(shù)/8個應用中最長的標準運行時間)/多次運行的總時間,SPECint_rate95即是這8個比值的乘積開8次方。因為允許運行多個應用實例,在有多個處理器的系統(tǒng)中,如SMP,它們可以同時運行,所以該值可以反映具有多個處理器系統(tǒng)的性能的可擴展性。
SPECint_base_rate95:含義與SPECint_rate95相同,采用最保守的編譯優(yōu)化策略。
SPECint2000:在SPECint95的基礎上開發(fā),變成了12個應用,包括壓縮算法、編譯器、優(yōu)化組合、棋類游戲、字處理、可視化、PERL語言、群論解釋器、面向對象數(shù)據(jù)庫和仿真技術,計算方法和SPECint95類似。
Dhrystone:發(fā)布于1984年,主要包含兩類語句,字符串賦值和字符串比較。評測結果為每秒Dhrystone操作數(shù),每個操作為該Benchmark定義的操作序列。它的規(guī)模過小,不能評測內(nèi)存的性能,過分強調(diào)字符串操作,不能完全反映系統(tǒng)定點運算的性能。一般,由于RISC系統(tǒng)具有大量的寄存器而獲得比CISC系統(tǒng)較好的指標。
● 浮點性能
SPECfp95:采用10個真實的應用來評測系統(tǒng)的單處理器的浮點運算性能,應用包括流體力學、天氣預報、量子物理、天文、電子等領域,計算方法和SPECint95類似。
SPECfp_base95:含義與SPECfp95相同,采用最保守的編譯優(yōu)化策略。
SPECfp_rate95:計算方法和SPECint_rate95相同,可以反映具有多個處理器系統(tǒng)的浮點性能的可擴展性。
SPECfp_base_rate95:含義與SPECfp_rate95相同,采用最保守的編譯優(yōu)化策略。
SPECfp2000:將SPECfp95的10個應用修改為14個應用,包含物理領域的量子色動、淺水模型、三維電勢場、拋物線/橢圓偏微分方程、三維圖像庫、計算流體力學、圖像識別/神經(jīng)網(wǎng)絡、地震波傳播仿真、圖像處理/人臉識別、計算化學、數(shù)論、有限元碰撞仿真、高性能物理加速器設計、和污染分布計算等領域,計算方法和SPECfp95類似。
Flops:通過指令的不同組合來得到浮點加、減、乘、除(FADD、FSUB、FMUL、FDIV)的計算能力,該Benchmark盡量使用寄存器,少與內(nèi)存交互,得到我們通常所說的處理器峰值指標(MFLOPS)。Flops包含8個獨立模塊,除模塊二外,都是對數(shù)學函數(shù)的綜合應用。它反映系統(tǒng)單處理器的峰值浮點運算能力。
● Web服務性能
SPECweb96:SPEC組織開發(fā)的用來評測Web服務器性能的Benchmark,由客戶端向服務器發(fā)送HTTP GET請求,SPECweb96值即是服務器每秒能夠支持的連接數(shù)量。它評價了系統(tǒng)用作Web服務器時響應用戶點擊的性能。
SPECweb99:在SPECweb96的基礎上開發(fā)的Web服務評測程序,假設每個客戶端運行于400Kb/s的線路上,基于該假設得到的服務器最多支持的320Kb/s以上的客戶端連接數(shù),即為SPECweb99值。它不僅支持HTTP GET操作,還支持POST和Cookie操作,評價了Web服務器用作類似VOD服務時的性能。
Webstone:SGI在1995年開發(fā)的性能評價程序,評測服務器進行HTTP服務的性能。它基于客戶機/服務器模式,模擬的多個客戶端向服務器上的指定頁面發(fā)送HTTP GET請求,Webstone的負載分布原則是盡可能多地向服務器請求頁面和文件,反映Web服務的真實情況。負載由客戶端數(shù)量和文件集確定,每個文件集由一定數(shù)量的文件組成,幾個文件組成一個頁面,代表頁面內(nèi)容由圖像、動畫、聲音、文本多個文件構成,每個頁面有與之相關的權重,其權重越高,則被訪問的機會越大??蛻舳丝梢允钦鎸嵉南到y(tǒng),也可以是模擬的進程。Webstone結果是系統(tǒng)的吞吐量(MB/s)、延遲(完成一個頁面請求的時間)、每分鐘傳送的頁面數(shù)目、平均連接率、失效率。用戶通過配置,可以評測出系統(tǒng)在不同環(huán)境、不同負載模式下的Web服務性能。 #p#page_title#e#
● 數(shù)據(jù)處理性能
Debit Credit:1984年Tandem公司的Jim Gray提出的測試程序,是計算機系統(tǒng)的數(shù)據(jù)處理性能評價的最早版本。它模擬一個具有多家分支機構銀行的出納操作,采用California銀行1970年的數(shù)據(jù)。簡單起見,它只包含一種類型的事務,即銀行存款帳戶的行為。存款行為記錄在四個隨機存儲的、可索引的文件中,分別是帳戶文件、分支機構文件、出納文件和操作順序的歷史數(shù)據(jù)文件。帳戶的規(guī)模、分支機構數(shù)據(jù)是系統(tǒng)吞吐量函數(shù),如每個TPS應配置10個分支機構,100個出納員,100000個帳戶信息。為了保證系統(tǒng)的可擴展性,每次出納操作的時間被固定為100秒,測試系統(tǒng)規(guī)定合法的結果應有95%的事務在1秒內(nèi)完成。
TPC-A:TPC(Transaction Processing Performance Council)成立于1988年,是事務處理性能評價標準組織。TPC系列Benchmark使用不同的輸入和查詢數(shù)據(jù)評測計算機系統(tǒng)進行事務處理和數(shù)據(jù)庫操作的性能。TPC-A由一個簡單的修改密集型事務處理組成,用來評價聯(lián)機事務處理(OLTP)的性能,它1995年后已不再使用了。
TPC-B:集中式數(shù)據(jù)庫處理的測試程序,不需要終端和網(wǎng)絡,要求數(shù)據(jù)庫操作有大量的磁盤I/O,中等的系統(tǒng)和應用執(zhí)行時間,有很多處理之間的集成操作。它也不再使用了。
TPC-C:1992年開發(fā)的取代TPC-A的測試程序,需要遠程終端模擬器能模擬出大量的終端用戶。它模擬存在大量地理上分散的部門的企業(yè)的行為,數(shù)據(jù)庫結構復雜得多,具有多種事務處理模型、執(zhí)行模式、熱點現(xiàn)象、全屏終端I/O格式化數(shù)據(jù)、透明的數(shù)據(jù)分區(qū)和事務處理的回滾等。TPC-C值代表了計算機系統(tǒng)運行具有大量用戶和大量事務處理的應用的性能,一般表示為tpmC值和$/tpmC值。TpmC(Transactions Per Minute Computer)的含義是,在TPC-C的付款(payment)、訂單狀態(tài)查詢(order-status)、發(fā)貨(delivery)、庫存級別(stock-level)和新訂單(new-order)五種事務中,每種事務都有響應時間的要求,如new-order設置為5秒,tpmC就是系統(tǒng)在滿足其它4類事務響應時間要求的前題下,在1分鐘內(nèi)處理new-order事務的數(shù)量。
TPC-D:決策支持應用的Benchmark,每個復雜的查詢都要存取數(shù)據(jù)庫的大部分數(shù)據(jù),進行多次join, sort, group, scan等操作,用于測試系統(tǒng)支持耗時的、只讀的數(shù)據(jù)庫操作的性能。TPC-D測試結果極大程度地依賴于查詢的優(yōu)化、數(shù)據(jù)庫表格的劃分方法、SQL的效率、和高級索引技術。TPC-D包含17個復雜查詢和2個修改操作。
● 系統(tǒng)軟件性能
Lmbench:SGI開發(fā)的測試操作系統(tǒng)性能的Benchmark,可以測出各項操作系統(tǒng)指標,如空系統(tǒng)調(diào)用時間、進程切換時間,pipe、UDP、TCP、RPC的延遲和帶寬,內(nèi)存、Cache、TLB的讀寫性能,存儲映射的性能等,既能反映計算機系統(tǒng)的一些基本性能指標,也能反映操作系統(tǒng)實現(xiàn)的優(yōu)劣。
Netperf:計算機系統(tǒng)的網(wǎng)絡性能評測程序,主要評測系統(tǒng)使用TCP、UDP、Socket傳送數(shù)據(jù)時的性能,包括帶寬和請求應答數(shù),也可用來評測DLPI(Data Link Provider Interface),Unix Domain Socket, ATM API的性能。它按照客戶機/服務器模式設計,結果數(shù)據(jù)是在用戶設定的時間段內(nèi),兩者之間傳遞的最大數(shù)據(jù)量。
SPECsfs97:評測系統(tǒng)的NFS性能,采用客戶機/服務器模式,客戶機向服務器發(fā)送特定的NFS請求,得到NFS文件服務器的吞吐量和響應時間。它既依賴于計算機系統(tǒng)的性能,也依賴于網(wǎng)絡的性能。
SPECjvm98:使用8個應用來評測JAVA虛擬機的性能。
● 科學與工程計算性能
Linpack:最早的評測系統(tǒng)計算能力的Benchmark之一,linpack(LINear algebra PACKages)主要功能是解線性方程組和線性最小二乘問題,最早的矩陣大小為100x100,300x300,后來以1000x1000為標準;隨著MPP、CC-NUMA、Cluster等大型并行計算機的出現(xiàn),不再限定矩陣的規(guī)模。Linpack問題在大多數(shù)系統(tǒng)上很容易向量化,廠商進行精心優(yōu)化,提高cache命中率,得到的計算飽和峰值常常是實際應用不可能達到的。 #p#page_title#e#
NAS:由美國NASA的NAS(Numerical Aerodynamic Simulation)研究組開發(fā)的科學計算性能評價標準,包含8個空氣動力學計算類應用,其中含5個核心程序和3個偽應用,核心應用分別是EP、多重網(wǎng)格求解、共軛梯度方程求解、三維FFT、和整數(shù)排序。
開始NAS只是紙上標準,由廠商自行按最優(yōu)方法編制程序,早期的巨型機和向量機都采用NAS Benchmark。隨著并行機的出現(xiàn),又有了并行版本NPB,廠商需要針對自己系統(tǒng)的體系結構,在并行粒度、數(shù)據(jù)結構、通信機制、處理器映射、內(nèi)存分配、底層優(yōu)化上下功夫。最近又有了NPB2標準,統(tǒng)一提供MPI語言編制的并行程序。
Perfect:即PERFormance Evatuation for Cost-effective Transformations評測程序,是由HPCG組織開發(fā)的用于評測傳統(tǒng)的向量巨型機的標準。
SPLASH:Stanford大學開發(fā)的用于評測共享存儲系統(tǒng)性能的測試程序?,F(xiàn)在已發(fā)展到SPLASH-2,包含7個完整的應用和5個計算核心程序,它們都是科學與工程計算和計算機圖形學方面的并行程序,主要用于評價SMP、CC-NUMA、DSM等共享存儲類體系結構的計算機系統(tǒng)的性能。
ParkBench:用于評價大型可擴展系統(tǒng)的科學計算性能,有Fortran加消息傳遞、HPP多個版本,包括micro-benchmark, Kernel, Compact Application,Compiler四類Benchmark。底層的micro-benchmark用于測量單節(jié)點性能,目的是獲取單處理器的有關體系結構和編譯器的基本性能參數(shù),以便更好地理解上層測試的結果。測試內(nèi)容包括時鐘調(diào)用、算術運算、內(nèi)存帶寬和延遲、通信延遲和帶寬、全局同步操作性能等。核心測試包括矩陣運算、FFT、偏微分方程、NAS核心,和一個I/O Benchmark。簡化應用測試包括氣候模型、計算流體動力學、財務模型、分子動力學、等離子物理、量子化學、水庫模型等。編譯器測試主要是評價HPF編譯器優(yōu)化的效果。ParkBench很龐大,用于評價計算機系統(tǒng)支持各種具有不同需求的科學計算應用的性能