浮點運算誰最強,F(xiàn)ireStream 9250、GTX280、CSX700對比分析
隨著AMD、NVIDIA都相繼推出浮點運算能力超過1TFlops的新品,處理器的浮點運算能力近期成了熱議的 話題。浮點運算能力實際上一直都是處理器一個很重要的指標,在科學計算方面的能力就關鍵取決于處理器的浮點運算能力。
前一段時間,網絡上出現(xiàn)了AMD即將發(fā)布的新產品RV770官方資料文檔,文檔中提到RV770兩款產品浮點運算能力都超過1TFlops,HD4850的單精度浮點運算能力達到了1TFlops,而高頻版的HD4870單精度浮點處理能力更是高達1.2Tflops。
注意看HD4870介紹文檔的最后一行
隨后,AMD發(fā)布了新一代流處理卡FireStream 9250,由于該卡基于RV770核心,憑借著800個流處理器的計算能力,該卡浮點處理能力也非常高,超過了1TFlops。
再來看看NVIDIA,本月16日剛剛正式發(fā)布了全新核心G200,流處理器數(shù)量達到了240個,每個流處理器在單位時間內可以處理3條指令,這樣在Shader頻率為1400MHz的情況下,浮點能力就可以超過1TFlops,不過遺憾的是最高端的GTX 280 Shader頻率也不過1300MHz,浮點處理能力只有933GFlops,沒有超過1TFlops。
索泰推出了全球首款浮點能力超1TFlops的GTX 280顯卡
NVIDIA之所以沒有在GTX 280這款顯卡上突破1TFlops的浮點處理能力,主要是因為顯卡的發(fā)熱量以及功耗已經很難控制,今后可能通過提升工藝以及其他一些方法實現(xiàn)。不過顯卡廠商索泰推出了一款超頻版的GTX 280,Shader頻率設定到了1400MHz,浮點處理能力也就自然超過了1TFlops。
這里出現(xiàn)了一個問題,為什么索泰的GTX 280就可以將Shader頻率超到1400MHz,而NVIDIA卻不可以。據(jù)筆者猜測,NVIDIA首先是為了控制功耗與發(fā)熱量,因為對于G200這種重量級產品來說,功耗與發(fā)熱量如果太大,媒體宣傳起來就讓NVIDIA很沒面子;第二大家都知道索泰是全球最大代工廠栢能旗下的自有顯卡品牌,栢能可能專門挑出了一批體質較好的G200核心,將其頻率適當提高,這樣顯卡的穩(wěn)定性得以了很大的保障。#p#page_title#e#
第02頁:Tesla S1070發(fā)布 單精度浮點能力超4TFlops可以看出,G200的浮點處理能力還是很強的,只要稍微超頻,就可以使其突破1TFlops大關,索泰推出超頻版GTX 280的意義也就在此。雖然公版GTX 280沒有突破1TFlops浮點運算能力,但是NVIDIA推出的另一款科學計算專用產品——Tesla S1070卻達到了。
Tesla S1070
Tesla S1070是一個整套的科學計算解決方案,簡單點說就是一臺高性能的工作站。Tesla S1070里擁有4顆G200 GPU,每顆GPU的Shader頻率達到了1500MHz,根據(jù)“流處理器數(shù)量×每個流處理器同時執(zhí)行的命令數(shù)×流處理器頻率=浮點處理能力”的公式來計算,擁有240個流處理器且每個流處理器同時能執(zhí)行3條指令的G200 GPU,在頻率達到1500MHz的情況下,單精度浮點能力可以達到1080GFlops,超過了1TFlops,4顆GPU同時運算時單精度浮點能力可超過4TFlops。
從外觀上看酷似一臺1U服務器
那么NVIDIA為什么在公版的GTX 280上就沒能突破1TFlops,而在Tesla S1070則可實現(xiàn)呢?實際上理解起來很簡單,Tesla S1070是在一個整套的科學計算解決方案,有一個獨立的機箱,外觀上看實際上就是一個1U的服務器,只要在機箱內空間允許的情況下,NVIDIA可以隨意使用散熱設備,況且這樣的產品定價肯定不低,即使用全球最頂級的散熱設備,NVIDIA也能有可觀的利潤。,所以說,NVIDIA在這套設備上是根本不怕發(fā)熱量以及功耗的。
Tesla C1060
當然,NVIDIA還推出了另一款Tesla系列科學計算卡,型號為Tesla C1060,由于這個是像GTX 280一樣以獨立卡的形式出現(xiàn),所以情況就和GTX 280很相似了,為了保證發(fā)熱量、功耗以及成本,Shader頻率沒有突破1400MHz,浮點運算能力自然也就沒有突破1TFlops。#p#page_title#e#
第03頁:CSX700雙精度浮點能力高達96G!功耗僅12W雖然說NVIDIA與AMD都突破了1TFlops的浮點運算能力,但是這里我們說的都是單精度(FP32)運算能力。不過在雙精度浮點處理能力方面,還是比較弱。Tesla S1070單顆GPU單精度浮點處理能力雖然超過了1T,但是雙精度浮點能力只能達到100GFlops左右,約為單精度浮點運算能力的1/10;AMD的FireStream 9250稍微好點,效率能達到Tesla S1070的兩倍,雙精度浮點能力能達到200GFlops。
可以看出,雙精度浮點運算在GPU上效率還非常低。而日前Clearspeed發(fā)布了一款最新的處理器,雙精度浮點運算能力達到了96GFlops,最令人驚奇的是這款處理器在工作時功耗僅僅為12W;而AMD的FireStream 9250雖然能達到200GFlops的浮點運算能力,功耗卻高達150W;NVIDIA表現(xiàn)則更差,Tesla S1070單顆GPU的雙精度浮點運算能力僅僅為100GFlops,功耗卻高達170W。
Clearspeed發(fā)布的這款處理器型號為CSX700,該款處理器代號“Callanish”(蘇格蘭巨石陣),采用90nm工藝生產,擁有2×96個處理核心,頻率250MHz,集成256KB SRAM、糾錯硬件模塊、DDR2內存控制器和PCI-E界面。
CATS-700
采用CSX700處理器的有兩款加速卡,型號分別為Advance e710與Advance e720(點擊型號下載產品介紹PDF),兩款產品為了適應不同的用途形式有所不同,但規(guī)格是一致的,都擁有2GB的RAM,處理器都采用的CSX700。除了這兩款加速卡之外,還有一款1U刀片服務器系統(tǒng)——CATS-700(點擊型號下載產品介紹PDF),該系統(tǒng)擁有12個e710加速卡,24G的存儲系統(tǒng),合計雙精度浮點性能高達1.152TFLops。#p#page_title#e#
第04頁:延伸閱讀:看看世界十大超級計算機浮點性每年都會有最新的世界超級計算機500強統(tǒng)計出爐,最近一次的統(tǒng)計是去年9月份,筆者這里得到了一份去年9月份統(tǒng)計的全球最快的10大超級計算機資料,如下表
從最新統(tǒng)計的這個全球超級計算機Top10中可以看出,藍色巨人IBM霸占了第一名與第二名的位置。安裝在美國能源部勞倫斯-利弗摩爾國家實驗室(LLNL)的IBM藍色基因/L系統(tǒng)已經連續(xù)4年穩(wěn)居第一名的位置了,不過相對前一次統(tǒng)計,這套系統(tǒng)的計算能力又提升了不少,從之前的280TFlops提升到了478.2TFlops,擁有212992顆處理器,看來IBM在去年為這套全球最牛超級計算機進行過大幅度升級;
第二名也是IBM推出的產品——藍色基因/P系統(tǒng),這是IBM去年剛剛打造的一部超級計算機,安裝在德國的某個地方,具體地名筆者還沒看懂!這套系統(tǒng)擁有62536個處理器,浮點處理能力達167.3TFlops;
第三名是SGI公司推出的SGI Altix ICE 8200,安裝在美國新墨西哥州計算應用中心(NMCAC),擁有14336個處理器,浮點運算能力為126.9TFlops;
第四名來自惠普,這臺超級計算機被安裝在印度,擁有14240個處理器,浮點處理能力為117.9Tflops;
第五名也是來自惠普,安裝地點在瑞典,擁有13728個處理器,浮點處理能力為102.8TFlops;
第六名的Red Storm Cray XT3來自Sandia/Cray,擁有26569個處理器,浮點處理能力為102.2TFlops;
第七名Cray的一套系統(tǒng),安裝在美國,擁有23016個處理器,浮點處理能力為101.7TFlops;
第八名又是來自IBM的產品,系統(tǒng)安裝在美國華盛頓,擁有40960個處理器,浮點能力最高可達91.3TFlops;
第九名是Cray的一套系統(tǒng),擁有19320個處理器,浮點處理能力為85.4TFlops,這部超級計算機在美國;
第十名是又是IBM 藍色基因系列的一套產品,擁有36864顆處理器,浮點運算能力達82.2TFlops。
實際上,在超級計算機市場上,行業(yè)巨頭的競爭也同樣非常激烈,每一年這個表格都有很大的變化,這里給大家提供一個去年上半年統(tǒng)計的全球超級計算機TOP10,與上圖對比你就大概知道競爭有多激烈了(如下表):
另外,本月17日——20日德國正在舉行ISC08大會,也就是說這幾天正在舉辦,應該會公布最新的統(tǒng)計列表,如果有消息的話,筆者將會在第一時間為大家報道。