NVIDIA Tesla的定位與最新行業(yè)應(yīng)用精解
近日,NVIDIA公司Tesla計(jì)算事業(yè)部總經(jīng)理 Andy Keane接受了IT168、PCPOP、ZOL和CHIP等四家媒體記者的聯(lián)合專訪,對上述問題做了深入淺出的闡釋。
Tesla和Quadro、GeForce的區(qū)別
記者:對于高性能計(jì)算和圖形處理應(yīng)用,面對Tesla個(gè)人高性能計(jì)算機(jī)和普通顯卡,我們應(yīng)該如何選擇不同的配置?
Andy:Tesla個(gè)人超級計(jì)算機(jī)一般需要搭配一顆四核處理器,每個(gè)CPU核心匹配一顆GPU。根據(jù)計(jì)算問題的具體情況,主內(nèi)存容量可從4到16 GB之間選擇。為CPU配備較大內(nèi)存的系統(tǒng)被用于處理更大的數(shù)據(jù)集,例如地震應(yīng)用程序中所使用的數(shù)據(jù)集。分子動力學(xué)等其它類型的應(yīng)用程序則不需要巨大容量的內(nèi)存,因此4GB足夠了。圖形處理方面就視應(yīng)用程序而定了。對于大多數(shù)計(jì)算應(yīng)用程序來說,NVIDIA板載GPU這樣的簡單GPU或一塊Quadro NVS顯卡就足夠了。如果應(yīng)用程序集計(jì)算與可視化于一身,那么這樣的應(yīng)用程序一般需要較高的顯卡性能,可選用從Quadro NVS到高端的Quadro FX 5800產(chǎn)品。
記者:從硬件層面看,Tesla配備的顯存容量比GeForce更大。但Quadro也有一些4GB顯存的版本。NVIDIA如何說服消費(fèi)者購買Tesla產(chǎn)品而不去選擇價(jià)格更便宜的Quadro或GeForce呢?
Andy:這里其實(shí)有兩個(gè)問題。
確實(shí)有4GB顯存的Quadro顯卡,但是其價(jià)格遠(yuǎn)高于Tesla。Quadro支持高速OpenGL渲染,速度遠(yuǎn)高于GeForce,因此這項(xiàng)技術(shù)的價(jià)格自然高于Tesla。Tesla不支持OpenGL。
GeForce是計(jì)算用戶的另一種選擇。Tesla專為企業(yè)部署而設(shè)計(jì),擁有更高級別的專業(yè)顯存,專為處理計(jì)算類應(yīng)用程序而設(shè)計(jì)。此外,Tesla產(chǎn)品由NVIDIA設(shè)計(jì)、制造和提供質(zhì)保。Tesla市場供應(yīng)周期更長,并提供3年質(zhì)保。對于這些需要更加可靠的企業(yè)級產(chǎn)品的公司,Tesla是最適合的產(chǎn)品。Telsa還有專為數(shù)據(jù)中心設(shè)計(jì)的1U系統(tǒng)產(chǎn)品。
記者:在后續(xù)產(chǎn)品及芯片技術(shù)規(guī)格上,Tesla是沿用同期的GeForce和Quadro產(chǎn)品,還是采用只為計(jì)算用途而重新設(shè)計(jì)的芯片和架構(gòu)?
Andy:當(dāng)前的策略是在Tesla產(chǎn)品線中采用具備特殊特性的標(biāo)準(zhǔn)GPU?,F(xiàn)在,GeForce、Quadro以及Tesla中的計(jì)算特性是相同的,但是在將來的產(chǎn)品中,Tesla將擁有專為高性能計(jì)算而設(shè)計(jì)的其它特性。這些產(chǎn)品線中的性能級別也會有所變化。
通過在專業(yè)級圖形產(chǎn)品中使用與消費(fèi)級相同的GPU,Tesla在容量較小的高性能計(jì)算市場上獲得了規(guī)模經(jīng)濟(jì)效益。這就是所有定制高性能計(jì)算處理器與系統(tǒng)專業(yè)供應(yīng)商被市場淘汰的主要原因,未來唯一可行的技術(shù)是基于大眾市場的技術(shù),例如GPU。#p#page_title#e#
GPU與CPU計(jì)算的不同
記者:Tesla基于NVIDIA CUDA,該技術(shù)最顯著的特點(diǎn)就是能夠利用GPU的并行計(jì)算能力,在大規(guī)模、高帶寬計(jì)算中有著極大的優(yōu)勢。 但是,面對串行計(jì)算密集型任務(wù),Tesla是否有解決辦法呢?
Andy:GPU及其內(nèi)部的CUDA架構(gòu)是專為并行計(jì)算而設(shè)計(jì)的。
串行計(jì)算是一種有很大區(qū)別的架構(gòu),這種架構(gòu)的設(shè)計(jì)目的是為了解決不同的問題。CPU執(zhí)行指令的方式就是一個(gè)接著另一個(gè)地執(zhí)行。CPU中有許多能夠加速串行計(jì)算的技術(shù)。高速緩存、無次序執(zhí)行、超標(biāo)量技術(shù)、分支預(yù)測……均為抽取指令的技術(shù)或一系列指令的串行級并行機(jī)制。CPU對片上高速緩存的設(shè)計(jì)與容量的依賴也非常大。如果程序大小與CPU高速緩存容量不匹配,那么該程序在CPU上的運(yùn)行速度將會很慢。
GPU內(nèi)部的并行計(jì)算架構(gòu)圍繞兩個(gè)基本概念而設(shè)計(jì)。首先,程序中的數(shù)據(jù)可分成許多個(gè)部分,而為數(shù)眾多的核群可以并行地處理這些數(shù)據(jù)。第二個(gè)架構(gòu)方面的設(shè)想是,數(shù)據(jù)將不與高速緩存匹配。例如在圖形計(jì)算或石油天然氣數(shù)據(jù)處理上,數(shù)據(jù)量可能會達(dá)到兆字節(jié)甚至是太字節(jié),用高速緩存來容納如此巨大的數(shù)據(jù)量幾乎是不切實(shí)際的??紤]到這兩點(diǎn)設(shè)想,GPU被設(shè)計(jì)為能夠使用數(shù)以千計(jì)的線程,所有線程均并行地執(zhí)行,能夠訪問巨大容量的本地存儲器。在最新的Tesla產(chǎn)品中,每顆GPU均配備4GB存儲器,可容納待執(zhí)行的數(shù)據(jù)。同時(shí)針對反復(fù)使用的數(shù)據(jù),還設(shè)有較小的片上存儲空間,GPU所配備的巨大容量存儲器等同于CPU內(nèi)部的高速緩存,只是容量大了許多倍而已。#p#page_title#e#
Tesla在高性能計(jì)算領(lǐng)域
記者:目前GPU系統(tǒng)在全球高性能計(jì)算機(jī)TOP500排行榜中最好的成績是第29位——東京大學(xué)的Tsubame超級計(jì)算機(jī)。 在您看來,到2010年之前,Tsubame是否有機(jī)會躋身世界十強(qiáng)超級計(jì)算機(jī)? 還有哪些超級計(jì)算機(jī)有希望躋身世界十強(qiáng)或五百強(qiáng)?
Andy:我不能代表東京工業(yè)大學(xué)超級計(jì)算領(lǐng)軍人物的意見。但東京工業(yè)大學(xué)全球科學(xué)資訊和計(jì)算中心總監(jiān)Satoshi Matsuoka博士曾公開表示,他打算使用GPU在2010年打造出一臺榮登世界最快榜單的計(jì)算機(jī)。還有更多使用GPU打造的超級計(jì)算機(jī)。美國國家超級運(yùn)算應(yīng)用中心(NCSA)以及法國原子能委員會(CEA)是兩家著名的超級計(jì)算中心,他們將躋身下一屆世界五百強(qiáng)榜單。
記者:當(dāng)前,NVIDIA GPU的雙精度性能僅相當(dāng)于單精度的8%。 到2010年之前,你認(rèn)為這種性能可以有多大的改善? NVIDIA會采取怎樣的技術(shù)手段來確保這種性能提升呢?
Andy:當(dāng)前10系列GPU是首批擁有雙精度的NVIDIA處理器。過去這種性能曾作為GPU的一個(gè)模塊添加在GPU當(dāng)中。而在這一代產(chǎn)品中,我們?yōu)槊拷M八個(gè)單精度處理器加入了一個(gè)雙精度單元。隨著快速發(fā)展,未來的GPU將擁有更多雙精度單元。由于GPU的性能一般每年都會翻一番,未來雙精度性能將至少比當(dāng)前的速度快5倍。
記者:中國的超級計(jì)算機(jī)用戶在獲取軟件時(shí),要么購買商業(yè)軟件,要么自己開發(fā),或者在商業(yè)軟件方案的基礎(chǔ)上進(jìn)行二次開發(fā)。CUDA與獨(dú)立軟件供應(yīng)商之間有一定的合作,那么,你們有沒有成熟的軟件應(yīng)用程序推薦給用戶使用? 另外,CUDA怎樣幫助那些想要自己開發(fā)軟件的用戶?
Andy:我們與打算發(fā)布超級計(jì)算軟件的獨(dú)立軟件供應(yīng)商都進(jìn)行了積極的開發(fā)工作。分子動力學(xué)領(lǐng)域的《NAMD/VMD》以及《GROMACS》是為群集GPU發(fā)布的兩個(gè)應(yīng)用程序例子。在美國的超級計(jì)算展會上,我們還展示了許多用于石油天然氣領(lǐng)域地震處理、量子化學(xué)以及Ansys有限元設(shè)計(jì)的應(yīng)用程序。
對于想要自己設(shè)計(jì)和開發(fā)應(yīng)用程序的開發(fā)人員,用于CUDA架構(gòu)的并行計(jì)算開發(fā)C語言編譯器可從NVIDIA網(wǎng)站上免費(fèi)下載。Portland Group的Fortran等其它編譯器也正在陸續(xù)推出。有很多來自NVIDIA以及其它來源的程序庫,這些庫使應(yīng)用程序更易于開發(fā)。針對這些不懂C語言或Fortran的開發(fā)人員,Accelereyes以及Wolfram(Mathematica)等公司還提供了GPU加速版的軟件。因此你可以看到,利用GPU計(jì)算優(yōu)勢的方式有許多種。
記者: 今年NVIDIA推出了Tesla個(gè)人高性能計(jì)算機(jī),并會與惠普、CRAY公司聯(lián)合發(fā)布一系列的小型高性能計(jì)算系統(tǒng)。 這是否意味著NVIDIA認(rèn)為高性能計(jì)算將從大型計(jì)算機(jī)發(fā)展到臺式機(jī)以及桌邊型計(jì)算機(jī)上來?這對傳統(tǒng)超大型計(jì)算機(jī)會產(chǎn)生怎樣的影響?
Andy:想要對科學(xué)技術(shù)產(chǎn)生最大的影響,高性能計(jì)算就必須發(fā)展到科學(xué)家們的桌面上。每一名研究人員、科學(xué)家以及工程師都應(yīng)該擁有自己的超級計(jì)算機(jī),這些計(jì)算機(jī)應(yīng)該具備足夠的實(shí)用性能來滿足他們的工作需要。想象一下如果這些才華橫溢的人們能夠更快地解決問題,那么科學(xué)發(fā)展的節(jié)奏將會變得怎樣。憑借這些基于GPU的工作站以及擁有兼容處理器的超級計(jì)算機(jī),現(xiàn)在的技術(shù)計(jì)算達(dá)到了前所未有的全新水平。
在接下來的幾年里,GPU將越來越多地被大型計(jì)算所采用。GPU擁有超高的計(jì)算密度和顯存帶寬,足以支持這種計(jì)算性能的增長。GPU將成為超級計(jì)算機(jī)中極其重要的動力源泉。GPU每年的出貨量數(shù)以百萬計(jì),在超級計(jì)算領(lǐng)域中,它現(xiàn)在已經(jīng)成為高性能、低能耗并且是人們買得起的并行處理器。