Fermi不僅是GPU 十問NVIDIA首席科學(xué)家
2009年9月30日至10月2日,NVIDIA公司在美國加州圣何塞市舉辦GPU技術(shù)大會(GPU Technology Conference,GTC)并首次公開了其新一代GPU——Fermi架構(gòu)。2009年10月27日上午,帶著對Fermi架構(gòu)的種種問題,我們對來京參加CUDA卓越中心授權(quán)儀式等一系列活動的NVIDIA公司首席科學(xué)家Bill Dally先生進(jìn)行了專訪。值得一提的是,我們是對Bill Dally先生進(jìn)行一對一專訪的僅有的兩家國內(nèi)IT媒體之一。
Tesla(特斯拉)是NVIDIA公司高性能計算產(chǎn)品的統(tǒng)稱,這個源自著名物理學(xué)家Nikola Tesla(尼古拉·特斯拉)姓氏的稱呼其實(shí)也是我們熟悉的G80/GT200架構(gòu)的名字,而新一代GPU架構(gòu)Fermi(費(fèi)米)實(shí)際上也是采用一位著名物理學(xué)家Enrico Fermi(恩里科·費(fèi)米)的姓氏命名的,要知道Enrico Fermi負(fù)責(zé)設(shè)計建造了人類歷史上公認(rèn)的第一個核反應(yīng)堆,以此給新架構(gòu)命名,看來NVIDIA公司也要在視覺計算領(lǐng)域發(fā)動一場“核裂變”了。
關(guān)于Fermi在高性能計算市場的問題
問:對于高性能計算用戶來說,F(xiàn)ermi架構(gòu)能給他們帶來哪些好處?如何去幫到他們?
Bill Dally答:首先,優(yōu)化的雙精度浮點(diǎn)運(yùn)算可以直接提升GPU的計算能力;其次,ECC容錯技術(shù)更加適用于數(shù)據(jù)中心的應(yīng)用;另外,很多并行計算都需要GPU片載內(nèi)存以外的緩存結(jié)構(gòu)來提供協(xié)作。
問:數(shù)十倍甚至是數(shù)百倍效能的提升確實(shí)能把高性能計算用戶吸引到GPU平臺上,不過CPU也是在進(jìn)步的。關(guān)鍵在于應(yīng)用GPU平臺需要你們(NVIDIA)更多的介入,客戶方面缺少相關(guān)人才,您對此如何評價?
Bill Dally答:關(guān)于GPU和CPU的問題,我想說CPU所增加的線程數(shù)量在并行計算面前也是捉襟見肘的,而Fermi就不一樣了,它有512個核心。關(guān)于應(yīng)用人才的問題,我們也正在通過諸多途徑讓更多人使用CUDA工具進(jìn)行編程,比如在大學(xué)里開設(shè)CUDA的相關(guān)課程。
問:我們認(rèn)為CPU和GPU之間的競爭不僅僅是兩種技術(shù)架構(gòu)的競爭,也不僅僅是NVIDIA、AMD以及Intel這三家公司之間的競爭,而是代表了兩條產(chǎn)業(yè)鏈之間的競爭。雖然在GPU產(chǎn)業(yè)鏈上NVIDIA和諸多軟硬件廠商都有合作,但是CPU產(chǎn)業(yè)鏈也已經(jīng)高度成熟,您對此有何看法?
Bill Dally答:我并不否認(rèn)CPU產(chǎn)業(yè)鏈?zhǔn)且墒煲恍┑?,不過我對GPU產(chǎn)業(yè)鏈的發(fā)展同樣持樂觀態(tài)度。對于串行計算的CPU來說,核心數(shù)量的增加和運(yùn)算能力的提升遠(yuǎn)不如并行計算的GPU來的容易,加之像是Adobe這樣的軟件領(lǐng)導(dǎo)廠商也已經(jīng)采用CUDA,GPU的競爭優(yōu)勢就更大了。
問:沒有人會否認(rèn)NVIDIA在GPU并行計算方面的領(lǐng)導(dǎo)地位。當(dāng)然,我們也不能忽視ATI的流處理技術(shù),畢竟推動這個技術(shù)發(fā)展還是需要整個行業(yè)來支持,您對此有何看法?
Bill Dally答:NVIDIA之所以在并行計算方面走在前面,是因為我們在這里投入了大量的資金來做研發(fā),無論是在硬件方面還是在軟件方面。當(dāng)然,要推動整個并行計算發(fā)展,還是要有一個標(biāo)準(zhǔn)和第三方軟件開發(fā)商的支持。 #p#page_title#e#
問:GPU并行計算目前在中國還算是“新生事物”,相對集中在一些科研院所和高等院校的項目上,而在實(shí)際生產(chǎn)生活中商業(yè)化、市場化的案例并不算多,吉星吉達(dá)公司在石油領(lǐng)域的案例算是一個代表,您能不能向我們介紹一下GPU并行計算在歐美國家的普及情況?
Bill Dally答:我比較同意GPU并行計算在中國處于初級階段的說法,不過在石油、天然氣、水利等能源行業(yè)的應(yīng)用算是開了個好頭。在美國,很多金融企業(yè)以及汽車廠商都會采用GPU并行計算來做數(shù)據(jù)分析和設(shè)計工作。而個人用戶也會用它來做視頻的剪輯、編解碼等等。相信隨著GPU并行計算技術(shù)越來越成熟,相關(guān)的應(yīng)用也會覆蓋到更多的領(lǐng)域上。
問:Fermi架構(gòu)更多的考慮了GPU在并行計算上的設(shè)計,它已經(jīng)不再是圖形處理器那么簡單。那么,F(xiàn)ermi架構(gòu)在NVIDIA公司GPU的發(fā)展歷史上甚至說整個計算機(jī)行業(yè)的發(fā)展歷史上又會處于一個什么樣的位置呢?
Bill Dally答:我想說Fermi架構(gòu)是一款達(dá)到了我們預(yù)期的產(chǎn)品。當(dāng)然,它也不可能是完美的,它同樣還有進(jìn)步的空間。不過就現(xiàn)在看來,無論是在圖形處理還是在并行計算上,F(xiàn)ermi架構(gòu)都可以讓高性能計算和個人用戶的工作變得更高效。
關(guān)于Fermi在個人消費(fèi)類市場的問題
問:現(xiàn)在CPU制程和架構(gòu)隔年就會更新一次,那么GPU會不會也遵循這樣的規(guī)律?
Bill Dally答:其實(shí)GPU的每一次更新?lián)Q代都可以帶來50%左右的效能提升,像是Fermi架構(gòu)甚至可以達(dá)到70%,而CPU每一顆核心的效能提升幅度也就是在10%左右。更重要的是,GPU是并行處理器,是傳統(tǒng)的串行處理器(CPU)所無法取代的。
問:和把大部分晶體管都用在緩存上的CPU不同,GPU主要還是以邏輯電路為主,這勢必會造成對芯片制程和晶體管數(shù)量的依賴,我們的問題是Fermi架構(gòu)在實(shí)現(xiàn)性能突破的同時,在功耗方面又會有怎樣的表現(xiàn)?
Bill Dally答:雖然Fermi架構(gòu)512顆的核心比上一代產(chǎn)品多出了很多,不過實(shí)際上兩者的功耗是差不多的。再退一步講,在單位功耗上,GPU的計算能力要遠(yuǎn)比CPU大的多,或者說要完成同樣的計算量,GPU的功耗也要低很多,因為它是并行的。我們有一些很好的技術(shù)來控制功耗,因此并不需要擔(dān)心這些。
問:從以前的PCIe 1.0,到現(xiàn)在的PCIe 2.0,再到以后的PCIe 3.0,GPU一直都是通過PCIe總線來運(yùn)作的,那么什么時候會出現(xiàn)新的界面來承載GPU的工作?
Bill Dally答:我們的確有在研究一些潛在的總線方案,但問題是我們現(xiàn)在只能控制總線的一端,而另一端則是由CPU廠商所控制的。當(dāng)然,這件事并不是由一家公司控制的,PCIe總線是一個組織所制定的標(biāo)準(zhǔn),我們也身在其中,我們當(dāng)然也希望在未來能夠有更好的界面問世。
問:Fermi架構(gòu)的一大改良就是優(yōu)化的雙精度浮點(diǎn)運(yùn)算,其實(shí)之前在這個方面上,NVIDIA和ATI做的都不是很好,而Fermi架構(gòu)的單精度和雙精度之間的比值已經(jīng)達(dá)到了2比1,那么以一顆512核心的Fermi芯片計算,它究竟能給出多大的雙精度浮點(diǎn)運(yùn)算能力?
Bill Dally答:我們上一代GPU單精度和雙精度之間的比值還是8比1,而Fermi架構(gòu)已經(jīng)可以做到2比1了!當(dāng)然,具體的計算能力還要視產(chǎn)品的最終頻率而定,因此現(xiàn)在還沒有一個準(zhǔn)確的數(shù)字,不過這個數(shù)字肯定是相當(dāng)可觀的。
問:Fermi架構(gòu)能夠給消費(fèi)級市場帶來怎樣的好處?也就是說NVIDIA的GeForce和Quadro產(chǎn)品。
Bill Dally答:Fermi架構(gòu)肯定是會被投放到我們不同的產(chǎn)品線上的,先是高性能計算的Tesla產(chǎn)品,然后是娛樂級的GeForce產(chǎn)品以及工作站級的Quadro產(chǎn)品。當(dāng)然,F(xiàn)ermi架構(gòu)本身的強(qiáng)大是不會變的,因此無論你把它投放到哪條產(chǎn)品線上,它所帶來的好處都是顯而易見的。
問:NVIDIA公司有沒有把GPU支持Windows操作系統(tǒng)提到議事日程上來?
Bill Dally答:對于Windows操作系統(tǒng)的支持,我們還沒有太多的計劃,我們更關(guān)注的是異構(gòu)計算。我們從來不會說GPU就要好過CPU,不過我們堅信在并行計算上我們的GPU肯定要比CPU更加出色。現(xiàn)時對于一臺PC來說,CPU加上GPU的異構(gòu)計算無疑是很好的方式,讓CPU去運(yùn)行操作系統(tǒng),而并行計算就交給GPU去做。 #p#page_title#e#