Computex泄密 獨(dú)家解析AMD下代GPU架構(gòu)
● NVIDIA用幾何處理能力激怒AMD
相對(duì)于圖形渲染能力(Rendering),幾何能力(Geometry)在過去沒有引起人們的足夠重視。而NVIDIA設(shè)計(jì)的Fermi架構(gòu)則重點(diǎn)強(qiáng)調(diào)幾何處理能力,這個(gè)設(shè)計(jì)方向非常吻合DirectX 11提出的要求,也增強(qiáng)了畫面的真實(shí)感。可以說幾何能力(Geometry)的飛速提升,是GPU光柵化發(fā)展歷程中的重要一步。
在本次Computex電腦展之前,NVIDIA已經(jīng)發(fā)布了Fermi架構(gòu)的GTX400系列產(chǎn)品,而在Computex電腦展開幕當(dāng)天,基于Fermi架構(gòu)的GTX465產(chǎn)品也亮麗登場(chǎng)。NVIDIA稱Fermi GF100是一個(gè)全新架構(gòu),不但是通用計(jì)算方面,游戲方面它也發(fā)生了翻天覆地的變化,幾乎每一個(gè)原有模塊都進(jìn)行了重組。特別是還有新增的光柵引擎(Raster Engine)和多形體引擎(PolyMorph Engine),這兩個(gè)概念的提出,為GPU的幾何處理能力打下堅(jiān)實(shí)基礎(chǔ)。
在過去的幾年中,確切說是從Geforce 5800到Geforce GT200的這幾年間,GPU的著色器Shader計(jì)算能力提升了150倍,這幾乎全部是因?yàn)榇罅康捻旤c(diǎn)和像素處理壓力所致。而游戲開發(fā)商大都喜歡已經(jīng)烘焙好的材質(zhì)不愿意也沒有考慮過使用更為真實(shí)自由的材質(zhì)。
正是在這種思路的指導(dǎo)下,GPU的幾何處理能力發(fā)展緩慢,在著色器Shader計(jì)算能力迅猛提升的前提下,幾何處理能力只提升了3倍。并且負(fù)責(zé)幾何處理的GPU單元基本上沒有發(fā)生什么變化,完全是依賴規(guī)模的堆積和頻率的提升來被動(dòng)提高性能。
Fermi架構(gòu)擁有數(shù)量龐大的曲面細(xì)分單元(Tessellator)
Fermi架構(gòu)的多形體引擎則要負(fù)責(zé)頂點(diǎn)拾?。╒ertex Fetch)、曲面細(xì)分(Tessellation)、視口轉(zhuǎn)換(Viewport Transform)、屬性設(shè)定(Attribute Setup)、流輸出(Stream Output)等五個(gè)方面的處理工作,DX11中最大的變化之一曲面細(xì)分單元(Tessellator)就在這里。Fermi GF100產(chǎn)品中有16個(gè)多形體引擎,每個(gè)SM一個(gè),或者說每個(gè)GPC擁有四個(gè)。
代號(hào)Cypress的AMD HD5000系列只有1個(gè)曲面細(xì)分單元(Tessellator)
代號(hào)Cypress的AMD HD5000系列是全球首款支持DirectX 11特效的GPU,它繼承了R600架構(gòu)高效的VLIW組織形式SIMD結(jié)構(gòu)流處理器單元,又繼承了RV770以來的RBE后端渲染單元改進(jìn),同時(shí)結(jié)合TSMC 40nm工藝,將性能和功耗完美匹配,但是在光環(huán)的背后,一直隱藏著AMD的憂慮,那就是作為Direct X11關(guān)鍵技術(shù)支撐的曲面細(xì)分單元。
最終我們看到,基于Fermi架構(gòu)的GTX480產(chǎn)品,擁有15個(gè)曲面細(xì)分單元(Tessellator),而AMD的頂級(jí)單卡HD5870,只有1個(gè)曲面細(xì)分單元。同時(shí)從最高端的HD5870到最低端的HD5450芯片,曲面細(xì)分單元(Tessellator)的數(shù)量都只有一個(gè),其運(yùn)算能力只是有工作頻率決定的。這是一種非常不合理的架構(gòu)設(shè)計(jì)。AMD下一代“Southern Island”(中文名“南島”)架構(gòu)正在尋求這個(gè)層面的突破。#p#page_title#e#
● R600以來的著色器結(jié)構(gòu)與資源追加
SIMD結(jié)構(gòu)ALU單元用作GPU著色器從提出直到現(xiàn)在,已經(jīng)在GPU設(shè)計(jì)中被沿用了10年。AMD所使用的SIMD結(jié)構(gòu)流處理器,具有非常明顯的優(yōu)勢(shì)就是執(zhí)行全4D指令時(shí)簡(jiǎn)潔高效,對(duì)晶體管的需求量更小。
而NVIDIA為了達(dá)到MIMD流處理器設(shè)計(jì),消耗了太多晶體管資源,同時(shí)促使NVIDIA大量花費(fèi)晶體管的還有龐大的線程仲裁機(jī)制、端口、緩存和寄存器等等周邊資源。NVIDIA為了TLP(線程并行度)付出了太多的代價(jià),而這一切代價(jià),都是為了GPU能更好地運(yùn)行在各種復(fù)雜環(huán)境下。
ImpressWatch繪制的解析流處理器結(jié)構(gòu)
但是業(yè)界普通的共識(shí)是SIMD結(jié)構(gòu)的流處理器設(shè)計(jì)能夠有效降低晶體管使用量,特別是在已經(jīng)設(shè)計(jì)好的架構(gòu)中擴(kuò)展流處理器數(shù)量的難度,比起MIMD結(jié)構(gòu)要容易很多。
對(duì)比R600和G80架構(gòu)可知,4個(gè)1D標(biāo)量ALU和1個(gè)4D矢量ALU的理論運(yùn)算能力是相當(dāng)?shù)?,但是前者需?個(gè)指令發(fā)射端和4個(gè)控制單元,而后者只需要1個(gè),如此一來MIMD架構(gòu)所占用的晶體管數(shù)將遠(yuǎn)大于SIMD架構(gòu)。
AMD的GPU產(chǎn)品在特定測(cè)試中遙遙領(lǐng)先
回顧AMD在統(tǒng)一渲染時(shí)代做出的努力,我們能夠感覺到從R600到R800時(shí)代,AMD在試圖通過不斷堆砌SIMD結(jié)構(gòu)的ALU運(yùn)算器以提升性能,這是一個(gè)簡(jiǎn)單而粗暴的真理。由于R600-R800的US是分“1大4小”,即一個(gè)全功能SP單元和4個(gè)僅能執(zhí)行乘加運(yùn)算而無法執(zhí)行連乘運(yùn)算的部分功能SP。所以在上圖測(cè)試的Float 5指令中,由于數(shù)據(jù)類型符合其流處理器結(jié)構(gòu),AMD的GPU設(shè)計(jì)發(fā)揮出了理論應(yīng)有的最高性能。
R600為每個(gè)US配備了1個(gè)發(fā)射端,所以如果要保證指令吞吐不受限制就通過VLIW,也就是超長指令打包的形式將若干個(gè)短指令打包在一起。在US結(jié)構(gòu)方面,從R600到R800幾乎沒有任何變化,我們所看到的性能提升,是因?yàn)橹苓呝Y源放大之后R800比RV770或者說比R600更好的通過cache機(jī)制來掩蓋延遲造成的損失。
RV870,基本上應(yīng)該就是RV770+DX11強(qiáng)制的硬件IC(曲面細(xì)分單元),不僅R600的構(gòu)架完全沒變,而且其周邊資源,尤其是Sram和寄存器資源理論上并沒有得到本質(zhì)性的強(qiáng)化。但是借由40nm工藝所帶來的頻率提升,以及長時(shí)間在RV770中的積累所帶來的寄存器和Sram時(shí)序的調(diào)整以及調(diào)度模式的轉(zhuǎn)變,HD5870獲得了非常理想的性能提升。
要想改進(jìn)AMD目前的流處理器結(jié)構(gòu),在HD6000系列中幾乎已經(jīng)沒有可能,也就是說從某種程度上來講,HD6000仍然基于HD2000以來的架構(gòu)基礎(chǔ)。特別是用VLIW技術(shù)所組織的流處理器結(jié)構(gòu)這一點(diǎn)不會(huì)發(fā)生改變,因?yàn)锳MD一旦轉(zhuǎn)變?cè)O(shè)計(jì)方向,現(xiàn)在建立起來的一切性能領(lǐng)先優(yōu)勢(shì)可能不復(fù)存在。#p#page_title#e#
● 繼續(xù)用固定硬件單元實(shí)現(xiàn)特殊功能
計(jì)算機(jī)體系結(jié)構(gòu)的基本原理是,任何軟件能夠?qū)崿F(xiàn)的,硬件都能夠?qū)崿F(xiàn),相反也成立,這被成為硬件軟件等效原理。這一原理只是功能等效,性能來說,良好優(yōu)化和設(shè)計(jì)的硬件通常要比同樣水平的軟件快很多,同樣,開發(fā)周期長,開發(fā)的成本,也要高不少,體系結(jié)構(gòu)研究的重點(diǎn)就是從需要出發(fā),尋求最佳的軟硬件平衡點(diǎn),在一定的成本約束下,獲得最高的性能。
GPU中也是一樣,在目前統(tǒng)一渲染成為主題的今天,統(tǒng)一渲染著色器(Unified Shader)和固定功能單元(Fixed Function)是配合的,當(dāng)我們重點(diǎn)看SP規(guī)模的時(shí)候,其實(shí)GPU性能的很大程度是由固定功能單元來完成的。
從固定功能單元的發(fā)展歷程來看,在一項(xiàng)新技術(shù)最初被提出時(shí),一般廠商都希望使用一個(gè)特定的硬件IC去實(shí)現(xiàn)這項(xiàng)技術(shù)。而在這項(xiàng)技術(shù)經(jīng)歷一段時(shí)間之后,特定功能單元一般都會(huì)被大規(guī)模的可編程單元替代,尤其是在GPU的發(fā)展歷程中非常普遍。
曲面細(xì)分單元(Tessellator)會(huì)被替代嗎
比如說當(dāng)年的T&L技術(shù)最初是由特定硬件完成的,后來逐漸被替代。頂點(diǎn)、像素、幾何三項(xiàng)著色工作在DirectX10出現(xiàn)之前也是由各自對(duì)應(yīng)的著色器來負(fù)責(zé)的,但是統(tǒng)一渲染架構(gòu)提出之后它們被統(tǒng)一渲染著色器替代。
Intel也知道這條道理,它認(rèn)為固定渲染單元最終可以被Shader指令替換,Shader指令也可以由x86擴(kuò)充指令替換。所以Larrabee簡(jiǎn)單而又龐大的架構(gòu)運(yùn)用而生。實(shí)際上整個(gè)IC設(shè)計(jì)領(lǐng)域都在實(shí)現(xiàn)“去功能化”這個(gè)方向,所有人都明白添加固定功能單元換取性能提升不是長久之計(jì)。
在5月28日我們對(duì)NVIDIA首席執(zhí)行官黃仁勛先生的專訪中,黃先生贊成不斷增強(qiáng)曲面細(xì)分能力,但是這種能力的增強(qiáng),依靠的是使用固定功能單元或者說特定硬件IC,實(shí)際上也就是曲面細(xì)分單元(Tessellator)。
黃仁勛先生向我們解釋到,在考慮每瓦特性能的今天,追求性能的提升必須要衡量其他因素的影響以及控制這種影響,特別是用戶最為關(guān)注的功耗問題。圖形渲染能力(Rendering)和幾何能力(Geometry)是目前GPU最為主要的兩個(gè)發(fā)展方向,這兩個(gè)方向所需要的硬件是不同的。
曲面細(xì)分性能或者說業(yè)界對(duì)曲面細(xì)分的依賴,再次造就出獨(dú)立的Tessellation單元。當(dāng)然雖然它不太符合通用處理單元的發(fā)展方向,但是如果計(jì)算晶體管的投入與性能回報(bào),特定硬件實(shí)現(xiàn)Tessellation功能是目前最好的選擇。所以黃仁勛先生堅(jiān)持以增添特定硬件IC的方式來提升GPU幾何處理能力。#p#page_title#e#
● AMD意識(shí)到RV870架構(gòu)的不足
AMD下一代GPU代號(hào)為“Southern Island”,中文名為南島。作為ATI即將發(fā)布的顯示芯片,南島有可能將在溫哥華流片。ATI下一代GPU南島系列名字在溫哥華遭泄露。這些名字將由 Whistler-Blackcomb, Robson and Seymour為我們帶來。這些名字自從南島命名出來后就已經(jīng)在暗地流傳。當(dāng)然以上關(guān)于芯片名稱的解說大家只能參考,同時(shí)這也不是我們分析的重點(diǎn)。
“南島”在發(fā)布之前,已經(jīng)透露出了一些非常令人欣喜的特性。其中最為顯著的就是增強(qiáng)了DirectX 11最為重要的曲面細(xì)分(Tessellation)性能。實(shí)際上2009年9月ATI全球首發(fā)了第一款DirectX 11顯卡HD5870之后,其DirectX 11的支持力度和架構(gòu)改進(jìn)幅度一直是行業(yè)內(nèi)關(guān)注的重點(diǎn)。
ATI公布的DirectX 11 Tessellation特性
本次“南島”仍然沒有更新R600以來的US結(jié)構(gòu),而目前我們所得到的“南島”的DirectX 11性能將在相同規(guī)模流處理器下超越自家HD5000產(chǎn)品,據(jù)此我們推測(cè)“南島”架構(gòu)增強(qiáng)了Tessellation能力。
Tessellation又可譯作拆嵌式細(xì)分曲面技術(shù)。其實(shí)這是ATI早在其第一代DirectX 10圖形核心R600,即HD2900XT上就引入的一個(gè)特殊的計(jì)算模塊。從HD2000系列開始,直到最新的HD5000系列,4代顯卡全部支持這一技術(shù)。
其中HD2000到HD4000系列都是使用了ATI獨(dú)有的硬件模塊來支持這一技術(shù)。從DirectX 11開始,微軟對(duì)這項(xiàng)技術(shù)進(jìn)行了優(yōu)化,使之能與渲染流程完美的結(jié)合在一起,可以更高效率的細(xì)分出更多的多邊形和曲面。
目前AMD頂級(jí)產(chǎn)品RV870架構(gòu)圖
上圖就是AMD目前的頂級(jí)產(chǎn)品HD5870架構(gòu)圖(代號(hào)RV870),這張圖片由ENET網(wǎng)站Cloud編輯繪制。我們可以看到在現(xiàn)在的RV870架構(gòu)中,微軟引入了可編程曲面細(xì)分管線。在最新Shader Model 5.0標(biāo)準(zhǔn)中,增加了Hull Shader、Compute Shader、Domain Shader三種新的Shade,它們的出現(xiàn)都是為了完善曲面細(xì)分管線,分別位于鑲嵌器的前后。#p#page_title#e#
● “南島”架構(gòu)重點(diǎn)加強(qiáng)曲面細(xì)分
我們根據(jù)各方面的情報(bào)綜合考慮,“Southern Island”(“南島”)還是延續(xù)R600架構(gòu),但是把曲面細(xì)分單元(Tessellator)放在VLIW Core中,這是一次非常難得的改進(jìn)。但同時(shí)這也是南島的極限。因?yàn)橐压潭üδ軉卧獟斓絍LIW Core中,就要有獨(dú)立的總線連接、獨(dú)立的資源、寄存器、端口,也就是說獨(dú)立的線程仲裁分配能力。
在VLIW Core中實(shí)現(xiàn)獨(dú)立仲裁分配能力,是AMD一直希望在GPU中做到的,如果能做到這一點(diǎn),那AMD或許能夠借此實(shí)現(xiàn)更深級(jí)別的亂序執(zhí)行,這基本上就和NVIDIA站在同一起跑線。同時(shí)如果把曲面細(xì)分單元(Tessellator)放在VLIW Core中,曲面細(xì)分能力將伴隨芯片規(guī)模而變化,高中低端顯卡將擁有各自不同的曲面細(xì)分能力。這和NVIDIA將曲面細(xì)分單元(Tessellator)放在SM中是一個(gè)道理。
AMD下代“南島”架構(gòu)兩種設(shè)計(jì)方向推測(cè)
如果南島無法一次性將曲面細(xì)分單元(Tessellator)放在VLIW Core中,可以選擇另外一種途徑,那就是對(duì)GPU內(nèi)部單元進(jìn)行分頻。正如NVIDIA將CUDA Cores的頻率以兩倍于固定單元頻率運(yùn)行一樣,AMD可以選擇將幾何性能較弱的Setup Engine和Tessellator等單元按一定幅度提升頻率。
或者將GPU的前端超線程發(fā)送器(Ultra Threaded Dispatch Processor)整體頻率提升,這樣曲面細(xì)分單元自然也會(huì)受益,同時(shí)GPU的幾何處理能力會(huì)得到線性增強(qiáng)。
但是也有一種說法認(rèn)為AMD沒有能力在HD6000芯片的VLIW Core級(jí)別中添加更多的essellator單元,因?yàn)榫€程仲裁能力背后的設(shè)計(jì)還很復(fù)雜,比如足夠的掛起空間。仲裁器本身沒多少晶體管,這種資源基本上都是LDS,寄存器也是。所以R800使用了搶占式多線程,但是速度和效率還是得不到保障。
另一種猜想已經(jīng)被我們否定,那就是在現(xiàn)有的前端超線程發(fā)送器(Ultra Threaded Dispatch Processor)中添加一個(gè)曲面細(xì)分單元(Tessellator)。因?yàn)檫@需要兩套獨(dú)立的crossbar,以及在VLIW Core外設(shè)置獨(dú)立的出口,最后還要設(shè)置搶占式多線程分配單元。
所以我們可能看到HD6000系列在流處理器規(guī)模與HD5000系列相同的情況下,在Direct X 10和Direct X 9性能方面落后于HD5000,但是由于幾何能力的提升,在Direct X 11方面,會(huì)有較為出色的表現(xiàn)。這一點(diǎn)和Fermi架構(gòu)的設(shè)計(jì)思路是非常接近的。#p#page_title#e#
● AMD南島架構(gòu)能否改善運(yùn)算效率
Compute Shader技術(shù)是微軟DirectX 11 API新加入的特性,在Compute Shader的幫助下,程序員可直接將GPU作為并行處理器加以利用,GPU將不僅具有3D渲染能力,也具有其他的運(yùn)算能力,也就是我們說的GPGPU的概念和物理加速運(yùn)算。多線程處理技術(shù)使游戲更好地利用系統(tǒng)的多個(gè)核心。
Computer Shader的初衷,就是使用通用計(jì)算的手段來進(jìn)行后處理。由于GPU的浮點(diǎn)運(yùn)算能力非常強(qiáng)大,支持GPU進(jìn)行通用計(jì)算的技術(shù)發(fā)展勢(shì)頭很快,NVIDIA和AMD分別有CUDA和Stream技術(shù),以前兩家是各自為戰(zhàn),如今微軟也看到了GPU通用計(jì)算的曙光,在DX11中加入了Compute Shader這一技術(shù),意在統(tǒng)一當(dāng)前的通用計(jì)算技術(shù)。你可以認(rèn)為Compute Shader標(biāo)準(zhǔn)就是微軟提出的OPEN CL。
關(guān)于A卡和N卡在OPEN CL計(jì)算方面的性能差異,很多媒體進(jìn)行過測(cè)試,但大家實(shí)際上一直在找一個(gè)合適的平臺(tái),在找一套合適的測(cè)試基準(zhǔn)程序。目前,首款國人開發(fā)的支持GPU的OpenCL通用計(jì)算測(cè)試程序OpenCL General Purpose Computing Benchmark (簡(jiǎn)稱GPC BenchMark OCL)已經(jīng)公開并且升級(jí)到1.1版本。中關(guān)村在線顯卡頻道決定使用這款軟件,對(duì)AMD和NVIDIA的架構(gòu)特性做一些對(duì)比,以測(cè)試它們?cè)谀男┉h(huán)境中能發(fā)揮出更好的理論性能。
GPCBenchMark測(cè)試成績(jī)對(duì)比
分析上圖得到的測(cè)試數(shù)據(jù)我們可知,在純吞吐環(huán)境中,AMD延續(xù)了R600架構(gòu)以來的特性,其浮點(diǎn)吞吐量的優(yōu)勢(shì)得以體現(xiàn)。特別是浮點(diǎn)運(yùn)算(單精度)測(cè)試中,HD5870壓制了強(qiáng)大的Fermi架構(gòu)GTX480。在密碼學(xué)測(cè)試中,因?yàn)楹苌贍砍兜接?jì)算層面,GPU只是不斷隨即生成數(shù)據(jù)然后去試探,所以A卡理論吞吐量高的特性再次得到體現(xiàn)。
但是只要涉及到常規(guī)數(shù)學(xué)方法測(cè)試,這種實(shí)際運(yùn)算環(huán)境中將會(huì)包含大量跳轉(zhuǎn)嵌套分支等指令,只有運(yùn)算器組織得當(dāng)?shù)腉PU,才能有效避免理論值的大幅度衰減。A卡因?yàn)槠浼軜?gòu)設(shè)計(jì)原因,大幅度落后于Fermi架構(gòu)。
其中HD5870落后最為明顯的圖像處理,包括亮度直方圖繪制、2維卷積(銳化)、快速非局部均值法降噪、圖片縮放(雙立方濾波)。這項(xiàng)測(cè)試主要考量GPU的全局存儲(chǔ)器和紋理訪問能力,同時(shí)局部存儲(chǔ)器原子操作也占到一定比重,所以架構(gòu)較新的Fermi系列產(chǎn)品表現(xiàn)優(yōu)異。
Computer Shader里同樣有大量的常規(guī)數(shù)學(xué)方法。只要和“常規(guī)數(shù)學(xué)方法”有所接觸,A卡就會(huì)因?yàn)榧軜?gòu)設(shè)計(jì)受到很大影響。其中矩陣,卷積,離散余弦和反余弦等用的相對(duì)比較多。
實(shí)際上超標(biāo)量結(jié)構(gòu)本身并沒什么不好或者說落后,但是要讓超標(biāo)量兼顧吞吐和靈活性,外圍的要求就高了。VLIW Cores必須加入更多資源和仲裁能力,晶體管數(shù)量會(huì)因此提高很多。
Computer Shader在圖形計(jì)算中發(fā)揮重要作用
在上圖中,圖一表示了Compute Shader做圖像后處理(Post Process),圖片是《地鐵2033》的游戲截圖,利用Compute Shader技術(shù)做景深處理可以得到更好的效率。圖二表示利用Compute Shader技術(shù)做IA人工智能。圖三表示CUDA或者未來的Compute Shader結(jié)合OptiX技術(shù)做光線追蹤。圖四表示SPH流體模擬,流體的模擬,是典型的通用計(jì)算應(yīng)用實(shí)例,對(duì)Shader性能要求較高。
Compute Shader可發(fā)揮的地方很多,游戲中可以使用GPU進(jìn)行光線追蹤、A-Buffer采樣抗鋸齒、物理特效、人工智能AI等游戲特效運(yùn)算。在游戲之外,程序員也可以利用CS架構(gòu)進(jìn)行圖像處理、后處理(Post Process)等。
在硬件支持Compute Shader之后,相應(yīng)的硬件必須要比當(dāng)代硬件更加靈活,因?yàn)樵谶\(yùn)行CS代碼的時(shí)候,硬件必須支持隨機(jī)讀寫、不規(guī)則列陣(而不是簡(jiǎn)單的流體或者固定大小的2D列陣)、多重輸出、可根據(jù)程序員的需要直接調(diào)用個(gè)別或多個(gè)線程、32k大小的共享寄存空間和線程組管理系統(tǒng)、粒數(shù)據(jù)指令集、同步建構(gòu)以及可執(zhí)行無序IO運(yùn)算的能力。
實(shí)際上AMD也看清了GPU未來發(fā)展的實(shí)質(zhì),首先在RV770中加入LDS存儲(chǔ)器,然后在RV870中對(duì)LDS的可操作性的改進(jìn),以及shared Memory的擴(kuò)展,都是面向通用計(jì)算設(shè)計(jì)的?;蛘哒f,是為了Compute Shader而不得不做的事情。
在GPU幫助下躋身世界第二的中國“星云”超級(jí)計(jì)算機(jī)模塊
我們推測(cè)在即將發(fā)布的AMD下一代GPU也就是HD6000系列“Southern Island”(“南島”)架構(gòu)中,幾何計(jì)算能力層面的突破可以依靠增加曲面細(xì)分單元(Tessellator)來實(shí)現(xiàn),但是Compute Shader計(jì)算效率的提升的重任,將落在未來的架構(gòu)身上。
無論如何,“南島”將走出AMD改革的重要一步,如果能借助自從RV770以來在產(chǎn)品方面的轉(zhuǎn)變,AMD或許能夠用自己的思路來提升GPU的運(yùn)算能力。
屆時(shí)我們將看到GPU越來越通用化,其分支處理能力更加強(qiáng)大,運(yùn)算精度不斷提升。未來的CPU則越來越注重多線程能力,以此鞏固自己在并行計(jì)算領(lǐng)域的優(yōu)勢(shì),我們將在未來看到兩種不同的芯片向自己所沒有觸及過的領(lǐng)域發(fā)展。