久久99热精品免费观看无卡顿|欧美另类图片亚洲偷|亚洲天天做日日做天天爽,99精品久久久久婷婷,久久精品国产亚洲AV电影,中文字幕久精品免费视频蜜桃视频

全球領(lǐng)先的高端圖形工作站供應(yīng)商

免費(fèi)測(cè)試熱線 : 400-7056-800 【為任何應(yīng)用提供最快計(jì)算設(shè)備如不符,退貨】【最新報(bào)價(jià)】【選購指南】【京東商城】

您的位置：UltraLAB圖形工作站方案網(wǎng)站 > 人工智能 > 深度學(xué)習(xí) > Computex泄密獨(dú)家解析AMD下代GPU架構(gòu)

Computex泄密獨(dú)家解析AMD下代GPU架構(gòu)

時(shí)間：2010-06-08 23:20:00 來源：UltraLAB圖形工作站方案網(wǎng)站 人氣：13966 作者：admin

● NVIDIA用幾何處理能力激怒AMD

相對(duì)于圖形渲染能力（Rendering），幾何能力（Geometry）在過去沒有引起人們的足夠重視。而NVIDIA設(shè)計(jì)的Fermi架構(gòu)則重點(diǎn)強(qiáng)調(diào)幾何處理能力，這個(gè)設(shè)計(jì)方向非常吻合DirectX 11提出的要求，也增強(qiáng)了畫面的真實(shí)感?？梢哉f幾何能力（Geometry）的飛速提升，是GPU光柵化發(fā)展歷程中的重要一步。

在本次Computex電腦展之前，NVIDIA已經(jīng)發(fā)布了Fermi架構(gòu)的GTX400系列產(chǎn)品，而在Computex電腦展開幕當(dāng)天，基于Fermi架構(gòu)的GTX465產(chǎn)品也亮麗登場(chǎng)。NVIDIA稱Fermi GF100是一個(gè)全新架構(gòu)，不但是通用計(jì)算方面，游戲方面它也發(fā)生了翻天覆地的變化，幾乎每一個(gè)原有模塊都進(jìn)行了重組。特別是還有新增的光柵引擎（Raster Engine）和多形體引擎（PolyMorph Engine），這兩個(gè)概念的提出，為GPU的幾何處理能力打下堅(jiān)實(shí)基礎(chǔ)。

曲面細(xì)分技術(shù)讓物體更加真實(shí)

在過去的幾年中，確切說是從Geforce 5800到Geforce GT200的這幾年間，GPU的著色器Shader計(jì)算能力提升了150倍，這幾乎全部是因?yàn)榇罅康捻旤c(diǎn)和像素處理壓力所致。而游戲開發(fā)商大都喜歡已經(jīng)烘焙好的材質(zhì)不愿意也沒有考慮過使用更為真實(shí)自由的材質(zhì)。

正是在這種思路的指導(dǎo)下，GPU的幾何處理能力發(fā)展緩慢，在著色器Shader計(jì)算能力迅猛提升的前提下，幾何處理能力只提升了3倍。并且負(fù)責(zé)幾何處理的GPU單元基本上沒有發(fā)生什么變化，完全是依賴規(guī)模的堆積和頻率的提升來被動(dòng)提高性能。

Fermi架構(gòu)擁有數(shù)量龐大的曲面細(xì)分單元（Tessellator）

Fermi架構(gòu)的多形體引擎則要負(fù)責(zé)頂點(diǎn)拾取（Vertex Fetch）、曲面細(xì)分（Tessellation）、視口轉(zhuǎn)換（Viewport Transform）、屬性設(shè)定（Attribute Setup）、流輸出（Stream Output）等五個(gè)方面的處理工作，DX11中最大的變化之一曲面細(xì)分單元（Tessellator）就在這里。Fermi GF100產(chǎn)品中有16個(gè)多形體引擎，每個(gè)SM一個(gè)，或者說每個(gè)GPC擁有四個(gè)。

代號(hào)Cypress的AMD HD5000系列只有1個(gè)曲面細(xì)分單元（Tessellator）

代號(hào)Cypress的AMD HD5000系列是全球首款支持DirectX 11特效的GPU，它繼承了R600架構(gòu)高效的VLIW組織形式SIMD結(jié)構(gòu)流處理器單元，又繼承了RV770以來的RBE后端渲染單元改進(jìn)，同時(shí)結(jié)合TSMC 40nm工藝，將性能和功耗完美匹配，但是在光環(huán)的背后，一直隱藏著AMD的憂慮，那就是作為Direct X11關(guān)鍵技術(shù)支撐的曲面細(xì)分單元。

最終我們看到，基于Fermi架構(gòu)的GTX480產(chǎn)品，擁有15個(gè)曲面細(xì)分單元（Tessellator），而AMD的頂級(jí)單卡HD5870，只有1個(gè)曲面細(xì)分單元。同時(shí)從最高端的HD5870到最低端的HD5450芯片，曲面細(xì)分單元（Tessellator）的數(shù)量都只有一個(gè)，其運(yùn)算能力只是有工作頻率決定的。這是一種非常不合理的架構(gòu)設(shè)計(jì)。AMD下一代“Southern Island”（中文名“南島”）架構(gòu)正在尋求這個(gè)層面的突破。#p#page_title#e#

● R600以來的著色器結(jié)構(gòu)與資源追加

SIMD結(jié)構(gòu)ALU單元用作GPU著色器從提出直到現(xiàn)在，已經(jīng)在GPU設(shè)計(jì)中被沿用了10年。AMD所使用的SIMD結(jié)構(gòu)流處理器，具有非常明顯的優(yōu)勢(shì)就是執(zhí)行全4D指令時(shí)簡(jiǎn)潔高效，對(duì)晶體管的需求量更小。

而NVIDIA為了達(dá)到MIMD流處理器設(shè)計(jì)，消耗了太多晶體管資源，同時(shí)促使NVIDIA大量花費(fèi)晶體管的還有龐大的線程仲裁機(jī)制、端口、緩存和寄存器等等周邊資源。NVIDIA為了TLP（線程并行度）付出了太多的代價(jià)，而這一切代價(jià)，都是為了GPU能更好地運(yùn)行在各種復(fù)雜環(huán)境下。

ImpressWatch繪制的解析流處理器結(jié)構(gòu)

但是業(yè)界普通的共識(shí)是SIMD結(jié)構(gòu)的流處理器設(shè)計(jì)能夠有效降低晶體管使用量，特別是在已經(jīng)設(shè)計(jì)好的架構(gòu)中擴(kuò)展流處理器數(shù)量的難度，比起MIMD結(jié)構(gòu)要容易很多。

AMD與NVIDIA流處理器結(jié)構(gòu)

對(duì)比R600和G80架構(gòu)可知，4個(gè)1D標(biāo)量ALU和1個(gè)4D矢量ALU的理論運(yùn)算能力是相當(dāng)?shù)?，但是前者需?個(gè)指令發(fā)射端和4個(gè)控制單元，而后者只需要1個(gè)，如此一來MIMD架構(gòu)所占用的晶體管數(shù)將遠(yuǎn)大于SIMD架構(gòu)。

AMD的GPU產(chǎn)品在特定測(cè)試中遙遙領(lǐng)先

回顧AMD在統(tǒng)一渲染時(shí)代做出的努力，我們能夠感覺到從R600到R800時(shí)代，AMD在試圖通過不斷堆砌SIMD結(jié)構(gòu)的ALU運(yùn)算器以提升性能，這是一個(gè)簡(jiǎn)單而粗暴的真理。由于R600-R800的US是分“1大4小”，即一個(gè)全功能SP單元和4個(gè)僅能執(zhí)行乘加運(yùn)算而無法執(zhí)行連乘運(yùn)算的部分功能SP。所以在上圖測(cè)試的Float 5指令中，由于數(shù)據(jù)類型符合其流處理器結(jié)構(gòu)，AMD的GPU設(shè)計(jì)發(fā)揮出了理論應(yīng)有的最高性能。

R600為每個(gè)US配備了1個(gè)發(fā)射端，所以如果要保證指令吞吐不受限制就通過VLIW，也就是超長指令打包的形式將若干個(gè)短指令打包在一起。在US結(jié)構(gòu)方面，從R600到R800幾乎沒有任何變化，我們所看到的性能提升，是因?yàn)橹苓呝Y源放大之后R800比RV770或者說比R600更好的通過cache機(jī)制來掩蓋延遲造成的損失。

RV870，基本上應(yīng)該就是RV770+DX11強(qiáng)制的硬件IC（曲面細(xì)分單元），不僅R600的構(gòu)架完全沒變，而且其周邊資源，尤其是Sram和寄存器資源理論上并沒有得到本質(zhì)性的強(qiáng)化。但是借由40nm工藝所帶來的頻率提升，以及長時(shí)間在RV770中的積累所帶來的寄存器和Sram時(shí)序的調(diào)整以及調(diào)度模式的轉(zhuǎn)變，HD5870獲得了非常理想的性能提升。

要想改進(jìn)AMD目前的流處理器結(jié)構(gòu)，在HD6000系列中幾乎已經(jīng)沒有可能，也就是說從某種程度上來講，HD6000仍然基于HD2000以來的架構(gòu)基礎(chǔ)。特別是用VLIW技術(shù)所組織的流處理器結(jié)構(gòu)這一點(diǎn)不會(huì)發(fā)生改變，因?yàn)锳MD一旦轉(zhuǎn)變?cè)O(shè)計(jì)方向，現(xiàn)在建立起來的一切性能領(lǐng)先優(yōu)勢(shì)可能不復(fù)存在。#p#page_title#e#

● 繼續(xù)用固定硬件單元實(shí)現(xiàn)特殊功能

計(jì)算機(jī)體系結(jié)構(gòu)的基本原理是，任何軟件能夠?qū)崿F(xiàn)的，硬件都能夠?qū)崿F(xiàn)，相反也成立，這被成為硬件軟件等效原理。這一原理只是功能等效，性能來說，良好優(yōu)化和設(shè)計(jì)的硬件通常要比同樣水平的軟件快很多，同樣，開發(fā)周期長，開發(fā)的成本，也要高不少，體系結(jié)構(gòu)研究的重點(diǎn)就是從需要出發(fā)，尋求最佳的軟硬件平衡點(diǎn)，在一定的成本約束下，獲得最高的性能。

GPU中也是一樣，在目前統(tǒng)一渲染成為主題的今天，統(tǒng)一渲染著色器（Unified Shader）和固定功能單元（Fixed Function）是配合的，當(dāng)我們重點(diǎn)看SP規(guī)模的時(shí)候，其實(shí)GPU性能的很大程度是由固定功能單元來完成的。

從固定功能單元的發(fā)展歷程來看，在一項(xiàng)新技術(shù)最初被提出時(shí)，一般廠商都希望使用一個(gè)特定的硬件IC去實(shí)現(xiàn)這項(xiàng)技術(shù)。而在這項(xiàng)技術(shù)經(jīng)歷一段時(shí)間之后，特定功能單元一般都會(huì)被大規(guī)模的可編程單元替代，尤其是在GPU的發(fā)展歷程中非常普遍。

曲面細(xì)分單元（Tessellator）會(huì)被替代嗎

比如說當(dāng)年的T&L技術(shù)最初是由特定硬件完成的，后來逐漸被替代。頂點(diǎn)、像素、幾何三項(xiàng)著色工作在DirectX10出現(xiàn)之前也是由各自對(duì)應(yīng)的著色器來負(fù)責(zé)的，但是統(tǒng)一渲染架構(gòu)提出之后它們被統(tǒng)一渲染著色器替代。

Intel也知道這條道理，它認(rèn)為固定渲染單元最終可以被Shader指令替換，Shader指令也可以由x86擴(kuò)充指令替換。所以Larrabee簡(jiǎn)單而又龐大的架構(gòu)運(yùn)用而生。實(shí)際上整個(gè)IC設(shè)計(jì)領(lǐng)域都在實(shí)現(xiàn)“去功能化”這個(gè)方向，所有人都明白添加固定功能單元換取性能提升不是長久之計(jì)。

在5月28日我們對(duì)NVIDIA首席執(zhí)行官黃仁勛先生的專訪中，黃先生贊成不斷增強(qiáng)曲面細(xì)分能力，但是這種能力的增強(qiáng)，依靠的是使用固定功能單元或者說特定硬件IC，實(shí)際上也就是曲面細(xì)分單元（Tessellator）。

5月28日中國區(qū)媒體群訪黃仁勛

黃仁勛先生向我們解釋到，在考慮每瓦特性能的今天，追求性能的提升必須要衡量其他因素的影響以及控制這種影響，特別是用戶最為關(guān)注的功耗問題。圖形渲染能力（Rendering）和幾何能力（Geometry）是目前GPU最為主要的兩個(gè)發(fā)展方向，這兩個(gè)方向所需要的硬件是不同的。

曲面細(xì)分性能或者說業(yè)界對(duì)曲面細(xì)分的依賴，再次造就出獨(dú)立的Tessellation單元。當(dāng)然雖然它不太符合通用處理單元的發(fā)展方向，但是如果計(jì)算晶體管的投入與性能回報(bào)，特定硬件實(shí)現(xiàn)Tessellation功能是目前最好的選擇。所以黃仁勛先生堅(jiān)持以增添特定硬件IC的方式來提升GPU幾何處理能力。#p#page_title#e#

● AMD意識(shí)到RV870架構(gòu)的不足

AMD下一代GPU代號(hào)為“Southern Island”，中文名為南島。作為ATI即將發(fā)布的顯示芯片，南島有可能將在溫哥華流片。ATI下一代GPU南島系列名字在溫哥華遭泄露。這些名字將由 Whistler-Blackcomb, Robson and Seymour為我們帶來。這些名字自從南島命名出來后就已經(jīng)在暗地流傳。當(dāng)然以上關(guān)于芯片名稱的解說大家只能參考，同時(shí)這也不是我們分析的重點(diǎn)。

“南島”在發(fā)布之前，已經(jīng)透露出了一些非常令人欣喜的特性。其中最為顯著的就是增強(qiáng)了DirectX 11最為重要的曲面細(xì)分（Tessellation）性能。實(shí)際上2009年9月ATI全球首發(fā)了第一款DirectX 11顯卡HD5870之后，其DirectX 11的支持力度和架構(gòu)改進(jìn)幅度一直是行業(yè)內(nèi)關(guān)注的重點(diǎn)。

ATI公布的DirectX 11 Tessellation特性

本次“南島”仍然沒有更新R600以來的US結(jié)構(gòu)，而目前我們所得到的“南島”的DirectX 11性能將在相同規(guī)模流處理器下超越自家HD5000產(chǎn)品，據(jù)此我們推測(cè)“南島”架構(gòu)增強(qiáng)了Tessellation能力。

Tessellation又可譯作拆嵌式細(xì)分曲面技術(shù)。其實(shí)這是ATI早在其第一代DirectX 10圖形核心R600，即HD2900XT上就引入的一個(gè)特殊的計(jì)算模塊。從HD2000系列開始，直到最新的HD5000系列，4代顯卡全部支持這一技術(shù)。

其中HD2000到HD4000系列都是使用了ATI獨(dú)有的硬件模塊來支持這一技術(shù)。從DirectX 11開始，微軟對(duì)這項(xiàng)技術(shù)進(jìn)行了優(yōu)化，使之能與渲染流程完美的結(jié)合在一起，可以更高效率的細(xì)分出更多的多邊形和曲面。

目前AMD頂級(jí)產(chǎn)品RV870架構(gòu)圖

上圖就是AMD目前的頂級(jí)產(chǎn)品HD5870架構(gòu)圖（代號(hào)RV870），這張圖片由ENET網(wǎng)站Cloud編輯繪制。我們可以看到在現(xiàn)在的RV870架構(gòu)中，微軟引入了可編程曲面細(xì)分管線。在最新Shader Model 5.0標(biāo)準(zhǔn)中，增加了Hull Shader、Compute Shader、Domain Shader三種新的Shade，它們的出現(xiàn)都是為了完善曲面細(xì)分管線，分別位于鑲嵌器的前后。#p#page_title#e#

● “南島”架構(gòu)重點(diǎn)加強(qiáng)曲面細(xì)分

我們根據(jù)各方面的情報(bào)綜合考慮，“Southern Island”（“南島”）還是延續(xù)R600架構(gòu)，但是把曲面細(xì)分單元（Tessellator）放在VLIW Core中，這是一次非常難得的改進(jìn)。但同時(shí)這也是南島的極限。因?yàn)橐压潭üδ軉卧獟斓絍LIW Core中，就要有獨(dú)立的總線連接、獨(dú)立的資源、寄存器、端口，也就是說獨(dú)立的線程仲裁分配能力。

在VLIW Core中實(shí)現(xiàn)獨(dú)立仲裁分配能力，是AMD一直希望在GPU中做到的，如果能做到這一點(diǎn)，那AMD或許能夠借此實(shí)現(xiàn)更深級(jí)別的亂序執(zhí)行，這基本上就和NVIDIA站在同一起跑線。同時(shí)如果把曲面細(xì)分單元（Tessellator）放在VLIW Core中，曲面細(xì)分能力將伴隨芯片規(guī)模而變化，高中低端顯卡將擁有各自不同的曲面細(xì)分能力。這和NVIDIA將曲面細(xì)分單元（Tessellator）放在SM中是一個(gè)道理。

AMD下代“南島”架構(gòu)兩種設(shè)計(jì)方向推測(cè)

如果南島無法一次性將曲面細(xì)分單元（Tessellator）放在VLIW Core中，可以選擇另外一種途徑，那就是對(duì)GPU內(nèi)部單元進(jìn)行分頻。正如NVIDIA將CUDA Cores的頻率以兩倍于固定單元頻率運(yùn)行一樣，AMD可以選擇將幾何性能較弱的Setup Engine和Tessellator等單元按一定幅度提升頻率。

或者將GPU的前端超線程發(fā)送器（Ultra Threaded Dispatch Processor）整體頻率提升，這樣曲面細(xì)分單元自然也會(huì)受益，同時(shí)GPU的幾何處理能力會(huì)得到線性增強(qiáng)。

但是也有一種說法認(rèn)為AMD沒有能力在HD6000芯片的VLIW Core級(jí)別中添加更多的essellator單元，因?yàn)榫€程仲裁能力背后的設(shè)計(jì)還很復(fù)雜，比如足夠的掛起空間。仲裁器本身沒多少晶體管，這種資源基本上都是LDS，寄存器也是。所以R800使用了搶占式多線程，但是速度和效率還是得不到保障。

另一種猜想已經(jīng)被我們否定，那就是在現(xiàn)有的前端超線程發(fā)送器（Ultra Threaded Dispatch Processor）中添加一個(gè)曲面細(xì)分單元（Tessellator）。因?yàn)檫@需要兩套獨(dú)立的crossbar，以及在VLIW Core外設(shè)置獨(dú)立的出口，最后還要設(shè)置搶占式多線程分配單元。

所以我們可能看到HD6000系列在流處理器規(guī)模與HD5000系列相同的情況下，在Direct X 10和Direct X 9性能方面落后于HD5000，但是由于幾何能力的提升，在Direct X 11方面，會(huì)有較為出色的表現(xiàn)。這一點(diǎn)和Fermi架構(gòu)的設(shè)計(jì)思路是非常接近的。#p#page_title#e#

● AMD南島架構(gòu)能否改善運(yùn)算效率

Compute Shader技術(shù)是微軟DirectX 11 API新加入的特性，在Compute Shader的幫助下，程序員可直接將GPU作為并行處理器加以利用，GPU將不僅具有3D渲染能力，也具有其他的運(yùn)算能力，也就是我們說的GPGPU的概念和物理加速運(yùn)算。多線程處理技術(shù)使游戲更好地利用系統(tǒng)的多個(gè)核心。

Computer Shader的初衷，就是使用通用計(jì)算的手段來進(jìn)行后處理。由于GPU的浮點(diǎn)運(yùn)算能力非常強(qiáng)大，支持GPU進(jìn)行通用計(jì)算的技術(shù)發(fā)展勢(shì)頭很快，NVIDIA和AMD分別有CUDA和Stream技術(shù)，以前兩家是各自為戰(zhàn)，如今微軟也看到了GPU通用計(jì)算的曙光，在DX11中加入了Compute Shader這一技術(shù)，意在統(tǒng)一當(dāng)前的通用計(jì)算技術(shù)。你可以認(rèn)為Compute Shader標(biāo)準(zhǔn)就是微軟提出的OPEN CL。

關(guān)于A卡和N卡在OPEN CL計(jì)算方面的性能差異，很多媒體進(jìn)行過測(cè)試，但大家實(shí)際上一直在找一個(gè)合適的平臺(tái)，在找一套合適的測(cè)試基準(zhǔn)程序。目前，首款國人開發(fā)的支持GPU的OpenCL通用計(jì)算測(cè)試程序OpenCL General Purpose Computing Benchmark (簡(jiǎn)稱GPC BenchMark OCL)已經(jīng)公開并且升級(jí)到1.1版本。中關(guān)村在線顯卡頻道決定使用這款軟件，對(duì)AMD和NVIDIA的架構(gòu)特性做一些對(duì)比，以測(cè)試它們?cè)谀男┉h(huán)境中能發(fā)揮出更好的理論性能。

GPCBenchMark測(cè)試成績對(duì)比

分析上圖得到的測(cè)試數(shù)據(jù)我們可知，在純吞吐環(huán)境中，AMD延續(xù)了R600架構(gòu)以來的特性，其浮點(diǎn)吞吐量的優(yōu)勢(shì)得以體現(xiàn)。特別是浮點(diǎn)運(yùn)算（單精度）測(cè)試中，HD5870壓制了強(qiáng)大的Fermi架構(gòu)GTX480。在密碼學(xué)測(cè)試中，因?yàn)楹苌贍砍兜接?jì)算層面，GPU只是不斷隨即生成數(shù)據(jù)然后去試探，所以A卡理論吞吐量高的特性再次得到體現(xiàn)。

但是只要涉及到常規(guī)數(shù)學(xué)方法測(cè)試，這種實(shí)際運(yùn)算環(huán)境中將會(huì)包含大量跳轉(zhuǎn)嵌套分支等指令，只有運(yùn)算器組織得當(dāng)?shù)腉PU，才能有效避免理論值的大幅度衰減。A卡因?yàn)槠浼軜?gòu)設(shè)計(jì)原因，大幅度落后于Fermi架構(gòu)。

其中HD5870落后最為明顯的圖像處理，包括亮度直方圖繪制、2維卷積（銳化）、快速非局部均值法降噪、圖片縮放（雙立方濾波）。這項(xiàng)測(cè)試主要考量GPU的全局存儲(chǔ)器和紋理訪問能力，同時(shí)局部存儲(chǔ)器原子操作也占到一定比重，所以架構(gòu)較新的Fermi系列產(chǎn)品表現(xiàn)優(yōu)異。

Computer Shader里同樣有大量的常規(guī)數(shù)學(xué)方法。只要和“常規(guī)數(shù)學(xué)方法”有所接觸，A卡就會(huì)因?yàn)榧軜?gòu)設(shè)計(jì)受到很大影響。其中矩陣，卷積，離散余弦和反余弦等用的相對(duì)比較多。

實(shí)際上超標(biāo)量結(jié)構(gòu)本身并沒什么不好或者說落后，但是要讓超標(biāo)量兼顧吞吐和靈活性，外圍的要求就高了。VLIW Cores必須加入更多資源和仲裁能力，晶體管數(shù)量會(huì)因此提高很多。

Computer Shader在圖形計(jì)算中發(fā)揮重要作用

在上圖中，圖一表示了Compute Shader做圖像后處理（Post Process），圖片是《地鐵2033》的游戲截圖，利用Compute Shader技術(shù)做景深處理可以得到更好的效率。圖二表示利用Compute Shader技術(shù)做IA人工智能。圖三表示CUDA或者未來的Compute Shader結(jié)合OptiX技術(shù)做光線追蹤。圖四表示SPH流體模擬，流體的模擬，是典型的通用計(jì)算應(yīng)用實(shí)例，對(duì)Shader性能要求較高。

Compute Shader可發(fā)揮的地方很多，游戲中可以使用GPU進(jìn)行光線追蹤、A-Buffer采樣抗鋸齒、物理特效、人工智能AI等游戲特效運(yùn)算。在游戲之外，程序員也可以利用CS架構(gòu)進(jìn)行圖像處理、后處理（Post Process）等。

在硬件支持Compute Shader之后，相應(yīng)的硬件必須要比當(dāng)代硬件更加靈活，因?yàn)樵谶\(yùn)行CS代碼的時(shí)候，硬件必須支持隨機(jī)讀寫、不規(guī)則列陣（而不是簡(jiǎn)單的流體或者固定大小的2D列陣）、多重輸出、可根據(jù)程序員的需要直接調(diào)用個(gè)別或多個(gè)線程、32k大小的共享寄存空間和線程組管理系統(tǒng)、粒數(shù)據(jù)指令集、同步建構(gòu)以及可執(zhí)行無序IO運(yùn)算的能力。

實(shí)際上AMD也看清了GPU未來發(fā)展的實(shí)質(zhì)，首先在RV770中加入LDS存儲(chǔ)器，然后在RV870中對(duì)LDS的可操作性的改進(jìn)，以及shared Memory的擴(kuò)展，都是面向通用計(jì)算設(shè)計(jì)的。或者說，是為了Compute Shader而不得不做的事情。

在GPU幫助下躋身世界第二的中國“星云”超級(jí)計(jì)算機(jī)模塊

我們推測(cè)在即將發(fā)布的AMD下一代GPU也就是HD6000系列“Southern Island”（“南島”）架構(gòu)中，幾何計(jì)算能力層面的突破可以依靠增加曲面細(xì)分單元（Tessellator）來實(shí)現(xiàn)，但是Compute Shader計(jì)算效率的提升的重任，將落在未來的架構(gòu)身上。

無論如何，“南島”將走出AMD改革的重要一步，如果能借助自從RV770以來在產(chǎn)品方面的轉(zhuǎn)變，AMD或許能夠用自己的思路來提升GPU的運(yùn)算能力。

屆時(shí)我們將看到GPU越來越通用化，其分支處理能力更加強(qiáng)大，運(yùn)算精度不斷提升。未來的CPU則越來越注重多線程能力，以此鞏固自己在并行計(jì)算領(lǐng)域的優(yōu)勢(shì)，我們將在未來看到兩種不同的芯片向自己所沒有觸及過的領(lǐng)域發(fā)展。

關(guān)閉此頁

上一篇：CST電磁仿真GPU并行計(jì)算工作站配置大全

下一篇：可插8塊GTX480高密度GPU計(jì)算主板曝光

相關(guān)文章

工程技術(shù)(工科)專業(yè)工作站/服務(wù)器硬件配置選型

新聞排行榜

最新信息

應(yīng)用導(dǎo)航:

工作站產(chǎn)品中心京東商城中關(guān)村商城淘寶商城超高分可視化商城便攜工作站商城 ANSYS CATIA Microsoft INTEL NVIDIA 網(wǎng)站統(tǒng)計(jì)