CPU2.0時代來了?Flow PPU可使任何CPU性能提升100倍
近日芬蘭著名的 VTT 技術(shù)研究中心旗下的一家科技初創(chuàng)公司Flow Computing宣布一則爆炸性的聲明稱,其推出的并行處理單元 (PPU)可以“使任何 CPU 架構(gòu)的性能提高 100 倍”!
據(jù)介紹,F(xiàn)low的FPU能夠集成到任何當(dāng)前已有或即將推出的CPU設(shè)計架構(gòu)、指令集或工藝幾何結(jié)構(gòu)中,可提供革命性的 100 倍加速,可立即用于基于馮·諾依曼的標(biāo)準(zhǔn)計算機設(shè)計,以實現(xiàn)“CPU 2.0”級別的吞吐量。PPU還消除了在高性能應(yīng)用程序中對 CPU 指令使用昂貴的 GPU 進(jìn)行加速的需要。
Flow稱,片上集成的 PPU 內(nèi)核越多,獲得的性能提升就越高。同時,SoC當(dāng)中的其他計算單元也將受益于PPU的性能的提升,以及PPU對CPU性能的提升。
此外,通過Flow提供的編譯器對 PPU 進(jìn)行重新編譯,PPU 與該 CPU 架構(gòu)的每個現(xiàn)有軟件應(yīng)用程序可完全向后兼容,可以大大加速所有現(xiàn)有軟件和應(yīng)用程序中的現(xiàn)有并行功能,而無需更改任何軟件。
從應(yīng)用來看,F(xiàn)low的突破性架構(gòu)將可增強嵌入式系統(tǒng)和數(shù)據(jù)中心的性能,適用于邊緣和云計算、AI 云、跨 5G/6G 的多媒體編解碼器、自動駕駛汽車系統(tǒng)、軍用級計算等用途。
目前,F(xiàn)low 已經(jīng)在與來自世界各地的主要半導(dǎo)體供應(yīng)商進(jìn)行初步討論,以尋求下一代 CPU 性能的“圣杯”。更多技術(shù)細(xì)節(jié)將在 2024 年下半年公開分享。
Flow Computing聯(lián)合創(chuàng)始人兼首席執(zhí)行官Timo Valtonen表示:“在過去的幾十年里,CPU性能只有漸進(jìn)式的改進(jìn),這導(dǎo)致了CPU實際上已成為計算中最薄弱的環(huán)節(jié),因為它的順序架構(gòu)并不理想。為了滿足對更多計算性能的不斷增長的需求,CPU性能的新時代已成為必要條件,這在很大程度上是由人工智能以及邊緣和云計算的需求推動的。Flow 打算通過其全新的并行性能單元 (PPU) 架構(gòu)引領(lǐng) SuperCPU 革命,使任何 CPU 的性能提升 100 倍,無論架構(gòu)如何,并具有完全的向后軟件兼容性?!?
Butterfly Ventures的合伙人兼聯(lián)合創(chuàng)始人Juho Risku也表示:“由于CPU改進(jìn)速度在過去十年中放緩,科技行業(yè)的每個行業(yè)都繼續(xù)受到影響。Flow 是這一趨勢的第一個重大變革者,它提供了數(shù)倍的性能,而不是幾個百分點。而且在我們看來,F(xiàn)low 將對計算市場的基線性能產(chǎn)生比量子計算等更廣泛的影響。盡管很多公司在人工智能方面投入了大量資金,但通用計算將主導(dǎo)其成本并限制其能力。Flow Computing正在通過使下一代SuperCPU輕松超越當(dāng)前的行業(yè)領(lǐng)導(dǎo)者,如Apple M系列,Nvidia Grace,Google Axion和Microsoft Azure Cobalt 100來解決這個問題,“
據(jù)悉,F(xiàn)low公司剛剛獲得了 400 萬歐元的種子輪融資。參與種子輪融資的實體包括Butterfly Ventures(領(lǐng)投)、FOV Ventures、Sarsia、Stephen Industries、Superhero Capital和芬蘭商務(wù)促進(jìn)局。
一、什么是并行處理單元?
據(jù)Flow公司官網(wǎng)介紹,并行處理單元 (PPU) 是一個 IP 模塊,可以與同一芯片上的 CPU 緊密集成。它被設(shè)計為高度可配置,以滿足眾多用例的特定要求。
支持的自定義選項包括:
-
PPU 中的內(nèi)核數(shù)(4、16、64、256 等)
-
功能單元的數(shù)量和類型(如 ALU、PPU、MU、GU、NU)
-
片上存儲器資源(緩存、緩沖區(qū)、暫存器)的大小
-
對指令集進(jìn)行了修改,以補充 CPU 的指令集擴(kuò)展
對 CPU 的修改很少,包括將 PPU 接口集成到指令集中,并可更新 CPU 內(nèi)核的數(shù)量,以利用新的性能水平。
Flow的參數(shù)化設(shè)計允許廣泛的定制,包括 PPU 內(nèi)核的數(shù)量、功能單元的種類和數(shù)量以及片上存儲器資源的大小。性能會隨著 PPU 內(nèi)核數(shù)量的增加而增加。4 核的 PPU 非常適合智能手表等小型設(shè)備,16 核 PPU 非常適合智能手機,而 64 核 PPU 可為 PC 提供出色的性能;256 核 PPU 最適合 AI、云和邊緣計算服務(wù)器等高需求環(huán)境,使它們能夠輕松處理最苛刻的計算任務(wù)。
二、擁有三大核心優(yōu)勢
據(jù)介紹,F(xiàn)low的并行處理單元 (PPU)具有三大核心優(yōu)勢:
1、Flow 創(chuàng)新的并行處理單元 (PPU) 將 CPU 性能提升 100 倍,開創(chuàng)了 SuperCPU 時代。
創(chuàng)新的并行處理單元 (PPU)專為完全向后兼容而設(shè)計,可在重新編譯后增強現(xiàn)有軟件和應(yīng)用程序。功能越并行,性能提升就越大。
同時,F(xiàn)low的技術(shù)還增強了整個計算生態(tài)系統(tǒng)。比如,輔助組件(矩陣單元、矢量單元、NPU 和 GPU)也可通過增強的 CPU 功能獲得了增強的性能。這一切都要歸功于 PPU。
2、傳統(tǒng)軟件和應(yīng)用程序速度提高 2 倍
Flow 的 PPU 不僅可以在不改變原始應(yīng)用程序的情況下增強遺留代碼,而且在與重新編譯的操作系統(tǒng)或編程系統(tǒng)庫配對時也能提高性能。
因此,PPU可以幫助各種應(yīng)用程序中大幅提高速度,特別是那些顯示并行性但受到傳統(tǒng)基于線程的處理限制的應(yīng)用程序。PPU 釋放了這些應(yīng)用的全部潛力,而在以前的架構(gòu)終無法實現(xiàn)這樣的性能顯著提升。
3、參數(shù)化設(shè)計
可配置的參數(shù)化設(shè)計使PPU能夠適應(yīng)多種用途。一切都可以定制,以滿足多個用例的特定要求。PPU 內(nèi)核數(shù)支持4核、16核、64核、256核或更多功能單元(如 ALU、PPU、MU、GU 和 NU)的類型和數(shù)量。甚至片上存儲器資源(緩存、緩沖區(qū)和暫存器)的大小也可以根據(jù)特定要求進(jìn)行定制。性能的可擴(kuò)展性與 PPU 內(nèi)核的數(shù)量直接相關(guān)。
三、100倍的CPU性能提升是如何實現(xiàn)的?
那么,F(xiàn)low公司是如何通過其PPU來實現(xiàn)對于CPU性能100倍提升的呢?據(jù)介紹,F(xiàn)low解決了 CPU 面臨的延遲、同步和虛擬級并行性方面的挑戰(zhàn),在這些技術(shù)中的創(chuàng)新和關(guān)鍵專利被實施到 PPU 中,它們將共同推動CPU實現(xiàn) 100 倍的性能提升。
1、延遲隱藏
當(dāng)前馮·諾依曼架構(gòu)的多核 CPU面臨內(nèi)存訪問延遲問題,尤其是共享訪問,對多核 CPU 來說是一個巨大的挑戰(zhàn)。頻繁的內(nèi)存存取會減慢執(zhí)行速度,核心間通信網(wǎng)絡(luò)會導(dǎo)致額外的延遲。傳統(tǒng)的緩存層次結(jié)構(gòu)會導(dǎo)致一致性和可伸縮性問題。
Flow公司的PPU則是將內(nèi)存引用的延遲,通過在訪問內(nèi)存時執(zhí)行其他線程來進(jìn)行隱藏。這沒有一致性問題,因為沒有緩存放置在網(wǎng)絡(luò)的前面??蓴U(kuò)展性通過高帶寬片上網(wǎng)絡(luò)提供。
2、同步
當(dāng)前多核 CPU使用并行性會帶來額外的挑戰(zhàn)。由于 CPU 處理器內(nèi)核固有的異步性,每當(dāng)存在線程間依賴關(guān)系時,就需要同步線程。這些同步代價很大,通常需要 100 到 1000 個時鐘周期。
相比之下, PPU每個步驟只需要同步一次,因為線程在一個步驟中彼此獨立,將開銷成本降低到 1。同步與執(zhí)行重疊,將開銷成本降低到 1/100。
3、虛擬ILP/LLP
當(dāng)前多核 CPU對低級并行性的次優(yōu)處理。只有當(dāng)指令是獨立的時,才能在多個功能單元中執(zhí)行多個指令。管道危險會減慢指令執(zhí)行速度。
相比之下,PPU功能單元被組織為一個鏈,其中單元可以使用其前身的結(jié)果作為操作數(shù)??梢栽趫?zhí)行的一個步驟內(nèi)執(zhí)行依賴代碼,消除管道危險。
Flow技術(shù)完全向后兼容所有現(xiàn)有的傳統(tǒng)軟件和應(yīng)用程序。PPU 的編譯器會自動識別代碼的并行部分,并在 PPU 內(nèi)核中執(zhí)行這些部分。
此外,F(xiàn)low 正在開發(fā)一種 AI 工具,以幫助應(yīng)用程序和軟件開發(fā)人員識別代碼的并行部分,并提出簡化這些部分以實現(xiàn)最大性能的方法。
小結(jié):
雖然Flow表示其PPU能夠為任何當(dāng)前的馮·諾依曼架構(gòu)的CPU帶來最高100倍的性能提升,但是并未給出明確的指標(biāo)數(shù)據(jù)來進(jìn)行解釋,只是說明了會從延遲、同步和虛擬ILP/LLP等方面進(jìn)行入手來進(jìn)行改進(jìn)。并且正如其官網(wǎng)所介紹的,PPU還擁有4到256核的配置,需要配備多少核PPU才能帶來100倍性能提升,F(xiàn)low并未解釋。另外,軟件的重新編譯也是實現(xiàn) 100 倍性能改進(jìn)的必要條件。該公司表示,軟件的重新編譯可以使得現(xiàn)有代碼的運行速度將提高 2 倍。
另外,PPU是并行處理單元,而GPU的優(yōu)勢也是在于并行計算。Flow甚至還表示,PPU消除了在高性能應(yīng)用程序中對 CPU 指令使用昂貴的 GPU 進(jìn)行加速的需要。那么是否意味著,CPU+PPU的組合在某種程度上可以實現(xiàn)超越GPU的AI加速能力?
Flow還在一份常見問題解答文檔中解釋了其 PPU 與現(xiàn)代 GPU 之間的主要區(qū)別?!癙PU 針對并行處理進(jìn)行了優(yōu)化,而 GPU 針對圖形處理進(jìn)行了優(yōu)化?!边@家初創(chuàng)公司對比稱:“PPU 與 CPU 的集成度更高,你可以將其視為一種協(xié)處理器,而 GPU 是一個獨立計算單元,與 CPU 的連接更為松散?!彼€強調(diào)了 PPU 不需要單獨內(nèi)核及其可變并行寬度的重要性。
Flow表示,它將在今年下半年提供有關(guān)PPU的更多技術(shù)細(xì)節(jié)。至于Flow PPU的商業(yè)化進(jìn)展,它提到了與 AMD、Apple、Arm、Intel、Nvidia、Qualcomm 和 Tenstorrent 等公司合作的可能性。Flow 的 PR 強調(diào)了其對 IP 許可模式的偏好,類似于Arm的授權(quán)模式,客戶需要付費獲取其PPU IP,以便嵌入到其CPU設(shè)計當(dāng)中。
信息來源:https://www.msn.cn/zh-cn/news/other/cpu-2-0%E6%97%B6%E4%BB%A3%E6%9D%A5%E4%BA%86-flow-ppu%E5%8F%AF%E4%BD%BF%E4%BB%BB%E4%BD%95cpu%E6%80%A7%E8%83%BD%E6%8F%90%E5%8D%87100%E5%80%8D/ar-BB1o8cAN?ocid=msedgdhp&pc=CNNDDB&cvid=666f99da613940cd9e3b8d022d3fb6b5&ei=9