全面開放:NVIDIA加速Meta Llama 3的推理
Meta 最新的開放式大型語言模型采用 NVIDIA 技術構建,經(jīng)過優(yōu)化,可在從云和數(shù)據(jù)中心到邊緣和 PC 的 NVIDIA GPU 上運行。
NVIDIA 今天宣布對其所有平臺進行優(yōu)化,以加速最新一代大型語言模型 (LLM) Meta Llama 3。
開放模式與 NVIDIA 加速計算相結合,使開發(fā)人員、研究人員和企業(yè)能夠在各種應用程序中負責任地進行創(chuàng)新。
Meta 工程師在包含 24,576 個 NVIDIA H100 Tensor Core GPU 的計算機集群上訓練了 Llama 3,這些 GPU 與 RoCE 和 NVIDIA Quantum-2 InfiniBand 網(wǎng)絡相連。
為了進一步推進生成式 AI 的最新技術,Meta 最近描述了將其基礎設施擴展到 350,000 個 H100 GPU 的計劃。
在 NVIDIA GPU 上加速的 Llama 3 版本現(xiàn)已可用于云、數(shù)據(jù)中心、邊緣和 PC。
在瀏覽器上,開發(fā)人員可以 ai.nvidia.com 試用 Llama 3。它被打包為 NVIDIA NIM 微服務,具有可以部署在任何地方的標準應用程序編程接口。
企業(yè)可以使用 NVIDIA NeMo 對其數(shù)據(jù)進行微調(diào) Llama 3,這是一個面向 LLM 的開源框架,是安全、受支持的 NVIDIA AI Enterprise 平臺的一部分。自定義模型可以針對 NVIDIA TensorRT-LLM 的推理進行優(yōu)化,并使用 NVIDIA Triton 推理服務器進行部署。
Llama 3 還在 NVIDIA Jetson Orin 上運行,用于機器人和邊緣計算設備,創(chuàng)建類似于 Jetson AI Lab 中的交互式代理。
此外,適用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 可加快 Llama 3 的推理速度。這些系統(tǒng)為開發(fā)人員提供了全球超過 1 億個 NVIDIA 加速系統(tǒng)的目標。
為聊天機器人部署 LLM 的最佳實踐涉及低延遲、良好的讀取速度和最佳 GPU 使用之間的平衡,以降低成本。
這樣的服務需要以大約兩倍于用戶的讀取速度(大約每秒 10 個令牌)來交付令牌(大致相當于 LLM 的單詞)。
應用這些指標,在使用具有 700 億個參數(shù)的 Llama 3 版本的初始測試中,單個 NVIDIA H200 Tensor Core GPU 每秒生成約 3,000 個令牌,足以同時為大約 300 個用戶提供服務。
這意味著具有 8 個 H200 GPU 的單個 NVIDIA HGX 服務器可以提供 24,000 個代幣/秒,通過同時支持 2,400 多個用戶來進一步優(yōu)化成本。
對于邊緣設備,具有 80 億個參數(shù)的 Llama 3 版本在 Jetson AGX Orin 上生成了高達 40 個令牌/秒,在 Jetson Orin Nano 上生成了 15 個令牌/秒。
作為活躍的開源貢獻者,NVIDIA 致力于優(yōu)化社區(qū)軟件,幫助用戶應對最棘手的挑戰(zhàn)。開源模型還提高了 AI 的透明度,并允許用戶廣泛分享 AI 安全性和彈性方面的工作。
詳細了解 NVIDIA 的 AI 推理平臺,包括 NIM、TensorRT-LLM 和 Triton 如何使用最先進的技術(如低秩自適應)來加速最新的 LLM
接受過 NVIDIA AI 培訓
讓 Llama 3 投入使用
將 Llama 3 帶到設備和 PC
使用 Llama 3 獲得最佳性能
推進社區(qū)模式
上述所有配置,代表最新硬件架構,同時保證是最完美,最快,如有不符,可直接退貨
欲咨詢機器處理速度如何、技術咨詢、索取詳細技術方案,提供遠程測試,請聯(lián)系
UltraLAB圖形工作站供貨商:
咨詢微信號:
2024年人工智能訓練與推理工作站、服務器、集群硬件配置推薦
https://xasun.com/article/110/2508.html
西安坤隆計算機科技有限公司
國內(nèi)知名高端定制圖形工作站廠家
業(yè)務電話:400-705-6800