久久99热精品免费观看无卡顿|欧美另类图片亚洲偷|亚洲天天做日日做天天爽,99精品久久久久婷婷,久久精品国产亚洲AV电影,中文字幕久精品免费视频蜜桃视频

全球領(lǐng)先的高端圖形工作站供應(yīng)商

免費測試熱線 : 400-7056-800 【為任何應(yīng)用提供最快計算設(shè)備如不符,退貨】【最新報價】【選購指南】【京東商城】

您的位置：UltraLAB圖形工作站方案網(wǎng)站 > 人工智能 > 深度學(xué)習(xí) > Llama-2 LLM的所有版本和硬件配置要求

Llama-2 LLM的所有版本和硬件配置要求

時間：2023-11-10 00:45:12 來源：UltraLAB圖形工作站方案網(wǎng)站 人氣：32524 作者：管理員

探索模型的所有版本及其文件格式（如 GGML、GPTQ 和 HF），并了解本地推理的硬件要求。
Meta 推出了其 Llama-2 系列語言模型，其版本大小從 7 億到 700 億個參數(shù)不等。這些模型，尤其是以聊天為中心的模型，與其他開源選項相比表現(xiàn)令人印象深刻，甚至在有用性方面與 ChatGPT 等一些閉源模型相媲美。

該架構(gòu)基于優(yōu)化的變壓器設(shè)置，并使用監(jiān)督技術(shù)和人工反饋對模型進行微調(diào)。他們在一個龐大的數(shù)據(jù)集上進行訓(xùn)練，該數(shù)據(jù)集不包括來自 Meta 的任何用戶特定數(shù)據(jù)。

關(guān)于Llama 2
Llama-2 是指一系列預(yù)先訓(xùn)練和微調(diào)的大型語言模型（LLM），其規(guī)模高達 700 億個參數(shù)。

Llama 2 使用來自公開在線資料的更大數(shù)據(jù)集進行了初始訓(xùn)練階段，超過了其前身 LLaMA（1）使用的數(shù)據(jù)集大小。在這個預(yù)訓(xùn)練階段之后，Llama-2 Chat是通過監(jiān)督微調(diào)過程開發(fā)的，在此期間，人類專家為訓(xùn)練過程做出了貢獻。

為了提高模型的性能并產(chǎn)生更自然的響應(yīng)，下一階段涉及從人類反饋中強化學(xué)習(xí) （RLHF）。這種方法涉及一個迭代的細化過程，通過強化學(xué)習(xí)算法和人類反饋的整合來不斷改進模型。

Llama 2 系列包括以下型號尺寸：
7B
13B
70B

Llama 2 LLM 也基于 Google 的 Transformer 架構(gòu)，但與原始 Llama 模型相比進行了一些優(yōu)化。例如，這些包括：

GPT-3 啟發(fā)了 RMSNorm 的預(yù)歸一化，
受 Google PaLM 啟發(fā)的 SwiGLU 激活功能，
多查詢注意力，而不是多頭注意力
受 GPT Neo 啟發(fā)的旋轉(zhuǎn)位置嵌入（RoPE）。
Llama 2 和 Llama 之間的主要區(qū)別是：
更大的上下文長度（4,096 個而不是 2,048 個令牌）
在更大的數(shù)據(jù)集上訓(xùn)練
在兩個較大的 Llama-2 模型中，分組查詢注意力（GQA）而不是多查詢注意力（MQA）。

Llama-2 是開源的嗎？
根據(jù)開源促進會的定義，Llama 2 并不是完全開源的，因為它的許可證施加了與開源標準不一致的限制。該許可證限制了某些用戶和目的的商業(yè)用途，特別提到每月活躍用戶超過 7 億的服務(wù)必須尋求單獨的許可證，可能不包括主要的云提供商。此外，Llama 2 可接受使用政策禁止將模型用于非法或惡意目的，這雖然可以理解，但與不受限制使用的開源原則不同。

什么是Code Llama？
Code Llama 是 Llama-2 語言模型的變體，專為編碼相關(guān)任務(wù)量身定制。它能夠生成和完成代碼，以及檢測各種流行編程語言（如 Python、C++、Java、PHP、JavaScript/TypeScript、C# 和 Bash）中的錯誤。Meta 提供三種不同型號尺寸的 Code Lama：7B、13B 和 34B，以滿足不同級別的復(fù)雜性和性能要求。

硬件要求
Llama-2 模型的性能很大程度上取決于它運行的硬件。有關(guān)順利處理 Llama-2 模型的最佳計算機硬件配置的建議，查看本指南：運行 LLaMA 和 LLama-2 模型的最佳計算機。

以下是 4 位量化的 Llama-2 硬件要求：

對于7B參數(shù)模型

如果 7B Llama-2-13B-German-Assistant-v4-GPTQ 模型是你所追求的，你必須從兩個方面考慮硬件。第一對于 GPTQ 版本，您需要一個至少具有 6GB VRAM 的體面 GPU。GTX 1660 或 2060、AMD 5700 XT 或 RTX 3050 或 3060 都可以很好地工作。但對于 GGML / GGUF 格式，更多的是擁有足夠的 RAM。您需要大約 4 場免費演出才能順利運行。

對于 13B 參數(shù)模型
對于像 Llama-2-13B-German-Assistant-v4-GPTQ 這樣更強大的型號，您需要更強大的硬件。如果您使用的是 GPTQ 版本，則需要一個具有至少 10 GB VRAM 的強大 GPU。AMD 6900 XT、RTX 2060 12GB、RTX 3060 12GB 或 RTX 3080 可以解決問題。對于 CPU 入侵（GGML / GGUF）格式，擁有足夠的 RAM 是關(guān)鍵。您需要您的系統(tǒng)有大約 8 個演出可用來平穩(wěn)運行。

適用于 65B 和 70B 參數(shù)模型
當您升級到 65B 和 70B 型號（）等大型型號時，您需要一些嚴肅的硬件。對于 GPU 推理和 GPTQ 格式，您需要一個具有至少 40GB VRAM 的頂級 GPU。我們說的是 A100 40GB、雙 RTX 3090 或 4090、A40、RTX A6000 或 8000。您還需要 64GB 的系統(tǒng) RAM。對于 GGML / GGUF CPU 推理，為 65B 和 70B 型號提供大約 40GB 的 RAM。

內(nèi)存速度
運行 Llama-2 AI 模型時，您必須注意 RAM 帶寬和 mdodel 大小如何影響推理速度。這些大型語言模型需要完全加載到 RAM 或 VRAM，每次它們生成新令牌（一段文本）時。例如，一個 4 位 13B 十億參數(shù)的 Llama-2 模型占用大約 7.5GB 的 RAM。

因此，如果您的 RAM 帶寬為 50 GBps（DDR4-3200 和 Ryzen 5 5600X），您每秒可以生成大約 6 個令牌。但是對于像每秒 11 個令牌這樣的快速速度，您需要更多帶寬 - DDR5-5600，大約 90 GBps。作為參考，像 Nvidia RTX 3090 這樣的高端 GPU 有大約 930 GBps 的帶寬到他們的 VRAM。最新的 DDR5 RAM 可提供高達 100GB/s 的速度。因此，了解帶寬是有效運行像 Llama-2 這樣的模型的關(guān)鍵。

建議：
為獲得最佳性能：選擇配備高端 GPU（如 NVIDIA 最新的 RTX 3090 或 RTX 4090）或雙 GPU 設(shè)置的機器，以適應(yīng)最大的型號（65B 和 70B）。具有足夠 RAM（最小 16 GB，但最好為 64 GB）的系統(tǒng)將是最佳選擇。
對于預(yù)算限制：如果您受到預(yù)算的限制，請專注于適合系統(tǒng)RAM的Llama-2 GGML / GGUF模型。請記住，雖然您可以將一些權(quán)重卸載到系統(tǒng) RAM，但這樣做會以性能為代價。
請記住，這些是建議，實際性能將取決于幾個因素，包括特定任務(wù)、模型實現(xiàn)和其他系統(tǒng)流程。

CPU 要求
為獲得最佳性能，建議使用現(xiàn)代多核 CPU。第 7 代以上的 Intel Core i8 或第 5 代以上的 AMD Ryzen 3 將運行良好。具有 6 核或 8 核的 CPU 是理想的選擇。更高的時鐘速度也改善了即時處理，因此請以 3.6GHz 或更高為目標。

擁有 AVX、AVX2、AVX-512 等 CPU 指令集可以進一步提高性能（如果可用）。關(guān)鍵是要有一個相當現(xiàn)代的消費級CPU，具有不錯的內(nèi)核數(shù)量和時鐘。以及通過 AVX2 進行的基線向量處理（使用 llama.cpp 進行 CPU 推理所必需）。有了這些規(guī)格，CPU 應(yīng)該可以處理 Llama-2 模型大小。

信息來源： https://www.hardware-corner.net/llm-database/Llama-2/#:~:text=When%20you%20step%20up%20to%20the%20big%20models,8000.%20You%27ll%20also%20need%2064GB%20of%20system%20RAM

人工智能訓(xùn)練與推理工作站、服務(wù)器、集群硬件配置推薦

https://xasun.com/article/110/2508.html

上述所有配置，代表最新硬件架構(gòu)，同時保證是最完美，最快，如有不符，可直接退貨

欲咨詢機器處理速度如何、技術(shù)咨詢、索取詳細技術(shù)方案，提供遠程測試，請聯(lián)系

UltraLAB圖形工作站供貨商：
西安坤隆計算機科技有限公司
國內(nèi)知名高端定制圖形工作站廠家
業(yè)務(wù)電話：400-705-6800

咨詢微信號：

關(guān)閉此頁

上一篇：解鎖最大推理能力：深入研究80GB A100 GPU 上的Llama2–70B

下一篇：機器夜間識別 HADAR技術(shù)的研究利器—高速計算設(shè)備配置推薦

相關(guān)文章

工程技術(shù)(工科)專業(yè)工作站/服務(wù)器硬件配置選型

新聞排行榜

最新信息

應(yīng)用導(dǎo)航:

工作站產(chǎn)品中心京東商城中關(guān)村商城淘寶商城超高分可視化商城便攜工作站商城 ANSYS CATIA Microsoft INTEL NVIDIA 網(wǎng)站統(tǒng)計