Llama-2 LLM的所有版本和硬件配置要求
探索模型的所有版本及其文件格式(如 GGML、GPTQ 和 HF),并了解本地推理的硬件要求。
Meta 推出了其 Llama-2 系列語言模型,其版本大小從 7 億到 700 億個參數(shù)不等。這些模型,尤其是以聊天為中心的模型,與其他開源選項相比表現(xiàn)令人印象深刻,甚至在有用性方面與 ChatGPT 等一些閉源模型相媲美。
該架構(gòu)基于優(yōu)化的變壓器設(shè)置,并使用監(jiān)督技術(shù)和人工反饋對模型進行微調(diào)。他們在一個龐大的數(shù)據(jù)集上進行訓(xùn)練,該數(shù)據(jù)集不包括來自 Meta 的任何用戶特定數(shù)據(jù)。
關(guān)于Llama 2
Llama-2 是指一系列預(yù)先訓(xùn)練和微調(diào)的大型語言模型 (LLM),其規(guī)模高達 700 億個參數(shù)。
Llama 2 使用來自公開在線資料的更大數(shù)據(jù)集進行了初始訓(xùn)練階段,超過了其前身 LLaMA(1) 使用的數(shù)據(jù)集大小。在這個預(yù)訓(xùn)練階段之后,Llama-2 Chat是通過監(jiān)督微調(diào)過程開發(fā)的,在此期間,人類專家為訓(xùn)練過程做出了貢獻。
為了提高模型的性能并產(chǎn)生更自然的響應(yīng),下一階段涉及從人類反饋中強化學(xué)習(xí) (RLHF)。這種方法涉及一個迭代的細化過程,通過強化學(xué)習(xí)算法和人類反饋的整合來不斷改進模型。
Llama 2 系列包括以下型號尺寸:
7B
13B
70B
Llama 2 LLM 也基于 Google 的 Transformer 架構(gòu),但與原始 Llama 模型相比進行了一些優(yōu)化。例如,這些包括:
GPT-3 啟發(fā)了 RMSNorm 的預(yù)歸一化,
受 Google PaLM 啟發(fā)的 SwiGLU 激活功能,
多查詢注意力,而不是多頭注意力
受 GPT Neo 啟發(fā)的旋轉(zhuǎn)位置嵌入 (RoPE)。
Llama 2 和 Llama 之間的主要區(qū)別是:
更大的上下文長度(4,096 個而不是 2,048 個令牌)
在更大的數(shù)據(jù)集上訓(xùn)練
在兩個較大的 Llama-2 模型中,分組查詢注意力 (GQA) 而不是多查詢注意力 (MQA)。
Llama-2 是開源的嗎?
根據(jù)開源促進會的定義,Llama 2 并不是完全開源的,因為它的許可證施加了與開源標準不一致的限制。該許可證限制了某些用戶和目的的商業(yè)用途,特別提到每月活躍用戶超過 7 億的服務(wù)必須尋求單獨的許可證,可能不包括主要的云提供商。此外,Llama 2 可接受使用政策禁止將模型用于非法或惡意目的,這雖然可以理解,但與不受限制使用的開源原則不同。
什么是Code Llama?
Code Llama 是 Llama-2 語言模型的變體,專為編碼相關(guān)任務(wù)量身定制。它能夠生成和完成代碼,以及檢測各種流行編程語言(如 Python、C++、Java、PHP、JavaScript/TypeScript、C# 和 Bash)中的錯誤。Meta 提供三種不同型號尺寸的 Code Lama:7B、13B 和 34B,以滿足不同級別的復(fù)雜性和性能要求。
硬件要求
Llama-2 模型的性能很大程度上取決于它運行的硬件。 有關(guān)順利處理 Llama-2 模型的最佳計算機硬件配置的建議, 查看本指南:運行 LLaMA 和 LLama-2 模型的最佳計算機。
以下是 4 位量化的 Llama-2 硬件要求:
對于7B參數(shù)模型
如果 7B Llama-2-13B-German-Assistant-v4-GPTQ 模型是你所追求的,你必須從兩個方面考慮硬件。第一 對于 GPTQ 版本,您需要一個至少具有 6GB VRAM 的體面 GPU。GTX 1660 或 2060、AMD 5700 XT 或 RTX 3050 或 3060 都可以很好地工作。 但對于 GGML / GGUF 格式,更多的是擁有足夠的 RAM。您需要大約 4 場免費演出才能順利運行。
對于 13B 參數(shù)模型
對于像 Llama-2-13B-German-Assistant-v4-GPTQ 這樣更強大的型號,您需要更強大的硬件。 如果您使用的是 GPTQ 版本,則需要一個具有至少 10 GB VRAM 的強大 GPU。AMD 6900 XT、RTX 2060 12GB、RTX 3060 12GB 或 RTX 3080 可以解決問題。 對于 CPU 入侵 (GGML / GGUF) 格式,擁有足夠的 RAM 是關(guān)鍵。您需要您的系統(tǒng)有大約 8 個演出可用來平穩(wěn)運行。
適用于 65B 和 70B 參數(shù)模型
當您升級到 65B 和 70B 型號()等大型型號時,您需要一些嚴肅的硬件。 對于 GPU 推理和 GPTQ 格式,您需要一個具有至少 40GB VRAM 的頂級 GPU。我們說的是 A100 40GB、雙 RTX 3090 或 4090、A40、RTX A6000 或 8000。您還需要 64GB 的系統(tǒng) RAM。 對于 GGML / GGUF CPU 推理,為 65B 和 70B 型號提供大約 40GB 的 RAM。
內(nèi)存速度
運行 Llama-2 AI 模型時,您必須注意 RAM 帶寬和 mdodel 大小如何影響推理速度。這些大型語言模型需要完全加載到 RAM 或 VRAM,每次它們生成新令牌(一段文本)時。例如,一個 4 位 13B 十億參數(shù)的 Llama-2 模型占用大約 7.5GB 的 RAM。
因此,如果您的 RAM 帶寬為 50 GBps(DDR4-3200 和 Ryzen 5 5600X),您每秒可以生成大約 6 個令牌。 但是對于像每秒 11 個令牌這樣的快速速度,您需要更多帶寬 - DDR5-5600,大約 90 GBps。作為參考,像 Nvidia RTX 3090 這樣的高端 GPU 有大約 930 GBps 的 帶寬到他們的 VRAM。最新的 DDR5 RAM 可提供高達 100GB/s 的速度。因此,了解帶寬是有效運行像 Llama-2 這樣的模型的關(guān)鍵。
建議:
為獲得最佳性能:選擇配備高端 GPU(如 NVIDIA 最新的 RTX 3090 或 RTX 4090)或雙 GPU 設(shè)置的機器,以適應(yīng)最大的型號(65B 和 70B)。具有足夠 RAM(最小 16 GB,但最好為 64 GB)的系統(tǒng)將是最佳選擇。
對于預(yù)算限制:如果您受到預(yù)算的限制,請專注于適合系統(tǒng)RAM的Llama-2 GGML / GGUF模型。請記住,雖然您可以將一些權(quán)重卸載到系統(tǒng) RAM,但這樣做會以性能為代價。
請記住,這些是建議,實際性能將取決于幾個因素,包括特定任務(wù)、模型實現(xiàn)和其他系統(tǒng)流程。
CPU 要求
為獲得最佳性能,建議使用現(xiàn)代多核 CPU。第 7 代以上的 Intel Core i8 或第 5 代以上的 AMD Ryzen 3 將運行良好。 具有 6 核或 8 核的 CPU 是理想的選擇。更高的時鐘速度也改善了即時處理,因此請以 3.6GHz 或更高為目標。
擁有 AVX、AVX2、AVX-512 等 CPU 指令集可以進一步提高性能(如果可用)。關(guān)鍵是要有一個相當現(xiàn)代的消費級CPU,具有不錯的內(nèi)核數(shù)量和時鐘。 以及通過 AVX2 進行的基線向量處理(使用 llama.cpp 進行 CPU 推理所必需)。有了這些規(guī)格,CPU 應(yīng)該可以處理 Llama-2 模型大小。
人工智能訓(xùn)練與推理工作站、服務(wù)器、集群硬件配置推薦
上述所有配置,代表最新硬件架構(gòu),同時保證是最完美,最快,如有不符,可直接退貨
欲咨詢機器處理速度如何、技術(shù)咨詢、索取詳細技術(shù)方案,提供遠程測試,請聯(lián)系
UltraLAB圖形工作站供貨商:
西安坤隆計算機科技有限公司
國內(nèi)知名高端定制圖形工作站廠家
業(yè)務(wù)電話:400-705-6800
咨詢微信號: