Llama-2 LLM的所有版本和硬件配置要求
探索模型的所有版本及其文件格式(如 GGML、GPTQ 和 HF),并了解本地推理的硬件要求。
Meta 推出了其 Llama-2 系列語(yǔ)言模型,其版本大小從 7 億到 700 億個(gè)參數(shù)不等。這些模型,尤其是以聊天為中心的模型,與其他開(kāi)源選項(xiàng)相比表現(xiàn)令人印象深刻,甚至在有用性方面與 ChatGPT 等一些閉源模型相媲美。
該架構(gòu)基于優(yōu)化的變壓器設(shè)置,并使用監(jiān)督技術(shù)和人工反饋對(duì)模型進(jìn)行微調(diào)。他們?cè)谝粋€(gè)龐大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,該數(shù)據(jù)集不包括來(lái)自 Meta 的任何用戶特定數(shù)據(jù)。
關(guān)于Llama 2
Llama-2 是指一系列預(yù)先訓(xùn)練和微調(diào)的大型語(yǔ)言模型 (LLM),其規(guī)模高達(dá) 700 億個(gè)參數(shù)。
Llama 2 使用來(lái)自公開(kāi)在線資料的更大數(shù)據(jù)集進(jìn)行了初始訓(xùn)練階段,超過(guò)了其前身 LLaMA(1) 使用的數(shù)據(jù)集大小。在這個(gè)預(yù)訓(xùn)練階段之后,Llama-2 Chat是通過(guò)監(jiān)督微調(diào)過(guò)程開(kāi)發(fā)的,在此期間,人類專家為訓(xùn)練過(guò)程做出了貢獻(xiàn)。
為了提高模型的性能并產(chǎn)生更自然的響應(yīng),下一階段涉及從人類反饋中強(qiáng)化學(xué)習(xí) (RLHF)。這種方法涉及一個(gè)迭代的細(xì)化過(guò)程,通過(guò)強(qiáng)化學(xué)習(xí)算法和人類反饋的整合來(lái)不斷改進(jìn)模型。
Llama 2 系列包括以下型號(hào)尺寸:
7B
13B
70B
Llama 2 LLM 也基于 Google 的 Transformer 架構(gòu),但與原始 Llama 模型相比進(jìn)行了一些優(yōu)化。例如,這些包括:
GPT-3 啟發(fā)了 RMSNorm 的預(yù)歸一化,
受 Google PaLM 啟發(fā)的 SwiGLU 激活功能,
多查詢注意力,而不是多頭注意力
受 GPT Neo 啟發(fā)的旋轉(zhuǎn)位置嵌入 (RoPE)。
Llama 2 和 Llama 之間的主要區(qū)別是:
更大的上下文長(zhǎng)度(4,096 個(gè)而不是 2,048 個(gè)令牌)
在更大的數(shù)據(jù)集上訓(xùn)練
在兩個(gè)較大的 Llama-2 模型中,分組查詢注意力 (GQA) 而不是多查詢注意力 (MQA)。
Llama-2 是開(kāi)源的嗎?
根據(jù)開(kāi)源促進(jìn)會(huì)的定義,Llama 2 并不是完全開(kāi)源的,因?yàn)樗脑S可證施加了與開(kāi)源標(biāo)準(zhǔn)不一致的限制。該許可證限制了某些用戶和目的的商業(yè)用途,特別提到每月活躍用戶超過(guò) 7 億的服務(wù)必須尋求單獨(dú)的許可證,可能不包括主要的云提供商。此外,Llama 2 可接受使用政策禁止將模型用于非法或惡意目的,這雖然可以理解,但與不受限制使用的開(kāi)源原則不同。
什么是Code Llama?
Code Llama 是 Llama-2 語(yǔ)言模型的變體,專為編碼相關(guān)任務(wù)量身定制。它能夠生成和完成代碼,以及檢測(cè)各種流行編程語(yǔ)言(如 Python、C++、Java、PHP、JavaScript/TypeScript、C# 和 Bash)中的錯(cuò)誤。Meta 提供三種不同型號(hào)尺寸的 Code Lama:7B、13B 和 34B,以滿足不同級(jí)別的復(fù)雜性和性能要求。
硬件要求
Llama-2 模型的性能很大程度上取決于它運(yùn)行的硬件。 有關(guān)順利處理 Llama-2 模型的最佳計(jì)算機(jī)硬件配置的建議, 查看本指南:運(yùn)行 LLaMA 和 LLama-2 模型的最佳計(jì)算機(jī)。
以下是 4 位量化的 Llama-2 硬件要求:
對(duì)于7B參數(shù)模型
如果 7B Llama-2-13B-German-Assistant-v4-GPTQ 模型是你所追求的,你必須從兩個(gè)方面考慮硬件。第一 對(duì)于 GPTQ 版本,您需要一個(gè)至少具有 6GB VRAM 的體面 GPU。GTX 1660 或 2060、AMD 5700 XT 或 RTX 3050 或 3060 都可以很好地工作。 但對(duì)于 GGML / GGUF 格式,更多的是擁有足夠的 RAM。您需要大約 4 場(chǎng)免費(fèi)演出才能順利運(yùn)行。
對(duì)于 13B 參數(shù)模型
對(duì)于像 Llama-2-13B-German-Assistant-v4-GPTQ 這樣更強(qiáng)大的型號(hào),您需要更強(qiáng)大的硬件。 如果您使用的是 GPTQ 版本,則需要一個(gè)具有至少 10 GB VRAM 的強(qiáng)大 GPU。AMD 6900 XT、RTX 2060 12GB、RTX 3060 12GB 或 RTX 3080 可以解決問(wèn)題。 對(duì)于 CPU 入侵 (GGML / GGUF) 格式,擁有足夠的 RAM 是關(guān)鍵。您需要您的系統(tǒng)有大約 8 個(gè)演出可用來(lái)平穩(wěn)運(yùn)行。
適用于 65B 和 70B 參數(shù)模型
當(dāng)您升級(jí)到 65B 和 70B 型號(hào)()等大型型號(hào)時(shí),您需要一些嚴(yán)肅的硬件。 對(duì)于 GPU 推理和 GPTQ 格式,您需要一個(gè)具有至少 40GB VRAM 的頂級(jí) GPU。我們說(shuō)的是 A100 40GB、雙 RTX 3090 或 4090、A40、RTX A6000 或 8000。您還需要 64GB 的系統(tǒng) RAM。 對(duì)于 GGML / GGUF CPU 推理,為 65B 和 70B 型號(hào)提供大約 40GB 的 RAM。
內(nèi)存速度
運(yùn)行 Llama-2 AI 模型時(shí),您必須注意 RAM 帶寬和 mdodel 大小如何影響推理速度。這些大型語(yǔ)言模型需要完全加載到 RAM 或 VRAM,每次它們生成新令牌(一段文本)時(shí)。例如,一個(gè) 4 位 13B 十億參數(shù)的 Llama-2 模型占用大約 7.5GB 的 RAM。
因此,如果您的 RAM 帶寬為 50 GBps(DDR4-3200 和 Ryzen 5 5600X),您每秒可以生成大約 6 個(gè)令牌。 但是對(duì)于像每秒 11 個(gè)令牌這樣的快速速度,您需要更多帶寬 - DDR5-5600,大約 90 GBps。作為參考,像 Nvidia RTX 3090 這樣的高端 GPU 有大約 930 GBps 的 帶寬到他們的 VRAM。最新的 DDR5 RAM 可提供高達(dá) 100GB/s 的速度。因此,了解帶寬是有效運(yùn)行像 Llama-2 這樣的模型的關(guān)鍵。
建議:
為獲得最佳性能:選擇配備高端 GPU(如 NVIDIA 最新的 RTX 3090 或 RTX 4090)或雙 GPU 設(shè)置的機(jī)器,以適應(yīng)最大的型號(hào)(65B 和 70B)。具有足夠 RAM(最小 16 GB,但最好為 64 GB)的系統(tǒng)將是最佳選擇。
對(duì)于預(yù)算限制:如果您受到預(yù)算的限制,請(qǐng)專注于適合系統(tǒng)RAM的Llama-2 GGML / GGUF模型。請(qǐng)記住,雖然您可以將一些權(quán)重卸載到系統(tǒng) RAM,但這樣做會(huì)以性能為代價(jià)。
請(qǐng)記住,這些是建議,實(shí)際性能將取決于幾個(gè)因素,包括特定任務(wù)、模型實(shí)現(xiàn)和其他系統(tǒng)流程。
CPU 要求
為獲得最佳性能,建議使用現(xiàn)代多核 CPU。第 7 代以上的 Intel Core i8 或第 5 代以上的 AMD Ryzen 3 將運(yùn)行良好。 具有 6 核或 8 核的 CPU 是理想的選擇。更高的時(shí)鐘速度也改善了即時(shí)處理,因此請(qǐng)以 3.6GHz 或更高為目標(biāo)。
擁有 AVX、AVX2、AVX-512 等 CPU 指令集可以進(jìn)一步提高性能(如果可用)。關(guān)鍵是要有一個(gè)相當(dāng)現(xiàn)代的消費(fèi)級(jí)CPU,具有不錯(cuò)的內(nèi)核數(shù)量和時(shí)鐘。 以及通過(guò) AVX2 進(jìn)行的基線向量處理(使用 llama.cpp 進(jìn)行 CPU 推理所必需)。有了這些規(guī)格,CPU 應(yīng)該可以處理 Llama-2 模型大小。
人工智能訓(xùn)練與推理工作站、服務(wù)器、集群硬件配置推薦
上述所有配置,代表最新硬件架構(gòu),同時(shí)保證是最完美,最快,如有不符,可直接退貨
欲咨詢機(jī)器處理速度如何、技術(shù)咨詢、索取詳細(xì)技術(shù)方案,提供遠(yuǎn)程測(cè)試,請(qǐng)聯(lián)系
UltraLAB圖形工作站供貨商:
西安坤隆計(jì)算機(jī)科技有限公司
國(guó)內(nèi)知名高端定制圖形工作站廠家
業(yè)務(wù)電話:400-705-6800
咨詢微信號(hào):