此條目介紹的是Meta发布的大语言模型(LLM)。关于英语名为llama的生物,请见「
大羊駝 」。
LLaMA (英語:Large Language Model Meta AI )是Meta 於2023年2月發布的大型语言模型 。它訓練了各種模型,這些模型的參數從70億到650億不等。LLaMA的開發人員報告說,LLaMA運行的130億參數模型在大多數NLP基準測試 中的性能超過了更大的、具有1750億參數的GPT-3 提供的模型,且LLaMA的模型可以與PaLM 和Chinchilla 等最先進的模型競爭[ 3] 。雖然其他強大的大語言模型通常只能通過有限的API 訪問,但Meta在非商業 許可的情況下發布了LLaMA的模型權重,供研究人員參考和使用[ 4] [ 5] [ 6] 。2023年7月,Meta推出LLaMA 2,这是一种可用于商业应用的开源AI模型[ 7] 。
LLaMA 2
2023年7月,Facebook 母公司Meta推出了LLaMA2,LLaMA2是一种开源大型语言模型 (LLM),旨在挑战大型科技竞争对手的限制性做法。Meta免费发布LLaMA2背后的代码和数据,使世界各地的研究人员能够利用和改进该技术。 Meta的首席执行官马克·扎克伯格 一直直言不讳地强调开源软件 对于刺激创新的重要性。[ 8] [ 7]
Meta训练并发布了三种模型大小的LLaMA2:70、130和700亿个参数。模型架构与LLaMA1模型基本保持不变,但用于训练基础模型的数据增加了 40%。随附的预印本还提到了一个具有34B参数的模型,该模型可能在未来满足安全目标后发布。
LLaMA2包括基础模型和针对对话进行微调的模型,称为 Llama 2 - 聊天。与LLaMA1进一步不同的是,所有模型都附带权重,并且对于许多商业用例都是免费的。然而,由于一些剩余的限制,Llama开源的描述受到了开源倡议组织 (以维护开源定义而闻名)的争议。[ 9]
Code Llama
2023年8月,Meta 继发布用于生成文本、翻译语言和创建音频的人工智能模型之后,开源了 Code Llama。这是一个机器学习系统,可以用自然语言(特别是英语)生成和解释代码。 可以免费商用和研究。[ 10]
Code Llama是从Llama-2基础模型微调而来,共有三个版本:基础版、Python版、以及指令遵循。 类似于 GitHub Copilot 和 Amazon CodeWhisperer,以及 StarCoder、StableCode 和 PolyCoder 等开源人工智能代码生成器,Code Llama 可以跨多种编程语言完成代码并调试现有代码,包括 Python、C、Java、PHP、 Typescript、C# 和 Bash。[ 11]
在训练 Code Llama 时,Meta 使用了与训练 Llama 2 相同的数据集——来自网络的公开可用资源的混合。但可以说,它的模型“强调”了包含代码的训练数据的子集。从本质上讲,Code Llama 比它的“父”模型 Llama 2 有更多的时间来学习代码和自然语言之间的关系。每个 Code Llama 模型的大小从 70 亿个参数到 340 亿个参数不等,均使用 5000 亿个代码标记以及与代码相关的数据进行训练。多个 Code Llama 模型可以将代码插入到现有代码中,并且所有模型都可以接受大约 100,000 个代码标记作为输入,而至少一个(70 亿个参数模型)可以在单个 GPU 上运行。(其他模型则需要更强大的硬件。)Meta 声称,340 亿个参数的模型是迄今为止所有开源代码生成器中性能最好的,也是参数数量最多的。[ 11]
Llama 3
2024年4月18日,Meta发布了Llama-3,有两种模型大小尺寸:8B和70B参数。[ 12] 这些模型已经根据从“公开可用来源”收集的大约 15 万亿个文本标记进行了预训练,并且指导模型根据“公开可用的指令数据集以及超过 1000 万个人工注释的示例”进行了微调。 计划发布多模式模型、能够以多种语言进行对话的模型以及具有更大上下文窗口的模型。
于2024年7月23日增量更新至Llama-3.1。具有8B、70B、405B参数三种模型大小尺寸。[ 12]
Meta AI 的测试表明,Llama 3 70B 在大多数基准测试中都击败了Gemini 和Claude 。[ 13] [ 14]
Llama 4
Llama-4系列于2025年4月5日发布。其架构已更改为混合专家模型 。它们具备多模态 (文本和图像输入,文本输出)和多语言(12种语言)特性,[ 15] 包括基础版本和指令调整版本:[ 16]
Scout:170 亿个活跃参数模型,包含 16 位专家,上下文窗口为 1000 万个,总共包含 1090 亿个参数。
Maverick:170 亿个活跃参数模型,包含 128 位专家,上下文窗口为 100 万个,总共包含 4000 亿个参数。
Behemoth(尚未发布):2880 亿个活跃参数模型,包含 16 位专家,总共包含约2万亿个参数。
当时 Behemoth 版本仍在训练中。Scout 是从零开始训练的。Maverick 是从 Behemoth 中“共同提炼”而来的。需要注意的是,Scout 的训练时间比 Maverick 更长,上下文长度也更长。
训练数据包括公开数据、授权数据以及 Meta 专有数据,例如Instagram和Facebook上公开分享的帖子以及人们与Meta AI的互动。数据截止日期为2024年8月。[ 17]
Meta 在其发布公告中声称,Llama 4 在 LMArena AI 基准测试中的得分超过了GPT-4o 。[ 18] 该公司还表示,Llama 4的基准测试得分是使用未发布的“实验性聊天版本”模型获得的,该版本“针对对话性进行了优化”,与公开发布的 Llama 4 版本有所不同。[ 19] LMArena 表示将调整政策,以防止此类事件再次发生,并回应称:“Meta对我们政策的解读与我们对模型提供商的期望不符。Meta 应该更清楚地说明,‘Llama-4-Maverick-03-26-Experimental’ 是一个定制模型,旨在根据人类偏好进行优化。”[ 20] 一些用户在社交媒体上批评 Meta 使用专门为基准测试而定制的模型版本,还有一些用户指责 Meta 在测试集上训练 Llama 4 以进一步提高其基准测试分数——Meta 对此予以否认。[ 21]
模型比较
对于训练成本列,只写出最大模型的成本。例如,“21,000”是 Llama 2 69B 的训练成本,单位为 petaFLOP-day。另外,1 petaFLOP-day = 1 petaFLOP/秒 × 1 天 = 8.64×1019 FLOP 。
名称
发布日期
参数
训练成本 (petaFLOP-day)
上下文长度
语料库大小
商业可行性?
LLaMA
2023-02-24
6,300[ 22]
2048
1–1.4T
否
Llama 2
2023-07-18
21,000[ 23]
4096
2T
是
Code Llama
2023-08-24
Llama 3
2024-04-18
100,000[ 24] [ 25]
8192
15T
Llama 3.1
2024-07-23
440,000[ 26] [ 27]
128,000
Llama 3.2
2024-09-25
128,000
Llama 4
2025-04-05
架构与训练
数据集
2023年4月17日,GitHub的Together启动了一个名为RedPajama的项目,以复制和分发LLaMA数据集的开源版本。[ 28] [ 29]
反响
《连线 》 (Wired) 杂志称Llama 3的 8B 参数版本“能力出奇地强”,考虑到它的大小。[ 30]
Meta将Llama整合到Facebook后,人们的反应褒贬不一,一些用户在Meta AI告诉家长群它有一个孩子后感到困惑。[ 31]
根据2023年第四季度的收益记录,Meta采用了开放权重的策略来提高模型安全性、迭代速度,增加开发人员和研究人员的采用率,并成为行业标准。未来计划推出 Llama 5、6 和 7。[ 32]
自我审查
LLaMA会拒绝的话题包括:操纵、图形暴力、自我伤害、自杀、成人与露骨内容、仇恨言论、非法或有害活动、人身攻击等。[ 33]
参见
参考资料
^ meta-llama/Llama-3.3-70B-Instruct · Hugging Face . 2024年12月6日 [2025年2月20日] (英語) .
^ llama3/LICENSE at main · meta-llama/llama3 . GitHub. [2024-05-25 ] . (原始内容存档 于2024-05-24) (英语) .
^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume. LLaMA: Open and Efficient Foundation Language Models. 2023. arXiv:2302.13971 [cs.CL ].
^ Introducing LLaMA: A foundational, 65-billion-parameter large language model . Meta AI. 2023-02-24 [2023-06-14 ] . (原始内容存档 于2023-03-03).
^ Vincent, James. Meta's powerful AI language model has leaked online — what happens now? . The Verge. 2023-03-08 [2023-06-14 ] . (原始内容存档 于2023-11-03).
^ 差一步称霸AI:历史进程中的扎克伯格, 远川研究所, 澎湃 . [2023-06-28 ] . (原始内容存档 于2023-06-28).
^ 7.0 7.1 Meta launches Llama 2, a source-available AI model that allows commercial applications . [2023-07-21 ] . (原始内容存档 于2023-11-07).
^ LLaMA 2: How to access and use Meta’s versatile open-source chatbot right now . [2023-07-20 ] . (原始内容存档 于2023-11-03).
^ Maffulli, Stefano. Meta’s LLaMa 2 license is not Open Source . Voices of Open Source. 2023-07-20 [2023-08-29 ] . (原始内容存档 于2023-10-10) (美国英语) .
^ Code Llama: Open Foundation Models for Code . AI at Meta. [2025-01-14 ] . (原始内容 存档于2023-11-01).
^ 11.0 11.1 Wiggers, Kyle. Meta releases Code Llama, a code-generating AI model . TechCrunch. 2023-08-24 [2025-01-14 ] . (原始内容存档 于2023-11-11) (美国英语) .
^ 12.0 12.1 Introducing Meta Llama 3: The most capable openly available LLM to date . ai.meta.com. 2024-04-18 [2024-04-21 ] . (原始内容存档 于2024-05-15) (英语) .
^ Wiggers, Kyle. Meta releases Llama 3, claims it's among the best open models available . TechCrunch. 2024-04-18 [2024-04-19 ] . (原始内容存档 于2024-09-18).
^ Mann, Tobias. Meta debuts third-generation Llama large language model . www.theregister.com. [2024-07-25 ] . (原始内容存档 于2024-08-25) (英语) .
^ meta-llama/Llama-4-Maverick-17B-128E · Hugging Face . huggingface.co. 2025-04-05 [2025-04-06 ] .
^ The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation . ai.meta.com. [2025-04-05 ] . (原始内容 存档于2025-04-05) (英语) .
^ meta-llama/Llama-4-Maverick-17B-128E · Hugging Face . huggingface.co. 2025-04-05 [2025-04-06 ] .
^ Robison, Kylie. Meta got caught gaming AI benchmarks . The Verge . 2025-04-08 [2025-04-08 ] .
^ Wiggers, Kyle. Meta's benchmarks for its new AI models are a bit misleading . TechCrunch . 2025-04-06 [2025-04-08 ] .
^ Robison, Kylie. Meta got caught gaming AI benchmarks . The Verge . 2025-04-08 [2025-04-08 ] .
^ Franzen, Carl. Meta defends Llama 4 release against ‘reports of mixed quality,’ blames bugs . VentureBeat . 2025-04-08 [2025-04-08 ] .
^ The Falcon has landed in the Hugging Face ecosystem . huggingface.co. [2023-06-20 ] . (原始内容存档 于2023-06-20).
^ llama/MODEL_CARD.md at main · meta-llama/llama . GitHub. [2024-05-28 ] . (原始内容存档 于2024-05-28) (英语) .
^ Andrej Karpathy (@karpathy) on X . X (formerly Twitter). [2025-01-14 ] . (原始内容存档 于2024-08-17) (英语) .
^ llama3/MODEL_CARD.md at main · meta-llama/llama3 . GitHub. [2024-05-28 ] . (原始内容存档 于2024-05-21) (英语) .
^ The Llama 3 Herd of Models . AI at Meta. [2025-01-14 ] . (原始内容存档 于2024-07-24) (英语) .
^ llama-models/models/llama3_1/MODEL_CARD.md at main · meta-llama/llama-models . GitHub. [2024-07-23 ] . (原始内容存档 于2024-07-23) (英语) .
^ RedPajama-Data: An Open Source Recipe to Reproduce LLaMA training dataset . GitHub. Together. [2023-05-04 ] . (原始内容存档 于2023-11-07).
^ RedPajama-Data-1T . Hugging Face. Together. [2023-05-04 ] . (原始内容存档 于2023-11-03).
^ Knight, Will. Meta’s Open Source Llama 3 Is Already Nipping at OpenAI’s Heels . Wired. [2024-07-25 ] . ISSN 1059-1028 . (原始内容存档 于2024-09-27) (美国英语) .
^ Meta's amped-up AI agents confusing Facebook users . ABC News. 2024-04-19 [2024-07-25 ] . (原始内容存档 于2024-09-17) (澳大利亚英语) .
^ META Q4 2023 Earnings Call Transcript (PDF) . [2024-07-25 ] . (原始内容存档 (PDF) 于2024-09-17).
^ Can Rager; Chris Wendler; Rohit Gandikota; David Bau. Discovering Forbidden Topics in Language Models [发现语言模型中的禁忌话题] . arXiv . 2025-06-11 [2025-08-03 ] (英语) .
外部連結