この項目では、大規模言語モデルについて説明しています。その他のラマについては「ラマ 」をご覧ください。
LLaMA (ラマ、Large Language Model Meta AI )は、Meta AI が2023年2月に発表した大規模言語モデル (LLM)である[ 1] 。
LLaMA の開発者の論文[ 2] によれば、70億パラメータ(業界の慣習でこれをBillion のBを使って「7B」と書くことがある。以下同様。)から650億パラメータ(65B)まで、いくつものサイズのモデルが作られた。LLaMA-13Bの性能は、GPT-3 -175BをほとんどのNLP ベンチマークで上回る。そして、LLaMA-65Bの性能は、Google のPaLM -540BやDeepMind のChinchilla (英語版 ) -70Bなど、最先端モデルに匹敵する。
アーキテクチャと学習
LLaMA は、2018年以降の言語モデリングの標準的アーキテクチャである Transformer アーキテクチャを採用している。
LLaMA の開発者は、パラメータの数ではなく、トレーニングデータの量を増やすことで、モデルの性能を上げることに注力した。
これは、トレーニングプロセスの計算コストより、トレーニング済みモデルによる推論のコストの方が支配的であるためである。
LLaMA は、下記のような公開データソースから抽出した1.4兆個のトークンで学習した。
リリースとリーク
LLaMA は、2023年2月23日、ブログ投稿と論文により発表された。
モデルのトレーニングに使用されたコードは、オープンソースのGPLv3 ライセンスで公開された[ 3] 。
それまでは、ほとんどの強力な大規模言語モデルは限られた API を通じてしかアクセスできなかった。Metaは、LLaMA のモデルで学習の結果得られた重みを内部管理し、「世界中の学術研究者、政府・市民社会・学術機関の関係者、産業界の研究所にケースバイケースで許可」として、研究コミュニティにだけ非商用ライセンスで利用許可する方針とした。
ところが2023年3月2日、LLaMAのリリースから1週間でその重みが漏れ、4chan 経由で拡散されてしまった[ 4] 。
応用
Alpaca
スタンフォード大学 の基盤モデル研究センター(Center for Research on Foundation Models, CRFM)は、LLaMA-7Bをファイン・チューニング した、Alpaca をリリースした[ 5] 。Alpaca は OpenAI GPT-3.5シリーズの text-davinci-003モデルに匹敵する性能を獲得した[ 6] 。
Llama-3-ELYZA-JP
ELYZA (本社:東京都 文京区 )は、Metaの「Llama 3」シリーズをベースに日本語性能を強化したLLM「Llama-3-ELYZA-JP」(8Bおよび70B)を開発した[ 7] 。
脚注
出典
^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Martinet, Xavier; Lachaux, Marie-Anne; Lacroix, Timothée; Rozière, Baptiste; Goyal, Naman; Hambro, Eric; Azhar, Faisal; Rodriguez, Aurelien; Joulin, Armand; Grave, Edouard; Lample, Guillaume (2023). "LLaMA: Open and Efficient Foundation Language Models". arXiv :2302.13971 [cs.CL3 ]。
^ “Introducing LLaMA: A foundational, 65-billion-parameter large language model ”. Meta AI (24 February 2023). 2023年4月1日 閲覧。
^ llama - GitHub
^ Vincent, James (8 March 2023). “Meta's powerful AI language model has leaked online — what happens now? ”. The Verge . 2023年4月1日 閲覧。
^ stanford alpaca - GitHub
^ Yizhong Wang; Yeganeh Kordi; Swaroop Mishra; Alisa Liu; Noah A. Smith; Daniel Khashabi; Hannaneh Hajishirzi (2022年12月20日), “Self-Instruct: Aligning Language Model with Self Generated Instructions” (英語), arXiv , arXiv :2212.10560 , ISSN 2331-8422 , Wikidata Q117202254
^ “「GPT-4」を上回る日本語性能のLLM「Llama-3-ELYZA-JP」を開発しました ”. ELYZA (2024年6月26日). 2024年6月29日 閲覧。
関連項目
外部リンク