Un modelo de linguaxe grande ou modelo de linguaxe de grande escala, en inglés: 'Large language model' (LLM), en portugués modelo de linguagem grande ou modelo largo de linguagem (MLL) é un tipo de modelo de linguaxe composto por unha rede neural artificial con moitos parámetros (normalmente miles de millóns ou posibelmente máis.[1] Están adestrados en grandes cantidades de texto sen etiquetas utilizando aprendizaxe automática sen supervisión.[2] [3] Os MLL xurdiron ao redor de 2018 [4], co modelo BERT.[5] Estes funcionan ben nunha gran variedade de tarefas. Isto cambiou o foco da investigación sobre o procesamento da linguaxe natural, lonxe do paradigma anterior de adestramento de modelos supervisados especializados para tarefas específicas.
Propiedades
Aínda que o termo non ten unha definición formal, xeralmente refírese a modelos de aprendizaxe profunda que teñen un reconto de parámetros da orde de miles de millóns ou máis.[6] Os MLL son modelos de propósito xeral que destacan nunha ampla gama de tarefas, en lugar de ser adestrados para unha tarefa específica (como a análise de sentimentos, o recoñecemento de entidades con nome ou o razoamento matemático). Aínda que están adestrados en tarefas sinxelas como predicir a seguinte palabra nunha oración, os modelos de linguaxe neuronal con suficiente adestramento e recontos de parámetros son capaces de captar gran parte da sintaxe e da semántica da linguaxe humana. Ademais, os grandes modelos lingüísticos demostran un coñecemento xeral considerábel sobre o mundo e son capaces de "memorizar" unha grande cantidade de feitos durante o adestramento.
Arquitectura e adestramento
Os grandes modelos de linguaxe adoitan empregar a arquitectura do transformador, que se converteu na técnica de aprendizaxe profunda estándar para datos secuenciais desde 2018 (anteriormente, as arquitecturas recorrentes como LSTM eran máis comúns). Os MLL adestran sen supervisión en texto sen anotación. Adestrase un transformador de esquerda a dereita para maximizar a probabilidade asignada á seguinte palabra nos datos de adestramento, dado o contexto anterior. Alternativamente, un MLL pode usar un transformador bidireccional (como no exemplo BERT), que asigna unha distribución de probabilidade sobre palabras con acceso tanto ao contexto anterior como posterior. Ademais da tarefa de predicir a seguinte palabra ou "encher os ocos", os MLL pódense adestrar en tarefas auxiliares que pon a proba a súa comprensión da distribución de datos, como a Predición da seguinte frase (NSP), na que se presentan pares de frases. e o modelo debe predicir se aparecen en paralelo no corpus de formación.
Os primeiros MLL foron adestrados en corpus con miles de millóns de palabras. A versión inicial de ChatGPT foi adestrada en 2018 en BookCorpus, que consta de 985 millóns de palabras. Nese mesmo ano, BERT formouse nunha combinación de BookCorpus e a Wikipedia en inglés, cun total de 3.300 millóns de palabras. Nos anos posteriores, os corpus de formación para MLL aumentaron en ordes de magnitude, chegando a centos de miles de millóns ou billóns de tokens.
Os MLL son computacionalmente caros de adestrar. Un estudo de 2020 estimou o custo de adestrar un modelo con 1.500 millóns de parámetros (de 1 a 2 ordes de magnitude máis pequenos que o estado da arte da época) en 1,6 millóns de dólares.
Unha análise de 2020 descubriu que a capacidade dos modelos de linguaxe neuronal (medida pola perda de adestramento) aumentou sen problemas nunha relación da lei potencial co número de parámetros, a cantidade de datos de adestramento e a computación utilizada para a formación. Estas relacións probáronse nunha ampla gama de valores (até sete ordes de magnitude) e non se observou ningunha atenuación da relación no extremo superior do intervalo (incluíndo tamaños de rede até billóns de parámetros).
Aplicación en tarefas secundarias
Entre 2018 e 2020, o método estándar para usar un MLL nunha tarefa específica de procesamento da linguaxe natural foi afinar (axuste fino) o modelo cunha formación adicional específica para a tarefa. Máis tarde descubriuse que MLL máis potentes como GPT-3 poden resolver tarefas sen adestramento adicional mediante técnicas "prompting", nas que o problema a resolver é presentado ao modelo como un promt de texto, posibelmente con algúns exemplos textuais de problemas similares e as súas solucións.
Axuste fino
O axuste fino é a práctica de modificar un modelo de linguaxe pre-adestrado existente adestrándoo (dunha forma supervisada) nunha tarefa específica (por exemplo, análise de sentimentos, recoñecemento de entidades con nome ou etiquetado de partes do discurso). É unha forma de transferencia de aprendizaxe. Normalmente implica introducir un novo conxunto de pesos que conecta a capa final do modelo de linguaxe coa saída da tarefa secundaria. Os pesos do modelo da lingua orixinal pódense "conxelar" para que só se aprenda durante o adestramento a nova capa de pesos que os conecta á saída. Alternativamente, os pesos orixinais poden recibir pequenas actualizacións (posibelmente con capas anteriores conxeladas).
Notas
- ↑ Bastian, Matthias. GPT-4 has a trillion parameters - Report. THE DECODER, Mar 25, 2023.
- ↑ Lee, Angie. What Are Large Language Models and Why Are They Important?. NVIDIA Blog, Jan 26, 2023.
- ↑ Varshini, Amirdha. Large Language Models (LLMs). Kaggle, aprox. Fev, 2023.
- ↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805v2 [cs.CL], Oct 11, 2018.
- ↑ Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805v2 [cs.CL], Oct 11, 2018.
- ↑ Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar. Extracting Training Data from Large Language Models. USENIX Security Symposium, Vol. 6, 2021.
Véxase tamén