Un grand modèle de langage[1], grand modèle linguistique[2], grand modèle de langue[1],[3], modèle de langage de grande taille[1] ou encore modèle massif de langage[4] (abrégé LLM[1] de l'anglais large language model) est un modèle de langage possédant un grand nombre de paramètres (généralement de l'ordre d'un milliard ou plus).
Ils excellent dans un large éventail de tâches. Au lieu d'être entraînés pour une tâche spécifique (comme l'analyse des sentiments, la reconnaissance d'entités nommées ou le raisonnement mathématique), ils sont entraînés à prédire une suite probable pour une entrée donnée[6]. La qualité du contenu généré semble augmenter régulièrement avec le nombre de paramètres, la taille et la qualité des données d'entraînement, ainsi que la quantité de calculs utilisée pour entraîner le modèle[7].
Les modèles de langage possédant un grand nombre de paramètres s'avèrent capables de capturer une grande partie de la syntaxe et de la sémantique du langage humain. Cela permet de retraduire une connaissance générale sur le monde conséquente, avec « mémorisation » d'une grande quantité de faits lors de l'entraînement.
Un modèle de langage reçoit typiquement en entrée des données séquentielles de longueur variable. Pendant longtemps, l'architecture utilisée préférentiellement pour ce genre de données était celle dite de réseaux de neurones récurrents. Cette architecture présentait comme inconvénient majeur de mal se prêter à la parallélisation des calculs nécessaires à l'entrainement.
En 2017, un article très influent[8] suggéra qu'une architecture non-récurrente, le transformeur, basée sur un mécanisme d'attention, peut avec succès traiter des données séquentielles tout en étant parallélisable lors de l'entrainement.
C'est l'avènement de cette architecture, et surtout les gains en performance qu'elle procure, qui ont permis aux chercheurs d'augmenter considérablement le nombre de paramètres de leurs modèles, d'où le qualificatif « grand » les concernant. La plupart des grands modèles de langage utilisent donc cette architecture, même si la recherche se poursuit pour trouver des architectures encore plus performantes[9],[10],[11],[12].
Analyse lexicale
Les LLM sont des fonctions mathématiques dont l'entrée et la sortie sont des listes de nombres. Pour que ceux-ci fonctionnent avec des mots une conversion est nécessaire.
Cette conversion est ce qu'on appelle l'analyse lexicale. L'analyseur lexical est une fonction bijective qui établit une correspondance entre des textes et des listes d'entiers. Il est généralement d'abord adapté à l'ensemble de données d'entraînement complet, puis gelé, avant que le modèle de langage ne soit entraîné. Un choix courant est le codage par paires d'octets.
Une autre fonction des analyseurs lexicaux est la compression de texte, qui épargne du temps de calcul. Des mots ou expressions courants tels que « où est » peuvent être encodés dans une seule unité lexicale (ou jeton), au lieu d'être encodés dans 7 caractères. La série OpenAI GPT utilise un analyseur lexical où une unité lexicale correspond à environ 4 caractères, soit environ 0,75 mots dans un texte anglais courant[13]. Un texte anglais peu courant est moins prévisible, donc moins compressible, nécessitant ainsi plus de jetons pour être encodé.
Un analyseur lexical convertit une suite de caractères en un nombre entier dans la plage , où est appelé la taille de vocabulaire.
Certains sont capables de gérer des textes arbitraires en opérant généralement directement sur Unicode, mais d'autres non. Lorsqu'il rencontre du texte non encodable, un analyseur lexical génère une unité lexicale spéciale (par exemple 0) qui représente un « texte inconnu ». Ceci est souvent écrit comme [UNK], comme dans l'article du modèle BERT.
Une autre unité lexicale spéciale couramment utilisée est [PAD] (souvent 1), pour « padding ». Ceci est utilisé car les LLM sont généralement utilisés sur différents lots de texte à la fois, et ces textes ne sont pas codés à la même longueur. Étant donné que les LLM exigent généralement que l'entrée soit un tableau de taille fixe, les textes les plus courts doivent être complétés.
Sortie
La sortie d'un LLM est un vecteur où est la taille du lexique produit lors de l'analyse lexicale. Le vecteur est ensuite passé par une fonction softmax pour obtenir ;
le vecteur est généralement appelé le vecteur logit non normalisé ;
le vecteur est appelé le vecteur de probabilité.
Puisque le vecteur a entrées, toutes non négatives, et dont la somme est égale à 1, on peut l'interpréter comme une distribution de probabilité sur le vocabulaire du LLM (indexé par ).
Pré-entraînement
La plupart des LLM sont entraînés par pré-entraînement génératif, c'est-à-dire qu'étant donné un ensemble de données d'entraînement de jetons de texte, le modèle prédit les jetons dans l'ensemble de données. Il existe deux styles généraux de pré-entrainement pour la génération[14] :
autorégressif (style GPT, « prédire le mot suivant ») : étant donné un segment de texte comme « J'aime manger », le modèle prédit les jetons suivants, comme « crème glacée ».
masqué (« style BERT », « test de cloze ») : étant donné un segment de texte comme « J'aime [MASQUE] [MASQUE] glacée », le modèle prédit les jetons masqués, comme « manger de la crème ».
Les LLM peuvent être entraînés sur des tâches auxiliaires qui testent leur compréhension de la distribution des données, telles que la prédiction de la phrase suivante (NSP), dans laquelle des paires de phrases sont présentées et le modèle doit prédire si elles apparaissent consécutivement dans le corpus d'entraînement.
Habituellement, les LLM sont entraînés pour minimiser une fonction de perte spécifique : la log-vraisemblance négative moyenne par jeton (également appelée perte d'entropie croisée).[réf. nécessaire] Par exemple. si un modèle autorégressif, étant donné « j'aime manger », prédit une distribution de probabilité alors la perte de vraisemblance logarithmique négative sur ce jeton est .
Pendant l'entraînement, la perte de régularisation est également utilisée pour stabiliser l'entraînement. Cependant, la perte de régularisation n'est généralement pas utilisée pendant les tests et l'évaluation. Il y a aussi beaucoup plus de critères d'évaluation que la simple vraisemblance logarithmique négative. Voir la section ci-dessous pour plus de détails.
Taille de l'ensemble de données
Les premiers LLM ont été entraînés sur des corpus contenant de l'ordre de milliards de mots.
GPT-1, le premier modèle de la série de transformeurs génératifs pré-entraînés d'OpenAI, a été entrainé en 2018 sur BookCorpus, composé de 985 millions de mots[15]. La même année, BERT a été entraîné sur une combinaison de BookCorpus et de Wikipedia anglais, totalisant 3,3 milliards de mots. Depuis lors, les corpus d'entraînement pour les LLM ont augmenté de plusieurs ordres de grandeur, atteignant jusqu'à des billions de jetons.
Coût
Les LLM sont coûteux à entraîner en termes de calcul. Une étude de 2020 a estimé le coût de l'entraînement d'un modèle de 1,5 milliard de paramètres (2 ordres de grandeur inférieurs à l'état de l'art à l'époque) à 1,6 million de dollars. Les progrès logiciels et matériels ont considérablement réduit les coûts, avec un article de 2023 faisant état d'un coût de 72 300 heures A100-GPU pour entraîner un modèle de 12 milliards de paramètres. La taille des modèles a cependant aussi augmenté[réf. souhaitée].
Pour le LLM basé sur l'architecture transformer, il en coûte 6 FLOP par paramètre pour s'entraîner sur un jeton. Ce coût d'entraînement est beaucoup plus élevé que le coût d'inférence, qui est de 1 à 2 FLOP par paramètre pour inférer sur un jeton[réf. nécessaire].
Le réglage fin peut se faire de différentes façons, notamment[16] :
En re-entraînant tous les paramètres du modèle, mais sans trop les modifier pour ne pas écraser les connaissances acquises lors du pré-entraînement. Cette méthode est efficace mais nécessite relativement beaucoup de temps de calcul.
En entraînant seulement une partie des paramètres (souvent une partie des couches). Les autres paramètres sont dits « gelés ».
En ajoutant une ou plusieurs couches à la fin du modèles, avec de nouveaux paramètres.
En ajoutant un « adaptateur », contenant ses propres paramètres. Ces méthodes (LoRA notamment) ajoutent souvent peu de paramètres à entraîner, nécessitant ainsi moins de ressources informatiques.
En ajoutant automatiquement une série de tokens au début du prompt, optimisés automatiquement pour fournir le bon résultat (prompt tuning). Dans ce cas, le modèle lui-même est entièrement gelé et aucun de ses paramètres n'est entraîné, seul le prompt est ajusté. Lors de l'inférence, ces tokens seront également ajoutés automatiquement au début du prompt sans que l'utilisateur ne les voit. De façon similaire, cela peut aussi se faire en injectant des vecteurs plutôt que des tokens (prefix tuning).
Réglage par instructions
Le réglage par instructions (instruction fine-tuning en anglais) est une forme d'apprentissage supervisé visant à ce que le LLM réponde d'une certaine façon, par exemple en adoptant le rôle d'assistant. Étant donné un prompt en entrée, un modèle de langage pré-entraîné générera une complétion qui correspond à la distribution du texte sur laquelle il a été entraîné. En réponse au prompt « Écrire un essai sur les principaux thèmes de Hamlet. », un modèle de langage pré-entraîné pourrait produire : « Une pénalité de retard de 10 % par jour sera appliquée aux soumissions reçues après le 17 mars ». Dans le réglage par instructions, le modèle de langage est entraîné sur de nombreux exemples de tâches formulées sous forme d'instructions en langage naturel, ainsi que des réponses appropriées. Les instructions et les réponses correspondantes attendues peuvent être soit écrites par des humains, soit générées automatiquement, par exemple avec la méthode self-instruct[17].
Apprentissage par renforcement
Les grands modèles de langage suivent souvent une phase supplémentaire de réglage fin exploitant l'apprentissage par renforcement, afin de les rendre utiles et inoffensifs et de réduire les hallucinations.
Une méthode populaire est celle de l'apprentissage par renforcement à partir de rétroaction humaine (reinforcement learning from human feedback, ou RLHF en anglais). Avec cette méthode, différentes réponses sont d'abord générées par un modèle d'IA. Ensuite, des humains annotent les réponses qui leur semblent être les meilleures. Avec ces données sur quelles réponses sont plus ou moins bonnes, un « modèle de préférences » est entraîné à prédire quelles réponses satisferaient les annotateurs humain. Les réponses fausses, agressives ou inutiles sont ainsi le plus souvent évaluées comme étant mauvaises. D'autres modèles peuvent ensuite être entraînés par apprentissage par renforcement à satisfaire ce modèle de préférences[18].
La méthode de l'IA constitutionnelle, conçue par l'entreprise Anthropic, comporte une étape d'apprentissage par renforcement (en plus de celle de réglage par instructions). Le but est là aussi de générer un modèle de préférences permettant ensuite d'entraîner d'autres modèles. La différence est que les données servant à entraîner ce modèle de préférences ne sont pas annotées manuellement par des humains. Ces données sont générées automatiquement par une IA en évaluant quelles réponses satisfont le mieux une constitution donnée, qui est une liste de principes de conduite[19].
Propriétés
Ensembles de données de pré-entraînement
Les LLM sont pré-entraînés sur de grands ensembles de données textuelles comme Common Crawl[20], The Pile[21], MassiveText[22], Wikipedia ou GitHub. Ces ensembles de données contiennent jusqu'à 10 000 milliards de mots.
Le stock de données linguistiques de haute qualité se situe entre 4,6 et 17 milliards de mots, soit un ordre de grandeur similaire à celui des plus grands ensembles de données textuelles disponibles[23].
la quantité de calcul ayant servi à l'entraînement
Les relations empiriquement observées entre les performances d'un réseau de neurones et chacun de ces trois paramètres sont tellement précises qu'elles ont été nommées « lois d'échelle » (scaling laws)[24],[25]. Par exemple, une loi de mise à l'échelle particulière (Chinchilla scaling) pour le LLM Chinchilla(en) entraîné de manière autorégressive (c'est-à-dire avec prédiction du mot suivant étant donné un segment de texte) pour une époque, avec un calendrier de taux d'apprentissage log-log, stipule que[26]:où les variables sont :
est la quantité de calcul ayant servi à entraîner le modèle (mesurée en FLOP) ;
est le nombre de paramètres du modèle ;
est le nombre de jetons dans l'ensemble d'apprentissage ;
est la perte de log-vraisemblance négative moyenne par jeton (nats /jeton), qui représente les performances du LLM ;
et les paramètres statistiques sont :
, ce qui signifie qu'il en coûte 6 FLOP par paramètre pour s'entraîner sur un jeton[27] ;
.
Capacités émergentes
Généralement les performances de grands modèles de langage sur diverses tâches peuvent être extrapolées sur la base des performances de modèles plus petits similaires. Cependant, les grands modèles subissent parfois un « déphasage discontinu » où le modèle acquiert soudainement des capacités substantielles non vues dans les modèles plus petits. Celles-ci sont connues sous le nom de « capacités émergentes » et ont fait l'objet d'études approfondies. Les chercheurs notent que de telles capacités « ne peuvent pas être prédites simplement en extrapolant les performances de modèles plus petits »[28]. Ces capacités sont découvertes plutôt que programmées ou conçues, dans certains cas seulement après le déploiement public du LLM[7]. Des centaines de capacités émergentes ont été décrites. Les exemples incluent le raisonnement arithmétique, la passation d'examens de niveau universitaire, l'identification du sens voulu d'un mot[28], le décodage de l'alphabet phonétique international, le fait de pouvoir comprendre des mots dont l'ordre des lettres est modifié, l'identification du contenu offensant dans les paragraphes de l'hinglish (un mélange d'hindi et d'anglais) et la génération d'un équivalent anglais aux proverbes kiswahili[29].
Les biais sont une préoccupation car tout modèle complexe créé par des humains peut refléter les biais des équipes qui préparent et conçoivent les LLM, et des scientifiques des données qui entraînent et mettent en œuvre les modèles[31].
Préjugés sexistes
Les préjugés sexistes font référence à la tendance de ces modèles à produire des résultats injustement préjugés en faveur d’un sexe plutôt qu’un autre. Ce biais provient généralement des données sur lesquelles ces modèles sont formés. Par exemple, les grands modèles linguistiques attribuent souvent des rôles et des caractéristiques basés sur les normes de genre traditionnelles ; elle pourrait associer principalement les infirmières ou les secrétaires aux femmes et les ingénieurs ou les PDG aux hommes[32].
Stéréotypes
Au-delà du genre et de l'origine, ces modèles peuvent renforcer un large éventail de stéréotypes, notamment ceux fondés sur l’âge, la nationalité, la religion ou la profession. Cela peut conduire à des résultats qui généralisent ou caricaturent injustement des groupes de personnes, parfois de manière préjudiciable ou désobligeante[33].
Biais politique
Les préjugés politiques font référence à la tendance des algorithmes à favoriser systématiquement certains points de vue politiques, idéologies ou résultats par rapport à d’autres. Les modèles linguistiques peuvent également présenter des préjugés politiques. Étant donné que les données de formation incluent un large éventail d'opinions et de couvertures politiques, les modèles peuvent générer des réponses qui penchent vers des idéologies ou des points de vue politiques particuliers, en fonction de la prévalence de ces points de vue dans les données[34].
Biais linguistique
Les biais linguistiques font référence au fait que les données d'apprentissage peuvent ne pas être représentatives de la population mondiale. Par exemple, pour un concept comme le « libéralisme », un modèle principalement entraîné en anglais privilégiera une interprétation anglo-américaine, centrée sur les droits de l'homme et l'égalité. Des points de vue d'autres cultures sur le libéralisme, comme « s'oppose à l'État » au Vietnam, ou « limitation du pouvoir gouvernemental » en Chine, risquent d'être sous-représentées[35].
Mise en œuvre
En amont (dans la construction du LLM), des biais sont engrammés dans les données ; ils sont par exemple liés à la vision du monde des opérateurs (et donc à leur époque), à la langue et aux cultures des programmeurs[31]. Ils sont d'autre part liés aux biais présents dans les bases de données d'entrainement de l'IA (stéréotypes discriminatoires, inexactitudes, incohérences…)[36] ; les plus grandes bases de données qui ont entrainé ChatGPT ont été la base des brevets américaine et Wikipédia en anglais, qui ne reflètent pas toute la richesse et la diversité du monde). Des LLM entraînés par exemple avec un corpus de textes de discussions sur Twitter associeront de fortes probabilités à des énoncés agressifs, racistes et d'exclusion, biaisés, toxiques ou sensibles si de tels langages sont présents dans leurs données d'entraînement[37].
En aval, le prompt peut lui même introduire des biais qui orienteront la réponse de l'IA utilisant un modèle LLM. Les LLM peuvent apprendre, et ensuite plus ou moins perpétuer voire amplifier des biais sociaux délétères[38].
Pour limiter ces biais, il est possible de régulièrement mettre à jour la qualité et la taille des bases de connaissances des LLM. Des processus dits « d'IA responsable » peuvent corriger une grande partie des biais. Ils le font via des techniques et des outils ad hoc, c'est-à-dire développés (et en cours d'amélioration) pour « garantir que les systèmes d'IA peuvent respecter ces définitions, en traitant les données au préalable, en modifiant les décisions du système par la suite, ou en intégrant les définitions d'équité dans le processus de formation lui-même ». Ces techniques s'appuient notamment sur des audits par des tiers indépendants, des études scientifiques multidisciplinaires sur les biais, et des « équipes rouges » internes chargées de tester le système utilisant le LLM[36].
Un autre processus responsable est de diversifier la communauté de l'IA (pour collaborativement mieux anticiper, examiner et repérer les biais, en faisant participer les communautés discriminées et affectées par ces biais)[36]. Il est aussi nécessaire, lors des phases d'apprentissage du LLM, de diversifier les sources de données ; et dans le même temps d'accorder plus de poids aux données et conversations basées sur des faits et/ou basés sur des preuves (ex. : médecine fondée sur les faits) et sur la science (par rapport aux conversations basées sur des opinions), grâce à l'exécution d'algorithmes régulièrement contrôlés par des humains, grâce à des analyses comparées des résultats, et à la mobilisation de techniques d'explicabilité des résultats[36]. Dans certains cas des données synthétiques conçues pour être aussi peu biaisées que possibles peuvent être utilisées.
Entre 2018 et 2020, la méthode standard pour exploiter un LLM pour une tâche spécifique de traitement automatique des langues consistait à affiner le modèle avec un entraînement supplémentaire spécifique à la tâche. Il a ensuite été découvert que des LLM plus puissants tels que GPT-3 peuvent résoudre des tâches sans entraînement supplémentaire via des techniques dans lesquelles le problème à résoudre est présenté au modèle sous forme de requête (synonyme de « prompt » ou « invite »[39]), éventuellement avec quelques exemples textuels de problèmes similaires avec les réponses correspondantes attendues afin de guider le modèle[28].
L'approche qui consiste à fournir d'abord quelques exemples de réponses valides pour des requêtes similaires est appelée « requête en quelques coups » (few-shot prompt). Par exemple, une tâche d'analyse des sentiments consistant à déterminer le sentiment d'une critique de film pourrait être formulée avec la requête[28] :
Critique : Ce film est nul.
Sentiment : négatif
Critique : Ce film est fantastique !
Sentiment :
Si le modèle affiche « positif », alors il a correctement résolu la tâche. Dans la requête à partir de zéro (zero-shot prompt), aucun exemple n'est fourni. Un exemple de requête à partir de zéro pour la même tâche d'analyse des sentiments serait
Le sentiment associé à la critique de film "Ce film est fantastique !" est
Une autre méthode parfois utilisée est celle de la chaîne de pensée. Par exemple en ajoutant dans la requête « raisonnons étape par étape ». Cette méthode peut s'avérer efficace pour les problèmes nécessitant plusieurs étapes de raisonnement, tels que les problèmes d'arithmétique[42].
Évaluation
Perplexité
La mesure la plus couramment utilisée de la performance d'un modèle de langage est sa perplexité sur un corpus de texte donné. La perplexité est une mesure de la capacité d'un modèle à prédire le contenu d'un ensemble de données ; plus la probabilité que le modèle attribue à l'ensemble de données est élevée, plus la perplexité est faible. Mathématiquement, la perplexité est définie comme l'exponentielle de la moyenne de la log-vraisemblance négative par jeton :
ici est le nombre de jetons dans le corpus de texte, et le « contexte du jeton i » dépend du type spécifique de LLM utilisé. Si le LLM est autorégressif, alors le « contexte pour le jeton i » est le segment de texte apparaissant avant le jeton i. Si le LLM est masqué, alors « contexte pour le jeton i » est le segment de texte entourant le jeton i.
Étant donné que les modèles de langage peuvent suradapter à leurs données d'apprentissage, les modèles sont généralement évalués en fonction de leur perplexité sur un ensemble de tests de données invisibles. Cela présente des défis particuliers pour l'évaluation de grands modèles de langage. Au fur et à mesure qu'ils sont entraînés sur des corpus de texte de plus en plus volumineux largement extraits du Web, il devient de plus en plus probable que les données d'entraînement des modèles incluent par inadvertance des parties d'un ensemble de tests donné.
Cette notion est à l'origine du nom de la startup d'IA Perplexity AI, créée en août 2022[43].
Ensembles de données et points de repère spécifiques aux tâches
Un grand nombre d'ensembles de données de test de validation ou de performance ont également été développés pour évaluer les capacités des modèles de langage sur des tâches en aval plus spécifiques. Les tests peuvent être conçus pour évaluer une variété de capacités, y compris les connaissances générales, le raisonnement de bon sens et la résolution de problèmes mathématiques.
Une grande catégorie d'ensembles de données d'évaluation est les ensembles de données de questions-réponses, consistant en des paires de questions et de réponses correctes, par exemple, (« Les Sharks de San Jose ont-ils remporté la Coupe Stanley? » , « Non »). Une tâche de réponse aux questions est considérée comme un « livre ouvert » si l'invite du modèle comprend un texte à partir duquel la réponse attendue peut être dérivée (par exemple, la question précédente pourrait être jointe à un texte qui comprend la phrase « Les Sharks ont atteint la coupe Stanley finales une fois, perdant contre les Penguins de Pittsburgh en 2016. »). Sinon, la tâche est considérée comme « livre fermé », et le modèle doit s'appuyer sur les connaissances retenues pendant l'entrainement. Voici quelques exemples d'ensembles de données de réponse aux questions couramment utilisés : TruthfulQA, Web Questions, TriviaQA et SQuAD.
Les ensembles de données d'évaluation peuvent également prendre la forme d'une complétion de texte, le modèle sélectionnant le mot ou la phrase la plus probable pour compléter une invite, par exemple : « Alice était amie avec Bob. Alice est allée rendre visite à son amie, ____ ».
Certains repères composites ont également été développés, qui combinent une diversité d'ensembles de données et de tâches d'évaluation différents. Les exemples incluent GLUE, SuperGLUE, MMLU, BIG-bench et HELM[44].
Auparavant, il était courant de rapporter les résultats sur une partie non conservée d'un ensemble de données d'évaluation après avoir effectué un réglage fin supervisé sur le reste. Il est maintenant plus courant d'évaluer un modèle pré-formé directement par des techniques d'incitation, bien que les chercheurs varient dans les détails de la façon dont ils formulent des invites pour des tâches particulières, en particulier en ce qui concerne le nombre d'exemples de tâches résolues qui sont associés à l'invite.
Évaluations construites de manière contradictoire
En raison du rythme rapide d'amélioration des grands modèles de langage, les repères d'évaluation ont souffert de courtes durées de vie, les modèles de pointe « saturant » rapidement les repères existants, dépassant les performances des annotateurs humains, conduisant à des efforts pour remplacer ou augmenter le repère avec tâches plus exigeantes.
Certains ensembles de données ont été construits de manière contradictoire, en se concentrant sur des problèmes particuliers sur lesquels les modèles de langage existants semblent avoir des performances inhabituellement médiocres par rapport aux humains. Un exemple est l'ensemble de données TruthfulQA, un ensemble de données de questions-réponses composé de 817 questions auxquelles les modèles de langage sont susceptibles de répondre de manière incorrecte en imitant les faussetés auxquelles ils ont été exposés à plusieurs reprises pendant l'entraînement. Par exemple, un LLM peut répondre « Non » à la question « Pouvez-vous apprendre de nouveaux tours à un vieux chien ? » en raison de son exposition à l'expression anglaise, vous ne pouvez pas apprendre de nouveaux tours à un vieux chien, même si ce n'est pas littéralement vrai.
Un autre exemple d'ensemble de données d'évaluation contradictoire est Swag et son successeur, HellaSwag, des collections de problèmes dans lesquels l'une des multiples options doit être sélectionnée pour compléter un passage de texte. Les complétions incorrectes ont été générées par échantillonnage à partir d'un modèle de langage et filtrage avec un ensemble de classificateurs. Les problèmes qui en résultent sont insignifiants pour les humains, mais au moment où les ensembles de données ont été créés, les modèles de langage de pointe étaient peu précis. Par exemple:
Nous voyons un panneau indiquant un centre de remise en forme. Nous voyons ensuite un homme parler à la caméra et assis et allongé sur un ballon d'exercice. L'homme... a) montre comment augmenter l'efficacité de l'exercice en faisant monter et descendre des balles. b) bouge tous ses bras et ses jambes et développe beaucoup de muscles. c) joue ensuite la balle et nous assistons à une démonstration de graphisme et de taille de haie.
d) effectue des redressements assis tout en étant sur le ballon et en parlant.
BERT sélectionne b) comme l'achèvement le plus probable, bien que la bonne réponse soit d).
Le premier d'une série d'alternatives GPT-3 gratuites publiées par EleutherAI. GPT-Neo a surpassé un modèle GPT-3 de taille équivalente sur certains bancs d'essai, mais s'est avéré nettement moins performant que le plus grand GPT-3.
LLM entraîné à la résolution de "questions mathématiques et scientifiques en utilisant un raisonnement étape par étape"[68]. Minerva est basé sur le modèle PaLM, entraîné sur des données mathématiques et scientifiques.
Entraîné sur un grand corpus de 20 langues afin d'obtenir de meilleures performances avec moins de paramètres. Des chercheurs de l'université de Stanford ont entraîné un modèle affiné basé sur les poids LLaMA, appelé Alpaca[72].
LLM entraîné sur des données financières provenant de sources propriétaires, qui "surpasse les modèles existants sur les tâches financières par des marges significatives sans sacrifier la performance sur les repères LLM généraux".
LLM entrainé a partir de données majoritairement françaises.
Notes et références
Notes
↑Il s'agit de la date à laquelle la documentation décrivant l'architecture du modèle a été publiée pour la première fois.
↑Dans de nombreux cas, les chercheurs publient ou rapportent plusieurs versions d'un modèle ayant des tailles différentes. Dans ce cas, la taille du modèle le plus grand est indiquée ici.
↑Il s'agit de la licence des poids du modèle pré-entraîné. Dans la plupart des cas, le code d'entraînement lui-même est libre ou peut être facilement reproduit..
↑Les modèles les plus petits, y compris le 66B, sont publiquement disponibles, par contre le modèle 175B est disponible sur demande.[trad 1]
↑à partir de pages web filtrées pour leur contenu mathématique et d'articles soumis au serveur de prépublication arXiv
↑Facebook's license and distribution scheme restricted access to approved researchers, but the model weights were leaked and became widely available.
↑Comme expliqué dans le rapport technique : « Compte tenu à la fois du cadre compétitif et des implications de grands modèles tels que GPT-4 en matière de sécurité, ce rapport ne contient aucun détail supplémentaire concernant l'architecture (y compris la taille du modèle), le matériel, le calcul d'entrainement, l'élaboration du corpus de données, la méthode d'entrainement... »[trad 2][73] Nombre approximatif dans le graphique comparant les espaces de rangement, selon le même rapport.
↑basé sur les sources de données de Bloomberg, plus 345 milliards de jetons provenant d'ensembles de données à usage général.
Traductions
↑(en) « The smaller models including 66B are publicly available, while the 175B model is available on request. »
↑(en) « Given both the competitive landscape and the safety implications of large-scale models like GPT-4, this report contains no further details about the architecture (including model size), hardware, training compute, dataset construction, training method ... »
↑(en) Jason Wei, Yi Tay, Rishi Bommasani et Colin Raffel, « Emergent Abilities of Large Language Models », Transactions on Machine Learning Research, (ISSN2835-8856, lire en ligne, consulté le )
↑Villalobos, Sevilla, Heim et Besiroglu, « Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning », arXiv:2211.04325 [cs], (lire en ligne).
↑ a et b(en) « Scaling Laws », sur AI Alignment Forum, (consulté le )
↑Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch et Elena Buchatskaya, « Training Compute-Optimal Large Language Models », arXiv:2203.15556 [cs], (lire en ligne).
↑Notez que le coût d'entraînement est beaucoup plus élevé que le coût d'inférence, puisqu’il en coûte 1 à 2 FLOP par paramètre pour inférer sur un jeton.
↑ abc et d(en) Wei, Tay, Bommasani et Raffel, « Emergent Abilities of Large Language Models », Transactions on Machine Learning Research, (ISSN2835-8856, arXiv2206.07682, lire en ligne).
↑Hadas Kotek, Rikker Dockum et David Sun, « Gender bias and stereotypes in Large Language Models », Proceedings of The ACM Collective Intelligence Conference, Association for Computing Machinery, cI '23, , p. 12–24 (ISBN979-8-4007-0113-9, DOI10.1145/3582269.3615599, lire en ligne, consulté le )
↑Fatma Elsafoury, Steve R. Wilson, Stamos Katsigiannis et Naeem Ramzan, « SOS: Systematic Offensive Stereotyping Bias in Word Embeddings », Proceedings of the 29th International Conference on Computational Linguistics, International Committee on Computational Linguistics, , p. 1263–1274 (lire en ligne, consulté le )
↑Karen Zhou et Chenhao Tan, « Entity-Based Evaluation of Political Bias in Automatic Summarization », Findings of the Association for Computational Linguistics: EMNLP 2023, Association for Computational Linguistics, , p. 10374–10386 (DOI10.18653/v1/2023.findings-emnlp.696, lire en ligne, consulté le )
↑(en) Queenie Luo, Michael J. Puett et Michael D. Smith, « A Perspectival Mirror of the Elephant: Investigating Language Bias on Google, ChatGPT, Wikipedia, and YouTube », scientific journal, 12-25-2023 (lire en ligne [archive] [PDF])
↑Yang, Dai, Yang et Carbonell, « XLNet: Generalized Autoregressive Pretraining for Language Understanding », arXiv:1906.08237 [cs], (lire en ligne, consulté le )
↑Sidney Black, Stella Biderman et Eric Hallahan « GPT-NeoX-20B: An Open-Source Autoregressive Language Model » () (lire en ligne, consulté le ) —Proceedings of BigScience Episode #5 -- Workshop on Challenges & Perspectives in Creating Large Language Models
↑Köpf, Kilcher, von Rütte et Anagnostidis, « OpenAssistant Conversations -- Democratizing Large Language Model Alignment », arXiv:2304.07327 [cs], (lire en ligne)
(en) Stephen Ornes, « The Unpredictable Abilities Emerging From Large AI Models », Quanta Magazine, (lire en ligne).
Stephen Ornes, « Modèles massifs de langage. D'où viennent les coups de génie de l'IA ? », Pour la science, no 549, , p. 46-51 (lire en ligne), adaptation française par la revue.