Large Language Model

Ein Large Language Model, kurz LLM (englisch, vereinzelt übertragen großes Sprachmodell), ist ein Sprachmodell, das sich durch seine Fähigkeit zur Textgenerierung auszeichnet. Es handelt sich um ein computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat, für die mathematische Beschreibung siehe Sprachmodell.

Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung gigantischer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viel Rechenressource.[1] Große Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze und werden (a priori) entweder durch selbst überwachtes Lernen oder halb überwachte Lernmethoden trainiert. Stand 2024 werden meistens Transformer als Netzwerkarchitektur gewählt[2].

Große Sprachmodelle arbeiten als selbst anpassende Sprachmodelle, die „verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.[3] Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung[4]. Größere Modelle, wie z. B. das inzwischen populäre GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe von Prompt Engineering ähnliche Ergebnisse erzielen können.[5] Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und „Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass Große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.[6]

LLMs werden beispielsweise bei Open Assistant, ChatGPT, Ernie Bot und Grok eingesetzt. Einige große Sprachmodelle sind die GPT-Modellreihe von OpenAI (z. B. GPT-3.5 und GPT-4, die in ChatGPT und Microsoft Copilot verwendet werden), Googles PaLM, Gemini und Gemma 2, Metas LLaMA-Familie von Open-Source-Modellen, Anthropics Claude und X.AIs Grok-1.

Geschichte

Auf der „Conference on Neural Information Processing Systems“ (NeurIPS) 2017 stellten Google-Forscher unter Ashish Vaswani die Transformer-Architektur in ihrem Papier Attention Is All You Need vor.[7][8] Ziel dieses Papiers war es, die Seq2seq-Technologie aus dem Jahr 2014 zu verbessern, und es basierte hauptsächlich auf dem von Bahdanau et al. 2014 entwickelten Aufmerksamkeitsmechanismus (attention mechanism).[9] Im darauffolgenden Jahr 2018 wurde BERT eingeführt und schnell „allgegenwärtig“. Obwohl der ursprüngliche Transformator sowohl Encoder- als auch Decoderblöcke hat, ist BERT ein reines Encoder-Modell.[10]

Obwohl GPT-1 im Jahr 2018 als reines Decoder-Modell eingeführt wurde, erregte GPT-2 im Jahr 2019 große Aufmerksamkeit, da OpenAI es zunächst als zu leistungsfähig erachtete, um es aus Angst vor böswilliger Nutzung zu veröffentlichen. GPT-3 im Jahr 2020 ging noch einen Schritt weiter und ist ab 2024 nur noch über eine API verfügbar, ohne die Möglichkeit, das Modell zur lokalen Ausführung herunterzuladen. Es war das browserbasierte ChatGPT aus dem Jahr 2022, das „die Welt komplett veränderte“.[11] 2023 wurde GPT-4 für seine erhöhte Genauigkeit und als „heiliger Gral“ für seine multimodalen Fähigkeiten gepriesen.[12] OpenAI gab die High-Level-Architektur und die Anzahl der Parameter des GPT-4 nicht bekannt.

In der Zwischenzeit haben konkurrierende Sprachmodelle größtenteils mit der GPT-Serie gleichgezogen, zumindest was die Anzahl der Parameter betrifft.[13] Zu den bemerkenswerten Ausnahmen in Bezug auf die Anzahl der Parameter gehören Googles T5-11B von 2019 und PaLM-E von 2022. Am 26. Januar 2024 übertraf Googles Gemini Pro GPT-4,[14] was die Elo-Bewertung betrifft.

Seit 2022 erfreuen sich Open-Source-Modelle zunehmender Beliebtheit, zunächst vor allem BLOOM und LLaMA, die allerdings beide Einschränkungen im Einsatzbereich aufweisen. Im Januar 2024 war Mixtral 8x7b von Mistral AI laut dem LMSYS Chatbot Arena Leaderboard das leistungsfähigste offene LLM, leistungsfähiger als GPT-3.5, aber nicht so leistungsfähig wie GPT-4.[15]

Hardware

Neben GPUs gibt es seit einigen Jahren Chiparchitekturen, die für das Training und Inferencing von großen neuronalen Netzen optimiert sind. 2016 wurde beispielsweise von Google die erste Version ihrer TPU vorgestellt. Seit den 2020er Jahren gibt es aber eine ganze Reihe von Herstellern mit Spezial-Hardware für die Bearbeitung von LLMs. So haben beispielsweise Cerebras den CS-1, CS-2 und CS-3, AMD die Instinct Serie, Intel die Gaudi-Plattform und Nvidia Hopper bzw. dessen Nachfolger Blackwell eingeführt bzw. angekündigt.

Multimodal Learning

Multimodal Learning verwendet verschieden strukturierte Daten im Bereich der künstlichen Intelligenz:[16]

  • Text ist eine der am häufigsten verwendeten Modalitäten im maschinellen Lernen. Textdaten enthalten strukturierte Informationen, und mithilfe der natürlichen Sprachverarbeitung lässt sich leicht Wissen aus ihnen extrahieren. Die Techniken, die zur Verarbeitung dieser Informationen verwendet werden, umfassen Tokenisierung, Lemmatisierung, Syntaxanalyse, Erkennung von benannten Entitäten und Textklassifizierung.
  • Bilder sind eine wesentliche Quelle visueller Informationen. Mithilfe von Convolutional Neural Networks konnten große Fortschritte beim Verständnis von Bildern erzielt werden. Verwendete Techniken sind z. B. die Objekterkennung, die Gesichtserkennung und die Segmentierung von Bildern.
  • Die Audiomodalität umfasst Informationen aus Sprachaufnahmen, Tondateien oder Live-Streams.
  • Videos sind eine leistungsstarke Quelle für multimodale Daten, weil sie visuelle und auditive Informationen kombinieren. Computer Vision und Audioverarbeitungstechniken ermöglichen es, Wissen aus einer Videosequenz zu extrahieren. Dies ermöglicht die Erkennung von sich bewegenden Objekten, die Analyse menschlicher Aktivitäten oder sogar die Erkennung von Gesten.

Bootstrapping Language-Image Pretraining

Die meisten modernen Vision-Language-Modelle benötigen während des Trainings einen hohen Rechenaufwand, weil das Training mit umfangreichen Modellen und Datensätzen erfolgt, vgl. Contrastive Language-Image Pre-training. Die Forschung befindet sich an der Schnittstelle zwischen Sehen und Sprache. Daher ist zu erwarten, dass Vision-Language-Modelle von den leicht verfügbaren unimodalen Modellen der Bilderkennung und natürlichen Spracherkennung profitieren können.

Vortrainierte Vision-Modelle bieten eine qualitativ hochwertige visuelle Darstellung. Vortrainierte Sprachmodelle, insbesondere große Sprachmodelle, bieten leistungsstarke Fähigkeiten zur Sprachgenerierung und Zero-Shot-Übertragung. Um die Kosten zu senken und dem Problem des katastrophalen Vergessens entgegenzuwirken, bleiben die unimodalen vortrainierten Modelle während des Vortrainings eingefroren. Weil große Sprachmodelle jedoch während ihres unimodalen Vortrainings keine Bilder gesehen haben, macht das Einfrieren die visuelle Sprachausrichtung besonders schwierig.[17]

Skalierungsgesetze

Passt man für jede Modalität die sieben Parameter der Gleichung

an und minimiert

für , wobei der Standard-Huberverlust für jeden Durchlauf und Modalität ist. Man setz dann , , . Um die optimalen Minima zu identifizieren, verwendet man das BGFS-Verfahren auf demselben Gitter der Initialisierungswerte. Die erhaltenen optimalen Werte befinden sich nicht an den Grenzen des Initialisierungsgitters. Die Skalierungsgesetze für jede Modalität sind im Einzelnachweis verfügbar. Die Parameter für jede Modalität variieren erheblich.[18]

Kollaps

Bei LLM und Foundation Models anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden, Verschlechterung der Ergebnisqualität kommen (Modellkollaps, model collapse). Dies kann auch nachfolgende Modellversionen betreffen, die mit einem zunehmenden Anteil künstlich generierter Trainingsdaten erstellt werden, da eine Vorsortierung in der Regel durch Webscraping erlangter Daten bisher als zu aufwändig erscheint.[19]

Trivia

Um Misinformation durch mit Webinhalten trainierte LLM vorzubeugen, schlugen Forschende der Stanford-Universität 2024 WikiChat vor, ein vorrangig Wikipedia als Wissensbasis nutzendes Sprachmodell.[20] Eine GPT-4-Implementierung habe demnach höhere inhaltliche Richtigkeit aufgewiesen als GPT-4 allein.[21]

Siehe auch

Einzelnachweise

  1. Better language models and their implications. Abgerufen am 15. Januar 2024 (englisch).
  2. Rick Merritt: What Is a Transformer Model? 25. März 2022, abgerufen am 15. Januar 2024 (englisch).
  3. Guandong Feng, Guoliang Zhu, Shengze Shi, Yue Sun, Zhongyi Fan, Sulin Gao, and Jun Hu: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Haofen Wang, Xianpei Han, Ming Liu, Gong Cheng, Yongbin Liu, Ningyu Zhang: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. 8th China Conference, CCKS 2023, Shenyang, China, August 24–27, 2023, Revised Selected Papers Springer, 2023, ISBN 978-981-9972-23-4, S. 317 ff. (hier S. 319) ("LLMs can perform various natural language tasks, such as understanding, summarizing, translating, predicting, and creating texts, by taking an input text and repeatedly predicting the next token or word"); vgl. Eight Things to Know about Large Language Models.
  4. Was ist Feinabstimmung? | IBM. 15. März 2024, abgerufen am 10. Dezember 2024.
  5. Language Models are Few-Shot Learners. (PDF) Abgerufen am 15. Januar 2024.
  6. Human Language Understanding & Reasoning. 13. April 2022, abgerufen am 15. Januar 2024 (englisch).
  7. Ashish Vaswani et al: Attention is all you need. (PDF) Google, abgerufen am 5. Februar 2024 (englisch).
  8. Rob Toews: Transformers Revolutionized AI. What Will Replace Them? Abgerufen am 5. Februar 2024 (englisch).
  9. Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate. In: Arxiv. 1. September 2014, abgerufen am 5. Februar 2024 (englisch).
  10. Was ist BERT? – von Stefan Luber, über Bigdata-Insider, am 10. Mai 2022.
  11. ChatGPT turns 1: How the AI chatbot has completely changed the world. 30. November 2023, abgerufen am 5. Februar 2024 (englisch).
  12. GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why. Abgerufen am 5. Februar 2024 (englisch).
  13. Parameters in notable artificial intelligence systems. Our World in Data, 3. April 2024, abgerufen am 16. Mai 2024 (britisches Englisch).
  14. Siddharth Jindal: Google's Gemini Pro Beats GPT-4. 27. Januar 2024, abgerufen am 5. Februar 2024 (amerikanisches Englisch).
  15. LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys. Abgerufen am 5. Februar 2024.
  16. Multimodal Learning: Die Technik, die die künstliche Intelligenz revolutioniert. In: Weiterbildung Data Science | DataScientest.com. 17. August 2023, abgerufen am 24. Juni 2024 (deutsch).
  17. Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2023, doi:10.48550/ARXIV.2301.12597, arxiv:2301.12597.
  18. Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer: Scaling Laws for Generative Mixed-Modal Language Models. 10. Januar 2023, doi:10.48550/ARXIV.2301.03728.
  19. Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal: AI models collapse when trained on recursively generated data. In: Nature. Band 631, Nr. 8022, 25. Juli 2024, ISSN 0028-0836, S. 755–759, doi:10.1038/s41586-024-07566-y, PMID 39048682, PMC 11269175 (freier Volltext) – (nature.com [abgerufen am 27. Juli 2024]).
  20. Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam: WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia. 2023, doi:10.48550/ARXIV.2305.14292, arxiv:2305.14292.
  21. WikiChat. In: Open Virtual Assistant Lab. Stanford University, abgerufen am 6. Februar 2024 (englisch).