Groot taalmodel

Een groot taalmodel (Engels: Large Language Model (LLM)) is een taalmodel dat zich onderscheidt doordat het voor algemene doeleinden tekst kan genereren, zogenaamde generatieve kunstmatige intelligentie, Hierdoor wijkt het af van gewone taalmodellen die alleen voor een specifiek doel inzetbaar zijn. Dit vermogen wordt bereikt doordat het door middel van diep leren statistische relaties heeft gelegd tussen woorden door uitgebreid op bijvoorbeeld tekstdocumenten te trainen. Hierdoor kan een gebruiker een chatgesprek voeren met een groot taalmodel op een manier waarop het bijna lijkt alsof het gesprek met een echt persoon gevoerd wordt. Ook kan zo'n taalmodel teksten genereren, bijvoorbeeld voor een boek, brieven, officiële documenten, computervertalingen, samenvattingen en zelfs programmeercode.

Grote trainingssets kunnen eigenlijk alleen gemaakt worden door web scraping.

De werking wordt door de ontwikkelaars enigszins geheim gehouden, maar er wordt aangenomen dat deze kennis hebben van de syntaxis en semantiek van de menselijke taal. Daarbij wordt gewoonlijk gebruikgemaakt van twee componenten, een met kennis van de taal en een met informatie. De informatie die opgeslagen is, is bij een groot taalmodel zeer groot en bevat daardoor veel veelzijdige informatie. Ook kan ervoor gekozen worden om alleen een dataset te gebruiken met informatie over een specifiek onderwerp of met de kennis binnen een bepaald bedrijf. Zo'n keuze heeft minder zware hardware nodig, minder rekenkracht en verbruikt minder energie.

Bij het genereren van een antwoord, reactie of tekst wordt steeds een berekening gemaakt van wat het meest waarschijnlijke volgende woord zou moeten zijn. Dit wordt bepaald aan de hand van de voorgaande woorden in de zin, de voorgaande zinnen, de input (bijvoorbeeld een vraag) van de gebruiker en de context. Het model komt dan met het volgende meest waarschijnlijke woord en begint dan aan de berekening van het daaropvolgende woord. Op die manier ontstaat een verhaal woord voor woord en zin voor zin.[1]

Het model werkt met context maar heeft zelf geen besef van enige betekenis. Dit leidt soms tot een verschijnsel genaamd hallucinatie waarbij het model een tekst genereert die zichzelf tegenspreekt, zichzelf herhaalt of gewoon onzin bevat. De mate van hallucinatie kan ingesteld worden maar wanneer hallucinatie minder of zelfs niet wordt toegestaan dan zal het model vaker vastlopen, het antwoord afbreken of zelfs helemaal geen antwoord geven.

Daarnaast is de output afhankelijk van de input waarmee het systeem getraind is. Wanneer het systeem gevoed wordt met foutieve informatie of nepnieuws dan zal het ook dergelijke informatie genereren. Tegelijkertijd moeten deze modellen uitgebreid door mensen bijgetraind worden om onnauwkeurigheden, vooroordelen, nepnieuws en kwetsende en ongepaste output te voorkomen. De output is immers afhankelijk van de trainingsdata en wanneer trainingsteksten van internet gehaald worden dan kunnen deze allerlei foutieve informatie bevatten.

Voorbeelden

  • Amazon
    • AlexaTM
  • Baidu: ERNIE-Code: een meertalig coderingsmodel met 560m parameters
  • BLOOM: BigScience Large Open-science Multilingual Language Model met 176 miljard parameters.
  • Google Research & DeepMind
    • BERT (taalmodel): Bidirectional Encoder Representations from Transformers
    • DeepMind ontwikkelde verschillende taalmodellen zoals Chinchilla AI, en grafische tools waaronder Flamingo (VLM)
    • Generalist Language Model (GLaM) 1 biljoen parameter model
    • LaMDA voor dialoogtoepassingen, een 137 miljard parametermodel
    • Pathways Language Model (PaLM) 540 miljard parameter model
    • RT-1: een model voor het bedienen van robots
    • Bard: chatbot, op 8 februari 2024 omgevormd tot Gemini: familie van multimodale grote taalmodellen
  • Microsoft/NVIDIA
    • Megatron-Turing NLG, 530 miljard parametermodel
  • Meta
  • OpenAI:
    • GPT-2: Generative pre-trained transformer 2, model met 1,5 miljard parameters
    • GPT-3: Generative Pre-trained Transformer 3, model met 175 miljard parameters
    • GPT-4: Generative Pre-trained Transformer 4, model met 1 biljoen parameters[2]
    • GPT-4o: Generative Pre-trained Transformer 4 Omni, met o.a. verbeterde spraakmogelijkheden
    • ChatGPT, een taalmodel in chatvorm, gelanceerd eind november 2022
  • Andere:
    • GPT-NeoX-20B: een opensource autoregressief taalmodel met 20 miljard parameters
    • OPT-175B van Meta AI: een ander taalmodel met 175 miljard parameters
    • VALL-E tekst-naar-spraaksynthese.

In 2023 slaagde ChatGPT voor de turingtest. Dit is een test om te bepalen of een chatbot dusdanig menselijk lijkt dat deze voor een gebruiker niet meer van een menselijke gesprekspartner te onderscheiden is.[3]