Veliki jezički model (engleski: large language model - LLM) jest jezički model koji se sastoji od neuronske mreže s mnogo parametara obučene na velikim količinama neoznačenog teksta upotrebom samonadziranog učenja. Pojavili su se oko 2018. i pokazali su se uspješnim u raznim zadaćama. Njihov uspjeh promijenio je fokus istraživanja obrade prirodnog jezika, od prethodne paradigme obučavanja specijaliziranih nadziranih modela za određene zadatke.[1]
Iako pojam "veliki jezički model" nema formalnu definiciju, općenito se odnosi na modele dubokog učenja koji imaju broj parametara veličine milijardi ili više.[2] Ovi opći modeli se izvrsno snalaze u širokom rasponu zadataka, za razliku od treniranja za jedan specifičan zadatak (kao što su analiza sentimenta, prepoznavanje imenovanih entiteta ili matematičko zaključivanje).[3][4] Iako su trenirani na jednostavnim zadacima poput predviđanja sljedeće riječi u rečenici, neuronski jezični modeli s dovoljno treniranja i broja parametara pokazuju se sposobni za razumijevanje velikog dijela sintakse i semantike ljudskog jezika. Osim toga, veliki jezički modeli pokazuju značajno opće znanje i sposobni su "zapamtiti" veliku količinu činjenica tokom treninga.[3]
Primjena na zadaće
Od 2018. do 2020, standardna metoda korištenja velikih jezičkih modela za specifičan zadatak obrade prirodnog jezika bila je podešavanje modela s dodatnim treniranjem specifičnim za taj zadatak. Naknadno je utvrđeno da moćniji modeli poput GPT-3 mogu rješavati zadatke bez dodatnog treniranja putem tehnika "promptiranja", u kojima se problem modelu opisuje kroz jedan ili više tekstualnih upita, dodavajući primjere sličnih problema i njihovih rješenja.[5]
Fino podešavanje
Fino podešavanje (engleski: fine-tuning) praksa je modificiranja postojećeg istreniranog jezičkog modela nadziranim treniranjem na specifičnom zadatku (npr. analiza sentimenta, prepoznavanje imenovanih entiteta ili označavanje vrste riječi). To je oblik prenosnog učenja (engleski: transfer learning). Moguće je obučiti čitavu ili samo određene slojeve neuronske mreže. Obično se postiže sa nadziranim učenjem, a neke tehnike uključuju i polunadzirano učenje.
Promptiranje
GPT-3 je popularizirao promptiranje,[4] rješavanje problema koji se formuliraju tekstualnim upitima koji model mora riješiti pružajući završetak (putem zaključivanja). U promptiranju s malo podataka (engleski: Few-shot prompting), upit uključuje mali broj primjera sličnih parova (problema, rješenja).[3] Na primjer, zadatak analize sentimenta označavanjem sentimenta filmske recenzije mogao bi biti upitan na sljedeći način:[4]
Recenzija: Ovaj film je bezveze.
Sentiment: negativan
Recenzija: Ovaj film je sjajan!
Sentiment:
Ako model izbaci "pozitivan", onda je tačno riješio zadatak. U promptiranju bez podataka (engleski: zero-shot prompt), nisu dostavljeni primjeri rješenja.[6][7] Primjer takvog prompta za isti zadatak analize sentimenta bio bi "Sentiment povezan s filmskom recenzijom "Ovaj film je fantastičan!" je".[8]
Performanse modela sa malo podataka pokazale su konkurentne rezultate na zadacima obrade prirodnog jezika, ponekad čak i nadmašujući prethodne fino podešene pristupe. Primjeri takvih zadataka su prevođenje, odgovaranje na pitanja, Cloze zadaci, dešifriranje riječi i korištenje novih riječi u rečenici.[7] Stvaranje i optimizacija takvih promptova naziva se inženjering promptova (engleski: prompt engineering).