Veliki jezički modeli

Veliki jezički model (engleski: large language model - LLM) jest jezički model koji se sastoji od neuronske mreže s mnogo parametara obučene na velikim količinama neoznačenog teksta upotrebom samonadziranog učenja. Pojavili su se oko 2018. i pokazali su se uspješnim u raznim zadaćama. Njihov uspjeh promijenio je fokus istraživanja obrade prirodnog jezika, od prethodne paradigme obučavanja specijaliziranih nadziranih modela za određene zadatke.[1]

Iako pojam "veliki jezički model" nema formalnu definiciju, općenito se odnosi na modele dubokog učenja koji imaju broj parametara veličine milijardi ili više.[2] Ovi opći modeli se izvrsno snalaze u širokom rasponu zadataka, za razliku od treniranja za jedan specifičan zadatak (kao što su analiza sentimenta, prepoznavanje imenovanih entiteta ili matematičko zaključivanje).[3][4] Iako su trenirani na jednostavnim zadacima poput predviđanja sljedeće riječi u rečenici, neuronski jezični modeli s dovoljno treniranja i broja parametara pokazuju se sposobni za razumijevanje velikog dijela sintakse i semantike ljudskog jezika. Osim toga, veliki jezički modeli pokazuju značajno opće znanje i sposobni su "zapamtiti" veliku količinu činjenica tokom treninga.[3]

Primjena na zadaće

Od 2018. do 2020, standardna metoda korištenja velikih jezičkih modela za specifičan zadatak obrade prirodnog jezika bila je podešavanje modela s dodatnim treniranjem specifičnim za taj zadatak. Naknadno je utvrđeno da moćniji modeli poput GPT-3 mogu rješavati zadatke bez dodatnog treniranja putem tehnika "promptiranja", u kojima se problem modelu opisuje kroz jedan ili više tekstualnih upita, dodavajući primjere sličnih problema i njihovih rješenja.[5]

Fino podešavanje

Fino podešavanje (engleski: fine-tuning) praksa je modificiranja postojećeg istreniranog jezičkog modela nadziranim treniranjem na specifičnom zadatku (npr. analiza sentimenta, prepoznavanje imenovanih entiteta ili označavanje vrste riječi). To je oblik prenosnog učenja (engleski: transfer learning). Moguće je obučiti čitavu ili samo određene slojeve neuronske mreže. Obično se postiže sa nadziranim učenjem, a neke tehnike uključuju i polunadzirano učenje.

Promptiranje

GPT-3 je popularizirao promptiranje,[4] rješavanje problema koji se formuliraju tekstualnim upitima koji model mora riješiti pružajući završetak (putem zaključivanja). U promptiranju s malo podataka (engleski: Few-shot prompting), upit uključuje mali broj primjera sličnih parova (problema, rješenja).[3] Na primjer, zadatak analize sentimenta označavanjem sentimenta filmske recenzije mogao bi biti upitan na sljedeći način:[4]

Recenzija: Ovaj film je bezveze.
Sentiment: negativan

Recenzija: Ovaj film je sjajan!
Sentiment:

Ako model izbaci "pozitivan", onda je tačno riješio zadatak. U promptiranju bez podataka (engleski: zero-shot prompt), nisu dostavljeni primjeri rješenja.[6][7] Primjer takvog prompta za isti zadatak analize sentimenta bio bi "Sentiment povezan s filmskom recenzijom "Ovaj film je fantastičan!" je".[8]

Performanse modela sa malo podataka pokazale su konkurentne rezultate na zadacima obrade prirodnog jezika, ponekad čak i nadmašujući prethodne fino podešene pristupe. Primjeri takvih zadataka su prevođenje, odgovaranje na pitanja, Cloze zadaci, dešifriranje riječi i korištenje novih riječi u rečenici.[7] Stvaranje i optimizacija takvih promptova naziva se inženjering promptova (engleski: prompt engineering).

Reference

  1. ^ "Human Language Understanding & Reasoning". American Academy of Arts & Sciences (jezik: engleski). 13. 4. 2022. Pristupljeno 3. 4. 2023.
  2. ^ Carlini, Nicholas; Tramer, Florian; Wallace, Eric; Jagielski, Matthew; Herbert-Voss, Ariel; Lee, Katherine; Roberts, Adam; Brown, Tom B; Song, Dawn; Erlingsson, Ulfar (2021). Extracting Training Data from Large Language Models (PDF). USENIX Security Symposium. 6.
  3. ^ a b c Manning, Christopher D. (2022). "Human Language Understanding & Reasoning". Daedalus.
  4. ^ a b c Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny; Metzler, Donald; Chi, Ed H.; Hashimoto, Tatsunori; Vinyals, Oriol; Liang, Percy; Dean, Jeff; Fedus, William (31. 8. 2022). "Emergent Abilities of Large Language Models". Transactions on Machine Learning Research (jezik: engleski). ISSN 2835-8856.
  5. ^ Jurafsky, Dan; Martin, James H. (7. 1. 2023). Speech and Language Processing (PDF) (3rd edition draft izd.). Pristupljeno 24. 5. 2022.
  6. ^ Wiggers, Kyle (28. 4. 2022). "The emerging types of language models and why they matter". TechCrunch.
  7. ^ a b Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (Dec 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H. (ured.). "Language Models are Few-Shot Learners" (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877–1901.
  8. ^ Bosma, Maarten; Wei, Jason (6. 10. 2021). "Introducing FLAN: More generalizable Language Models with Instruction Fine-Tuning". Google Research.