Велика мовна модель

Велика мовна модель або велика модель мови (ВММ або LLM від англ. large language model) — це модель мови, що складається з нейронної мережі з багатьма параметрами (від десятків мільйонів до мільярдів), навчених на великій кількості немаркованого тексту за допомогою самокерованого або напівкерованого навчання[1]. LLM з'явилися приблизно у 2018 році та добре справляються з різноманітними завданнями. Це змістило фокус досліджень обробки природної мови з попередньої парадигми підготовки спеціалізованих керованих моделей для конкретних завдань.

Хоча термін «велика мовна модель» не має формального визначення, він часто відноситься до моделей глибокого навчання з мільйонами або навіть мільярдами параметрів, які були «попередньо навчені» на великому корпусі. LLM — це моделі загального призначення, які відмінно справляються з широким спектром завдань, на відміну від навчання для одного конкретного завдання (наприклад, аналіз настроїв, розпізнавання іменованих об'єктів або математичне міркування)[2]. Діапазон і майстерність, з якою вони можуть виконувати завдання, як правило, є функцією кількості ресурсів (даних, розміру параметрів, обчислювальної потужності), виділених для них[3].

Архітектура

Великі мовні моделі найчастіше використовують архітектуру типу трансформер, яка з 2018 року стала стандартною технікою глибокого навчання для послідовних даних (раніше найбільш поширеними були рекурентні архітектури, такі як LSTM).

Токенізація

LLM — це математичні функції, вхід і вихід яких є списками чисел. Отже, слова потрібно перетворити на числа.

LLM використовують окремий токенізатор, який відображає між текстами та списками цілих чисел. Цей токенізатор зазвичай спочатку адаптується до всього навчального набору даних, а потім заморожується до того, як LLM буде навчений. Токенізатор виконує подвійну роль, яка включає стиснення тексту, що економить обчислювальні ресурси. Наприклад, загальні слова або фрази на кшталт «де знаходиться» можуть бути закодовані в один токен замість семи символів.

Іншою функцією токенізаторів є стиснення тексту, що економить обчислення. Звичайні слова чи фрази, як-от «де є», можна закодувати одним маркером замість 7 символів. У серії OpenAI GPT використовується токенізатор, де 1 маркер відображає приблизно 4 символи, або приблизно 0,75 слова, у звичайному англійському тексті[4]. Незвичайний англійський текст менш передбачуваний, тому менш стискається, тому для кодування потрібно більше токенів.

Токенізатор не може виводити довільні цілі числа. Зазвичай вони виводять лише цілі числа в діапазоні , де називається розміром його словникового запасу.

Деякі токенізери здатні обробляти довільний текст (зазвичай, працюючи безпосередньо з Unicode), але деякі ні. Зустрічаючи текст, який не кодується, токенізатор виводить спеціальний маркер (часто 0), який представляє «невідомий текст». Це часто записується як [UNK], наприклад, у статті BERT.

Інший спеціальний маркер, який зазвичай використовується, це [PAD] (часто 1), для «заповнення». Це використовується тому, що LLM зазвичай використовуються для пакетів тексту одночасно, і ці тексти не кодуються до однакової довжини. Оскільки LLM зазвичай вимагають, щоб вхідні дані були масивом без зубців, коротші закодовані тексти повинні бути доповнені, поки вони не збігаються з довжиною найдовшого.

Навчання

Більшість LLM попередньо навчені таким чином, що враховуючи навчальний набір текстових маркерів, модель передбачає маркери в наборі даних. Існує два загальних стилі такої попередньої підготовки[5]:

  • авторегресія (стиль GPT, «передбачити наступне слово»): якщо взяти сегмент тексту, наприклад «Я люблю їсти», модель передбачає наступні маркери, наприклад «морозиво».
  • маскований («BERT-style», «close test»): враховуючи сегмент тексту, наприклад «I like to [MASK] [MASK] cream» модель передбачає замасковані лексеми, наприклад «eat ice».

Див. також

Примітки

  1. Goled, Shraddha (7 травня 2021). Self-Supervised Learning Vs Semi-Supervised Learning: How They Differ. Analytics India Magazine. 
  2. Wei, Jason; Tay, Yi; Bommasani, Rishi; Raffel, Colin; Zoph, Barret; Borgeaud, Sebastian; Yogatama, Dani; Bosma, Maarten; Zhou, Denny (31 серпня 2022). Emergent Abilities of Large Language Models. Transactions on Machine Learning Research (англ.). ISSN 2835-8856. 
  3. Bowman, Samuel R. (2023). Eight Things to Know about Large Language Models (PDF). arXiv:2304.00612. 
  4. OpenAI API. platform.openai.com (англ.). Архів оригіналу за 23 квітня 2023. Процитовано 30 квітня 2023. 
  5. Zaib, Munazza; Sheng, Quan Z.; Emma Zhang, Wei (4 лютого 2020). A Short Survey of Pre-trained Language Models for Conversational AI-A New Age in NLP. Proceedings of the Australasian Computer Science Week Multiconference: 1—4. arXiv:2104.10810. doi:10.1145/3373017.3373028. ISBN 9781450376976. 

Read other articles:

Cet article est une ébauche concernant un homme politique irakien. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. Muhammad Najib el-Rubaiمحمد نجيب الربيعي Muhammad Najib el-Rubai, en 1960. Fonctions Président du Conseil de souveraineté d'Irak 16 juillet 1958 – 8 février 1963(4 ans, 6 mois et 23 jours) Premier ministre Abdel Karim Kassem Prédécesseur Fayçal II (roi) Success...

 

Nama ini menggunakan cara penamaan Spanyol: nama keluarga pertama atau paternalnya adalah Ramírez dan nama keluarga kedua atau maternalnya adalah Arellano. Édgar RamírezRamírez di San Diego Comic-Con 2017LahirÉdgar Filiberto Ramírez Arellano[1]25 Maret 1977 (umur 47)[1]San Cristóbal, Táchira, Venezuela[1]PekerjaanPemeranTahun aktif2003–kini Édgar Filiberto Ramírez Arellano (pengucapan bahasa Spanyol: [ˈeðɣaɾ raˈmiɾes], Templat:;lah...

 

Nokia 9210 CommunicatorPembuatNokiaJaringanEGSM 900/1800 dan HSCSD (43.2 kbit/s)[1]Rilis pertamaJuni 2001[1]PendahuluNokia 9110 CommunicatorPenerusNokia 9300Nokia 9500 CommunicatorDimensi158 × 56 × 27 mm[1]Berat244 g[1]MemoriApplication 14 MB, user 2 MB[1]Kartu External16 MB Multi Media Card[1]BateraiBLL-3 (1300 mAh)[1]Layar4096-color 640 × 200 LCD screen[1]Layar eksternalMono Nokia 9210 Communicator adalah ponsel cerdas perta...

† Человек прямоходящий Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеНадкласс:ЧетвероногиеКлада:АмниотыКлада:Синапсиды�...

 

Keelu GurramSutradaraRaja dari MirzapurDitulis olehTapi Dharma RaoPemeranAnjali DeviAkkineni Nageswara RaoLaxmirajyamT. KanakamSurabhi KamalabaiRelangi Venkata RamaiahA. V. Subba RaoPenata musikGhantasala Venkateswara RaoSinematograferD. L. NarayanaTanggal rilis 1949 (1949) Durasi220 menitNegaraIndiaBahasaTelugu Keelugurram atau Keelu Gurram (judul Inggris: Kuda Ajaib) adalah sebuah film Telugu 1949 yang diproduksi dan disutradarai oleh Raja dari Mirzapur dibawah spanduk Sobhanacha...

 

American actor (1882–1956) George BancroftBancroft in a 1938 promotional photoBorn(1882-09-30)September 30, 1882Philadelphia, Pennsylvania, U.S.DiedOctober 2, 1956(1956-10-02) (aged 74)Santa Monica, California, U.S.Alma materUnited States Naval AcademyOccupationActorYears active1925–1942 George Bancroft (September 30, 1882 – October 2, 1956) was an American film actor, whose career spanned seventeen years from 1925 to 1942. He was cast in many notable films alongside majo...

M. N. BuchM. N. Buch planting a treeBorn(1934-10-05)5 October 1934Sahiwal, Punjab, British IndiaDied6 June 2015(2015-06-06) (aged 80)Bhopal, Madhya Pradesh, IndiaSpouseNirmala BuchAwardsPadma BhushanMan of Vision AwardAga Khan AwardUNEP Award Mahesh Neelkanth Buch[1] was an Indian civil servant and urban planner, considered by many as the architect of modern Bhopal.[2][3][4] The Government of India honored him, in 2011, with Padma Bhushan, the third highe...

 

Le suore adoratrici ancelle del Santissimo Sacramento e della Carità (in latino Sorores Adoratrices Ancillae SS. Sacramenti et a Caritate, in spagnolo Adoratrices Esclavas del Santísimo Sacramento y de la Caridad) sono un istituto religioso femminile di diritto pontificio: i membri di questa congregazione pospongono al loro nome la sigla A.A.S.C.[1] Indice 1 Storia 2 Attività e diffusione 3 Note 4 Bibliografia 5 Altri progetti 6 Collegamenti esterni Storia Maria Michela del Santiss...

 

This article is about the organiser of the First Pan-African Conference. It is not to be confused with Association for Promoting the Discovery of the Interior Parts of Africa also known as the African Association. Henry Sylvester Williams, one of the founders of the Pan African Association The African Association, known as the Pan-African Association after 1900, was an organization formed by leaders of African descent to promote and protect the interests of all subjects claiming African desce...

Keuskupan Hong KongDioecesis Sciiamchiamensis天主教香港教區Katolik Katedral Dikandung Tanpa Noda, Hong KongLokasiNegara TiongkokWilayah Hong KongProvinsi gerejawiGuangzhou (de jure)Tunduk langsung pada Tahta Suci (de facto)Kantor pusatHong Kong, TiongkokStatistikLuas1.104 km2 (426 sq mi)Populasi- Total- Katolik(per 2016)7.241.700581,000 (8,0%)Paroki51Jemaat41Sekolah317Imam295InformasiDenominasiKatolik RomaGereja sui iurisGereja LatinRitusRit...

 

此條目可参照英語維基百科相應條目来扩充。 (2021年5月6日)若您熟悉来源语言和主题,请协助参考外语维基百科扩充条目。请勿直接提交机械翻译,也不要翻译不可靠、低品质内容。依版权协议,译文需在编辑摘要注明来源,或于讨论页顶部标记{{Translated page}}标签。 约翰斯顿环礁Kalama Atoll 美國本土外小島嶼 Johnston Atoll 旗幟颂歌:《星條旗》The Star-Spangled Banner約翰斯頓環礁�...

 

Green SpotJenisMinuman jerukProdusenGreen Spot Inc.Negara asalAmerika SerikatDiperkenalkan1934 (1934)WarnaJinggaSitus webgreenspotusa.com Botol Green Spot di Venezuela. Green Spot (dalam Bahasa Indonesia artinya bintik hijau) merupakan sebuah merek minuman ringan rasa jeruk asal Amerika Serikat. Mulanya produk ini diciptakan di tahun 1934 di Claremont, California;[1] dalam perkembangannya produk tersebut tidak populer dan menghilang di AS pada 1960-an. Kini, perusahaan produsen a...

Generalization of mass, length, area and volume For the coalgebraic concept, see Measuring coalgebra. Not to be confused with Metric (mathematics). This article includes a list of general references, but it lacks sufficient corresponding inline citations. Please help to improve this article by introducing more precise citations. (January 2021) (Learn how and when to remove this message) Informally, a measure has the property of being monotone in the sense that if A {\displaystyle A} is a subs...

 

Theological reflection on the environment This article is about the field of ecotheology. For the journal Ecotheology (1996–2006), see Journal for the Study of Religion, Nature and Culture. This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources in this article. Unsourced material may be challenged and removed.Find sources: Ecotheology – news · newspapers · books · scholar ...

 

قائمة السدود السعودية تشرف عليها وزارة البيئة والمياه والزراعة السعودية[1]، وتؤدي السدود في المملكة العربية السعودية دوراً رئيسياً في توفير مياه الشرب ودعم مصادر المياه الجوفية للأغراض الزراعية، إذ ليس للمملكة العربية السعودية أي أنهار دائمة، ولكن لها العديد من سدود...

Subgroup of Slavic peoples This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: West Slavs – news · newspapers · books · scholar · JSTOR (June 2022) (Learn how and when to remove this message) Ethnic group West SlavsSłowianie Zachodni (Polish)Západní Slované (Czech)Západní Slovania (Slovak)Zôpôdni Słowi�...

 

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Baseball in Canada – news · newspapers · books · scholar · JSTOR (January 2011) (Learn how and when to remove this message) Baseball in CanadaA game in progress during the 2017 Canada GamesCountryCanadaGoverning bodyBaseball CanadaNational team(s) Men's nation...

 

La statua di Boudicca (Boadicea), regina degli Iceni, a Westminster I Britanni erano un insieme di popolazioni celtiche stanziate nell'antichità nelle Isole britanniche (Gran Bretagna e Irlanda). Giunti nella regione a partire dall'VIII secolo a.C., i Celti della Britannia rimasero frazionati in numerose tribù, facilitando così la conquista del loro territorio prima da parte dei Romani (I secolo d.C.) e poi dagli Anglosassoni (V secolo). I Britanni furono sottomessi politicamente e cultura...

Main article: 1972 United States presidential election 1972 United States presidential election in California ← 1968 November 7, 1972 1976 → Turnout82.13% (of registered voters) 3.62 pp 64.52% (of eligible voters) 2.18 pp[1]   Nominee Richard Nixon George McGovern Party Republican Democratic Home state California South Dakota Running mate Spiro Agnew Sargent Shriver Electoral vote 45 0 Popular vote 4,602,096 3,475,847 Percentage 55.00% 4...

 

Zellenleiter uniform (left) Zellenleiter armband (1930–33) Zellenleiter (German pronunciation: [ˈt͡sɛlənˌlaɪ̯tɐ]; Cell Leader) was a Nazi Party political title which existed between the years of 1930 and 1945. A Zellenleiter was higher in rank than a Blockleiter and was in charge of a Nazi Cell, composed of eight to twelve city blocks. History and Usage The position of Zellenleiter was first created in 1930 as a mid-level political leadership title. Originally known as Zell...