GPT (언어 모델)

오리지널 GPT 모델

GPT(Generative pre-trained transformer)는 미국의 인공지능 단체 오픈AI가 2018년 선보인[1] 대형 언어 모델(LLM)의 계열이며[2][3] GPT 모델들은 레이블링되지 않은 대량의 텍스트 데이터셋으로 미리 훈련되고 인간과 같은 문자를 생성할 수 있는 변환기 아키텍처에 기반한 인공 신경망이다.[3][4] 2023년 기준으로, 대부분의 LLM은 이러한 특징을 지니고 있으며[5] 종종 GPT로 통칭한다.[6]

OpenAI는 "GPT-n" 시리즈를 구성하기 위해 순차적으로 번호가 매겨진 매우 영향력 있는 GPT 기반 모델을 출시했다. 이들 각각은 증가된 크기(훈련 가능한 매개변수의 수) 및 훈련으로 인해 이전보다 훨씬 더 많은 능력을 발휘했다. 가장 최근인 GPT-4는 2023년 3월에 출시되었다. 이러한 모델은 지침을 따르도록 미세 조정된 모델을 포함하여 작업별 GPT 시스템의 기반이 되었으며, 이는 ChatGPT 챗봇 서비스를 지원한다.[2]

"GPT"라는 용어는 다른 사람이 개발한 모델의 이름 또는 설명에도 자주 사용된다. 예를 들어 다른 GPT 기초 모델에는 EleutherAI에서 생성한 일련의 GPT-3에서 영감을 받은 모델과 최근 Cerebras에서 생성한 7개의 모델 시리즈가 포함된다.[7] 또한 세일즈포스의 "EinsteinGPT"(CRM용)[8] 및 블룸버그의 "BloombergGPT"(금융용)와 같이 다양한 산업 분야의 회사에서 해당 분야의 작업별 GPT를 개발했다.[9]

역사

생성형 사전 훈련(Generative pre-training, GP)은 기계 학습 응용 프로그램에서 오랫동안 확립된 개념이었지만[10][11] 변환기 아키텍처는 구글에서 발명한 2017년까지 사용할 수 없었다.[12] 이러한 개발로 인해 2018년에는 BERT,[13] 2019년에는 XLNet과 같은[14] 대규모 언어 모델이 등장했다. 이것들은 사전 훈련된 변환기(PT)였지만 생성하도록 설계되지 않았다("인코더 전용").[15] 또한 그 무렵인 2018년에 OpenAI는 "생성적 사전 훈련에 의한 언어 이해 개선"이라는 제목의 기사를 발표하여 최초의 사전 훈련된 생성 변환기(GPT) 시스템을 도입했다.[16]

변환기 기반 아키텍처 이전에 최고 성능의 신경 NLP(자연어 처리) 모델은 일반적으로 대량의 수동 레이블 지정 데이터에서 지도 학습을 사용했다. 감독 학습에 대한 의존도는 잘 주석이 없는 데이터 세트에 대한 사용을 제한했으며, 또한 매우 큰 언어 모델을 교육하는 데 엄청난 비용과 시간이 소요되었다.[16]

대규모 생성 시스템을 만들기 위해 OpenAI가 채택한 준감독 접근 방식(처음에는 변환기 모델과 관련됨)에는 언어 모델링 목표를 사용하여 초기 매개변수를 설정하는 감독되지 않은 생성 "사전 훈련" 단계와 이러한 매개 변수를 대상 작업에 적용하기 위해 감독된 차별적 "미세 조정" 단계이다.[16]

기초 모델

GPT 기초 모델
모델 아키텍처 파라미터 수 트레이닝 데이터 출시일
오리지널 GPT (GPT-1) 12레벨, 12방향 변환기 디코더 (인코더 없음). linear-softmax를 따름. 117,000,000 BookCorpus:[17] 4.5 GB의 본문 (다양한 장르의 7,000권의 미출판 책에서) 2018년 6월 11일[1]
GPT-2 GPT-1 (수정된 노멀라이제이션 포함) 1,500,000,000 웹 텍스트: 40 GB 본문, 800만 개 문서 (레딧의 좋아요 버튼이 눌린 45,000,000개의 웹 페이지에서) 2019년 2월 14일
GPT-3 GPT-2 (더 큰 스케일링을 허용하기 위한 수정 포함) 175,000,000,000 570 GB 플레인텍스트, 0.4 trillion개의 토큰. 대부분 CommonCrawl, WebText, 영어 위키백과, 2권의 책 말뭉치 (Books1 및 Books2). 2020년 6월 11일[18] (2022년 3월 15일에 판의 이름이 GPT-3.5로 명명됨)
GPT-4 텍스트 예측과 RLHF로 훈련됨. 텍스트와 이미지를 입력으로 받음. 추가 정보는 공개되지 않음.[19] 미공개 미공개 2023년 3월 14일

작업 특화 모델

기본 GPT 모델을 추가로 조정하여 특정 작업 및 주제 영역을 대상으로 하는 더 많은 대상 시스템을 생성할 수 있다. 이러한 적응 방법에는 추가 미세 조정(기초 모델에 대해 수행된 것 이상)과 특정 형태의 신속한 엔지니어링이 포함될 수 있다.[20]

이에 대한 중요한 예는 지침을 따르도록 모델을 미세 조정하는 것이다. 2022년 1월 OpenAI는 기본 GPT-3 언어 모델에서 감독 교육과 인간 피드백으로부터 강화 학습(RLHF)을 조합하여 지침을 따르도록 미세 조정된 일련의 모델인 "InstructGPT"를 도입했다.[21][22] 기본적인 기본 모델에 비해 더 높은 정확도, 부정적인/독성 감정이 적고 일반적으로 사용자 요구에 더 잘 부합하는 이점이 있다. 따라서 OpenAI는 이를 API 서비스 제공의 기반으로 사용하기 시작했다.[23] 완전히 공개된 버전을 포함하여 다른 지침 조정 모델이 다른 사람들에 의해 출시되었다.[24][25]

또 다른 (관련된) 종류의 작업별 모델은 인간과 유사한 대화에 참여하는 챗봇이다. 2022년 11월 OpenAI는 InstructGPT와 유사한 방식으로 훈련된 명령 조정 언어 모델로 구동되는 온라인 채팅 인터페이스인 ChatGPT를 출시했다.[26] 그들은 RLHF를 사용하여 이 모델을 훈련시켰고 인간 AI 트레이너는 사용자와 AI를 모두 플레이하는 대화를 제공하고 이 새로운 대화 데이터 세트를 InstructGPT 데이터 세트와 혼합하여 챗봇에 적합한 대화 형식을 만들었다. 다른 주요 챗봇에는 현재 OpenAI의 GPT-4를 사용하는 마이크로소프트의 Bing Chat(OpenAI와 마이크로소프트 간의 보다 광범위한 긴밀한 협력의 일환으로)과[27] Google의 경쟁 챗봇 바드(처음에는 LaMDA 계열의 대화 훈련 언어 모델을 기반으로 하며 계획했다가 PalM으로 전환)가 포함된다.[28]

GPT를 사용할 수 있는 또 다른 종류의 작업은 인간 사용자가 제공한 보다 일반적인 목표를 달성할 수 있도록 '자체'에 대한 일련의 프롬프트를 개발하는 것과 같이 자체 지침을 생성하는 메타 작업이다.[29] 이것은 AI 에이전트로 알려져 있으며, 보다 구체적으로는 이전 자체 지침의 결과를 사용하여 후속 프롬프트를 형성하는 데 도움이 되기 때문에 재귀 에이전트라고 한다. 이것의 첫 번째 주요 예는 Auto-GPT(OpenAI의 GPT 모델을 사용함)였으며 이후 다른 것들도 개발되었다.[30]

같이 보기

각주

  1. “Improving language understanding with unsupervised learning”. 《openai.com》 (미국 영어). 2023년 3월 18일에 원본 문서에서 보존된 문서. 2023년 3월 18일에 확인함. 
  2. Haddad, Mohammed. “How does GPT-4 work and how can you start using it in ChatGPT?”. 《www.aljazeera.com》. 
  3. “Generative AI: a game-changer society needs to be ready for”. 《World Economic Forum》. 
  4. “The A to Z of Artificial Intelligence”. 《Time》. 2023년 4월 13일. 
  5. Toews, Rob. “The Next Generation Of Large Language Models”. 《Forbes》. 
  6. https://www.forbes.com/sites/joemckendrick/2023/03/26/most-jobs-soon-to-be-influenced-by-artificial-intelligence-research-out-of-openai-and-university-of-pennsylvania-suggests/?sh=420f9c8f73c7
  7. “News” (보도 자료). 
  8. Morrison, Ryan (2023년 3월 7일). “Salesforce launches EinsteinGPT built with OpenAI technology”. 《Tech Monitor》. 
  9. “The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech”. 《Forbes》. 
  10. Hinton (et-al), Geoffrey (2012년 10월 15일). “Deep neural networks for acoustic modeling in speech recognition” (PDF). 《IEEE SIGNAL PROCESSING MAGAZINE》. Digital Object Identifier 10.1109/MSP.2012.2205597. 
  11. “A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core”. Cambridge.org. 2014년 1월 22일. doi:10.1017/atsip.2013.9. 2023년 5월 21일에 확인함. 
  12. Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N.; Kaiser, Lukasz; Polosukhin, Illia (2017년 12월 5일). “Attention Is All You Need”. arXiv:1706.03762 – arXiv.org 경유. 
  13. Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (2019년 5월 24일). “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”. arXiv:1810.04805v2 – arXiv.org 경유. 
  14. Yang (et-al), Zhilin (2019). “XLNet” (PDF). 《Proceedings from NeurIPS 2019》. 
  15. Naik, Amit Raja (2021년 9월 23일). “Google Introduces New Architecture To Reduce Cost Of Transformers”. 《Analytics India Magazine》. 
  16. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (2018년 6월 11일). “Improving Language Understanding by Generative Pre-Training” (PDF). OpenAI. 12쪽. 2021년 1월 26일에 원본 문서 (PDF)에서 보존된 문서. 2021년 1월 23일에 확인함. 
  17. Zhu, Yukun; Kiros, Ryan; Zemel, Rich; Salakhutdinov, Ruslan; Urtasun, Raquel; Torralba, Antonio; Fidler, Sanja (2015). 《Aligning Books and Movies: Towards Story-Like Visual Explanations by Watching Movies and Reading Books》. IEEE International Conference on Computer Vision (ICCV) 2015. 19–27쪽. arXiv:1506.06724. 2023년 2월 5일에 원본 문서에서 보존된 문서. 2023년 2월 7일에 확인함. 
  18. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (2020년 7월 22일). “Language Models are Few-Shot Learners”. arXiv:2005.14165v4 – arXiv.org 경유. 
  19. OpenAI (2023). “GPT-4 Technical Report” (PDF). 2023년 3월 14일에 원본 문서 (PDF)에서 보존된 문서. 2023년 3월 16일에 확인함. 
  20. Bommasani (et-al), Rishi (2022년 7월 12일). “On the Opportunities and Risks of Foundation Models” (PDF). 《arXiv》. 
  21. “Aligning language models to follow instructions”. 《openai.com》. 2023년 3월 23일에 원본 문서에서 보존된 문서. 2023년 3월 23일에 확인함. 
  22. Ouyang, Long; Wu, Jeff; Jiang, Xu; 외. (2022년 3월 4일). “Training language models to follow instructions with human feedback”. arXiv:2203.02155. 
  23. Ramnani, Meeta (2022년 1월 28일). “OpenAI dumps its own GPT-3 for something called InstructGPT, and for right reason”. 《Analytics India Magazine》. 
  24. “Stanford CRFM”. 《crfm.stanford.edu》. 
  25. “Free Dolly: Introducing the World's First Truly Open Instruction-Tuned LLM”. 《Databricks》. 2023년 4월 12일. 
  26. “Introducing ChatGPT”. 《openai.com》 (미국 영어). 2023년 3월 16일에 원본 문서에서 보존된 문서. 2023년 3월 16일에 확인함. 
  27. Wiggers, Kyle (2023년 5월 4일). “Microsoft doubles down on AI with new Bing features”. 
  28. “ChatGPT vs. Bing vs. Google Bard: Which AI Is the Most Helpful?”. 《CNET》. 
  29. “Auto-GPT, BabyAGI, and AgentGPT: How to use AI agents”. 《Mashable》. 2023년 4월 19일. 
  30. Marr, Bernard. “Auto-GPT May Be The Strong AI Tool That Surpasses ChatGPT”. 《Forbes》. 

Read other articles:

Girls SquadBerkas:The new Poster Girls Squad.jpegGenreAcara realitasPembuatNetverse OriginalPresenterBerlian AuraPaula AndreaMarella MulwantoNegara asal IndonesiaBahasa asliBahasa IndonesiaBahasa InggrisProduksiDurasi36-44 menit (Netverse)60 menit (NET.)Rumah produksiNET. EntertainmentDistributorNet Media DigitalNet Visi MediaRilis asliJaringan Netverse(1 April-1 Juli 2023) NET.(19 Mei-30 Juni 2023) Format gambarHDTV (1080i 16:9)Format audioDolby Digital 5.1Rilis1 April (2023-04-01...

 

Antonín ZápotockýAntonín Zápotocký pada Desember 1948 Presiden CekoslowakiaMasa jabatan21 Maret 1953 – 13 November 1957 PendahuluKlement GottwaldPenggantiAntonín NovotnýPerdana Menteri CekoslowakiaMasa jabatan15 Juni 1948 – 14 Maret 1953 PendahuluKlement GottwaldPenggantiViliam Široký Informasi pribadiLahir(1884-12-19)19 Desember 1884Zákolany, Bohemia, Cisleithania, Austria-HungariaMeninggal13 November 1957(1957-11-13) (umur 72)Praha, CekoslowakiaPartai p...

 

سيدهارتا غوتاما صورة لبوذا في حالة التأمل مؤسس البوذية الولادة 19 مايو 563 ق ملومبيني  نيبال الوفاة 19 مايو 483 ق م (80 سنة)أتر برديش،  الهند مبجل(ة) في البوذية، البهائية، الطائفة الأحمدية المقام الرئيسي لومبيني،  نيبال سيدهارثا غوتاما (بالسنسكريتي सिद्धार्थ गौतम،...

Artikel ini sebatang kara, artinya tidak ada artikel lain yang memiliki pranala balik ke halaman ini.Bantulah menambah pranala ke artikel ini dari artikel yang berhubungan atau coba peralatan pencari pranala.Tag ini diberikan pada Januari 2023. Protes kepala sapi adalah protes yang digelar di depan markas besar pemerintah negara bagian Selangor di Gedung Sultan Salahuddin Abdul Aziz Shah, Shah Alam, Malaysia pada tanggal 28 Agustus 2009. Protes ini disebut demikian karena tindakan dari bebera...

 

Small nucleolar RNA snoR60Predicted secondary structure and sequence conservation of snoR60IdentifiersSymbolsnoR60RfamRF00339Other dataRNA typeGene; snRNA; snoRNA; CD-boxDomain(s)EukaryotaGOGO:0006396 GO:0005730SOSO:0000593PDB structuresPDBe In molecular biology, Small nucleolar RNA snoR60 is a non-coding RNA (ncRNA) molecule which functions in the modification of other small nuclear RNAs (snRNAs). This type of modifying RNA is usually located in the nucleolus of the eukaryotic cell which is ...

 

Multinational telecommunications company Tele2Logo used for its Swedish operations since April 2021, after the discontinuation of the Com Hem brandNative nameTele2 ABCompany typePublicly traded AktiebolagTraded asNasdaq Stockholm: TEL2 ATEL2 BISINSE0005190238[1]IndustryTelecommunications industryFounded1993; 31 years ago (1993)HeadquartersStockholm, SwedenArea servedSweden (brand licensed to third-party companies in other countries)Key peopleCarla Smits-Nustelin...

Questa voce sull'argomento società calcistiche colombiane è solo un abbozzo. Contribuisci a migliorarla secondo le convenzioni di Wikipedia. Millonarios[1]Calcio Los Embajadores, El Ballet Azul, Los Albiazules, Millos Segni distintiviUniformi di gara Casa Trasferta Colori sociali Bianco, blu SimboliGallo Dati societariCittàBogotà Nazione Colombia ConfederazioneCONMEBOL Federazione FCF CampionatoCategoría Primera A Fondazione1946 Presidente Joseph Marie Oughourlian Alle...

 

Artikel ini perlu diwikifikasi agar memenuhi standar kualitas Wikipedia. Anda dapat memberikan bantuan berupa penambahan pranala dalam, atau dengan merapikan tata letak dari artikel ini. Untuk keterangan lebih lanjut, klik [tampil] di bagian kanan. Mengganti markah HTML dengan markah wiki bila dimungkinkan. Tambahkan pranala wiki. Bila dirasa perlu, buatlah pautan ke artikel wiki lainnya dengan cara menambahkan [[ dan ]] pada kata yang bersangkutan (lihat WP:LINK untuk keterangan lebih lanjut...

 

For related races, see 2014 United States Senate elections.Not to be confused with 2014 Tennessee Senate election.2014 United States Senate election in Tennessee ← 2008 November 4, 2014 2020 → Turnout35.97% [1] 30.37 pp   Nominee Lamar Alexander Gordon Ball Party Republican Democratic Popular vote 850,087 437,848 Percentage 61.87% 31.87% County resultsCongressional district resultsAlexander:      40–50%    ...

Stargazer Astroscopus guttatus Klasifikasi ilmiah Domain: Eukaryota Kerajaan: Animalia Filum: Chordata Kelas: Actinopterygii Ordo: Trachiniformes Famili: UranoscopidaeJordan & Evermann, 1898 Genus[1] Astroscopus (Brevoort, 1860) Genyagnus (Gill, 1861) Ichthyscopus (Swainson, 1839) Kathetostoma (Günther, 1860) Pleuroscopus (Barnard, 1927) Selenoscopus (Okamura & Kishimoto, 1993) Uranoscopus (Linnaeus, 1758) Xenocephalus (Kaup, 1858) Stargazer (artinya: Pengamat bintang) adala...

 

Військово-музичне управління Збройних сил України Тип військове формуванняЗасновано 1992Країна  Україна Емблема управління Військово-музичне управління Збройних сил України — структурний підрозділ Генерального штабу Збройних сил України призначений для планува...

 

Human settlement in EnglandTattingstoneSt Mary's parish churchTattingstoneLocation within SuffolkPopulation540 (2011 Census)OS grid referenceTM1337Civil parishTattingstoneDistrictBaberghShire countySuffolkRegionEastCountryEnglandSovereign stateUnited KingdomPost townIpswichPostcode districtIP9Dialling code01473PoliceSuffolkFireSuffolkAmbulanceEast of England WebsiteTattingstone Village List of places UK England Suffolk 51°59′24″N 1°06′36″E...

Pascual AbajTurcaj / Turk'aj / Turuk'aj / TurukajThe statue in 1948, before it was defacedReligionAffiliationMaya religionDistrictQuiché DepartmentRegionGuatemalan HighlandsDeityRey PascualLocationMunicipalityChichicastenangoCountryGuatemalaLocation in GuatemalaGeographic coordinates14°56′13″N 91°06′53″W / 14.936858°N 91.114675°W / 14.936858; -91.114675 Pascual Abaj (alternatively written Pascual Ab'aj),[1] also known as Turcaj,[2] Turk'aj,...

 

County in Arkansas, United States County in ArkansasPhillips CountyCountyPhillips County courthouse in Helena-West HelenaLocation within the U.S. state of ArkansasArkansas's location within the U.S.Coordinates: 34°23′25″N 90°52′11″W / 34.390277777778°N 90.869722222222°W / 34.390277777778; -90.869722222222Country United StatesState ArkansasFoundedMay 1, 1820Named forSylvanus PhillipsSeatHelena-West HelenaLargest cityHelena-West HelenaArea •&...

 

Joël LatibeaudiereNazionalità Inghilterra Giamaica (dal 2023) Altezza180 cm Calcio RuoloDifensore Squadra Swansea City CarrieraGiovanili 201?-2019 Manchester City Squadre di club1 2018-2019 Manchester City0 (0)2019-2020→  Twente5 (1)2020-2023 Swansea City71 (2)2023- Coventry City33 (2) Nazionale 2016 Inghilterra U-164 (0)2016-2017 Inghilterra U-1716 (0)2017-2018 Inghilterra U-185 (0)2019- Inghilterra U-205 (0)2023- Giamaica4 (0) Palmarès  Euro...

Former American wireless carrier This article is about the defunct wireless provider. For the current wireless subsidiary of AT&T, see AT&T Mobility. AT&T Wireless Services, Inc.FormerlyMcCaw Cellular CommunicationsAT&T Wireless ServicesCompany typePublicTraded asNYSE: AWEIndustryTelecommunicationsFounded1987; 37 years ago (1987)FounderCraig McCawDefunctApril 26, 2005; 19 years ago (2005-04-26)HeadquartersRedmond, Washington, U.S.Key pe...

 

Lambang Jawa Barat Wakil Gubernur Jawa Barat adalah wakil kepala pemerintah Jawa Barat. Ia bertugas membantu memegang pemerintahan bersama dengan gubernur dan para anggota Dewan Perwakilan Rakyat Daerah Jawa Barat. Daftar Berikut adalah daftar Wakil Gubernur Jawa Barat secara definitif sejak tahun 1946. Nomor urut Wakil Gubernur Potret Partai Awal Akhir Masa jabatan Gubernur Ref. 1   Jusuf Adiwinata(1900–1958) Non Partai Desember 1946 1949 2–3 tahun Murdjani1946–1947 2 Ipik Gandama...

 

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Barli Sasmitawinata – berita · surat kabar · buku · cendekiawan · JSTOR Barli SasmitawinataLahirBarli Sasmitawinata(1921-03-18)18 Maret 1921Bandung, Hindia BelandaMeninggal8 Februari 2007(2007-02-08) (um...

Town and municipality in the state of Minas Gerais, Brazil Location of Matutina in Minas Gerais Matutina is a Brazilian municipality located in the northwest of the state of Minas Gerais. Its population as of 2020 was 3,741 people living in a total area of 260 km².[1] The city belongs to the mesoregion of Triângulo Mineiro e Alto Paranaiba and to the microregion of Patos de Minas. It became a municipality in 1953. Location The urban center is located at an elevation of 1,040 me...

 

Beberapa atau seluruh referensi dari artikel ini mungkin tidak dapat dipercaya kebenarannya. Bantulah dengan memberikan referensi yang lebih baik atau dengan memeriksa apakah referensi telah memenuhi syarat sebagai referensi tepercaya. Referensi yang tidak benar dapat dihapus sewaktu-waktu. Dalam cerita rekaan, rumpang alur atau lubang alur (bahasa Inggris: plot hole, plot error) adalah kesenjangan atau ketakteraturan dalam jalan cerita yang bertentangan dengan alur logika yang ditetapkan...