Önceden eğitilmiş üretken dönüştürücü ya da özgün İngilizce adının kısaltmasıyla GPT, bir tür geniş dil modeli[1][2][3] ve Üretken yapay zekâ için öne çıkan bir çerçevedir.[4][5]Doğal dil işleme görevlerinde kullanılan yapay sinir ağlarından oluşur.[6] GPT'ler dönüştürücü mimarisine dayanır, etiketlenmemiş metinlerden oluşan büyük veri setleri üzerinde önceden eğitilmiştir ve insan benzeri yeni içerikler üretebilir.[2][3] 2023 itibarıyla, çoğu LLM bu özelliklere sahiptir [7] ve bazen genel olarak GPT'ler olarak anılırlar.[8]
İlk GPT 2018 yılında OpenAI tarafından tanıtılmıştır.[9] OpenAI, "GPT-n" serisini oluşturmak üzere sıralı olarak numaralandırılmış çok etkili GPT temel modellerini piyasaya sürdü.[10] Bunların her biri artan boyut (eğitilebilir parametre sayısı) ve eğitim nedeniyle bir öncekinden önemli ölçüde daha yeteneklidir. Bunlardan en yenisi olan GPT-4 Mart 2023'te yayınlanmıştır.[11] Bu tür modeller, talimat takibi için ince ayarlı modeller de dahil olmak üzere daha göreve özgü GPT sistemlerinin temelini oluşturarak ChatGPTsohbet robotu hizmetini güçlendirmektedir.[1]
"GPT" terimi, başkaları tarafından geliştirilen bu tür modellerin adlarında ve tanımlamalarında da kullanılmaktadır. Örneğin, diğer GPT temel modelleri arasında EleutherAI [12] tarafından oluşturulan bir dizi model ve Cerebras tarafından 2023 yılında oluşturulan yedi model bulunmaktadır.[13] Ayrıca farklı sektörlerdeki şirketler, Salesforce'un "EinsteinGPT" (Müşteri ilişkileri yönetimi için) [14] ve Bloomberg'in "BloombergGPT" (finans için) gibi kendi alanlarında göreve özgü GPT'ler geliştirmiştir.[15]
Tarih
İlk gelişmeler
Üretken Ön İşleme (GP), makine öğrenimi uygulamalarında uzun süredir yerleşmiş bir kavramdır.[16][17][18] Model önce veri kümesinde veri noktaları oluşturmayı öğrenerek etiketsiz bir veri kümesi (ön işleme adımı) üzerinde eğitildiği ve daha sonra etiketli bir veri kümesini sınıflandırmak için eğitildiği için başlangıçta yarı denetimli öğrenmenin bir biçimi olarak kullanılmıştır.[19]
Normalleştirilmemiş doğrusal dönüştürücünün geçmişi 1992 yılına kadar uzanırken,[20][21][22] modern dönüştürücü mimarisi 2017 yılında Google'daki araştırmacılar tarafından " Attention Is All You Need " adlı bir makalede yayınlanana kadar mevcut değildi.[23] Bu gelişme, 2018'de ön işlemeli bir dönüştürücü (PT) olan ancak üretken olacak şekilde tasarlanmayan BERT [24] gibi büyük dil modellerinin ortaya çıkmasına yol açmıştır (BERT "yalnızca kodlayıcı" bir modeldi).[25] Ayrıca o sıralarda, 2018'de OpenAI, ilk önceden eğitilmiş üretken dönüştürücü sistemini ("GPT-1") tanıttığı "Improving Language Understanding by Generative Pre-Training" başlıklı makalesini yayınlamıştır.[26]
Transformatör tabanlı mimarilerden önce, en iyi performansa sahip nöral NLP (doğal dil işleme ) modelleri, büyük miktarlarda manuel olarak etiketlenmiş verilerden gözetimli öğrenmeyi yaygın olarak kullanmaktaydı. Denetimli öğrenmeye olan güven, iyi açıklanmamış veri kümelerinde kullanımlarını kısıtlamış ve ayrıca son derece büyük dil modellerini eğitmeyi engelleyici derecede pahalı ve zaman alıcı hale getirmiştir.[26]
OpenAI'nin büyük ölçekli bir üretken sistem oluşturmak için kullandığı yarı denetimli yaklaşım (ki bu ilk kez bir dönüştürücü modeli ile yapıldı) iki aşamadan oluşuyordu: bir dil modelleme hedefi kullanarak başlangıç parametrelerini ayarlamak için gözetimsiz bir üretken "ön eğitim" aşaması ve bu parametreleri bir hedef göreve uyarlamak için denetimli bir ayrımcı "ince ayar" aşamasından oluşuyordu.[26]
Daha sonraki gelişmeler
Daha yeni GPT temel modelleriyle ilgili olarak OpenAI, GPT-3'ün ilk sürümlerini Temmuz 2020'de yayınlamıştır. Sırasıyla babbage, curie ve davinci (B, C ve D baş harflerini veren) olarak adlandırılan, 1B, 6.7B, 175B parametrelerine sahip üç model bulunmaktaydı.
Temmuz 2021'de OpenAI, programlama uygulamaları için hedeflenen göreve özgü bir GPT modeli olan Codex'i yayınladı. Bu, GitHub'daki kod kullanılarak GPT-3'ün (önceki GPT-3 modellerinden farklı) 12B parametreli bir sürümüne ince ayar yapılarak geliştirilmiştir.[27]
Mart 2022'de OpenAI, davinci-instruct-beta (175B) ve text-davinci-001[28] olarak adlandırılan, talimat takibi için ince ayarlanmış (talimat ayarlı) GPT-3'ün iki sürümünü yayınladı ve code-davinci-002 ardından beta kısmını teste başladı.[29]text-davinci-002,code-davinci-002'den talimatlarla ayarlandı. Hem text-davinci-003 hem de ChatGPT, insan geri bildiriminden (RLHF) takviyeli öğrenme yoluyla text-davinci-002'yi temel alarak Kasım 2022'de yayınlandı. text-davinci-003 talimatları takip etmek için eğitilmiş ChatGPT ise bir insan ile konuşma üzerine daha ileri düzeyde eğitilmiştir.[30][31]
OpenAI'nin en yeni GPT temel modeli olan GPT-4, 14 Mart 2023'te yayınlandı. Kullanıcılar tarafından doğrudan ChatGPT'nin premium sürümü aracılığıyla erişilebilererk ve OpenAI'nin Uygulama programlama arayüzü aracılığıyla diğer ürün ve hizmetlere dahil edilmek üzere geliştiricilerin kullanımına açılmıştır. GPT temel modellerinin diğer üreticileri arasında EleutherAI (Mart 2021'de başlayan bir dizi modelle ) [12] ve Cerebras (Mart 2023'te piyasaya sürülen yedi modelle) yer almaktadır.[13]
Temel modeller
Temel model, çok çeşitli aşağı akış görevlerine uyarlanabilecek ölçekte geniş veriler üzerinde eğitilmiş bir yapay zeka modelidir.[32]
Şimdiye kadar en kayda değer GPT temel modelleri OpenAI'ın GPT-n serisinden olmuştur. Bunlardan en yenisi, OpenAI'nin boyutunu veya eğitim ayrıntılarını yayınlamayı reddettiği GPT-4'tür ("rekabet ortamı ve büyük ölçekli modellerin güvenlik etkileri" gerekçe gösterilerek).[33]
OpenAI'nin "GPT-n" serisi
Modeli
Mimari
Parametre sayısı
Eğitim verileri
Yayın tarihi
Eğitim maliyeti
GPT-1
12 seviyeli, 12 başlı Transformer kod çözücü (kodlayıcı yok), ardından doğrusal softmax gelir.
117 milyon
BookCorpus :[34] Çeşitli türlerde 7000 yayınlanmamış kitaptan 4,5 GB metin.
Ayrıca hem metin tahmini hem de RLHF konusunda eğitilmiştir; hem metni hem de görüntüleri girdi olarak kabul eder. Daha fazla ayrıntı halka açık değildir.[33]
Bu tür diğer modeller arasında, GPT-3 ile karşılaştırılmış ve yakın zamanda bir Uygulama programlama arayüzü aracılığıyla geliştiricilerin kullanımına sunulan geniş bir temel modeli olan Google'ınPaLM'i,[40][41] ve Together'ın şu şekilde rapor edilen GPT-JT'si bulunmaktadır: GPT-3'e en yakın performansa sahip açık kaynak alternatifidir.[42] Meta AI (eski adıyla Facebook ) ayrıca LLaMA olarak bilinen üretken dönüştürücü tabanlı temel büyük dil modeline sahiptir.[43]
Temel GPT'ler girdi ve/veya çıktı için metin dışındaki yöntemleri de kullanabilir. GPT-4, metin ve görüntü girdisini işleyebilen çok modlu bir LLM'dir.[44] Çok modlu çıktıyla ilgili olarak, difüzyon [45] ve paralel kod çözme gibi metinden resme model teknolojileri için bazı üretken transformatör tabanlı modeller kullanılır.[46] Bu tür modeller, görüntülerle çalışabilen alt sistemler geliştirmek için görsel temel modelleri (VFM'ler) görevi görebilir.[47]
Göreve özel modeller
Temel bir GPT modeli, belirli görevlere ve/veya konu alanlarına yönelik daha hedefli sistemler üretmek için daha da uyarlanabilir. Bu tür uyarlama yöntemleri, ek ince ayar (temel model için yapılanın ötesinde) ve belirli sufle mühendisliği biçimlerini kapsayabilmektedir.[48]
Bunun önemli bir örneği , modellerin talimatları takip edecek şekilde ince ayarlanmasıdır ; bu elbette oldukça geniş bir görevdir ancak temel modelden daha hedefe yöneliktir. Ocak 2022'de OpenAI, temel GPT-3 dil modelleri üzerinde gözetimli eğitim ve insan geri bildiriminden (RLHF) pekiştirmeli öğrenim kombinasyonu ile talimatları takip edecek şekilde ince ayar yapılan bir dizi model olan "InstructGPT"yi tanıttı. Bunun çıplak temel modellere göre avantajları arasında daha yüksek doğruluk, daha az olumsuz/toksik duyarlılık ve genel olarak kullanıcı ihtiyaçlarıyla daha iyi uyum bulunuyordu. Dolayısıyla, OpenAI bunu hizmet teklifleri için temel olarak kullanmaya başladı.[49] Tamamen açık bir versiyon da dahil olmak üzere diğer talimat ayarlı modeller başkaları tarafından piyasaya sürülmüştür.[50][51]
Bir başka göreve özgü model ise insan benzeri konuşmalar yapan sohbet botlarıdır. Kasım 2022'de OpenAI, InstructGPT'ye benzer şekilde eğitilmiş, talimat ayarlı bir dil modeliyle desteklenen çevrimiçi sohbet botu olan ChatGPT'yi başlattı. Bu modeli RLHF kullanarak eğiten araştırmacılar, insan yapay zeka eğitmenlerinin hem kullanıcıyı hem de yapay zekayı oynadıkları konuşmalar sağladılar ve bu yeni diyalog veri setini InstructGPT veri seti ile karıştırarak bir sohbet botuna uygun bir konuşma biçimi elde etmeyi başardılar. Diğer önemli sohbet botları arasında şu anda OpenAI'nin GPT-4'ünü kullanan Microsoft'un Bing Chat'i (OpenAI ve Microsoft arasındaki daha geniş yakın işbirliğinin bir parçası olarak) [52] ve Google'ın rakip sohbet robotu Gemini (başlangıçta LaMDA konuşma ailesine dayalı PaLM'ye geçme planları olan eğitimli dil modelleri) yer almaktadır.[53]
Bir GPT'nin kullanılabileceği bir başka görev türü de, bir insan kullanıcı tarafından verilen daha genel bir hedefi gerçekleştirebilmek için 'kendisi' için bir dizi istem geliştirmek gibi kendi talimatlarını üretme şeklindeki meta görevdir.[54] Bu bir yapay zeka aracı olarak bilinir ve daha spesifik olarak özyinelemeli bir aracıdır, çünkü sonraki istemlerini oluşturmasına yardımcı olmak için önceki kendi talimatlarından elde ettiği sonuçları kullanır; bunun ilk büyük örneği Auto-GPT'dir (OpenAI'nin GPT modellerini kullanır) ve o zamandan beri diğerleri de geliştirilmiştir.[55]
Çok modluluk
Üretici dönüştürücü tabanlı sistemler, metnin ötesindeki modaliteleri içeren görevleri de hedefleyebilir.
Örneğin, Microsoft'un "Visual ChatGPT "si ChatGPT'yi görsel temel modellerle (VFM'ler) birleştirerek metinlerin yanı sıra görüntülerden oluşan girdi veya çıktıları da mümkün kılmaktadır.[56] Ayrıca, metinden konuşmaya teknolojisindeki gelişmeler, temel GPT dil modelleriyle birlikte kullanıldığında sesli içerik oluşturma için güçlü araçlar sunmaktadır.[57]
Domain özgülük
GPT sistemlerinin belirli alanlara ya da etki alanlarına yönelik olması mümkündür. Bu tür model ve uygulamaların rapor edilen bazı örnekleri aşağıdaki gibidir:
EinsteinGPT – satış ve pazarlama alanları için, müşteri ilişkileri yönetimine yardımcı olmak üzere ( GPT-3.5 kullanır) [58][59]
BloombergGPT - finansal alan için, finansal haberlere ve bilgilere yardımcı olmak için ("ücretsiz olarak kullanılabilen" yapay zeka yöntemlerini kendi özel verileriyle birlikte kullanır) [60]
Khanmigo - eğitim alanında özel ders vermeye yönelik bir GPT sürümü olarak tanımlanır, öğrencilere doğrudan yanıtlar vermeden çalışmaları boyunca rehberlik ederek Khan Academy'yi kullanmalarına yardımcı olur (GPT-4 tarafından desteklenmektedir) [61][62]
SlackGPT - Slack anlık mesajlaşma hizmeti için, bu hizmetteki tartışmalarda gezinmeye ve özetlemeye yardımcı olmak için (OpenAI'ninarayüzünü kullanır) [63]
BioGPT – biyomedikal alan için, biyomedikal literatürde metin oluşturma ve madenciliğe yardımcı olmak için (GPT-2'yi kullanır) [64]
Bazen etki alanına özgülük, yazılım eklentileri veya eklentiler aracılığıyla gerçekleştirilir. OpenAI'nin ChatGPT arayüzüyle doğrudan etkileşim kuran belirli eklentiler geliştirmiştir [65][66] ve Google Workspace'tee-tablo kullanımına yardımcı olduğu bildirilen "Tablolar ve Dokümanlar için GPT" eklentileri bulunmaktadır.[67][68]
Kasım 2023'te OpenAI, ChatGPT Plus abonelerinin ChatGPT'nin özel sürümlerini oluşturmalarına olanak sağladığını duyurmuştur.[69] Bunlar, hızlı mühendislik, seçilmiş veri setleri ve/veya harici araçlarla hedeflenen etkileşim yoluyla belirli etki alanları için uyarlanabilir. Doğrulanmış oluşturucular olarak kaydolan kullanıcılar, özel GPT'lerini para kazanma potansiyeline sahip diğer kullanıcılar için yayınlayabilirler.
Marka sorunları
2018'de ilk GPT'yi yaratan OpenAI, kısa süre önce "GPT "nin OpenAI'nin bir markası olarak görülmesi gerektiğini ileri sürmüştür.[70] Nisan 2023'te OpenAI, yapay zeka (AI) hizmetlerini yürütmek için Uygulama programlama arayüzünü kullanan diğer işletmelerin artık bu tür adlara veya markalamalara "GPT"yi dahil edemeyeceğini belirtmek için hizmet şartlarındaki marka yönergelerini revize etmiştir.[71] Mayıs 2023'te OpenAI, API müşterilerini bu politikadan haberdar etmek için bir marka yönetim hizmetiyle anlaştı, ancak bu bildirimler açık yasal iddialarda bulunmaktan uzak kalmıştır.[70] Kasım 2023 itibarıyla OpenAI, API lisans sahiplerinin kendi ürünlerini "GPT" [72] ile adlandırmalarını hâlâ yasaklamaktadır, ancak ChatGPT Plus abonelerinin OpenAI sitesinde GPT olarak adlandırılan "ChatGPT'nin özel sürümlerini" oluşturmasına olanak sağlamaya başlamıştır.[73] OpenAI'nin hizmet koşulları, abonelerinin "tavsiye edilmemekle birlikte" bunların adlarında "GPT" kullanabileceğini belirtmektedir.[72]
Bununla bağlantılı olarak OpenAI, yapay zeka alanında "GPT" terimi için yerel marka tescili almak üzere Amerika Birleşik Devletleri Patent ve Ticari Marka Ofisi'ne (USPTO) başvuruda bulunmuştur.[70] OpenAI, başvurusunun ele alınmasını hızlandırmak istedi, ancak USPTO bu talebi Nisan 2023'te reddetti [74] Mayıs 2023'te USPTO, başvuruya "GPT"nin hem açıklayıcı hem de genel olduğu kararıyla yanıt verdi.[75] Kasım 2023, OpenAI mevcut süreçlerde argümanını sürdürmeye devam etmektedir. Ne olursa olsun, tescilli bir ABD ticari markasının elde edilememesinden dolayı, ABD'deki belirli düzeydeki ortak hukuk ticari marka haklarında [76] veya diğer ülkelerdeki ticari marka haklarını engellememektedir.[77]
ABD'de herhangi bir ticari marka koruması türü veya kapsamı için OpenAI'nin, terimin teknoloji türü için daha geniş bir teknik terim olmasının yanı sıra kendi özel teklifleri için gerçekten "ayırt edici" olduğunu kanıtlaması gerekmektedir. Bazı basında çıkan haberler, OpenAI'nin ayrıca koruma talep ettiği GPT tabanlı Sohbet botu ürünü ChatGPT'nin[74][78] şöhretine dayanarak dolaylı olarak ticari marka tescili alabileceğini öne sürdü.[79] Diğer raporlar, yalnızca "GPT" terimi için kaydın verilmesinin pek mümkün olmadığını belirtmiştir;[70][80] çünkü bu terim, önceden eğitilmiş üretken dönüştürücüleri içeren yapay zeka sistemlerine atıfta bulunmak için sıklıkla ortak bir terim olarak kullanılmaktadır.[3][81][82][83] Her halükarda, terim üzerindeki münhasır haklar ABD'de ne ölçüde ortaya çıkarsa çıksın, diğerlerinin benzer ürün veya hizmetler için karışıklığa neden olabilecek şekilde kullanmaktan kaçınması gerekmektedir.[80][84] Bu tür haklar, bu alandaki diğer köklü kullanımları da kapsayacak şekilde genişlerse, tanımlayıcı adil kullanımın ticari marka doktrini, markayla ilgili olmayan kullanımın devam etmesi için hala bir miktar alan sağlayabilir.[85]
Seçilmiş kaynakça
Bu bölümde OpenAI ve Microsoft'un GPT modellerine ilişkin ana resmi yayınları listelenmektedir.
^Deng, Li (22 Ocak 2014). "A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core". Apsipa Transactions on Signal and Information Processing. Cambridge.org. 3: e2. doi:10.1017/atsip.2013.9.
^Erhan, Dumitru; Courville, Aaron; Bengio, Yoshua; Vincent, Pascal (31 Mart 2010). "Why Does Unsupervised Pre-training Help Deep Learning?". Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics (İngilizce). JMLR Workshop and Conference Proceedings: 201-208. 24 Ocak 2024 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024.
^Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need"(PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. 21 Şubat 2024 tarihinde kaynağından arşivlendi(PDF). Erişim tarihi: 25 Mart 2024.
^Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina (24 Mayıs 2019). "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding". Association for Computational Linguistics. arXiv:1810.04805v2 $2.
^Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Ponde de Oliveira Pinto, Henrique; Kaplan, Jared; Edwards, Harri; Burda, Yuri; Joseph, Nicholas; Brockman, Greg; Ray (1 Temmuz 2021). "Evaluating Large Language Models Trained on Code". Association for Computational Linguistics. arXiv:2107.03374 $2. 24 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024.
^Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman (6 Aralık 2022). "Training language models to follow instructions with human feedback". Advances in Neural Information Processing Systems (İngilizce). 35: 27730-27744. arXiv:2203.02155 $2. 28 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 25 Mart 2024.
^abVer Meer, Dave (1 Haziran 2023). "ChatGPT Statistics". NamePepper (İngilizce). 5 Haziran 2023 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Haziran 2023.
^Luo (et-al), Renqian (3 Nisan 2023). "BioGPT: Generative pre-trained transformer for biomedical text generation and mining". Briefings in Bioinformatics. 23 (6). arXiv:2210.10341 $2. doi:10.1093/bib/bbac409. PMID36156661.