טרנספורמר (למידת מכונה)

טרנספורמר הוא מודל למידה עמוקה שממלא תפקיד מרכזי ביישומים רבים, ובראשם צ׳טבוטים (כמו ChatGPT). המודל משמש גם ביישומים אחרים בעיבוד שפה טבעית (NLP) וראייה ממוחשבת (CV).[1]

המודל חולל מהפכה בהשוואה למודלים קודמים בזכות שתי תכונות חשובות. הראשונה היא מנגנון הקשב-העצמי (self-attention). מנגנון זה לוקח בחשבון את היחסים בין מילים ואת ההקשר בו המילים נמצאות. המנגנון מאפשר לקחת בחשבון, במהלך עיבוד מילה מתוך טקסט, רצף גדול סביב המילה, ולא רק את הקטע הקצר שקדם לה.

התכונה השניה היא אפשרות עיבוד קלט שלם של טקסט בו זמנית, בשונה ממודלים קודמים, שנדרשים לעבד את הטקסט מילה אחר מילה. עיבוד מקבילי זה מביא לקצבי עבודה גבוהים מאד בעת אימון המודל על טקסטים רבים.

ארכיטקטורת הטרנספורמר הוצגה לראשונה ב-2017 על ידי קבוצת חוקרים מגוגל.[2] כשנה לאחר מכן שחררה גוגל, בקוד פתוח, את מודל השפה הגדול הראשון הבנוי על בסיס הארכיטקטורה - BERT.[3] לאחר מכן, פופולריות הארכיטקטורה החלה לצבור תאוצה, והיא נעשתה למודל המועדף לעיבוד שפה טבעית ומודלי שפה גדולים.[4] זאת, בעיקר בשל תכונת המקביליות האמורה המאפשרת אימון על מערכי נתונים גדולים יותר. יצירת המודל שימשה בסיס לפיתוח מודלי שפה מאומנים מראש, כמו GPT (סדרת מודלים שפותחו על ידי OpenAI, ונעשו לפופולריים במיוחד מאז הושק הצ׳טבוט ChatGPT), PaLM, Claude ועוד. מודלים אלו אומנו על מערכי נתונים גדולים של שפות, הכוללים טריליוני מילים. כמו כן, המודלים ניתנים לכוונון (fine tune) באופן שבו יותאמו לביצוע משימות נקודתיות.[5][6]

עיבוד רציף

קודם ליצירת מודלים מבוססים טרנספורמר, רוב מערכות עיבוד השפה הטבעית המתקדמות הסתמכו על מודל RNN. מודלים מסוג זה מעבדים טוקנים (tokens, יחידות הטקסט הבסיסיות ביותר איתן עובדות תוכנות מחשב המנתחות שפה. לרוב, מדובר במילים) ברצף, תוך שמירה על וקטור הכולל מידע אודות כל טוקן ביחס למידע שקדם לו. כלומר, כאשר המודל עובד ברצף ולא במקביל, עיבוד הטוקן ה-n ייקח בחשבון את המצב הקיים עד n-1 יחד עם הטוקן החדש, כדי ליצור מצב חדש (וקטור) לאחר עיבוד הטוקן n. כתוצאה מכך נוצרת בעיית "הגרדיאנט הנעלם", המשאירה את וקטור המצב בסופו של משפט ארוך ללא מידע מדויק שניתן לחלץ ממנו על הטוקנים הקודמים. בשל כך, לעיתים נפגעת היעילות באימון מודלי RNN.

קשב עצמי

מודלי הטרנספורמר מתמודדים עם הבעיות הנובעות מעיבוד רציף באמצעות מנגנון הקשב העצמי (אנ'). מנגנון זה מאפשר למודל ליצור מצב המתחשב בכל הנקודות לאורך הרצף. המודל כולל "שכבת" קשב המסוגלת לגשת לכל אחד מהמצבים הקודמים ולתת להם משקל לפי חשיבות, ובהתאם לספק מידע רלוונטי לטוקנים רחוקים. משקל החשיבות, נקבע, בעיקר לפי כמות ההקשרים בין מילה לבין מילים אחרות ברצף.[7]

דוגמה ברורה לערך הקשב העצמי היא בתרגום שפה, שם ההקשר הכללי חיוני להבנת משמעות של מילה במשפט. כך למשל, במערכת תרגום מאנגלית לצרפתית, לרוב המילה הראשונה של הפלט הצרפתי תהיה תלויה במידה רבה במילים הראשונות של הקלט האנגלי. עם זאת, במודל RNN קלאסי, על מנת להפיק את המילה הראשונה של הפלט הצרפתי, המודל מקבל רק וקטור המצב לאחר עיבוד המילה האחרונה באנגלית. תאורטית, וקטור זה יכול לקודד מידע על כל המשפט האנגלי, ולתת למודל את כל הידע הנדרש לתרגום. בפועל, מידע זה נשמר לרוב בצורה לא טובה. מנגנון הקשב מתמודד עם בעיה זו על ידי כך שנותן גישה לוקטורי המצב של כל מילה בקלט באנגלית, ולא רק לאחרונה המייצגת את המצב האחרון.

מעבר ליתרון הדיוק שנוצר משימוש במנגנון הקשב העצמי, העיבוד המקבילי משפר משמעותית את מהירות אימון המודל.

כוונון עדין (fine-tuning)

אימון מודלי טרנספורמר נעשה בדרך כלל בשיטת למידה בהנחיה עצמית, הכוללת אימון למידה בלתי מונחית ואחריו כוונון עדין באמצעות למידה מונחית. האימון המקדים נעשה בדרך כלל על מערך נתונים גדול יותר מאשר הכוונון העדין, בשל הזמינות המוגבלת של נתוני אימון מתוייגים. המשימות הנפוצות לאימון מקדים וכוונון עדין הן:

טרנספורמרים בראיה ממוחשבת

בשנת 2020, הציגה קבוצה מגוגל יישום ראשון של ארכיטקטורת הטרנספורמר בו הקלט הוא תמונה ולא טקסט[9]. בארכיטקטורה זו החליפו שכבות הטרנספורמר את שכבות הקונבולוציה שאפיינה את רשתות הנוירונים לעיבוד תמונה עד אז. הדבר נעשה תוך שימוש כמעט ללא שינוי בארכיטקטורת הטרנספורמר המקורית, ועל ידי חיתוך תמונת הקלט לריבועים קטנים (patches) שהיוו את יחידות הקלט הבסיסיות (טוקנים).

שימושים

הטרנספורמר זכה להצלחה רבה בעיבוד שפה טבעית (NLP), ובאופן ספציפי במשימות תרגום מכונה וחיזוי סדרות זמן. מודלים מאומנים מראש כמו GPT-2, GPT-3, GPT-4, BERT, XLNet, RobERTa ו-ChatGPT מדגימים את יכולתם של הטרנספורמרים לבצע מגוון רחב של משימות הקשורות ל-NLP, והשימוש בהם ביישומים בעולם האמיתי זולג לתחומים רבים, ונכון לתחילת שנת 2023, נעשה פופולרי במיוחד. תחומים בהם נעשה שימוש במודלים כוללים, בין היתר:

יישומים

מודל הטרנספורמר מיושם במסגרות התוכנה הפופולריות ללמידה עמוקה כמו TensorFlow ו-PyTorch. כמו כן, קיימת ספריית תוכנה בשם Transofrmers שנוצרה על ידי חברת Hugging Face, המספקת ארכיטקטורות מבוססות טרנספורמרים ומודלים שאומנו-מראש.

הערות שוליים

  1. ^ He, Cheng (31 בדצמבר 2021). "Transformer in CV". Transformer in CV. Towards Data Science. {{cite web}}: (עזרה)
  2. ^ Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, Illia Polosukhin, Attention is All you Need, Advances in Neural Information Processing Systems 30, Curran Associates, Inc., 2017
  3. ^ What is BERT (Language Model) and How Does It Work?, Enterprise AI (באנגלית)
  4. ^ Wolf, Thomas; Debut, Lysandre; Sanh, Victor; Chaumond, Julien; Delangue, Clement; Moi, Anthony; Cistac, Pierric; Rault, Tim; Louf, Remi (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6.
  5. ^ "Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing". Google AI Blog. נבדק ב-2019-08-25.
  6. ^ 1 2 "Better Language Models and Their Implications". OpenAI. 2019-02-14. נבדק ב-2019-08-25.
  7. ^ A Beginner's Guide to Large Language Models, NVIDIA (באנגלית)
  8. ^ Wang, Alex; Singh, Amanpreet; Michael, Julian; Hill, Felix; Levy, Omer; Bowman, Samuel (2018). "GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding". Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg, PA, USA: Association for Computational Linguistics: 353–355. arXiv:1804.07461. doi:10.18653/v1/w18-5446.
  9. ^ Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby, An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, 2020-10-02
  10. ^ Umberto Lupo, Damiano Sgarbossa, Anne-Florence Bitbol, Protein language models trained on multiple sequence alignments learn phylogenetic relationships, Nature Communications 13, 2022-10-22, עמ' 6298 doi: 10.1038/s41467-022-34032-y


Read other articles:

Bette DavisDavis pada tahun 1935LahirRuth Elizabeth Davis(1908-04-05)5 April 1908Lowell, Massachusetts, Amerika SerikatMeninggal6 Oktober 1989(1989-10-06) (umur 81)Neuilly-sur-Seine, PrancisPekerjaanAktrisTahun aktif1929-1989Suami/istriHarmon Nelson ​ ​(m. 1932; c. 1938)​ Arthur Farnsworth ​ ​(m. 1940; meninggal 1943)​ William Grant Sherry ​ ​(m. 1945; c....

 

البطولات الفرنسية 1957 جزء من دورة رولان غاروس الدولية  رقم الفعالية 56  البلد فرنسا  التاريخ 1957  الرياضة كرة المضرب  الفعاليات البطولات الفرنسية 1957 - فردي السيدات،  والبطولات الفرنسية 1957 - فردي الرجال،  والبطولات الفرنسية 1957 – زوجي سيدات  [لغات أخرى]̴...

 

Setyadjit Soegondo Wakil Perdana Menteri Indonesia ke-1Masa jabatan3 Juli 1947 – 29 Januari 1948PresidenSoekarnoPerdana MenteriAmir Sjarifoeddin PendahuluTidak ada; jabatan baruPenggantiSyafruddin Prawiranegara Informasi pribadiLahir(1907-06-07)7 Juni 1907 Sengon Hindia BelandaMeninggal20 Desember 1948(1948-12-20) (umur 41)[butuh rujukan]Madiun, IndonesiaKebangsaanIndonesiaSunting kotak info • L • B Raden Mas Setyadjit Soegondo (7 Juni 1907 ̵...

Malaysian politician In this Chinese name, the family name is Ong (王). Yang Berbahagia Dato'Jason Ong Khan LeeDSPN王康立Member of Penang State Legislative Assembly for Kebun BungaIn office9 May 2018 – 12 August 2023Preceded byCheah Kah PengIn office8 March 2008 – 5 May 2013Preceded byQuah Kooi HeongSucceeded byCheah Kah Peng Personal detailsPolitical partyPKROther politicalaffiliationsPakatan Rakyat (till 2018) Pakatan Harapan (since 2018) OccupationPolitician Jason...

 

Protected area in Australian Capital TerritoryNamadgi National ParkAustralian Capital TerritoryIUCN category II (national park) View from the top of Mount GingeraNamadgi National ParkNearest town or cityCanberraCoordinates35°31′37″S 148°56′46″E / 35.52694°S 148.94611°E / -35.52694; 148.94611Established1984[1]Area1,060.95 km2 (409.6 sq mi)[2]Managing authoritiesACT Parks and Conservation ServiceWebsiteNamadgi National ParkSee ...

 

Culinary traditions of New Zealand This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article's tone or style may not reflect the encyclopedic tone used on Wikipedia. See Wikipedia's guide to writing better articles for suggestions. (July 2022) (Learn how and when to remove this message) This article needs additional citations for verification. Please help improve this article by adding...

1918 American filmThe Firefly of FranceLobby cardDirected byDonald CrispScreenplay byMargaret TurnbullBased onThe Firefly of Franceby Marion Polk AngelottiProduced byJesse L. LaskyStarringWallace ReidAnn LittleCharles OgleRaymond HattonWinter HallErnest JoyCinematographyHenry KotaniProductioncompanyJesse L. Lasky Feature Play CompanyDistributed byParamount PicturesRelease date July 7, 1918 (1918-07-07) Running time50 minutesCountryUnited StatesLanguageSilent (English intertitle...

 

Dominican baseball player (born 1991) In this Spanish name, the first or paternal surname is Peralta and the second or maternal family name is Dominguez. Baseball player Wandy PeraltaPeralta with the New York Yankees in 2021San Diego Padres – No. 58PitcherBorn: (1991-07-27) July 27, 1991 (age 32)San Francisco de Macorís, Duarte, Dominican RepublicBats: LeftThrows: LeftMLB debutSeptember 4, 2016, for the Cincinnati RedsMLB statistics (through May 8, 2024)Win–lo...

 

Cari artikel bahasa  Cari berdasarkan kode ISO 639 (Uji coba)   Cari berdasarkan nilai Glottolog   Kolom pencarian ini hanya didukung oleh beberapa antarmuka Halaman rumpun acak Rumpun bahasaAtlantik–KongoPersebaranAfrikaPenggolongan bahasaNiger–KongoAtlantik–Kongo Talodi–Heiban (Kordofanian) Senufo Kru? Siamou Atlantik Nalu (Atlantik ?) ? Rio Nunez (Atlantik ?) Mel Sua Gola Volta–Kongo Kode bahasaISO 639-5alvGlottologatla1278Lokasi penuturan  Portal Ba...

2016年美國總統選舉 ← 2012 2016年11月8日 2020 → 538個選舉人團席位獲勝需270票民意調查投票率55.7%[1][2] ▲ 0.8 %   获提名人 唐納·川普 希拉莉·克林頓 政党 共和黨 民主党 家鄉州 紐約州 紐約州 竞选搭档 迈克·彭斯 蒂姆·凱恩 选举人票 304[3][4][註 1] 227[5] 胜出州/省 30 + 緬-2 20 + DC 民選得票 62,984,828[6] 65,853,514[6]...

 

يفتقر محتوى هذه المقالة إلى الاستشهاد بمصادر. فضلاً، ساهم في تطوير هذه المقالة من خلال إضافة مصادر موثوق بها. أي معلومات غير موثقة يمكن التشكيك بها وإزالتها. (يونيو 2022)   لمعانٍ أخرى، طالع النجم الأولمبي لحلق الوادي والكرم (توضيح). النجم الأولمبي لحلق الوادي والكرم لكرة...

 

For other uses, see Ion (disambiguation). Manga I.O.NCover of the original Japanese release of I.O.N published by Shueishaイ·オ·ンGenreFantasy, romance[1] MangaWritten byArina TanemuraPublished byShueishaEnglish publisherNA: Viz MediaImprintRibon Mascot ComicsMagazineRibonDemographicShōjoOriginal runJune 1997 – November 1997Volumes1 I.O.N (イ·オ·ン) is a Japanese manga series written and illustrated by Arina Tanemura. Originally serialized in Ribon from May to N...

الإجهاض في جمهورية أيرلندا محظور مالم يكن ناتج عن تدخل طبي لإنقاذ حياة الأم. وينظم الإجهاض حاليًا من قبل قانون حماية الحياة أثناء الحمل 2013. حياة الجنين لها حماية دستورية في المادة 40.3.3°، والتي أضيفت عام 1983 في التعديل الثامن للدستور الأيرلندي. كما يحمى الدستور خدمات الإجهاض ...

 

Part of a series on theCulture of Serbia History Middle Ages Monarchs People Languages Serbian language Old Serbian Traditions Dress Kinship Mythology and folklore Cuisine Festivals Religion Christianity Serbian Orthodox Church Patriarch Roman Catholicism Protestantism Hinduism Islam Judaism Art Architecture Music Composers (list) Painters (category) Sculptors (category) Heraldry Literature Comics Epic poetry Writers (category) Music and performing arts Dances Theatres (category) Actors (cat...

 

Province of Indonesia For other uses, see Aceh (disambiguation). Special Autonomous Province in IndonesiaAcehSpecial Autonomous ProvinceProvince of Aceh Coat of armsNickname(s): Serambi Mekah (Indonesian)Porch of MeccaMotto(s): Pancacita (Kawi)Five IdealsAnthem: Aceh Mulia[1]Noble Aceh   Aceh in    IndonesiaOpenStreetMapCoordinates: 05°33′25″N 95°19′34″E / 5.55694°N 95.32611°E / 5.55694; 95.32611 (prov...

Countess of Montizón Maria Beatrix of Austria-Este Carlist queen consort of SpainPretendence13 January 1861 – 3 October 1868Legitimist queen consort of FrancePretendence24 August 1883 – 21 November 1887Born(1824-02-13)13 February 1824Modena, Duchy of Modena and ReggioDied18 March 1906(1906-03-18) (aged 82)Görz,[1] Austria-HungarySpouse Infante Juan, Count of Montizón ​ ​(m. 1847)​IssueInfante CarlosInfante AlfonsoHouseHabsburgFatherFranci...

 

GUIDO Music Notation is a computer music notation format designed to logically represent all aspects of music in a manner that is both computer-readable and easily readable by human beings. It was named after Guido of Arezzo, who pioneered today's conventional musical notation 1,000 years ago. GUIDO was first designed by Holger H. Hoos (then at Technische Universität Darmstadt, Germany, now at University of British Columbia, Canada) and Keith Hamel (University of British Columbia, Canada). L...

 

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (يونيو 2020) المجاري التي تعمل تحت تأثير الجاذبية هي أنابيب تستخدم الطاقة الناتجة من الاختلاف في الارتفاع لطرد المياه غير المرغوب فيها. ويشير مصطلح مجرى طرد مياه الصرف ا�...

Indian actress, model and television anchor Shwetha MenonShwetha Menon in 2019Born (1974-04-23) 23 April 1974 (age 50)[1][2]Chandigarh, India[3]OccupationsActormodeltelevision anchorYears active1991–presentTitleFemina Miss India Asia Pacific 1994Femina Miss India 1994 (3rd Runner up) [4]Spouses Bobby Bhonsle ​ ​(m. 2004; div. 2007)​ [5] Sreevalsan Menon ​(m. 2011)​C...

 

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)出典検索?: E-MU Proteus – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2016年10月) E-MU Proteus(イーミュー プロテウス)は、アメリ�...