בינה מלאכותית יוצרת (באנגליתGenerative Artificial Intelligence או generative AI או GenAI), לעיתים נקראת בינה מלאכותית גנרטיבית, היא סוג של בינה מלאכותית המסוגלת לייצר תוכן חדש כגון טקסט, תמונות או מדיה אחרת. בינה מלאכותית יוצרת משתמשת במודלים ג'נרטיבייםהלומדים דפוסים ממאגרי נתונים (אנ') גדולים ואז יוצרים תוכן חדש על סמך הלמידה הזאת.
עם פיתוחה ויציאתה לאור של הבינה המלאכותית היוצרת ובייחוד לאחר השקת ChatGPT ב-30 בנובמבר2022, החלה להיווצר מיומנות חדשה הנוגעת להפעלת הבינה המלאכותית היוצרת בשם "הנדסת פרומפטים".
היסטוריה
הרעיון של מכונות אוטומטיות וכלים טכנולוגיים בעלי בינה הועלה כבר בעת העתיקה, עם סיפורים על בובות אוטומטיות ומכונות שיצרו מוזיקה ואמנות, וממציאים כמו דדלוס והרון מאלכסנדריה שעליהם סופר שעיצבו מכונות המסוגלות לכתוב טקסט, להפיק צלילים ולהשמיע מוזיקה.[1] וכן טכנולוגיות דומות שהתפתחו לאורך ההיסטוריה, כמו הבובה המכנית של מיילרדט (אנ'), שנוצרה בתחילת המאה ה-19.
פריצת הדרך הגדולה הגיעה בשנות ה-20 של המאה ה-21. מודלי שפה גדולים כמו BERT ו-GPT אפשרו יצירת טקסט באיכות גבוהה מנתוני אימון גדולים. מודלים ויזואליים כמו DALL-E, Midjourney, Leonardo.AI ו-Stable Diffusion איפשרו יצירת איורים ואמנות מטקסט בלבד. כיום נעשים מאמצים רבים לשפר ולהרחיב יכולות אלו לכדי בינה מלאכותית כללית.[3]
סוגי בינה מלאכותית יוצרת
בעוד בינה מלאכותית "רגילה" לומדת לפתור בעיות מוגדרות, בינה מלאכותית יוצרת מסוגלת לייצר תוכן חדש לחלוטין - החל מטקסטים, דרך תמונות ועד מוזיקה ווידאו. היכולת ליצור באופן עצמאי נחשבת לאבן דרך משמעותית בהתקדמות הבינה המלאכותית.
אחת החלוקות העיקריות בבינה מלאכותית יוצרת היא בין מערכות חד-מודליות, המקבלות סוג אחד של קלט כמו טקסט או תמונה, לבין מערכות מולטי-מודליות שיכולות לקבל יותר מסוג אחד של קלט. לדוגמה, גרסה מתקדמת אחת של המודל GPT-4 שפותחה על ידי חברת OpenAI, מסוגלת לקבל הן קלט טקסטואלי והן קלט חזותי בדמות תמונות.[4] שילוב הקלט מאפשר לה לייצר טקסטים איכותיים ורלוונטיים יותר.
טקסט
מודלים גנרטיביים רבים מאומנים היום על כמויות אדירות של טקסט בשפה טבעית, כדי לאפשר להם לייצר טקסט חדש ואיכותי באופן עצמאי.
המודלים הבולטים והמתקדמים ביותר כיום בתחום זה כוללים את GPT על שלל גרסאותיו, שפותח על ידי חברת OpenAI, LaMDA וPaLM של חברת גוגל, LLaMA של מטא (פייסבוק לשעבר) ו-Claude של אנתרופיק. מודלים אלה מסוגלים כבר לבצע מגוון רחב של משימות שפתיות ברמה גבוהה, כמו עיבוד שפה טבעית, תרגום אוטומטי בין שפות, כתיבה יוצרת ועוד.
המודלים מאומנים על ערכות נתוני עתק המכילות מיליארדי מילים, כגון ויקיפדיה בשפות שונות, ספרים דיגיטליים, מאמרים אקדמיים וכתבות חדשותיות. כמות הנתונים האדירה מאפשרת למודלים ללמוד את המבנים והדפוסים של שפה אנושית ברמה גבוהה מאי פעם.
ככל שהמודלים הופכים למתוחכמים וגדולים יותר, כך גדלה יכולתם להבין שפה טבעית, לנתח הקשר וכוונה בטקסט, ולייצר תשובות רלוונטיות ואינטליגנטיות. הם אף מסוגלים לשמור על עקביות לאורך טקסט ארוך, ולגלות יצירתיות מסוימת.
עם זאת, עדיין קיימים אתגרים לא מעטים ביכולת של מודלים אלה להבין באמת שפה אנושית ולייצר תוכן שיש לו הבנה משמעותית של העולם. הם עדיין נוטים להסתמך יותר מדי על דפוסים סטטיסטיים ופחות על הבנה עמוקה. כמו כן, הם חסרים ידע בסיסי ו"שכל ישר" שבני אדם רוכשים באופן טבעי.
עם התקדמות המחקר בתחום, מקווים החוקרים כי מודלים גנרטיביים יוכלו בעתיד לרכוש "הבנה ממשית" של שפה ומשמעות, ולא רק יכולת סטטיסטית למפות מילים למילים אחרות. אם יצליחו בכך, הדבר עשוי להוביל לקפיצת מדרגה נוספת ביכולות השיחה והיצירתיות של בינה מלאכותית.
קוד
בנוסף לעיבוד שפה טבעית, מודלים גנרטיביים מסוגלים גם ללמוד שפות תכנות ולייצר קוד מקור חדש באופן אוטומטי.
הרעיון הוא לאמן את המודלים על קורפוסים עצומים של קוד קיים בשפות תכנות שונות, כגון פייתון, ג'אווה ועוד. באמצעות למידה ממיליוני שורות קוד שנכתבו על ידי מפתחים אנושיים, המודלים לומדים להבין את מבנה השפה, תחבירה והלוגיקה שלה. על בסיס ההבנה הזו, הם מסוגלים לייצר שורות קוד חדשות העונות למפרטים שניתנים להם בשפה טבעית.
אחד המודלים המתקדמים ביותר כיום בתחום זה הוא OpenAI Codex שמסוגל לכתוב קוד ברמה שמתקרבת לאיכות של מפתח אנושי ממוצע, במגוון רחב של שפות ולמטרות שונות.
יכולת זו של מודלים גנרטיביים לכתיבת קוד אוטומטית עשויה לחולל מהפכה בתעשיית התוכנה (אנ') ולאפשר פיתוח מהיר וזול יותר. עם זאת, עדיין יש אתגרים לא מעטים בכתיבת קוד מורכב יותר, אופטימיזציה (אנ') וכתיבה יעילה ומקורית. כמו כן, קוד שנכתב על ידי בינה מלאכותית עלול להכיל באגים ופרצות אבטחה שקשה לזהות.
לכן צפוי שבעתיד הקרוב מודלים אלה ישמשו בעיקר לסיוע למפתחים אנושיים, ופחות כמחליפים מוחלטים להם. אך הפוטנציאל להאיץ ולשפר תהליכי פיתוח תוכנה בעזרת בינה מלאכותית הוא אדיר.
אחד היישומים המרשימים והנגישים ביותר כיום של בינה מלאכותית גנרטיבית הוא יצירת אמנות ויזואלית - תמונות, ציורים ואיורים - באופן אוטומטי על פי תיאור מילולי.
מודלים מובילים בתחום זה כוללים את FireflyDALL-E, Stable Diffusion, Leonardo.AI ,Midjourney ו-Imagen של גוגל. מודלים אלה מאומנים על מיליוני תמונות וקשרים בין תמונות לטקסטים כדי ללמוד כיצד לייצר תמונות חדשות התואמות תיאור טקסטואלי נתון. את חלקם, כמו Leonardo.AI למשל, אפשר לאמן על תמונות ספציפיות, למשל תמונות שלכם, כדי לאפשר ליצור תמונות של דמות ספציפית או של תמה גרפית בסגנון מסוים. בעת יצירת תמונה ניתן לקבוע את סגנונה, אם היא תהיה ציור (ובאיזה אמצעים, כגון צבעי מים או צבעי עיפרון), איור, צילום ועוד. ישנם מודלים המאפשרים לבקש סגנון של אמן מסוים.
כך למשל, ניתן ליצור תמונה של כלב העורך ערך בוויקיפדיה על ידי הקלדת בקשה זו במילים. התוצאות מדהימות ברמת הפירוט, היצירתיות וההומור שלהן.
יצירות אלה כבר זיכו יוצרים רבים בפרסים, תערוכות והכרה ציבורית רחבה. הן אף מאפשרות יצירתיות חזותית לאנשים ללא כישורי ציור מסורתיים. עם זאת, הטכנולוגיה עדיין מעוררת דיון ער בסוגיות של זכויות יוצרים, אתיקה והגדרה מחדש של מושג היצירתיות האנושית.[5] ב-22 בינואר 2024 דלפה טיוטת החוק האירופי בדבר הסדרת הרגולציה של בינה מלאכותית אשר אמורה להגיע לאישור הפרלמנט של האיחוד האירופי בקרוב. הפרת הרגולציה עלולה להסתיים בצו לסגירת המיזם ולקנסות אישיים עד ל-35 מיליון יורו.
מוזיקה
תחום נוסף שבו בינה מלאכותית גנרטיבית מתקדמת בו הוא יצירת מוזיקה. מודלים חדשניים כמו Suno AI או MusicGen של מטא מאומנים הן על דוגמאות קיימות של מוזיקה מוקלטת, והן על מטא-דאטה כמו תמלילי שירים תווים ותיאורים של סגנונות מוזיקליים.
באמצעות למידה מנתונים עצומים אלה, המודלים לומדים לזהות מבנים מוזיקליים כמו מנגינות, אקורדים וקצב. כעת הם מסוגלים לייצר אוטומטית קטעים מוזיקליים קצרים העונים להנחיות טקסטואליות - למשל, "צור מוזיקה קלאסית של פסנתר איטי בסולם מינורי".
הפוטנציאל עצום להנגשת יצירת מוזיקה לאנשים ללא ידע מוזיקלי פורמלי או חסרי יכולת נגינה. עם זאת, נכון לספטמבר 2023 המוזיקה שנוצרת עדיין די בסיסית וחסרה את העומק והרגש שביצירה אנושית.[6]
וידאו
תחום נוסף הוא יצירת סרטוני וידאו סינתטיים באמצעות בינה מלאכותית גנרטיבית.
מודלים פורצי דרך כמו Gen1 ו-Gen2 שפותחו על ידי הסטארטאפ Runway מאפשרים כבר היום יצירת סרטונים קצרים שנראים כאילו צולמו במציאות, אך למעשה סונתזו לחלוטין על ידי האלגוריתמים.
המודלים מסוגלים למשל להנפיש כלב זהוב עם משקפיים ועניבה, ו"לצלם" אותו נואם לכאורה מול עיתונאים בחדר העיתונות של הבית הלבן - תוך יצירת תנועות שפתיים ריאליסטיות לחלוטין.
טכנולוגיה זו מעוררת דאגה מפני שימוש לרעה והפצת מידע כוזב ומזויף. אך מצד שני היא גם מאפשרת יצירתיות ויזואלית חדשה ומרתקת שלא הייתה אפשרית בעבר.[7]
מאחר שניתן לאמן מודלים על מאגרי מידע עצומים של רצפי DNA וחלבונים, וייצוגים גרפיים של מבנים מולקולריים, באמצעות למידה מנתונים אלה, המודלים לומדים לזהות דפוסים במבנה ובהרכב של מולקולות ולחזות תכונות כימיות וביולוגיות ובכך לסייע לחיזוי מבנה חלבון וגילוי תרופות (אנ').
דוגמה למודל פורץ דרך היא קבוצת AlphaFold של דיפמיינד וגוגל, שמסוגלת לחזות בדיוק רב במיוחד את המבנה המרחבי התלת-ממדי של חלבונים שלא נחקרו בעבר.[8]
יכולת זו חוסכת ניסויים יקרים ומאיצה מחקר בתחומי בריאות, תזונה וסביבה. מודלים גנרטיביים אף מסייעים בתכנון תרופות חדשות על ידי חיזוי אינטראקציות מולקולריות.[9]
רובוטיקה
תחום יישומי הנוגע לבינה מלאכותית גנרטיבית הוא רובוטיקה ואוטומציה.
כבר בשנות ה-90 נעשה שימוש במודלים גנרטיביים פשוטים יחסית לקבלת החלטות ותכנון מסלול ברובוטים אוטונומיים וחלליות.
כיום מאומנים מודלים מתקדמים יותר על בסיס נתונים נרחב של תנועות ופעולות של רובוטים ובני אדם. המודלים לומדים לאתר דפוסים בתנועה וליצור כוריאוגרפיות חדשות עבור הרובוט ומאפשרים בסופו של דבר שליטה קולית בתנועות הזרוע של רובוט - למשל "הרם כוס כחולה" או "נגב שולחן במטלית אדומה".[10]
מודלים מסוג "ראייה-שפה-פעולה" משלבים קלט חזותי עם הוראות קוליות כדי לאפשר ביצוע משימות אוטומטיות בסביבה דינמית.
שילוב של מודלים גנרטיביים ברובוטיקה יכול להוביל ליצירתיות וגמישות רבה יותר בתנועה ואינטראקציה של רובוטים עם הסביבה.[11]
חומרה ובינה מלאכותית
מודלים גנרטיביים דורשים משאבי חישוב שונים בהתאם לגודל המודל ומורכבותו. מודלים קטנים יחסית דוגמת מודלי שפה עם עד מיליארד פרמטרים יכולים לרוץ על חומרה ביתית רגילה כמו מחשבים שולחניים, לפטופים ואף טלפונים חכמים מתקדמים. מודלים בינוניים עם עשרות מיליארדי פרמטרים דורשים בדרך כלל מאיץ גרפי (GPU) איכותי כדי להגיע למהירויות סבירות.
מודלי שפה גדולים במיוחד כגון GPT-3 ו-GPT-4 עם מאות מיליארדי פרמטרים, פועלים כיום רק במרכזי נתונים גדולים המכילים אלפי כרטיסי גרפיקה ומאיצי חומרה ייעודיים כמו TPU של חברת גוגל. חברות המפתחות מודלים אלו מספקות בדרך כלל גישה לשירות מבוסס מחשוב ענן, במקום מודל שמותקן מקומית.[12]
עם זאת, קיימים מאמצים מתמשכים לאפשר ריצה של מודלים גדולים גם על חומרה צרכנית. שיטות אופטימיזציה כגון דחיסת פרמטרים, קיטום ואימון מחדש (pruning and retuning) מאפשרות לכווץ מודלים גדולים מבלי לפגוע משמעותית בביצועים.
כמו כן, ניתן לפצל מודלים גדולים למקטעים קטנים יותר המבוזרים על מספר התקנים, ולאחד את התוצאות. שיטה זו מכונה federated learning או split learning. יצרניות מעבדיGPU כגון NVIDIA ו-AMD גם משיקות כרטיסי גרפיקה חדשים עם יכולות אופטימיזציה לבינה מלאכותית שמאפשרות מהירות גבוהה יותר בעלות נמוכה יותר.[13]
עם שיפורים באלגוריתמים, אופטימיזציית חומרה ושיטות חישוב מבוזר, ניתן כיום כבר להריץ יישומים מתקדמים של בינה מלאכותית גנרטיבית גם מחוץ לענן, והמגמה הזו צפויה להימשך ולאפשר זמינות רבה יותר של טכנולוגיות אלו.
התפתחות הבינה המלאכותית היוצרת מעוררת חששות, דאגות ואתגרים. בתוך כך, חוששים רבים על שוק העבודה המשתנה, יצירת תוכן מזויף ופגיעה בפרטיות.
חששות הועלו מצד גורמי ממשל, עסקים ואנשים פרטיים, וכתוצאה מכך נוצרו גם מחאות, פעולות משפטיות, קריאות להשהות ניסויי בינה מלאכותית ופעולות של ממשלות בנושא. בתדרוך של מועצת הביטחון של האו"ם ביולי 2023, מזכ"ל האו"םאנטוניו גוטרש הצהיר כי "בינה מלאכותית היא בעלת פוטנציאל עצום לטוב ולרע בקנה מידה גדול, אך שימוש זדוני בה עלול לגרום לרמות נוראות של מוות והרס, טראומה נרחבת ונזק פסיכולוגי עמוק בקנה מידה בלתי נתפס".[14]
אובדן עבודה
עוד מהימים המוקדמים של פיתוח הבינה המלאכותית עלו דאגות בנוגע להשפעתה האפשרית על משרות ותעסוקה. חלוצים בתחום כמו יוצר אלייזהג'וזף וייצנבאום העלו שאלות לגבי האם באמת יש צורך אמיתי בביצוע משימות על ידי מכונות במקום בני אדם.
בשנים האחרונות, עם התקדמות הבינה המלאכותית היוצרת, חששות אלו הפכו למציאות עבור חלק מהעובדים בתחומים יצירתיים. דוחות הצביעו על אובדן משרות נרחב בקרב מאיירים בתעשיית משחקי הווידאו בסין, לאחר אימוץ כלי יצירת תמונות בינה מלאכותית.[15]
גם בהוליווד התעוררו חששות דומים, עם איומים על שביתה מצד איגודי שחקנים ב-2023. נשיאת איגוד שחקני המסך אף הגדירה את הבינה המלאכותית כ"איום קיומי על מקצועות יצירתיים".[16]
זיוף עמוק (דיפ-פייק)
דיפ-פייק הם מדיה שנוצרת על ידי בינה מלאכותית הלוקחת אדם בתמונה או וידאו קיימים ומחליפים אותם בדמותו של מישהו אחר באמצעות רשתות עצביות מלאכותיות.[17] השימוש שנעשה בשנת 2023 ויכולות הכלים הקיימים מעלה חששות לשימושם בסרטוני פורנוגרפיה מזויפים של ידוענים, פורנו נקמה, חדשות מזויפות, תרמיות והונאות פיננסיות.[18] דוגמאות שונות עוררו תגובות מהתעשייה ומהממשלה על מנת לזהות ולהגביל את השימוש בטכנולוגיה לצרכים לא אתיים ולא חוקיים מסוג זה.[19]
פשעי סייבר
היכולת של AI ג'נרטיבי ליצור תוכן מזויף הנראה כאמיתי לחלוטין שימשה פושעים בסייבר בעיקר בהונאות דיוג. כך, נעשה שימוש בווידאו ואודיו מזויפים כדי ליצור דיסאינפורמציה והונאה. פושעי סייבר יצרו מודלי שפה גדולים המתמקדים בהונאה, כולל WormGPT ו-FraudGPT.[20]
שימוש לרעה בעיתונאות
בינואר 2023, Futurism.com פרסמה שבאתר CNET השתמשו בכלי AI פנימי שלא נחשף כדי לכתוב לפחות 77 כתבות; לאחר פרסום החדשות, CNET פרסמה תיקונים ל-41 מהכתבות.[21]
באפריל 2023 פרסם הצהובון הגרמני "Die Aktuelle" ראיון מזויף שנוצר על ידי AI עם נהג המרוצים לשעבר מייקל שומאכר, שלא הופיע בפומבי מאז 2013 לאחר שספג פגיעה מוחית בתאונת סקי. בסוף הכתבה ובמהלכה נאמר כי הראיון אינו אמיתי בהכרח, ואף נרמז שנעשה על ידי בינה מלאכותית. בעקבות הכתבה, העורך הראשי פוטר זמן קצר לאחר מכן.[22]
תקנות
באיחוד האירופי, הוצע חוק הבינה המלאכותית שכולל דרישות לחשוף חומר המוגן בזכויות יוצרים המשמש לאימון מערכות בינה מלאכותית, ולתייג כל פלט שנוצר בינה מלאכותית ככזה.[23] עוד נקבע כי פעולת אימון האלגוריתם על תכנים טעון אישור של בעלי הזכויות בתכנים למעט אם האימון נעשה לצורכי מחקר.
בארצות הברית, קבוצה של חברות כולל OpenAI, Alphabet ומטא חתמו על הסכם וולונטרי עם הבית הלבן ביולי 2023 ליצור סימן מים של תוכן שנוצר בינה מלאכותית.[24]