DALL-E

Зображення, згенероване DALL-E за запитом «Фотографія робота, що малює вручну, цифрове мистецтво»

DALL-E (стилізований запис — DALL-E), а також DALL-E 2 — створені шляхом машинного навчання нейронні моделі, розроблені компанією OpenAI за фінансової підтримки Microsoft[1], призначені для створення цифрових зображень на основі описів природною мовою, званих «підказками». Компанія OpenAI представила нейронну мережу DALL-E у своєму блозі в січні 2021 року. DALL-E використовує мовну модель GPT-3[2], модифіковану для генерації зображень. У квітні 2022 року компанія OpenAI представила DALL-E 2 — наступну версію свого продукту, розроблену для створення реалістичніших зображень, які мають вищу роздільну здатність і «здатні поєднувати концепції, атрибути й стилі»[3].

OpenAI не опублікувала початковий код своїх моделей, але зображення, згенеровані на основі обмеженого набору пробних запитів, можна отримати на її вебсайті[2]. Незважаючи на це, в інтернеті з'явилося кілька емуляцій із відкритим кодом, створених на меншому обсязі даних[4][5][6].

Назва DALL-E — це контамінація імен ВОЛЛ-І (WALL-E), мультиплікаційного персонажа компанії Pixar, та іспанського художника-сюрреаліста Сальвадора Далі[7][2].

Історія

Компанія OpenAI почала розробляти нейронну мережу DALL-E у 2019 році, коли отримала грант сумою в 1 млрд дол. від компанії Microsoft на розробку інноваційних технологій у сфері штучного інтелекту[1]. У результаті розробка тривала два роки, а перша версія нейромережі була представлена світовій спільноті 5 січня 2021 року[1].

Ще за рік, 6 квітня 2022 року, була анонсована нова версія DALL-E — DALL-E 2. Продовження розробки стало можливим завдяки тому, що аудиторія добре зустріла її першу версію[1]. 20 липня 2022 року версія DALL-E 2 ввійшла у фазу бета-тестування за запрошеннями, надісланими одному мільйону попередньо зареєстрованих осіб[8][9]. З огляду на можливі етичні питання й проблеми, пов'язані безпекою, доступ був заздалегідь обмежений і надавався лише попередньо зареєстрованим користувачам[10][11]. У новій версії програми були доопрацьовані алгоритми, що дало змогу створювати фотореалістичні зображення, а також додано редактор, що дає змогу змінювати згенеровані зображення[12].

Приклад роботи нейронної мережі продемонстрував журнал Cosmopolitan, використавши DALL-E 2 для створення обкладинки одного з випусків свого журналу[13].

Технологія

Нейронну модель GPT (породжувальний попередньо тренований трансформер), розроблену на основі архітектури «трансформер», компанія OpenAI випустила у 2018 році[14]. У 2019 році з'явилася GPT-2 — розширений варіант першої версії[15]. У 2020 році вийшла GPT-3 — ще більш розширена версія зі 175 млрд параметрів[16][2][17]. Модель DALL-E — це багатомодальна реалізація GPT-3[18] із 12 млрд параметрів[2], яка «заміняє текст на пікселі», натренована на парах текст-зображення, узятих з інтернету[19]. DALL-E 2 використовує 3,5 млрд параметрів — менше, ніж її попередниця[20].

DALL-E була розроблена й представлена публіці разом із моделлю CLIP (Contrastive Language-Image Pre-training — порівняльне тренування мовних зображень)[19]. CLIP — це окрема модель, створена в результаті так званого навчання без джерел (zero-shot learning). Вона натренована на 400 млн пар зображень із текстовими описами, узятими в інтернеті[2][19][21]. Її задача — «зрозуміти й класифікувати» результат робити DALL-E шляхом визначення того, який саме опис із 32 768 (215), вибраних випадково з набору даних (у якому один є правильною відповіддю) найкраще відповідає зображенню. Ця модель використовується для відсіювання великого початкового списку зображень, згенерованих мережею DALL-E, з метою вибрати найвідповідніші з них[7][19].

DALL-E 2 використовує модель розсіювання на вбудованих зображеннях CLIP, які створюються на основі вбудованих текстових описів моделі CLIP за попередньою моделлю[20].

Можливості

Зображення, згенероване DALL-E за запитом «Мультяшна качка, яка шукає пригод у лабіринті»

Мережа DALL-E здатна створювати зображення багатьма стилями, зокрема фотореалістичні, мальовничі та емодзі[2]. Вона спроможна «впорядковувати й змінювати» об'єкти на своїх зображеннях"[2] і правильно розміщувати предмети й «дійових осіб» сцени, не маючи чітких інструкцій. Том Данн (Thom Dunn) на сайті BoingBoing зазначив:

Наприклад, коли просиш її намалювати редьку-дайкон, яка сякається, ковтаючи латте, або катається на одноколісному велосипеді, DALL-E часто малює носовичок, руки й ноги в імовірних місцях[22].

DALL-E продемонструвала вміння «заповнювати прогалини» з урахуванням контексту. Вона вигадує деталі без специфічних запитів — наприклад, додає різдвяні предмети на зображення, які зазвичай асоціюються зі святкуванням[23], або належним чином промальовує тіні, хоча такого завдання не ставилося[24]. Крім того, DALL-E показує «добре знається» на тенденціях візуалізації й дизайну.

DALL-E здатна генерувати зображення за найрізноманітнішими варіантами вільного опису[25], і помилки трапляються рідко[7]. Марк Рідл (Mark Riedl), ад'юнкт-професор Школи інтерактивних обчислень Технологічного інституту Джорджії, виявив, що DALL-E здатна поєднувати концепції. Це вважається ключовим елементом людської творчості[26][27].

Її «візуальних розумових здатностей» достатньо, щоб пройти тест Равена (за допомогою візуальних тестів часто вимірюють розумові здібності людини)[28][29].

Проблеми етичного характеру

Гендерний перекіс

Той факт, що модель DALL-E 2 була натренована на загальнодоступних даних з інтернету, впливає на результати його роботи і в деяких випадках зумовлює алгоритмічне упередження. Наприклад, якщо в запиті не згадується стать людини, модель генерує більше зображень чоловіків, ніж жінок[30].

Дані, на яких тренували DALL-E 2, фільтрувалися: з них усували картинки, на яких зображено насильство й сексуальні образи. Проте з'ясувалося, що подекуди це призвело навіть до посилення упередженості моделі, — як-от зменшення частоти зображень жінок[31]. У компанії OpenAI припускають, що в даних, на основі яких здійснювалося тренування моделі, жінки часто виявлялись об'єктом сексуальної об'єктивації, і видалення таких даних вплинуло на роботу фільтра[31].

Діпфейки

Проблема, яка виникає у зв'язку з появою нейронних мереж для генерації зображень, як-от DALL-E 2 і подібних, полягає в тому, що їх можна використовувати для генерації діпфейків та інших різновидів дезінформації[32][33]. У рамках боротьби з неналежним використанням ПЗ відкидає запити, у яких згадуються публічні особи, і завантаження зображень, які містять людські обличчя[34]. Запити, які містять потенційно небажаний зміст, блокуються, а вивантажені зображення аналізуються на наявність образливого контенту[35]. Недоліком фільтрування запитів є те, що його легко обійти за допомогою синонімічних фраз, які призводять до подібних результатів. Наприклад, слово «кров» фільтрується, а «кетчуп» і «червона рідина» — ні[36][35].

Технологічне безробіття

Ще одна проблема, пов'язана з DALL-E 2 і подібними моделями, полягає в тому, що їхня точність і популярність здатні призвести до технологічного безробіття художників, фотографів і графічних дизайнерів[37][38].

Технічні обмеження

Розуміння природної мови моделлю DALL-E 2 не є абсолютним. Вона нездатна відрізнити запит «жовта книга і червона ваза» від «червона книга і жовта ваза» або «панда, яка малює лате», від «лате, намальоване пандою»[39]. Запит «кінь верхи на космонавті» вона трактує як «астронавт верхи на коні»[40]. Крім того, за деяких обставин вона не може згенерувати правильні зображення. Запити, у яких згадується більше трьох об'єктів, які містять заперечення, кількості або речення, з'єднані сполучником, можуть призвести до помилок, а властивості одних об'єктів — перейти на інші[1]. Додатковими обмеженнями є також неспроможність нейронної мережі розуміти наукові терміни, як-от астрономічні або медичні[41].

Прийом

Реалістичне зображення «зебри-жирафи», згенероване DALL-E

Найчастіше результати роботи DALL-E характеризують як «сюрреалістичні»[19] та «примхливі»[26]. Зображення, яке DALL-E згенерувала у відповідь на запит «an illustration of a baby daikon radish in a tutu walking a dog» (зображення дитини редьки-дайкона, яка вигулює собаку, у пачці балерини), згадувалося в публікаціях Input[42], NBC[43], Nature[44] та інших[2][45][46]. Часто згадували також зображення «an armchair in the shape of an avocado» (крісло у формі авокадо)[19][27].

ExtremeTech заявив:

Можна запитати DALL-E зобразити телефон або пилосос із указаного періоду часу: вона розуміє, як змінювалися ці предмети[23].

Engadget помітив також надзвичайну здатність «розуміти, як телефони та інші предмети змінюються з часом»[24].

MIT Technology Review зауважив, що однією з цілей компанії OpenAI було «надати мовним моделям краще уявлення про буденні поняття, які люди використовують для розуміння речей»[19].

Реалізації з відкритим кодом

Здійснено кілька спроб створити реалізацію DALL-E з відкритим кодом[4][47]. У 2022 році випущено нейронну мережу Craiyon. Спершу вона називалася DALL-E Mini, але невдовзі, у червні 2022 року, компанія OpenAI надіслала запит на зміну цього імені. Це ШІ-модель, заснована на оригінальній DALL-E, але натренована на нефільтрованих даних з інтернету. У 2022 році вона привернула велику увагу ЗМІ, оскільки створювала вельми смішні зображення[48][49][50].

Див. також

Примітки

  1. а б в г д Microsoft Invests In and Partners with OpenAI to Support Us Building Beneficial AGI. OpenAI (англ.). 22 червня 2019.
  2. а б в г д е ж и к л Johnson, Khari (5 січня 2021). OpenAI debuts DALL-E for generating images from text. VentureBeat. Архів оригіналу за 5 січня 2021. Процитовано 5 січня 2021.
  3. DALL·E 2. OpenAI (англ.). Процитовано 6 липня 2022.
  4. а б в Sahar Mor, Stripe (16 квітня 2022). How DALL-E 2 could solve major computer vision challenges. VentureBeat. Архів оригіналу за 24 травня 2022. Процитовано 15 червня 2022.
  5. Knight, Will. Inside DALL-E Mini, the Internet's Favorite AI Meme Machine. Wired (амер.). ISSN 1059-1028. Процитовано 6 липня 2022.
  6. Midjourney. Midjourney (англ.). Процитовано 20 липня 2022.
  7. а б в г Coldewey, Devin (5 січня 2021). OpenAI's DALL-E creates plausible images of literally anything you ask it to. Архів оригіналу за 6 січня 2021. Процитовано 5 січня 2021.
  8. DALL·E Now Available in Beta. OpenAI (англ.). 20 липня 2022. Процитовано 20 липня 2022.
  9. Allyn, Bobby (20 липня 2022). Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage. NPR (англ.). Процитовано 20 липня 2022.
  10. DALL·E Waitlist. labs.openai.com (англ.). Процитовано 6 липня 2022.
  11. From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art. the Guardian (англ.). 18 червня 2022. Процитовано 6 липня 2022.
  12. Hope Corrigan (1 липня 2022). Photographer uses DALL-E 2 AI to automatically edit images better than Photoshop. PC Gamer (англ.).
  13. Gloria Liu (21 червня 2022). The World’s Smartest Artificial Intelligence Just Made Its First Magazine Cover. Cosmopolitan (англ.).
  14. а б Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 червня 2018). Improving Language Understanding by Generative Pre-Training (PDF). OpenAI. с. 12. Архів (PDF) оригіналу за 26 січня 2021. Процитовано 23 січня 2021.
  15. а б Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 лютого 2019). Language models are unsupervised multitask learners (PDF). 1 (8). Архів (PDF) оригіналу за 6 лютого 2021. Процитовано 19 грудня 2020.
  16. а б Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 липня 2020). Language Models are Few-Shot Learners. arXiv:2005.14165 [cs.CL].
  17. а б Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 лютого 2021). Zero-Shot Text-to-Image Generation. arXiv:2102.12092 [cs.LG].
  18. а б Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv:2102.02503 [cs.CL].
  19. а б в г д е ж и Heaven, Will Douglas (5 січня 2021). This avocado armchair could be the future of AI. MIT Technology Review. Процитовано 5 січня 2021.
  20. а б Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (12 квітня 2022). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125.
  21. 'DALL-E' AI generates an image out of anything you describe. Engadget (амер.). Процитовано 18 липня 2022.
  22. а б Dunn, Thom (10 лютого 2021). This AI neural network transforms text captions into art, like a jellyfish Pikachu. BoingBoing. Архів оригіналу за 22 лютого 2021. Процитовано 2 березня 2021.
  23. а б в Whitwam, Ryan (6 січня 2021). OpenAI's 'DALL-E' Generates Images From Text Descriptions. ExtremeTech. Архів оригіналу за 28 січня 2021. Процитовано 2 березня 2021.
  24. а б в Dent, Steve (6 січня 2021). OpenAI's DALL-E app generates images from just a description. Engadget. Архів оригіналу за 27 січня 2021. Процитовано 2 березня 2021.
  25. Marcus, Gary; Davis, Ernest; Aaronson, Scott (2 травня 2022). A very preliminary analysis of DALL-E 2. arXiv:2204.13807 [cs.CV].
  26. а б в Shead, Sam (8 січня 2021). Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab. CNBC. Процитовано 2 березня 2021.
  27. а б в Wakefield, Jane (6 січня 2021). AI draws dog-walking baby radish in a tutu. British Broadcasting Corporation. Архів оригіналу за 2 березня 2021. Процитовано 3 березня 2021.
  28. а б Markowitz, Dale (10 січня 2021). Here's how OpenAI's magical DALL-E image generator works. TheNextWeb. Архів оригіналу за 23 лютого 2021. Процитовано 2 березня 2021.
  29. DALL·E: Creating Images from Text. OpenAI (англ.). 5 січня 2021. Процитовано 13 серпня 2022.
  30. STRICKLAND, ELIZA (14 липня 2022). DALL-E 2's Failures Are the Most Interesting Thing About It. IEEE Spectrum (англ.). Процитовано 15 липня 2022.
  31. а б DALL·E 2 Pre-Training Mitigations. OpenAI (англ.). 28 червня 2022. Процитовано 18 липня 2022.
  32. Taylor, Josh (18 червня 2022). From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art. The Guardian. Процитовано 2 серпня 2022.
  33. Knight, Will (13 липня 2022). When AI Makes Art, Humans Supply the Creative Spark. Wired. Процитовано 2 серпня 2022.
  34. Rose, Janus (24 червня 2022). DALL-E Is Now Generating Realistic Faces of Fake People. Vice. Процитовано 2 серпня 2022.
  35. а б OpenAI (19 червня 2022). DALL·E 2 Preview - Risks and Limitations. GitHub. Процитовано 2 серпня 2022.
  36. Lane, Laura (1 липня 2022). DALL-E, Make Me Another Picasso, Please. The New Yorker. Процитовано 2 серпня 2022.
  37. Goldman, Sharon. OpenAI: Will DALLE-2 kill creative careers?.
  38. Blain, Loz. DALL-E 2: A dream tool and an existential threat to visual artists.
  39. Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim (23 травня 2022). Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. arXiv:2205.11487 [cs.CV].
  40. Marcus, Gary (28 травня 2022). Horse rides astronaut. The Road to AI We Can Trust. Процитовано 18 червня 2022.
  41. Strickland, Eliza (14 липня 2022). DALL-E 2's Failures Are the Most Interesting Thing About It. IEEE Spectrum (англ.). Процитовано 16 серпня 2022.
  42. а б Kasana, Mehreen (7 січня 2021). This AI turns text into surreal, suggestion-driven art. Input. Архів оригіналу за 29 січня 2021. Процитовано 2 березня 2021.
  43. а б Ehrenkranz, Melanie (27 січня 2021). Here's DALL-E: An algorithm learned to draw anything you tell it. NBC News. Архів оригіналу за 20 лютого 2021. Процитовано 2 березня 2021.
  44. а б Stove, Emma (5 лютого 2021). Tardigrade circus and a tree of life — January's best science images. Nature. Архів оригіналу за 8 березня 2021. Процитовано 2 березня 2021.
  45. а б Knight, Will (26 січня 2021). This AI Could Go From 'Art' to Steering a Self-Driving Car. Wired. Архів оригіналу за 21 лютого 2021. Процитовано 2 березня 2021.
  46. а б Metz, Rachel (2 лютого 2021). A radish in a tutu walking a dog? This AI can draw it really well. CNN. Процитовано 2 березня 2021.
  47. jina-ai/dalle-flow, Jina AI, 17 червня 2022, процитовано 17 червня 2022
  48. а б Carson, Erin (14 червня 2022). Everything to Know About Dall-E Mini, the Mind-Bending AI Art Creator. CNET. Архів оригіналу за 15 червня 2022. Процитовано 15 червня 2022.
  49. а б Schroeder, Audra (9 червня 2022). AI program DALL-E mini prompts some truly cursed images. Daily Dot. Архів оригіналу за 10 червня 2022. Процитовано 15 червня 2022.
  50. а б Diaz, Ana (15 червня 2022). People are using DALL-E mini to make meme abominations — like pug Pikachu. Polygon. Архів оригіналу за 15 червня 2022. Процитовано 15 червня 2022.
  51. Nichele, Stefano (2021). Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve. Genetic Programming and Evolvable Machines. 22: 141—145. doi:10.1007/s10710-021-09398-5. S2CID 231930573.
  52. Macaulay, Thomas (6 січня 2021). Say hello to OpenAI's DALL-E, a GPT-3-powered bot that creates weird images from text. TheNextWeb. Архів оригіналу за 28 січня 2021. Процитовано 2 березня 2021.
  53. Andrei, Mihai (8 січня 2021). This AI module can create stunning images out of any text input. ZME Science. Архів оригіналу за 29 січня 2021. Процитовано 2 березня 2021.
  54. Grossman, Gary (16 січня 2021). OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator. VentureBeat. Архів оригіналу за 26 лютого 2021. Процитовано 2 березня 2021.
  55. Toews, Rob (18 січня 2021). AI And Creativity: Why OpenAI's Latest Model Matters. Forbes. Архів оригіналу за 12 лютого 2021. Процитовано 2 березня 2021.
  56. Walsh, Bryan (5 січня 2021). A new AI model draws images from text. Axios. Процитовано 2 березня 2021.
  57. For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions. Synced. 5 січня 2021. Архів оригіналу за 6 січня 2021. Процитовано 2 березня 2021.

Посилання