DALL-E (стилізований запис — DALL-E), а також DALL-E 2 — створені шляхом машинного навчання нейронні моделі, розроблені компанією OpenAI за фінансової підтримки Microsoft[1], призначені для створення цифрових зображень на основі описів природною мовою, званих «підказками». Компанія OpenAI представила нейронну мережу DALL-E у своєму блозі в січні 2021 року. DALL-E використовує мовну модель GPT-3[2], модифіковану для генерації зображень. У квітні 2022 року компанія OpenAI представила DALL-E 2 — наступну версію свого продукту, розроблену для створення реалістичніших зображень, які мають вищу роздільну здатність і «здатні поєднувати концепції, атрибути й стилі»[3].
OpenAI не опублікувала початковий код своїх моделей, але зображення, згенеровані на основі обмеженого набору пробних запитів, можна отримати на її вебсайті[2]. Незважаючи на це, в інтернеті з'явилося кілька емуляцій із відкритим кодом, створених на меншому обсязі даних[4][5][6].
Назва DALL-E — це контамінація імен ВОЛЛ-І (WALL-E), мультиплікаційного персонажа компанії Pixar, та іспанського художника-сюрреаліста Сальвадора Далі[7][2].
Історія
Компанія OpenAI почала розробляти нейронну мережу DALL-E у 2019 році, коли отримала грант сумою в 1 млрд дол. від компанії Microsoft на розробку інноваційних технологій у сфері штучного інтелекту[1]. У результаті розробка тривала два роки, а перша версія нейромережі була представлена світовій спільноті 5 січня 2021 року[1].
Ще за рік, 6 квітня 2022 року, була анонсована нова версія DALL-E — DALL-E 2. Продовження розробки стало можливим завдяки тому, що аудиторія добре зустріла її першу версію[1]. 20 липня 2022 року версія DALL-E 2 ввійшла у фазу бета-тестування за запрошеннями, надісланими одному мільйону попередньо зареєстрованих осіб[8][9]. З огляду на можливі етичні питання й проблеми, пов'язані безпекою, доступ був заздалегідь обмежений і надавався лише попередньо зареєстрованим користувачам[10][11]. У новій версії програми були доопрацьовані алгоритми, що дало змогу створювати фотореалістичні зображення, а також додано редактор, що дає змогу змінювати згенеровані зображення[12].
Приклад роботи нейронної мережі продемонстрував журнал Cosmopolitan, використавши DALL-E 2 для створення обкладинки одного з випусків свого журналу[13].
Технологія
Нейронну модель GPT (породжувальний попередньо тренований трансформер), розроблену на основі архітектури «трансформер», компанія OpenAI випустила у 2018 році[14]. У 2019 році з'явилася GPT-2 — розширений варіант першої версії[15]. У 2020 році вийшла GPT-3 — ще більш розширена версія зі 175 млрд параметрів[16][2][17]. Модель DALL-E — це багатомодальна реалізація GPT-3[18] із 12 млрд параметрів[2], яка «заміняє текст на пікселі», натренована на парах текст-зображення, узятих з інтернету[19]. DALL-E 2 використовує 3,5 млрд параметрів — менше, ніж її попередниця[20].
DALL-E була розроблена й представлена публіці разом із моделлю CLIP (Contrastive Language-Image Pre-training — порівняльне тренування мовних зображень)[19]. CLIP — це окрема модель, створена в результаті так званого навчання без джерел (zero-shot learning). Вона натренована на 400 млн пар зображень із текстовими описами, узятими в інтернеті[2][19][21]. Її задача — «зрозуміти й класифікувати» результат робити DALL-E шляхом визначення того, який саме опис із 32 768 (215), вибраних випадково з набору даних (у якому один є правильною відповіддю) найкраще відповідає зображенню. Ця модель використовується для відсіювання великого початкового списку зображень, згенерованих мережею DALL-E, з метою вибрати найвідповідніші з них[7][19].
DALL-E 2 використовує модель розсіювання на вбудованих зображеннях CLIP, які створюються на основі вбудованих текстових описів моделі CLIP за попередньою моделлю[20].
Можливості
Мережа DALL-E здатна створювати зображення багатьма стилями, зокрема фотореалістичні, мальовничі та емодзі[2]. Вона спроможна «впорядковувати й змінювати» об'єкти на своїх зображеннях"[2] і правильно розміщувати предмети й «дійових осіб» сцени, не маючи чітких інструкцій. Том Данн (Thom Dunn) на сайті BoingBoing зазначив:
Наприклад, коли просиш її намалювати редьку-дайкон, яка сякається, ковтаючи латте, або катається на одноколісному велосипеді, DALL-E часто малює носовичок, руки й ноги в імовірних місцях[22].
DALL-E продемонструвала вміння «заповнювати прогалини» з урахуванням контексту. Вона вигадує деталі без специфічних запитів — наприклад, додає різдвяні предмети на зображення, які зазвичай асоціюються зі святкуванням[23], або належним чином промальовує тіні, хоча такого завдання не ставилося[24]. Крім того, DALL-E показує «добре знається» на тенденціях візуалізації й дизайну.
DALL-E здатна генерувати зображення за найрізноманітнішими варіантами вільного опису[25], і помилки трапляються рідко[7]. Марк Рідл (Mark Riedl), ад'юнкт-професор Школи інтерактивних обчислень Технологічного інституту Джорджії, виявив, що DALL-E здатна поєднувати концепції. Це вважається ключовим елементом людської творчості[26][27].
Її «візуальних розумових здатностей» достатньо, щоб пройти тест Равена (за допомогою візуальних тестів часто вимірюють розумові здібності людини)[28][29].
Проблеми етичного характеру
Гендерний перекіс
Той факт, що модель DALL-E 2 була натренована на загальнодоступних даних з інтернету, впливає на результати його роботи і в деяких випадках зумовлює алгоритмічне упередження. Наприклад, якщо в запиті не згадується стать людини, модель генерує більше зображень чоловіків, ніж жінок[30].
Дані, на яких тренували DALL-E 2, фільтрувалися: з них усували картинки, на яких зображено насильство й сексуальні образи. Проте з'ясувалося, що подекуди це призвело навіть до посилення упередженості моделі, — як-от зменшення частоти зображень жінок[31]. У компанії OpenAI припускають, що в даних, на основі яких здійснювалося тренування моделі, жінки часто виявлялись об'єктом сексуальної об'єктивації, і видалення таких даних вплинуло на роботу фільтра[31].
Діпфейки
Проблема, яка виникає у зв'язку з появою нейронних мереж для генерації зображень, як-от DALL-E 2 і подібних, полягає в тому, що їх можна використовувати для генерації діпфейків та інших різновидів дезінформації[32][33]. У рамках боротьби з неналежним використанням ПЗ відкидає запити, у яких згадуються публічні особи, і завантаження зображень, які містять людські обличчя[34]. Запити, які містять потенційно небажаний зміст, блокуються, а вивантажені зображення аналізуються на наявність образливого контенту[35]. Недоліком фільтрування запитів є те, що його легко обійти за допомогою синонімічних фраз, які призводять до подібних результатів. Наприклад, слово «кров» фільтрується, а «кетчуп» і «червона рідина» — ні[36][35].
Технологічне безробіття
Ще одна проблема, пов'язана з DALL-E 2 і подібними моделями, полягає в тому, що їхня точність і популярність здатні призвести до технологічного безробіття художників, фотографів і графічних дизайнерів[37][38].
Технічні обмеження
Розуміння природної мови моделлю DALL-E 2 не є абсолютним. Вона нездатна відрізнити запит «жовта книга і червона ваза» від «червона книга і жовта ваза» або «панда, яка малює лате», від «лате, намальоване пандою»[39]. Запит «кінь верхи на космонавті» вона трактує як «астронавт верхи на коні»[40]. Крім того, за деяких обставин вона не може згенерувати правильні зображення. Запити, у яких згадується більше трьох об'єктів, які містять заперечення, кількості або речення, з'єднані сполучником, можуть призвести до помилок, а властивості одних об'єктів — перейти на інші[1]. Додатковими обмеженнями є також неспроможність нейронної мережі розуміти наукові терміни, як-от астрономічні або медичні[41].
Прийом
Найчастіше результати роботи DALL-E характеризують як «сюрреалістичні»[19] та «примхливі»[26]. Зображення, яке DALL-E згенерувала у відповідь на запит «an illustration of a baby daikon radish in a tutu walking a dog» (зображення дитини редьки-дайкона, яка вигулює собаку, у пачці балерини), згадувалося в публікаціях Input[42], NBC[43], Nature[44] та інших[2][45][46]. Часто згадували також зображення «an armchair in the shape of an avocado» (крісло у формі авокадо)[19][27].
ExtremeTech заявив:
Можна запитати DALL-E зобразити телефон або пилосос із указаного періоду часу: вона розуміє, як змінювалися ці предмети[23].
Engadget помітив також надзвичайну здатність «розуміти, як телефони та інші предмети змінюються з часом»[24].
MIT Technology Review зауважив, що однією з цілей компанії OpenAI було «надати мовним моделям краще уявлення про буденні поняття, які люди використовують для розуміння речей»[19].
Реалізації з відкритим кодом
Здійснено кілька спроб створити реалізацію DALL-E з відкритим кодом[4][47]. У 2022 році випущено нейронну мережу Craiyon. Спершу вона називалася DALL-E Mini, але невдовзі, у червні 2022 року, компанія OpenAI надіслала запит на зміну цього імені. Це ШІ-модель, заснована на оригінальній DALL-E, але натренована на нефільтрованих даних з інтернету. У 2022 році вона привернула велику увагу ЗМІ, оскільки створювала вельми смішні зображення[48][49][50].
↑ абTamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models. arXiv:2102.02503 [cs.CL].