DALL-E

Dall-E
Kuvankaappaus DALL-E 2-käyttöliittymästä
Kuvankaappaus DALL-E 2-käyttöliittymästä
Luoja OpenAI
Kehityshistoria
Ensijulkaisu 5. tammikuuta 2021
Vakaa versio 10. elokuuta 2023
Tiedot
Alusta selain
Aiheesta muualla
Verkkosivusto

DALL-E (tyylitelty DALL·E) on OpenAI:n kehittämä tekoälypohjaisten kuvageneraattorimallien perhe, joka luo kuvia tekstimuotoisista kuvauksista.

DALL-E käyttää 12 miljardin parametrin versiota GPT-3 Transformer -mallista tulkitsemaan luonnollisen kielen syötteitä (kuten "viisikulmion muotoinen vihreä nahkakukkaro" tai "isometrinen näkymä surullisesta kapybarasta") ja tuottamaan niitä vastaavat kuvat. Se voi luoda kuvia realistisista esineistä ("lasimaalauksinen ikkuna, jossa on kuva sinisestä mansikasta") sekä esineistä, joita ei ole todellisuudessa olemassa ("kuutio, jossa on piikkisian tekstuuri"). Nimi on portmanteau sanoista WALL-E ja Salvador Dalí.

Monet neuroverkot ovat 2000-luvulta lähtien pystyneet tuottamaan melko realistisia kuvia. DALL-E pystyy kuitenkin tuottamaan niitä luonnollisista kielikehotuksista, joita se "ymmärtää [...] ja epäonnistuu harvoin vakavasti".kenen mukaan?

OpenAI ei ole julkaissut lähdekoodia kummallekaan mallille.

MIT Technology Review -lehden mukaan yksi OpenAI:n tavoitteista oli "antaa kielimalleille parempi käsitys jokapäiväisistä käsitteistä, joita ihmiset käyttävät asioiden ymmärtämiseen".

Historia

OpenAI paljasti DALL-E:n 5. tammikuuta 2021.[1]

Huhtikuussa 2022 OpenAI julkisti DALL-E 2:n kertoen, että se pystyy tuottamaan fotorealistisia kuvia tekstimuotoisista kuvauksista sekä editorin, joka mahdollistaa yksinkertaiset muutokset tuotokseen. Ilmoituksen mukaan ohjelmisto oli vielä tutkimusvaiheessa, ja käyttöoikeus oli rajoitettu ennalta valituille beta-käyttäjille. Malli voi edelleen tehdä vakavia virheitä, myös sellaisia, joita kukaan ihminen ei tekisi. DALL-E 2:ta kuvailtiin mallina, joka "voi luoda alkuperäisiä, realistisia kuvia ja taidetta tekstikuvauksesta. Se voi yhdistää käsitteitä, attribuutteja ja tyylejä".

20. heinäkuuta 2022 DALL-E 2 julkaistiin beta-vaiheeseen, ja kutsuja lähetettiin miljoonalle odotuslistalla olevalle henkilölle.[2] Käyttäjät pystyivät luoda tietyn määrän kuvia ilmaiseksi joka kuukausi ja halutessaan ostaa lisää generaatioita. Aluksi pääsy oli rajattu vain ennakkoon valituille käyttäjille tutkimusvaiheen ajaksi eettisiin ja turvallisuussyihin liittyen. 28. syyskuuta 2022 DALL-E 2 julkaistiin suurelle yleisölle ja odotuslistavaatimus poistettiin.[3]

DALL-E 3 julkaistiin 20. elokuuta 2023.[4]

CLIP

DALL-E kehitettiin ja julkistettiin yleisölle yhdessä CLIP:n (Contrastive Language-Image Pre-training) kanssa. CLIP on erillinen malli, jonka tehtävänä on "ymmärtää ja luokitella" tuotos. CLIP kuratoi DALL-E:n tuottamat kuvat, ja CLIP esittää korkealaatuisimmat kuvat kutakin kehotusta varten.[5]

Arkkitehtuuri

Generative Pre-trained Transformer (GPT) -mallia kehitettiin alun perin OpenAI:ssa vuonna 2018 Transformer-arkkitehtuuria käyttäen.[6] Ensimmäinen iteraatio, GPT, skaalattiin GPT-2:n tuottamiseksi vuonna 2019;[7] vuonna 2020 se skaalattiin jälleen GPT-3:n tuottamiseksi, jossa on 175 miljardia parametria.[1]

DALL-E:n malli on GPT-3:n multimodaalinen toteutus, jossa on 12 miljardia parametria[8] ja joka "vaihtaa tekstiä pikseleihin" ja joka on koulutettu Internetistä saatujen teksti- ja kuvaparien avulla. Se käyttää nollakohtaista oppimista luodakseen tuotoksen kuvauksesta ja vihjeestä ilman lisäkoulutusta.[9]

DALL-E tuottaa useita kuvia vastauksena kehotuksiin. CLIP ymmärtää nämä kuvat ja asettaa ne paremmuusjärjestykseen. CLIP on koulutettu yli 400 miljoonalla kuva- ja tekstiparilla.[1] CLIP on kuvantunnistusjärjestelmä, joka on koulutettu Internetistä poimituilla kuvilla ja kuvauksilla, ei kuitenkaan merkityistä kuvista koostuvalla kuratoidulla tietokokonaisuudella (kuten ImageNet). CLIP yhdistää kuvat ja kuvatekstit toisiinsa. CLIP koulutettiin ennustamaan, mikä kuvateksti (32 768 mahdollisen kuvatekstin "satunnaisvalikoimasta") sopi parhaiten kuvaan, minkä ansiosta se pystyi myöhemmin tunnistamaan kohteita kuvissa, jotka eivät kuuluneet sen koulutusjoukkoon.[10]

Suorituskyky

DALL-E pystyy tuottamaan kuvia eri tyyleillä, fotorealistisista kuvista maalauksiin ja emojeihin. Se voi myös "manipuloida ja järjestää uudelleen" kuvissa olevia esineitä.[1] Yksi luojien havaitsema kyky oli muotoiluelementtien oikea sijoittaminen uusiin sommitelmiin ilman nimenomaista ohjeistusta: "Kun DALL-E:tä esimerkiksi pyydetään piirtämään daikon-retikka, joka niistää nenäänsä, siemailee lattea tai ajaa yksipyöräisellä, se piirtää usein nenäliinan, kädet ja jalat uskottaviin paikkoihin."[11]

Vaikka DALL-E:llä oli monenlaisia taitoja ja kykyjä, julkisessa esittelyssä suurin osa uutisoinnista keskittyi pieneen osajoukkoon "surrealistisia" tai "omituisia" tuotoskuvia. Inputin, NBC:n, Naturen ja muiden julkaisujen jutuissa mainittiin DALL-E:n tulostama "kuvitus daikon-retikka-vauvasta tutussa, joka kävelee koiran kanssa". Sen tuotos "avokadon muotoinen nojatuoli" mainittiin samalla tavalla. Sitä vastoin DALL-E:n havaittiin kehittävän tahattomasti visuaalisia päättelytaitoja, jotka riittävät ratkaisemaan Ravenin matriiseja (visuaalisia testejä, joita usein tehdään ihmisille älykkyyden mittaamiseksi).[12]

Tästä huolimatta DALL-E:tä kuvailtiin "huomattavan kestäväksi tällaisten muutosten suhteen" ja luotettavaksi tuottamaan kuvia monenlaisille mielivaltaisille kuvauksille. CNBC:n toimittaja Sam Shead kutsui kuvia "omituisiksi" ja siteerasi Cambridgen yliopiston koneoppimisen professori Neil Lawrencea, joka kuvaili sitä "inspiroivaksi osoitukseksi näiden mallien kyvystä tallentaa tietoa maailmastamme ja yleistää sitä tavoilla, joita ihmiset pitävät hyvin luonnollisina". Shead siteerasi myös Georgia Tech School of Interactive Computingin apulaisprofessoria Mark Riedliä, joka totesi, että DALL-E:n demonstraation tulokset osoittivat, että se kykeni "yhdistämään käsitteitä johdonmukaisesti", mikä on keskeinen osa ihmisen luovuutta, ja että "DALL-E:n demonstraatio on merkittävä, sillä se tuottaa kuvituksia, jotka ovat paljon johdonmukaisempia kuin muut Text2Image-järjestelmät, joita olen nähnyt viime vuosina". BBC siteerasi Riedlia myös sanomalla, että hän oli "vaikuttunut siitä, mihin järjestelmä pystyy".

Myös DALL-E:n kykyä "täyttää aukkoja" ja päätellä sopivia yksityiskohtia ilman erityisiä kehotuksia on kehuttu. ExtremeTech huomautti, että kehotus piirtää pingviini, jolla on joulupusero, tuotti kuvia pingviineistä, joilla ei myöskään ollut villapaitoja, mutta myös aiheeseen liittyviä joulupukin hattuja, ja Engadget huomautti, että sopivasti sijoitetut varjot näkyivät tulosteessa, kun kehotettiin piirtämään "maalaus, jossa kettu istuu pellolla talvella". Lisäksi DALL-E ymmärtää laajasti visuaalisia ja muotoilutrendejä; ExtremeTechin mukaan "DALL-E:ltä voi pyytää kuvaa puhelimesta tai pölynimurista tietyllä ajanjaksolla, ja se ymmärtää, miten nämä esineet ovat muuttuneet". Engadget totesi myös sen epätavallisen kyvyn "ymmärtää, miten puhelimet ja muut esineet muuttuvat ajan myötä". DALL-E:n on kuvattu yhdessä muiden "kapean tekoälyn", kuten AlphaGon, AlphaFoldin ja GPT-3:n kanssa "herättävän kiinnostusta siihen, voidaanko keinotekoinen yleinen älykkyys saavuttaa ja miten".

Vaikutukset

OpenAI väitti, että se aikoi "analysoida yhteiskunnalliset vaikutukset" ja "mahdolliset vääristymät" ennen kuin se vapauttaa DALL-E:n yleiseen käyttöön. Aikaisemmat mallit olivat alttiita väärinkäytölle, koska niitä vastaan ei pystytty puolustautumaan.

DALL-E enteilee "uuden tekoälyparadigman eli multimodaalisen tekoälyn alkua", jossa järjestelmät kykenisivät yhdistelemään tietoja useista eri tietotyypeistä ja kääntämään tietoja eri tietotyyppien välillä. Lisäksi DALL-E on mainittu esimerkkinä ohjelmistosta, joka osoittaa luovuutta.

DALL-E 2:n ja muiden vastaavien tekoälyjen pelätään aiheuttavan taiteilijoiden, valokuvaajien ja graafisten suunnittelijoiden teknologista työttömyyttä.[13]

Kilpailijoita ja vaihtoehtoja

Katso myös

Lähteet

  1. a b c d OpenAI debuts DALL-E for generating images from text VentureBeat. 5.1.2021. Viitattu 10.4.2023. (englanti)
  2. DALL·E now available in beta openai.com. Viitattu 28.3.2023. (englanti)
  3. DALL·E now available without waitlist openai.com. Viitattu 28.3.2023. (englanti)
  4. DALL-E 3: Release date, features, pricing, and more Android Authority. 19.10.2023. Viitattu 19.2.2024. (englanniksi)
  5. This avocado armchair could be the future of AI MIT Technology Review. Viitattu 15.4.2023. (englanniksi)
  6. Improving Language Understanding by Generative Pre-Training (.pdf) cdn.openai.com. Viitattu 15.4.2023. (englanniksi)
  7. Language models are unsupervised multitask learners (.pdf) cdn.openai.com. Viitattu 15.4.2023. (englanniksi)
  8. OpenAI debuts DALL-E for generating images from text venturebeat.com. Viitattu 15.8.2023. (englanniksi)
  9. OpenAI debuts DALL-E for generating images from text technologyreview.com. 5.1.2021. Viitattu 15.8.2023. (englanniksi)
  10. Devin Coldewey: OpenAI's DALL-E creates plausible images of literally anything you ask it to TechCrunch. 5.1.2021. Viitattu 15.4.2023. (englanti)
  11. Thom Dunn: This AI neural network transforms text captions into art, like a jellyfish Pikachu Boing Boing. 10.2.2021. Viitattu 15.4.2023. (englanti)
  12. Dale Markowitz: Here’s how OpenAI’s magical DALL-E image generator works TNW | Deep-Tech. 10.1.2021. Viitattu 15.4.2023. (englanniksi)
  13. Will OpenAI’s DALL-E 2 kill creative careers? VentureBeat. 26.7.2022. Viitattu 15.4.2023. (englanti)
  14. Uuno Turhapuro kirjoittamassa USA:n itsenäisyysjulistusta ja avokado-nojatuoli – asiantuntija pitää DALL·E -tekoälyä merkkipaaluna Yle Uutiset. 15.7.2022. Viitattu 12.1.2023.
  15. Samuli Leppälä: Pelottavan taitavaa Dall-E-kuvageneraattoria voi käyttää nyt kuka tahansa – näin otat käyttöön Mikrobitti.
Käännös suomeksi
Käännös suomeksi
Tämä artikkeli tai sen osa on käännetty tai siihen on haettu tietoja muunkielisen Wikipedian artikkelista.
Alkuperäinen artikkeli: en:DALL-E

Read other articles:

Lambang Peta Data dasar Bundesland: Nordrhein-Westfalen Regierungsbezirk: Düsseldorf Ibu kota: Kleve Luas wilayah: 1.232,05 km² Penduduk: 307.703 [1] (31 Desember 2005) Kepadatan penduduk: 250 jiwa / km² Pelat kendaraan bermotor: KLE Pembagian administratif: 16 Gemeinden Alamat kantor kabupaten: Nassauer Allee 15–2347533 Kleve Situs web resmi: www.kreis-kleve.de Alamat e-mail: [email protected] Politik Bupati: Wolfgang Spreen (CDU) Peta Kleve (Belanda Kleef) adalah sebuah...

 

Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Orang-orang di Persimpangan Kiri Jalan – berita · surat kabar · buku · cendekiawan · JSTOR Orang-Orang Di Persimpangan Kiri Jalan salah satu karya Soe Hok Gie tentang pemberontakan PKI di Madiun ini dian...

 

Heinrich Häberlin Presiden Konfederasi Swiss Ke-78Masa jabatan1 Januari 1926 – 31 Desember 1926 PendahuluJean-Marie MusyPenggantiGiuseppe MottaPresiden Konfederasi Swiss Ke-83Masa jabatan1 Januari 1931 – 31 Desember 1931 PendahuluJean-Marie MusyPenggantiGiuseppe MottaAnggota Dewan Federal SwissMasa jabatan12 Februari 1920 – 12 Maret 1934 PendahuluFelix CalonderPenggantiJohannes Baumann Informasi pribadiLahir(1868-09-06)6 September 1868Meninggal26 Februari 194...

For the film, see Fast & Furious (2009 film). 2015 video game Video gameBrothers in Arms: Furious 4Developer(s)Gearbox SoftwareEngineUnreal Engine 3Platform(s)Microsoft Windows, PlayStation 3, Xbox 360ReleaseCancelledGenre(s)First-person shooterMode(s)Single-player, multiplayer Brothers in Arms: Furious 4, later called Furious 4, was a first-person shooter video game which was being developed by Gearbox Software. It was unveiled by Ubisoft at their E3 2011 conference.[1] Originall...

 

American painter For other people named Harvey Dunn, see Harvey Dunn (disambiguation). Harvey DunnHarvey Dunn in 1918BornHarvey Thomas Dunn(1884-03-08)March 8, 1884Manchester, South Dakota, U.S.DiedOctober 29, 1952(1952-10-29) (aged 68)Tenafly, New Jersey, U.S.NationalityAmericanOther namesJ. Harvey DunnStyleBrandywine SchoolSpouseJohanne (Krebs) DunnAwardsHonorary Doctorate of Fine Arts degree from the South Dakota State College (1951) Harvey Thomas Dunn NA, also known as J. Harvey...

 

Saudi deputy education minister (born 1956) Norah Al FaizNorah Al Faiz in 2012Vice Minister of EducationIn officeFebruary 2009 – April 2015MonarchsAbdullahSalmanPrime MinisterKing AbdullahKing SalmanPreceded byKhalid bin Abdullah bin Mohammed bin Muqrin Al Mishari Al Saud[1] Personal detailsBornNorah bint Abdullah bin Musaed Al Fayez[1]1956 (age 67–68)Shaqra, Saudi ArabiaNationalitySaudi ArabiaAlma materKing Saud UniversityUtah State University Norah bint...

Pour les articles homonymes, voir Arriaga. Juan Crisóstomo de ArriagaJuan Crisóstomo de ArriagaBiographieNaissance 27 janvier 1806BilbaoDécès 17 janvier 1826 (à 19 ans)Ancien 2e arrondissement de ParisNom de naissance Juan Crisóstomo Jacobo Antonio de Arriaga y BalzolaSurnom Mozart españolNationalité espagnoleFormation Conservatoire national supérieur de musique et de danse de ParisActivité CompositeurAutres informationsInstrument ViolonGenre artistique Musique classiquemodifi...

 

Pour les articles homonymes, voir Levasseur. Jordan LevasseurJordan Levasseur lors du Grand Prix d'Isbergues 2015InformationsNaissance 29 mai 1995 (28 ans)Saint-SaireNationalité françaiseÉquipe actuelle VC Rouen 76Équipes amateurs 2011-2013USSA Pavilly Barentin Junior2014Armée de terre2018VC Toucy2019VC Rouen 762022-VC Rouen 76Équipes professionnelles 2015-2017Armée de terre2020Natura4Ever-Roubaix Lille Métropole2021Xelliss-Roubaix Lille MétropolePrincipales victoires Champion ...

 

Curtiss-Wright CA-1DescrizioneTipoaereo anfibio da trasporto Equipaggio1 ProgettistaFrank Courtney Costruttore Curtiss-Wright Data primo volo1935 Esemplari3 Dimensioni e pesiLunghezza9,45 m (31 ft 0 in) Apertura alare12,19 m (40 ft 0 in) Passeggeri4 Capacità110 kg (240 lb)[1] PropulsioneMotoreun radiale Wright 975E-1 Potenza365 hp (272 kW) PrestazioniVelocità max243 km/h (151 mph, 131 kt) Velocità di stallo97 km/h (60 mph, 52 kt) Velocità di crociera201 km/h (125 mph, 109 kt) Auto...

British term for a large car 2021 BMW 5 Series1977 Rover 3500 Executive car is a British term for a large car which is equivalent to the European E-segment and American full-size classifications.[1] Executive cars are larger than compact executive cars (and the non-luxury equivalent mid-size cars), and smaller than luxury saloons / full-size luxury sedans. The term has also been adopted by Euro NCAP, a European organization founded to test for car safety.[2] Background The ter...

 

 烏克蘭總理Прем'єр-міністр України烏克蘭國徽現任杰尼斯·什米加尔自2020年3月4日任命者烏克蘭總統任期總統任命首任維托爾德·福金设立1991年11月后继职位無网站www.kmu.gov.ua/control/en/(英文) 乌克兰 乌克兰政府与政治系列条目 宪法 政府 总统 弗拉基米尔·泽连斯基 總統辦公室 国家安全与国防事务委员会 总统代表(英语:Representatives of the President of Ukraine) 总...

 

 烏克蘭總理Прем'єр-міністр України烏克蘭國徽現任杰尼斯·什米加尔自2020年3月4日任命者烏克蘭總統任期總統任命首任維托爾德·福金设立1991年11月后继职位無网站www.kmu.gov.ua/control/en/(英文) 乌克兰 乌克兰政府与政治系列条目 宪法 政府 总统 弗拉基米尔·泽连斯基 總統辦公室 国家安全与国防事务委员会 总统代表(英语:Representatives of the President of Ukraine) 总...

The Slave's Lament is a song first published in 1792 in volume four of the Scots Musical Museum.[1] It is often claimed that the lyrics were written by Robert Burns.[2][3] The song is the subject of Graham Fagen’s installation originally created in 2015[4] with the help of the composer Sally Beamish, reggae artist Ghetto Priest and producer Adrian Sherwood, for that year's La Biennale di Venezia, and in 2017 in the Scottish National Portrait Gallery,[5&#...

 

байдарки-одиночки, 500 метрів (жінки)на XXXII Олімпійських іграх Місце проведенняВеслувальний канал Сі ФорестДати4 серпня 2021 (попередні запливи і чвертьфінал)5 серпня 2021 (півфінал і фінал)Учасників13+ з 13+ країнПризери  Ліза Керрінгтон  Нова Зеландія Тамара ...

 

عملية إلامي جزء من التدخل العسكري في ليبيا    التاريخ وسيط property غير متوفر. بداية 19 مارس 2011  نهاية 31 أكتوبر 2011  تعديل مصدري - تعديل   عملية إلامي (بالإنجليزية: Operation Ellamy)‏[1] هي الاسم الحركي لمشاركة الأمم المتحدة في التدخل العسكري في ليبيا عام 2011.[2] كانت ا�...

Pour les articles homonymes, voir 41e division d'infanterie. 41st Infantry Division Insigne d'épaule de la division Création 1917 Dissolution 1968 Pays États-Unis Branche United States Army Type Infanterie Surnom JungleersSunsetters Guerres Seconde Guerre mondiale Batailles Campagne de Nouvelle-GuinéeBataille de Mindanao Commandant historique Horace H. Fuller (en)Jens A. Doe (en) modifier  La 41e division d'infanterie (41st Infantry Division) est une division de l'Arm...

 

Black Flag discographyStudio albums7Live albums3Compilation albums4Video albums3Music videos6EPs8Singles2Other appearances3 The discography of Black Flag, an American hardcore punk band, consists of seven studio albums, three live albums, four compilation albums, eight EPs, and one single. Studio albums Year Album details 1981 Damaged Released: December 1981 Label: SST Format: LP, CS, CD 1984 My War Released: March 1984 Label: SST Format: LP, CS, CD Family Man Released: September 1984 Label:...

 

2021 video game 2021 video gameFar Cry 6Cover art featuring antagonist Antón Castillo standing behind his son DiegoDeveloper(s)Ubisoft Toronto[a]Publisher(s)UbisoftDirector(s)Omar BoualiAlexandre LetendreProducer(s)Rima BrekDesigner(s)Ted TimminsProgrammer(s)Olivier RouleauChristian CarriereArtist(s)Denny BorgesMarco BeaucheminWriter(s)Navid KhavariComposer(s)Pedro BromfmanSeriesFar CryEngineDunia 2Platform(s)PlayStation 4PlayStation 5StadiaWindowsXbox OneXbox Series X/SReleaseOctobe...

 山路 晶 YAMAJI Akira基本情報名前 山路 晶生年月日 (1998-09-10) 1998年9月10日(25歳)身長 166 cm (5 ft 5 in)国籍 日本出身地 宮城県仙台市経歴大学 東北高等学校卒業プロ転向 2020年=LPGA92期優勝数日本LPGA 0成績ベストスコア 65賞金ランク最高位 日本女子:55位(2020-21年)2022年1月15日現在テンプレートを表示 山路 晶(やまじ あきら、1998年9月10日 - )は、日本の女子...

 

【推しの子】 > 【推しの子】 (アニメ) この項目には、JIS X 0213:2004 で規定されている文字(ハートマーク)が含まれています(詳細)。 【推しの子】 アニメ 原作 赤坂アカ×横槍メンゴ 監督 平牧大輔 シリーズ構成 田中仁 脚本 田中仁 キャラクターデザイン 平山寛菜 音楽 伊賀拓郎 アニメーション制作 動画工房 製作 【推しの子】製作委員会 放送局 TOKYO MXほか 放...