Malliromahdus (engl.model collapse), jota kutsutaan myös tekoälyn romahdukseksi (engl.AI collapse), tarkoittaa synteettisellä datalla koulutetun generatiivisen tekoälymallin tuotoksen asteittaista rappeutumista. Käytännössä tämä tarkoittaa sitä, että uudet kielimallit koulutetaan netissä olevilla aineistoilla, joihin sisältyvät myös aikaisempien kielimalliversioiden tuotokset.[1][2][3][4][5]
Tämän prosessin toistaminen mallisukupolvesta toiseen muodostaa niin sanotun autofaagisen (itseään kuluttavan) silmukan[6].
Teoreettiset ja empiiriset analyysit ovat osoittaneet, että tulevaisuuden generatiiviset mallit tarvitsevat riittävän määrän todellista tuoretta dataa jokaisessa autofaagisen silmukan sukupolvessa. Ilman sitä tulevaisuuden generatiiviset mallit ovat tuomittuja menettämään asteittain laadun (tarkkuuden) tai monimuotoisuuden (haun kattavuus, tunnistamistarkkuus eli kyky tunnistaa erilaisia tapauksia koulutusdatasta)[6]. Siksi mallin romahtamista on kutsuttu myös autofagia-häiriöksi (engl.Model Autophagy Disorder, MAD), joka on analoginen hullun lehmän taudin kanssa[6].
Vuonna 2024 julkaistu tutkimus haastoi käsityksen, että tekoälymallit menettäisivät tehokkuutensa, kun niitä koulutetaan jatkuvasti niiden omilla tuotoksilla[7]. Tutkimuksen mukaan mallien suorituskyky voi säilyä, kunhan käytettävää koulutusdataa kertyy ajan myötä eikä vanhaa dataa korvata uudella[7]. Tämä osoittaa, että mallit voivat säilyttää ja jopa parantaa suorituskykyään, kun niille tarjotaan jatkuvasti uutta ja monipuolista dataa[7].
Vuoden 2024 tutkimuksessa näytettiin, että kielimallien kouluttaminen aiempien mallien tuottamalla synteettisellä datalla heikentää niiden kykyä tuottaa monimuotoista tekstiä[8]. Koulutusdata, joka koostuu pääosin vanhasta, mallien itse tuottamasta aineistosta, johtaa kielen leksikaalisen, syntaktisen ja semanttisen monimuotoisuuden vähenemiseen[8]. Erityisesti luovuutta vaativissa tehtävissä, kuten tarinankerronnassa tai runouden luomisessa, tämä monimuotoisuuden puute voi merkittävästi rajoittaa mallien tuotosten laatua ja omaperäisyyttä[8].
Taiteilijoiden harjoittama datan myrkyttäminen
Datamyrkytys on eräänlainen koneoppimisen torjuntamuoto, jossa kuvan tai tekstin tietoja muutetaan niin, ettei koulutusmalli pysty käsittelemään niitä tarkasti. Datamyrkytyksiä on kahta päätyyppiä: puolustuksellinen, jossa kuvan tietoja muutetaan teoksen eheyden suojelemiseksi estämällä kopiointi ja jäljitelmät, ja hyökkäävä, jossa kuvan tietoja muutetaan generatiivisen tekoälyn luotettavuuden vähentämiseksi.[9]
↑Shumailov, Ilia; Shumaylov, Zakhar; Zhao, Yiren; Gal, Yarin; Papernot, Nicolas; Anderson, Ross: The Curse of Recursion: Training on Generated Data Makes Models Forget. arXiv, 31.5.2023. arXiv:2305.17493 doi:10.48550/arXiv.2305.17493(englanniksi)
↑Dohmatob, Elvis & Feng, Yunzhen & Kempe, Julia: Model Collapse Demystified: The Case of Regression. arXiv, 12.2.2024. arXiv:2402.07712 doi:10.48550/arXiv.2402.07712(englanniksi)
↑ abcAlemohammad, Sina; Casco-Rodriguez, Josue; Luzi, Lorenzo; Humayun, Ahmed Imtiaz; Babaei, Hossein; LeJeune, Daniel; Siahkoohi, Ali; Baraniuk, Richard G.: Self-Consuming Generative Models Go MAD. (arkistoitu 19.4.2024) Self-Consuming Generative Models Go MAD, 16.3.2024. The Twelfth International Conference on Learning Representations. Artikkelin verkkoversio. (PDF) Viitattu 19.4.2024. (englanniksi)
↑ abcGerstgrasser, Matthias; Schaeffer, Rylan; Dey, Apratim; Rafailov, Rafael; Sleight, Henry; Hughes, John; Korbak, Tomasz; Agrawal, Rajashree; Pai, Dhruv; Gromov, Andrey; Roberts, Daniel A.; Yang, Diyi; Donoho, David L.; Koyejo, Sanmi: Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data. arXiv, 1.4.2024. arXiv:2404.01413 Artikkelin verkkoversio. Viitattu 4.5.2024. (englanniksi)
↑ abcGuo, Yanzhu; Shang, Guokan; Vazirgiannis, Michalis; Clavel, Chloé: The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text. arXiv, 16.4.2024. doi:10.48550/arXiv.2311.09807Artikkelin verkkoversio. Viitattu 8.5.2024. (englanniksi)
↑The Nightshade Team: What is NightshadeNightshade. 2024. Chicago: Chicagon yliopisto. Arkistoitu 11.6.2024. Viitattu 18.6.2024. (englanniksi)