Multimodalno učenje

Multimodalno učenje, u kontekstu mašinskog učenja, je vrsta dubokog učenja koristeći više modaliteta podataka, kao što su tekst, audio ili slike.

Nasuprot tome, unimodalni modeli mogu da obrađuju samo jednu vrstu podataka, kao što je tekst (obično predstavljen kao vektori karakteristika) ili slike. Multimodalno učenje se razlikuje od kombinovanja unimodalnih modela obučenih nezavisno. Ono kombinuje informacije iz različitih modaliteta kako bi se napravila bolja predviđanja.[1]

Veliki multimodalni modeli, kao što su Guglov Džeminaj i GPT-4o, postaju sve popularniji od 2023. godine, omogućavajući veću svestranost i šire razumevanje pojava u stvarnom svetu.[2]

Aplikacija

Multimodalne duboke Bolcmanove mašine se uspešno koriste u klasifikaciji i pronalaženju podataka koji nedostaju. Tačnost klasifikacije multimodalnih dubokih Bolcmanovih mašina nadmašuje mašinu potpornih vektora, latentnu Dirihleovu alokaciju i mrežu dubokih verovanja, kada se modeli testiraju na podacima sa oba modaliteta slika-tekst ili sa jednim modalitetom. Multimodalne duboke Bolcmanove mašine su takođe u stanju da predvide nedostajuće modalitete s obzirom na posmatrane sa prilično dobrom preciznošću. Samonadgledano učenje donosi zanimljiviji i moćniji model za multimodalnost. OpenAI je razvio CLIP i DALL-E modele koji su revolucionirali multimodalnost.

Multimodalno duboko učenje se koristi za skrining raka – najmanje jedan sistem u razvoju integriše tako različite tipove podataka.[3][4]

Reference

  1. ^ Rosidi, Nate (27. 3. 2023). „Multimodal Models Explained”. KDnuggets (на језику: енглески). Приступљено 2024-06-01. 
  2. ^ Zia, Tehseen (8. 1. 2024). „Unveiling of Large Multimodal Models: Shaping the Landscape of Language Models in 2024”. Unite.ai. Приступљено 2024-06-01. 
  3. ^ Quach, Katyanna. „Harvard boffins build multimodal AI system to predict cancer”. The Register (на језику: енглески). Архивирано из оригинала 20. 9. 2022. г. Приступљено 16. 9. 2022. 
  4. ^ Chen, Richard J.; Lu, Ming Y.; Williamson, Drew F. K.; Chen, Tiffany Y.; Lipkova, Jana; Noor, Zahra; Shaban, Muhammad; Shady, Maha; Williams, Mane; Joo, Bumjin; Mahmood, Faisal (8. 8. 2022). „Pan-cancer integrative histology-genomic analysis via multimodal deep learning”. Cancer Cell (на језику: енглески). 40 (8): 865—878.e6. ISSN 1535-6108. PMC 10397370Слободан приступ. PMID 35944502. S2CID 251456162. doi:10.1016/j.ccell.2022.07.004Слободан приступ.