Tra i sistemi di intelligenza artificiale generativa degni di nota si ricordano ChatGPT, un chatbot creato da OpenAI utilizzando i modelli linguistici GPT-3 e GPT-4.[4] Altri sistemi includono Bard di Google (basato sul modello LaMDA[5]), Bedrock di Amazon, Ernie Bit di Baidu, Pangu-Σ di Huawei, Claude di Anthropic, xAI di Elon Musk, Jais in lingua araba, Poe di Quora e Llama di Meta (open source e gratuito, ma dedicato a sviluppatori, ricercatori e aziende). Dolly 2.0 è il primo LLM interamente open source e libero da restrizioni anche per finalità commerciali e di ricerca, creato da Databricks, società che condivide gli stessi fondatori di Apache Spark.[6] Nel 2023 è stato rilasciato su GitHub OpenChat AI, LLM addestrato con 7 miliardi di parametri su fonti offline, associate a un ranking e a un feedback positivo/negativo dei risultati da parte degli utenti.[7] Esistono, inoltre, sistemi capaci di generare immagini 3D come Stable Diffusion, Midjourney e DALL-E.[8]
Gli investimenti nell'IA generativa sono aumentati nei primi anni 2020: Microsoft che ha investito 10 miliardi di dollari in OpenAI, Google e Baidu e numerose aziende più piccole che sviluppano modelli di IA generativa.[1][12][13]
Anche in Italia, nel 2023, Microsoft Italia ha annunciato il progetto "Ambizione Italia #DigitalChamps" per sollecitare la trasformazione digitale puntando sulle piccole e medie imprese (PMI) e le nuove startup, sfruttando le ultime innovazioni per lo sviluppo economico del paese[14].
Nell'ottobre 2023 la Coalition for Content Provenance and Authenticity (C2PA, una coalizione formata da Adobe, Microsoft, Nikon, Leica, Camera Bits, Truepic e Publicis Groupe) ha sviluppato Content CRedentials, la prima etichetta che identifica univocamente la provenienza dei contenuti digitali generati dall'intelligenza artificiale. Essa si applica a Adobe Photoshop, Adobe Premiere e Bing Image Creator. L'icona permette di visualizzare il proprietario autore del contenuto, lo storico delle modifiche fino all'inserimento dell'icona e il software utilizzato per la sua realizzazione.[15]
Modalità
Un sistema di intelligenza artificiale generativa viene costruito applicando l'apprendimento automatico non supervisionato o auto-supervisionato a un insieme di dati. Le capacità di un sistema di intelligenza artificiale generativa dipendono dalla modalità o dal tipo di set di dati utilizzato.
Testo: I sistemi di intelligenza artificiale generativa addestrati su parole o token di parole includono GPT-3, LaMDA, LLaMA, BLOOM, GPT-4 e altri. Sono capaci di elaborazione del linguaggio naturale, traduzione automatica, e generazione di linguaggio naturale e possono essere usati come modelli di base per altri compiti[16]. I set di dati includono BookCorpus, Wikipedia e altri.
Codice: Oltre al testo in linguaggio naturale, i grandi modelli linguistici possono essere addestrati su testi di linguaggio di programmazione, permettendo loro di generare codice sorgente per nuovi programmi informatici. Esempi includono OpenAI Codex.
Immagini: I sistemi di intelligenza artificiale generativa addestrati su set di immagini con didascalie di testo includono Imagen, DALL-E, Midjourney, Stable Diffusion e altri. Sono comunemente usati per la generazione di immagini da testo e il trasferimento di stile neurale. I set di dati includono LAION-5B e altri (vedi Set di dati in visione computazionale).
Molecole: I sistemi di intelligenza artificiale generativa possono essere addestrati su sequenze di amminoacidi o rappresentazioni molecolari come SMILES che rappresentano DNA o proteine. Questi sistemi, come AlphaFold, vengono utilizzati per la previsione della struttura delle proteine e la scoperta di farmaci. I set di dati includono vari set di dati biologici.
Musica: Sistemi di intelligenza artificiale generativa come MusicLM possono essere addestrati sulle forme d'onda audio di musica registrata insieme a annotazioni di testo, al fine di generare nuovi campioni musicali basati su descrizioni di testo come "una melodia di violino rilassante supportata da un riff di chitarra distorto".
Video: L'intelligenza artificiale generativa addestrata su video annotati può generare clip video coerenti nel tempo. Esempi includono Gen1 di RunwayML[17] e Make-A-Video di Meta Platforms[18].
Multimodale: Un sistema di intelligenza artificiale generativa può essere costruito da più modelli generativi, o un modello addestrato su più tipi di dati. Ad esempio, una versione di GPT-4 di OpenAI accetta sia input di testo che di immagini[19].
voce: mediante il riconoscimento vocale e la sintesi vocale, in grado di elaborare domande complesse. Al 2023, è in via di introduzione su ChatGPT, Alexa di Amazon e nel chatbot Bard di Google.[20]
Oltre a testo e immagini 2D, le intelligenze artificiali generative possono anche generare immagini 3D ricche di dettagli, utili per gaming, realtà virtuale, cinema animato ed esperienze multimediali.[21]
Impatti
Uno studio di Ambrosetti-The European House ha stimato che nel 2023 un'adozione diffusa pervasiva dell'intelligenza artificiale generativa in Italia potrebbe creare 312 miliardi di ore lavorate di valore aggiunto ovvero liberare 5,4 miliardi di ore lavorate ogni anno, pari al 18% del PIL.[22] Secondo il World Economic Forum, dal 2024 al 2029 l'intelligenza artificiale generativa comporterà la perdita di 14 milioni di posti di lavoro.[23] Secondo Goldman Sachs, i progressi dell'intelligenza artificiale raggiunti al 2023 consentirebbero di automatizzare 300 milioni di posti di lavoro a tempo pieno.[24]
Secondo uno studio McKinsey, si prevede che dal 2025 il 20% della domanda di chip sia trainato dall'intelligenza artificiale.[25]
Secondo uno studio del think thank Authonomy, l'intelligenza artificiale potrebbe ridurre la settimana lavorativa a 4 giorni entro il 2033 per 28 milioni di lavoratori della Gran Bretagna (88% della forza lavoro) e 128 milioni degli Stati Uniti (78% della forza lavoro).[26]
Al 2023, l'intelligenza artificiale generativa ha già superato quella umana in alcuni ambiti specifici come la ricerca di nuove proteine e i giochi di strategia.[27]
Rilevatori
Sul mercato esistono software gratuiti capaci di riconoscere il testo generato dall'intelligenza artificiale generativa (come GPTZero), nonché immagini, audio o video provenienti da quest'ultima.[28][29][30]
^ Andrej Karpathy, Pieter Abbeel, Greg Brockman, Peter Chen, Vicki Cheung, Yan Duan, Ian Goodfellow, Durk Kingma, Jonathan Ho, Rein Houthooft, Tim Salimans, John Schulman, Ilya Sutskever e Wojciech Zaremba, Generative models, su openai.com, 16 giugno 2016.
^ Romal Thoppilan, Daniel De Freitas, Jamie Hall, Noam Shazeer, Apoorv Kulshreshtha, Heng-Tze Cheng, Alicia Jin, Taylor Bos, Leslie Baker, Yu Du, YaGuang Li, Hongrae Lee, Huaixiu Steven Zheng, Amin Ghafouri, Marcelo Menegali, Yanping Huang, Maxim Krikun, Dmitry Lepikhin, James Qin, Dehao Chen, Yuanzhong Xu, Zhifeng Chen, Adam Roberts, Maarten Bosma, Vincent Zhao, Yanqi Zhou, Chung-Ching Chang, Igor Krivokon, Will Rusch, Marc Pickett, Pranesh Srinivasan, Laichee Man, Kathleen Meier-Hellstern, Meredith Ringel Morris, Tulsee Doshi, Renelito Delos Santos, Toju Duke, Johnny Soraker, Ben Zevenbergen, Vinodkumar Prabhakaran, Mark Diaz, Ben Hutchinson, Kristen Olson, Alejandra Molina, Erin Hoffman-John, Josh Lee, Lora Aroyo, Ravi Rajakumar, Alena Butryna, Matthew Lamm, Viktoriya Kuzmina, Joe Fenton, Cohen, Aaron, Rachel Bernstein, Ray Kurzweil, Blaise Aguera-Arcas, Claire Cui, Marian Croak, Ed Chi e Quoc Le, LaMDA: Language Models for Dialog Applications, 20 gennaio 2022.
«Un paper a opera di svariati ricercatori universitari ... in ambiti molto ristretti quali il protein folding o i giochi di strategia, l'IA abbia superato le capacità umane.»