Model de fundació

Un model de fundació és un gran model d'intel·ligència artificial entrenat en una gran quantitat de dades sense etiquetar i a gran escala (generalment mitjançant aprenentatge autosupervisat) que resulta en un model que es pot adaptar a una àmplia gamma de tasques posteriors.[1][2] Els models de fundació han ajudat a provocar una transformació important en la manera com es construeixen els sistemes d'IA des de la seva introducció el 2018. Els primers exemples de models bàsics van ser grans models de llenguatge pre-entrenat, incloent BERT i GPT-3. Amb les mateixes idees, també s'han construït models específics de domini que utilitzen seqüències d'altres tipus de fitxes, com ara codis mèdics.[3] Posteriorment, s'han produït diversos models de fonamentació multimodal incloent DALL-E, Flamingo,[4] Florence i NOOR.[5] El Centre d'Investigació sobre Models de Fundacions (CRFM) de l'Institut de Stanford per a la Intel·ligència Artificial Centrada en l'Human (HAI) va popularitzar el terme.

El Centre d'Investigació sobre Models Fundacionals (CRFM) de l'Institut d'Intel·ligència Artificial Centrada en l'Human de Stanford (HAI) va encunyar el terme model de fundació per referir-se a "qualsevol model que s'entrena amb dades àmplies (generalment utilitzant l'autosupervisió a escala) que es pugui adaptar a una àmplia gamma de tasques aigües avall". Aquesta no és una tècnica nova en si mateixa, ja que es basa en xarxes neuronals profundes i aprenentatge autosupervisat, sinó l'escala a la qual s'ha desenvolupat en els darrers anys i el potencial d'un model per a ser utilitzat per a molts propòsits diferents., justifica un nou mandat, argumenten el grup de Stanford.

Un model de base és un "paradigma per construir sistemes d'IA" en el qual un model entrenat en una gran quantitat de dades sense etiquetar es pot adaptar a moltes aplicacions.[6][7] Els models de la fundació estan "dissenyats per adaptar-se (p. ex., afinar-los) a diverses tasques cognitives aigües avall mitjançant la formació prèvia sobre dades àmplies a escala".[8]

Les característiques clau dels models de fonamentació són l'aparició i l'homogeneïtzació. Com que els humans no etiqueten les dades d'entrenament, el model sorgeix en lloc d'estar codificat explícitament. Poden aparèixer propietats que no s'havien previst. Per exemple, un model entrenat en un conjunt de dades de llenguatge gran pot aprendre a generar històries pròpies o a fer aritmètica, sense estar programat explícitament per fer-ho.[9] L'homogeneïtzació fa que s'utilitzi el mateix mètode en molts dominis, la qual cosa permet avenços potents però també la possibilitat de "punts únics de falla".

Referències

  1. «Introducing the Center for Research on Foundation Models (CRFM)» (en anglès). Stanford HAI. [Consulta: 11 juny 2022].
  2. Goldman, Sharon. «Foundation models: 2022's AI paradigm shift» (en anglès). VentureBeat, 13-09-2022. [Consulta: 24 octubre 2022].
  3. Steinberg, Ethan; Jung, Ken; Fries, Jason A.; Corbin, Conor K.; Pfohl, Stephen R. Journal of Biomedical Informatics, 113, 1-2021, pàg. 103637. DOI: 10.1016/j.jbi.2020.103637. ISSN: 1532-0480. PMC: 7863633. PMID: 33290879.
  4. [Consulta: 13 juny 2022]. 
  5. «Technology Innovation Institute Announces Launch of NOOR, the World’s Largest Arabic NLP Model» (en anglès).
  6. «Stanford CRFM» (en anglès). [Consulta: 10 juny 2022].
  7. «What are foundation models?» (en anglès). IBM Research Blog, 09-02-2021. [Consulta: 10 juny 2022].
  8. Fei, Nanyi; Lu, Zhiwu; Gao, Yizhao; Yang, Guoxing; Huo, Yuqi (en anglès) Nature Communications, 13, 1, 12-2022, pàg. 3094. DOI: 10.1038/s41467-022-30761-2. ISSN: 2041-1723. PMC: 9163040. PMID: 35655064.
  9. «Huge "foundation models" are turbo-charging AI progress». [Consulta: 24 octubre 2022].