Modelo de fundación
Un modelo de fundación, é un modelo de aprendizaxe automática ou aprendizaxe profunda que é adestrado nunha gran cantidade de datos de tal xeito que pode ser aplicado a múltiples casos.[1] Os modelos de fundación transformaron a intelixencia artificial (IA) e impulsaron novas aplicacións da IA na nosa sociedade como ChatGPT.[1] O termo modelo de fundación, ou en inglés Foundation Model foi creado e popularizado polo Centro de Investigación en Modelos de Fundación do Instituto de Intelixencia Artifical Humano-céntrica de Stanford.[2]
Os modelos de fundación son modelos creados para poder realizar unha diversa gama de casos. Debido a isto, a súa creación require habitualmente dunha gran cantidade de recursos tanto computacionais como de cantidade de datos, sendo os máis caros ate o momento de centos de millóns de dólares.[3] Por outro lado, o proceso de adaptar un modelo de fundación existente para un uso específico é moito menos esixente a nivel de recursos.
Os primeiros exemplos de modelos de fundación son modelos lingüísticos como BERT[4] de Google e a serie de "GPT-n" de OpenAI. Máis aló do campo textual, tamén se crearon modelos de fundación en outros campos como para a creación de imaxes (DALL-E e Flamingo),[5] no eido musical (MusicGen),[6] ou no control de robots (RT-2).[7] Actualmente, estanse investigando as súas aplicacións en outros moitos campos como a astronomía,[8] radioloxía,[9] xenómica, física, programación[10] e matemáticas.[11]
Detalles técnicos
Modelización
Para que un modelo de fundación xeneralice eficazmente a un gran rango de aplicacións este ten que adquirir representacións ricas do dato de adestramento. Como resultado disto adoitan empregarse na súa construción arquitecturas expresivas que procesan de forma eficiente datos a gran escala. Actualmente, os Transformer, dentro das súas diversas modalidades, é a arquitectura escollida de facto par construír este modelo.
Notas
- ↑ 1,0 1,1 Competition and Markets Authority (2023). AI Foundation Models: Initial Report. Available at: https://assets.publishing.service.gov.uk/media/65081d3aa41cc300145612c0/Full_report_.pdf
- ↑ "Introducing the Center for Research on Foundation Models (CRFM)". Stanford HAI. 18 de agosto de 2021. Consultado o 11 de xuño de 2022.
- ↑ Nestor Maslej, Loredana Fattorini, Erik Brynjolfsson, John Etchemendy, Katrina Ligett, Terah Lyons, James Manyika, Helen Ngo, Juan Carlos Niebles, Vanessa Parli, Yoav Shoham, Russell Wald, Jack Clark, and Raymond Perrault, "The AI Index 2023 Annual Report," AI Index Steering Committee, Institute for Human-Centered AI, Stanford University, Stanford, CA, abril de 2023.
- ↑ Rogers, Anna; Kovaleva, Olga; Rumshisky, Anna (2020). "A Primer in BERTology: What we know about how BERT works". arXiv:2002.12327 [cs.CL].
- ↑ "Tackling multiple tasks with a single visual language model". 28 de abril de 2022. Consultado o 13 de xuño de 2022.
- ↑ Copet, Jade; Kreuk, Felix; Gat, Itai; Remez, Tal; Kant, David; Synnaeve, Gabriel; Adi, Yossi; Défossez, Alexandre (2023-11-07). "Simple and Controllable Music Generation". arXiv:2306.05284 [cs.SD].
- ↑ "Speaking robot: Our new AI model translates vision and language into robotic actions". Google (en inglés). 2023-07-28. Consultado o 2023-12-11.
- ↑ Nguyen, Tuan Dung; Ting, Yuan-Sen; Ciucă, Ioana; O'Neill, Charlie; Sun, Ze-Chang; Jabłońska, Maja; Kruk, Sandor; Perkowski, Ernest; Miller, Jack (2023-09-12). "AstroLLaMA: Towards Specialized Foundation Models in Astronomy". arXiv:2309.06126 [astro-ph.IM].
- ↑ Tu, Tao; Azizi, Shekoofeh; Driess, Danny; Schaekermann, Mike; Amin, Mohamed; Chang, Pi-Chuan; Carroll, Andrew; Lau, Chuck; Tanno, Ryutaro (2023-07-26). "Towards Generalist Biomedical AI". arXiv:2307.14334 [cs.CL].
- ↑ Li, Raymond; Allal, Loubna Ben; Zi, Yangtian; Muennighoff, Niklas; Kocetkov, Denis; Mou, Chenghao; Marone, Marc; Akiki, Christopher; Li, Jia (2023-05-09). "StarCoder: may the source be with you!". arXiv:2305.06161 [cs.CL].
- ↑ Azerbayev, Zhangir; Schoelkopf, Hailey; Paster, Keiran; Santos, Marco Dos; McAleer, Stephen; Jiang, Albert Q.; Deng, Jia; Biderman, Stella; Welleck, Sean (2023-11-30). "Llemma: An Open Language Model For Mathematics". arXiv:2310.10631 [cs.CL].
|
|