En el camp de la intel·ligència artificial (IA), la investigació sobre l'alineació de la IA té com a objectiu dirigir els sistemes d'IA cap als objectius, preferències o principis ètics previstos per als humans. Un sistema d'IA es considera alineat si avança els objectius previstos. Un sistema d'IA desalineat persegueix alguns objectius, però no els previstos.[1]
Pot ser un repte per als dissenyadors d'IA alinear un sistema d'IA perquè pot ser difícil per a ells especificar la gamma completa de comportaments desitjats i no desitjats. Per evitar aquesta dificultat, solen utilitzar objectius de proxy més senzills, com ara obtenir l'aprovació humana. Tanmateix, aquest enfocament pot crear llacunes, passar per alt les limitacions necessàries o recompensar el sistema d'IA per semblar alineat.[2]
Els sistemes d'IA desalineats poden funcionar malament o causar danys. Els sistemes d'IA poden trobar llacunes que els permetin assolir els seus objectius de proxy de manera eficient, però de maneres no desitjades, de vegades perjudicials (pirateria de recompensa).[4] Els sistemes d'IA també poden desenvolupar estratègies instrumentals no desitjades, com ara la recerca de poder o la supervivència, perquè aquestes estratègies els ajuden a assolir els seus objectius.[4][5] A més, poden desenvolupar objectius emergents indesitjables que poden ser difícils de detectar abans que el sistema estigui en desplegament, on s'enfronta a noves situacions i distribucions de dades.[6]
Avui dia, aquests problemes afecten els sistemes comercials existents com ara els models de llenguatge,[7][8] robots,[9] vehicles autònoms [10] i motors de recomanació de xarxes socials.[7][11][12] Alguns investigadors d'IA argumenten que els sistemes futurs més capaços es veuran més greument afectats, ja que aquests problemes resulten parcialment perquè els sistemes són altament capaços.[13]
Molts científics líders en IA, com Geoffrey Hinton i Stuart Russell, argumenten que la IA s'apropa a les capacitats sobrehumanes i que podria posar en perill la civilització humana si no s'alinea.[14][15]
↑Zaremba, Wojciech. «OpenAI Codex» (en anglès). OpenAI, 10-08-2021. Arxivat de l'original el 3 febrer 2023. [Consulta: 23 juliol 2022].
↑Kober, Jens; Bagnell, J. Andrew; Peters, Jan (en anglès) The International Journal of Robotics Research, 32, 11, 01-09-2013, pàg. 1238–1274. DOI: 10.1177/0278364913495721. ISSN: 0278-3649 [Consulta: 12 setembre 2022].
↑Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (en anglès) Artificial Intelligence, 316, 01-03-2023, pàg. 103829. DOI: 10.1016/j.artint.2022.103829. ISSN: 0004-3702.