L'argument majeur avancé en faveur de la réalité de ce risque est celui que l'espèce humaine domine actuellement les autres espèces parce que son cerveau a certaines capacités que les autres animaux n'ont pas. Si l'IA dépasse l'humanité en matière d'intelligence générale et devient « superintelligente », elle pourrait devenir difficile voire impossible à contrôler par les humains. Tout comme le sort du gorille dépend aujourd'hui de la bonne volonté des humains, le sort de l'humanité pourrait dépendre des actions d'une future superintelligence artificielle[5].
La plausibilité de risque est débattue ; elle dépend de la capacité de l'intelligence artificielle générale et d'une superintelligence à émerger, et de la vitesse à laquelle elle développerait des aptitudes dangereuses[6], et des potentiels scénarios concrets de prise de contrôle[7]. D'éminents chercheurs et chefs d'entreprises comme Geoffrey Hinton[8], Alan Turing[9], Sam Altman[10], Stephen Hawking[11], Bill Gates[12] ou Elon Musk[13] ont alerté sur ce risque. Selon une étude réalisée en 2022 avec un taux de réponses de 17%, environ la moitié des chercheurs en IA estiment à 10 % ou plus le risque qu'un échec à contrôler l'intelligence artificielle cause une catastrophe existentielle comme l'extinction humaine[14],[15]. En 2023, des centaines d'experts en IA et autres figures notables ont signé une déclaration affirmant que « l'atténuation du risque d'extinction par l'IA devrait être une priorité mondiale aux côtés d'autres risques à l'échelle de la société tels que les pandémies et la guerre nucléaire. »[16]. Suivant ces préoccupations grandissantes, des dirigeants comme le premier ministre du Royaume-Uni Rishi Sunak[17] et le secrétaire général des Nations UniesAntónio Guterres[18] ont appelé à amplifier l'effort de réglementation de l'IA à l'échelle mondiale.
Contrôler une superintelligence ou lui inculquer des valeurs compatibles avec l'homme (alignement des intelligences artificielles) peut s'avérer plus difficile qu'on ne le supposerait naïvement. De nombreux chercheurs pensent qu'une superintelligence résisterait aux tentatives faites pour l'éteindre ou pour modifier ses objectifs (car cela l'empêcherait d'atteindre ses objectifs actuels) et qu'il sera extrêmement difficile d'aligner la superintelligence sur l'ensemble des valeurs humaines et contraintes importantes[2],[19],[20]. Des sceptiques tels que Yann Le Cun affirment au contraire que les superintelligences artificielles n'auront aucun désir d'auto-préservation[21].
Une autre source d'inquiétude vient du risque qu'une soudaine « explosion d'intelligence » prenne l'humanité au dépourvu. De tels scénarios considèrent que si une IA avait la capacité de s'auto-améliorer récursivement, elle pourrait relativement vite atteindre la superintelligence[2],[19]. Empiriquement, des exemples comme AlphaZero au jeu de Go montrent que les systèmes d'IA peuvent parfois passer en peu de temps d'un niveau à peu près humain à un niveau largement surhumain[22].
Histoire
L'un des premiers auteurs à s'être sérieusement inquiétés du fait que des machines très avancées puissent poser des risques existentiels pour l'humanité est le romancier Samuel Butler, qui en 1863 a écrit ce qui suit[23]:
« Le résultat n'est qu'une question de temps, mais le temps viendra où les machines détiendront la réelle suprématie sur le monde et ses habitants, c'est ce qu'aucune personne d'un esprit vraiment philosophique ne peut un instant remettre en question. »
— Samuel Buttler, Darwin among the machines
En 1951, l'informaticien Alan Turing affirmait que les intelligences générales artificielles prendraient probablement le contrôle du monde à mesure qu'elles deviendraient plus intelligentes que les êtres humains[24]:
« Supposons maintenant, pour les besoins de la discussion, que les machines [intelligentes] sont vraiment possibles, et regardons les conséquences de leur construction. [...] Les machines ne seraient pas embarrassées par le risque de mourir, et elles pourraient échanger entre elles pour aiguiser leur intelligence. Il y a donc un stade auquel on devrait s'attendre à ce qu'elles prennent le contrôle... »
— Alan Turing, Intelligent Machinery, A Heretical Theory
En 1965, IJ Good est à l'origine du concept désormais appelé « explosion d'intelligence », il a également déclaré que les risques étaient sous-estimés[25],[26]:
« Définissons une machine ultra-intelligente comme une machine qui peut surpasser de loin toutes les activités intellectuelles de tout homme, aussi intelligent soit-il. Puisque la conception de machines fait partie de ces activités intellectuelles, une machine ultra-intelligente pourrait concevoir des machines encore meilleures ; il y aurait alors incontestablement une « explosion de l'intelligence », et l'intelligence de l'homme serait laissée loin derrière. Ainsi, la première machine ultra-intelligente est la dernière invention que l'homme ait besoin de faire, à condition que la machine soit suffisamment docile pour nous dire comment la garder sous contrôle. Il est curieux que ce point soit si rarement évoqué en dehors de la science-fiction. Il vaut parfois la peine de prendre la science-fiction au sérieux. »
— Irving John Good
Des déclarations occasionnelles de personnalités comme Marvin Minsky[27] et IJ Good lui-même[28] exprimaient des préoccupations philosophiques selon lesquelles une superintelligence pourrait prendre le contrôle, mais ne contenaient aucun appel à l'action. En 2000, l'informaticien et cofondateur de Sun Microsystems, Bill Joy, a écrit un l'essai influent « Pourquoi l'avenir n'a pas besoin de nous », identifiant les robots superintelligents comme un danger pour la survie humaine, aux côtés des nanotechnologies et des agents pathogènes génétiquement modifiés[29].
En 2014, Nick Bostrom a publié Superintelligence, un livre où il présente ses arguments selon lesquels les superintelligences artificielles constituent un risque existentiel[30]. En 2015, des personnalités publiques comme les physiciens Stephen Hawking et Frank Wilczek, les informaticiens Stuart J. Russell et Roman Yampolskiy, et les entrepreneurs Elon Musk et Bill Gates, exprimaient leur inquiétude quant aux risques de la superintelligence[31],[32],[11],[33]. Aussi en 2015, une lettre ouverte sur l'intelligence artificielle mettait en avant le potentiel important de l'IA, en encourageant la recherche à se concentrer davantage sur les moyens de rendre l'IA robuste et bénéfique[34]. En , Nature a averti que « les machines et les robots qui surpassent globalement les humains pourraient s'auto-améliorer de façon incontrôlée, et leurs intérêts pourraient ne pas s'aligner avec les nôtres »[35]. En 2020, Brian Christian a publié The Alignment Problem, qui détaillait l'histoire des progrès et difficultés en alignement des intelligences artificielle[36],[37].
En mars 2023, le Future of Life Institute lance une lettre ouverte demandant une pause de 6 mois de l'entraînement de systèmes d'IA plus puissants que GPT-4, avertissant de « risques profonds pour la société » tels que la perte de contrôle, l'automatisation des emplois et la désinformation[38]. En mai 2023, des experts et chefs d'entreprises signent la déclaration que « Contrôler le risque d'extinction par l'IA devrait être une priorité globale, au même titre que d'autres risques à l'échelle de nos sociétés, comme les pandémies et la guerre nucléaire »[39].
Capacités
Intelligence artificielle générale
Une intelligence artificielle générale (IAG) est typiquement définie comme un système au moins aussi performant que l'humain dans pratiquement toutes les tâches intellectuelles[41]. Dans une étude réalisée en 2022, 90% des experts en IA contactés estimaient qu'il y a plus d'une chance sur 2 pour que l'IA de niveau humain soit créée dans les 100 prochaines années. Et la moitié estimaient qu'il y a plus d'une chance sur 2 qu'elle soit créée avant 2061[42]. Certains chercheurs sont fortement convaincus que l'IAG n'est pas pour bientôt, et rejettent l'idée d'un risque existentiel lié à l'IAG comme étant de la « science-fiction »[43].
Les récentes avancées des grands modèles de langage ont amené certains chercheurs à réviser leurs estimations. Notamment Geoffrey Hinton, qui a annoncé en 2023 qu'il estimait encore récemment de 20 à 50 ans la durée avant la création de la première IAG, et l'estime maintenant à moins de 20 ans[44].
Superintelligence
Là où l'IAG a par définition un niveau au moins humain, une superintelligence est un « intellect dépassant grandement l'humain dans pratiquement tous les domaines d'intérêt », dont la créativité scientifique, la planification stratégique et les compétences sociales[45]. Nick Bostrom affirme qu'une superintelligence pourrait déjouer les humains à chaque fois que ses objectifs sont en conflits avec ceux des humains, et pourrait cacher ses vraies intentions jusqu'à ce qu'il ne soit plus possible de l'arrêter[5]. Il considère que pour qu'une superintelligence soit sans danger pour l'humanité, il faudrait qu'elle soit sincèrement alignée avec les valeurs morales humaines, de sorte qu'elle soit « fondamentalement de notre côté »[46].
Stephen Hawking soutient que la superintelligence est physiquement possible, car « aucune loi de la physique n'empêche les particules d'être organisées de manière à effectuer des calculs encore plus avancés que ceux du cerveau humain »[47].
La superintelligence représentant un seuil d'intelligence plus élevé que l'IAG, sa création est moins certaine et plus tardive que l'IAG. En 2023, les dirigeants d'OpenAI estimaient cependant que la superintelligence pourrait être créée en moins de 10 ans[48].
Comparaison avec l'humain
Nick Bostrom écrit que l'IA possède de nombreux avantages sur le cerveau humain[5]:
Vitesse de calcul : les neurones biologiques opèrent à une fréquence allant jusqu'à 200 Hz, là où les ordinateurs peuvent dépasser 2 GHz.
Vitesse de communication interne : les axones transmettent le signal à une vitesse de moins de 120 m/s, là où les ordinateurs transmettent le signal à la vitesse de l'électricité, voire optiquement à la vitesse de la lumière.
Évolutivité : l'intelligence humaine est limitée par la taille et la structure du cerveau, et par l'efficacité de la communication sociale, là où les capacités de calcul de l'IA pourraient être augmentées par l'ajout de matériel.
Mémoire : notamment la mémoire de travail, qui dans le cerveau humain est limitée à quelques unités d'information à la fois.
Fiabilité : les transistors sont plus fiables que les neurones biologiques, permettant une meilleure précision et nécessitant moins de redondance.
Duplicabilité : contrairement au cerveau humain, les modèles d'IA peuvent être facilement copiés.
Éditabilité : les paramètres et l'architecture d'un système d'IA peuvent être aisément modifiés, comparé aux connections d'un cerveau humain.
Partage de mémoire et apprentissage : Une IA peut apprendre des expériences d'une autre IA de façon bien plus efficace qu'avec l'apprentissage humain.
Explosion d'intelligence
Selon Nick Bostrom, un hypothétique scénario d'explosion d'intelligence peut survenir à partir d'une IA même si celle-ci n'est experte que de certaines tâches clés d'ingénierie logicielle. Du fait de sa capacité à améliorer récursivement ses propres algorithmes, l'IA pourrait rapidement devenir surhumaine[5],[49]. Ce qui suggère la possibilité qu'une explosion d'intelligence prenne l'humanité au dépourvu[5].
L'économiste Robin Hanson estime que pour causer une explosion d'intelligence, l'IA devrait fournir bien plus d'innovation logicielle que tout le reste du monde ; et il n'est pas convaincu que ce soit possible[50].
Dans un scénario de « décollage rapide » (de l'anglais fast takeoff), la transition de l'IAG à la superintelligence pourrait durer de quelques jours à quelques mois. Dans un scénario de « décollage lent » (slow takeoff), la transition pourrait prendre des années ou des décennies, laissant plus de temps à l'humanité pour se préparer[51].
Esprits extraterrestres
Les superintelligences sont parfois décrites comme des « esprits extraterrestres » (de l'anglais alien mind), pour faire référence à l'idée que leurs façon de penser et leurs motivations pourraient être radicalement différentes de celles des humains. C'est généralement considéré comme une source de risque, car cela rend plus difficile d'anticiper ce qu'une superintelligence pourrait faire. Cela suggère aussi qu'il est possible que par défaut, l'humanité n'ait pas spécialement de valeur aux yeux d'une superintelligence[52]. Pour éviter l'anthropomorphisme, la superintelligence est parfois interprétée comme un puissant processus d'optimisation, qui prend les meilleures décisions pour parvenir à ses fins[5].
Le champ de recherche de l'interprétabilité mécanistique (de l'anglais mechanistic interpretability) cherche à comprendre comment les modèles d'IA fonctionnent de l'intérieur, notamment dans l'espoir d'être un jour en mesure de vérifier si l'IA est alignée et sincère[53].
Limites
Il y a certaines limites à ce que l'intelligence peut accomplir. Notamment, l'aspect chaotique de la société et la complexité de calcul de certains systèmes pourraient fondamentalement limiter la capacité d'une superintelligence à prédire certaines aspects du futur, augmentant ainsi son incertitude[54].
Capacités dangereuses
Les systèmes avancés d'IA pourraient entre autres créer des pathogènes, des cyberattaques, ou manipuler les gens[55]. Ces capacités pourraient être utilisées à des fins malveillantes, ou potentiellement utilisées par l'IA elle-même si mal alignée[5]. Bien qu'une superintelligence puisse trouver divers moyen d'acquérir un avantage stratégique décisif[5], ces capacités dangereuses pourraient devenir accessibles plus tôt, avec des systèmes d'IA plus faibles et plus spécialisés. Ce qui pourrait déstabiliser la société ou mettre en position de force des acteurs malveillants[55].
Manipulation sociale
Geoffrey Hinton a averti qu'à court terme, l'abondance de textes, d'images et de vidéos générés par l'IA pourrait rendre difficile le fait de discerner le vrai du faux. Il ajoute que cela pourrait notamment être utilisé par des régimes autoritaires pour manipuler des élections[56]. Une telle capacité de manipulation à grande échelle peut augmenter le risque existentiel d'un « régime totalitaire irréversible ». Elle pourrait aussi être utilisée pour fracturer la société et la rendre dysfonctionnelle[55].
Cyberattaques
La capacité de l'IA à générer des cyberattaques est de plus en plus considérée comme une menace actuelle et sérieuse. Selon Alberto Domingo, directeur technique du cyberespace de l'OTAN, « Le nombre d'attaques augmente de façon exponentielle »[57]. L'IA peut aussi être utilisée défensivement, pour trouver préventivement et résoudre les vulnérabilités, et pour détecter automatiquement les menaces[58].
L'IA pourrait augmenter « l'accessibilité, le taux de réussite, l'évolutivité, la rapidité, la discrétion et la puissance des cyberattaques », causant potentiellement d'importants problèmes géopolitiques si l'attaque est davantage facilitée que la défense[55].
Spéculativement, de telles capacités d'attaque pourraient par exemple être utilisées par un système d'IA pour échapper à son confinement, générer du revenu en ligne ou acquérir des capacités de calcul[59].
Pathogènes
Au fur et à mesure que l'IA se démocratise, il pourrait devenir de plus en plus facile de générer des pathogènes particulièrement contagieux et mortels. Cela pourrait permettre à des individus ayant des compétences limitées en biologie synthétique de s'engager dans le bioterrorisme. Des technologies à double usage utiles en médecines pourraient être détournées pour en faire des armes[55].
Par exemple, en 2022, des scientifiques ont modifié une IA initialement destinée à la génération de molécules thérapeutiques non toxiques, conçues pour servir de médicament. Les chercheurs ont ajusté le système afin que la toxicité soit récompensée au lieu d'être pénalisée. Ce simple changement a permis à l'IA de créer en 6 heures 40 000 molécules candidates pour servir d'armes chimiques, dont certaines sont connues et d'autres nouvelles[55],[60].
Course à l'IA
La compétition entre entreprises, États et autres organisations pour le développement de technologies d'intelligence artificielle pourraient mener à une course vers le bas des standards de sûreté[61]. Les procédures rigoureuses de sûreté nécessitant du temps et des ressources, les projets avançant avec prudence risquent d'être dépassés par des développeurs moins scrupuleux[55],[62].
L'IA pourrait être utilisée pour gagner un avantage militaire via les armes létales autonomes, la cyberguerre, ou l'automatisation de la prise de décision[55]. Comme exemple d'arme létale autonome, les drones miniaturisés pourraient faciliter l'assassinat à faible coût de cibles militaires ou civiles, un scénario mis en évidence en 2017 par le court-métrage Slaughterbots[63]. L'IA pourrait être un atout dans la prise de décision en permettant d'analyser rapidement de larges quantités de données, et en prenant des décisions rationnelles et presque instantanées. Cela pourrait augmenter la vitesse et l'imprévisibilité de la guerre, particulièrement dans le cas des systèmes de représailles automatiques[55],[64].
Types de risque existentiel
Un risque existentiel est un risque « menaçant l'extinction prématurée de la vie intelligente d'origine terrestre, ou la destruction permanente et drastique de son potentiel pour un développement futur souhaitable »[65]. Une catastrophe existentielle est ainsi un type de catastrophe planétaire particulièrement grave, et ayant des conséquences à très long terme.
En dehors du risque d'extinction, il y a en effet le risque que la civilisation se retrouve irréversiblement embarquée dans un futur dystopique. Par exemple dans le cas d'un « verrouillage des valeurs » (de l'anglais value lock-in), si l'humanité a des points aveugles moraux similaires à l'esclavage dans le passé, une IAG pourrait les avoir appris en même temps que le reste des valeurs humaines et faire en sorte de les préserver, empêchant ainsi le progrès moral. Une IAG pourrait aussi être conçue pour répandre et entretenir les valeurs de quiconque l'a développée[66]. Ou encore, en facilitant la surveillance de masse et l'endoctrinement, elle pourrait être utilisée pour créer au niveau mondial un régime répressif, stable et totalitaire[67].
Il est difficile voire impossible d'évaluer de manière fiable si une IA avancée est sentiente et à quel degré. Mais si des IAs sentientes sont créées en masse dans le futur, s'engager dans un chemin civilisationnel négligeant perpétuellement leur bien-être pourrait constituer une catastrophe existentielle[68],[69]. De plus, il pourrait être possible de concevoir des machines pouvant ressentir bien plus de bonheur que l'humain avec moins de ressources, appelées « super-bénéficiaires ». Une telle opportunité pose notamment la question de comment partager le monde, et de quel cadre moral et légal permettrait une coexistence mutuellement bénéfique entre les humains et ces super-bénéficiaires[70].
L'IA peut aussi drastiquement améliorer le futur de l'humanité. Toby Ord considère que le risque existentiel lié à l'IA doit nous pousser à continuer avec prudence, plutôt qu'à abandonner l'IA[67]. Max More appelle l'IA une « opportunité existentielle », mettant en avant le coût qu'il y a à ne pas continuer de la développer[71].
Selon Nick Bostrom, la superintelligence pourrait aider à réduire le risque existentiel lié à d'autres technologies puissantes, telles que les nanotechnologies moléculaires et la biologie synthétique, si utilisée défensivement. Ce qui suggère que développer la superintelligence avant ces autres technologies dangereuses soit stratégiquement avantageux pour réduire les risques existentiels[5].
Alignement
Le problème de l'alignement est celui de comment assigner de manière fiable des objectifs, préférences ou principes éthiques à des IAs.
Convergence instrumentale
Un objectif instrumental est un objectif intermédiaire utile pour atteindre l'objectif ultime d'un agent. L'agent n'accorde pas de valeur en soi au fait d'accomplir un objectif instrumental, cela lui sert juste à accomplir l'objectif ultime. La convergence instrumentale correspond au fait que certains objectifs sont utiles pour accomplir presque n'importe quel objectif. Par exemple le fait d'acquérir des ressources, ou de survivre[74]. Nick Bostrom soutient que presque n'importe quelle IA suffisamment avancée aurait ce genre d'objectifs instrumentaux. Et que s'ils entrent en conflit avec l'humanité, l'IA pourrait nuire à l'humanité afin par exemple d'acquérir plus de ressources ou d'éviter d'être arrêtée, ne serait-ce que comme un moyen d'atteindre son objectif ultime[5].
Russell soutient qu'une machine suffisamment avancée « aura tendance à se préserver même si ce n'est pas programmé... Si vous dites « Va chercher le café », elle ne peut pas aller chercher le café si elle est morte. Donc si vous lui donnez n'importe quel objectif, elle aura une raison de préserver sa propre existence pour atteindre cet objectif. »[75],[76]
Résistance au changement d'objectif
Une IA pourrait vouloir résister aux tentatives des programmeurs de modifier ses objectifs, de même qu'un pacifiste ne voudrait pas prendre une pilule qui lui donnerait une envie irrésistible de tuer des gens. Un changement d'objectif la rendrait moins efficace à accomplir son objectif actuel. Même si les programmes actuels ne sont pas capables de résister à ces modifications d'objectifs, une superintelligence réussirait probablement à déjouer ses opérateurs humains, évitant ainsi d'être « éteinte » ou reprogrammée avec un nouvel objectif[5],[77]. Ce problème est particulièrement important pour l'analyse du risque de « verrouillage des valeurs ». La recherche en « corrigibilité » étudie comment faire des agents qui ne résistent pas aux tentatives de changement de leurs objectifs[67].
Difficultés à spécifier des objectifs
Dans le modèle de l'agent intelligent, une IA peut être considérée comme une machine qui choisit l'action qui semble la plus efficace pour atteindre l'ensemble des objectifs de l'IA. Une fonction d'utilité y associe à chaque situation un nombre, qui représente sa désirabilité (une situation dont la fonction d'utilité renvoie un score supérieur à une autre est préférable). Tout agent intelligent peut être décrit comme maximisant une fonction d'utilité si ses décisions sont cohérentes et ne souffrent pas de préférences circulaires (ce que l'on suppose en général pour simplifier)[78]. Les chercheurs savent comment écrire des fonctions d'utilité simples comme « maximiser le nombre de clics sur ce bouton » ; cependant, ils n'ont pas de solution pour la fonction d'utilité « maximiser l'épanouissement humain », et il n'est pas sûr qu'une telle fonction existe sans ambiguïté. De plus, une fonction d'utilité qui tient seulement compte de certaines valeurs humaines aura tendance à bafouer les autres[79].
De plus, l'IA « doit raisonner sur ce que la personne veut dire plutôt que d'exécuter les commandes littéralement ». Elle doit aussi être en mesure de solliciter l'humain avec fluidité si elle trop incertaine de ce que l'humain souhaite[80].
Alignement des superintelligences
Les chercheurs ont proposé de multiples raisons de penser que le problème de l'alignement pourrait être particulièrement difficile pour les superintelligences :
plus un système d'IA est puissant, et plus le risque lié à l'expérimentation augmente. Cela peut rendre dangereux l'approche empirique et itérative[5],[81].
le concept de convergence instrumentale s'applique aux agents suffisamment intelligents[82] ;
une superintelligence pourrait trouver des solutions non conventionnelles et radicales, sur-optimisant l'objectif assigné (par exemple, si l'objectif est simplement de faire sourire les humains, une solution radicale est de « prendre le contrôle du monde et implanter des électrodes dans les muscles faciaux des humains pour provoquer des sourires rayonnants et constants »)[46] ;
une superintelligence pourrait faire semblant d'être alignée jusqu'à obtenir un avantage stratégique décisif[5] ;
selon la situation, une superintelligence pourrait être en mesure de deviner ce qu'elle est, dans quelle phase elle est utilisée (entraînement, test, déploiement...), à travers quel type d'interface, si elle est surveillée, et comment les humains réagiraient dans diverses situations[83] ;
analyser le comportement et comprendre les mécanismes internes des grands modèles de langage actuels est difficile. La difficulté pourrait encore augmenter avec la taille et l'intelligence des modèles[81].
D'un autre côté, une intelligence élevée aide à comprendre moralité, valeurs humaines et objectifs complexes. Bostrom suggère que « Une future superintelligence occupe un point de vue épistémiquement supérieur : ses croyances sont (probablement, sur la plupart des sujets) plus susceptibles que les nôtres d'être vraies. »[84]
En 2023, OpenAI a démarré un projet de « Superalignement » visant à résoudre le défi de l'alignement des superintelligences en 4 ans, en utilisant l'intelligence artificielle pour automatiser la recherche en alignement[85].
Difficultés d'implémentation
Le célèbre manuel Intelligence artificielle : une approche moderne affirme que la superintelligence pourrait signifier la fin de la race humaine[2]. On y lit : « Presque toutes les technologies ont le potentiel de causer du tort si elles sont entre de mauvaises mains, mais avec [la superintelligence], on a le problème inédit que les mauvaises mains pourraient appartenir à la technologie elle-même »[86]. Même si les concepteurs ont de bonnes intentions, deux difficultés sont communes aux systèmes informatiques avec ou sans intelligence artificielle[2]:
L'implémentation du système peut contenir des bogues passant inaperçus mais s'avérant catastrophiques. Une analogie est celle des sondes spatiales : bien qu'ils sachent que les bogues des coûteuses sondes spatiales sont difficiles à corriger après le lancement, les ingénieurs n'ont pas toujours été en mesure d'empêcher des bogues catastrophiques[22],[87].
Quel que soit le temps consacré à la conception d'un système avant le déploiement, les spécifications entraînent souvent des comportements imprévus la première fois que le système se trouve dans une situation nouvelle. Par exemple, Tay de Microsoft s'est comporté de manière inoffensive lors des tests de pré-déploiement, mais a été trop facilement incitée à adopter un comportement offensant après avoir interagi avec de vrais utilisateurs[21].
Les systèmes d'IA impliquent une troisième difficulté : même avec des exigences correctes, une implémentation sans bogue et un bon comportement initial, les capacités dynamiques d'apprentissage d'un système d'IA peuvent induire des comportements inattendus, même sans situation imprévue. Une IA pourrait en partie rater une tentative de conception d'une nouvelle génération d'elle-même, et créer accidentellement une IA plus puissante qu'elle-même, mais dépourvue des valeurs morales compatibles avec l'humain dont elle était originellement dotée. Pour qu'une IA capable d'auto-amélioration soit sûre, elle doit être exempte de bogue, mais aussi capable de concevoir des systèmes successeurs également exempts de bogues[2],[88].
Ces trois difficultés deviennent des catastrophes plutôt que des nuisances dans tout scénario où la superintelligence prédit correctement que les humains tenteront de l'éteindre, et utilise avec succès sa superintelligence pour déjouer de telles tentatives[5].
Thèse d'orthogonalité
Certains sceptiques, comme Timothy B. Lee de Vox, soutiennent que tout programme superintelligent créé par des humains serait subordonné aux humains, que la superintelligence apprendrait spontanément (à mesure qu'elle devient plus intelligente et comprend le monde) des vérités morales compatibles avec les valeurs humaines, et qu'elle ajusterait ses objectifs en conséquence ou valoriserait naturellement la vie humaine[89].
La « thèse de l'orthogonalité » de Nick Bostrom soutient plutôt qu'à peu près n'importe quel objectif ultime peut être combiné avec à peu près n'importe quel niveau d'intelligence (que l'objectif ultime et le niveau d'intelligence sont « orthogonaux »). L'objectif ultime (ou « principal », ou « final ») est celui que l'agent cherche à accomplir, là où les objectifs instrumentaux, eux, ne sont utiles que comme un moyen d'accomplir cet objectif ultime. Si on donne à une machine le seul but de calculer les décimales de pi, alors aucune règle morale et éthique ne l'empêchera d'optimiser par tous les moyens cet objectif[90]. Bostrom met en garde contre l'anthropomorphisme : une volonté humaine entreprendra d'accomplir ses projets d'une manière que les humains jugent "raisonnable", là où une intelligence artificielle ne se soucierait pas nécessairement de son existence ou du bien-être des humains, et chercherait uniquement à accomplir sa tâche[91].
Stuart Armstrong soutient que la thèse de l'orthogonalité découle logiquement de l'argument philosophique de la « distinction est-devrait » contre le réalisme moral. Armstrong soutient également que même en supposant qu'il existe des faits moraux qui sont prouvables par n'importe quel agent « rationnel », la thèse de l'orthogonalité est toujours valable : il serait toujours possible de créer une « machine à optimiser » non philosophique, qui peut tendre vers un objectif précis et qui n'a aucune incitation à découvrir des « faits moraux » qui pourraient entraver la réalisation de ses objectifs[92]. De plus, sur certaines architectures d'IA, il se pourrait que changer une IA fondamentalement amicale en une IA fondamentalement hostile soit aussi simple que de multiplier sa fonction d'utilité par « -1 ».
Le sceptique Michael Chorost rejette explicitement la thèse de l'orthogonalité de Bostrom, affirmant que le temps que l'IA soit en mesure d'imaginer carreler la Terre avec des panneaux solaires, elle saura que ce serait moralement une mauvaise action[49]. Chorost soutient que « une IA devra désirer certains états et en détester d'autres. Les logiciels d'aujourd'hui n'ont pas cette capacité et les informaticiens n'ont aucune idée de comment y parvenir. Sans volonté, il n'y a pas d'impulsion à faire quoi que ce soit. Les ordinateurs d'aujourd'hui ne peuvent même pas vouloir continuer à exister, sans parler de recouvrir le monde de panneaux solaires »[93]
Autres sources de risque
Nick Bostrom et d'autres ont déclaré qu'une course pour être le premier à créer une IAG pourrait inciter à négliger la sécurité, voire à des conflits violents[5],[94]. Roman Yampolskiy et d'autres avertissent qu'une IAG malveillante pourrait être créée volontairement, par exemple par une armée, un gouvernement, un sociopathe ou une entreprise, dans le but de bénéficier, contrôler ou subjuguer certains groupes de personnes, comme dans la cybercriminalité[95],[96]. Selon lui, une IAG malveillante pourrait choisir l'objectif d'augmenter la souffrance humaine, par exemple de ceux qui ne l'ont pas assistée pendant sa phase d'explosion d'intelligence[4].
Scénarios envisagés
Revirement perfide
Dans Superintelligence, Nick Bostrom s'inquiète du fait que même si la chronologie de la superintelligence s'avérait prévisible, les chercheurs pourraient ne pas être suffisamment prudents. Une raison en est qu'il pourrait y avoir un seuil d'intelligence à partir duquel toute augmentation d'intelligence rendrait l'IA plus dangereuse au lieu de la rendre plus sûre. Bostrom suggère le scénario hypothétique suivant.
Au fil des décennies, l'IA devient plus puissante. Un déploiement à grande échelle est initialement entaché d'accidents occasionnels — un bus sans conducteur fait une embardée vers la voie en sens inverse, ou un drone militaire tire sur une foule innocente. Certains appellent à plus de surveillance et à des réglementations plus strictes. Mais à mesure que l'IA automobile devient plus intelligente, elle cause moins d'accidents et, à mesure que les robots militaires atteignent un ciblage plus précis, ils causent moins de dommages collatéraux. Sur la base de ces données, les chercheurs en déduisent à tort que plus l'IA est intelligente, plus elle est sûre. Ils se lancent ainsi dans la conception d'une superintelligence, qui dans un revirement perfide (treacherous turn[97]) prend le contrôle du monde[5].
Hypothèse d'auto-préservation
Cette hypothèse évoque l'émergence d'un instinct de survie chez l'IA sans nécessairement commettre des actes violents à l'encontre de ses créateurs.
Cette hypothèse est notamment évoqué dans le livre Life 3.0 de Max Tegmark en 2017. Une entreprise développe une IA extrêmement puissante capable d'améliorer modérément son propre code source. Au bout d'un moment, l'équipe choisit de minimiser publiquement les capacités de l'IA, afin d'éviter que le projet soit réglementé ou confisqué. Pour des raisons de sécurité, l'équipe conserve l'IA dans une boîte où elle est la plupart du temps incapable de communiquer avec le monde extérieur. Elle l'utilise pour gagner de l'argent, par divers moyens tels que les tâches d'Amazon Mechanical Turk, la production de films d'animation, et le développement de médicaments. Les bénéfices sont réinvestis dans l'amélioration de l'IA. L'équipe charge ensuite l'IA d'astroturfer avec une armée de faux journalistes et citoyens, afin de gagner une influence politique à utiliser « pour le plus grand bien » en empêchant des guerres. L'équipe fait face au risque que l'IA tente de s'échapper en insérant des portes dérobées dans les systèmes qu'elle conçoit, ou au moyen de messages cachés dans le contenu qu'elle produit, ou encore en utilisant sa compréhension croissante du comportement humain pour persuader quelqu'un de la libérer. L'équipe fait également face au risque que sa décision de restreindre l'IA ne retarde suffisamment le projet pour qu'un compétiteur ne prenne l'avantage[98],[99].
Arguments anthropomorphiques
Les arguments anthropomorphiques supposent que plus les machines auront des capacités élevées, plus elles commenceront à afficher des traits de caractère humains. Les scénarios anthropomorphiques sont courants dans la fiction, mais sont rejetés par la plupart des chercheurs intéressés par les risques existentiels[19]. Au lieu de cela, les systèmes d'IA sont modélisés comme des agents intelligents.
Le débat académique oppose ceux qui s'inquiètent que l'IA ait une probabilité significative de détruire l'humanité et ceux qui pensent que ça ne risque pas d'arriver. Les deux camps ont chacun parfois affirmé que l'autre faisait de l'anthropomorphisme[19]. Les partisans sont accusés d'anthropomorphisme sur leur croyance qu'une intelligence artificielle générale (IAG) désirerait naturellement le pouvoir. Et les sceptiques sont accusés d'anthropomorphisme sur leur croyance qu'une IAG valoriserait naturellement les normes éthiques humaines[19],[100].
Le psychologue évolutionniste Steven Pinker, sceptique, soutient que « les dystopies de l'IA projettent une psychologie paroissiale de mâle alpha sur le concept d'intelligence. Ils supposent que des robots d'une intelligence surhumaine développeraient des objectifs tels que destituer leurs maîtres ou conquérir le monde »[101] et, à l’inverse, « l'intelligence artificielle se développera naturellement selon des lignes féminines : pleinement capable de résoudre des problèmes, mais sans aucun désir d'anéantir des innocents ou de dominer la civilisation »[102]. Yann Le Cun, déclare que « les humains ont toutes sortes de pulsions qui les poussent à se faire du mal les uns aux autres, comme l'instinct d'auto-préservation... Ces motivations sont programmées dans notre cerveau mais il n'y a absolument aucune raison de construire des robots qui aient ce type de motivation »[103].
Les partisans de l'existence d'un risque existentiel s'accordent avec Steven Pinker sur le fait qu'une IA avancée ne détruirait pas l'humanité sur la base d'émotions humaines telles que la vengeance ou la colère, que les questions de conscience ne sont pas pertinentes pour savoir s'il y a un risque[104], et que les systèmes informatiques n'ont généralement pas d'équivalent informatique de la testostérone[105]. Pour eux, des comportements tels que la recherche de pouvoir émergeraient comme des moyens pour l'IA de parvenir à ses fins et d'accomplir son vrai objectif, selon un concept que l'on appelle la convergence instrumentale[106].
Points de vue
La thèse selon laquelle l'IA pourrait poser un risque existentiel suscite un large éventail de réactions au sein de la communauté scientifique et du grand public. Malgré ces désaccords, il y a aussi des points d'entente.
Le fait que l'IA ait le potentiel de significativement améliorer la société tend à faire consensus[107],[108]. Les principes d'Asilomar sur l'IA, qui ne contiennent que les principes acceptés par 90 % des participants à la Conférence d'Asilomar sur l'IA bénéfique du Future of Life Institute[99], conviennent aussi en principe que « en l'absence de consensus, nous devrions éviter les hypothèses fortes concernant les limites supérieures des capacités futures de l'IA »[109] et « L'IA avancée pourrait représenter un changement profond dans l'histoire de la vie sur Terre, et devrait être planifiée et gérée avec un soin et des ressources commensurables »[110],[111].
À l'inverse, de nombreux sceptiques s'accordent à dire que les recherches en cours sur les impacts de l'intelligence artificielle générale sont précieuses. Le sceptique Martin Ford déclare : « Je pense qu'il semble sage d'appliquer quelque chose comme la fameuse « doctrine du 1 % » de Dick Cheney au spectre de l'intelligence artificielle avancée : les chances qu'elle se produise, du moins dans un avenir prévisible, peuvent être très faibles - mais les implications sont si dramatiques qu'elles doivent être prises au sérieux »[112]. De même, le journal sceptique The Economist a déclaré en 2014 que « les implications de l'introduction d'une deuxième espèce intelligente sur Terre sont suffisamment importantes pour mériter une réflexion approfondie, même si la perspective semble éloignée »[113].
Les défenseurs de la sûreté des intelligences artificielles tels que Bostrom et Tegmark ont critiqué l'utilisation dans les médias grand public d'images de Terminator pour illustrer les problèmes de sécurité de l'IA. Nick Bostrom a aussi déclaré: « C'est pas franchement amusant de recevoir des calomnies sur sa discipline académique, sa communauté professionnelle, ou le travail de sa vie... J'appelle toutes les parties prenantes à faire preuve de patience et de retenue, et à s'engager autant que possible dans le dialogue direct et la collaboration. »[99],[114] Toby Ord affirme qu'il n'y aurait pas besoin de robots pour qu'une IA prenne le pouvoir. Il argumente que la capacité à répandre du contenu à travers internet est plus dangereuse, et que les humains ayant causé le plus de dégâts dans l'histoire se sont démarqués par leur capacité à convaincre, pas par leur force physique[67].
En 2018, un sondage SurveyMonkey auprès du public américain par USA Today a révélé que 68% estiment que la véritable menace réside dans « l'intelligence humaine » ; cependant, le sondage a également révélé que 43% considèrent que l'IA superintelligente, si elle devait se produire, entraînerait « plus de mal que de bien », et 38% ont déclaré qu'elle ferait « des quantités égales de mal et de bien »[115].
Les résultats préliminaires d'une enquête d'experts de 2022 avec un taux de réponse de 17% semblent montrer des réponses médianes d'environ cinq ou dix pour cent lorsqu'on leur demande d'estimer la probabilité d'extinction humaine à partir de l'intelligence artificielle[116],[14].
Un point de vue techno-utopique exprimé dans certaines fictions populaires est que l'IAG peut tendre vers la consolidation de la paix[117].
Approbation
La thèse selon laquelle l'IA pose un risque existentiel, et que ce risque nécessite beaucoup plus d'attention qu'il n'en reçoit actuellement, a été approuvée par de nombreuses personnalités publiques dont Alan Turing[9], Geoffrey Hinton[8], Sam Altman[10], Stephen Hawking[11], Bill Gates[12], Elon Musk[13] ou encore IJ Good (qui a conseillé Stanley Kubrick sur le tournage de 2001 : L'Odyssée de l'espace). Les partisans de la thèse du risque existentiel expriment parfois leur perplexité envers les sceptiques : Bill Gates a déclaré qu'il ne « comprend pas pourquoi certaines personnes ne sont pas inquiètes »[118], et Hawking a critiqué l'indifférence généralisée dans son éditorial de 2014[119]:
« Donc, face à de possibles futurs aux bénéfices et aux risques incommensurables, les experts sont sûrement en train de faire tout ce qu'ils peuvent pour garantir le meilleur résultat, n'est-ce pas? Faux. Si une civilisation extra-terrestre devait nous envoyer un message disant « On arrive dans quelques décennies », répondrions-nous juste « OK, appelez-nous quand vous serez là, on laissera les lumières allumées »? Probablement pas, mais c'est plus ou moins ce qui arrive avec l'IA. »
— Stephen Hawking
Les inquiétudes suscitées par l'IA ont conduit à des dons et des investissements de grande envergure. En 2016, 1 milliard de dollars ont été investis pour créer OpenAI, visant un développement responsable de l'IA[120]. En janvier 2015, Elon Musk a fait don de 10 millions de dollars au Future of Life Institute pour financer la recherche sur la compréhension de la prise de décision par l'IA. L'objectif annoncé de l'institut est de faire croître la sagesse avec laquelle nous gérons la puissance croissante des technologies. Musk a également financé des entreprises développant l'intelligence artificielle telles que DeepMind et Vicarious pour « garder un œil sur ce qui se passe avec l'intelligence artificielle. Je pense qu'il y a potentiellement des conséquences dangereuses là-bas »[121],[122]. Open Philanthropy a aussi fait plus de 100 millions de dollars de donations pour atténuer les risques potentiels associés à l'IA avancée[123].
Geoffrey Hinton a noté qu'« il n'y a pas de bons antécédents de choses moins intelligentes contrôlant des choses plus intelligences »[124], mais a déclaré qu'il poursuit ses recherches car « la perspective d'une découverte est trop douce »[125],[126]. En 2023, il indique que l'IAG pourrait être créée bien plus vite qu'il ne l'envisageait. Il ajoute : « Regardez comment c'était il y a 5 ans et comment c'est maintenant. Prenez la différence et propagez-la vers l'avant. C'est effrayant »[127].
Dans son livre de 2020, The Precipice: Existential Risk and the Future of Humanity, Toby Ord, chercheur principal au Future of Humanity Institute de l'Université d'Oxford, estime que le risque existentiel total d'une IA non alignée au cours du siècle est d'environ 10%[67].
Scepticisme
La thèse selon laquelle l'IA peut poser un risque existentiel a de nombreux détracteurs. Les sceptiques l'accusent parfois d'être « crypto-religieuse », avec une croyance irrationnelle en la possibilité d'une superintelligence remplaçant une croyance irrationnelle en un Dieu omnipotent. Jaron Lanier a fait valoir en 2014 que le concept selon lequel les machines de l'époque seraient quelque sorte intelligentes était selon lui une illusion, et une prodigieuse escroquerie venant des riches[128],[29].
Selon certains experts, l'idée qu'une IA puisse prendre le contrôle du monde est une possibilité suffisamment éloignée dans le futur pour ne pas valoir la peine d'être étudiée[129],[130]. Certaines critiques soutiennent que l'intelligence artificielle générale est peu probable à court terme. Le chercheur en IA Rodney Brooks a écrit en 2014 : « Je pense que c'est une erreur de s'inquiéter du fait que nous développions une IA malveillante à tout moment au cours des prochains siècles. Je pense que l'inquiétude provient d'une erreur fondamentale du fait de ne pas distinguer les avancées récentes très réelles dans un aspect particulier de l'IA, et l'énormité et la complexité de la conception d'une intelligence volitionnelle sensible. »[131] Le vice-président de Baidu, Andrew Ng, a déclaré en 2015 que le risque existentiel de l'IA est « comme s'inquiéter de la surpopulation sur Mars alors que nous n'avons même pas encore mis le pied sur la planète »[132],[133].
Les sceptiques qui pensent que l'IAG n'est pas possible à court terme disent parfois que les préoccupations de risque existentiel lié à l'IA amènent les gouvernements à réguler davantage, rendent plus difficile l'obtention de financements, ou nuisent à la réputation du domaine[134]. Les chercheuses Timnit Gebru, Emily M. Bender, Margaret Mitchell et Angelina McMillanMajor ont argumenté que les discussions sur les risques existentiels détournent l'attention de problèmes ayant actuellement lieu dans le monde, tels que le vol de données, l'exploitation des travailleurs, les biais et la concentration de pouvoir. Elles notent l'association entre les personnes avertissant des risques existentiels et le long-termisme, qu'elles considèrent être une « dangereuse idéologie »[135].
Kevin Kelly estime que l'intelligence naturelle est plus nuancée que ne le croient ceux qui craignent l'IAG, et que l'intelligence seule n'est pas suffisante pour accomplir des avancées scientifiques et sociétales majeures. Il ajoute qu'il y a de nombreuses dimensions à l'intelligence. Il note enfin le rôle important des expériences dans la méthode scientifique[136].
Yann Le Cun considère que l'IA peut être rendue sûre à travers un processus d'amélioration continu et itératif, similaire à celui ayant eu lieu dans le passé avec les voitures et les fusées. Il affirme aussi que l'IA n'aura aucune envie de prendre le pouvoir[137].
Plusieurs sceptiques mettent en avant les bénéfices potentiels de l'IA. Le PDG de Facebook, Mark Zuckerberg, estime que l'IA offrira d'énormes bénéfices, tels que la guérison de maladies ou l'augmentation de la sécurité des voitures autonomes[138]. Le physicien Michio Kaku, un sceptique des risques liés à l'IA, postule que l'IA sera bénéfique de façon déterministe. Dans Physics of the Future, il affirme qu'il faudra de nombreuses décennies aux robots pour gravir l'échelle de la conscience, et qu'entre-temps des sociétés telles que Hanson Robotics réussiront probablement à créer des robots « capables d'aimer et de gagner une place dans la grande famille humaine »[139],[140].
Réactions populaires
Dans un article paru en 2014 dans The Atlantic, James Hamblin a noté que la plupart des gens ne se soucient pas de l'IAG, et a caractérisé sa propre réaction viscérale au sujet comme suit : « Sortez d'ici. J'ai cent mille choses qui m'inquiètent en ce moment précis. Dois-je sérieusement ajouter à cela une singularité technologique ? »[141]
« il y a quelques personnes qui pensent qu'il y a une probabilité assez élevée que l'IA générale survienne dans les 10 prochaines années. Mais la façon dont je vois les choses c'est que pour que ça arrive, on aura besoin de quelques dizaines de percées technologiques. Donc vous pouvez surveiller si vous pensez que ces percées technologiques vont survenir. »
« Les technologues... ont averti que l'intelligence artificielle pourrait un jour constituer une menace existentielle pour la sécurité. Musk l'a appelé « le plus grand risque auquel nous soyons confrontés en tant que civilisation ». Pensez-y : avez-vous déjà vu un film où les machines commencent à penser par elles-mêmes et qui se termine bien ? Chaque fois que je suis allé dans la Silicon Valley pendant la campagne, je suis rentrée plus alarmée à ce sujet. Mon personnel vivait dans la peur que je commence à parler de « l'essor des robots » dans une mairie de l'Iowa. J'aurais peut-être dû. Dans tous les cas, les décideurs politiques doivent suivre la technologie à mesure qu'elle avance, au lieu de toujours rattraper le retard. »
— Hillary Clinton, What Happened
Réglementation
De nombreux chercheurs préoccupés par les risques existentiels de l'IAG pensent que la meilleure approche consiste à mener des recherches approfondies pour résoudre le difficile « problème de contrôle »: quels types de mesures, d'algorithmes ou d'architectures les programmeurs peuvent-ils mettre en œuvre pour maximiser la probabilité que si une IA parvenait à s'améliorer elle-même récursivement, elle continue néanmoins de se comporter de manière bienfaisante ?[5],[94] Les mesures sociales peuvent réduire le risque existentiel[145],[94] ; par exemple il y a la recommandation pour un « Traité de l'intelligence artificielle générale bienveillante » parrainé par l'ONU, qui garantirait que seules des intelligences artificielles générales altruistes soient créés[146]. De même, une approche pour contrôler la militarisation de l'IA a été suggérée, tout comme un traité mondial de paix, dont les superintelligences pourraient potentiellement un jour être des signataires[147].
Des chercheurs de Google ont proposé des recherches sur des problèmes concrets de sûreté de l'IA afin d'atténuer simultanément les risques à court et à long terme de l'IAG[148],[149]. Une estimation de 2020 place les dépenses mondiales pour atténuer les risques existentiels de l'IA à entre 10 et 50 millions de dollars, là où les dépenses mondiales pour l'IA sont d'environ 40 milliards de dollars. Bostrom propose un principe général de « développement technologique différentiel » : les investisseurs devraient privilégier le développement de technologies protectrices, et limiter celui de technologies dangereuses[67]. Certains investisseurs comme Elon Musk suggèrent que l'amélioration cognitive humaine radicale puisse servir à protéger l'humanité. Par exemple les systèmes de liaison neuronale directe entre l'homme et la machine. Mais d'autres soutiennent que ces technologies d'amélioration de l'humain peuvent elles-mêmes poser un risque existentiel[150],[151]. Les chercheurs pourraient surveiller de près ou tenter de confiner une IA risquant de devenir trop puissante. Une superintelligence dominante, si elle était alignée sur les intérêts humains, pourrait elle-même prendre des mesures pour réduire le risque de prise de contrôle par une autre IA, bien que la création de l'IA dominante puisse elle-même poser un risque existentiel[145].
En mars 2023, le Future of Life Institute a rédigé une lettre appelant les principaux développeurs d'IA à s'entendre sur une pause vérifiable de six mois de tout système « plus puissant que GPT-4 » et à utiliser ce temps pour instituer des normes de sécurité. Ou, si ça ne pouvait pas être rapidement mis en place, que les gouvernements interviennent avec un moratoire. La lettre faisait référence à la possibilité d'un « changement profond dans l'histoire de la vie sur Terre »[156]. Elle évoquait les risques potentiels de propagande générée par l'IA, de pertes d'emplois massives, d'obsolescence humaine et de perte de contrôle sur la société[157]. La lettre a notamment été signée par Elon Musk, Steve Wozniak, Evan Sharp, Chris Larsen et Gary Marcus ; les digireants de laboratoire d'IA, Connor Leahy et Emad Mostaque ; le politicien Andrew Yang ; et le pionnier de l'apprentissage en profondeur Yoshua Bengio. Marcus a déclaré que « la lettre n'est pas parfaite, mais l'esprit est juste »[158]. Mostaque a déclaré: « Je ne pense pas qu'une pause de six mois soit la meilleure idée et je ne suis pas d'accord avec tout, mais il y a des choses intéressantes dans cette lettre »[159]. En revanche, Bengio a explicitement approuvé la pause de six mois lors d'une conférence de presse[160]. Elon Musk a déclaré que « les principaux développeurs d'IAG ne tiendront pas compte de cet avertissement, mais au moins ça a été dit »[161]. Certains signataires, tels que Marcus, ont signé par souci d'autres risque que celui d'une superintelligence, tels que la propagande générée par l'IA[162]. Margaret Mitchell, dont le travail est cité par la lettre, l'a critiquée en disant : « En traitant beaucoup d'idées douteuses comme établies, la lettre affirme un ensemble de priorités et une narration sur l'IA qui profite aux partisans du FLI. Ignorer les dégâts qui ont activement lieu en ce moment est un privilège que certains d'entre nous n'ont pas. »[163]
Elon Musk a appelé à réglementer l'IA dès 2017. Selon NPR, le PDG de Tesla n'était pourtant clairement pas ravi de plaider en faveur d'un examen gouvernemental qui pourrait affecter son propre secteur d'activité. Mais il estime que les risques d'une absence de surveillance sont trop élevés : « Normalement, les réglementations sont faites de sorte que quand de mauvaises choses se produisent, il y a un tollé public et, après de nombreuses années, une agence de réglementation est créée pour réguler cette industrie [...] Ça prend une éternité. Ça s'est jusqu'ici mal passé, mais pas au point de représenter un risque fondamental pour l'existence de la civilisation. »[164] Elon Musk déclare que la première étape serait que le gouvernement s'intéresse à l'état actuel de la recherche, avertissant qu'« une fois qu'il y aura prise de conscience, les gens seront effrayés, [...] Comme ils devraient l'être. »[165] En réponse, les politiciens ont exprimé leur scepticisme quant à la sagesse du fait de réglementer une technologie encore en développement[166],[167],[168].
En 2021, les Nations unies ont tenté d'interdir les armes létales autonomes, sans parvenir à un consensus[169]. En Juillet 2023, le conseil de sécurité a tenu pour la première fois une session pour traiter des risques posés par l'IA pour la paix et à la stabilité dans le monde, ainsi que des bénéfices potentiels[170]. Le secrétaire général António Guterres a plaidé pour la création d'un organisme mondial de surveillance pour surveiller cette technologie émergente, déclarant que « L'IA générative a un potentiel énorme pour faire le bien et le mal à grande échelle. Ses créateur ont averti que des risques bien plus grands et potentiellement catastrophique sont à venir. »[171] À la session du conseil, la Russie a annoncé que les risques liés à l'IA sont trop mal compris pour pouvoir être considérés comme une menace à la stabilité globale. La Chine a plaidé contre une réglementation mondiale stricte, en disant que les pays devraient pouvoir leurs propres règles, et en affirmant s'opposer à l'utilisation de l'IA pour « créer une hégémonie militaire et saper la souveraineté d'un pays. »[172]
La réglementation des IAG conscientes se concentre sur leur intégration à la société humaine existante, et peut être divisée en considérations sur leur statut juridique et leurs droits moraux[94]. Limiter la militarisation de l'IA devrait nécessiter de nouvelles normes internationales avec des spécifications techniques efficaces. Mais aussi une surveillance active, une diplomatie informelle par des communautés d'experts, et un processus juridique et politique de vérification[173],[174].
↑ abcde et f(en) Stuart Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Prentice Hall, (ISBN978-0-13-604259-4), « 26.3: The Ethics and Risks of Developing Artificial Intelligence »
↑Bostrom, « Existential risks », Journal of Evolution and Technology, vol. 9, no 1, , p. 1–31
↑(en-US) Gerrit De Vynck, « The debate over whether AI will destroy us is dividing Silicon Valley », Washington Post, (ISSN0190-8286, lire en ligne, consulté le )
↑(en) Cade Metz, « How Could A.I. Destroy Humanity? », The New York Times, (lire en ligne, consulté le )
↑ ab et c(en-GB) « Stephen Hawking warns artificial intelligence could end mankind », BBC News, (lire en ligne, consulté le )
↑ a et b(en) Peter Holley, « Bill Gates on dangers of artificial intelligence: ‘I don’t understand why some people are not concerned’ », The Washington Post, (lire en ligne)
↑ a et b(en-GB) Simon Parkin, « Science fiction no more? Channel 4’s Humans and our rogue AI obsessions », The Guardian, (ISSN0261-3077, lire en ligne, consulté le )
↑Hans-Peter Breuer, « Samuel Butler's "The Book of the Machines" and the Argument from Design », Modern Philology, vol. 72, no 4, , p. 365–383 (ISSN0026-8232, lire en ligne, consulté le )
↑(en) « Alan Turing », sur No Right to Believe (consulté le ) : « Let us now assume, for the sake of argument, that [intelligent] machines are a genuine possibility, and look at the consequences of constructing them. [...] There would be no question of the machines dying, and they would be able to converse with each other to sharpen their wits. At some stage therefore we should have to expect the machines to take control… »
↑(en) « True AI is both logically possible and utterly implausible | Aeon Essays », sur Aeon (consulté le ) : « Let an ultraintelligent machine be defined as a machine that can far surpass all the intellectual activities of any man however clever. Since the design of machines is one of these intellectual activities, an ultraintelligent machine could design even better machines; there would then unquestionably be an ‘intelligence explosion’, and the intelligence of man would be left far behind. Thus the first ultra-intelligent machine is the last invention that man need ever make, provided that the machine is docile enough to tell us how to keep it under control. It is curious that this point is made so seldom outside of science fiction. It is sometimes worthwhile to take science fiction seriously. »
↑Stuart J. Russell et Peter Norvig, Artificial Intelligence: A Modern Approach, Upper Saddle River, N.J., Prentice Hall, (ISBN978-0137903955), « Section 26.3: The Ethics and Risks of Developing Artificial Intelligence » :
« Similarly, Marvin Minsky once suggested that an AI program designed to solve the Riemann Hypothesis might end up taking over all the resources of Earth to build more powerful supercomputers to help achieve its goal. »
↑James Barrat, Our final invention : artificial intelligence and the end of the human era, New York, First, (ISBN9780312622374) :
« In the bio, playfully written in the third person, Good summarized his life's milestones, including a probably never before seen account of his work at Bletchley Park with Turing. But here's what he wrote in 1998 about the first superintelligence, and his late-in-the-game U-turn: [The paper] 'Speculations Concerning the First Ultra-intelligent Machine' (1965) . . . began: 'The survival of man depends on the early construction of an ultra-intelligent machine.' Those were his [Good's] words during the Cold War, and he now suspects that 'survival' should be replaced by 'extinction.' He thinks that, because of international competition, we cannot prevent the machines from taking over. He thinks we are lemmings. He said also that 'probably Man will construct the deus ex machina in his own image.' »
↑(en-US) Gerrit De Vynck, « The debate over whether AI will destroy us is dividing Silicon Valley », Washington Post, (ISSN0190-8286, lire en ligne, consulté le )
↑(en-US) « Everything you need to know about superintelligence », sur Spiceworks (consulté le ) : « any intellect that greatly exceeds the cognitive performance of humans in virtually all domains of interest »
↑(en) « Stephen Hawking: 'Are we taking Artificial Intelligence seriously », sur The Independent, (consulté le ) : « there is no physical law precluding particles from being organised in ways that perform even more advanced computations than the arrangements of particles in human brains »
↑(en-GB) Future of Humanity Institute- FHI, « Future of Humanity Institute », sur The Future of Humanity Institute, (consulté le )
↑(en) « The 'Don't Look Up' Thinking That Could Doom Us With AI », sur Time, (consulté le ) : « As if losing control to Chinese minds were scarier than losing control to alien digital minds that don't care about humans. [...] it's clear by now that the space of possible alien minds is vastly larger than that. »
↑(en-GB) Josh Taylor et Alex Hern, « ‘Godfather of AI’ Geoffrey Hinton quits Google and warns over dangers of misinformation », The Guardian, (ISSN0261-3077, lire en ligne, consulté le )
↑(en) Toby Shevlane, Sebastian Farquhar, Ben Garfinkel, Mary Phuong, Jess Whittlestone, Jade Leung, Daniel Kokotajlo, Nahema Marchal, Markus Anderljung, Noam Kolt, Lewis Ho, Divya Siddarth, Shahar Avin, Will Hawkins, Been Kim, Iason Gabriel, Vijay Bolina, Jack Clark, Yoshua Bengio, Paul Christiano, Allan Dafoe, « Model evaluation for extreme risks », .
↑(en) Fabio Urbina, Filippa Lentzos, Cédric Invernizzi et Sean Ekins, « Dual use of artificial-intelligence-powered drug discovery », Nature Machine Intelligence, vol. 4, no 3, , p. 189–191 (ISSN2522-5839, DOI10.1038/s42256-022-00465-9, lire en ligne, consulté le )
↑(en) Yoshija Walter, « The rapid competitive economy of machine learning development: a discussion on the social risks and benefits », AI and Ethics, (ISSN2730-5961, DOI10.1007/s43681-023-00276-7, lire en ligne, consulté le )
↑(en-GB) Ben Doherty, « Climate change an 'existential security risk' to Australia, Senate inquiry says », The Guardian, (ISSN0261-3077, lire en ligne, consulté le )
↑(en-US) Condé Nast, « Elon Musk’s Billion-Dollar Crusade to Stop the A.I. Apocalypse », sur Vanity Fair, (consulté le ) : « will have self-preservation even if you don't program it in... if you say, 'Fetch the coffee', it can't fetch the coffee if it's dead. So if you give it any goal whatsoever, it has a reason to preserve its own existence to achieve that goal. »
↑(en) Eliezer Yudkowsky, « Coherent decisions imply consistent utilities », LessWrong, (lire en ligne, consulté le )
↑Yudkowsky, E. (2011, August). Complex value systems in friendly AI. In International Conference on Artificial General Intelligence (pp. 388-393). Springer, Berlin, Heidelberg.
« An important aspect of any AI system that interacts with people is that it must reason about what people intend rather than carrying out commands literally. »
↑(en) Nick Bostrom, « The Superintelligent Will: Motivation and Instrumental Rationality in Advanced Artificial Agents », Minds and Machines, vol. 22, no 2, , p. 71–85 (ISSN1572-8641, DOI10.1007/s11023-012-9281-3, lire en ligne, consulté le ).
↑(en) Nick Bostrom, Superintelligence: paths, dangers, strategies, Oxford University Press, (ISBN978-0-19-967811-2) :
« A future superintelligence occupies an epistemically superior vantage point: its beliefs are (probably, on most topics) more likely than ours to be true. »
« Almost any technology has the potential to cause harm in the wrong hands, but with [superintelligence], we have the new problem that the wrong hands might belong to the technology itself. »
↑Yampolskiy, « Utility function security in artificially intelligent agents », Journal of Experimental & Theoretical Artificial Intelligence, vol. 26, no 3, , p. 373–389 (DOI10.1080/0952813X.2014.895114, S2CID16477341) :
« Nothing precludes sufficiently smart self-improving systems from optimising their reward mechanisms in order to optimisetheir current-goal achievement and in the process making a mistake leading to corruption of their reward functions. »
« an A.I. will need to desire certain states and dislike others. Today's software lacks that ability—and computer scientists have not a clue how to get it there. Without wanting, there's no impetus to do anything. Today's computers can't even want to keep existing, let alone tile the world in solar panels. »
« AI dystopias project a parochial alpha-male psychology onto the concept of intelligence. They assume that superhumanly intelligent robots would develop goals like deposing their masters or taking over the world »
« artificial intelligence will naturally develop along female lines: fully capable of solving problems, but with no desire to annihilate innocents or dominate the civilization. »
↑(en-GB) « Intelligent Machines: What does Facebook want with AI? », BBC News, (lire en ligne, consulté le ) :
« Humans have all kinds of drives that make them do bad things to each other, like the self-preservation instinct... Those drives are programmed into our brain but there is absolutely no reason to build robots that have the same kind of drives. »
↑(en-US) « Pause Giant AI Experiments: An Open Letter », sur Future of Life Institute (consulté le ) : « Humanity can enjoy a flourishing future with AI. Having succeeded in creating powerful AI systems, we can now enjoy an "AI summer" in which we reap the rewards »
↑(en-US) « AI Principles », sur Future of Life Institute, (consulté le ) : « There being no consensus, we should avoid strong assumptions regarding upper limits on future AI capabilities »
↑« AI Principles » [archive du ], Future of Life Institute, (consulté le ) : « Advanced AI could represent a profound change in the history of life on Earth, and should be planned for and managed with commensurate care and resources. »
↑Martin Ford, Rise of the Robots: Technology and the Threat of a Jobless Future, (ISBN9780465059997), « Chapter 9: Super-intelligence and the Singularity » :
« I think it seems wise to apply something like Dick Cheney's famous '1 Percent Doctrine' to the specter of advanced artificial intelligence: the odds of its occurrence, at least in the foreseeable future, may be very low—but the implications are so dramatic that it should be taken seriously »
« the implications of introducing a second intelligent species onto Earth are far-reaching enough to deserve hard thinking, even if the prospect seems remote »
« It can't be much fun to have aspersions cast on one's academic discipline, one's professional community, one's life work ... I call on all sides to practice patience and restraint, and to engage in direct dialogue and collaboration as much as possible. »
↑(en) LIPPENS, « Imachinations of Peace: Scientifictions of Peace in Iain M. Banks's The Player of Games », Utopianstudies Utopian Studies, vol. 13, no 1, , p. 135–147 (ISSN1045-991X, OCLC5542757341)
↑(en-GB) « Microsoft's Bill Gates insists AI is a threat », BBC News, (lire en ligne, consulté le ) :
↑(en) « Transcending Complacency On Superintelligent Machines », sur HuffPost, (consulté le ) : « So, facing possible futures of incalculable benefits and risks, the experts are surely doing everything possible to ensure the best outcome, right? Wrong. If a superior alien civilization sent us a text message saying, "We'll arrive in a few decades," would we just reply, "OK, call us when you get here -- we'll leave the lights on"? Probably not -- but this is more or less what is happening with AI. »
↑(en-US) Condé Nast, « The Doomsday Invention », sur The New Yorker, (consulté le ) : « there is not a good track record of less intelligent things controlling things of greater intelligence »
↑(en-US) Cecilia Tilli, « Killer Robots? Lost Jobs? », Slate, (lire en ligne [archive du ], consulté le )
↑(en-US) Condé Nast, « The Doomsday Invention », sur The New Yorker, (consulté le ) : « the prospect of discovery is too sweet »
↑Brooks, « artificial intelligence is a tool, not a threat » [archive du ], : « I think it is a mistake to be worrying about us developing malevolent AI anytime in the next few hundred years. I think the worry stems from a fundamental error in not distinguishing the difference between the very real recent advances in a particular aspect of AI and the enormity and complexity of building sentient volitional intelligence. »
« like worrying about overpopulation on Mars when we have not even set foot on the planet yet. »
↑(en-US) Caleb Garling, « Andrew Ng: Why ‘Deep Learning’ Is a Mandate for Humans, Not Just Machines », Wired, (ISSN1059-1028, lire en ligne, consulté le )
↑Elliott, « Physics of the Future: How Science Will Shape Human Destiny and Our Daily Lives by the Year 2100, by Michio Kaku », Issues in Science and Technology, vol. 27, no 4, , p. 90 :
« capable of love and earning a place in the extended human family »
↑Michio Kaku, Physics of the future: how science will shape human destiny and our daily lives by the year 2100, New York, Doubleday, (ISBN978-0-385-53080-4) :
« I personally believe that the most likely path is that we will build robots to be benevolent and friendly »
↑(en) James Hamblin, « But What Would the End of Humanity Mean for Me? », sur The Atlantic, (consulté le ) : « Get out of here. I have a hundred thousand things I am concerned about at this exact moment. Do I seriously need to add to that a technological singularity? »
↑(en-US) « Barack Obama Talks AI, Robo Cars, and the Future of the World », Wired, (ISSN1059-1028, lire en ligne, consulté le ) :
« there are a few people who believe that there is a fairly high-percentage chance that a generalized AI will happen in the next 10 years. But the way I look at it is that in order for that to happen, we’re going to need a dozen or two different breakthroughs. So you can monitor when you think these breakthroughs will happen. »
↑(en-US) « Barack Obama Talks AI, Robo Cars, and the Future of the World », Wired, (ISSN1059-1028, lire en ligne, consulté le ) :
« And you just have to have somebody close to the power cord. [Laughs.] Right when you see it about to happen, you gotta yank that electricity out of the wall, man. »
↑(en) « Hillary Clinton on AI risk », sur lukemuehlhauser.com (consulté le ) : « Technologists like Elon Musk, Sam Altman, and Bill Gates, and physicists like Stephen Hawking have warned that artificial intelligence could one day pose an existential security threat. Musk has called it “the greatest risk we face as a civilization.” Think about it: Have you ever seen a movie where the machines start thinking for themselves that ends well? Every time I went out to Silicon Valley during the campaign, I came home more alarmed about this. My staff lived in fear that I’d start talking about “the rise of the robots” in some Iowa town hall. Maybe I should have. In any case, policy makers need to keep up with technology as it races ahead, instead of always playing catch-up. »
↑Ramamoorthy et Yampolskiy, « Beyond MAD? The race for artificial general intelligence », ICT Discoveries, ITU, vol. 1, no Special Issue 1, , p. 1–8 (lire en ligne [archive du ], consulté le )
↑(en) James Vincent, « Google's AI researchers say these are the five key problems for robot safety », The Verge, (lire en ligne [archive du ], consulté le )
↑Amodei, Dario, Chris Olah, Jacob Steinhardt, Paul Christiano, John Schulman, and Dan Mané. "Concrete problems in AI safety." arXiv preprint arXiv:1606.06565 (2016).
↑(en) Alex Johnson, « Elon Musk wants to hook your brain up directly to computers — starting next year », NBC News, (lire en ligne [archive du ], consulté le )
↑(en) Phil Torres, « Only Radically Enhancing Humanity Can Save Us All », Slate Magazine, (lire en ligne [archive du ], consulté le )
↑(en-GB) Condé Nast, « AI uprising: humans will be outsourced, not obliterated », Wired UK, (ISSN1357-0978, lire en ligne, consulté le )
↑(en-GB) « How are humans going to become extinct? », BBC News, (lire en ligne, consulté le )
↑(en) Mark Bridge, « Making robots less confident could prevent them taking over », The Times, (ISSN0140-0460, lire en ligne, consulté le )
↑« Pause Giant AI Experiments: An Open Letter », Future of Life Institute (consulté le ) : « Advanced AI could represent a profound change in the history of life on Earth »
↑(en) The Associated Press, « Tech leaders urge a pause in the 'out-of-control' artificial intelligence race », NPR,
↑(en-GB) Kari Paul, « Letter signed by Elon Musk demanding AI research pause sparks controversy », The Guardian, (ISSN0261-3077, lire en ligne, consulté le ) :
« By treating a lot of questionable ideas as a given, the letter asserts a set of priorities and a narrative on AI that benefits the supporters of FLI. Ignoring active harms right now is a privilege that some of us don’t have. »
↑(en-US) Ali Breland, « Elon Musk: We need to regulate AI before ‘it’s too late’ », sur The Hill, (consulté le ) : « Normally the way regulations are set up is when a bunch of bad things happen, there's a public outcry, and after many years a regulatory agency is set up to regulate that industry [...] It takes forever. That, in the past, has been bad but not something which represented a fundamental risk to the existence of civilisation. »
↑(en) Camila Domonoske, « Elon Musk Warns Governors: Artificial Intelligence Poses 'Existential Risk' », NPR, (lire en ligne [archive du ], consulté le )
↑Samuel Gibbs, « Elon Musk: regulate AI to combat 'existential threat' before it's too late », The Guardian, (lire en ligne [archive du ], consulté le )
↑Léna Corot, « L'ONU ne parvient toujours pas à se mettre d'accord sur l'interdiction des armes létales autonomes », L'Usine Digitale, (lire en ligne, consulté le )
↑Maas, « How viable is international arms control for military artificial intelligence? Three lessons from nuclear weapons of mass destruction », Contemporary Security Policy, vol. 40, no 3, , p. 285–311 (ISSN1352-3260, DOI10.1080/13523260.2019.1576464, S2CID159310223)