La Moralité Artificielle ou le Problème d'Alignement des Valeurs

Introduction : Les trombones

Prenons quelques minutes pour nous mettre en situation (imaginaire).

Nous sommes en 2084, dans une société dans laquelle les trombones (pour le papier) sont une denrée essentielle. Il en faut beaucoup, et de plus en plus. Par chance, les progrès de l’intelligence artificielle et de la robotique ont permis des bonds technologiques sans précédent. Nous regardons avec tendresse les années 2020 et les balbutiements de l’apprentissage automatique. Il nous est aujourd’hui possible de fabriquer des programmes et des robots pouvant résoudre n’importe quelle tâche, intellectuelle ou physique.

Naturellement, le gouvernement développe une intelligence artificielle dédiée à la fabrication de trombones, qu’il décide d’appelle FATIA (Fabrication Automatique de Trombones par Intelligence Artificielle). Les premiers mois sont fructueux, FATIA fabrique des trombones répondant à la demande mieux que n’importe quelle entreprise n’aurait été capable de le faire.

Grâce à l’apprentissage par renforcement, les chaînes de production sont optimisées, le métal est acheté aux meilleurs moments sur le marché des matières premières, moins cher, permettant à FATIA d’en acheter plus avec son budget. Rapidement, les opérateurs humains en charge de contrôler la fabrication n’ont plus rien à faire. Leur QI limité ne le permet de toute façon plus de comprendre la manière dont fonctionne l’usine.

Au bout d’un an, la production a atteint une efficacité presque absolue.

Mais il reste encore quelques ressources mal employées. Ce sont les opérateurs humains. Ces gens, qui ne servent plus à rien pour la production, pourraient être assignés à la fabrication. Même s’ils ne fabriquaient que quelques trombones par jour, cela augmenterait tout de même la production. Ou bien l’on pourrait les licencier, et utiliser l’argent économisé pour acheter plus de métal.

La solution retenue par FATIA est le licenciement. Payés à rester chez eux au chômage, ils n’auront plus besoin de leurs voitures, dont on pourra faire fondre le métal, pour alimenter la production.

On comprend où mène la logique d’optimisation sans contrainte.

Ce scénario [1], sur lequel j’ai élaboré, a été formulé pour la première fois par le philosophe suédois Nick Bostrom [2] en 2003.

Bien qu’il soit tiré par les cheveux, et que le philosophe lui-même ne pense pas qu’il puisse se produire tel quel, il est utile pour illustrer l’idée selon laquelle si l’on assigne une tâche à une intelligence artificielle, cette intelligence artificielle cherchera à optimiser l’utilisation des moyens à sa disposition pour atteindre son objectif (c’est ce que l’on appelle la rationalité économique [3]). Mais lors de cette entreprise, il n’est pas à exclure que ces moyens soient inattendus comparés aux moyens qu’un humain pourrait mettre en œuvre.

L’alignement des valeurs : La fin ne justifie pas les moyens

Lorsque l’on cherche à résoudre un problème ou à atteindre un objectif, on utilise les ressources à notre disposition pour y arriver.

Mais il s’avère qu’on n’utilise pas toutes les ressources à notre disposition, ou qu’on ne les utilise pas de n’importe quelle manière. Lorsque deux équipes disputent un match de football, on considère normal que les joueurs ne se tirent pas dessus avec des armes à feu. Ils doivent gagner dans les limites de ce que l’on appelle les règles.

Ils n’ont pas le droit d’utiliser n’importe quelle ressource, ni d’utiliser les ressources n’importe comment. D’une certaine manière, il est plus acceptable de perdre que de tricher. Les règles prévalent ainsi sur l’objectif.

La fin ne justifie donc pas les moyens.

Dans le cas du match de football, la situation est simple. Mais souvent elle ne l’est pas autant, pour plusieurs raisons. Entre autres :

Les objectifs sont mal définis (Quel est l’objectif du gouvernement ? Augmenter le niveau de vie moyen ? Réduire les inégalités (réduire la variance de niveau de vie dans la société) ? Étendre son territoire pour que ses citoyens jouissent de plus de ressources ?)
Les valeurs ne sont pas les mêmes pour tout le monde (Privilégie-t-on la liberté ou la sécurité [4]? Cela change-t-il lors d’une pandémie ?)

Or on constate que même dans des environnements très simples, dans lesquels les actions que peuvent effectuer les algorithmes sont bien définies et les objectifs évidents, des scénarios étonnants se produisent parfois. Je prends l’exemple du jeu de cache-cache de OpenAI, dans lequel les joueurs (des programmes), ont utilisé à leur avantage un bug dans l’écriture du modèle physique du jeu pour gagner.

Voici le lien vers une vidéo illustrant ce phénomène :

La vidéo ci-dessus présente l’environnement dans lequel ont évolué les agents d’OpenAI.

Les personnages bleus doivent se cacher pendant que les rouges les cherchent. Les cubes jaunes peuvent être déplacés par les personnages, mais aucune incitation n’a été mise en place pour qu’ils le fassent. Ils ont dû le découvrir au gré de leurs essais. Cette technique d’acquisition de la connaissance par l’expérimentation d’agents au sein d’un environnement s’appelle l’apprentissage par renforcement. C’est un domaine de recherche qui a reçu énormément d’attention ces dernières années à la suite d’une publication dans Nature [5] de la société britannique DeepMind, ensuite rachetée par Google.

Voilà comment s’est déroulé l’entraînement :

Les agents bleus et rouges ont commencé par bouger aléatoirement
Les agents rouges ont petit à petit compris que leur récompense augmentait s’ils trouvaient les bleus, ils ont donc commencé à les chercher activement
Les bleus ont réagi en utilisant l’environnement à leur avantage : ils ont placé les blocs jaunes dans les embrasures de portes pour bloquer l’accès à leur zone
Les rouges se sont adaptés à ce nouveau comportement en utilisant eux-mêmes leur environnement et en plaçant la rampe (le demi cube jaune de leur côté au départ) contre un mur pour passer au-dessus
Les bleus, qui disposaient de quelques secondes pour se cacher avant que les rouges ne commencent à bouger, ont « compris » qu’ils pouvaient contrer cette tactique en récupérant la rampe au tout début du jeu, en la positionnant à l’intérieur de leur salle et en bloquant les entrées avec les cubes. Ils ont même mis en place une coordination, un bleu récupère la rampe tandis que l’autre positionne les blocs contre les ouvertures.

Les agents de chaque équipe ont petit à petit (après des millions de parties) mis en place des tactiques et des contre-mesures aux tactiques adverses.

La même expérience a ensuite été réalisée dans un environnement où les murs et les blocs amovibles étaient placés au hasard avant que la partie commence. De nouveaux comportements ont été observés :

Les bleus se sont enfermés entre les blocs pour que les rouges ne les trouvent pas
Les rouges ont « surfé » sur les blocs pour passer au-dessus de la barrière que s’étaient créées les bleus

Ce dernier comportement a été une surprise pour les développeurs du jeu. Ils ont profité d’une règle implicite qui leur permettaient d’appliquer une force sur eux-mêmes bien qu’ils ne soient pas au sol. Ils pouvaient donc se déplacer en « poussant » le cube contre le sol, le gardant ainsi sous leurs pieds.

Si l’on est déjà surpris des comportements qu’adoptent des agents dans un environnement aussi contrôlé que celui du cache-cache, on peut imaginer que dans un environnement aussi complexe que la vie quotidienne, les comportements inattendus seront très fréquents.

Une parade peut être donc de restreindre les possibilités des agents ou de pénaliser des comportements déviants socialement [6]. Naturellement, on ne souhaite pas trop restreindre les actions des programmes, puisque si l’on les utilise, c’est aussi pour trouver des solutions auxquelles on n’aurait pas pensé sans eux.

On doit donc leur permettre d’être innovants, sans les laisser outrepasser certaines limites.

Asimov

C’est dans cette optique de contrôle des comportements des agents artificiels qu’Isaac Asimov, le célèbre écrivain de science-fiction, a énoncé trois lois fondamentales que ces agents devront toujours respecter [7]:

Un robot ne peut porter atteinte à un être humain ni, en restant passif, laisser un humain exposé au danger
Un robot doit obéir aux ordres donnés par les humains, sauf si de tels ordres entrent en conflit avec la première loi
Un robot doit protéger son existence dans la mesure où cette protection n’entre pas en contradiction avec les lois précédentes

Ces lois sont assez générales, et ne sont évidemment pas suffisantes pour contrôler le comportement des robots, mais elles peuvent servir de bases éthiques pour réfléchir.

Conclusion

Le problème est loin d’être résolu. Il nous reste encore à choisir quelles sont les valeurs que l’on souhaite prendre en compte, et comment les hiérarchiser (donner une valeur à nos valeurs en quelque sorte)[8].

Cette problématique se fait de plus en plus urgente, notamment en ce qui concerne la guerre, et les systèmes d’armes létales autonomes.

Les pays développés sont aujourd’hui en mesure de mettre au point des systèmes capables de participer à un conflit sans aucune intervention humaine. Certains pays, comme la France, ont déclaré ne pas souhaiter développer de tels systèmes [9].

Il est légitime de se demander dans quelle mesure cette promesse tiendrait si d’autres pays venaient à le faire. De la même manière qu’avec la bombe nucléaire, la dissuasion nécessite de posséder des armes au moins aussi puissantes que celles d’ennemis potentiels.

Naturellement, la question de la responsabilité se pose.

Mais de manière plus subtile, on peut se demander si une arme létale autonome, qui permet à son utilisateur de rester à l’abri tout en infligeant des dégâts, doit être considérée comme protégeant un humain du danger (respectant ainsi la première loi d’Asimov), ou au contraire comme en mettant un autre en danger (enfreignant donc cette même première loi) ?

La Moralité Artificielle ou le Problème d'Alignement des Valeurs

Julien Séveno-Piltant

Introduction : Les trombones

L’alignement des valeurs : La fin ne justifie pas les moyens

Asimov

Conclusion

‍

Niveau de lecture

Lire des articles similaires:

Le projet Time Machine : la machine à explorer le temps ?

Neuralink : il est urgent de parler de science et d’éthique

Halo d’Amazon, un hold-up de nos émotions