AI 101: Introduction à l'IA

Pensons l'IA avec la Data pour mieux automatiser

June 29, 2021

Diana Carrondo

Data Product Owner chez Air France-KLM & Enseignante en Data et SI à l'Université Paris Dauphine-PSL

CARRONDO Diana. Untitled (impression digitale sur vinyle) par Peter KOGLER, 2018. Exposition Artistes & robots, Paris, Grand Palais, Juin 2018

Pensons l’IA avec la Data pour mieux automatiser

Si le moyen qu’est l’intelligence artificielle (IA) est largement mis en avant, c’est souvent moins le cas pour les données qui l’alimentent ainsi que sa finalité : automatiser. Ces notions d’input (entrée) et d’output (sortie) sont pourtant la base-même de l’informatique.

Appliqué à l’IA, cela souligne l’importance de la data dans ce qu’elle permet aux technologies cognitives d’apporter de positif à la société.

L’intelligence artificielle est avant tout un moyen parmi d’autres d’automatiser

Avant d’être la machine surpuissante crainte par les foules suivant l’idée de singularité technologique [1][2], rappelons-nous de la définition de l’intelligence artificielle… Ou du moins celle que j’ai fini par me construire, tant les points de vue divergent, quand ils ne sont pas passés sous silence tout simplement.

L’intelligence artificielle est l’ensemble des technologies informatiques capables de simuler voire dépasser l’intelligence humaine par rapport à un environnement donné grâce à des capacités de perception, d’action et d’apprentissage.

  • La perception permet à l’IA de récupérer tout ou partie des données en entrée, à partir de son environnement. Parmi les nombreux exemples de techniques, on retrouve la computer vision (la machine analyse et tire du sens d’images) ou le speech-to-text (audio transformé en texte par la reconnaissance automatique de paroles).
  • L’action représente la capacité de la machine à décider, interagir voire modifier son environnement. Cela peut être de la communication verbale, par exemple avec les chatbots plus ou moins intelligents qu’on croise sur internet, ou encore par les techniques de NLP (Natural Language Processing) où le programme peut générer du langage humain. L’action peut également être physique lorsque l’IA est embarquée dans un robot “mécanique”.
  • L’apprentissage vient améliorer les capacités de perception et/ou d’action par des procédés qu’on ne présente plus, par exemple :
  1. Le machine learning (apprentissage automatique) : algorithme d’apprentissage statistique à partir duquel la machine peut apprendre sur la base de données, sans avoir été programmée et de façon plus ou moins supervisée par l’humain.
  2. Le deep learning (apprentissage profond) : algorithme d’apprentissage profond basé sur des réseaux de neurones artificiels. Les données transitent via les différentes couches du réseau de neurones, ces derniers associant aux données un poids permettant à la couche finale de statuer sur le problème posé, à la manière d’un cerveau humain.

L’idée de “simuler voire dépasser l’intelligence humaine” est nécessairement liée à celle de l’automatisation. L’automatisation consiste à faire exécuter par une machine des tâches jusqu’alors réalisées par des humains tout en préservant voire en améliorant l’efficacité. On peut très bien entendre le fait d’automatiser ce qu’un humain seul ou en équipe ne pourrait faire, ou alors sous de trop longs délais, par exemple l’analyse en temps réel des milliers de transactions par cartes bleues effectuées chaque seconde pour détecter les fraudes.

Le degré d’intelligence va dépendre de la nature des tâches qu’on souhaite automatiser. S’il s’agit de tâches simples et répétitives, on va par exemple mettre en place des robots sur des chaînes de montage industrielles. On a plus récemment vu dans le secteur tertiaire l’automatisation de processus complétement virtuels avec le RPA (Robotic Process Automation). Il s’agit de “robots logiciels” pouvant interagir avec diverses applications en se basant sur des données structurées et des règles de gestion standards. En revanche dans le cas de tâches complexes et pas toujours nominales, c’est là que des technologies comme celles de l’intelligence artificielle deviennent pertinentes.

Dans tous les cas, l’action d’automatiser repose fondamentalement sur un processus, toujours orienté vers un but unique.

L’automatisation par l’IA s’accélère avec le Big Data

D’une manière générale, un processus est un enchaînement d’activités aboutissant à un résultat. Pour simplifier, nous pouvons nous rapporter au modèle Input-Process-Output (IPO) [3]. Ce modèle permet de décrire le cheminement basique d’un processus, qu’il soit informatique ou non :

  1. Input (entrée) : identification et captation des ingrédients nécessaires ;
  2. Process (traitement) : utilisation et transformation des ingrédients en entrée suivant des consignes et/ou modèles ;
  3. Output (sortie) : obtention d’un résultat une fois le traitement des ingrédients terminé.

Dans le cas de l’automatisation, notamment par l’IA, le processus repose nécessairement sur des données en entrée. Les données constituent la matière première d’une information. Les données peuvent s’envisager comme des morceaux de faits, de savoirs et d’opinions qui, suivant une structure d’interprétation (contexte, règles de calcul, format, concaténation, etc.) prennent un sens pour devenir de l’information. C’est sur la base de ces informations, de la data traitée, que sont prises les décisions.

Or le volume de données a explosé ces dernières années avec l’entrée dans la quatrième révolution industrielle, aussi appelée “industrie 4.0” [4]. Cette nouvelle ère technologique s’inscrit dans la continuité des précédentes : l’arrivée des machines lors de la première révolution industrielle (1.0, fin XVIIIè siècle), la production de masse (2.0, XIXè siècle) et l’informatisation (3.0, fin XXè siècle). L’industrie 4.0 est celle de la transformation digitale.

En quelques décennies, l’informatique s’est démocratisée suivant la loi de Moore, selon laquelle l’informatique est de plus en plus petite et puissante, tout en devenant de moins en chère. Cette démocratisation de l’informatique est venue transformer durablement les usages et les attentes de tous, créant des ATAWADAC : anytime, anywhere, any device, any content [5]. Avec toutes ces nouvelles technologies au bout des doigts et en continu, nous sommes ainsi devenus des “êtres permanents” [6] dont les vies sont “mises en données” [7].

Cet usage effréné des nouvelles technologies dans les sphères tant professionnelles que privées fait que nous n’avons jamais autant créé de data qu’aujourd’hui. Cette tendance est renforcée par l’internet des objets (Internet of Things aka IoT), où nos objets du quotidien sont de plus en plus connectés, capables d’analyser et d’envoyer les données qu’ils capturent grâce à leurs capteurs et microprocesseurs. Tout cela constitue le Big Data, ce volume massif de données digitales produites par l’usage démocratisé des nouvelles technologies dans un monde considérablement informatisé.

L’arrivée du Big Data ces dernières années coïncide avec la recrudescence de l’intérêt pour l’IA. Le Big Data permet l’industrialisation des technologies d’IA, comme le Machine Learning et le Deep Learning, en fournissant un corpus d’entraînement à la hauteur de leurs capacités d’apprentissage. Le Big Data vient également renforcer l’excellence décisionnelle et la création de valeur, devenant alors une “nouvelle eau” (“data as the new water” [8]) exploitée à grande échelle par les algorithmes d’automatisation.

Cette valeur est justement encouragée par l’usage combiné de la data et de l’IA, plus prescriptive et dans l’action que le décisionnel. Encore faut-il que les organisations “sortent de leurs frigos informationnels” cet actif sous-exploité qu’est la data [7]. En effet à ce jours seuls 32% des données disponibles et/ou stockées sont exploitées [9].

À l’instar des premiers ordinateurs électroniques puis d’Internet par le passé, le Big Data est une opportunité technologique pour l’IA qui vit actuellement un nouveau temps fort. Néanmoins sans confiance ni sens, il existe un risque pour l’automatisation cognitive d’être sous-exploitée par manque d’adoption, voire de connaître un nouvel “hiver de l’IA” [10].

Montrer l’impact positif de l’automatisation sur la société est une course à la confiance en la Data et l’IA

Une transition réussie vers l’automatisation au service de la société (output) repose sur un solide accompagnement du changement en matière de data (input) et d’IA (process).

Cet accompagnement du changement passe d’abord par le sens qu’on donne à l’IA en tant que moyen et non finalité. Tant pour l’analyse que le prédictif, il ne s’agit pas de faire de la technologie pour la technologie mais toujours de répondre à des besoins humains et organisationnels de la façon la plus fiable et simple. La pure démonstration technique doit rester de l’ordre des quelques challenges cognitifs, comme a par exemple pu l’être MuZero (DeepMind, Google). Présenté fin 2020, cet algorithme est capable de maîtriser les règles de jeux complexes et sans connaissance des règles [11].

Par ailleurs, si la notion d’éthique dans l’intelligence artificielle est largement couverte, rappelons qu’elle concerne également les données en entrée de traitement. Qu’est-ce que l’éthique ? Il s’agit d’une “réflexion fondamentale sur les normes morales, les limites et les devoirs”, la morale étant définie comme “l’ensemble des règles déterminant la conformité des pensées ou actions d’un individu avec les mœurs, règles et coutumes d’une société […] pour évaluer son propre comportement” [12]. C’est en ce sens qu’on peut parler de “loyauté des systèmes”, qui repose de fait aussi sur la “loyauté de données : neutralité, justice, diversité et transparence” [12][13].

La transparence des données est justement un autre pilier de confiance dans l’automatisation par l’IA. Avoir confiance dans le résultat d’un traitement passe notamment par la capacité pour l’utilisateur de pouvoir remonter la filiation des données (data lineage) si besoin. Cette vision du cheminement data depuis ses sources jusqu’au résultat du traitement justifie la valeur-même du traitement. La collecte et mise à disposition des “logs” (traces reconstituant l’activité de la machine) est également un autre facteur de transparence, déterminant pour l’acceptation sociale tout en contribuant à l’amélioration continue du traitement par l’IA [12].

Fatalement, la capacité à assurer la transparence des données repose sur une gouvernance data clairement établie et transverse au sein des organisations. Pour que l’IA soit également à la hauteur de ses promesses et capable de détecter les blind spots ou ce que l’homme ne peut faire manuellement, encore faut-il bien l’alimenter. Alimenter au mieux ses processus automatisés notamment par l’IA revient à l’idée de pleinement maîtriser et exploiter son patrimoine data : Qui est responsable de quelles données ? Que signifient les données et qui peut valider leur qualité ? Quel niveau de confidentialité est associé à chaque donnée (cf. la RGPD) ? Les accès data sont-ils tracés et auditables ?

L’idée est de garantir aux utilisateurs et aux IA qu’ils peuvent faire leur marché data en toute confiance.

La notion de qualité des données est d’ailleurs essentielle pour maximiser la confiance et la réussite des projets d’IA. Jusqu’alors essentiellement portée sur les modèles et le code, l’attention générale tend à considérer de plus en plus le rôle crucial que jouent les données alimentant l’IA. Cet aspect a récemment été porté à la lumière par Andrew Ng, chercheur américain en informatique et co-fondateur de Coursera, DeepLearning.ai et Landing AI, rappelant qu’il faut penser la donnée comme “nourriture de l’IA” (“Data is food for AI”). Ce principe est illustré suivant l’exemple d’un chef cuisinier pour la confection d’un repas : 80% du temps requis sert à trouver et préparer des ingrédients (data) de qualité, et les 20% restants à cuisiner (entraîner le modèle à base de data) [14]. En ce sens qu’Andrew Ng a également lancé un challenge “Data-centric AI” en juin 2021, dont l’originalité est de se concentrer sur la qualité des données et non le code.

C’est portée à un niveau stratégique dans les organisations que la data, envisagée de façon transverse et non en silos, peut relever tous ces défis de la confiance en l’automatisation par l’IA. L’organisation doit établir et suivre une politique de maîtrise de ses données, qu’elle soient complètement, partiellement voire pas structurées. Consacrer la data à un tel niveau peut aussi accélérer le développement d’une culture data en interne, chez tous les acteurs. Gérer les données de façon transverse a aussi l’intérêt de cibler plus facilement les ressources humaines et matérielles clés pour la confiance dans la data et l’automatisation via l’IA.

La hype autour de l’IA laisse parfois entendre qu’il s’agit de la solution à tout, alors que ce n’est au final qu’un niveau très avancé d’automatisation, alimenté comme les autres par des données en entrée. Surtout, ce buzz autour de la technologie IA ne doit pas détourner l’attention du principal objectif : satisfaire des besoins dans les organisations et la société.

Maîtrisons nos données et l’intelligence artificielle pour que l’automatisation reste utile et libératrice.

[1] EDEN Amnon H., MOOR James, SORAKER Johnny H., STEINHART Eric. Singularity hypotheses: A Scientific and Philosophical Assessment. Berlin/Heidelberg : Springer, 2012

[2] GANASCIA Jean-Gabriel. Le mythe de la singularité. Faut-il craindre l’intelligence artificielle ?. Paris : Les Editions du Seuil, 2017

[3] GRADY Jeffrey O. System Engineering Planning and Enterprise Identity. Boca Raton : CRC Press. 1995.

[4] SCHWAB Klaus. The Fourth Industrial Revolution. What it means and how to respond. Foreign Affairs [en ligne], 12 Décembre 2015, consulté le 23 mai 2021. Disponible sur : https://www.foreignaffairs.com/articles/2015-12-12/fourth-industrial-revolution.

[5] Le terme “ATAWAD” a été déposé par Xavier Dalloz Consulting en 2002.

[6] DELORME Pascal. Les 6 caractéristiques des nouveaux consommateurs. Harvard Business Review France [en ligne], 2 novembre 2015, consulté le 23 août 2018. Disponible sur : https://www.hbrfrance.fr/chroniques-experts/2015/11/8724-les-6-caracteristiques-des-nouveaux-consommateurs/

[7] LEVY Mick. Sortez vos données du frigo — Une entreprise performante avec la Data et l’IA. Malakoff : Dunod, 2021

[8] VESSET Dan. Data as the New Water: The Importance of Investing in Data and Analytics Pipelines. Qlik [en ligne], 16 juin 2020, consulté le 18 mai 2021. Disponible sur : https://www.qlik.com/us/-/media/files/resource-library/global-us/register/whitepapers/wp-the-importance-of-investing-in-data-and-analytics-pipelines-en.pdf

[9] SEAGATE TECHNOLOGY. Rethink Data : Exploitez davantage vos données d’entreprise, de la périphérie jusqu’au cloud. Seagate/IDC [en ligne], 26 juin 2020, consulté le 19 juin 2021. Disponible sur : https://www.seagate.com/files/www-content/our-story/rethink-data/files/Rethink_Data_Report_2020.pdf

[10] CREVIER Daniel, AI : The Tumultuous Search for Artificial Intelligence. New York : Basic Books, 1993.

[11] ANTONOGLOU Ioannis et al. MuZero: Mastering Go, chess, shogi and Atari without rules. DeepMind [en ligne], 23 décembre 2020, consulté le 24 mai 2021. Disponible sur : https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

[12] DEVILLERS Laurence. Des robots et des hommes : mythes, fantasmes et réalité. Paris : Plon, 2017.

[13] STOYANOVICH Julia, ABITEBOUL Serge, MIKLAU Gerome. Data, Responsibility: Fairness, Neutrality and Transparency in data analysis. International Conference on Extending Database Technology, Bordeaux, France, Mars 2016. Disponible sur : https://hal.inria.fr/hal-01290695/document

[14] NG Andrew. Keynote at Automate Forward Virtual Trade Show and Conference. Association for Advancing Automation (A3) [en ligne], 26 mars 2021, consulté le 26 juin 2021. Disponible sur : https://www.youtube.com/watch?v=06-AZXmwHjo&t=38s

Niveau de lecture

Aidez-nous à déterminer le niveau de lecture:

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Lire des articles similaires: