L’Intelligence Artificielle Explicable, enjeu majeur pour ouvrir les “boîtes noires”

" Alexandre Duval, expert AI For Tomorrow, est doctorant en machine learning à CentraleSupélec & INRIA."


L’omniprésence de l’IA et le besoin d’explicabilité

Vous l’avez probablement remarqué mais les algorithmes d’apprentissage automatique (i.e. machine learning) sont devenus omniprésents dans nos vies quotidiennes. Ils gèrent le contenu qui nous est visible, nous suggèrent le chemin idéal pour nous rendre au bureau, décident si nous sommes de bons candidats pour un poste en entreprise, etc. Cette ubiquité ne cesse de s’accentuer alors qu’ils gouverneront bientôt un plus large spectre d’activités essentielles comprenant éducation, travail, transport ou encore médecine.

Alors bien sûr, ces algorithmes sont construits et supervisés (du moins dans la plupart des cas) par des humains. Mais les modèles utilisés actuellement, c’est à dire principalement des réseaux de neurones profonds, sont d’une telle complexité [1] qu’il est pratiquement impossible pour leur créateur de comprendre leur fonctionnement, d’où le terme “boîte noire”. Pourtant, être capable d’expliquer leurs décisions confère de multiples bénéfices, comme nous allons le voir à travers l’exemple suivant.


Réseau de neurones: inspirés du cerveau humain, les neurones artificiels reçoivent initialement une valeur qu’ils transmettent aux neurones auxquels ils sont connectés dans le prochain layer. Chacun reçoit donc une collection de valeurs qu’il agrège en fonction de la force de chaque connexion neuronale. Il lui applique ensuite une fonction non-linéaire et transmet la valeur obtenue au prochain layer; et ainsi de suite. Les ultimes valeurs correspondent aux prédictions désirées — par exemple la probabilité que l’image montre un chien.


Imaginez que souscrivez à un prêt bancaire. Votre dossier est alors potentiellement étudié, au moins comme premier screening, par un modèle d’apprentissage automatique. Ce dernier utilise la donnée que vous avez fournies au préalable (âge, sexe, salaire, loyer…) ainsi que des sources externes (profession des parents, factures payées à temps…) afin de décider s’il est pertinent de vous accorder ce prêt, ou bien au contraire, s’il faut vous le refuser. Dans cette situation, être capable de comprendre les décisions de l’algorithme permet d’abord à son créateur (e.g. data scientist) de vérifier qu’il fonctionne correctement et de le debugger si nécessaire. En effet, il est crucial que l’algorithme prenne les bonnes décisions pour les bonnes raisons, et ce dans tous les cas de figures. En particulier, il faut s’assurer de l’absence de biais, car il se peut que l’algorithme obtienne d’excellents résultats mais en utilisant des corrélations fallacieuses ou discriminatoires. Par exemple, si dans la donnée d’entrainement, les personnes d’origine étrangère reçoivent moins de prêts que la moyenne, l’algorithme aura peut-être appris à diminuer la probabilité d’en accorder un si la personne n’est pas d’origine française, ce qui est ni logique ni souhaité [2]. Au-delà de sa conception, être capable de comprendre les décisions du modèle permet de faciliter son acceptation et utilisation par les métiers; car ils peuvent ainsi valider que les agissements de ce dernier sont en phase avec les idées directrices de l’entreprise. Enfin, la compréhension du modèle permet aussi de donner un retour informatif au client, ce qui a une vraie valeur ajoutée. Par exemple, on informera le candidat qu’avec un salaire plus élevé de 5k/an et des factures réglées à temps pendant les 6 prochains mois, le prêt lui serait accordé.

J’en profite pour vous recommander le livre “Weapons of Maths Destruction” de Cathy O’Neil, qui montre à travers de multiples situations de la vie quotidienne comment l’IA peut renforcer les inégalités au sein de la société et discriminer envers certains groupes de personnes.

Les bénéfices d’une IA explicable ne s’arrêtent évidemment pas à ce cas d’usage précis. Que l’on regarde les voitures autonomes ou la détection d’un cancer par un médecin assisté d’une IA, nous avons besoin d’une totale confiance en ces modèles pour les distribuer à grande échelle tout en garantissant performance, sureté, fiabilité et équité. Seule l’explicabilité permet cela.



En résumé

L’importance de ce sujet est telle que la législation européenne s’y intéresse vivement. Au moyen du Règlement Général de Protection des Données (RGPD), l’Union Européenne a tenu à responsabiliser les acteurs traitant des données en excluant la possibilité que certaines décisions algorithmiques critiques soient prises sans la supervision d’un humain — imposant donc implicitement leur explicabilité.


Mais en quoi l’explicabilité consiste-t-elle ?

Depuis le début, nous parlons d’explicabilité des modèles de machine learning. Mais en pratique, que signifie ce concept ? Comment rend-t-on un algorithme explicable ?

Tout d’abord, il faut savoir qu’il y a deux catégories de modèles d’apprentissage automatique:

  • Les modèles qualifiés d’intrinsèquement interprétables de par leur fonctionnement trivial — où une explication annexe n’est pas nécessaire. Par exemple, les régressions linéaires ou les arbres de décision, pour lesquels il est facile pour un humain de comprendre les agissements du modèle. Malheureusement, pour de nombreuses applications, ils ne seront pas suffisamment performants au vu de leur simplicité et resteront donc inutilisés.

  • Les modèles complexes, avec en tête de file les réseaux de neurones, sont eux beaucoup plus performants en règle générale, mais leurs prédictions sont très difficiles voire impossibles à expliquer. Pour ces derniers, nous appliquons des méthodes dites “d’explicabilité post-hoc”, c’est à dire qui interviennent après l’entrainement et la prédiction du modèle, et qui décrivent son fonctionnement. Ce concept s’apparente fortement à ce nous, humains, faisons. Nous ne sommes pas vraiment des individus facilement interprétables, et avons un fonctionnement plutôt complexe. Pourtant, nous sommes capables d’expliquer nos décisions après coup, par des biais divers.

Comme vous vous en doutez, c’est surtout cette deuxième catégorie qui nous intéresse, car elle permet d’obtenir de meilleurs résultats tout en préservant une certaine transparence des prises de décisions algorithmiques, limitant ainsi le fameux compromis entre explicabilité et performance.


Schéma illustrant sommairement le compromis entre explicabilité et performance, engendré par le choix du modèle d’apprentissage automatique. Les méthodes d’explicabilité post-hoc permettent d’obtenir les performances des réseaux de neurones (NN) avec l’explicabilité d’une régression linéaire. Source: [3]


Les méthodes post-hoc peuvent être globales (fonctionnement général du modèle, pour toutes les instances) ou locales (fonctionnement du modèle pour une prédiction en particulier). Elles sont applicables à tout type d’algorithme d’apprentissage automatique ou spécifique à une architecture bien précise.

L’explication produite peut prendre diverses formes du moment qu’elle décrit fidèlement le fonctionnement du modèle tout en étant compréhensible par un humain. Entre autres, il peut s’agir [3]:

  • d’une mesure d’importance pour chaque variable du modèle.

  • d’une liste de point de données (les plus influents, les mieux représentés..)

  • d’une explication textuelle

  • d’une visualisation

  • d’un modèle interprétable qui approxime localement le modèle complexe


Quelques méthodes d’explicabilité post-hoc

Il existe une large variété de méthodes menant aux diverses formes d’explications énoncées au-dessus. Vous trouverez ci-dessous 3 exemples, qui je l’espère, vous procurerons une idée plus précise du fonctionnement possible des méthodes d’explicabilité.

Saliency maps est une famille de méthodes utilisant des opérations mathématiques sur les paramètres internes du modèle afin d’expliquer le fonctionnement des réseaux de neurones. Pour n’en citer que quelques unes: Sensitivity Analysis, DeepLIFT, Grad-CAM ou GuidedBackpropagation. Toutes rétro-propagent dans le réseau neuronal les gradients afin d’estimer l’influence de chaque variable d’entrée sur la prédiction du modèle. L’explication est donc un score d’importance pour chaque variable ou ce qu’on appelle une saliency map (voir image). La différence entre ces méthodes se matérialisent par de subtiles variantes dans le processus de rétro-propagation.


Source: https://bdtechtalks.com/rise-explainable-ai-example-saliency-map/



LIME [4] crée un nouveau jeu de données autour de l’instance qu’elle souhaite expliquer — pour une image, elle blackout plusieurs super-pixels de façon aléatoire et conçoit N nouvelles images ainsi. Puis elle construit un modèle interprétable (i.e. régression linéaire ou arbre de décision) sur cet ensemble d’images. Ce modèle est facilement compréhensible et est utilisé comme explication de l’image de départ. En d’autres termes, son objectif est de perturber l’instance à expliquer et d’étudier l’effet de ces perturbations sur les prédictions du modèle au moyen d’un modèle simple annexe. Les variables occasionnant un large changement dans la prédiction du modèle sont jugées comme importantes.

Note: pour la régression linéaire, le coefficient correspondant à chaque superpixel est révélateur de son importance dans la classification de cette image.

Source: Locally Interpretable Model-agnostic Explanation Paper, Riberio


SHAP [5] s’appuie sur la Valeur de Shapley [6], qui émane de la Théorie des Jeux, et décrit comment répartir “équitablement” les gains d’un jeu entre les joueurs, en sachant qu’ils ont collaboré pour l’obtenir. Par exemple, supposons qu’une équipe de 3 joueurs remporte 100€ lors d’une compétition, et que l’on souhaite répartir ce gain entre eux en fonction de leur contribution respective au projet. En effet, comme dans tout travail de groupe, il y a souvent des gens qui s’investissent davantage ou qui ont des compétences uniques qui aident le groupe à franchir un pallier; et dont la contribution est par conséquent supérieure. Cette méthode calcule donc la valeur ajoutée de chaque joueur au gain remporté lorsqu’ajouté à n’importe quelle coalition de joueurs. Dans ce cas précis, on calcule le gain de (J1 et J2 vs J1), (J3 et J2 vs J3), (J2 vs personne) et (J1 et J3 et J2 vs J1 et J3) et l’on fait une moyenne pondérée pour trouver la contribution équitable de J2 (Joueur2) au gain total rapporté par l’équipe.

Pour expliquer des modèles de machine learning, on étend la Valeur de Shapley en considérant la prédiction expliquée comme le gain d’un jeu et chaque variable comme un joueur de ce jeu. Donc pour la prédiction d’un modèle f sur une instance x, notée f(x), la contribution marginale d’une variable j à une coalition de variables S (sous-ensemble de variables) est notée: val(S U j)-val(S)= E[f(X)|X_s=x_s, x_j]- E[f(X)|X_s=x_s]. La formule de la valeur de shapley pour la variable j est la suivante:


La notion d’équité est definie par 4 Axiomes et la Valeur de Shapley est l’unique solution les satisfaisant. En pratique, la somme ci-dessus est impossible à calculer et nous avons recours à des approximations telles que SHAP, qui utilise une régression linéaire pour estimer la valeur de Shapley propre à chaque variable, avant de les poser comme explications.

Source: [5]

Ces méthodes doivent s’adapter aux différentes modalités de données qu’ils reçoivent, à savoir: texte, image, tabulaire ou graphe.

Prodiguer de bonnes explications

Maintenant que nous avons vu pourquoi l’explicabilité est nécessaire et en quoi elle consiste, ils nous reste à aborder comment évaluer ces méthodes afin de proposer une bonne explication du modèle.

Il est globalement assez difficile de définir ce qu’est une bonne explication d’un point de vue théorique. Certains chercheurs se sont penchés sur la question et ont défini une liste de propriétés désirables [7].

  • Précision & Fidélité : l’explication est pertinente et rejoint parfaitement ce que prédit le modèle “boîte noire”.

  • Robustesse: de légères variations dans les caractéristiques d’une instance ou dans le fonctionnement du modèle ne modifient pas substantiellement l’explication.

  • Certitude: l’explication reflète la certitude du modèle d’apprentissage automatique. En d’autres termes, l’explication indique la confiance du modèle pour la prédiction de l’instance expliquée.

  • Signification : l’explication reflète l’importance de chaque variable.

  • Représentativité: l’explication couvre de nombreux cas ou instances, et par conséquent le fonctionnement plus général du modèle.

  • Compréhensibilité : l’explication est facile à comprendre pour un humain. Cette propriété comprend plusieurs aspects qui sont analysés plus en détail ci-dessous.

En effet, du point de vue de la compréhension par un humain: une bonne explication est souvent:

  • Sélective: les gens ne s’attendent pas à ce que les explications couvrent la totalité des causes d’un évènement mais plutôt à ce qu’on leur donne deux ou trois facteurs clés. Exemple: “L’équipe de France a battu l’Allemagne 1–0 au terme d’un match équilibré parce qu’elle a su être plus efficace dans les deux surfaces”.

  • Contrastive: souvent, les gens ne demandent pas pourquoi une prédiction a été faite, mais plutôt pourquoi celle-ci au lieu d’une autre. Exemple: Pourquoi a t-il obtenu un prêt et pas moi ?

  • Sociale: l’explication fait partie d’une interaction entre le donneur et le receveur, elle doit donc être adaptée à l’audience. Formulé différemment, une explication destinée à un data scientist doit être différente d’une explication destinée au client d’une banque qui a fait sa demande de prêt.


Perspectives futures

Bien qu’il existe déjà plusieurs méthodes d’explicabilité fiables et facilement utilisables pour n’importe quel cas d’usage, la recherche dans ce domaine est encore naissante. De multiples améliorations sont donc à prévoir dans les prochaines années, notamment dû à la popularité croissante de ce domaine. Entre autres, il serait souhaitable d’insister davantage sur les propriétés des explications procurées, de développer des théories avancées sur les méthodes utilisées ainsi que d’améliorer les processus d’évaluation de ces méthodes afin de garantir leur fiabilité dans plusieurs cas d’usages. Le but ultime étant de procurer des explications fiables, faciles à comprendre pour n’importe quel auditeur, et rapidement calculables.


Lire sur Medium.

Alexandre Duval,

Expert AI For Tomorrow,

Doctorant en machine learning à CentraleSupélec & INRIA


Références

[1] 3Blue1Brown — But what is a neural network? | Chapter 1, Deep learning — https://www.youtube.com/watch?v=aircAruvnKk

[2] Cathy ONeil, Weapons of Maths Destructions. 2016

[3] Duval, A. (2019). Explainable Artificial Intelligence (XAI). MA4K9 Scholarly Report, Mathematics Institute, The University of Warwick.

[4] Ribeiro, Marco Tulio, Singh, Sameer, and Guestrin, Carlos. Why should I trust you? Explaining the predictions of any classifier. In KDD, 2016.

[5] Lundberg, S., & Lee, S. I. (2017). A unified approach to interpreting model predictions. arXiv preprint arXiv:1705.07874.

[6] Shapley, Lloyd S. A Value for N-Person Games. Contributions to the Theory of Games 2 (28): pp 307–317. 1953.

[7] C. Molnar. Interpretable Machine Learning. 2018