AI 101: Introduction à l'IA

Enjeux et promesses de l’apprentissage auto-supervisé

May 6, 2021

Redha Moulla

Docteur en automatique, Consultant en IA chez AxIA et Enseignant en data science à UniLaSalle

L'essor du machine learning que nous connaissons depuis une petite dizaine d'années maintenant est essentiellement tiré par ce que l'on appelle l'apprentissage supervisé. Celui-ci consiste à entraîner des algorithmes sur des données annotées par un humain : pendant l'entraînement, le modèle voit à la fois les données qui permettent de réaliser une prédiction ainsi que la prédiction elle-même.

Par exemple, si l'on veut analyser les commentaires associés à un restaurant, il faut entraîner le modèle sur un échantillon de données contenant à la fois les commentaires et le sentiment associé à chaque commentaire, positif ou négatif, préalablement qualifié par un humain. C'est à cette condition que le modèle pourrait ensuite généraliser ce qu'il a appris sur de nouveaux commentaires, qu'il n'a pas encore vus, et leur attribuer un sentiment. Cette technique a permis de déployer un large champ d'applications, aussi bien dans le monde de l’entreprise (ciblage marketing, détection de fraude, etc.) que dans le celui de la recherche (diagnostic médicaux, découvertes de nouvelles galaxies, etc.) Cependant, si ces techniques d'apprentissage dit supervisé sont relativement bien adaptées à des données structurées (des données que l'on peut typiquement représenter dans un fichier Excel), elles présentent des limites souvent rédhibitoires sur des données non structurées, comme les images ou le texte, qui font généralement appel à des techniques de deep learning, nécessairement gourmandes en termes de données. On peut alors imaginer facilement le coût et le caractère fastidieux de l'annotation de plusieurs dizaines de milliers d'images ou de textes par un humain.



Photo de Linda Eller-Shein provenant de Pexels


L'une des solutions les plus prometteuses qui a émergé depuis quelques années est ce que l'on appelle l'apprentissage auto-supervisé (self-supervised learning), qui consiste pour un algorithme à apprendre à partir d'un jeu de données non annoté [1]. Cet apprentissage dit auto-supervisé a d'abord connu ses premiers succès dans le domaine du traitement du langage naturel (ou le NLP pour Natural Language Processing) [2]. La procédure d'entraînement des modèles est relativement simple et semble naturellement adaptée au texte ; elle consiste à demander à un modèle de deep learning de prédire un mot que l'on a masqué dans une phrase [3].



Le modèle, ainsi entraîné à deviner les mots pertinents dans différents contextes donnés, apprendra tout seul (d'où la dénomination d'auto-supervisé) la structure ainsi que le contenu sémantique du langage. Mais, comme en machine learning, il y a un principe qui veut qu'il y ait toujours un prix à payer pour toute chose acquise, ce que l'on gagne en faisant l'économie de l'annotation des données est payé dans les ressources nécessaires en termes de calculs pour entraîner de tels modèles ; ces techniques impliquant des quantités de données encore plus importantes (des corpus de textes contenant de l'ordre du milliard de mots typiquement).

Cependant, une fois entraînés, ces modèles peuvent ensuite être ajustés pour réaliser différentes tâches, comme l'analyse du sentiment ou le résumé de textes, en leur montrant un nombre d'exemples relativement limité – pour les modèles les plus évolués, comme GPT-3, une dizaine d'exemples peut même suffire pour apprendre à réaliser certaines tâches [4]. On comprend alors facilement l'intérêt de tels modèles et les horizons qu'ils ouvrent en termes d'applications industrielles.


L'apprentissage auto-supervisé comme achèvement du deep learning

Le paradigme principal dans lequel s'inscrit le deep learning, par opposition aux autres techniques de machine learning, est sa capacité à réduire drastiquement l'intervention humaine pendant le processus d'entraînement (d'où également son caractère de « boîte noire »). Là où les autres techniques de machine learning font intervenir un humain dans l'extraction de caractéristiques (comme l'âge, le salaire, etc.) à partir des données brutes pour les montrer ensuite au modèle, le deep learning permet d'extraire lui-même les caractéristiques dont il a besoin pour effectuer des prédictions. Dans cette perspective, l'apprentissage auto-supervisé peut être vu comme un pas de plus pour s'affranchir de l'intervention humain, non plus seulement dans l'extraction de caractéristiques, mais également dans l'annotation des données. L'apprentissage non supervisé peut donc être considéré, dans une certaine mesure, comme faisant partie de l'essence même du deep learning.


Un fort impact à la fois scientifique et sociétal

L'apprentissage auto-supervisé a un impact considérable dans le développement de l'intelligence artificielle, en tant que discipline scientifique, aussi bien que dans les applications proches de nos vies quotidiennes ; il pose également un certain nombre de questions en termes de pratiques et de normes. L'un des impacts les plus marquants de l’apprentissage auto-supervisé est sans doute celui que l'on observe dans le domaine du traitement du langage naturel (NLP). L'apprentissage auto-supervisé a en effet permis une forme de renaissance pour le NLP depuis maintenant près de huit ans, accélérée ces dernières années par l'apparition de modèles toujours plus gigantesques, permettant de réaliser des applications et des performances qui étaient jusque-là inenvisageables. Cependant, les ressources considérables nécessaires à l'entraînement de tels modèles constituent une barrière infranchissable pour le commun des organisations ; cette nouvelle technologie devient ainsi l'apanage d'une poignée de grands groupes – Google, Facebook et Microsoft –, qui mettent à disposition de la communauté des modèles entraînés par leurs soins, en accès libre généralement.

On observe ainsi une tendance naissante, mais sans doute appelée à s'amplifier dans les prochaines années, qui consiste pour les autres organisations à passer de la position d'utilisateurs de librairies (comme sckit-learn, TensorFlow, etc.) pour entraîner leurs propres modèles à celle d'utilisateurs de modèles déjà entraînés par les grands groupes en question. Les avantages sont incontestables, notamment pour les petites organisations, qui peuvent ainsi accéder à des technologies très puissantes avec des ressources limitées en termes de capacité de calcul, mais aussi de coût d'annotation des données ; et on peut donc raisonnablement s'attendre dans les prochaines années à une accélération des innovations et des applications tirées par la disponibilité de ces modèles. Cependant, ceux-ci peuvent aussi bien être considérés comme autant de normes imposées par une poignées de grands groupes, avec tout ce qui cela peut supposer en termes d'opacité et d'éventuels biais cachés.

Enfin, il faut souligner que l’apprentissage auto-supervisé ne se limite pas au traitement du langage naturel. De nombreux résultats publiés récemment suggèrent en effet qu’il peut également être utilisé pour le traitement d'images [5], notamment la segmentation [6]. Plus intéressant encore, certains résultats suggèrent même que les architectures de deep learning utilisées pour ce type d'apprentissage sont agnostiques aux typologies de données (indifférentes au fait que les données soient des images ou du texte), ce qui ouvre des perspectives prometteuses pour l'apprentissage multimodal [7], où les mêmes neurones artificiels peuvent apprendre à la fois des images et des mots – un apprentissage finalement analogue à celui des êtres humains, qui peut poser les bases d'une intelligence artificielle plus puissante et robuste.

[1] https://ai.facebook.com/blog/self-supervised-learning-the-dark-matter-of-intelligence


[2] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.


[3] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.


[4] Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. arXiv preprint arXiv:2005.14165.


[5] Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., ... & Houlsby, N. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.


[6] Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging Properties in Self-Supervised Vision Transformers. arXiv preprint arXiv:2104.14294.


[7] Goh, G., Cammarata, N., Voss, C., Carter, S., Petrov, M., Schubert, L., ... & Olah, C. (2021). Multimodal neurons in artificial neural networks. Distill, 6(3), e30.

Niveau de lecture

Aidez-nous à déterminer le niveau de lecture:

Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Lire des articles similaires: