Les sciences physiques sont l'un des domaines où le machine learning, notamment dans sa version deep learning, a enregistré des succès incontestables ces dernières années. Cela peut surprendre, à première vue, dans la mesure où la démarche du physicien peut sembler différente de celle du data scientist : le premier cherche à comprendre les lois qui gouvernent l'univers en utilisant des modèles mathématiques explicites, construits avec soin à partir d'un ensemble de postulats (conservation de certains grandeurs, symétries, etc.). Le data scientist, en revanche, utilise des modèles souvent implicites, dont on ne connaît pas la forme mathématique ; et, dans le cas extrême du deep learning, les modèles sont même des « boîtes noires » qui, a priori, n'ont absolument rien à dire du monde physique.
Quand il s'agit de l'histoire de l'intelligence artificielle et des événements importants qui ont jalonné son développement, il y a un consensus général que celle-ci a commencé en 1956, avec la conférence de Dartmouth, a fait un grand pas l'année suivante, en 1957, avec l'invention du premier réseau de neurones, etc. Si cela semble aujourd'hui incontestable, on peut tout autant prendre une autre perspective et regarder l'histoire de l'intelligence artificielle à travers celle de la théorie de l'information. A ce titre, l'année 1957 résonne d'une façon différente : c'est l'année où Edwin Thompson Jaynes, un physicien, a formulé le principe d’entropie maximale [1], rapprochant ainsi deux domaines a priori très éloignés : la thermodynamique et la théorie de l'information. Ce principe stipule que, parmi tous les modèles possibles pour exprimer notre connaissance sur un phénomène donnée, le plus pertinent est celui qui maximise l'entropie (celui qui ne rajoute aucun biais). Jaynes a montré que de ce principe on peut naturellement déduire les lois de la thermodynamique statistique ; mais il s'avère qu'on peut également en déduire certaines techniques de machine learning, comme la régression logistique ou les machines à vecteurs de support (SVM) [2][3]. La physique et le machine learning partagent ainsi des liens très profonds, qui expliquent la symbiose que l'on peut aujourd'hui observer entre les deux disciplines.
Les techniques de machine learning, notamment le deep learning, ont été utilisées d'une manière si intensive – et de plus en plus systématique – par les physiciens, depuis quelques années, que l'on peut parler d'un véritable tournant dans l'histoire physique. Ces techniques se révèlent particulièrement efficaces là où les outils mathématiques classiques montrent leurs limites, notamment lorsqu'il s'agit de problèmes complexes, impliquant de très grands degrés de liberté (grande dimension). Or, il se trouve que, dans ce cas de figure, le deep learning est particulièrement efficace, d'où son ubiquité dans tous les champs de la physique. Au-delà des applications qui peuvent paraître aujourd'hui triviales, comme la détection d'objets célestes (nouvelles galaxies, etc.) [4] ou de particules élémentaires (boson de Higgs, etc.) [5], l'utilisation la plus emblématique du deep learning en physique est sans doute celle qui concerne les problèmes dits à N-corps (un grand nombre d'objets interagissant mutuellement), en particulier en mécanique quantique, lorsqu'il s'agit par exemple de modéliser la fonction d'onde d'un système composé d'un grand nombre de particules élémentaires [6] – des problèmes qui nécessitent finalement des calculs intensifs. Un peu plus inattendu, et plus fondamental, le deep learning s'avère aussi adapté à des problèmes mettant en jeu des aspects qualitatifs, comme la conservation de certains invariants (énergie, etc.) [7]; ce point est au cœur des fondements même de la physique.
L'efficacité du deep learning dans la modélisation des problèmes complexes, impliquant de grandes dimensions, reste un mystère non encore élucidé. Il n'est pas clair en particulier pourquoi les modèles de deep learning arrivent à, partir des données brutes, à implémenter tout seuls la bonne fonction d'approximation – qui va par exemple identifier un chat sur une image ayant des milliers de pixels – parmi le nombre quasiment infini de fonctions possibles, d'un point de vue purement combinatoire. Les investigations tendent de plus en plus, depuis quelques années, à considérer que la réponse à cette question est à chercher non pas dans les mathématiques du deep learning, mais dans la physique de l'univers. Il s'avère ainsi que les modèles de deep learning n'ont en réalité pas besoin de chercher la bonne fonction d'approximation parmi un nombre de fonctions quasiment infini, mais dans un ensemble beaucoup plus restreint ; et ceci trouve son explication par le fait que les lois qui gouvernent l'univers sont naturellement parcimonieuses (il y a un nombre très restreint de fonctions d'énergie possible) [8]. Et c'est précisément ce caractère parcimonieux qui rend à la fois le monde intelligible par les humains – donc modélisable par les physiciens – et accessible à l'approximation par les techniques de deep learning. Finalement, cela nous dit que si le monde est modélisable, c'est parce qu'il a une certaine structure et un sens, car de ce qui n'a pas de sens il n'y a absolument rien à apprendre.
[1] Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical review, 106(4), 620.
[2] Blower, D. J. (2004, April). An easy derivation of logistic regression from the Bayesian and maximum
entropy perspective. In AIP Conference Proceedings (Vol. 707, No. 1, pp. 30-43). American Institute
of Physics.
[3] Jaakkola, T., Meila, M., & Jebara, T. (1999). Maximum entropy discrimination.
[4] González, R. E., Munoz, R. P., & Hernández, C. A. (2018). Galaxy detection and identification using
deep learning and data augmentation. Astronomy and computing, 25, 103-109.
[5] Baldi, P., Sadowski, P., & Whiteson, D. (2015). Enhanced Higgs boson to τ+ τ− search with deep
learning. Physical review letters, 114(11), 111801.
[6] Cai, Z., & Liu, J. (2018). Approximating quantum many-body wave functions using artificial neural
networks. Physical Review B, 97(3), 035116.
[7] Zhong, Y. D., Dey, B., & Chakraborty, A. (2019). Symplectic ode-net: Learning hamiltonian dynamics
with control. arXiv preprint arXiv:1909.12077.
[8] Lin, H. W., Tegmark, M., & Rolnick, D. (2017). Why does deep and cheap learning work so
well?. Journal of Statistical Physics, 168(6), 1223-1247.
Aidez-nous à déterminer le niveau de lecture: