Olivier Matz
Capgemini - Artificial Intelligence Project Manager - Gagnant du concours 2020 DATA SCIENCE UL6S
De formation universitaire scientifique, j’ai découvert la data science durant mon doctorat en science des matériaux. En particulier, mon initiation à la data science a débuté par des problématiques simples comme la recherche de patterns et de corrélation entre des propriétés de matériaux en utilisant des méthodes de machine learning. J’ai poursuivi mon aventure dans le monde de la data science en m’attaquant à des problématiques plus complexes en appliquant des méthodes de deep learning sur des systèmes à trop grande dimensionalité pour être traités par des approches physiques. Véritable passionné d’Intelligence Artificielle, mais pas que, je m’intéresse également à la macrophotographie sous-marine, aux voyages et à la finance.
La data science étant à la fois un terme générique et un vaste domaine, ma pratique de cette dernière se concentre essentiellement à l’utilisation et au développement d’algorithmes de deep learning. Dans mon quotidien, je suis amené à manipuler différents types de données telles que des séries temporelles, des signaux, des images et du texte pour différentes problématiques comme la classification, la détection ou encore la prédiction. De nature curieuse, je passe une grande partie de mon temps à explorer les différents domaines du deep learning : l’apprentissage supervisé et non-supervisé, l’active learning, les GANs, les auto-encodeurs, les modèles ensemblistes et la data fusion. C’est principalement cette même curiosité qui m’a amené à réaliser le concours, aussi bien pour découvrir le type de questions que l’on retrouve pour évaluer le niveau d’un data scientist, que pour situer mon niveau de connaissance en data science par rapport à d’autres passionnés provenant de toute la France.
L’évolution sociétale que nous vivons depuis le début des années 2000 place les données au centre de notre quotidien, et affecte aussi bien notre mode de vie personnelle que professionnelle. En particulier, la digitalisation de notre quotidien a conduit à la création d‘un flux massif de données. Parallèlement à ça, les avancées scientifiques et technologiques de ces dernières décennies ont permis de développer des composants électroniques et du hardware capable de traiter des quantités de données toujours plus grandes (HDD, SDD, CPU, GPU, TPU, VPU, …). De nos jours, le traitement, l’exploitation et la compréhension de ces données représente un enjeu majeur pour les entreprises. Cependant, si les entreprises ont pris conscience de l’importance des données en digitalisant leur process et en acceptant la data science au sens du traitement statistique des données, il reste encore une phase d’acceptation de l’intelligence artificielle, dans un premier temps en tant que support d’aide à la décision, puis dans un second temps en tant que système décisionnaire autonome. En effet, les récentes avancées dans le domaine du machine learning et du deep learning ont offert d’immense opportunités, en particulier dans l’industrie pour des problématiques de maintenances prédictives, d’optimisation de process ou encore de virtualisation.
Par ailleurs, la communauté data science apparait comme l’une des plus active au monde et défend des valeurs de libre partage, aussi bien de code que d’avancées algorithmiques disruptives. C’est probablement l’une des raisons pour lesquelles la data science suscite autant d’engouement depuis ces dernières années. Parallèlement à ça, le développement d’outil tels que scikit-learn, TensorFlow ou encore PyTorch ont rendu l’utilisation de la data science accessible à tout le monde, faisant passer l’expertise métier ainsi que les bonnes pratiques au second rang derrière l’utilisation d’outils. Par ailleurs, la multiplication des formations et des certifications en ligne, bien qu’elles offrent du contenu de qualité et peuvent être d’une grande utilité aussi bien pour la compréhension théorique que pour l’utilisation d’outils, ne suffisent pas à garantir un certain de niveau de compétences opérationnelles et peuvent nuire à la réputation des data scientists. Dans ce contexte, je pense qu’il devient nécessaire de développer une certification indépendante en data science et en Intelligence Artificielle pour accorder de la crédibilité aux data scientists et salue l’initiative de l’UL6S dans son projet de certification indépendante française dans ces domaines.