Depuis quelques années ce terme de Data science (ou science des données en français) est présent dans de très nombreux médias, mais que cache-t-il exactement ?
La première fois que l’on a parlé de Data science, c’était en 1992, lors d’un colloque sur les statistiques en France. À cette époque-là, on résumait l'analyse de données aux statistiques. Il faut se rappeler que ce domaine était réservé à des spécialistes. Les outils pour réaliser ce type d’étude étaient chers, complexes à mettre en œuvre et il était réservé à des spécialistes …les statisticiens.
La source principale pour réaliser des études statistiques ce sont les données. Depuis cette époque-là, la quantité de données qui nous entourent a explosé. Internet, smartphones, réseaux sociaux, digitalisation, numérisation des fonctions publiques d’Etats, scan d’anciens documents, objets connectés… Tous ces éléments ne sont plus forcément que des valeurs qualitatives ou quantitatives, on peut parler ici d’images, de vidéos, de sons, d'émotions, de ressentis … Toutes ces informations qui nous entourent peuvent-être stockées pour mieux nous comprendre ainsi qu’anticiper nos éventuelles réactions. Tous ces vecteurs permettent de récupérer les données qui pourront le cas échéant être traitées et analysées.
Le stockage des données est l'une des clés de la réussite de la data science. Depuis quelques années de nouvelles façons de stocker les données sont apparues, pour qu'elles prennent moins de place, qu'elles soient disponibles plus rapidement et plus facilement. On entend actuellement parler de bases de données NoSQL, des bases de données « Graph », de stockage au format JSON… L'architecture du stockage des données évolue pour les rendre plus disponibles.
Une nouvelle façon de stocker les données est apparue depuis quelque temps, le stockage sur des clouds (nuages), comme sur AWS (Amazon web services), Microsoft Azure, Google cloud … Cette façon de stocker des données permet de les rendre plus facilement accessibles et cela évite les problématiques de réseau, de transfert d'informations et de sécurité. Ces outils ne permettent pas que de faire du stockage de données, il permet aussi de faire du traitement et de l'analyse de ces données.
Avec la loi de Moore, on sait que, depuis le début des années 70, la puissance de calcul double tous les 2 ans en moyenne. Les outils informatiques que nous avons sont donc de plus en plus puissants ce qui permet de toujours stocker plus d'informations et de les analyser toujours plus vite. En parallèle, la puissance des réseaux internet a été améliorée grâce à la multiplication des technologies de fibre optique qui permettent d'échanger toujours plus rapidement des informations à travers le monde.
L'ensemble des éléments sont réunis, les données sont remontées puis stockées, des algorithmes plus complexes sont utilisables plus facilement comme les random forest ou des réseaux de neurones artificiels grâce à l’augmentation de la puissance de calcul. Nous sommes passé du data mining au machine learning. Les données sont la matière première de la data science. Une fois que ces données sont disponibles et organisées correctement, il est possible de les agréger, de les rendre visuelles et de les analyser pour ensuite en tirer des conclusions. Le rôle de ces algorithmes est de nous aider à prendre des décisions en s'appuyant sur des faits (transformés en données) et sur le passé, on parle ici d'intelligence artificielle.
La plus grande différence entre le data mining et le machine learning, c’est le fait d'avoir des algorithmes autoapprenants, c'est-à-dire qu’une fois qu’un premier modèle mathématique a été créé sur les données initiales, il va évoluer, s'améliorer pour devenir plus performant au fur à mesure de l’arrivée de nouvelles données. Ce qui n'était pas le cas sur les modèles de data mining.
Que cela soit dans le monde des services, de l'industrie, de la finance, les données sont présentes partout, elles sont de plus en plus souvent stockées dans des clouds et les outils pour pouvoir les traiter sont de plus en plus accessibles. La data science n'est plus réservée qu’à des secteurs spécialisés, il est désormais possible de l'utiliser partout !