Quelles sont les compétences nécessaires pour être data scientist?

23 juin 2020

Avec l’article sur « La Data science, c'est quoi ? », se pose la question suivante, quelles sont les compétences nécessaires pour aborder cette transition inéluctable ?

Voyons ensemble les 4 composantes principales des futurs experts en big data :

  • Le savoir,
  • Le savoir-faire,
  • Le savoir-être,
  • Le faire savoir.

Concernant le savoir, le Cross-Industry Standard Process for Data Mining (CRISP-DM) est au big data ce que le DMAIC est au LEAN 6 SIGMA. Il éclaire donc déjà sur les différentes étapes pour mener à bien un tel projet avec un processus clair :

  • Une phase de compréhension métier : un(e) data scientist a, par excellence, une orientation résultats et sera interdépendant(e) des autres experts métiers de son entreprise tant dans la définition des objectifs que dans la conduite du projet. Bref, pour faire parler les « datas », le(la) data scientist devra avant tout faire parler les experts
  • Une phase de compréhension des données : un(e) data scientist sera souvent sur le terrain pour comprendre les anomalies remontées, les valeurs manquantes et procédera au nettoyage nécessaire.
Picture1
  • Une phase de préparation des données : ici c’est l’art du featuring engineering qui consiste à opérer à des regroupements de variables ou à pré-processer les datas afin de faciliter les analyses à venir.
Picture2
  • Une phase de modélisation : ici, c’est le cœur d’activité des data analystes qui vont utiliser du machine learning ou du deep learning suivant la sensibilité du sujet, avec toute une palettes d’algorithmes possibles. Ils auront la possibilité de choisir entre de l’apprentissage supervisé (on connait la cible à atteindre), l’apprentissage non supervisé (on n’a pas de cible), l’apprentissage par renforcement (on donne une récompense quand on trouve, principe utilisé dans le domaine des jeux vidéos par exemple).
  • Une phase d’évaluation : le/la data scientist recherchant avant tout l’efficacité, elle/il privilégiera avant tout une validation en boucle courte (sur une ligne, sur un jeu de datas) avant de déployer sur le terrain.
  • Une phase de déploiement : ici, la compréhension de la façon dont fonctionnent les réseaux et les serveurs (Spark, Hadoop, etc..) sera clef pour optimiser le résultat de la phase de modélisation. En un mot, un(e) bon(ne) data scientist sait déjà comment elle/il mettra en œuvre son modèle dès le début, rien qu’en « rentrant » dans son dataset. C’est là le cœur de la compétence : un profil multiple qui va combiner les différentes phases dans une approche processus (par excellence Lean !) et qui se projette toujours vers l’atteinte du résultat au plus vite. En ce sens, un(e) data scientist se distingue d’un « pur » statisticien(ne) par une vision « pas parfaitement académique » mais plutôt tournée vers une approche la plus idoine tout en soulignant l’erreur trouvée dans le laps de temps imparti (donc la notion de transparence est essentielle, voire obligatoire ! Par exemple, en reconnaissance faciale qui fait intervenir des réseaux de neurones artificiels, le taux d’erreur peut aller jusqu’à 15 % suivant la couleur de la peau, cela doit être intégré dans toute décision…). Certains outils (comme GOOGLE AUTO TABLE ML) proposent de rentrer un « dataset » et vous demandent le temps dont vous disposez pour faire tourner en parallèle des serveurs avec des algorithmes différents pour ensuite les comparer et vous proposer au final le plus « précis ».
Picture3
  • Ces outils permettent à des non codeurs(ses) d’avoir accès à des résultats rapidement en machine learning sans passer par du code (PYTHON ou R par exemple) qui reste l’apanage des datas scientists. Ils permettent une bonne démocratisation de l’IA notamment dans le domaine industriel. Un(e) data scientist aura aussi un rôle clef de diminuer les datas transitant dans des serveurs dans un soucis environnemental (moins de consommation électrique et moins de refroidissement à prévoir) (en un mot de passer du « big » datas au « bit » datas) et saura résister à la « tentation » d’utiliser in-extenso tous les algorithmes existants, la plupart étant tombés dans le domaine public donc disponibles sur étagère gratuitement, aiguisant par la pratique sa détection des plus adaptés à ses cas concrets.

Concernant le savoir-faire, c’est là l’essence même d’un(e) data scientist : elle/il pratique avant tout sur des datasets encore et toujours. Mieux, elle/il avance avec son projet dans toutes les dimensions : prototypages, « bricolages » de solutions, tests en boucles courtes et surtout se forme elle/lui-même sur les meilleures techniques avec des tutoriels sur internet, des MOOC (Fun-MOOC, OpenClassrooms, etc…), des librairies déjà disponibles (dont les plus connues sont TensorFlow, Scikit-Learn, Plotly) en codant avec des langages open source ! D’ailleurs, un(e) data scientist applique le learning by project : elle/il apprend « avec » son projet et n’a pas d’idée pré-conçue avant de se confronter à son dataset, elle/il sait qu’elle/il pourra, après quelques recherches, utiliser les développements des autres déjà opérés dans son domaine applicatif dont le fameux « deep learning » (réseaux de neurones artificiels) qui continue d’évoluer activement.
L’arsenal algorithmique est assez impressionnant à maitriser : classification naïve bayésienne, régressions linéaire et logistique, méthode des plus proches voisins, arbres de décision (CART (dernièrement intégré dans Minitab), Random forest, gradient boosting), machines à vecteurs de support et méthodes à noyaux, etc…

Picture4

Un point important porte aussi sur le clustering, science qui consiste à rechercher les affinités sans fixer de cible, offrant un domaine de recherche à l’avenir car il ne nécessite pas d’entraîner un modèle (un exemple concret est l’émission sur M6 : « mariés au premier regard » basé sur ce type d’algorithmique).

Picture5

Concernant le savoir-être, un(e) data scientist fait partie de la génération Millénium, donc plutôt « geek ». Il/elle ne recherche pas fondamentalement l’évolution hiérarchique, ni même pas la reconnaissance au mérite mais plutôt de « vivre » une expérience en tout instant. En clair, ce qui fait « tenir » un(e) data scientist, c’est l’intérêt même de sa mission qu’elle/il est en train d’effectuer, pas les promesses de demain ou encore moins les perspectives d’avoir une promotion par la suite. C’est une motivation qui vient du dataset lui-même ! Pour ceux qui ont connu de vrais profils similaires, ils sont faciles à repérer : ce sont ceux qui mangent des pâtes sur un parking plusieurs journées d’affilée sans vouloir être dérangés tant qu’ils n’auront pas fini leurs missions…

pasta-527286_1920

Concernant le faire-savoir, une fois de plus, c’est dans le challenge de se confronter aux datas qui suscitera l’intérêt d’un(e) réel(le) data scientist. Evidemment, cette passion se vit sur les plateformes de challenges data comme la plus répandue (kaggle.com), ou même sur le site du collège France (challenge data). De nombreux salons ont lieu régulièrement comme https://aiparis.fr/2020/ ou https://www.bigdataparis.com/2020/newsletters/ qui regroupent la plupart des entreprises opérant dans ce secteur. La démocratisation des formations passe par des bootcamps comme par exemple sur LYON ou PARIS : https://jedha.co/lyon/. Tout cela montre que c’est dans la confrontation avec la data qui reste le moteur de la data science !
Les data scientists sont évidemment intéressés par des challenges de développement chez les GAFAM, mais sont aussi très friands de cas concrets tirés des vraies difficultés industrielles comme la réduction des scraps ou l’augmentation du TRP, qui sont de plus en plus demandées dans l’industrie.

Conclusion :

La manipulation de données ne s’improvise pas et demande une vraie expérience et de multiples compétences pour les maitriser.

Picture7

A l’instar de la certification Lean 6 Sigma, les auteurs recommandent une certification en big data qui permettrait de valider une dextérité à la manipulation de jeux de données, éprouvée par la réussite de plusieurs projets. Plus précisément, les auteurs se montrent particulièrement intéressés par développer en France une certification indépendante en big data, data mining, data analytics, machine learning et deep learning, tout particulièrement appliquée au monde industriel, qui combine une maitrise IT de mise en œuvre des serveurs et des clouds, une facilité à « broder » des codes et des algorithmes en exploitant des librairies déjà prêtes et une capacité phénoménale à aller chercher du résultat d’une manière pragmatique et passionnée en travaillant en équipe et en favorisant une expérience unique d’exploration des données à chaque cas différent.
La data science sera au final sans doute divisée entre deux mondes : ceux qui utiliseront des softwares (les industriels par exemple) aux interfaces soignées (Salford SPM de Minitab, Weka, Auto table ML, etc…) et de plus en plus abouties et ceux qui les coderont (les « vrais » data scientists).

Si vous souhaitez contribuer à ce projet ou « cracker de la data », n’hésitez pas à nous rejoindre dans cette aventure !

  • UL6S
    40 rue des Arts
    94170 Le Perreux-sur-Marne

  • +33 (0)6 07 23 00 12

  • contact@ul6s.com

No Spam

24 septembre de 9h30 à 12h00 :
Dans le cadre de la transformation Digitale dans l’industrie, Les fondamentaux pour déployer – L’expérience de Schneider Electric


« Data Driven Factories »

Votre demande d'inscription a bien été prise en compte.

 

Voici votre lien de connexion

 

https://us02web.zoom.us/j/83700093866?pwd=R3BNS3VKNW1mcVN0MVdHWkthRENmZz09

« Data Driven Factories »

No Spam

9 juillet de 9h30 à 12h00 :
DATA ANALYTICS

Comment la data accélère la performance opérationnelle dans l’usine digitale du futur ?
 

Votre demande d'inscription a bien été prise en compte.

 

Pour recevoir le lien de connexion, veuillez s'il vous plaît vous rendre dans votre messagerie et valider votre adresse email.

Nous nous réjouissons de vous rencontrer lors de cette web conférence.

 

Cordialement.

Comment la data accélère la performance opérationnelle dans l’usine digitale du futur ?
 

Retour haut de page