Immersion dans la journée type d’un Data Scientist

-
5
 m de lecture
-
data scientist

Enquête exclusive: À quoi ressemble le quotidien d'un Data Scientist ?

Nombreux sont ceux qui fantasment sur le métier de Data Scientist, sans toujours saisir les missions attribuées à ce poste. 

Que fait concrètement un Data Scientist ? Comment s’organise la journée de ce maître des données ?

C’est pour élucider ce mystère que nous avons suivi durant une journée complète Daniel, Data Scientist depuis 3 ans au sein de datascientest.com

Au coeur de l'action : Vivez cette journée en vidéo

9h – 10h : Coup d’envoi

C’est le coup d’envoi d’une journée qui s’annonce riche et passionnante, Daniel a rendez-vous avec l’équipe « Data Science » afin de mettre en place l’objectif de la journée. Challenge actuel de l’équipe: mettre au point une IA capable de prédire les variations d’un indice boursier.

Nous allons donc aujourd’hui nous plonger dans le quotidien de Daniel au travers de cette problématique passionnante qu’est le Machine Learning appliqué à la finance.

Dans un premier temps, Daniel veut être sûr de bien comprendre l’objectif car notre Data Scientist expérimenté le sait:  la réussite de ce projet repose essentiellement sur la compréhension de tous les paramètres à prendre en compte, se précipiter engendrerait un échec garanti… 

Après plusieurs heures d’échange avec ses collègues, Daniel se sent enfin prêt, il dispose de tous les outils nécessaires pour débuter cet ambitieux projet.  Que le travail commence !

10h – 11h : Compréhension de la problématique métier

Après s’être fait une première idée de la faisabilité du projet, Daniel pense mettre en place une application simple d’utilisation qui permettra à n’importe quel utilisateur, expérimenté ou non, de trader avec les conseils avisés de l’IA. 

Daniel consacre un temps préalable à se familiariser avec les notions et principes du monde dans lequel il va devoir réfléchir à un modèle: ici celui de la finance.  En effet, il paraît impossible pour un Data Scientist d’analyser des résultats sans comprendre leur signification. Dans un second temps, il identifie progressivement les différentes marches à suivre. Eh oui, le Data Scientist doit être patient pour offrir aux futurs users qui utiliseront son IA, une qualité indispensable et rare, la fiabilité.

11h – 12h : Collecte et exploitation des données

La première étape de ce long périple est la collecte du Data Set : jeu de données en français.  C’est tout l’ensemble des données que le Data Scientist va fournir en entrée à un modèle algorithmique lui permettant d’aboutir à une de prédiction

Ce Data Set est généralement divisé en 2 parties bien distinctes : 

  • 70% constituent le train set (jeu d’apprentissage en français) et vont servir à « apprendre » les paramètres du modèle. 
  • 30% composent le test set (échantillon test) et vont tester la performance des paramètres appris sur le train set. 

Toutefois, dans la majorité des cas, Daniel ne se préoccupe pas de la collecte des données. Les équipes de datascientest.com les lui fournissent à l’aide de diverses techniques comme le web scraping, technique permettant l’extraction des données d’un site via un programme, un logiciel automatique ou un autre site. 

12h – 13h : Préparation des données : compréhension, analyse et nettoyage

Une fois les données à disposition, Daniel prend le temps de les comprendre et de les analyser. Il se rend malheureusement compte que les données ne sont pas immédiatement exploitables. No worry… 

Les données initiales sont rarement utilisables sans les avoir nettoyées au préalable. Une des tâches les plus importantes du Data Scientist est justement ce qu’on appelle le Data Cleaning !


Par exemple, il n’est pas rare que les données contiennent plusieurs lignes identiques voir vides (gestion des NaN). Néanmoins, les langages informatiques que sont Python ou R permettent de pallier efficacement à ces types de problèmes spécifiques au Data Cleaning. 

Une fois cette étape effectuée, Daniel réalise une analyse visuelle, toujours à l’aide de Python, afin de mieux comprendre le Data Set. Pour ce faire, il doit maîtriser par exemple des librairies comme Matpolib ou Seaborn, très simples d’utilisation.

Cette étape de visualisation est indispensable au sens où elle va permettre à Daniel de s’approprier les données et surtout de s’assurer de leur fiabilité. En effet le Data Scientist doit toujours se méfier des données qu’il dispose pour savoir mettre de côté celles qui lui semblent inutiles ou aberrantes.

13h – 14h : Pause

Daniel rejoint ses collègues dans l’open space dédié à cet effet. Toutefois, il ne se déconnecte pas totalement de son nouveau projet qui le passionne et questionne ses collègues sur ses premières observations. Il interroge leur point de vue afin d’éventuellement envisager le problème sous un nouvel angle.

14h – 16h30 : Exploration des données et Modélisation

Les données désormais nettoyées et exploitables, commence le travail d’exploration des données.  

Son but est d’extraire les variables explicatives (ou features) les plus pertinentes pour la prédiction des variations d’un indice boursier et par conséquent de supprimer celles qui seront inutiles et/ou redondantes à l’aide d’une analyse des corrélations ou d’une réduction de dimensions via une ACP (analyse en composantes principales) par exemple. 

En effet, plus Daniel parviendra à identifier les features les plus pertinentes, plus son algorithme sera rapide et efficace.

Cette identification faite, Daniel va désormais utiliser un algorithme de Machine Learning capable de décider automatiquement de la hausse ou la baisse d’un indice boursier. Généralement, Daniel ne part pas de 0 (from scratch), il existe des algorithmes performants déjà pré-codés qu’on peut retrouver sur des modules comme Scikit Learn de Python.

Néanmoins, l’existence de ces algorithmes n’implique pas que le travail de Daniel s’arrête là, loin de là ! 

Daniel doit choisir parmi une centaine d’algorithmes disponibles, celui le plus adapté au problème. Même lorsque l’algorithme a été trouvé, il reste à déterminer les dizaines de paramètres optimaux afin que la prédiction soit la plus performante possible.

La question du choix des paramètres est justement une étape essentielle et dépend notamment du type de données que l’on dispose (textes, tableaux, images, données vocales, etc.), de leurs déséquilibres ou non (solution : sur/sous échantillonnage, changement adapté de la fonction de perte, etc.) ou encore de leurs volumétries (risque d’over/underfitting à gérer).

Aujourd’hui, du fait du grand volume des données et de la complexité du problème, Daniel a choisi d’utiliser un réseau de neurones convolutifs mais pas d’inquiétude, si les résultats ne sont pas convaincants, Daniel n’hésitera pas à changer de stratégie !

16h30 – 18h : Evaluation – Test

Après avoir mis en place le modèle, c’est l’heure du verdict, son algorithme va-t-il être performant ? Va-t-il donner un score de prédiction sur l’échantillon test à la hauteur ? Daniel pense avoir un premier résultat prometteur. “60% ce n’est pas mal mais on peut et on va faire mieux ! “ dit-il d’un ton enthousiaste. Il le sait, le potentiel de son algorithme pourrait attirer une vaste clientèle de professionnels

18h : Fin de journée

Daniel a enfin fini sa journée. Demain matin, il tentera d’améliorer les performances de son algorithme de prédictions. Pour ce faire, il a déjà une petite idée en tête : ajouter à ses données, une analyse des tweets en rapport avec le monde de la finance (techniques de text mining), ce qui selon lui permettra d’enrichir le Data Set initial et d’établir de nouvelles tendances. Il prévoit également pour le lendemain de s’occuper du déploiement c’est-à-dire la mise en production du modèle avec le Data Engineer de l’équipe.

Après avoir passé une journée en immersion avec Daniel, nous pouvons constater que le Data Scientist doit posséder des qualités techniques et humaines solides. Outre des compétences évidentes en statistique, programmation et Machine Learning, ce métier nécessite non seulement un esprit d’équipe irréprochable, mais aussi faire preuve d’intuition. 

L’intuition non seulement d’identifier rapidement par quel moyen une problématique doit être abordée mais surtout l’intuition de déterminer le modèle et les paramètres les plus adaptés. Ce qui est sûr, devenir Data Scientist ne s’improvise pas

C’est pour cette raison que nous avons créé un cursus Data Scientist avec des lancements de formations tous les mois au format Bootcamp ou continu ! 

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?