Projet Data: Les 5 étapes cruciales

-
4
 m de lecture
-

Débuter en data science c’est immanquablement se lancer dans la réalisation de projets qui peuvent prendre du temps. Comme tout projet il faut savoir s’organiser, prioriser les tâches et se fixer des étapes pour pouvoir en suivre l’évolution et rectifier la donne si besoin. 

D’après un proverbe chinois, l’expérience est un peigne pour les chauves. Chez DataScientest, nous nous en servons pour vous fournir les meilleures astuces comme ces 5 étapes qui vous guideront pas à pas dans tous vos projets Data !

1. Saisir les tenants et aboutissants

Avant de vous lancer dans le code où l’obtention des données, il faut d’abord prendre le temps nécessaire pour comprendre et appréhender la problématique posée

Quel est l’objectif de ce projet ? Y-a-t-il déjà eu un travail réalisé sur le sujet? Vais-je devoir travailler seul(e) ou bien solliciter les membres de différents services ? Mes résultats doivent-ils être immédiatement utilisés ou s’insèrent-ils dans un projet plus vaste ? Ai-je fait des hypothèses sur mes données, leur format et les ai-je vérifiées ? 

Il est primordial d’anticiper ce genre de questions pour éviter les mauvaises surprises au cours du projet et évaluer au mieux le temps nécessaire pour y parvenir à bout. Par exemple si vous êtes amené à travailler avec plusieurs équipes, il faudra réfléchir au meilleur moyen de coordonner vos actions. Aussi, il se peut qu’un format précis soit attendu en ce qui concerne le livrable, il faudra en tenir compte lors de votre modélisation.

Un moment de réflexion préalable sur la nature du problème et la méthode d’évaluation à choisir est également indispensable à tout bon démarrage : 

Suis-je dans un problème de classification supervisée ,non supervisée, semi supervisée ? un problème de régression ?  Quelle métrique choisir ? RMSE*? accuracy ?

Encore une fois, il s’agit de préparer le terrain au mieux,  étape cruciale pour aborder votre projet avec le bon angle d’attaque. Dernière chose à garder à l’esprit avant de se lancer: le matériel à disposition . 

Quelle machine pour quel temps de calcul ? Inutile par exemple de proposer une solution qui va mettre toute une journée à tourner.

2. Récupérer et explorer les données

Au moment de récupérer les données sur lesquelles vous allez travailler assurez-vous en priorité que vous bénéficiez de l’environnement de travail optimal : Avez-vous bien tous les packages dont vous avez besoin ? On peut être amené à travailler sur plusieurs projets à la fois nécessitant plusieurs environnements. Si vous avez peur de créer des conflits n’hésitez pas à créer des environnements virtuels isolés. 

Une fois que vous avez vérifié votre environnement de travail il est temps de télécharger et explorer les données. 

  1. Une analyse descriptive et visuelle est cruciale pour comprendre la structure, les forces et les faiblesses de votre jeu de données.
  2. Il faut repérer les types de variables dont vous disposez (qualitatives, quantitatives) et ne pas hésiter à regarder si il n’y a pas de combinaisons prometteuses à tester pour votre modèle.
  3. Enfin pensez à étudier les corrélations entre les différentes variables, cela vous aidera à comprendre vos données dans leur globalité.

3. Préparer vos bases de travail

Pour tout projet de data science vous serez généralement amené à séparer votre base de données en deux : une base d’entraînement et une base test. Cette stratégie permet de vérifier l’efficacité de votre modèle.

Il est fortement possible que vos données telles quelles ne permettent pas de les modéliser, à vous de savoir les transformer. Pour cela, il faut prioriser la gestion des valeurs manquantes et en définir une stratégie. Ici encore, il s’agit de se poser les bonnes questions:  

Ai-je des Nans* dans les variables quantitatives ? Si oui quelle proportion pour chaque variable ? Quel est mon seuil d’exclusion ? Par quoi remplir mes Nans sans mettre en danger mon modèle ? 

Il faudra faire de même avec les variables qualitatives. Il sera nécessaire de transformer vos variables catégorielles en utilisant des méthodes de discrétisation.

Enfin les algorithmes de Machine Learning ne fonctionnant pas toujours convenablement avec des variables numériques dont les échelles sont  différentes, il faudra les recalibrer à l’aide d’une transformation min-max ou de normalisation.

4. Sélectionner et entraîner un modèle

Une fois vos données prêtes vous pouvez vous lancer dans la modélisation. Scikit-Learn met à disposition un multitude de méthodes de régression, de classification et d’ensemble. Le choix du modèle est évidemment à réaliser en fonction de la problématique donnée. 

Il sera sans doute nécessaire de vous replonger dans la première étape en élucidant la question sur la nature du problème. Ensuite évidemment il n’existe pas un unique algorithme de régression ou de classification. Vous avez deux possibilités : 

  1. Tous les tester et prendre le plus performant (Sans doute trop coûteux) 
  2. Arbitrer sur celui à tester en fonction de vos données et des ressources à disposition

Une fois que vous avez choisi votre modèle se posera la question du paramétrage : comment optimiser les paramètres de l’algorithme pour limiter l’overfitting* ?  Envisager une recherche par quadrillage peut-être une solution mais elle peut se révéler également coûteuse en temps suivant vos ressources.

5. Évaluer vos résultats

Une fois votre modèle entraîné il va falloir évaluer son efficacité avec votre base test et la métrique que vous avez choisi à la première étape. 

Le résultat obtenu avec votre métrique vous satisfait-il ? Si non avez-vous la possibilité d’améliorer les résultats ? Pour répondre à cette question vous avez trois pistes : 

  • Le modèle: il n’est peut-être pas adapté à ce que vous voulez faire. Il ne faut pas hésiter à explorer d’autres pistes.
  • Les paramètres de votre modèle : ils ne sont peut-être pas optimisés ce qui nuit à sa performance.
  • Les données : Si vous êtes sûr(e) du choix de votre algorithme alors peut-être avez-vous besoin d’enrichir vos données pour améliorer les performances de votre modèle.

Ces 5 étapes sont à voir comme des points de repère quand vous travaillez sur un projet. Suivant les aléas vous devrez reconsidérer certaines étapes. Il ne faut pas hésiter à faire des allers-retours entre ces dernières.

Vous souhaitez réaliser un projet data dans le cadre d’une formation certifiante ? Vous souhaitez monter en compétences en Data Science en étant guidé par des experts ? N’hésitez plus, consultez nos prochaines dates de lancements ou contactez-nous pour plus de renseignements ! 

Facebook
Twitter
LinkedIn

DataScientest News

Inscrivez-vous à notre Newsletter pour recevoir nos guides, tutoriels, et les dernières actualités data directement dans votre boîte mail.

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone
icon newsletter

DataNews

Vous souhaitez recevoir notre
newsletter Data hebdomadaire ?