Projet Data: Les 5 étapes cruciales

projet data
Temps de lecture : 4 minutes
Share on facebook
Share on twitter
Share on linkedin
Share on email

Débuter en data science c’est immanquablement se lancer dans la réalisation de projets qui peuvent prendre du temps. Comme tout projet il faut savoir s’organiser, prioriser les tâches et se fixer des étapes pour pouvoir en suivre l’évolution et rectifier la donne si besoin. 

D’après un proverbe chinois, l’expérience est un peigne pour les chauves. Chez DataScientest, nous nous en servons pour vous fournir les meilleures astuces comme ces 5 étapes qui vous guideront pas à pas dans tous vos projets Data !
projet data

1. Saisir les tenants et aboutissants

Avant de vous lancer dans le code où l’obtention des données, il faut d’abord prendre le temps nécessaire pour comprendre et appréhender la problématique posée

Quel est l’objectif de ce projet ? Y-a-t-il déjà eu un travail réalisé sur le sujet? Vais-je devoir travailler seul(e) ou bien solliciter les membres de différents services ? Mes résultats doivent-ils être immédiatement utilisés ou s’insèrent-ils dans un projet plus vaste ? Ai-je fait des hypothèses sur mes données, leur format et les ai-je vérifiées ? 

Il est primordial d’anticiper ce genre de questions pour éviter les mauvaises surprises au cours du projet et évaluer au mieux le temps nécessaire pour y parvenir à bout. Par exemple si vous êtes amené à travailler avec plusieurs équipes, il faudra réfléchir au meilleur moyen de coordonner vos actions. Aussi, il se peut qu’un format précis soit attendu en ce qui concerne le livrable, il faudra en tenir compte lors de votre modélisation.
Un moment de réflexion préalable sur la nature du problème et la méthode d’évaluation à choisir est également indispensable à tout bon démarrage : 

Suis-je dans un problème de classification supervisée ,non supervisée, semi supervisée ? un problème de régression ? Quelle métrique choisir ? RMSE*? accuracy ?

Encore une fois, il s’agit de préparer le terrain au mieux,  étape cruciale pour aborder votre projet avec le bon angle d’attaque. Dernière chose à garder à l’esprit avant de se lancer: le matériel à disposition . 
Quelle machine pour quel temps de calcul ? Inutile par exemple de proposer une solution qui va mettre toute une journée à tourner.

2. Récupérer et explorer les données

Au moment de récupérer les données sur lesquelles vous allez travailler assurez-vous en priorité que vous bénéficiez de l’environnement de travail optimal : Avez-vous bien tous les packages dont vous avez besoin ? On peut être amené à travailler sur plusieurs projets à la fois nécessitant plusieurs environnements. Si vous avez peur de créer des conflits n’hésitez pas à créer des environnements virtuels isolés
Une fois que vous avez vérifié votre environnement de travail il est temps de télécharger et explorer les données. 
  1. Une analyse descriptive et visuelle est cruciale pour comprendre la structure, les forces et les faiblesses de votre jeu de données.
  2. Il faut repérer les types de variables dont vous disposez (qualitatives, quantitatives) et ne pas hésiter à regarder si il n’y a pas de combinaisons prometteuses à tester pour votre modèle.
  3. Enfin pensez à étudier les corrélations entre les différentes variables, cela vous aidera à comprendre vos données dans leur globalité.

3. Préparer vos bases de travail

Pour tout projet de data science vous serez généralement amené à séparer votre base de données en deux : une base d’entraînement et une base test. Cette stratégie permet de vérifier l’efficacité de votre modèle.
Il est fortement possible que vos données telles quelles ne permettent pas de les modéliser, à vous de savoir les transformer. Pour cela, il faut prioriser la gestion des valeurs manquantes et en définir une stratégie . Ici encore, il s’agit de se poser les bonnes questions:  

Ai-je des Nans* dans les variables quantitatives ? Si oui quelle proportion pour chaque variable ? Quel est mon seuil d’exclusion ? Par quoi remplir mes Nans sans mettre en danger mon modèle ? 

Il faudra faire de même avec les variables qualitatives. Il sera nécessaire de transformer vos variables catégorielles en utilisant des méthodes de discrétisation.
Enfin les algorithmes de Machine Learning ne fonctionnant pas toujours convenablement avec des variables numériques dont les échelles sont  différentes, il faudra les recalibrer à l’aide d’une transformation min-max ou de normalisation.

4. Sélectionner et entraîner un modèle

Une fois vos données prêtes vous pouvez vous lancer dans la modélisation. Scikit-Learn met à disposition un multitude de méthodes de régression, de classification et d’ensemble. Le choix du modèle est évidemment à réaliser en fonction de la problématique donnée.
Il sera sans doute nécessaire de vous replonger dans la première étape en élucidant la question sur la nature du problème. Ensuite évidemment il n’existe pas un unique algorithme de régression ou de classification. Vous avez deux possibilités : 
  • Tous les tester et prendre le plus performant (Sans doute trop coûteux) 
  • Arbitrer sur celui à tester en fonction de vos données et des ressources à disposition
Une fois que vous avez choisi votre modèle se posera la question du paramétrage : comment optimiser les paramètres de l’algorithme pour limiter l’overfitting* ?  Envisager une recherche par quadrillage peut-être une solution mais elle peut se révéler également coûteuse en temps suivant vos ressources.

5. Évaluer vos résultats

Une fois votre modèle entraîné il va falloir évaluer son efficacité avec votre base test et la métrique que vous avez choisi à la première étape. 
Le résultat obtenu avec votre métrique vous satisfait-il ? Si non avez-vous la possibilité d’améliorer les résultats ? Pour répondre à cette question vous avez trois pistes : 
  • Le modèle: il n’est peut-être pas adapté à ce que vous voulez faire. Il ne faut pas hésiter à explorer d’autres pistes.
  • Les paramètres de votre modèle : ils ne sont peut-être pas optimisés ce qui nuit à sa performance.
  • Les données : Si vous êtes sûr(e) du choix de votre algorithme alors peut-être avez-vous besoin d’enrichir vos données pour améliorer les performances de votre modèle.
Ces 5 étapes sont à voir comme des points de repère quand vous travaillez sur un projet. Suivant les aléas vous devrez reconsidérer certaines étapes. Il ne faut pas hésiter à faire des allers-retours entre ces dernières.

Vous souhaitez réaliser un projet data dans le cadre d’une formation certifiante? Vous souhaitez monter en compétences en Data Science en étant guidé par des experts ? N’hésitez plus, consultez nos prochaines dates de lancements ou contactez-nous pour plus de renseignements ! 

*RMSE= Root Mean Square Error (Erreur quadratique moyenne) 
Nan= Not a number 
Overfitting= Sur-apprentissage
actualités datascience
Actualité Externe

L’actualité en image #DataLeague1

Premier volet de notre DataOpus On vous présente aujourd’hui notre rubrique Actualités Externes #DataOpus qui sélectionne pour vous les meilleures news Data de la semaine.

Lire plus »
Dossiers grand public

Ethique ou Big Data

Comment faire prévaloir une question d’éthique en matière de données alors que la concurrence se veut mondiale ? Les européens doivent-ils se soumettre à une concurrence américaine et asiatique déloyale pour une question d’éthique ?

Lire plus »
Fermer le menu