Dans le cadre d’une transition professionnelle, Cyrille, ingénieur de formation puis responsable marketing et entrepreneur a choisi de se former au métier de data scientist. Conscient de la demande croissante de ces profils, il décide d’ajouter une nouvelle compétence technique de plus en plus recherchée à son profil.
Après quelques jours d’investigation et de réflexion, des échanges fluides avec l’équipe d’admission sur son projet de formation, il opte pour la formation Data Scientist en mode bootcamp de 3 mois de mars à mai 2021.
De son côté Bastien est ingénieur en génie informatique et statistique de formation. Après 10 ans d’expérience dans le conseil en analytics et à la suite du retrait de son dernier employeur du marché français, il décide de mettre à profit son congé de reclassement pour monter en compétence dans le domaine de la data science. Son objectif : trouver un nouvel emploi dans un secteur qui l’a toujours intéressé sans pour autant avoir eu le temps d’acquérir les compétences nécessaires à son intégration. Il va également, sous les conseils d’un ancien collègue alumni de DataScientest, rejoindre les bancs de la promotion Bootcamp Data Scientist de Mars 2021.
Au cœur de ce programme intensif, un projet fil rouge sur la détection des prix des montres de luxe que Cyrille et Bastien vont réaliser en trinôme avec Allan Maintenant. Nous les avons rencontrés pour qu’ils nous en disent plus.
DataScientest : Pourquoi avoir choisi ce projet ?
C : Lors de la phase de sélection des projets, je suis tombé sur celui qui deviendrait notre projet : définir un modèle de prédiction du prix de montres de luxe.
2 points ont orienté mon choix:
- Je suis un fan absolu et collectionneur de montres
- Projet proposé par une entreprise, il sera l’occasion de faire un premier pas dans le monde professionnel de la data science.
B: Parmi les projets qui nous ont été proposés, l’un à rapidement attiré mon attention. En effet, celui-ci était d’une part, proposé par une entreprise et pouvait donc correspondre à des problématiques du monde réel. D’autre part, il traitait de montres de luxe et je suis moi même amateur d’horlogerie.
DataScientest : Pouvez-vous revenir sur le déroulement du projet ?
C: Le jeu de données initial a été obtenu grâce aux informations qui ont été extraites de sites web professionnels de ventes aux enchères (collector square et chrono 24 ) . Nous avions donc à notre disposition de nombreux résultats avec des champs qualifiés (marque, modèle, année, …) et une description non qualifiée. (N.B : Ce projet étant un partenariat avec une start-up basée à Paris, le jeu de données est confidentiel et a donné lieu à la signature d’un NDA.)
Concernant le projet lui-même, une grosse partie du travail a été de nettoyer le jeu de données pour le rendre utilisable au mieux pour les modèles de machine learning que nous avons utilisés par la suite.
Nous avons choisi comme hypothèse de base que le prix d’une montre est défini par ses caractéristiques : marque, modèle, fonctionnalité et matériaux la composant. Ce sont les variables que nous avons utilisées pour entraîner nos modèles de machine learning.
Notre objectif étant la définition d’un prix, les modèles de machine learning correspondant sont des modèles de régression. Nous avons travaillé sur un grand nombre de modèles en optimisant les hyperparamètres par le biais de cross validation et de grid search.
Les modèles testés ont été nombreux : logistic regressor, KNN regressor, Random Forest Regressor, XG Boost ainsi que des réseaux de neurones denses.
Après avoir choisi les modèles les plus robustes, nous avons finalisé notre projet en créant une application sur streamlit permettant de donner l’estimation du prix de vente d’une montre de luxe en fonction de ses caractéristiques intrinsèques : marque, modèle, décennie de fabrication, matériau du bracelet et du boîtier.
B: Pour mener à bien ce projet, nous avons tout d’abord du explorer les données, définir des stratégies pour la prise en compte et le nettoyage de chacune des variables disponibles. Nous avons ensuite été amené à tester de nombreux modèles de Machine Learning et de Deep Learning et à les challenger les uns par rapport aux autres afin d’obtenir le modèle le plus performant possible. Tout ceci nous a demandé à chacun environ 120h de travail, qui furent très enrichissantes tant pour la mise en application de nos nouvelles compétences que pour le travail sur un sujet réel, correspondant à une problématique à laquelle fait fasse une entreprise.
Quel a été le suivi de la part de DataScientest et de l’entreprise tout au long du projet ?
C: Durant ce projet, nous avons eu plusieurs jalons :
- une réunion hebdomadaire avec notre chef de projet , Paul, qui nous a grandement accompagné à chaque étape et nous a fait bénéficier de ses connaissances pour nous guider au mieux.
- un point hebdomadaire entre nous 3 pour définir la répartition des tâches chaque semaine.
- deux visios avec les responsables projet dans l’entreprise pour faire le point sur nos avancées et que nous remercions de leur retour sur notre travail.
DataScientest : Quels sont les axes d’amélioration de votre projet ?
C: Nos modèles auraient pu être encore améliorés en travaillant sur des variables du dataset que nous avions laissé de côté lors du choix de nos hypothèses de base.
Par exemple, les pays où se situent les ventes aux enchères auraient pu être pris en compte car le comportement d’achat de produits de luxe telles que les montres peuvent différer que ce soit en Europe, aux US ou en Asie.
B: Pour aller plus loin sur ce projet, il aurait été intéressant, avec plus de temps, de travailler avec de nouvelles hypothèses en particulier en prenant en compte les estimations faites par les maisons de vente avant les enchères et qui sont apparues comme très impactantes sur le prix d’achat final.
DataScientest : Pour finir, quel est votre ressenti sur cette expérience ?
C: Nous avons passé 2 mois sur le projet , ce qui peut être court quand il faut cumuler la formation en mode accélérée et le travail sur le projet. Nous avons eu la chance d’être accompagnés par Paul de chez Datascientest qui a pu nous recommander les axes d’exploration à chaque étape. Il a su exactement nous motiver et nous donner confiance sur le travail effectué chaque semaine.
L’ intérêt principal d’un projet directement lié à une demande d’une entreprise est de travailler sur un jeu de données vierge de toute exploration et d’acquérir les bases de travail sur les datasets avant même la partie modélisation.
B: Je recommande à tous les futurs apprenants de Datascientest en data science, de travailler sur des projets proposés par des entreprises réelles. Cela leur permettra de se confronter à des problématiques réalistes qui incluent parfois des données à pré-traiter étant donné leur qualité, certains biais dans les variables à expliquer à gérer … le tout dans le but d’être le plus opérationnel possible dans son futur travail de data scientist.
Merci à Bastien et Cyrille pour leur témoignage et encore bravo au groupe pour leur travail sur le projet!
Leur projet vous intéresse ? Contactez-les !
Vous souhaitez vous former en data science et réaliser un projet sur des données d’entreprise ? N’attendez plus et rejoignez notre prochain lancement !