datasets

Datasets : Top 5 des sites où trouver des jeux de données de qualité

Thibault V

Thibault V

3 min

Se lancer et se former dans la data aujourd’hui exigera de vous de solides compétences en mathématiques et l’étude d’un certain nombre d’algorithmes de Machine Learning et de Deep Learning.

Pour les comprendre et observer leurs performances vous aurez souvent besoin de vous exercer sur des jeux de données de qualité. Ce n’est pas toujours évident d’en trouver. Vous aurez peut-être l’occasion de disposer de données de qualité au cours de votre expérience professionnelle, mais si vous vous exercez en dehors de vos heures de travail vous aurez besoin de connaître des sources de données fiables.

Chez Datascientest nous vous proposons aujourd’hui notre Top 5 des sites où trouver des jeux de données – datasets – pertinents :

C’est l’incontournable en data pour tout spécialiste cherchant des jeux de données. 

Kaggle est une entreprise fondée en 2010 par Anthony Goldbloom et rachetée en 2017 par Google. C’est une plateforme Web organisant des compétitions en data. Le principe est assez simple : pour chaque compétition un organisateur met à disposition un jeu de données et la problématique considérée. Des Data Scientists sont invités à proposer des solutions en ayant recours à des algorithmes d’apprentissage automatique. Ceux qui obtiennent les meilleurs scores peuvent recevoir un prix.

L’intérêt de Kaggle est double : vous y trouverez des jeux de données de qualité mis en ligne par toutes sortes d’entreprises ou particuliers, et au travers de compétitions tester vos compétences en Machine Learning et Deep Learning contre d’autres Data Scientists chevronnés.

L’UCI Machine Learning Repository est un ensemble de base de données créé en tant qu’archive ftp (File Transfer Protocol) en 1987 David Aha et d’autres étudiants diplômés de l’Université d’Irvine. Depuis elle a largement été utilisée par des étudiants et des chercheurs du monde entier. La version actuelle du site web a été conçue en 2007 par Arthur Asuncion et David Newman.

Vous y trouverez un peu plus de 507 jeux de données dont certains populaires comme le Census income Data Set. Il est possible de filtrer les jeux de données pour trouver ceux qui correspondent à des problématiques qui vous intéressent dans des secteurs particuliers.

Par exemple vous pouvez chercher tous les jeux de données portant sur des problématiques de régression dans le domaine des sciences sociales.

Data World est un site sur lequel vous trouverez également de nombreux jeux de données d’organismes divers comme des gouvernements ou bien des administrations urbaines. Vous en trouverez sur des sujets variés comme l’économie, l’environnement, la santé  ou encore l’éducation. Vous pourrez également si vous le souhaitez déposer des jeux de données.

Data gouv est une plateforme qui héberge des données publiques et recense leurs réutilisations. Vous y trouverez de nombreux jeux de données sur l’actualité, sur les recensements de population, sur les communes ou sur l’immobilier. Etalab, un département de la direction interministérielle du numérique, développe et anime la plateforme.

L’objectif de la plateforme est de mettre à disposition librement l’ensemble des informations publiques de l’Etat, de ses établissements publics et, si elles le souhaitent, des collectivités territoriales et des personnes de droit public ou de droit privé chargées d’une mission de service public.

Quandl et Yahoo ont tous les deux développés deux API vous permettant d’avoir aisément accès à des données financières comme des cours de bourse en temps réel. Ils vous donnent également accès à une multitude d’informations financières avec des méthodes déjà implémentées et exploitables avec le langage python. Par exemple avec l’API de Yahoo finance vous aurez facilement accès aux moyennes mobiles, un indicateur souvent utilisé dans l’analyse technique permettant de supprimer les fluctuations transitoires pour analyser des tendances à plus long terme, avec les méthodes get_50day_moving_avg() ou get_200day_moving_avg().

Cet article vous a plu ? Découvrez vite notre top 5 des erreurs à ne pas commettre quand on commence en Python !


N’hésitez pas à découvrir nos offres de formation pour apprendre à manipuler et exploiter des modèles de Machine Learning sur des jeux de données pertinents .