Aujourd’hui nous nous retrouvons pour un deuxième article pour apprendre à trouver des jeux de données (ou datasets en anglais) pour entraîner vos algorithmes de Machine Learning car oui, faire des modèles c’est bien mais trouver des données pour entraîner ces modèles c’est mieux ! Vous avez manqué le premier épisode : Public datasets for machine learning , le voici !
Que vous soyez attirés par le domaine aérospatial, le sport, l’environnement ou encore le trafic routier sur le boulevard périphérique de Paris, découvrez où et comment récupérer des jeux de données adaptés à vos besoins.
Voici un top 5 des meilleurs sites pour récupérer des données en open source sur Internet.
1 - Google dataset search
Cet outil développé par Google est une des manières les plus efficaces pour trouver un dataset en faisant une simple recherche par mots-clés.
Exemple : Je veux faire un projet de Machine Learning en rapport avec le tennis et même plus précisément : en rapport avec Roland-Garros. Pourquoi ne pas ajouter les performances de Nadal dans mon projet.
Pour cela, il suffit de rentrer ces 3 mots-clés dans la barre de recherche comme une simple recherche Google.
La recherche renvoie tous les datasets contenant les mots-clés recherchés ainsi qu’une brève description et des données supplémentaires sur ces datasets (source, date de parution, type de licence, etc.)
Vous pouvez affiner votre recherche grâce à des paramètres avancés comme la date de dernière mise à jour, les droits d’usage ou enfin la gratuité du dataset.
2 - Data.gouv.fr
Ce site du gouvernement français met à disposition des données publiques concernant le territoire français. On retrouve des jeux de données sur des sujets variés dont on peut spécifier la granularité territoriale (échelle départementale, régionale, nationale), la source (certains Ministères fournissent des données) ainsi que la période temporelle couverte par les données.
De nombreux thèmes sont abordés.
On retrouve notamment des datasets sur l’économie, la santé, l’agriculture, l’environnement, le tourisme, l’éducation ou encore les sujets européens.
Le site montre aussi comment les datasets qu’il contient ont été réutilisés par d’autres plateformes dans le cadre d’enquêtes ou de publications.
3 - Fema.gov
L’agence américaine FEMA (Federal Emergency Management Agency) est destinée à prévenir et protéger la population des menaces et des dangers qui présentent un risque sur le territoire américain. Cette organisation a mis en place un site pour permettre un libre accès à des bases de données collectant des informations sur différents sujets.
Les datasets couvrent ainsi les catastrophes ayant eu lieu sur le territoire, la gestion des situations d’urgence, les programmes d’aide aux populations, les foyers qui ont bénéficiés des programmes de prévention des catastrophes naturelles.
Sur chaque page présentant un dataset, on retrouve des informations sur celui-ci ainsi que sur son contenu et les liens pour télécharger les données.
4 - Data.nasa.gov
La NASA (National Aeronautics and Space Administration) a décidé de rendre public quelques-uns de ses jeux de données dans le but de « stimuler votre créativité pour résoudre les problèmes qui se posent sur Terre ».
En plus de mettre à disposition des données, l’organisation laisse aussi en libre accès des projets menés par les chercheurs et des API.
Lorsque vous accédez au catalogue de jeux de données, vous pouvez effectuer une recherche par mot-clés ainsi que sélectionner plusieurs filtres.
Pour chaque jeu de données vous aurez accès à une description détaillée des colonnes ainsi qu’une prévisualisation.
5 - Le site de l’INSEE
L’Institut National de la Statistique et des Etudes Economiques met à disposition un large choix de jeux de données francais triés par thèmes et granularité géographique.
Ces jeux de données concernent des domaines spécifiques comme l’économie, la démographie, la consommation, le marché du travail ou encore l’environnement et le développement durable.
En plus des jeux de données, l’Institut met à disposition des cartes interactives, des chiffres détaillés ainsi que des séries chronologiques.
Voilà un bref aperçu des sources de données en libre accès que l’on peut trouver sur Internet.
D’une manière générale, certains pays et organisations gouvernementales comme le Canada, le Royaume-Uni ou l’Union européenne mettent à disposition des datasets en accès libre. En France, le site d’Open Data Paris peut aussi être une source intéressante pour collecter des données sur la Ville de Paris.
Enfin, la société française Opendatasoft s’occupe de créer les sites d’open data de certaines entreprises et organisations comme Engie, SFR, Euler Hermes ou encore le Ministère de l’Education nationale et de la jeunesse dont vous trouverez les datasets en libre accès sur Internet.
Maintenant que vous savez où trouver des datasets de qualité, il ne vous reste plus qu’à apprendre à entraîner vos modèles de Machine Learning dessus !