Les datasets (ou jeux de données) sont couramment utilisés en machine learning. Ils regroupent un ensemble de données cohérents qui peuvent se présenter sous différents formats (textes, chiffres, images, vidéos etc…).
Qu'est-ce qu'un Dataset ?
Les datasets peuvent être représentés sous différents types, que ce soient des tableaux, des graphes, des arbres ou autres. On travaille souvent avec des structures de tableaux dans les algorithmes de machine Learning.
Chaque valeur présente dans un dataset est associée à un attribut et à une observation.
Prenons par exemple des données sur différentes personnes atteintes ou non du Covid-19.
Les attributs correspondront à différentes caractéristiques telles que l’âge, le poids, la taille, la ville de résidence, les symptômes… Alors que chaque observation sera associée à une personne différente.
La manipulation des datasets en Python
En Python, la manipulation des données se fait avec la bibliothèque pandas dont la documentation est accessible ici.
Elle permet de créer des datasets ou d’en importer, mais aussi de les manipuler avant d’appliquer des modèles de machine learning.
Lorsqu’on obtient un jeu de données, nous devons effectuer des modifications. En effet, souvent les données possèdent plusieurs erreurs. Par exemple, il peut y avoir des données manquantes (qui sont souvent nécessaires à l’analyse). Il peut également y avoir des données mal saisies par l’utilisateur (des virgules mal placées, des 0 en trop etc.). Des problèmes surviennent également avec le type des données. Souvent des attributs (comme l’âge par exemple) sont au format texte alors que pour utiliser des fonctions statistiques sur cet attribut (comme faire la moyenne des âges, l’écart type ou autre), nous devons convertir les données de cet attribut en format nombre.
Les fonctions et les méthodes de Pandas permettent de facilement procéder à ces différentes étapes de manipulations et d’effectuer les changements nécessaires sur notre jeu de données.
Une fois les données du jeu de données traitées, on utilise souvent des algorithmes de machine Learning sur nos jeux de données pour prévoir des modèles.
Reprenons l’exemple de notre jeu de données concernant les patients atteints du covid-19.
Lorsqu’on obtient ce jeu de données, avant de créer des modèles de machine Learning, nous devons procéder à plusieurs modifications :
- On a aucune information sur les caractéristiques personnelles du patient 4, il faudra par exemple supprimer la ligne (car inexploitable)
- La taille est donnée en format texte (c’est bien visible car on a du mélange de chiffres et de textes dans la case). Par conséquent, on doit récupérer les 3 premiers caractères de chaque case et changer le type en format nombre.
- On voit que le poids du patient possède un 0 en trop.
Une fois toutes ces modifications établies, nous pouvons exploiter de manière pertinente les données puis créer des modèles. Typiquement avec un tel jeu de données, nous pouvons prévoir quel profil de personne serait susceptible d’avoir tel ou tel symptôme dans une région précise.
S’il est nécessaire de manipuler les datasets, il faut aussi s’assurer de la validité des sources de données. En effet, travailler avec des données fausses serait juste une perte de temps.
Un article de notre blog permet de recenser les sites permettant de trouver des données à partir de sites compétents.
Les datasets sont donc très efficaces et très manipulables pour traiter les données. Nos formations permettent d’apprendre les différents outils permettant de manipuler les données et de prévoir différents modèles. Pour plus d’informations n’hésitez pas à prendre contact avec nous.
Top 5 des sites où trouver des datasets pour le Machine Learning
Que vous soyez attirés par le domaine aérospatial, le sport, l’environnement ou encore le trafic routier sur le boulevard périphérique de Paris, découvrez où et comment récupérer des jeux de données adaptés à vos besoins.
Voici un top 5 des meilleurs sites pour récupérer des données en open source sur Internet.
Cet outil développé par Google est une des manières les plus efficaces pour trouver un dataset en faisant une simple recherche par mots-clés.
Exemple: Je veux faire un projet de Machine Learning en rapport avec le tennis et même plus précisément : en rapport avec Roland-Garros. Pourquoi ne pas ajouter les performances de Nadal dans mon projet.
Pour cela, il suffit de rentrer ces 3 mots-clés dans la barre de recherche comme une simple recherche Google.
La recherche renvoie tous les datasets contenant les mots-clés recherchés ainsi qu’une brève description et des données supplémentaires sur ces datasets (source, date de parution, type de licence, etc.)
Vous pouvez affiner votre recherche grâce à des paramètres avancés comme la date de dernière mise à jour, les droits d’usage ou enfin la gratuité du dataset.
Ce site du gouvernement français met à disposition des données publiques concernant le territoire français. On retrouve des jeux de données sur des sujets variés dont on peut spécifier la granularité territoriale (échelle départementale, régionale, nationale), la source (certains Ministères fournissent des données) ainsi que la période temporelle couverte par les données.
De nombreux thèmes sont abordés. On retrouve notamment des datasets sur l’économie, la santé, l’agriculture, l’environnement, le tourisme, l’éducation ou encore les sujets européens. Le site montre aussi comment les datasets qu’il contient ont été réutilisés par d’autres plateformes dans le cadre d’enquêtes ou de publications.
L’agence américaine FEMA (Federal Emergency Management Agency) est destinée à prévenir et protéger la population des menaces et des dangers qui présentent un risque sur le territoire américain. Cette organisation a mis en place un site pour permettre un libre accès à des bases de données collectant des informations sur différents sujets.
Les datasets couvrent ainsi les catastrophes ayant eu lieu sur le territoire, la gestion des situations d’urgence, les programmes d’aide aux populations, les foyers qui ont bénéficiés des programmes de prévention des catastrophes naturelles.
Sur chaque page présentant un dataset, on retrouve des informations sur celui-ci ainsi que sur son contenu et les liens pour télécharger les données.
La NASA (National Aeronautics and Space Administration) a décidé de rendre public quelques-uns de ses jeux de données dans le but de « stimuler votre créativité pour résoudre les problèmes qui se posent sur Terre ».
En plus de mettre à disposition des données, l’organisation laisse aussi en libre accès des projets menés par les chercheurs et des API.
Lorsque vous accédez au catalogue de jeux de données, vous pouvez effectuer une recherche par mot-clés ainsi que sélectionner plusieurs filtres.
Pour chaque jeu de données vous aurez accès à une description détaillée des colonnes ainsi qu’une prévisualisation.
L’Institut National de la Statistique et des Etudes Economiques met à disposition un large choix de jeux de données francais triés par thèmes et granularité géographique.
Ces jeux de données concernent des domaines spécifiques comme l’économie, la démographie, la consommation, le marché du travail ou encore l’environnement et le développement durable.
En plus des jeux de données, l’Institut met à disposition des cartes interactives, des chiffres détaillés ainsi que des séries chronologiques.
Voilà un bref aperçu des sources de données en libre accès que l’on peut trouver sur Internet.
D’une manière générale, certains pays et organisations gouvernementales comme le Canada, le Royaume-Uni ou l’Union européenne mettent à disposition des datasets en accès libre. En France, le site d’Open Data Paris peut aussi être une source intéressante pour collecter des données sur la Ville de Paris.
Enfin, la société française Opendatasoft s’occupe de créer les sites d’open data de certaines entreprises et organisations comme Engie, SFR, Euler Hermes ou encore le Ministère de l’Education nationale et de la jeunesse dont vous trouverez les datasets en libre accès sur Internet.
Maintenant que vous savez où trouver des datasets de qualité, il ne vous reste plus qu’à apprendre à entraîner vos modèles de Machine Learning dessus !