Heute treffen wir uns zu einem zweiten Artikel, in dem du lernst, wie du Datensätze (oder Datasets auf Englisch) findest, um deine Machine-Learning-Algorithmen zu trainieren, denn ja, Modelle zu erstellen ist gut, aber Daten zu finden, um diese Modelle zu trainieren, ist besser! Du hast die erste Episode: Public datasets for machine learning verpasst ? Hier kommt sie!
Egal, ob du dich für Luft- und Raumfahrt, Sport, Umwelt oder den Straßenverkehr auf der Pariser Ringstraße interessierst, finde heraus, wo und wie du die richtigen Datensätze für deine Bedürfnisse abrufen kannst.
Hier findest du eine Top 5 der besten Seiten, um Open-Source-Daten aus dem Internet zu holen.
1 - Google Dataset Search
Dieses von Google entwickelte Tool ist eine der effizientesten Möglichkeiten, ein Dataset zu finden, indem du einfach nach Stichwörtern suchst.
Beispiel: Ich möchte ein Machine-Learning-Projekt mit Bezug zum Tennis machen, genauer gesagt: mit Bezug zu den French Open. Warum füge ich nicht die Leistungen von Nadal in mein Projekt ein.
Dazu musst du nur diese drei Stichwörter in die Suchleiste eingeben, wie bei einer einfachen Google-Suche.
Die Suche gibt alle Datasets zurück, die die gesuchten Schlüsselwörter enthalten, sowie eine kurze Beschreibung und zusätzliche Daten zu diesen Datasets (Quelle, Erscheinungsdatum, Lizenztyp, etc.).
Du kannst deine Suche durch erweiterte Parameter verfeinern, wie z. B. das Datum der letzten Aktualisierung, die Nutzungsrechte oder schließlich, ob das Dataset kostenlos ist.
2 - Eurostat
Diese Website der EU stellt öffentliche Daten zur Verfügung. Es gibt Datensätze zu verschiedenen Themen, bei denen man die territoriale Granularität (departementale, regionale, nationale Ebene), die Quelle (einige Ministerien stellen Daten zur Verfügung) und den Zeitraum, den die Daten abdecken, angeben kann.
Es werden viele verschiedene Themen behandelt.
Es gibt beispielsweise Datasets über Wirtschaft, Gesundheit, Landwirtschaft, Umwelt, Tourismus, Bildung oder europäische Themen.
Die Seite zeigt auch, wie die Datasets von anderen Plattformen für Umfragen oder Veröffentlichungen wiederverwendet wurden.
3 - Fema.gov
Die FEMA (Federal Emergency Management Agency) ist eine US-amerikanische Behörde, die die Bevölkerung vor Bedrohungen und Gefahren warnen und schützen soll, die ein Risiko auf dem Gebiet der USA darstellen.
Die Organisation hat eine Website eingerichtet, die freien Zugang zu Datenbanken bietet, in denen Informationen zu verschiedenen Themen gesammelt werden.
Die Datenbanken enthalten Informationen über Katastrophen, die sich in den USA ereignet haben, über die Bewältigung von Notsituationen, über Hilfsprogramme für die Bevölkerung und über Haushalte, die von Programmen zur Verhinderung von Naturkatastrophen profitiert haben.
Auf jeder Seite, die ein Dataset vorstellt, findest Du Informationen über das Dataset und seinen Inhalt sowie Links zum Herunterladen der Daten.
4 - Data.nasa.gov
Die NASA (National Aeronautics and Space Administration) hat beschlossen, einige ihrer Datensätze zu veröffentlichen, um „deine Kreativität bei der Lösung von Problemen auf der Erde anzuregen“. Die NASA hat sich dazu entschlossen, einige ihrer Datensätze zu veröffentlichen, um „deine Kreativität bei der Lösung von Problemen auf der Erde anzuregen“.
Neben der Bereitstellung von Daten macht die Organisation auch Projekte von Forschern und APIs frei zugänglich.
Wenn du den NASA Dataset Katalog aufrufst, kannst du nach Stichwörtern suchen und verschiedene Filter auswählen...
Für jeden Datensatz hast du Zugang zu einer detaillierten Beschreibung der Spalten und einer Vorschau..