Wenn Du heutzutage in die Datenbranche einsteigen und Dich weiterbilden willst, musst Du über solide mathematische Fähigkeiten verfügen und Dich mit einer Reihe von Algorithmen des maschinellen Lernens und des Deep Learning beschäftigen.
Um sie zu verstehen und ihre Leistung zu beobachten, musst Du oft mit qualitativ hochwertigen Datensätzen üben. Es ist nicht immer einfach, solche zu finden. Vielleicht hast du im Laufe deiner Berufserfahrung die Möglichkeit, auf hochwertige Daten zuzugreifen, aber wenn Du außerhalb deiner Arbeitszeit übst, musst Du zuverlässige Datenquellen kennen.
Wir bei Datascientest stellen dir heute unsere Top 5 Seiten vor, auf denen Du relevante Datensätze/Datasets – finden kannst:
Datasets von Kaggle sind ein Muss für jeden Datenexperten, der nach Datensätzen sucht.
Kaggle ist ein Unternehmen, das 2010 von Anthony Goldbloom gegründet und 2017 von Google aufgekauft wurde. Es ist eine Webplattform, die Datenwettbewerbe organisiert. Das Prinzip ist recht einfach: Für jeden Wettbewerb stellt ein Organisator einen Datensatz und die betrachtete Fragestellung zur Verfügung. Data Scientists werden aufgefordert, mithilfe von Algorithmen des maschinellen Lernens Lösungen vorzuschlagen. Diejenigen, die die besten Ergebnisse erzielen, können einen Preis erhalten.
Kaggle ist in zweierlei Hinsicht interessant: Du findest dort qualitativ hochwertige Datensätze, die von allen sämtlichen Unternehmen und Einzelpersonen hochgeladen wurden, und kannst in Wettbewerben deine Fähigkeiten im Bereich Machine Learning und Deep Learning gegen andere erfahrene Data Scientists testen.
Das UCI Machine Learning Repository ist eine Datenbank, die 1987 von David Aha und anderen Absolventen der Universität von Irvine als ftp-Archiv (File Transfer Protocol) angelegt wurde. Seitdem wurde sie von Studenten und Wissenschaftlern auf der ganzen Welt weitgehend genutzt. Die aktuelle Version der Website wurde 2007 von Arthur Asuncion und David Newman gestaltet.
Hier findest du etwas mehr als 507 Datensätze, darunter einige beliebte wie das Census income Data Set. Es ist möglich, die Datensätze zu filtern, um diejenigen zu finden, die den Problemen entsprechen, die dich in bestimmten Bereichen interessieren.
Du kannst z. B. nach allen Datensätzen suchen, die sich mit Regressionsproblemen in den Sozialwissenschaften befassen.
Data World ist eine Website, auf der du auch viele Datensätze von verschiedenen Organisationen wie Regierungen oder Stadtverwaltungen finden kannst. Du findest hier Datasets/Datensätze zu verschiedenen Themen wie Wirtschaft, Umwelt, Gesundheit und Bildung. Wenn du möchtest, kannst du auch Datensätze hochladen.
Data gouv ist eine französische Plattform, die öffentliche Daten beherbergt und ihre Weiterverwendung erfasst. Hier findest du zahlreiche Datensätze und Datatsets zu französischen Nachrichten, Volkszählungen, Gemeinden oder Immobilien. Etalab, eine Abteilung der interministeriellen Direktion für Digitales, entwickelt und betreut die Plattform.
Ziel der Plattform ist es, alle öffentlichen Informationen des Staates, seiner öffentlichen Einrichtungen und, wenn sie es wünschen, der Gebietskörperschaften und der öffentlich-rechtlichen oder privatrechtlichen Personen, die mit einem öffentlichen Auftrag betraut sind, frei zugänglich zu machen.
5 - Quandl et Yahoo finance
Quandl und Yahoo haben beide zwei APIs entwickelt, die dir einen einfachen Zugang zu Finanzdaten wie Börsenkursen in Echtzeit ermöglichen. Sie bieten Dir auch Zugang zu einer Vielzahl von Finanzinformationen mit Methoden, die bereits in der Programmiersprache Python implementiert sind und genutzt werden können. Mit der API von Yahoo finance hast Du zum Beispiel leichten Zugang zu gleitenden Durchschnitten, einem Indikator, der häufig in der technischen Analyse verwendet wird, um vorübergehende Schwankungen auszuschließen und längerfristige Trends zu analysieren, mit den Methoden get_50day_moving_avg() oder get_200day_moving_avg().
Hat Dir dieser Artikel gefallen ? Entdecke die natürliche Sprachverarbeitung in Python!
Werfe einen Blick auf unsere Fernkurs-Angebote um zu lernen,wie man Datatsets richtig analyisiert.