5 Schritte, um einen statistischen Test durchzuführen

Möchtest du wissen, ob der Notendurchschnitt zwischen zwei Klassen sich voneinander unterscheidet? Oder wissen, ob die Umweltverschmutzung in einer Stadt über einem zulässigen Wert liegt? Wie können Sie die Wirksamkeit einer neuen Behandlung in einer Population testen? Hier setzen wir statistische Tests ein! Datascientest zeigt dir die Methode, um einen statistischen Test in 5 Schritten […]

Der Einfluss von Big Data auf die Weltmeisterschaft

Worldcup & Data

Das größte Fußballturnier der Welt steht wieder in den Startlöchern. Mehr denn je verwenden Spieler und Verbände die Analyse großer Datenmengen, um ihr Spiel auf das nächste Level zu bringen. Wie wird Big Data heute eingesetzt? Data Analysis hilft heutzutage alles zu steuern: Von Spielertransfers und der Intensität des Trainings bis hin zur gezielten Adaption auf […]

Dendrogramm: Alles über das hierarchische Clusterdiagramm

Ein Dendrogamma ist ein hierarchisches Gruppierungsdiagramm, mit dem Daten anhand ihrer Ähnlichkeiten in einer Baumstruktur angeordnet werden können. Hier erfahren Sie alles, was Sie darüber wissen müssen. Die Datenvisualisierung ist sehr nützlich, um Daten lesbar und relevant darzustellen. Es gibt eine Vielzahl von Techniken und Algorithmen, um Daten automatisch auf unterschiedliche Weise zu organisieren. Eine […]

Sharding: Definition, User, Vor- und Nachteile

Das Wort „sharding“ bedeutet im Englischen „aufspalten“. In der Data Science ist Sharding eine Methode, um einen Datensatz aus einer Datenbank zu partitionieren. Man teilt die Datenbank in mehrere Datensätze auf, die auch als „Datasets“ bezeichnet werden. Was genau ist Sharding? Es gibt zwei Hauptmethoden des Sharding oder der Partitionierung: die horizontale und die vertikale […]

Was ist die Hauptkomponentenanalyse?

Kennst du die PCA? Diese Methode ist sehr nützlich und wird bei Dimensionsreduktionen verwendet. Erfahre in diesem Artikel, wie sie funktioniert. Wer hat nicht schon einmal einen Datensatz mit einer sehr großen Anzahl von Variablen in den Händen gehalten, ohne zu wissen, welche die wichtigsten sind?  Wie kann man diesen Datensatz so reduzieren, dass er […]

NumPy: die meistgenutzte Python-Bibliothek für Data Science

NumPy ist eine Python-Bibliothek, die häufig für Data Science verwendet wird. Hier finden Sie alles, was Sie wissen müssen, um diese Bibliothek zu beherrschen. Data Science basiert auf hochkomplexen wissenschaftlichen Berechnungen. Um diese Berechnungen durchzuführen, benötigen Data Scientists leistungsfähige Werkzeuge. Die NumPy-Bibliothek für Python ist eines dieser wertvollen Hilfsmittel. Was ist NumPy? NumPy ist die […]

DataViz: Definition, Problematik und Anwendungsfälle

Datenvisualisierung, oft als „Dataviz“ bezeichnet, ist eine Reihe von Techniken, die die visuelle Transformation und Synthese von Rohdaten ermöglichen, um sie zum Sprechen zu bringen. Hast Du das gewusst ? „Dataviz“ ist eine Methode zur Übertragung von Informationen, die mehrere Jahrhunderte zurückreicht.  Im 18. Jahrhundert erfand der Ingenieur und Volkswirt William Playfair das Balkendiagramm, das […]

MapReduce: Wie lässt es sich für Big Data nutzen?

MapReduce ist das Programmiermodell des Hadoop-Frameworks. Es ermöglicht die Analyse riesiger Mengen von Big Data durch parallele Verarbeitung. Hier erfahren Sie alles, was Sie wissen müssen: Einführung, Funktionsweise, Alternativen, Vorteile, Weiterbildungen… Die riesigen Mengen in Zeiten von Big Data bieten zahlreiche Chancen für Unternehmen. Allerdings kann es schwierig sein, diese Daten mit herkömmlichen Systemen schnell […]

Adversarial Training

Dank der Fortschritte im Bereich des Machine Learning und insbesondere des Deep Learning mit tiefen neuronalen Netzen sind Fehler seit den 2010er Jahren immer seltener geworden. Heute sind sie sogar sehr außergewöhnlich. Dennoch machen diese Modelle manchmal immer noch Fehler, ohne dass es Forschern und Forscherinnen gelingt, wirksame Abwehrsysteme zu entwickeln. Adversarial Examples (dt. feindliche […]

Python: Fokus auf die beliebteste Programmiersprache

Python ist die beliebteste und am häufigsten verwendete Computerprogrammiersprache, insbesondere in den Bereichen Data Science und Machine Learning. Hier erfährst Du alles, was Du wissen musst: Definition, Funktionsweise, Anwendungen, Vorteile, Schulungen… Python ist eine allgemeine Computerprogrammiersprache. Im Gegensatz zu HTML, CSS oder JavaScript ist ihre Verwendung daher nicht auf die Webentwicklung beschränkt. Sie kann für […]

Wie erstellt man Wordcloud auf Python?

WordClouds (deutsch: Schlagwortwolken) sind nützliche Werkzeuge, um die wichtigsten Begriffe eines Textes, einer Webseite oder auch eines Buches zusammenzufassen. Je häufiger ein Wort in dem betrachteten Text vorkommt, desto größer erscheint es in der Wordcloud. Es gibt viele Websites und Apps, mit denen man Wordclouds einfach und kostenlos erzeugen kann. Hier ist zum Beispiel eine, […]

Kaggle: Alles, was Du über diese Plattform wissen musst

Wenn Du Dich seit einiger Zeit mit Data Science beschäftigst, hast Du sicher schon von Kaggle gehört. Heute erläutern wir, was Kaggle ist und warum dieses Tool ein Muss in der Welt der Data Science geworden ist! Was ist Kaggle? Kaggle ist ein Webportal, das die weltweit größte Data-Science-Community mit über 536.000 aktiven Mitgliedern in […]