🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

Logo site

Sentiment Analysis und Machine Learning

sentiment analysis

Die Sentiment Analyse ist eine Technik, die sich mit den sozialen Netzwerken stark entwickelt hat, in denen die Nutzer die Möglichkeit haben, sich massiv auszudrücken und ihre Gefühle ständig zu teilen. Die Gefühlsanalyse (oder sentiment analysis) zielt also darauf ab, den emotionalen Ton einer Rede zu bestimmen, indem sie sie in verschiedene Kategorien wie z. […]

XGBoost: Der Testsieger

xgboost

XGBoost steht für eXtreme Gradient Boosting. Wie der Name schon sagt, ist es ein Gradient Boosting-Algorithmus. Er ist in C++ programmiert und in fast allen Programmiersprachen verfügbar, die für Machine Learning nützlich sind, wie Python, R oder Julia. Was ist Gradient Boosting? Gradient Boosting ist ein spezieller Algorithmus des Boosting. Beim Boosting werden mehrere „weak […]

Variablen scannen für deine Machine-Learning-Algorithmen

variablen scannen

Das war’s! Der Datensatz ist bereinigt! Es gibt keine fehlenden Werte mehr, die Modellierungsentscheidungen wurden getroffen! Wir haben einige Variablen beibehalten und andere entfernt. Jetzt müssen wir den letzten Schritt vor dem Einsatz von Machine-Learning-Algorithmen machen: die Variablen scannen bzw. sie an den Algorithmus anpassen. Die meisten Machine-Learning-Algorithmen erlauben es nicht, andere als numerische Variablen […]

Umgang mit Problemen bei unausgewogener Klassifizierung – Teil II

unausgewogener Klassifizierung

Methoden zur Bekämpfung von Datenungleichgewichten bei unausgewogener Klassifizierung Nachdem wir die verschiedenen Probleme im Zusammenhang mit Datenungleichgewicht näher erläutert und gezeigt haben, dass die Wahl der richtigen Leistungsmetrik für die Bewertung unserer Modelle von entscheidender Bedeutung ist, werden wir eine nicht erschöpfende Liste nützlicher Techniken zur Bekämpfung dieser Art von Problemen vorstellen. 1) Mehr Daten […]

Staging Area: Was beinhaltet dieser Schritt im ETL-Prozess?

staging area

Die „Staging Area“ ist ein wichtiger Schritt im ETL-Prozess (Extract, Transform, Load), bei dem Daten aus heterogenen Datenquellen extrahiert, umgewandelt, für die Analyse vorbereitet und in ein Zielsystem wie ein Data Warehouse (Datenlager) oder eine Datenbank geladen werden. Was ist die Staging Area? Die Staging Area ist ein temporärer Speicherbereich für Daten, die aus verschiedenen […]

SQL DISTINCT: Eine Abfrage zum Sortieren und Entfernen von Duplikaten

sql distinct

Der SELECT-Befehl ist zwar einer der am häufigsten verwendeten Befehle, um Daten aus einer Tabelle zu lesen, aber er hat einige Schwächen, wenn er allein verwendet wird. Aus diesem Grund werden weitere Befehle mit ihm kombiniert. Diese Kombinationen ermöglichen es, die Ergebnisse zu verfeinern. Dies gilt insbesondere für den Befehl SQL DISTINCT, der doppelte Einträge […]

Primärschlüssel: Definition, Vorteile und Besonderheiten

primaerschluessel

Relationale Datenbanken enthalten Tausende und Abertausende von Zeilen. Um die Verarbeitung zu vereinfachen, ist es wichtig, die verschiedenen Datensätze in einer Tabelle klar und effizient zu identifizieren. Dies ist der Punkt, an dem die Primärschlüssel zum Einsatz kommen. Primärschlüssel, eindeutige Felder in deiner Datentabelle Der Primärschlüssel bezieht sich auf ein (oder mehrere) Attribut(e), das die […]

Surfrider Foundation: Wenn Daten unsere Ozeane schützen

surfrider foundation

In einem Dokumentarfilm, der am 8. Juni auf YouTube veröffentlicht wurde, bringt der politische Streamer Jean Massiet seinen Abonnenten eine Sache und eine Stiftung näher, die ihm sehr am Herzen liegt: die Surfrider Foundation. In diesem Video sensibilisiert der Pariser Bretone seine Zuschauer für die Meeresverschmutzung, aber auch für die Bedeutung von Daten als Argument […]

Halluzination KI: Wie man sie stoppen kann

ko kalluzination

Seit jeher haben künstliche Intelligenzen Antworten halluziniert, um kreativ zu sein und Geschichten zu erfinden. Doch angesichts der Beliebtheit von generativen künstlichen Intelligenzen als Informationsquelle suchen Experten nach Möglichkeiten, diese Halluzinationen zu reduzieren oder sogar zu stoppen. Was ist das Problem mit Halluzinationen? Künstliche Intelligenzen hatten schon immer die Tendenz, Antworten zu „halluzinieren“. Diese sind […]

Data Analyst Karriere: Vom Studenten zum Dozenten für Data Analyst bei Datascientest

data analyst karriere

Data Analyst Karriere: Wie kann man nach einer Ausbildung Lehrer bei DataScientest werden? Um das herauszufinden, teilt Maria ihre Erfahrungen mit uns. Mein beruflicher Werdegang Daten waren schon immer ein Teil meines Arbeitsalltags. Als BI-Analyst in einem großen Logistikunternehmen war ich für das Reporting zuständig, insbesondere mithilfe des Tools Power BI. Konkret ging es dabei […]

Hyperparameter: Was ist das? Wozu dienen sie?

hyperparamter

Modelle des maschinellen Lernens sind mächtige Werkzeuge zur Lösung komplexer Probleme, sei es zur Vorhersage von Börsentrends oder zur Diagnose von Krankheiten. Um das Beste aus diesen Modellen herauszuholen, muss man jedoch die Rolle der Hyperparameter verstehen und wissen, wie man sie für eine bessere Leistung optimieren kann. In diesem Artikel befassen wir uns mit […]

Octopize: Die Methode zur Anonymisierung von Daten

octopize

Um einen freieren Umgang mit persönlichen Daten in der Medizin zu ermöglichen, entwickelt das Startup-Unternehmen Octopize seine Avatar-Methode. Eine zuverlässige Technologie, die in der Lage ist, Daten vollständig zu anonymisieren. Was ist die Avatar-Methode ? Am 10. März erklärt Octopize in einem Artikel in Nature Digital Medecine in Zusammenarbeit mit dem Universitätsklinikum Nantes, der Nantes […]