XGBoost: Der Testsieger

XGBoost steht für eXtreme Gradient Boosting. Wie der Name schon sagt, ist es ein Gradient Boosting-Algorithmus. Er ist in C++ programmiert und in fast allen Programmiersprachen verfügbar, die für Machine Learning nützlich sind, wie Python, R oder Julia. Was ist Gradient Boosting? Gradient Boosting ist ein spezieller Algorithmus des Boosting. Beim Boosting werden mehrere „weak […]
Variablen scannen für deine Machine-Learning-Algorithmen

Das war’s! Der Datensatz ist bereinigt! Es gibt keine fehlenden Werte mehr, die Modellierungsentscheidungen wurden getroffen! Wir haben einige Variablen beibehalten und andere entfernt. Jetzt müssen wir den letzten Schritt vor dem Einsatz von Machine-Learning-Algorithmen machen: die Variablen scannen bzw. sie an den Algorithmus anpassen. Die meisten Machine-Learning-Algorithmen erlauben es nicht, andere als numerische Variablen […]
Umgang mit Problemen bei unausgewogener Klassifizierung – Teil II

Methoden zur Bekämpfung von Datenungleichgewichten bei unausgewogener Klassifizierung Nachdem wir die verschiedenen Probleme im Zusammenhang mit Datenungleichgewicht näher erläutert und gezeigt haben, dass die Wahl der richtigen Leistungsmetrik für die Bewertung unserer Modelle von entscheidender Bedeutung ist, werden wir eine nicht erschöpfende Liste nützlicher Techniken zur Bekämpfung dieser Art von Problemen vorstellen. 1) Mehr Daten […]
Staging Area: Was beinhaltet dieser Schritt im ETL-Prozess?

Die „Staging Area“ ist ein wichtiger Schritt im ETL-Prozess (Extract, Transform, Load), bei dem Daten aus heterogenen Datenquellen extrahiert, umgewandelt, für die Analyse vorbereitet und in ein Zielsystem wie ein Data Warehouse (Datenlager) oder eine Datenbank geladen werden. Was ist die Staging Area? Die Staging Area ist ein temporärer Speicherbereich für Daten, die aus verschiedenen […]
SQL DISTINCT: Eine Abfrage zum Sortieren und Entfernen von Duplikaten

Der SELECT-Befehl ist zwar einer der am häufigsten verwendeten Befehle, um Daten aus einer Tabelle zu lesen, aber er hat einige Schwächen, wenn er allein verwendet wird. Aus diesem Grund werden weitere Befehle mit ihm kombiniert. Diese Kombinationen ermöglichen es, die Ergebnisse zu verfeinern. Dies gilt insbesondere für den Befehl SQL DISTINCT, der doppelte Einträge […]
Primärschlüssel: Definition, Vorteile und Besonderheiten

Relationale Datenbanken enthalten Tausende und Abertausende von Zeilen. Um die Verarbeitung zu vereinfachen, ist es wichtig, die verschiedenen Datensätze in einer Tabelle klar und effizient zu identifizieren. Dies ist der Punkt, an dem die Primärschlüssel zum Einsatz kommen. Primärschlüssel, eindeutige Felder in deiner Datentabelle Der Primärschlüssel bezieht sich auf ein (oder mehrere) Attribut(e), das die […]
Surfrider Foundation: Wenn Daten unsere Ozeane schützen

In einem Dokumentarfilm, der am 8. Juni auf YouTube veröffentlicht wurde, bringt der politische Streamer Jean Massiet seinen Abonnenten eine Sache und eine Stiftung näher, die ihm sehr am Herzen liegt: die Surfrider Foundation. In diesem Video sensibilisiert der Pariser Bretone seine Zuschauer für die Meeresverschmutzung, aber auch für die Bedeutung von Daten als Argument […]
Halluzination KI: Wie man sie stoppen kann

Seit jeher haben künstliche Intelligenzen Antworten halluziniert, um kreativ zu sein und Geschichten zu erfinden. Doch angesichts der Beliebtheit von generativen künstlichen Intelligenzen als Informationsquelle suchen Experten nach Möglichkeiten, diese Halluzinationen zu reduzieren oder sogar zu stoppen. Was ist das Problem mit Halluzinationen? Künstliche Intelligenzen hatten schon immer die Tendenz, Antworten zu „halluzinieren“. Diese sind […]
Data Analyst Karriere: Vom Studenten zum Dozenten für Data Analyst bei Datascientest

Data Analyst Karriere: Wie kann man nach einer Ausbildung Lehrer bei DataScientest werden? Um das herauszufinden, teilt Maria ihre Erfahrungen mit uns. Mein beruflicher Werdegang Daten waren schon immer ein Teil meines Arbeitsalltags. Als BI-Analyst in einem großen Logistikunternehmen war ich für das Reporting zuständig, insbesondere mithilfe des Tools Power BI. Konkret ging es dabei […]
Hyperparameter: Was ist das? Wozu dienen sie?

Modelle des maschinellen Lernens sind mächtige Werkzeuge zur Lösung komplexer Probleme, sei es zur Vorhersage von Börsentrends oder zur Diagnose von Krankheiten. Um das Beste aus diesen Modellen herauszuholen, muss man jedoch die Rolle der Hyperparameter verstehen und wissen, wie man sie für eine bessere Leistung optimieren kann. In diesem Artikel befassen wir uns mit […]
Octopize: Die Methode zur Anonymisierung von Daten

Um einen freieren Umgang mit persönlichen Daten in der Medizin zu ermöglichen, entwickelt das Startup-Unternehmen Octopize seine Avatar-Methode. Eine zuverlässige Technologie, die in der Lage ist, Daten vollständig zu anonymisieren. Was ist die Avatar-Methode ? Am 10. März erklärt Octopize in einem Artikel in Nature Digital Medecine in Zusammenarbeit mit dem Universitätsklinikum Nantes, der Nantes […]
NoOps: Was du wissen solltest

Tech-Unternehmen suchen ständig nach Wegen, um ihre Effizienz zu steigern und ihre IT-Kosten zu senken. Vor kurzem kam das Konzept NoOps (No Operations) als Lösung zur Optimierung von Bereitstellungsprozessen auf den Markt, indem die traditionellen Aufgaben des IT-Betriebs wegfallen. Aber was ist NoOps dann? Warum ist es wichtig? Was sind die Schlüsselelemente für seine Umsetzung? […]