🚀 Bist Du bereit für eine Karriere im Bereich Data? Finde es in nur 60 Sekunden heraus!

AutoML und die Automatisierung von Machine Learning: eine Bedrohung für Data Scientists?

-
4
 Minuten Lesezeit
-
auto ml

Sind die Automatisierung von Machine Learning und AutoML-Tools eine Bedrohung für Data Scientists? Das ist eine Frage, die immer mehr Datenwissenschaftler beschäftigt, ebenso wie angehende Data Scientists, die sich um ihre zukünftige Karriere sorgen. Im Moment scheint eine vollständige Automatisierung der Data Science jedoch unwahrscheinlich.

Um dem Mangel an Data Scientists und anderen Machine-Learning-Ingenieuren entgegenzuwirken, sind in den letzten Jahren zahlreiche „AutoML“-Tools entstanden. Diese Tools zur Automatisierung von Machine Learning waren ursprünglich dazu gedacht, die zeitaufwändigsten Aufgaben bei der Entwicklung von Machine-Learning-Modellen zu eliminieren oder sogar den Mangel an Fachleuten zu kompensieren.

Im Laufe der Jahre haben sich die verschiedenen AutoML-Frameworks jedoch weiterentwickelt und verbessert. Heute sind sie so leistungsfähig, dass sie in manchen Fällen sogar menschliche Experten übertreffen können. Das ist das Ergebnis einer Studie, die von Forschern des deutschen Fraunhofer-Instituts durchgeführt wurde.

Für ihre Untersuchung stützten sich die Forscher auf 12 beliebte Datensätze der OpenML-Plattform. Sechs dieser Datasets sind überwachte Klassifikationsaufgaben, während die anderen sechs überwachte Regressionsaufgaben sind. Dies sind in der Tat die beiden populärsten Arten von Aufgaben des maschinellen Lernens.

Das Team nutzte auch das Open-Source-Tool AutoML Benchmark, das eine vollständige Integration von OpenML-Datasets für viele AutoML-Frameworks und automatisierte Benchmarking-Funktionen bietet. Die Benchmarks wurden mit den Standardeinstellungen gestartet, die in config.yalk im AutoML-Benchmark-Projekt festgelegt wurden.

Es wurden vier AutoML-Frameworks getestet: TPOT, H2O, Auto-sklearn und AutoGluon. Einige von ihnen gehören zu den neuesten, andere zu den beliebtesten. Es gibt Frameworks, die sich ausschließlich dem Deep Learning widmen, und andere, die auf scikit-learn basieren.

Die Laufzeit pro Fold wurde auf eine Stunde festgelegt. Für die überwachte Klassifizierung erhielt das beste der vier Frameworks eine Laufzeit von fünf Stunden pro Fold, um seine Ergebnisse mit denen von Menschen vergleichen zu können.

Für die Klassifikationsaufgaben wurden die Bewertungsmethoden ROC AUC (auc) und „accuracy“ verwendet. Für die Aufgaben der überwachten Regression wurden die Methoden root-mean-square-error (rmse) und mean absolute error (mae) gewählt.

In Bezug auf die Hardware verwendeten die Forscher einen Server mit zwei Intel Xeon Silver 4114 CPUs mit 2,20 GHz und insgesamt 20 Kernen, vier DIMM DDR4 Synchronous 2666MHz 64GB Speichermodulen und zwei NVIDIA GeForce GTX 1080 Ti Grafikkarten mit insgesamt über 22GB VRAM.

AutoML ist Data Scientists in mehreren Situationen ebenbürtig oder sogar überlegen

Nach Abschluss des Tests stellten die Forscher zu ihrem Erstaunen fest, dass AutoML in 7 von 12 Fällen bei den primären Metriken genauso gut oder sogar besser abschnitt als Menschen. Bei diesen sieben Fällen handelt es sich um „einfache“ Klassifikations- oder Regressionsaufgaben. Bei den anderen Metriken gab es keine signifikanten Unterschiede.

So kommt die Studie zu dem Schluss, dass die meisten Ergebnisse, die AutoML erzielt, nur etwas besser oder etwas schlechter sind als die von Menschen. Das beste Framework für überwachte Klassifizierung, H2O, erreicht in 5 Stunden pro Fold einen AUC-Wert von 0,7892, verglichen mit 0,799 in einer Stunde pro Fold.

Für die Zukunft sagen die Forscher voraus, dass sich die Kluft zwischen menschlichen Data Scientists und AutoML schließen wird. Da Machine-Learning-Anwendungen jedoch hauptsächlich in interdisziplinären Fällen eingesetzt werden, können AutoML-Tools nicht als eigenständige Lösungen fungieren. Sie sollten daher als Ergänzung zu den Fähigkeiten der Data Scientists gesehen werden.

Warum die Automatisierung Data Scientists nicht schaden wird?

Trotz der Leistungsfähigkeit von AutoML ist es unwahrscheinlich, dass die Automatisierung die Berufe in der Data Science verschwinden lässt. In Bereichen wie der Datenverarbeitung oder der Datenvisualisierung wird sie es den Geschäftsführern jedoch erleichtern, die Vorteile von Big Data zu nutzen, ohne dass ein menschlicher Data Scientist eingreifen muss.

Laut Gartner werden bis Ende 2020 etwa 40 % der Aufgaben im Bereich Data Science automatisiert sein. Es ist jedoch unwahrscheinlich, dass die Automatisierung diesen Beruf ausrotten wird, und das aus drei Hauptgründen.

Erstens ist die Automatisierung letztendlich nur ein Mittel, um Prozesse zu beschleunigen. Alexander Gray, Vizepräsident für KI bei IBM Reserach, erklärt: „Data Scientists umarmen Automatisierungswerkzeuge, weil sie damit Zeit sparen und denken können, anstatt sich mit lästigen Aufgaben zu beschäftigen“.

Die Automatisierungswerkzeuge werden immer leistungsfähiger und intelligenter, sodass sie Data Scientists immer mehr unterstützen und die Art und Weise, wie sie arbeiten, verändern werden. Dies wird es ihnen ermöglichen, mehr zu tun und die Wirkung ihrer Arbeit in ihren Unternehmen zu erhöhen. Nichtsdestotrotz werden sie Werkzeuge bleiben.

Der zweite Grund ist, dass automatisierte Werkzeuge nicht „erkennen“ können, dass sie Fehler machen. Diese Werkzeuge können zwar helfen, Dinge schneller und besser zu erledigen, aber sie können auch menschliche Fehler sehr schnell verbreiten, wenn sie auf einer falschen Grundlage basieren.

Laut Alexander Gray können selbst Forscherteams an den besten Universitäten der Welt Fehler in statistischen Nuancen machen, die zu Datenmodellen von schlechter Qualität führen.

Daher werden Data Scientists weiterhin unerlässlich sein, um Fehler zu erkennen und die den Tools zugrunde liegenden Prinzipien zu verstehen. Dies gilt umso mehr, als dass, je mehr künstliche Intelligenz in unseren Alltag Einzug hält, der kleinste Fehler große Auswirkungen haben kann.

Der dritte und vielleicht wichtigste Grund ist, dass nur Menschen die Probleme, die eine Organisation lösen muss, wirklich verstehen können.

Die Herausforderung der Data Science ist nicht immer nur technischer Natur, was jeder Berufstätige bestätigen kann.

Ein Data Scientist muss in der Lage sein, ein Problem richtig zu interpretieren, um die richtige Datenquelle auszuwählen oder sogar die Ergebnisse richtig zu interpretieren. Er muss z. B. einen Zeitrahmen für die Datenanalyse festlegen oder geeignete Kontrollgruppen für einen genauen Vergleich auswählen. Das menschliche Urteilsvermögen bleibt also für die Datenwissenschaft von entscheidender Bedeutung.

Aus diesen drei Gründen können die Berufe im Bereich Big Data nicht automatisiert werden. Ironischerweise könnte die Automatisierung, indem sie die Kosten für den Zugang zur Datenwissenschaft senkt, diese sogar für mehr Unternehmen erschwinglich machen und die Nachfrage nach Data Scientists steigern…

DataScientest News

Melde Dich jetzt für unseren Newsletter an, um unsere Guides, Tutorials und die neuesten Entwicklungen im Bereich Data Science direkt per E-Mail zu erhalten.

Möchtest Du informiert bleiben?

Schreib uns Deine E-Mail-Adresse, damit wir Dir die neuesten Artikel zum Zeitpunkt der Veröffentlichung zusenden können!
icon newsletter

DataNews

Starte Deine Karriere im Bereich Data: Erhalte regelmäßig Insiderwissen und wertvolle Karrieretipps in Deinem Posteingang.