L'automatisation du Machine Learning et les outils AutoML représentent-ils une menace pour les Data Scientists ? C'est une question qui taraude de plus en plus de professionnels de la science des données, au même titre que les aspirants Data Scientists inquiets pour leur future carrière. Toutefois, pour le moment, l'automatisation complète de la Data Science semble peu probable.
Pour faire face à la pénurie de Data Scientists et autres ingénieurs en Machine Learning, de nombreux outils « AutoML » ont vu le jour au fil des dernières années. Ces outils d’automatisation du Machine Learning permettaient à l’origine d’éliminer les tâches les plus fastidieuses du développement de modèle de Machine Learning, voire de compenser l’absence de professionnels.
Toutefois, au fil des années, les différents frameworks AutoML ont évolué et se sont améliorés. Aujourd’hui, ils sont si performants qu’ils peuvent même surpasser les experts humains dans certains cas. C’est ce que révèle une étude menée par les chercheurs de l’institut allemand Fraunhofer.
Pour leur enquête, les chercheurs se sont appuyés sur 12 ensembles de données populaires de la plateforme OpenML. Six de ces datasets sont des tâches de classification supervisées, tandis que les six autres sont des tâches de régression supervisées. Il s’agit en effet des deux types de tâches d’apprentissage automatique les plus populaires.
L’équipe a également utilisé l’outil open source AutoML benchmark, proposant l’intégration complète de datasets OpenML pour de nombreux frameworks AutoML et des fonctionnalités de benchmarking automatisé. Les benchmarks ont été lancés avec les paramètres par défauts, définis dans config.yalk dans le projet AutoML Benchmark.
Quatre frameworks AutoML ont été passés en revue : TPOT, H2O, Auto-sklearn et AutoGluon. Certains comptent parmi les plus récents, d’autres parmi les plus populaires. On retrouve des frameworks dédiés uniquement au Deep Learning, et d’autres basés sur scikit-learn.
Le runtime par fold a été défini à une heure. Pour la classification supervisée, le meilleur des quatre frameworks a bénéficié d’un runtime a de cinq heures par fold, afin de pouvoir comparer ses résultats avec ceux des humains.
Pour les tâches de classification, les méthodes d’évaluation ROC AUC (auc) et « accuracy » ont été utilisées. Pour les tâches de régression supervisée, ce sont les méthodes root-mean-square-error (rmse) et mean absolute error (mae) qui ont été choisies.
En termes de hardware, les chercheurs ont utilisé un serveur équipé de deux CPU Intel Xeon Silver 4114 à 2,20 GHz pour un total de 20 coeurs, quatre modules de mémoire DIMM DDR4 Synchronous 2666MHz 64GB, et deux cartes graphiques NVIDIA GeForce GTX 1080 Ti pour un total de plus de 22GB de VRAM.
AutoML égale voire surpasse les Data Scientists dans plusieurs situations
À l’issue de ce test, les chercheurs ont découvert avec stupeur qu’AutoML se révèle aussi voire plus performant que les humains sur les métriques primaires dans 7 cas sur 12. Ces sept cas sont des tâches de classification ou de régression « faciles ». Ses performances sur les autres métriques ne présentent pas de différence significative.
Ainsi, l’étude conclue que la plupart des résultats obtenus par AutoML ne sont qu’un peu mieux ou un peu moins bien que ceux des humains. Le meilleur framework de classification supervisée, H2O, obtient un score AUC de 0,7892 en 5 heures par fold, contre 0,799 en une heure par fold.
À l’avenir, les chercheurs prédisent que l’écart entre les Data Scientists humains et AutoML va se resserrer. Cependant, sachant que les applications de Machine Learning sont principalement utilisées dans des cas interdisciplinaires, les outils AutoML ne peuvent pas faire office de solutions indépendantes. Ils doivent donc être perçus comme un complément pour les compétences des Data Scientists.
Pourquoi l'automatisation ne va pas " tuer " les Data Scientists ?
Malgré les performances d’AutoML, il est peu probable que l’automatisation fasse disparaître les métiers de la Data Science. Dans les domaines tels que le traitement de données ou la Data Visualization, elle permettra certes aux dirigeants d’entreprises de profiter plus facilement des bienfaits du Big Data sans intervention d’un Data Scientist humain.
Selon Gartner, environ 40% des tâches de Data Science seront automatisées d’ici la fin 2020. Cependant, il est peu probable que l’automatisation éradique cette profession, et ce pour trois principales raisons.
Tout d’abord, l’automatisation n’est finalement qu’un moyen d’accélérer les processus. Comme l’explique Alexander Gray, vice-président de l’IA chez IBM Reserach, « les Data Scientists embrassent les outils d’automatisation parce qu’ils leur permettent de gagner du temps et de penser plutôt que de s’adonner à des tâches fastidieuses ».
Les outils d’automatisation sont de plus en plus puissants et intelligents, et vont donc assister toujours plus les Data Scientists et modifier la façon dont ils travaillent. Ceci leur permettra d’en faire plus, et d’augmenter l’impact de leur travail au sein de leurs entreprises. Néanmoins, ils resteront des outils.
La seconde raison est que les outils automatisés ne peuvent « réaliser » qu’ils commettent des erreurs. Ces outils peuvent permettre de faire les choses plus vite et mieux, mais peuvent aussi propager les erreurs humaines très rapidement s’ils sont fondés sur de mauvaises bases.
Toujours selon Alexander Gray, même des équipes de chercheurs des meilleures universités mondiales peuvent commettre des erreurs de nuances statistiques résultant sur des modèles de données de piètre qualité.
Par conséquent, les Data Scientists resteront indispensables pour détecter les erreurs et comprendre les principes sous-jacents des outils. D’autant plus qu’à mesure que l’intelligence artificielle prendra de la place dans nos quotidiens, la moindre erreur pourra avoir un lourd impact.
La troisième raison, et peut-être la plus importante, est que seuls les humains peuvent comprendre véritablement les problèmes qu’une organisation doit résoudre. Le défi de la Data Science n’est pas toujours uniquement technique, et n’importe quel professionnel peut en témoigner.
Le Data Scientist doit être capable d’interpréter un problème correctement, afin de sélectionner la source de données adéquate ou même d’interpréter les résultats convenablement. Il devra par exemple définir un cadre temporel pour les analyses de données ou choisir les groupes de contrôles adéquats pour une comparaison précise. Le jugement humain reste donc essentiel à la science des données.
Pour ces trois raisons, les métiers du Big Data ne peuvent pas être automatisés. Ironiquement, en faisant baisser les coûts d’accès à la science des données, l’automatisation pourrait même la rendre abordable pour davantage d’entreprises et faire croître la demande en Data Scientists…
En conclusion, les Data Scientists ont de beaux jours devant eux. Pour en savoir plus, découvrez notre dossier sur le Deep Learning et notre formation de Data Scientist.