La Data Science est de plus en plus utilisée en entreprise, mais 85% des projets échouent. Découvrez quelles sont les causes de ce phénomène alarmant, et quelles sont les solutions pour mener à bien vos projets...
Dans tous les secteurs, les entreprises se tournent aujourd’hui vers la Data Science et le Machine Learning. En théorie, ces technologies nouvelles peuvent apporter un avantage compétitif et stimuler la croissance des organisations.
Cependant, dans la pratique, l’implémentation de la science des données s’avère souvent plus difficile que prévu. Soyons clairs : selon une étude menée par Gartner, 85% des projets de Data Science échouent.
De même, d’après un rapport de Dimensional Research, seuls 4% des entreprises ont réussi à déployer des modèles de Machine Learning dans un environnement de production. Dans un contexte économique rendu encore plus difficile par la crise du COVID-19, il y a donc de quoi hésiter à lancer une initiative de science des données en 2020.
Toutefois, il serait dommage de passer à côté des nombreux bienfaits de la Data Science et du Machine Learning par peur de l’échec. En réalité, il existe plusieurs principaux facteurs expliquant ce phénomène.
Pourquoi les projets de Data Science échouent ?
Tout d’abord, beaucoup d’entreprises sont confrontées à ce que l’on appelle des silos de données. Alors que les données devraient être regroupées et nettoyées, elles sont souvent éparpillées entre plusieurs bases de données dans différents formats inadaptés à l’analyse.
Or, la qualité et la bonne gestion des données sont essentielles au bon déroulement d’un projet de Data Science ou d’IA. Malheureusement, la plupart des organisations ne disposent pas d’infrastructure de données requise et leurs données sont de piètre qualité.
La seconde cause de l’échec des projets de Data Science est la pénurie d’experts. En 2018, un rapport LinkedIn révélait un manque de plus de 150 000 Data Scientists et autres experts pour répondre à la demande des entreprises.
Un troisième problème est celui du manque de transparence. Les objectifs et ambitions des équipes techniques et business divergent, et la communication est insuffisante.
L’équipe de Data Science se focalisera par exemple sur la précision d’un modèle, tandis que les gestionnaires s’intéresseront davantage aux avantages financiers qu’il apporte. De plus, bien souvent, les modèles de Machine Learning fonctionnent en « boîte noire » et il est impossible de les interpréter.
Enfin, le dernier obstacle au bon déroulement des projets de Data Science est l’incompréhension partielle ou totale de la manière dont ces projets seront utilisés en production. Cette incompréhension empêche la science des données de créer une valeur réelle pour les entreprises.
Le pipeline de production est généralement géré par les équipes informatiques, et les équipes de Data Science n’ont donc pas de vision architecturale de la façon dont leurs projets y seront intégrés. De fait, les projets n’apportent pas les bénéfices attendus.
AutoML : l'automatisation est la clé du succès des projets de Data Science
L’une des solutions à ces différents problèmes est l’automatisation des processus de Data Science. De plus en plus d’entreprises se tournent vers cette option.
L’automatisation permet d’accroître la transparence, et d’améliorer en continu grâce à l’itération. Les plateformes AutoML permettent en effet d’automatiser les étapes itératives pour permettre de tester rapidement de nouvelles fonctionnalités ou de valider des modèles.
Même en cas d’échec, celui-ci surviendra plus vite et ses conséquences seront donc moins désastreuses. Les hypothèses d’échec peuvent être testées rapidement, et donc éliminées d’emblée. Ceci permet de réaliser d’importantes économies et d’accroître la productivité.
Par ailleurs, les modèles en « white box » sont importants puisqu’ils offrent des explications claires sur la façon dont ils se comportent, dont ils produisent des prédictions, et sur les variables qui les influencent. Il est donc préférable d’utiliser des modèles interprétables, tels que les arbres de décision ou les modèles linéaires.
En résumé, l’automatisation de la Data Science permet de gagner du temps, de développer et de déployer rapidement et d’effectuer facilement des ajustements. Les modèles de Machine Learning peuvent être modifiés avec les dernières données en date, et les entreprises peuvent explorer davantage de sources de données.
En conclusion, les outils AutoML permettent de mener à bien les projets de Data Science sans avoir à recruter d’experts supplémentaires. Découvrez tout ce que vous devez savoir sur l’automatisation de la science des données, et les 10 erreurs à ne pas commettre pour la qualité des données.