Le 31 mai dernier, DataScientest recevait Mathilde Gaudefroy et Rudy Plissonneau dans son événement hebdomadaire D_CODE. Respectivement Cloud Solution Architect et Cloud Architect chez Microsoft, Mathilde et Rudy ont présenté à notre communauté les enjeux du cloud pour la data science.
Qu’est-ce qu’un architecte cloud ?
Le rôle d’un architecte cloud est de comprendre les besoins du client afin de les retranscrire techniquement en proposant des services et des innovations adaptées aux métiers qui le sollicitent.
L’architecte cloud est un intermédiaire entre les clients et les solutions techniques, celui-ci peut ainsi faire remonter les remarques des clients lorsque les solutions proposées ne coïncident pas avec leurs besoins. Il agit donc sur la road map de l’entreprise en proposant des nouvelles fonctionnalités attendues sur le marché.
Les 3 tendances Cloud et Data Sciences
Azure répond principalement à 3 types problématiques en entreprise :
- Automatisation de workflows
Le déploiement de modèles de machine learning passe progressivement d’un mode « artisanal » à un mode « industriel ». En effet, les modèles ne peuvent plus être déployés manuellement à cause de leur nombre, ainsi chaque entreprise doit adapter ses outils pour automatiser les étapes d’entraînement et de mise en production.
L’enjeu est également d’intégrer l’automatisation dans la prise de décisions. On ne parle plus de prédiction mais de prescription en créant des règles d’action en fonction des données de sortie des modèles.
- Collaboration
Les équipes ont besoin d’outils leur permettant de collaborer de suivre la progression des projets et faciliter l’échange avec les équipes opérationnelles qui seront clientes des applications créées.
En effet, une bonne collaboration avec les équipes permet de traiter en amont les points bloquants entre les Data Scientists et les équipes « métier » pour assurer que l’application data créée soit en adéquation avec les missions de chacun.
Cette collaboration permet également d’assurer la gouvernance des modèles en définissant au préalable les rôles et les accès qu’aura chaque utilisateur.
- Accélération
L’accélération est liée à l’automatisation des workflows. Ainsi, cette accélération passe par le MLOps qui permet de déployer des modèles et de les monitorer pour vérifier leur niveau de performance sur les nouvelles données traitées.
Dans cette optique, Azure utilise des techniques avancées comme le reinforcement learning qui permet d’améliorer les prédictions d’un modèle en l‘adaptant aux nouvelles données collectées.
Les 4 piliers du cloud Microsoft
- Une plateforme accessible à tous
L’intégration de solutions cloud et data dans chaque activité repose sur la collaboration entre les data scientists et les utilisateurs « métiers ». Pour faciliter cette collaboration, Microsoft a créé un environnement qui s’adapte à tous les niveaux d’expertise :
– Notebooks : pour les développeurs, des notebooks sont accessibles et flexibles. Plusieurs experts peuvent collaborer sur les mêmes projets et le système possède un système de suggestions intelligentes de code. Les data scientists ont également la possibilité de choisir la puissance de calcul et le stockage dont ils ont besoin, par exemple l’utilisation d’un GPU pour du deep learning.
– Automated Machine Learning: pour les profils moins techniques qui ont des missions plus opérationnelles, ce dispositif permet d’entrer des données, choisir la prédiction souhaitée (régression, classification ; etc.) et des modèles pré-entraînés de Machine Learning peuvent proposer des prédictions.
– Designer : à mi-chemin entre le notebook et Auto ML, cet outil est destiné à des profils ayant des notions en data sciences (scoring, séparation des jeux de test et d’entraînement, modèles prédictifs, etc.). L’utilisateur peut sélectionner des tâches parmi la liste des actions classiques en data science sans coder.
- Suivi du cycle de vie avec le MLOps
Le MLOps consiste à automatiser au maximum les processus d’extensibilité, de réentrainement et de déploiement des modèles pour être les industrialiser.
Le MLOps s’apparente à du DevOps avec une complexité supplémentaire liée aux données. Celles-ci évoluent et influent sur la performance des modèles en place. Ainsi un suivi permanent est primordial pour maintenir l’efficacité des solutions déployées.
L’objectif du MLOPs est d’éliminer le plus d’opérations manuelles possibles lors du cycle de vie des modèles.
En effet, sans MLOPs soit les modèles ne sont pas mis à jour et deviennent obsolètes sur les nouvelles données traitées soit ces opérations restent manuelles et l’organisation va forcément manquer de ressources lorsque le nombre de usecases va augmenter.
- Création de modèles éthiques et responsables
La sécurité et l’aspect éthique ne doivent pas être négligés lors de l’automatisation des modèles. Les architectes cloud doivent donc comprendre et savoir expliquer le comportement du modèle pour évaluer et atténuer la partialité d’un modèle, empêcher l’exposition des données et des modèles, documenter et contrôler le cycle de vie de la donnée et des modèles
Par exemple, une application qui sélectionne des CV dans un processus de recrutement doit être contrôlée pour détecter des biais et vérifier que celle-ci ne prend pas de décisions injustes, basées par exemple sur l’âge ou le sexe des candidat(e)s
- Open & Interoperable
L’environnement proposé par Azure est flexible et ouvert aux frameworks et environnements de développement utilisés sur le marché. Vous pouvez ainsi utiliser des outils dont les écosystèmes sont maintenus et supportés avec des librairies innovantes, sécurisées et responsables.
Cette flexibilité passe également par des IDE (Integrated Development Environment) qui permettent aux développeurs de gagner beaucoup de temps en facilitant le développement car les notebook ont aussi leurs limites. En effet, un Data Engineer va avoir besoin d’un IDE comme pycharm ou encore Visual Studio Code.
Toutes les librairies python open source sont disponibles sur Azure qui propose même un support sur des utilisations lourdes de celles-ci. Par exemple, lorsqu’une entreprise utilise Pytorch (librairie de deep learning open source), elle n’a aucun référent en cas de problème, ainsi Microsoft propose un service de support.
DataScientest et Azure
Les avantages du cloud Azure dans le développement et le déploiement de solutions data nécessitent de former des équipes à son utilisation.
Microsoft a créé plusieurs certifications qui valident différentes compétences et différents niveaux sur les solutions Azure. DataScientest est habilité par Microsoft pour préparer des candidats à ces certifications. Nous proposons des formations intensives à distance pendant lesquelles un MCT (Microsoft Certified Trainer) vous présente chaque notion en masterclass (visioconférence) puis vous propose un exercice pratique pour mettre en application la notion sur un cas d’usage.
Vous souhaitez en savoir plus sur le cursus Azure dispensé par DataScientest?
Remplissez le formulaire suivant et nous vous recontacterons: