Ça y est nous sommes officiellement diplômés en Data Management ! Pendant 3 mois, nous avons suivi la formation dédiée chez DataScientest et nous avons découvert ce métier passionnant. Plutôt que de vous en donner une définition académique, nous souhaitions plutôt partager avec vous les compétences acquises durant cette formation et plus particulièrement notre projet fil rouge.
Pour ce projet, nous avons choisi de nous mettre dans la peau de Data Managers au service de Médecins sans frontières. Notre objectif était d’analyser des données démographiques issues de l’Organisation Mondiale de la Santé (OMS) sous un angle pertinent, afin d’orienter la définition du data manager autour d’un projet concret et des compétences qu’il met en pratique. La réalisation de ce projet par ce scénario fictif nous a permis d’adopter une vision d’ensemble du management des données. Nous avons réalisé que nos rôles étaient centraux dans l’analyse des données. En effet, un Data Manager doit avoir cette vision macroscopique des sujets sur lesquels il travaille et être en capacité de comprendre les enjeux des analyses de la data (data quality, data access…). Le Data Manager doit aussi savoir coordonner les projets avec les équipes marketing, métier et business intelligence et être en lien avec la réalité terrain sur les plans juridique et réglementaire.
Nous sommes Manale et François, et avons choisi de partager avec vous nos découvertes au travers de cet article.
Moi, Manale, je suis Data Strategist chez Air Liquide Santé International dans le Data Office. Concrètement, mon rôle est de comprendre les enjeux de la donnée dans la santé et ce que ça peut apporter à la qualité de vie des patients puis de construire une vision et une feuille de route réalistes avec différentes équipes (business, IT, juridique, réglementaire…). Sinon j’ai fait un doctorat en Neurosciences à l’Institut du Cerveau et de la Moelle (ICM) à l’hôpital de la Pitié Salpêtrière et un MBA au Collège des Ingénieurs. J’ai rejoins le parcours de Data Manager de DataScientest afin de monter en compétences sur mon poste et bien appréhender les enjeux de la data et tout particulièrement comment mener à bien des projets data en entreprise.
Moi c’est François, je suis consultant chez Innopublica, un cabinet conseil en stratégie et valorisation des données d’intérêt général. J’ai un Master 2 en informatique appliquée aux Géosciences et j’ai travaillé dans la conception et la mise en œuvre de Systèmes d’Information dans des organismes publics et parapublics, ainsi qu’en collectivité territoriale pendant près de 20 ans. Bien que je ne sois pas complètement étranger au monde de la data, je recherchais depuis quelque temps une formation pour enrichir mes connaissances sur la mise en qualité et la valorisation des données, et mieux appréhender les attentes des Data Analysts et Engineers.
Un peu de contexte
La formation en Data Management a la particularité d’intégrer en plus des modules d’apprentissage, qui se déroulent à distance, un projet devant être réalisé en groupe de 2 à 3 personnes. Il a pour objectif de mettre en pratique les connaissances acquises durant la formation en résolvant une problématique métier. Il représente donc une part importante de la formation et débute très tôt dans le planning. Nous avons choisi le sujet portant sur l’analyse de données de santé issues de l’OMS sans trop savoir dans quelle aventure nous nous embarquions. Nous nous sommes retrouvés face à 39 jeux de données (datasets) à analyser dont la thématique nous était totalement inconnue.
Chaque dataset correspondait à l’évolution d’un indicateur spécifique, tel que le taux de mortalité ou de survie en fonction de tel ou tel paramètre, le nombre de personnes ayant accès à l’eau potable ou à des sources d’énergie propres, etc. En grande majorité ces indicateurs sont présentés avec une répartition géographique et temporelle variable : par pays à l’échelle mondiale ou continentale, sur une ou plusieurs dizaines d’années. Vous pouvez retrouver ces datasets sur Kaggle :
Notre approche
En abordant ce projet, nous avons choisi de nous mettre dans la peau de Data Managers au service de Médecins sans frontières. Cet angle original et parlant nous a permis de proposer une restitution intéressante et valorisante du sujet en trouvant une problématique claire et cohérente et en évitant de faire une analyse simpliste, linéaire et individuelle de chaque indicateur. En tant que data managers il nous était donc demandé individuellement :
- D’analyser une situation à partir de données de l’OMS mises à disposition ;
- De restituer cette analyse de façon claire et visuelle afin de mettre en avant les éléments critiques dans le but d’une utilisation pédagogique.
- D’identifier les causes possibles de cet état de fait ;
- Et enfin, de proposer des solutions crédibles d’amélioration des situations constatées. Nous avons également tenté de dégager des pistes de réflexion au niveau des données pour que des équipes de Data Analysts et Scientists puissent approfondir les sujets abordés.
Le déroulé
Nous avons réalisé ce projet en 3 étapes principales, qui nous semblent être conformes à la classique pyramide DIKW, c’est-à-dire qu’en partant de données brutes nous avons pu proposer des éléments d’aide à une prise de décision éclairée et factuelles.
Etape 1 — le profilage des datasets
Cette étape nous a permis d’affiner la sélection des datasets, de les mettre en qualité et de définir clairement le périmètre de nos cas d’usage, c’est-à-dire d’identifier au niveau mondial l’influence du manque de ressources médicales, d’un accès restreint à des conditions sanitaires élémentaires et enfin certains types de pollution, sur respectivement les mortalités maternelles et infantiles, l’espérance de vie et l’espérance de vie en bonne santé.
Ce premier examen des données nous a également permis de proposer des synthèses exploitables de chacun des ces 3 cas d’usage et donc d’avoir une vision de la situation mondiale.
Nous avons ici mis en application une grande partie des connaissances acquises en développement Python et plus particulièrement la maîtrise des bibliothèques incontournables pour le nettoyage et l’analyse des données, à savoir Pandas, Geopandas, Numpy, Matplotlib ou encore Seaborn.
Il ressort que pour la quasi-totalité des indicateurs de nos 3 cas d’usage, la situation est la plus critique en Afrique subsaharienne et en Asie centrale avec de forts écarts par rapport au reste du monde comme l’illustrent les quelques dataviz suivantes :
Etape 2 — l’analyse croisée des données
Dans un second temps, suite à l’analyse des différents datasets et les frappants résultats concernant l’Afrique subsaharienne, nous avons voulu mettre en lumière les liens possibles entre les indicateurs d’espérance de vie et de mortalité (mortalité liée à des maladies de type cancer, diabètes et maladie respiratoires chroniques) avec les indicateurs reflétant l’accès à des équipements sanitaires basiques, l’accès à de l’énergie propre et l’accès à de l’eau potable.
Cette étape nous a fait comprendre l’importance de la qualité et de l’homogénéisation des données. Durant notre analyse, nous nous sommes rendus compte que les données de certains pays, ou rattachées aux moyens d’assainissement manquaient dans nos datasets. En conséquence, nous n’avons pas pu prendre en compte certains paramètres ce qui a dégradé la qualité de notre analyse.
Pour visualiser les liens, nous avons évalué les corrélations entre chaque variable ensuite représentée dans une Heatmap et un Pairplot :
Cette étape nous a permis de déterminer quelles variables étaient fortement corrélées. Il faut être précautionneux lors de ces analyses, car corrélation ne veut pas dire causalité. Cependant, cela nous donne des pistes intéressantes pour identifier les pistes à creuser plus en profondeur par des équipes de data analysts ou data scientists.
Dans notre exemple, on observe une faible corrélation entre la mortalité liée à des maladies type cancer et diabète et les conditions sanitaires, l’accès à l’eau potable et l’accès à de l’énergie propre. Par contre, ces 3 derniers paramètres sont très fortement corrélés à l’espérance de vie et surtout l’espérance de vie en bonne santé. Ces résultats nous donnent une bonne idée macroscopique des facteurs influant fortement sur l’espérance de vie en Afrique subsaharienne ce qui permet de focaliser de futures études plus poussées sur ces axes de travail.
Etape 3 — formulation de propositions de solutions et l’identification d’axes d’amélioration
L’interprétation des analyses croisées nous a permis de proposer quelques leviers qui pourraient permettre d’améliorer à court et moyen terme les situations observées en Afrique subsaharienne et au Moyen-Orient, sans forcément nécessiter des investissements importants. Ainsi, pour pallier le manque de personnel médical qualifié et de conditions sanitaires suffisantes, qui semblent être les facteurs influençant le plus les indicateurs de mortalité et d’espérance de vie, il pourrait être intéressant de renforcer les actions de sensibilisation/formation à destination des populations isolées aux conditions d’hygiène élémentaire, aux gestes de premiers secours et à l’accompagnement à l’accouchement. De plus, ces formations pourraient être accompagnées par la fourniture de sets de matériels incluant à minima des masques et gants chirurgicaux et du gel hydro-alcoolique.
Pour une amélioration significative sur du plus long terme, il nous apparaît également intéressant de favoriser le développement d’entreprenariats locaux portant sur les énergies renouvelables et l’accès à l’eau potable (accès, mise en qualité ou encore assainissement). Dans ce contexte, le développement de l’inclusive business nous semble être une démarche pertinente pour ces créations pérennes de valeurs qui permettrait ainsi de faire rentrer ces populations fragilisées dans un cercle vertueux.
Bien évidemment, nous avons conscience que ces recommandations s’appuient sur des analyses réalisées sur une courte période dans cadre d’apprentissage, et souffrent donc de quelques lacunes qu’il serait indispensable de combler dans un contexte professionnel. Nous pensons aux éléments suivants, qui ne sont pas exhaustifs :
- Travailler sur des échelles temporelles plus importantes (si les données disponibles le permettent), car pour certains de nos indicateurs elles étaient trop courtes pour établir des conclusions pertinentes, par exemple pour ce qui concerne les pollutions environnementales ou le changement climatique.
- S’appuyer sur des collaborateurs issus de différents métiers (médical, social, environnement, etc.) afin d’intégrer de nouveaux paramètres permettant d’affiner les interprétations des analyses, par ex. le niveau de vie, la densité de population, etc.
- Mettre en perspective les résultats au regard des différents contextes géo-politiques et historiques pour mieux appréhender, entre autres, les données extrêmes ou aberrantes.
Pour aller plus loin, afin de pouvoir proposer des solutions préventives plutôt que curatives, ou encore pour pouvoir mesurer le bénéfice des actions mises en place par rapport aux scénarios envisagés, il serait également intéressant de travailler sur des modèles prédictifs d’évolution des indicateurs avec des équipes de Data Scientists.
Pour conclure
Ce projet nous a permis de mettre en pratique relativement rapidement une grande majorité des concepts assimilés au cours de la formation, dans des conditions qui semblent, par expérience, très proches de celles que nous rencontrons au quotidien avec les data. Nous avons pu étudier un nombre important de sources hétérogènes, tant sur la volumétrie, que les thématiques abordés, ou sur les structures et la qualité. À noter également, que comme bien souvent, le manque de métadonnées et de contexte métier ne nous ont pas facilité la tâche pour appréhender ces données.
Néanmoins, nous avons réussi à rassembler les méthodes et les outils dont nous avions besoin ou à les créer s’ils n’étaient pas disponibles. Ces méthodes et outils nous ont permis de sélectionner les datasets qui nous étaient utiles, les mettre en qualité, réaliser des analyses avancées et les restituer afin de faciliter une prise de décisions éclairée et fiable. Ils nous ont permis également d’envisager la mise en œuvre d’un projet de Data Sciences orienté usage, ce qui nous semble faire pleinement partie des activités du Data Manager.