JPO : Webinar d'information sur nos formations → RDV mardi à 17h30.

Mieux comprendre les enjeux liés à l’énergie électrique en France grâce à la mise en œuvre d’un projet Data

ejemplo_fonciones

Julien Dutour, ambassadeur chez DataScientest et alumni de notre cursus Data Analyst nous présente le projet fil rouge mené au cours de sa formation.

Afin de mettre en pratique nos compétences de façon concrète, la formation Data Analyst proposée par DataScientest prévoit un projet « fil rouge » qui se déroule tout au long du cursus. Mon groupe a été choisi pour traiter le thème de l’énergie électrique en France. Les modules de compétences à valider pendant la formation sont répartis de façon à s’ajuster aux travaux d’avancement du projet. A titre personnel, les enjeux liés à l’énergie m’ont toujours intéressé. La mise en œuvre de ce projet m’a permis de constater de façon scientifique ce que j’avais déjà appris.

Un projet Data passe toujours par les mêmes étapes :

  • prendre connaissance du contexte du projet ;
  • extraire et s’approprier les données ;
  • nettoyer les données ;
  • réaliser des dataviz explicites ;
  • conceptualiser le problème dans un modèle de machine learning ;
  • tester la fiabilité du modèle.

Nous nous sommes d’abord renseignés sur le contexte du projet et avons vite perçu son enjeu principal : l’énergie électrique ne se stocke pas, il faut que la production soit en permanence adaptée à la consommation. Nous allions devoir établir un modèle de machine learning capable de prédire, à tout moment et de façon suffisamment précise, la consommation électrique.

Nous avons ensuite exploré et analysé le jeu de données. Cette étape a été l’occasion de mettre en œuvre nos nouvelles compétences en langage Python. Le dataset, dénommé Eco2Mix est fourni en Open Data par RTE, l’opérateur national de distribution d’électricité. Il contient principalement des informations relatives à la consommation électrique et à la production pour les différentes filières (nucléaire, éolien, solaire, thermique…). Les données sont actualisées toutes les demi-heures et regroupées au niveau régional.

Le dataset est d’excellente qualité : aucun doublon et très peu de données manquantes. En revanche, et c’est là qu’il est essentiel de connaître le sujet, nous avons observé de fausses NaN concernant la production dans la filière nucléaire. Ces NaN correspondaient en réalité à des régions dépourvues de centrales nucléaires. Nous les avons donc remplacés par des valeurs nulles.

La réalisation des dataviz n’a pas posé de réelles difficultés du point de vue de la technicité. En revanche, elle a impliqué une très bonne connaissance du contenu des données, et au-delà, de leurs enjeux. Même si cela n’était pas une surprise, nous avons pu constater que la production électrique française repose largement sur le nucléaire ainsi que le caractère nettement intermittent du solaire et de l’éolien. Les visuels ont également montré le déclin relatif de la capacité de production nucléaire et la réduction de la marge excédentaire entre production et consommation, notamment en 2020 et 2021. Ceci explique les communications gouvernementales de ces deux dernières années au sujet de possibilités de ruptures d’approvisionnement électrique pendant l’hiver.

Par ailleurs, nous avons noté que certaines régions sont massivement exportatrices d’électricité, comme la région Centre-Val de Loire qui dispose d’un parc nucléaire important, dépassant très largement ses propres besoins. A l’inverse, d’autres régions comme la Bretagne ou l’île de France sont très dépendantes des autres pour leur approvisionnement. Le cas de la Bretagne est plus problématique car cette région, placée en fin de réseau, est plus vulnérable aux coupures de courant.

Pour finir, nous avons observé que la consommation électrique obéit à un triple cycle :

  • Saisonnier : consommation plus importante en hiver pour le chauffage et l’éclairage. Consommation réduite également pendant les vacances scolaires et les jour fériés ;
  • Hebdomadaire : diminution des besoins le week-end, surtout le dimanche ;
  • Quotidien : pics d’activités pendant les heures de bureau et aux heures de retour à domicile des habitants.

Ces cycles reflètent clairement le rythme d’activité de notre pays. Leur compréhension est d’ailleurs l’une des clés pour élaborer un modèle de machine learning performant.

Les données fournies par RTE nous ont évidemment été utiles mais elles ne suffisent pas à elles seules pour élaborer un modèle de machine learning performant. Nous avons donc dû rechercher d’autres données susceptibles d’alimenter efficacement le modèle.

Là encore, le travail d’un Data Analyst ne se borne pas à travailler les données. Il doit comprendre leur contexte afin de les exploiter au mieux. En ce qui nous concerne, nous devions trouver les données les plus à même de quantifier les niveaux de consommation et d’expliquer leur variation.

Concernant les variations, les données temporelles fournissaient une bonne base mais ne suffisaient pas à elles seules. Il était évident pour nous que le niveau des températures avait un rôle à jouer. Nous avons donc utilisé les données Open Data de Météo France. Leur intégration dans notre base existante n’a pas été simple car les intervalles d’observation n’étaient pas les mêmes, avec en plus une différence entre les horaires d’observation pendant les heures d’été et d’hiver pour les données météo. Rien d’insurmontable cependant avec un peu d’astuce et de codage Python.

L’intégration des vacances scolaires et des jours fériés a permis d’affiner un peu plus le modèle.

Pour quantifier les niveaux de consommation, nous nous sommes tournés vers les données régionales de l’INSEE. Nous avons retenu la population ainsi que les niveaux d’activité économique dans les secteurs agricole, industriel et tertiaire. Ce choix était particulièrement judicieux car les taux de corrélation avec la consommation électrique se sont avérés particulièrement élevés (0,8 pour la population et l’industrie, 0,68 pour le tertiaire). Bien que significatif, le lien de corrélation entre températures et consommation était moins important (anti corrélation de 0,3).

Une fois les données les plus pertinentes collectées, nous avons mis en place un modèle de régression destiné à prédire la consommation à un moment quelconque de l’année. Le plus simple s’est finalement révélé le plus efficace : le modèle de régression linéaire avec conservation des hyperparamètres par défaut nous a permis de prédire la consommation électrique avec un score R2 de 0,9 pour la prévision journalière et de 0,88 pour la consommation à une heure précise.

Au delà de la mise en œuvre de compétences nouvellement acquises, ce projet nous a permis de mener à bien un cycle de travail complet sur une problématique concrète, depuis la découverte des données jusqu’à la mise en place d’un modèle prédictif efficace. La fluidité des échanges et l’utilisation des divers outils collaboratifs m’ont par ailleurs conforté dans mon projet personnel qui est de trouver un emploi dans la Data en distanciel total depuis l’Asie.

foncion_decreciente

Si vous aussi, vous souhaitez travailler sur un projet data, DataScientest propose des formations data qui vous apportent tous les outils et compétences nécessaires pour le réaliser.

Facebook
Twitter
LinkedIn

Tag de l'article :

Vous souhaitez être alerté des nouveaux contenus en data science et intelligence artificielle ?

Laissez-nous votre e-mail, pour que nous puissions vous envoyer vos nouveaux articles au moment de leur publication !

Newsletter icone

S'inscrire à la JPO :

Vous souhaitez recevoir notre newsletter data 💌 hebdomadaire ?