Engie Digital : l’enjeu de la data science pour les énergies renouvelables

lundi 21 septembre 2020

Paul Poncet est à la tête d’une équipe de data scientists et data engineers chez Engie Digital pour la plateforme Darwin, dédiée aux énergies renouvelables. Il est également à l’origine du projet open data de parc éolien.

Face au défi de la transition énergétique, faire en sorte que les énergies renouvelables gagnent toujours plus en compétitivité face aux énergies traditionnelles est essentiel. Car bien que la part d’utilisation des énergies renouvelables soit globalement en hausse et notamment en France, au niveau mondial le charbon reste encore très utilisé de par son faible coût et malgré son impact écologique fort. Cela passe notamment par :

la minimisation du coût d’exploitation-maintenance,
la minimisation des indisponibilités,
la maximisation de la durée de vie des actifs,
la maximisation de la production d’électricité.

La plateforme Darwin

Engie est le leader du solaire et de l’éolien en France. Engie ne construit pas d’éoliennes mais en achète à de grands constructeurs, les installe puis les exploite pendant 20 à 25 ans. Dès lors, il convient de répondre à la question suivante : comment s’assurer du bon fonctionnement des installations ?

Pour améliorer encore les performances opérationnelles de ses parcs et développer la maintenance prédictive, le Groupe a donc conçu Darwin au début de l’année 2017. Cette plateforme digitale unique est un outil de gestion et d’analyse de données qui se connecte à l’ensemble des centrales de production d’énergies renouvelables (éolien, solaire, hydroélectricité, biogaz) du Groupe à travers le monde.

En raccordant en temps réel les parcs d’énergies renouvelables d’Engie au système Darwin, Engie Digital peut fournir aux parties prenantes de ces parcs les solutions disponibles sur la plateforme de suivi en temps réel, d’analyse de données, de forecasting, de reporting, de comparaison, de détection de sous-performance et de maintenance prédictive.

Cas d’usage et méthodologie

L’équipe de data science d’Engie reçoit des questions très concrètes des exploitants et mainteneurs intervenant sur les champs d’éoliennes. Citons par exemple :

Comment vérifier la bonne implémentation des programmes de bridage sur les éoliennes, programmes ayant pour but d’en atténuer les nuisances sonores ?
Comment estimer la durée probable d’arrêt d’une éolienne ?
Comment détecter la sous-performance d’une éolienne ?
Comment mieux connaître le rôle de la météo dans la performance des équipements ?
Comment détecter les éoliennes qui s’alignent mal par rapport au vent ?

Pour répondre à ces questions la méthodologie de l’équipe est la suivante :

Analyse et investigation
Conception de l’algorithme et prototypage
Finalisation du développement et mise en production

Les deux premières phases pouvant être très itératives. Par la suite, les outils et algorithmes mis en production viennent eux-mêmes aider aux phases d’analyse et d’investigation de nouveaux cas d’usage, créant ainsi un cercle vertueux.

Pour construire des algorithmes de détection d’anomalies, deux approches sont utilisées : la comparaison entre équipement voisins de même nature et l’étude des données de l’actif lui-même, principalement au travers de son propre historique de données.

Au-delà de la phase de modélisation proprement dite, nous trouvons aussi parmi les tâches les plus importantes :

Le preprocessing de données : phase cruciale permettant de distinguer les « outliers » (données physiquement impossibles), les données correspondant à des situations anormales, et les données normales mais correspondant à des situations hors du champ du cas d’usage métier considéré, qui constituent en tant que tel une étape importante de tout modèle de machine learning.
La data visualization : corollaire clé des modèles afin de communiquer avec toutes les équipes des informations faciles à comprendre et lisibles ou interprétables au premier regard.
Les raisonnements mathématiques : notamment pour combler les aspects qui ne sont pas couverts par les principales librairies R ou Python.
La conception et l’adoption de standards dans le code afin de pouvoir codévelopper avec un écosystème d’autres contributeurs en data science localisés dans le monde entier.

Enfin par certains aspects, l’équipe data science se rapproche d’une équipe de développement classique (qualité de code, reproductibilité, performance pour la mise en production, délivrabilité, etc.) mais avec quelques spécificités comme une phase de R&D parfois très importante, une certaine incertitude quant à l’issue des résultats, une équipe elle-même utilisatrice des produits délivrés et une culture de la modularité (packaging R ou Python, services interopérables…).

Feuille de route 2020

Jusqu’à présent, les équipes d’Engie Digital ont beaucoup travaillé sur les problématiques en lien avec l’éolien. Ils souhaitent donc désormais accentuer davantage leurs efforts sur le domaine du solaire afin d’optimiser la production et la maintenance des parcs de panneaux solaires.

Un deuxième objectif serait d’approfondir le travail déjà engagé sur l’hydro-électricité. Un projet est d’ailleurs en cours entre des élèves du Mastère Spécialisé Big Data et les équipes d’Engie Digital.

Un troisième axe de leur feuille de route est d’être capable de gérer les anomalies rencontrées en production de manière plus automatisée, ainsi que de pouvoir plus facilement contrôler leurs algorithmes. L’idée étant de les rendre plus adaptatifs. Parallèlement à cet axe, un effort sera porté sur l’analyse des causes profondes des pannes.

Le système ALPHEE actuellement en production permet de visualiser et suivre au jour le jour les anomalies rencontrées sur les différents parcs éoliens. Les équipes d’Engie Digital souhaiteraient construire un système d’alerte qui viendrait se positionner au-dessus du système ALPHEE. Cela irait dans le sens de leur troisième axe de développement visant à automatiser la remontée d’anomalies.

Un axe supplémentaire, parmi encore de nombreux autres est d’enrichir leur base de données tout en mettant au point un outil de labellisation automatique des données des séries temporelles archivées.

En savoir plus sur Engie Digital

Compte-rendu du séminaire industriel des MS rédigé par François Cuilière, Thomas Koch et Rodolphe Simoneau, étudiants du Mastère Spécialisé Big Data promotion 2019-2020.