Puissance des algorithmes IA : revoir la régulation de nos données publiques ?
Yanis Fadili, doctorant à Télécom Paris, octobre 2025
Yanis Fadili a reçu le prix « Outstanding Paper Award » dans la catégorie des articles de recherche qui contribuent le plus à éclairer le monde professionnel, lors de la conférence IEEE Artificial Intelligence for Sustainable Innovation à Kuala Lumpur, en Malaisie, le 26 août 2025.
Ses travaux s’inscrivent dans le cadre de la Chaire Identité Numérique Responsable, pilotée par Valérie Fernandez, qui co-dirige sa thèse avec Thomas Houy.
Yanis Fadili est diplômé de l’école supérieure d’ingénieur Léonard de Vinci (Master Data et Intelligence Artificielle) et de SKEMA Business School (UPMOST) ; il allie expertise technique et management. Aujourd’hui data manager à IP Paris et doctorant à Télécom Paris, il a récemment publié un article primé sur les risques liés à l’open data.
Propos recueillis par Isabelle Mauriac
Référence
- Fadili Y., Fernandez V., Houy T., Guérard G. (2025) : AI-Driven Behavioral Inference from Open Energy Data: Implications for Public Data Governance (Inférence comportementale pilotée par l’IA à partir de données énergétiques ouvertes : implications pour la gouvernance des données publiques) – IEEE Artificial Intelligence for Sustainable Innovation, Kuala Lumpur, Malaisie.
Résumé
- Faut-il repenser l’accès aux données publiques à l’ère des algorithmes tout-puissants ? Les travaux du doctorant Yanis Fadili, récompensés par le prestigieux « Outstanding Paper Award » lors de la conférence IEEE Artificial Intelligence for Sustainable Innovation à Kuala Lumpur, soulèvent une question brûlante : l’open data, pilier de la transparence, pourrait-il devenir une porte ouverte sur notre intimité ?
- L’open data est une avancée majeure pour la transparence et l’innovation, mais aujourd’hui, la puissance des algorithmes d’intelligence artificielle génère de nouvelles menaces en permettant, à partir de nos « identités numériques passives », de révéler des informations sur les individus.
- À partir de simples relevés de température, Yanis Fadili a démontré comment l’intelligence artificielle peut reconstituer des pans entiers de nos existences – présence à domicile, habitudes de consommation, modes de vie. Un raisonnement valable pour bien d’autres données, de la consommation énergétique aux capteurs urbains. Ces « identités numériques passives », exploitées à des fins malveillantes, transforment l’open data en arme à double tranchant.
- Vers une régulation centrée sur la puissance des algorithmes ? Ses recherches, menées au sein de la Chaire Identité Numérique Responsable de Télécom Paris, sous la direction de Valérie Fernandez et Thomas Houy, interrogent : faut-il sacrifier l’ouverture des données pour protéger notre vie privée ? Ou inventer un nouveau cadre, capable de concilier transparence et protection face à des algorithmes toujours plus intrusifs ?
L’open data, un problème de sécurité majeur
Tout a commencé en master, lorsque nos professeurs nous faisaient travailler sur data.gouv.fr, la plateforme qui centralise les jeux de données publics français. En septembre 2020, je me suis entraîné sur différents datasets (jeux de données), et quand j’ai eu l’opportunité d’enseigner à mon tour, j’ai reproduit ce modèle avec mes étudiants de Master 1.
Guillaume Guérard, mon co-auteur, m’a suggéré de creuser la question de l’open data. À l’origine, je m’intéressais aux smart cities, mais les deux sujets se recoupent : de nombreuses villes publient leurs données énergétiques pour afficher leur transparence et leurs performances en développement durable.
Par exemple, en appliquant un algorithme comme le DTW (Dynamic Time Warping) sur des données de consommation énergétique, il est possible de détecter des routines, des motifs d’absences ou de présence dans un quartier.
Concrètement : sur data.gouv.fr, n’importe qui peut télécharger un dataset sans contrôle. Avec un environnement comme Google Colab, un peu de nettoyage de données et un échantillon représentatif, on peut faire parler ces données. Le DTW permet de comparer des séries temporelles et de générer des graphiques révélant, par exemple, qu’un logement est inoccupé à certaines heures. C’est ce qu’on appelle l’inférence comportementale.
Les données énergétiques, portes ouvertes
Oui, nous avons utilisé un dataset de consommation énergétique par quartier, par résidence, par parcelle. En croisant ces données avec un algorithme, on obtient des heatmaps (cartes thermiques) indiquant si les habitants sont présents ou absents. Mais ce principe s’applique à tous les capteurs d’une ville intelligente : ensoleillement, transports, pollution…
Le principal danger est la violation de la vie privée. Quand data.gouv.fr a publié ces données, l’objectif n’était pas de permettre à des acteurs malveillants de savoir qui est chez soi et qui ne l’est pas. Mais avec des algorithmes toujours plus puissants, ces données anonymisées deviennent un outil de surveillance potentielle, entre les mains d’acteurs privés ou publics.
Identité numérique, active et passive
Pour comprendre, prenons son contraire : l’identité numérique active. C’est tout ce que nous choisissons de publier en ligne, avec notre consentement explicite – un profil LinkedIn, un site web, un post sur les réseaux sociaux.
L’identité numérique passive, elle, regroupe toutes les données collectées sans notre consentement. Dans le cas de l’open data, il n’y a ni nom ni prénom, mais des informations comme la localisation ou la consommation énergétique.
Contrôler l’accès aux données
Il faut passer d’une régulation centrée sur l’ouverture des données à une régulation centrée sur la puissance des algorithmes. Voici les pistes que je propose :
- Contrôler l’accès aux données : limiter les téléchargements aux demandes justifiées et sécurisées.
- Interdire l’utilisation d’algorithmes d’influence comportementale comme le DTW sur ces jeux de données.
- Tester en continu les vulnérabilités : les organismes publics doivent eux-mêmes évaluer les risques liés aux nouveaux algorithmes et mettre à jour leurs politiques en conséquence.
- Sensibiliser le grand public à l’existence de cette identité numérique passive, encore méconnue.