Ideas - Puissance des algorithmes IA : revoir la régulation de nos données publiques ?

Puissance des algorithmes IA : revoir la régulation de nos données publiques ?

Interview de Yanis Fadili, doctorant à Télécom Paris, octobre 2025

Faut-il repenser l’accès aux données publiques à l’ère des algorithmes tout-puissants ? Les travaux de Yanis Fadili, récompensés par le prestigieux « Outstanding Paper Award » lors de la conférence IEEE Artificial Intelligence for Sustainable Innovation à Kuala Lumpur, soulèvent une question brûlante : l’open data, pilier de la transparence, pourrait-il devenir une porte ouverte sur notre intimité ?

L’open data est une avancée majeure pour la transparence et l’innovation, mais aujourd’hui, la puissance des algorithmes d’intelligence artificielle génère de nouvelles menaces en permettant, à partir de nos « identités numériques passives », de révéler des informations sur les individus.
À partir de simples relevés de température, Yanis Fadili a démontré comment l’intelligence artificielle peut reconstituer des pans entiers de nos existences – présence à domicile, habitudes de consommation, modes de vie. Un raisonnement valable pour bien d’autres données, de la consommation énergétique aux capteurs urbains. Ces « identités numériques passives », exploitées à des fins malveillantes, transforment l’open data en arme à double tranchant.
Vers une régulation centrée sur la puissance des algorithmes ? Ses recherches, menées au sein de la Chaire Identité Numérique Responsable de Télécom Paris, sous la direction de Valérie Fernandez et Thomas Houy, interrogent : faut-il sacrifier l’ouverture des données pour protéger notre vie privée ? Ou inventer un nouveau cadre, capable de concilier transparence et protection face à des algorithmes toujours plus intrusifs ?

Yanis Fadili a reçu le prix « Outstanding Paper Award » dans la catégorie des articles de recherche qui contribuent le plus à éclairer le monde professionnel, lors de la conférence IEEE Artificial Intelligence for Sustainable Innovation à Kuala Lumpur, en Malaisie, le 26 août 2025.

Ses travaux s’inscrivent dans le cadre de la Chaire Identité Numérique Responsable, pilotée par Valérie Fernandez, qui co-dirige sa thèse avec Thomas Houy.

Yanis Fadili est diplômé de l’école supérieure d’ingénieur Léonard de Vinci (Master Data et Intelligence Artificielle) et de SKEMA Business School (UPMOST) ; il allie expertise technique et management. Aujourd’hui data manager à IP Paris et doctorant à Télécom Paris, il a récemment publié un article primé sur les risques liés à l’open data.

Propos recueillis par Isabelle Mauriac

L’open data, un problème de sécurité majeur

— Comment vous est venue l’idée de votre sujet de thèse ?

Tout a commencé en master, lorsque nos professeurs nous faisaient travailler sur data.gouv.fr, la plateforme qui centralise les jeux de données publics français. En septembre 2020, je me suis entraîné sur différents datasets (jeux de données), et quand j’ai eu l’opportunité d’enseigner à mon tour, j’ai reproduit ce modèle avec mes étudiants de Master 1.

Guillaume Guérard, mon co-auteur, m’a suggéré de creuser la question de l’open data. À l’origine, je m’intéressais aux smart cities, mais les deux sujets se recoupent : de nombreuses villes publient leurs données énergétiques pour afficher leur transparence et leurs performances en développement durable.

Mais derrière cette ouverture se cache un enjeu de gouvernance majeur – c’est là que ma rencontre avec Valérie Fernandez et Thomas Houy a été décisive.

— Pourquoi l’open data pratiqué par l’État peut-il poser des problèmes de sécurité aujourd’hui ?

Même si ces données sont publiées sans identifiants, certains algorithmes d’IA sont désormais capables de reconstituer des comportements à partir de données anonymisées.

Par exemple, en appliquant un algorithme comme le DTW (Dynamic Time Warping) sur des données de consommation énergétique, il est possible de détecter des routines, des motifs d’absences ou de présence dans un quartier.

Concrètement : sur data.gouv.fr, n’importe qui peut télécharger un dataset sans contrôle. Avec un environnement comme Google Colab, un peu de nettoyage de données et un échantillon représentatif, on peut faire parler ces données. Le DTW permet de comparer des séries temporelles et de générer des graphiques révélant, par exemple, qu’un logement est inoccupé à certaines heures. C’est ce qu’on appelle l’inférence comportementale.

Les données énergétiques, portes ouvertes

— Vous avez surtout travaillé sur les données énergétiques ?

Oui, nous avons utilisé un dataset de consommation énergétique par quartier, par résidence, par parcelle. En croisant ces données avec un algorithme, on obtient des heatmaps (cartes thermiques) indiquant si les habitants sont présents ou absents. Mais ce principe s’applique à tous les capteurs d’une ville intelligente : ensoleillement, transports, pollution…

Il est possible de reconstituer les habitudes des citoyens, donc savoir quand ils consomment plus ou moins, quand ils sont chez eux.

— Quels sont les risques concrets de ces usages secondaires ?

Le principal danger est la violation de la vie privée. Quand data.gouv.fr a publié ces données, l’objectif n’était pas de permettre à des acteurs malveillants de savoir qui est chez soi et qui ne l’est pas. Mais avec des algorithmes toujours plus puissants, ces données anonymisées deviennent un outil de surveillance potentielle, entre les mains d’acteurs privés ou publics.

Mon travail n’est pas de dénoncer, mais d’alerter : les algorithmes sont utiles, mais leur puissance doit être encadrée pour éviter les dérives.

Identité numérique, active et passive

— Vous parlez d’« identité numérique passive ». Pouvez-vous la définir ?

Pour comprendre, prenons son contraire : l’identité numérique active. C’est tout ce que nous choisissons de publier en ligne, avec notre consentement explicite – un profil LinkedIn, un site web, un post sur les réseaux sociaux.
L’identité numérique passive, elle, regroupe toutes les données collectées sans notre consentement. Dans le cas de l’open data, il n’y a ni nom ni prénom, mais des informations comme la localisation ou la consommation énergétique.

Avec le machine learning, il est désormais possible de croiser ces données et de reconstituer des profils bien plus précis qu’il y a dix ans.

Contrôler l’accès aux données

— Vous appelez à un « changement de pied » dans la régulation. Quelles sont vos recommandations ?

Il faut passer d’une régulation centrée sur l’ouverture des données à une régulation centrée sur la puissance des algorithmes. Voici les pistes que je propose :

Contrôler l’accès aux données : limiter les téléchargements aux demandes justifiées et sécurisées.
Interdire l’utilisation d’algorithmes d’influence comportementale comme le DTW sur ces jeux de données.
Tester en continu les vulnérabilités : les organismes publics doivent eux-mêmes évaluer les risques liés aux nouveaux algorithmes et mettre à jour leurs politiques en conséquence.
Sensibiliser le grand public à l’existence de cette identité numérique passive, encore méconnue.

Référence