Soutenance de doctorat d’Alicia Breidenstein : Lutte contre la fraude aux prestations sociales par analyse automatique du langage

Jeudi 2 juillet 2026 à 10h (heure de Paris) à Télécom Paris

Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [y aller], amphi 6

Titre intégral : Lutte contre la fraude aux prestations sociales par analyse automatique du langage : enjeux techniques, organisationnels et réglementaires sur une plateforme publique française

Jury

Lucie Cluzel-Métayer, Professeure, Université Paris Nanterre (Rapporteure)
Christophe Gravier, Professeur, Université Jean Monnet (Rapporteur)
Gaël Lejeune, Maître de Conférences HDR, Sorbonne Université (Examinateur)
Thomas Le Goff, Maître de Conférences, Télécom Paris (Examinateur)
Winston Maxwell, Professeur, Télécom Paris (Directeur de thèse)
Matthieu Labeau, Maître de Conférences, Télécom Paris (Co-encadrant de thèse)
Abdou Fall, Encadrant industriel, Caisse des Dépôts et Consignations (Invité)
Mira Ait Saada, Référente technique industrielle, Caisse des Dépôts et Consignations (Invitée)

Résumé

Un nombre croissant de plateformes de service public sont développées sous l’égide de l’État pour répondre à des missions d’intérêt général. Or, en automatisant la distribution des aides publiques, ces plateformes s’exposent davantage aux risques de fraude. Cette thèse s’intéresse à Mon Compte Formation (MCF), la plateforme publique française de formation professionnelle gérée par la Caisse des Dépôts et Consignations (CDC). La détection des fraudes y représente un défi crucial en raison du volume d’offres de formation et de l’impossibilité de vérifications manuelles systématiques.

Nous étudions des méthodes de traitement automatique des langues (TAL) pour repérer les anomalies textuelles dans le catalogue MCF. Nos travaux évaluent l’impact d’un pré-entraînement spécifique au domaine, d’un affinage et de différentes représentations textuelles sur des tâches comme l’évaluation de similarité, la classification et la détection d’anomalies. Nos résultats montrent que des modèles simples avec des représentations vectorielles bien choisies peuvent surpasser des modèles plus complexes sur certaines tâches, facilitant leur déploiement industriel. Dans des contextes plus complexes, les méthodes lexicales s’avèrent les plus efficaces sans affinage, tandis que les modèles basés sur BERT se distinguent une fois adaptés aux données du domaine. En revanche, les grands modèles de langage (LLM) obtiennent des performances médiocres, limités par la complexité des données et leur vocabulaire spécialisé.

Au-delà des aspects techniques, nous analysons les cadres juridique et organisationnel encadrant le déploiement de l’IA à la CDC, notamment au regard du règlement européen sur l’IA et des exigences réglementaires françaises. Grâce à des entretiens semi-directifs, nous examinons les processus de vérification existants et l’intégration de l’IA dans la lutte contre la fraude, en soulignant les défis persistants en matière de transparence, de coordination entre acteurs et de conformité. Cette recherche interdisciplinaire, menée en partenariat avec la CDC, relie les avancées techniques en TAL aux enjeux concrets des services publics. Elle propose des pistes opérationnelles pour améliorer la détection algorithmique des fraudes dans l’administration.

Toutes les soutenances de doctorat