Agenda

Soutenance de doctorat de Yasser Benigmim : L’adaptation de domaine dans l’ère des modèles de fondation

Vendredi 12 décembre 2025 à 13h30 (heure de Paris) à Télécom Paris

Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [y aller], amphi Estaunié et en visioconférence

Titre original : Domain Adaptation in the Era of Foundation Models

Jury

  • Ismail Ben Ayed, Professeur, ETS Montréal, Canada (Rapporteur)
  • Yuki Asano, Professeur, University of Technology Nuremberg, Allemagne (Rapporteur)
  • Renaud Marlet, Directeur de recherche (HDR), Ecole Nationale des Ponts et Chaussées, France (Examinateur)
  • Camille Couprie, Research Scientist, Facebook AI Research, France (Examinatrice)
  • Karteek Alahari, Directeur de recherche (HDR), Inria, Université Grenoble Alpes, France (Examinateur)
  • Stéphane Lathuilière, Research Scientist (HDR), Inria, Université Grenoble Alpes, France (Directeur de thèse)
  • Vicky Kalogeiton, Professeure (HDR), École Polytechnique, France (Co-encadrante de thèse)

Résumé

L’apprentissage profond a révolutionné la vision par ordinateur, mais sa dépendance à d’énormes ensembles de données étiquetés crée un goulot d’étranglement important pour la segmentation sémantique. Ce défi est encore aggravé par le « décalage de domaine » (domain shift), qui se produit lorsqu’un modèle rencontre des données issues d’une distribution différente de celle sur laquelle il a été entraîné, conduisant à une mauvaise généralisation dans les environnements réels.

En savoir plus

Dans cette présentation, j’aborderai comment les Modèles de Fondation (FMs) peuvent être adaptés pour résoudre ces défis d’adaptation sous contraintes de ressources à travers trois contributions clés. Je présenterai d’abord une méthode d’adaptation de domaine non supervisée « one-shot » qui personnalise des modèles de diffusion texte-image pour générer des données d’entraînement diverses et cohérentes en style à partir d’une seule image cible. Ensuite, j’introduirai un cadre où plusieurs FMs (CLIP, LLMs, Modèles de Diffusion et SAM) collaborent pour atteindre une généralisation de domaine en automatisant la génération de pseudo-étiquettes de haute qualité. Enfin, je discuterai de FLOSS, une stratégie sans entraînement pour la segmentation à vocabulaire ouvert qui optimise les performances de CLIP en identifiant automatiquement des modèles de texte spécifiques « experts de classe ».