Soutenance de doctorat de Victor Letzler : Apprentissage à choix multiples à partir de signaux ambigus

Mardi 24 mars 2026 à 14h30 (heure de Paris) à Télécom Paris

Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [y aller], amphi 5 et en visioconférence

Titre original : Multiple Choice Learning from Ambiguous Signals

Jury

Rapporteur : François Fleuret, Professeur et chercheur, Université de Genève et Meta (FAIR), Suisse
Rapporteur : Alain Rakotomanonjy, Directeur de recherche, Criteo AI Lab, France
Président : Rémi Flamary, Professeur, École Polytechnique (CMAP), Institut Polytechnique de Paris, France
Examinateur : Irina Rish, Professor, Université de Montréal (MILA), Canada
Directeur de thèse : Gaël Richard, Professeur, Télécom Paris (LTCI), Institut Polytechnique de Paris, France
Encadrant de thèse : Andrei Bursuc, Directeur de recherche adjoint, Valeo.ai, France
Invité : Mathieu Fontaine, Professeur associé, Télécom Paris (LTCI), Institut Polytechnique de Paris, France
Invité : Slim Essid, Directeur de recherche, NVIDIA, France

Résumé

Les systèmes prédictifs fondés sur l’apprentissage automatique font face à une limitation lorsque la tâche d’entraînement est mal posée. Si plusieurs sorties sont plausibles pour une entrée, une seule prédiction n’est pas suffisante et plusieurs sont requises. Dans ce contexte, des considérations pratiques mènent souvent à produire un petit ensemble d’hypothèses représentatives de la distribution cible.

L’apprentissage à choix multiples (MCL) est une solution basée sur un réseau de neurones multi-têtes, produisant une hypothèse par tête, selon un schéma d’entraînement « winner-takes-all ». Alors que le MCL a déjà été appliqué dans de nombreuses tâches, l’interprétation probabiliste de l’approche n’est pas complètement comprise. De plus, le MCL possède plusieurs limitations, telles que l’excès de confiance et le sous-entraînement de certaines hypothèses.
Pour corriger l’excès de confiance, qui se produit lorsque les hypothèses correspondant à des événements rares sont sur-représentées, nous proposons d’apprendre des têtes de « score » pour prédire la probabilité de chaque scénario. Nous montrons ensuite comment le modèle entraîné peut être interprété comme un estimateur de densité conditionnelle en utilisant des noyaux tronqués. Ceci est réalisé en reformulant MCL comme une technique de quantification vectorielle. Nous illustrons nos résultats avec des données synthétiques et avec la tâche de localisation d’événements sonores.
Pour prévenir le sous-entraînement de certaines hypothèses, nous utilisons le recuit déterministe, qui améliore l’exploration de l’espace d’hypothèses via un paramètre de température décroissant pendant l’entraînement. Ceci est validé sur des jeux de données synthétiques, où l’on observe le phénomène de transition de phases, dans lequel la performance s’améliore soudainement à des niveaux de températures prédictibles.
Avec ces outils, nous appliquons MCL à la prédiction de séries temporelles, puis à la modélisation du langage en adaptant l’approche au fine-tuning de grands modèles avec adaptateurs de faible rang. Nous démontrons que l’approche identifie les modes d’un mélange de chaînes de Markov. Nous appliquons ensuite la méthode à des tâches de description d’audio et d’images et de traduction, montrant que notre méthode atteint une diversité et une pertinence élevées dans les séquences générées.

Toutes les soutenances de doctorat