Soutenance de doctorat de Victor Quetu : Des poids aux couches : Compression de réseau neuronal profond pour une inférence efficace

Lundi 23 mars 2026 à 09h (heure de Paris) à Télécom Paris

Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [y aller], amphi 2 et en visioconférence

Titre original : From Weights to Layers: Deep Neural Network Compression for Efficient Inference

Jury

Vincent Gripon, Directeur de Recherche, IMT Atlantique, France (Rapporteur)
Holger Fröning, Full Professor, Universität Heidelberg, Allemagne (Rapporteur)
Giovanni Iacca, Associate Professor, Università di Trento, Italie (Examinateur)
Florence d’Alché-Buc, Professeure, Télécom Paris, France (Examinatrice)
Gaël Richard, Professeur, Télécom Paris, France (Directeur de thèse)
Enzo Tartaglione, Professeur, Télécom Paris, France (Co-encadrant de thèse)

Résumé

Les modèles d’apprentissage profond continuent de gagner en profondeur et en coût de calcul, mais les pipelines d’inférence modernes restent limités par la latence, la mémoire et les budgets énergétiques. Cette thèse examine où se cachent les calculs redondants dans les architectures surparamétrées et comment les supprimer en toute sécurité.

Nous analysons d’abord le phénomène de double descente clairsemée et montrons comment un élagage non-structuré agressif peut paradoxalement améliorer la généralisation. Nous caractérisons ce comportement et proposons des approches basées sur la régularisation et la distillation, soutenues par une métrique basée sur l’entropie. En nous appuyant sur cette métrique, nous introduisons trois familles de stratégies de réduction de la profondeur: l’élagage basé sur l’entropie (EGP, EASIER), l’effondrement des couches guidé par BatchNorm (TLC) et la régularisation inductive basée sur le transport optimal (LaCoOT). Ensemble, ces méthodes réduisent jusqu’à 70% la profondeur des réseaux dans les CNNs, les Transformers et les modèles de diffusion, souvent avec une dégradation minimale des performances, et parfois même avec des gains de précision. Enfin, nous étendons la notion de redondance à l’opérande en proposant FOLDER, un module d’élagage de jetons sans apprentissage qui accélère les LLM multimodaux jusqu’à 2,4 fois tout en conservant ou en améliorant les performances.

Collectivement, ces contributions font progresser la compréhension de la redondance dans les réseaux profonds et proposent des stratégies générales pour améliorer l’efficacité de l’inférence, ouvrant la voie à des modèles d’apprentissage profond plus durables et adaptatifs.

Toutes les soutenances de doctorat