Soutenance de doctorat de Gabriele Spadaro : Compression adaptative: des données visuelles à des modèles efficaces et transférables
Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [y aller], amphi 4 et en visioconférence
Titre original : Adaptive Compression: From Visual Data to Efficient and Transferable Models
Jury
- Thomas Maugey, Directeur de recherche, Inria Rennes (Rapporteur)
- Federica Battisti, Associate Professor, Università di Padova (Rapporteur)
- Giulia Fracastoro, Associate Professor, Politecnico di Torino (Examinateur)
- Luce Morin, Professeur, INSA Rennes (Examinateur)
- Enzo Tartaglione, Maître de conférences, Télécom Paris (LTCI) (Directeur de thèse)
- Marco Grangetto, Professore, Università di Torino (Co-encadrant de thèse)
Invités :
- Attilio Fiandrotti, Associate Professor, Università di Torino (Co-directeur de thèse)
- Jhony H. Giraldo, Maître de conférences, Télécom Paris (LTCI) (Co-encadrant de thèse)
Résumé
La croissance exponentielle du contenu visuel a fait de la compression un défi fondamental dans les systèmes de communication modernes. Si les codecs traditionnels ont connu un succès remarquable, leur conception rigide limite leurs performances. La compression d’images apprise est apparue comme une alternative basée sur les données, dans laquelle les modèles minimisent directement une fonction de perte de distorsion-débit. Malgré leurs résultats, ces méthodes souffrent d’une flexibilité limitée, car les modèles sont entraînés pour atteindre un compromis fixe entre le débit et la distorsion, ainsi que d’une mauvaise généralisation dans les nouveaux domaines visuels et d’un manque de contrôle perceptif. Cette thèse vise à étudier les méthodes de compression basées sur l’apprentissage profond et à remédier aux principales limites qui entravent actuellement leur déploiement.
Dans ce contexte, nous montrons comment l’intégration de modules basés sur l’apprentissage peut améliorer considérablement les performances de compression. Cette amélioration résulte non seulement du remplacement de composants spécifiques des codecs standardisés, mais aussi de la définition de méthodes de bout en bout dans lesquelles l’ensemble du pipeline de compression est constitué de modules apprenables. Il est intéressant de noter que, dans ce dernier scénario, nous démontrons comment l’utilisation de paradigmes alternatifs basés sur des graphes peut être efficacement appliquée aux tâches de compression, tout en montrant leur potentiel en tant que structures de base polyvalentes pour l’extraction de caractéristiques visuelles.
Au-delà de l’amélioration de la compression, cette thèse propose également une stratégie unifiée basée sur des adaptateurs pour surmonter les limites structurelles des codecs appris. Dans une perspective d’adaptation des modèles, nous démontrons comment les adaptateurs permettent un contrôle continu des compromis entre le taux de distorsion et la perception de la distorsion. En outre, ils améliorent la capacité de généralisation d’un modèle pré-entraîné à de nouveaux domaines visuels.
Ces avancées rendent les codecs appris plus polyvalents pour des applications hétérogènes dans le monde réel.
Enfin, nous démontrons comment les méthodes d’élagage des modèles et des représentations permettent non seulement de réduire la complexité d’un modèle, mais aussi d’améliorer les capacités de généralisation et de transférabilité d’un modèle pré-entraîné.
Ici, la notion de compression est étendue aux modèles et à leurs représentations. Cette perspective met en évidence son rôle non seulement comme outil d’efficacité, mais aussi comme principe de conception de modèles neuronaux adaptatifs et robustes.