Soutenance de doctorat d’Arturo Castellanos : Métriques de données avec des profondeurs statistiques et des méthodes à noyaux
Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [y aller], amphi Estaunié et en visioconférence
Titre original : Data Metrics with Statistical Depths and Kernel Methods
Jury
- Bharath Sriperumbudur, Professeur, Pennsylvania State University (Rapporteur)
- Eustasio del Barrio, Professeur, Universidad de Valladolid (Rapporteur)
- Cristina Butucea, Professeur, CREST, ENSAE, IP Paris (Examinatrice)
- Alain Célisse, Professeur, Université Paris 1 Panthéon-Sorbonne (Examinateur)
- Abdelaati Daouia, Professeur, Toulouse School of Economics (Examinateur)
- Pavlo Mozharovskyi, Professeur, Télécom Paris (LTCI), IP Paris (Directeur de thèse)
- Florence d’Alché-Buc, Professeur, Télécom Paris (LTCI), IP Paris (Invitée)
- Anna Korba, Maître de conférence, CREST, ENSAE, IP Paris (Invitée)
Résumé
Les données sont de nos jours omniprésentes, avec une virtualisation croissante du monde réel. Cela soulève la question suivante : dans quelle mesure pouvons-nous comprendre et représenter les données? “Mathematics and the Picturing of Data” (“Les Mathématiques et l’Esquisse de Données”) était le titre du travail fondateur de John Tukey en 1975, qui a lancé le domaine des profondeurs statistiques, et qui suggère bien entendu de s’appuyer sur des techniques mathématiques tout en conservant l’idée de simplicité qu’il y a dans une image.
Le défi consiste à maintenir un équilibre entre la fidélité à la complexité des données et la simplicité nécessaire pour être compréhensible par l’esprit humain. En statistique computationnelle, ce défi se traduit souvent par l’utilisation de la puissance de calcul pour analyser un nombre fini d’échantillons, censés bien approximer une distribution sous-jacente, afin d’en calculer des caractéristiques pertinentes. Etant donné que la complexité computationnelle augmente avec le nombre d’échantillons, un compromis apparaît : on espère que l’erreur d’approximation statistique diminue suffisamment vite lorsque le nombre d’échantillons augmente. Dans ce travail, nous concevons des outils pour mieux comprendre les données, sous la contrainte que leur complexité en échantillons ne croisse pas excessivement. Nous nous concentrons d’abord sur la conception de nouvelles fonctions de profondeur des données, avec deux types d’extensions de la profondeur de Tukey. La première extension consiste à modifier sa nature géométrique, en s’inspirant des méthodes à noyaux afin de s’éloigner du produit scalaire euclidien classique. La seconde repose sur l’interprétation de la profondeur de Tukey comme un risque de classification, en modifiant à la fois l’espace des classifieurs et la fonction de perte. Dans les deux cas, nous parvenons à garantir des vitesses paramétriques pour ces méthodes non-paramétriques. Dans une seconde partie, nous nous intéressons également à la compréhension des distributions en les comparant à l’aide de distances. La distance de Wasserstein, issue du transport optimal, est une mesure bien connue pour quantifier la différence entre deux distributions, cependant, sa complexité en échantillons souffre de la malédiction de la dimension. A l’inverse, nous montrons que la Maximum Mean Discrepancy (MMD), une distance fondée sur les noyaux et bénéficiant d’une bonne complexité en échantillons, est parfois trop permissive pour discriminer des distributions. Nous suggérons alors l’utilisation d’une distance intermédiaire entre ces deux-là, offrant un pouvoir discriminant supérieur à celui de la MMD, au prix d’une légère augmentation de la complexité en échantillons. L’ensemble de ces méthodes peut être utilisé pour empêcher la contamination des données de compromettre les analyses statistiques, que ce soit par la détection de valeurs aberrantes à l’aide des scores de profondeur des données ou par une meilleure discrimination des distributions au moyen de distances.