Télécom Paris, innover et entreprendre dans le numérique

Orientations générales du groupe:

L’analyse (descriptive ou prédictive) des données numériques, collectées et stockées grâce aux technologies modernes, soulève de très nombreux problèmes méthodologiques relatifs à leur grande complexité (e.g. données de grande dimension, structurées, hétérogènes, massives, séries temporelles multivariées, signaux audio, données textuelles, données d’interaction homme/machine, signaux faibles et événements rares), afin qu’elle puisse en particulier s’incarner dans des systèmes dits ‘intelligents’ (intelligence artificielle). Les objectifs qui lui sont en effet fixés aujourd’hui (e.g. maintenance prédictive, moteurs de recommandation, agents conversationnels, écoute automatique, analyse de sentiment, reconnaissance d’écriture), la disponibilité de données massives (Big Data) et la prise en compte des contraintes technologiques liées à l’acquisition de l’information (e.g. réseaux de capteurs, IoT), à l’accès aux données (e.g. infrastructures de stockage distribuées) et au calcul (e.g. distribution/parallélisation massive, traitement en temps quasi-réel) requièrent d’élaborer des techniques nouvelles, interfaçant des domaines tels que la modélisation probabiliste, l’apprentissage statistique, la simulation, l’optimisation ou le traitement du signal. C’est en mobilisant son expertise dans ces disciplines aujourd’hui plus que jamais complémentaires, structurée en deux thèmes stratégiques, que l’équipe S2A s’attache à développer algorithmes et concepts théoriques pour le traitement des données.

En particulier, les objectifs scientifiques poursuivis par l’équipe S2A consistent à élaborer, dans un cadre de validité contrôlé, des méthodes d’inférence/apprentissage statistique fondées sur des modèles paramétriques ou semi/non-paramétriques

- (passage à l’échelle) permettant d’analyser automatiquement des données massives, éventuellement en-ligne
- (grande dimension ) en présence d’un grand nombre de variables observées (données structurées/hétérogènes ) pour des données présentant une structure de représentation/dépendance complexe (e.g. textes et images de textes, séries temporelles multi-échelles, multivariées ou localement stationnaires, données multimodales, graphes, signaux EEG)
- (cadre distribué ) dans un contexte où l’information et/ou le calcul est réparti sur un réseau
- (redressement, robustesse ) dans des situations où les données d’ajustement/apprentissage sont éventuellement biaisées, contaminées ou censurées
- (signaux faibles ) lorsque l’information pertinente (e.g. pour la gestion des risque) est enfouie dans la masse de données et peut-être décrite par les concepts de la théorie des valeurs extrêmes et des événements rares
- (renforcement ) pour des systèmes définissant eux-mêmes, de façon séquentielle,leur plan d’expérience, réalisant ainsi un compromis optimal entre exploitation des données passées et exploration de l’univers des possibles
- (interprétabilité ) produisant des résultats/prédictions interprétables pour les praticiens
- (non stationarité ) en élaborant des modèles et des méthodes prenant en compte les évolutions structurelles des données au cours du temps

Une partie de l’activité de recherche est en particulier dédiée au développement de telles méthodes pour:

- le traitement du signal et en particulier du signal audio : séparation de sources, extraction d’information musicale ou MIR, analyse de scènes sonores, acoustique musicale, analyse de signaux physiques et physiologiques, et transformation de signaux audio.
- le traitement des données sociales et la modélisation des interactions sociales : analyse du web, analyse d’opinions, robotique sociale.

D’une façon générale, ces questions méthodologiques sont au cœur de très nombreuses problématiques sociétales et industrielles tels que l’industrie du futur, la maintenance prédictive ou le véhicule connecté/autonome.

Ainsi, l’équipe S2A anime les quatre thématiques de recherche suivantes:

Apprentissage Statistique

Le thème Apprentissage Statistique est à l’intersection de plusieurs domaines: les mathématiques appliquées, l’informatique, les statistiques et le traitement du signal. Son objectif est l’étude et le développement d’algorithmes et méthodes permettant d’apprendre automatiquement à réaliser une tâche complexe en utilisant typiquement des données d’observation.

Probabilités et statistiques

Le thème Probabilités et statistique rassemble les activités de recherche liées à la modélisation probabiliste et l’inférence statistique. Ces recherches concernent les processus stochastiques (chaines de Markov, séries temporelles,..) ; les statistiques en grande dimension ; la théorie des valeurs extrêmes son application à la détection d’anomalies et à l’évaluation des risques liés aux événements rares ; la quantification de l’incertitude basée sur le bootstrap et les inégalités de concentration de processus empiriques ; l’apprentissage par renforcement; la théorie de l’information.

Traitement du signal et analyse de données audio

Le thème Traitement du Signal et Analyse de Données Audio s’intéresse principalement aux méthodes de décomposition de données, d’apprentissage de représentations et de modélisation paramétrique pour des applications variées (la séparation de sources, l’extraction d’information musicale ou MIR, l’analyse de scènes sonores, l’acoustique musicale, l’analyse de signaux physiologiques, notamment électro-encéphalographiques (EEG) et la transformation de signaux audio).

Analyse automatique des données sociales

Le thème Analyse automatique des données sociales rassemble les recherches autour des modèles computationnels pour l’analyse des interactions sociales que ce soit pour l’analyse du web, l’analyse d’opinions ou la robotique sociale. Ce thème fortement pluridisciplinaire est mené en étroite collaboration avec les domaines de la psychologie, la sociologie, et la linguistique et repose sur des méthodes de traitement du signal et d’apprentissage automatique.