Newsroom

Apprentissage automatique : savoir s’interroger sur la robustesse des algorithmes

abstract-big-data-freepik
L’apprentissage automatique appartient au domaine de l’intelligence artificielle. Il se situe à la frontière de l’informatique et des mathématiques appliquées. La notion d’apprentissage englobe toute procédure algorithmique qui construit un modèle mathématique à partir de données observées, pour prendre des décisions sur de nouvelles données non observées.
Audit régulier des algorithmes d’apprentissage, analyse fine des données utilisées pour l’entraînement et développement d’algorithmes interprétables : autant de compétences que nous nous attachons à enseigner au sein du Mastère Spécialisé (MS) Big Data, gestion et analyse des données massives à Télécom Paris et qui nous permettent de former les futurs data scientists, responsables et capables d’appréhender toutes les facettes et le potentiel de l’apprentissage automatique. 

Charlotte Laclau, co-responsable du MS Big Data (source LinkedIn)Par Charlotte Laclau, co-responsable du mastère Spécialisé Big Data, gestion et analyse des données massives

L’objectif d’apprentissage d’un tel algorithme est donc d’extraire et d’exploiter automatiquement l’information contenue dans les données. Ce domaine a connu un essor sans précédent ces vingt dernières années ; les algorithmes développés dans ce cadre jouent un rôle prépondérant dans la prise de décisions. Ces dernières influencent notre vie quotidienne dans des secteurs variés, allant du divertissement au médical. Dans ce contexte où une erreur de décision peut avoir un impact négatif significatif sur une personne (par exemple une erreur de diagnostic médical), la question de la robustesse de ces approches, c’est-à-dire leur capacité à produire des résultats cohérents pour des données non observées, se pose naturellement. Entre autres, on peut distinguer trois grandes catégories de problèmes résultant d’un manque de robustesse : la discrimination, la vulnérabilité aux adversaires et la compréhension de la tâche. Tous ces problèmes ont un point commun : ils surviennent lorsque la distribution de nouvelles données diffèrent de celle des données vues par l’algorithme en phase d’apprentissage.

Les algorithmes d’apprentissage discriminent les minorités. Cette discrimination résulte directement de la sous-représentation de certaines franges de la société dans les données utilisées par l’algorithme pour s’entraîner. En effet, ces algorithmes ont besoin d’un nombre suffisant de données pour apprendre à résoudre une tâche. Prenons l’exemple d’un algorithme de reconnaissance faciale exclusivement entraîné sur des photos d’hommes, puis déployé dans des systèmes à travers le monde. Une fois déployé, nous observerons des performances équivalentes à l’humain pour des personnes dont les critères physiques s’approchent des individus vu en phase d’apprentissage, et des performances quasiment aléatoires pour les femmes.
Les algorithmes d’apprentissage sont vulnérables à des perturbations imperceptibles par l’humain. Ces perturbations, communément appelées attaques adverses, sont spécifiquement conçues pour tromper les algorithmes. Il est donc essentiel, pour des applications aux enjeux de sécurité élevés, comme le développement de véhicules autonomes, de s’interroger sur ces potentiels failles.
Enfin, les algorithmes d’apprentissage n’affichent pas une compréhension de la tâche qu’ils doivent résoudre. Un biais dans les données peut amener un algorithme à résoudre une tâche qui n’est pas celle pour laquelle il a été développé. Considérons un algorithme dont l’objectif est de différencier une tumeur maligne d’une tumeur bénigne à partir de photos. Sur ce type d’image, il est courant que les médecins marquent au feutre les tumeurs suspectes. Dans ce contexte, l’algorithme va probablement simplifier sa tâche en ne faisant la différence qu’entre les images qui présentent les marquages au feutre ou pas. De ce fait, en l’absence de marquage au feutre, l’algorithme décidera que toutes les tumeurs sont bénignes.

Pour anticiper et pallier ces problèmes, plusieurs mécanismes peuvent être mis en place, dont l’audit régulier des algorithmes d’apprentissage mis en production, une analyse fine des données utilisées pour l’entraînement et le développement d’algorithmes interprétables. Autant de compétences que nous nous attachons à enseigner au sein du MS Big Data, gestion et analyse des données massives à Télécom Paris et qui nous permettent de former les futurs data scientists, responsables et capables d’appréhender toutes les facettes et le potentiel de l’apprentissage automatique.

Image d’entête source Freepik