Agenda

Séminaires TALia (traitement automatique du langage naturel/IA)

Vendredi 13 mai 2022 de 9h30 à 11h, en ligne.

Vendredi 13 mai 2022 de 9h30 à 11h : L’algorithme de Reinforcement Learning TRPO (Trust Region Policy Optimization)

par Jean Vassoyan , doctorant en IA & Adaptive Learning chez onepoint.

“Trust Region Policy Optimization” (TRPO) est un algorithme phare du Deep Reinforcement Learning, conçu pour remédier à deux limites majeures de l’approche classique “Vanilla Policy Gradient” : cette dernière n’est pas sample efficient et elle présente des problèmes de convergence. Pour remédier à ces défauts, TRPO propose une méthode d’optimisation basée sur la mise en place de « régions de confiance », garantissant une amélioration de la policy à chaque itération et permettant la réutilisation de données anciennes.

Vendredi 6 mai 2022 de 9h30 à 11h : Explanations for NLP Models from Case-Based Reasoning

par Pirmin Lemberger, directeur scientifique IA & NLP chez onepoint.

L’un des principaux défis du machine learning actuel est la construction de modèles dont les prédictions sont aisément interprétables par des non spécialistes. C’est une tâche particulièrement ardue pour les réseaux de neurones dont le fonctionnement naturel est celui d’une boite noire. Parmi les nombreuses approches proposées récemment, nous examinerons l’approche par prototypes. Il s’agit d’une tentative de formaliser la manière dont raisonnent les humains lorsqu’ils procèdent par analogie. L’idée consistant à rapprocher une observation pour laquelle on souhaite faire une prédiction de situations typiques (les prototypes) déjà vues par le passé qui aident à prendre des décisions à la fois pertinentes et intelligibles. Cette approche, déjà ancienne, est aujourd’hui combinée aux modèles de deep learning. Après des premiers résultats encourageants en vision artificielle, cette approche est depuis peu appliquée au Traitement Automatique du Langage qui sera l’objet de ce séminaire.

Vendredi 29 avril 2022 de 9h30 à 11h : Apprentissage actif : principes généraux et spécificités deep learning

par Bérengère Mathieu, docteure en IA & NLP chez onepoint.

Afin d’entraîner et d’évaluer une méthode de machine learning, disposer de données n’est souvent pas suffisant : il faut également posséder une vérité terrain, indiquant pour un certain nombre de données le résultat attendu. Construire cette vérité terrain est un processus généralement chronophage et fastidieux. Les méthodes d’apprentissage explorent les possibilités pour un modèle de machine learning, entraîné à l’aide d’une vérité terrain succincte, d’indiquer un sous-ensemble de données pour lequel la production d’une vérité terrain sera fortement bénéfique. Ainsi la vérité terrain n’est plus construite à l’aveugle, mais de manière efficace, en se limitant aux données nécessaires pour que le modèle de machine learning puisse apprendre correctement. Après l’étude des grands principes de l’apprentissage actif, nous verrons que des stratégies spécifiques doivent être mises en œuvre pour les réseaux de neurones, la question du nombre de données d’entraînement ne pouvant être séparée de celle de leur architecture.