Agenda

Soutenance de doctorat de Zacchary Sadeddine : Formalismes de représentation sémantique et raisonnement à l’ère des grands modèles de langage

Vendredi 10 octobre 2025 à 16h (heure de Paris), à Télécom Paris

Télécom Paris, 19 place Marguerite Perey F-91120 Palaiseau [y aller], amphi Estaunié et en visioconférence

Titre original : Meaning Representation Frameworks and Reasoning in the Era of LLMs

Jury

  • Maxime AMBLARD, Professeur des Universités, Université de Lorraine, France (Rapporteur – Président du jury)
  • Anthony HUNTER, Professeur, University College London, Royaume-Uni (Rapporteur)
  • Serena VILLATA, Directrice de Recherche, CNRS, France (Examinatrice)
  • Emily ALLAWAY, Professeure Associée, Université d’Edimbourg, Royaume-Uni (Examinatrice)
  • Kyle RICHARDSON, Senior Research Scientist, Allen Institute for Artificial Intelligence, USA (Examinateur)
  • Roberto NAVIGLI, Professeur, Università Sapienza de Rome, Italie (Examinateur)
  • Fabian SUCHANEK, Professeur, Télécom Paris, France (Directeur de Thèse)

Résumé

Les Grands Modèles de Langage (LLMs) sont utilisés pour toutes sortes de tâches, nécessitant souvent des capacités de raisonnement. Cependant, ces capacités demeurent limitées et peu transparentes. Cette thèse explore comment améliorer le raisonnement, la transparence et la robustesse des LLMs grâce à des structures symboliques. En premier lieu, elle conduit une analyse des enjeux sociétaux induits par l’usage croissant des LLMs dans la structuration et la diffusion du savoir. Quinze enjeux majeurs sont identifiés, ainsi que des stratégies d’atténuation existantes ou potentielles, basées à la fois sur des solutions techniques et des approches réglementaires.

La thèse se concentre ensuite sur les Formalismes de Représentation Sémantique (MRFs)...

… qui encodent la sémantique du langage sous forme de graphes. Une revue complète des MRFs est présentée, avec une nouvelle classification fondée sur leurs propriétés structurelles, ainsi que les différentes ressources, utilisations et pistes de recherche. Les MRFs y sont repositionnés comme des artefacts computationnels capables de s’intégrer avec les modèles neuronaux. Sur cette base, la thèse introduit VANESSA, un système de raisonnement neuro-symbolique qui combine MRFs et LLMs, ainsi qu’une nouvelle représentation et un processus de parsing symbolique. VANESSA utilise cette représentation et décompose les problèmes de raisonnement en trois sous-tâches : parsing, inférence en langage naturel (NLI) et résolution formelle. Les résultats expérimentaux montrent que VANESSA atteint des performances comparables à celles des LLMs sur des tâches de raisonnement logique, tout en fournissant des sorties traçables et explicables, illustrant la valeur ajoutée des architectures hybrides. Enfin, la thèse aborde la vérification pas-à-pas des chaînes de raisonnement, notamment produites par les LLMs. Un benchmark de près de 5000 étapes annotées est présenté, évaluant la validité logique et l’exactitude factuelle. Bien que les LLMs soient capables de détecter certaines erreurs, les approches neuro-symboliques comme VANESSA offrent des performances comparables tout en apportant une forte transparence. Ainsi, cette thèse promeut une vision hybride de l’intelligence artificielle basée sur le langage, où LLMs et structures symboliques sont complémentaires. Elle ouvre la voie à des systèmes plus responsables, fiables et interprétables, conciliant souplesse neuronale et rigueur symbolique.