ChatGPT, un outil bluffant grâce à un apprentissage dopé… à l’humain (L’Usine Nouvelle)

mardi 10 janvier 2023

[…] Décryptage du chabot ChatGPT, publié par OpenIA. Impressionnant, l’outil a surtout progressé grâce à un apprentissage par renforcement basé sur des validations humaines, mais sans avoir vraiment gagné en intelligence.

[…] Entraîné à faire des réponses… jugées bonnes par l’humain

[Grâce à un entraînement optimisé,] ChatGPT [donne] des résultats de plus en plus crédibles par rapport aux anciens modèles, juge Chloé Clavel, enseignante-chercheuse à Télécom Paris. Mais cela en grande partie grâce… à davantage d’intervention humaine dans l’entraînement !

«Pour améliorer ChatGPT, les chercheurs d’OpenAI ont utilisé la même méthode que celle employée avec leur modèle InstructGPT […] : recourir à une phase d’apprentissage par renforcement, une méthode qui récompense l’algorithme pour chaque bonne réponse afin de le pousser à s’améliorer, et ce avec une intégration poussée de l’humain dans la boucle, observe cette spécialiste du traitement automatique du langage. Sur leur site, ils expliquent avoir fait évaluer par des humains les réponses fournies par le modèle pour ensuite l’entraîner à nouveau en le récompensant quand ses réponses avaient été jugées pertinentes par les humains.» De quoi pousser le modèle à donner de plus en plus de réponses que nous, humains, jugeons bonnes !

« Pas de bond méthodologique »

«Cette méthode montre à ChatGPT comment mieux faire mais ne permet pas de retracer les raisonnements logiques sous-jacents aux réponses fournies, considère Chloé Clavel. On ne voit pas de bond en avant méthodologique dans ce qu’a fait ici OpenAI. Mais si on l’évalue, il sera peut-être quand même jugé meilleur que les programmes concurrents, du fait qu’il y ait beaucoup de données et d’humains derrière.»

[…] «Il reste maintenant à évaluer scientifiquement ChatGPT, en mettant en place des protocoles expérimentaux, afin d’observer la qualité de ses résultats sur des tâches spécifiques et de pouvoir les comparer avec ceux des chatbots concurrents – que sont notamment LaMDA de Google, DialoGPT de Microsoft et BlenderBot de Meta», rappelle Chloé Clavel. […]

À lire dans L'Usine Nouvelle

«Les chercheurs d’OpenAI ont eu recours à une phase d’apprentissage par renforcement, une méthode qui récompense l’algorithme pour chaque bonne réponse afin de le pousser à s’améliorer» , détaille Chloé Clavel. Mais le modèle a aussi bénéficié d’une «intégration poussée de l’humain dans la boucle». Durant l’apprentissage, des opérateurs ont évalué manuellement la pertinence de certaines des réponses fournies par ChatGPT pour lui permettre de s’améliorer. Une méthode statistique ultra-efficace, qui ne fait pas rupture avec les autres modèles d’IA existants, souligne l’experte. Parmi lesquels LaMDA de Google, DialoGPT de Microsoft, BlenderBot de Meta ou Bloom, un modèle développé de manière ouverte par des centaines de scientifiques et optimisé pour fonctionner avec le maximum d’idiomes.

Et aussi : Dans la foulée de ChatGPT, l'IA générative se démocratise pour le meilleur et pour le pire

Image d’entête source Pch.Vector/Freepik