Ideas - Grands modèles de langage : vers la fin des moteurs de recherche traditionnels ?

Grands modèles de langage : vers la fin des moteurs de recherche traditionnels ?

Fabian Suchanek, professeur à Télécom Paris, novembre 2025

Les LLM (Large Language Models, grands modèles de langage), devenus fameux avec l’irruption de ChatGPT en novembre 2022, sont-ils en train de révolutionner notre façon de rechercher sur internet ? Ce sujet nous concerne au plus près dans notre usage quotidien du web, que l’intelligence artificielle générative est en train de transformer en profondeur.

C’est tout l’écosystème en ligne, tel qu’on le connaît actuellement (avec des pages et des sites accessibles via les moteurs de recherche pointant vers des URL) qui se voit remis en cause. Et les moteurs de recherche eux-mêmes sont contraints de se réinventer. Google vient juste de lancer officiellement en Europe son mode IA, qui bouleverse complètement la manière d’utiliser les moteurs de recherche.

Fabian Suchanek, enseignant-chercheur à Télécom Paris, est co-auteur, avec Zacchary Sadeddine, Winston Maxwell et Gaël Varoquaux, d’un article publié dans le cadre de l’ACM SIGIR Forum consacré aux défis sociétaux qu’une telle évolution pourrait générer. Cet article, Large Language Models as Search Engines: Societal Challenges, est l’un des plus complets aujourd’hui, puisqu’il ne liste pas moins de quinze défis majeurs.
Parmi eux, l’appauvrissement du web (les contenus publiés par ces IA finissant par nourrir leurs propres recherches d’elles-mêmes), mais aussi sa cannibalisation (les IA génératives court-circuitant les sites, qui se retrouvent sans visiteurs, donc sans publicité et au bout du compte sans ressources…).
Également au cœur de l’actualité, la question des droits d’auteur et de la propriété intellectuelle ou celle de l’impact environnemental des LLM, pour n’en citer que quelques-unes.
L’article donne également des pistes pour empêcher ou en tout cas minimiser ces effets négatifs des LLM. Par exemple, disposer d’une sorte de vérification des informations, afin de casser ce cycle infernal. Des travaux sont conduits à Télécom Paris autour des bases de connaissances permettant une vérification a posteriori des résultats donnés par les IA génératives.

Propos recueillis par Isabelle Mauriac

Lire aussi : Comment les IA transforment le Web (Sciences & Avenir, La Tribune) | Nouveau navigateur ChatGPT Atlas : «Le danger principal : que l’IA agisse au nom de l’utilisateur» (Libération)

Podcast

Retrouvez cette interview en format audio dans le cadre des podcasts Télécom Paris Ideas :

Podcast enregistré le 16/10/2025 par Michel Desnoues, Télécom Paris

Une (r)évolution déjà bien en cours

— Vous venez de consacrer un article, publié dans ACM CIGIR Forum, consacré aux défis sociétaux qu’une telle évolution pourrait générer, où vous identifiez quinze défis que pose cette substitution en marche. Avant de passer en revue ces défis, je vous propose de parler un peu de ce remplacement, car il a déjà largement débuté. Pouvez-vous tout d’abord nous rappeler ce que sont aujourd’hui ces grands modèles de langage, ce que le grand public appelle les IA génératives, et en quoi l’arrivée de ChatGPT en 2022 a tout changé au niveau des usages ?

On appelle les IA génératives tout système qui peut produire du nouveau contenu, des images, de la vidéo, du texte ou du son. Les modèles de langage, les LLM, sont un type particulier de l’IA générative, qui génère le texte. Avant l’arrivée de ChatGPT, les modèles de langage n’étaient pas vraiment capables de tenir une conversation. ChatGPT a tout changé, principalement grâce à plus de données d’entraînement et un entraînement sur des collections de Chat, ce qui permet au modèle de se comporter comme un interlocuteur. Donc pour la première fois, le grand public peut avoir une vraie conversation avec un chatbot compétent. Aujourd’hui, il y a 700 millions d’utilisateurs hebdomadaires de ChatGPT. Mais il y en a d’autres, tels que Claude (par Anthropic), DeepSeek, Google Gemini, Microsoft Copilot…

On se rend bien compte que nos bons vieux moteurs de recherche ont du souci à se faire, en particulier chez les jeunes générations, qui utilisent davantage ChatGPT que Google. D’ailleurs, selon l’étude publiée en septembre par OpenIA sur l’usage de son service, les 18-25 ans représentent à eux seuls 46% du total des messages envoyés à ChatGPT. Mais c’est sans compter le fait que les moteurs de recherche eux-mêmes sont en train de se réinventer puisque Google vient tout juste de lancer officiellement en Europe son mode IA, disponible dans plus de 200 pays mais qui reste pourtant inaccessible en France à cause d’un blocage juridique. Ce mode IA n’est pas un chatbot généraliste comme ChatGPT ou l’application de Gemini, il est intégré au moteur de recherche. Concrètement, il s’appuie sur l’index de Google. Il cite ses sources par défaut, garde le fil des recherches et peut personnaliser les réponses si on l’y autorise.

Beaucoup de moteurs de recherche offrent aujourd’hui des interfaces IA qui peuvent directement répondre à une question, ce qui évite que l’utilisateur doive transiter via une page web.

Ces chatbots utilisent le Retrieval Augmented Generation (RAG), c’est-à-dire qu’ils collectionnent les documents pertinents sur le Web et répondent sur la base de ces contenus. Ceci est le cas de ChatGPT et Google Gemini, mais aussi de Bing Search, Duckduckgo search, Brave search, et bien d’autres. À ce titre, on peut dire que les moteurs de recherche sont aussi confrontés aux enjeux dont on va parler dans un instant, dans la mesure où ils utilisent l’IA générative.

Quels droits ?

— Au sommet des défis que posent les IA génératives aujourd’hui, on trouve d’abord le copyright, que les IA génératives violent. La source n’est pas donnée ou si elle l’est, elle n’est pas forcément fiable ?

En effet. Il existe deux cas de figure : un LLM peut reproduire un certain texte sous forme de verbatim. Dans la plupart des cas, cela viole le copyright de celui qui a produit le texte. Un cas connu est celui du New York Times qui accuse OpenAI de reproduire ses articles payants littéralement. Mais même un article de Wikipedia ne peut pas être reproduit sans reconnaître la source.

L’autre cas de figure est que le LLM se base sur un texte, sans pourtant le reproduire littéralement. Ici, il ne peut pas s’agir d’une violation du copyright. La juridiction américaine a récemment décidé que Meta et Anthropic ont le droit d’entraîner leurs modèles sur le contenu comme « fair use » (usage équitable). La législation européenne, par contre, permet à l’auteur de s’opposer à l’entraînement des LLM sur son contenu.

— Un autre défi que vous mentionnez est le copyright, non pas des données d’entraînement, mais des réponses.

Oui, le public peut actuellement utiliser le contenu des réponses comme il le souhaite. Par exemple, je pourrais demander à ChatGPT d’écrire un livre de recettes de cuisine, et je pourrais ensuite vendre ce livre. Le problème est que, légalement, je n’ai pas le copyright sur ce livre (au moins aux États-Unis), parce qu’il a été écrit par une machine. Donc toute autre personne pourrait faire une copie de mon livre et la vendre elle aussi. C’était pareil pour les photos, d’ailleurs : à une époque, il n’était pas possible de bénéficier du copyright sur une photo, car on partait du principe qu’elle avait été produite par une caméra, sans créativité humaine. Aujourd’hui l’opinion a changé : la créativité humaine dans la prise d’une photo réside dans le choix de l’objet, du moment et du cadre. La photo est donc sous copyright.

De la même façon, la créativité humaine dans une réponse d’un LLM pourrait résider dans le prompt [NDLR : instructions données par l’utilisateur humain].

Menaces sur le web

— Une autre menace que vous pointez est la cannibalisation du web. Les IA génératives court-circuitent les sites qui se retrouvent sans visiteurs, donc sans publicité, et au bout du compte sans ressources. Si on pousse un peu le raisonnement, Wikipédia disparaît !

Et en effet, on voit que le trafic des pages Web (Wikipédia, sites de presse, etc.) provenant des moteurs de recherche a baissé par 5% depuis 2024 — potentiellement à cause des réponses IA dans les moteurs de recherche. Par exemple, les requêtes sur l’actualité qui restent sur la page du moteur de recherche ont augmenté de 56% à 69%… Les utilisateurs lancent la requête et lisent la réponse sans quitter le site du moteur de recherche. Or, les pages Web ont besoin de visiteurs pour survivre : Wikipédia pour des dons, mais aussi pour des contributions, les pages Web de la presse pour des souscriptions, et les autres pages pour le revenu généré par les publicités. Si le trafic cesse, ces pages ne peuvent pas survivre.

Or, sans ces pages Web, les LLM ne peuvent pas survivre non plus. Il y a donc le danger que les LLM mangent d’abord le Web, et meurent ensuite de faim à leur tour.

Il existe un autre risque qui n’est pas assez pointé à mon avis : l’appauvrissement, puisque les IA génératives finissent par se nourrir des contenus qu’elles-mêmes produisent. Actuellement, elles sont entraînées essentiellement sur des données textuelles générées par des humains, mais comme elles génèrent elles-mêmes de plus en plus de textes, il sera compliqué à l’avenir de savoir si tel texte a été généré par une machine ou par un humain.

— Alors peut-on imaginer que la machine s’emballe, c’est à dire que les IA génératives s’entraînent majoritairement sur des informations qu’elles ont elles-mêmes créées ?

Cela est probablement déjà une réalité. Par exemple, la plupart du contenu traduit sur le Web est aujourd’hui généré par une machine. En même temps, les LLM nécessitent de plus en plus de données d’entraînement.

Ainsi, le risque est que les LLM s’entraînent sur des données elles-mêmes générées par des LLM. Donc se nourrissent de leurs propres déchets en quelque sorte.

Les LLM se retrouveraient donc dans une « chambre d’écho » qui amplifierait leurs propres bais et erreurs, et diminuerait la diversité de contenu, d’opinions et de styles. C’est ce que l’on appelle le Model Collapse, et on peut déjà l’observer.

— On peut déjà l’observer… mais croyez-vous que ce processus pourrait aller au bout, jusqu’à l’effondrement de ces IA génératives ?

C’est un danger dont on est maintenant conscients, mais si vraiment ces modèles contribuent à la mort du web, il est clair qu’eux aussi n’auront plus de contenus pour s’entraîner et mourront eux aussi.

— Pour garder une prise suffisante sur le réel, il est peut-être aussi possible d’intervenir a posteriori par la vérification des informations. Je pense au travail que vous conduisez avec Thomas Bonald autour des bases de connaissance permettant une vérification des résultats donnés par les IA génératives. Cela pourrait-il permettre d’éviter aussi les hallucinations de ces IA qui sont l’un des enjeux que vous relevez dans l’étude ?

Oui, l’IA générative est faite pour généraliser, pas pour mémoriser. Donc elle invente et elle oublie à sa propre discrétion. Il y a des applications où cela est utile ; si je donne deux poèmes de Shakespeare, l’IA peut m’en générer un troisième. Il y a d’autres applications où c’est moins utile ; par exemple, je n’ai pas envie que l’IA généralise la liste des enseignants qui travaillent à Télécom Paris ; ici, il faut mémoriser, pas généraliser. Et c’est là où nos travaux avec Thomas Bonald se positionnent :

nous développons des bases de connaissances qui stockent de l’information précise, sans généraliser et sans oublier. Le but est de combiner ces stockages fiables avec l’IA générative pour interagir en langage naturel avec l’utilisateur.

Autres menaces : environnement, responsabilité…

— Autre enjeu de taille, l’impact environnemental du transfert des recherches Google sur ChatGPT et autres IA génératives. Les requêtes basées sur des mots-clés habituels avec les recherches Google sont beaucoup moins énergivores… Mais la tendance actuelle est quand même de formuler de plus en plus des requêtes en langage naturel, notamment parce qu’il existe des subtilités qui n’est pas possible de faire passer avec les mots-clés ?

Tout à fait. Les LLM consomment de l’énergie, à la fois pour l’entraînement et pour ce que l’on appelle l’inférence, donc la génération de réponses. La tendance est de rendre les modèles toujours plus grands, et de les entraîner sur toujours plus de données, ce qui a en effet amélioré leur performance. Mais cela a un coût : des entreprises d’IA cofinancent aujourd’hui des réacteurs nucléaires pour couvrir leur demande d’énergie. Le problème va encore devenir plus lourd avec les applications nombreuses et ubiquitaires de l’IA (recherche sur le Web, implantation dans les téléphones mobiles, etc.).

— Parmi les enjeux clés que vous mentionnez, il y a la « liability » ou responsabilité, un peu moins documentée. Qui est responsable des erreurs des LLM ?

Actuellement, il n’est pas aisé d’établir la responsabilité pour les réponses d’un modèle.

OpenAI, pour sa part, décline toute responsabilité, et la délègue à l’utilisateur. Cela peut fonctionner s’il s’agit de réponses potentiellement fausses que l’utilisateur doit vérifier lui-même. Mais cela ne le peut pas quand, par exemple, l’IA commence à diffamer une personne de la vie publique dans ses réponses. Cette personne se verrait exposée à des fausses allégations dans les Chats, mais le coupable serait, paradoxalement, chaque utilisateur, qui n’a bien sûr aucun intérêt à s’inculper lui-même !

— Nous n’allons pas développer les quinze défis que vous passez en revue dans votre article, comme les biais reproduits et même accentués par les IA génératives ou bien la manipulation d’opinion. Je vous propose de terminer notre inventaire peut-être par cet enjeu, car l’influence des IA génératives sur les utilisateurs est croissante et ce d’autant plus que les LLM sont implantés dans notre sphère privée et se parent de plus en plus d’attributs humains.

C’est déjà le cas. DeepSeek, le chatbot chinois, par exemple, a des opinions très tranchées sur Taiwan. Il y a le risque que d’autres chatbots, eux aussi, profèrent des opinions tranchées sur certains sujets, soit de façon évidente, soit de façon subtile, soit de manière délibérée de la part de leurs fournisseurs, soit à cause de biais dans les données d’entraînement. Mais en tout cas à grande échelle et potentiellement systématiquement.

— Comment dans ces conditions pourrait-on empêcher, ou en tout cas minimiser ces effets négatifs des LLM et la substitution des moteurs de recherche ?

Dans notre article, nous associons à chacun des quinze défis les pistes qui sont déjà envisagées actuellement, à la fois législatives et techniques. C’est très complexe parce que les LLM offrent, comme on l’a vu, de nombreux avantages pour l’utilisateur, notamment la possibilité de faire passer dans la recherche des subtilités qu’il n’est pas possible de faire passer avec des mots-clés.

— Alors comment faire pour lutter contre une forme de facilité qui consisterait à faire de ChatGPT notre assistant personnel pour tout, une sorte de passage obligé quel que soit notre recherche ?

En effet, l’IA vient avec énormément d’opportunités, l’accès à des informations spécifiques se démocratise, l’écriture et la lecture se fluidifient, des millions de gens trouvent des réponses à leurs questions chaque jour grâce à l’IA. En même temps, l’IA pose aussi des défis importants comme nous le disons dans notre article, avec déjà des pistes de solution à la fois techniques et juridiques.

Ne diabolisons pas l’IA, mais disons-nous que l’humanité a maîtrisé bien d’autres technologies disruptives, je pense à l’internet, au téléphone mobile, à l’énergie nucléaire, à l’imprimerie… Toutes ces inventions ont bouleversé nos sociétés mais à la fin ont été maîtrisées et utilisées pour le bien. Espérons que ce sera la même chose avec l’IA !