Grands modèles de langage : vers la fin des moteurs de recherche traditionnels ?
Fabian Suchanek, professeur à Télécom Paris, novembre 2025
C’est tout l’écosystème en ligne, tel qu’on le connaît actuellement (avec des pages et des sites accessibles via les moteurs de recherche pointant vers des URL) qui se voit remis en cause. Et les moteurs de recherche eux-mêmes sont contraints de se réinventer. Google vient juste de lancer officiellement en Europe son mode IA, qui bouleverse complètement la manière d’utiliser les moteurs de recherche.
Fabian Suchanek, enseignant-chercheur à Télécom Paris, est co-auteur, avec Zacchary Sadeddine, Winston Maxwell et Gaël Varoquaux, d’un article publié dans le cadre de l’ACM SIGIR Forum consacré aux défis sociétaux qu’une telle évolution pourrait générer. Cet article, Large Language Models as Search Engines: Societal Challenges, est l’un des plus complets aujourd’hui, puisqu’il ne liste pas moins de quinze défis majeurs.- Parmi eux, l’appauvrissement du web (les contenus publiés par ces IA finissant par nourrir leurs propres recherches d’elles-mêmes), mais aussi sa cannibalisation (les IA génératives court-circuitant les sites, qui se retrouvent sans visiteurs, donc sans publicité et au bout du compte sans ressources…).
 - Également au cœur de l’actualité, la question des droits d’auteur et de la propriété intellectuelle ou celle de l’impact environnemental des LLM, pour n’en citer que quelques-unes.
 - L’article donne également des pistes pour empêcher ou en tout cas minimiser ces effets négatifs des LLM. Par exemple, disposer d’une sorte de vérification des informations, afin de casser ce cycle infernal. Des travaux sont conduits à Télécom Paris autour des bases de connaissances permettant une vérification a posteriori des résultats donnés par les IA génératives.
 
Propos recueillis par Isabelle Mauriac
Lire aussi : Comment les IA transforment le Web (Sciences & Avenir, La Tribune) | Nouveau navigateur ChatGPT Atlas : «Le danger principal : que l’IA agisse au nom de l’utilisateur» (Libération)
Podcast
Retrouvez cette interview en format audio dans le cadre des podcasts Télécom Paris Ideas :
Podcast enregistré le 16/10/2025 par Michel Desnoues, Télécom Paris
Une (r)évolution déjà bien en cours
On appelle les IA génératives tout système qui peut produire du nouveau contenu, des images, de la vidéo, du texte ou du son. Les modèles de langage, les LLM, sont un type particulier de l’IA générative, qui génère le texte. Avant l’arrivée de ChatGPT, les modèles de langage n’étaient pas vraiment capables de tenir une conversation. ChatGPT a tout changé, principalement grâce à plus de données d’entraînement et un entraînement sur des collections de Chat, ce qui permet au modèle de se comporter comme un interlocuteur. Donc pour la première fois, le grand public peut avoir une vraie conversation avec un chatbot compétent. Aujourd’hui, il y a 700 millions d’utilisateurs hebdomadaires de ChatGPT. Mais il y en a d’autres, tels que Claude (par Anthropic), DeepSeek, Google Gemini, Microsoft Copilot…
On se rend bien compte que nos bons vieux moteurs de recherche ont du souci à se faire, en particulier chez les jeunes générations, qui utilisent davantage ChatGPT que Google. D’ailleurs, selon l’étude publiée en septembre par OpenIA sur l’usage de son service, les 18-25 ans représentent à eux seuls 46% du total des messages envoyés à ChatGPT. Mais c’est sans compter le fait que les moteurs de recherche eux-mêmes sont en train de se réinventer puisque Google vient tout juste de lancer officiellement en Europe son mode IA, disponible dans plus de 200 pays mais qui reste pourtant inaccessible en France à cause d’un blocage juridique. Ce mode IA n’est pas un chatbot généraliste comme ChatGPT ou l’application de Gemini, il est intégré au moteur de recherche. Concrètement, il s’appuie sur l’index de Google. Il cite ses sources par défaut, garde le fil des recherches et peut personnaliser les réponses si on l’y autorise.
Ces chatbots utilisent le Retrieval Augmented Generation (RAG), c’est-à-dire qu’ils collectionnent les documents pertinents sur le Web et répondent sur la base de ces contenus. Ceci est le cas de ChatGPT et Google Gemini, mais aussi de Bing Search, Duckduckgo search, Brave search, et bien d’autres. À ce titre, on peut dire que les moteurs de recherche sont aussi confrontés aux enjeux dont on va parler dans un instant, dans la mesure où ils utilisent l’IA générative.
Quels droits ?
En effet. Il existe deux cas de figure : un LLM peut reproduire un certain texte sous forme de verbatim. Dans la plupart des cas, cela viole le copyright de celui qui a produit le texte. Un cas connu est celui du New York Times qui accuse OpenAI de reproduire ses articles payants littéralement. Mais même un article de Wikipedia ne peut pas être reproduit sans reconnaître la source.
L’autre cas de figure est que le LLM se base sur un texte, sans pourtant le reproduire littéralement. Ici, il ne peut pas s’agir d’une violation du copyright. La juridiction américaine a récemment décidé que Meta et Anthropic ont le droit d’entraîner leurs modèles sur le contenu comme « fair use » (usage équitable). La législation européenne, par contre, permet à l’auteur de s’opposer à l’entraînement des LLM sur son contenu.
Oui, le public peut actuellement utiliser le contenu des réponses comme il le souhaite. Par exemple, je pourrais demander à ChatGPT d’écrire un livre de recettes de cuisine, et je pourrais ensuite vendre ce livre. Le problème est que, légalement, je n’ai pas le copyright sur ce livre (au moins aux États-Unis), parce qu’il a été écrit par une machine. Donc toute autre personne pourrait faire une copie de mon livre et la vendre elle aussi. C’était pareil pour les photos, d’ailleurs : à une époque, il n’était pas possible de bénéficier du copyright sur une photo, car on partait du principe qu’elle avait été produite par une caméra, sans créativité humaine. Aujourd’hui l’opinion a changé : la créativité humaine dans la prise d’une photo réside dans le choix de l’objet, du moment et du cadre. La photo est donc sous copyright.
Menaces sur le web
Et en effet, on voit que le trafic des pages Web (Wikipédia, sites de presse, etc.) provenant des moteurs de recherche a baissé par 5% depuis 2024 — potentiellement à cause des réponses IA dans les moteurs de recherche. Par exemple, les requêtes sur l’actualité qui restent sur la page du moteur de recherche ont augmenté de 56% à 69%… Les utilisateurs lancent la requête et lisent la réponse sans quitter le site du moteur de recherche. Or, les pages Web ont besoin de visiteurs pour survivre : Wikipédia pour des dons, mais aussi pour des contributions, les pages Web de la presse pour des souscriptions, et les autres pages pour le revenu généré par les publicités. Si le trafic cesse, ces pages ne peuvent pas survivre.
Il existe un autre risque qui n’est pas assez pointé à mon avis : l’appauvrissement, puisque les IA génératives finissent par se nourrir des contenus qu’elles-mêmes produisent. Actuellement, elles sont entraînées essentiellement sur des données textuelles générées par des humains, mais comme elles génèrent elles-mêmes de plus en plus de textes, il sera compliqué à l’avenir de savoir si tel texte a été généré par une machine ou par un humain.
Cela est probablement déjà une réalité. Par exemple, la plupart du contenu traduit sur le Web est aujourd’hui généré par une machine. En même temps, les LLM nécessitent de plus en plus de données d’entraînement.
Les LLM se retrouveraient donc dans une « chambre d’écho » qui amplifierait leurs propres bais et erreurs, et diminuerait la diversité de contenu, d’opinions et de styles. C’est ce que l’on appelle le Model Collapse, et on peut déjà l’observer.
C’est un danger dont on est maintenant conscients, mais si vraiment ces modèles contribuent à la mort du web, il est clair qu’eux aussi n’auront plus de contenus pour s’entraîner et mourront eux aussi.
Oui, l’IA générative est faite pour généraliser, pas pour mémoriser. Donc elle invente et elle oublie à sa propre discrétion. Il y a des applications où cela est utile ; si je donne deux poèmes de Shakespeare, l’IA peut m’en générer un troisième. Il y a d’autres applications où c’est moins utile ; par exemple, je n’ai pas envie que l’IA généralise la liste des enseignants qui travaillent à Télécom Paris ; ici, il faut mémoriser, pas généraliser. Et c’est là où nos travaux avec Thomas Bonald se positionnent :
Autres menaces : environnement, responsabilité…
Tout à fait. Les LLM consomment de l’énergie, à la fois pour l’entraînement et pour ce que l’on appelle l’inférence, donc la génération de réponses. La tendance est de rendre les modèles toujours plus grands, et de les entraîner sur toujours plus de données, ce qui a en effet amélioré leur performance. Mais cela a un coût : des entreprises d’IA cofinancent aujourd’hui des réacteurs nucléaires pour couvrir leur demande d’énergie. Le problème va encore devenir plus lourd avec les applications nombreuses et ubiquitaires de l’IA (recherche sur le Web, implantation dans les téléphones mobiles, etc.).
Actuellement, il n’est pas aisé d’établir la responsabilité pour les réponses d’un modèle.
OpenAI, pour sa part, décline toute responsabilité, et la délègue à l’utilisateur. Cela peut fonctionner s’il s’agit de réponses potentiellement fausses que l’utilisateur doit vérifier lui-même. Mais cela ne le peut pas quand, par exemple, l’IA commence à diffamer une personne de la vie publique dans ses réponses. Cette personne se verrait exposée à des fausses allégations dans les Chats, mais le coupable serait, paradoxalement, chaque utilisateur, qui n’a bien sûr aucun intérêt à s’inculper lui-même !
C’est déjà le cas. DeepSeek, le chatbot chinois, par exemple, a des opinions très tranchées sur Taiwan. Il y a le risque que d’autres chatbots, eux aussi, profèrent des opinions tranchées sur certains sujets, soit de façon évidente, soit de façon subtile, soit de manière délibérée de la part de leurs fournisseurs, soit à cause de biais dans les données d’entraînement. Mais en tout cas à grande échelle et potentiellement systématiquement.
Dans notre article, nous associons à chacun des quinze défis les pistes qui sont déjà envisagées actuellement, à la fois législatives et techniques. C’est très complexe parce que les LLM offrent, comme on l’a vu, de nombreux avantages pour l’utilisateur, notamment la possibilité de faire passer dans la recherche des subtilités qu’il n’est pas possible de faire passer avec des mots-clés.
En effet, l’IA vient avec énormément d’opportunités, l’accès à des informations spécifiques se démocratise, l’écriture et la lecture se fluidifient, des millions de gens trouvent des réponses à leurs questions chaque jour grâce à l’IA. En même temps, l’IA pose aussi des défis importants comme nous le disons dans notre article, avec déjà des pistes de solution à la fois techniques et juridiques.
C’est tout l’écosystème en ligne, tel qu’on le connaît actuellement (avec des pages et des sites accessibles via les moteurs de recherche pointant vers des URL) qui se voit remis en cause. Et les moteurs de recherche eux-mêmes sont contraints de se réinventer. Google vient juste de lancer officiellement en Europe son mode IA, qui bouleverse complètement la manière d’utiliser les moteurs de recherche.