Newsroom

Une nouvelle version pour Yago, la grande base de connaissance généraliste

Yago est l’une des premières grandes bases de connaissances publiques. Elle est développée par des scientifiques du Max Planck Institute for Informatics (Sarrebruck, Allemagne) et des chercheurs de Télécom Paris – dont l’initiateur du projet, Fabian Suchanek. Aujourd’hui, les chercheurs dévoilent une nouvelle version de la base de connaissances qui s’appuie désormais sur Wikidata et schema.org. Les données de Yago 4 sont si sophistiquées qu’elles permettent à la machine de raisonner.

Yago (Yet Another Great Ontology) est une base de connaissance, c’est-à-dire une collection de données portant sur le monde et pouvant être comprises par un ordinateur. YAGO contient des « entités », c’est-à-dire des objets de la réalité pouvant être par exemple des villes, des organisations ou encore des scientifiques. Au total, Yago contient 50 millions d’entités et 2 milliards de faits sur elles : par exemple dans quelle région est localisée une ville ou encore de quel pays un politicien est le président. Ces données prennent la forme d’un graphe sur lequel les nœuds sont les entités et les arrêtes sont les liens entre ces entités dans le monde réel.

Traiter et classer efficacement les informations

Parmi les nombreuses bases de connaissances qui existent à l’heure actuelle, Yago s’est toujours distinguée par son aptitude à la précision et à la clarté de l’information. Notamment, Yago applique des contraintes sémantiques. Par conséquent le système exclut toute donnée qui n’est pas cohérente avec les autres. De plus, Yago classe toutes les entités dans une taxonomie, c’est-à-dire dans une structure hiérarchique de catégories.

L’efficacité de Yago a été plus d’une fois reconnue dans le domaine informatique. Notamment, en 2018, les co-concepteurs de Yago, Fabian Suchanek (professeur à Télécom Paris), Gjergji Kasneci (SCHUFA Holding AG), et Gerhard Weikum (Max Planck Institute for Informatics) ont remporté Test of Time Award de la conférence The Web, la plus prestigieuse conférence du domaine du Web. Ils ont également reçu le « Prominent Paper Award » du  « Artificial Intelligence journal », le journal le plus important dans le domaine de l’intelligence artificielle. Les données de Yago sont librement disponibles sur le Web, et depuis 2018, le code source du système est devenu public.

YAGO 4 : bien plus d’informations et une taxonomie plus complète

La nouvelle version de Yago se base désormais entièrement sur deux nouvelles ressources : Wikidata et schema.org. Wikidata est une excellente source d’entités et schema.org est l’une des taxonomies les plus reconnues sur le Web. Yago 4 combine le meilleur de ces deux systèmes. En outre, grâce à la vérification des contraintes sémantiques, les données sont épurées à tel point qu’elles permettent à un raisonneur automatique de valider leur cohérence logique. A l’occasion de la sortie de sa version 4, la base a été entièrement transférée sur un nouveau site web hébergé par Télécom Paris. Son lancement officiel a eu lieu à l’occasion de l’ESWC 2020, la première conférence du Web sémantique en Europe.

L’open source, un levier vers l’innovation prisé par Télécom Paris

Télécom Paris se donne pour objectif de promouvoir le progrès informatique en mettant à disposition des projets open source menés dans le cadre de recherches académiques. Le COSI, centre pour l’innovation des logiciels libres (Center for Open Software Innovation) a été créé en 2018 au sein du laboratoire LTCI. Ce centre a notamment l’ambition de présenter les projets open source créés et co-créés au LTCI, de promouvoir les logiciels et modèles à code source ouvert dans le monde universitaire et en général ainsi que de soutenir au mieux les communautés de développement de logiciels à source ouverte.