YAGO (Yet Another Great Ontology)

Base de connaissance open source.
Licence : GNU GPL v3.
Contributeurs : Fabian M. Suchanek et al.
Dernière mise à jour : mai 2020.
Site Web.

Yago constitue l’une des premières grandes bases de connaissance publiques. Développée par sept scientifiques du Max Planck Institute for Informatics (Sarrebruck, Allemagne) et de Télécom Paris, la base est aujourd’hui le fruit d’une collaboration entre ces deux institutions .

En août 2017, les chercheurs de l’équipe ont gagné pour leurs travaux le prix « Prominent Paper Award » du Artificial Intelligence journal, le plus important journal dans le domaine de l’intelligence artificielle. En 2018, ils ont remporté Test of Time Award de The Web, la plus prestigieuse conférence du domaine du Web.

Quiconque est coutumier des recherches sur Internet a pu faire le constat suivant : les mots ont presque tous plusieurs significations. Selon le sens qu’on a en tête, on va s’attendre à différents résultats de recherche. Les moteurs de recherche dits « intelligents » résolvent ce problème en faisant appel à des bases de connaissance. Celles-ci comprennent des films, des entreprises, des personnalités, des produits et beaucoup d’autres informations.

Développée par les scientifiques du Max Planck Institute for Informatics et de Télécom Paris, Yago a dès ses débuts, en 2007, été mise à disposition gratuitement. Yago inclut des informations de sources variées dans un format lisible par l’ordinateur. Le recours à l’intelligence artificielle a permis d’élargir le champ de ses usages en améliorant efficacité et mode de fonctionnement pour diverses applications.

La nouvelle version de Yago, dévoilée en mai 2020, se base désormais entièrement sur deux nouvelles ressources : Wikidata qui est une excellente source d’entités et schema.org, l’une des taxonomies les plus reconnues sur le Web.

Grâce à la génération automatique d’entités et des liens entre elles/et des relations qui les lient, les ordinateurs sont en mesure de répondre à des requêtes complexes.

Principes de fonctionnement

L’Institut Max Planck pour l’Informatique, situé à Sarrebruck en Allemagne, a pour mission le développement des fondations de systèmes informatiques efficaces et robustes, y compris les algorithmes et les applications. Il comprend 200 scientifiques dont 120 doctorants. L’institut appartient à la Société Max Planck, qui comprend 85 instituts dédiés aux sciences fondamentales. La société est réputée pour ses 33 lauréats de prix Nobel et se place parmi le top 5 des instituts de recherche au monde.

« Si vous entrez dans Google le terme “Thales” par exemple, cela ne représente qu’une succession de lettres pour le moteur de recherche » explique le professeur Gerhard Weikum, Directeur scientifique au Max Planck Institute for Informatics à Sarrebruck. « Une base de connaissance va permettre de relier cet ensemble de lettres à plusieurs significations possibles, comme ici pour notre exemple à “Thales Group”, la multinationale française d’équipements électronique, ou à “Thales de Milet”, le philosophe et savant grec. » De nos jours, il est difficile d’imaginer les moteurs de recherche se passer de ce genre de connaissances de fond, de contexte. D’ailleurs, c’est grâce à l’utilisation des bases de connaissance que Google peut afficher en résultats de cette requête à la fois les cours en bourse, le logo et le PDG de Thales Group, en plus des résultats de recherche classique.

Les projets de recherche académique ont été pionniers dans ce domaine et ont permis aux bases de connaissance de voir le jour. A l’origine sujet de thèse de Fabian Suchanek au Max Planck Institute, Yago est aujourd’hui le fruit d’une collaboration avec Télécom Paris où Fabian Suchanek est devenu professeur. Yago intègre les informations de Wikidata et de schema.org, afin de leur donner de « l’intelligence » et de les contextualiser. Par exemple, le système sait ainsi placer le siège de Thales Group à Neuilly-sur-Seine et le lieu de naissance de Thales de Milet en Turquie.

Yago s’est toujours distinguée des autres bases de connaissance par son aptitude à la précision et à la clarté de l’information, notamment par l’application de contraintes sémantiques. Par conséquent le système exclut toute donnée qui n’est pas cohérente avec les autres.

Des applications variées

Beaucoup d’applications relevant de divers secteurs industriels font appel à l’intelligence artificielle afin d’améliorer leur efficacité et, surtout, leur mode de fonctionnement. Les applications intelligentes peuvent, avec l’aide de Yago, effectuer des recherches dans plusieurs langues tout en répertoriant des faits à la fois spatialement et temporellement, ce qui rend possible la requête suivante : « Recherche tous les scientifiques ayant vécu au XXe, nés dans la région du Grand Paris et ayant reçu un prix Nobel ». L’utilisation la plus connue de Yago ces dernières années fut lorsqu’IBM l’intégra au système d’intelligence artificielle Watson, qui remporta le jeu télévisé « Jeopardy! » en 2011.

Yago catégorise tout individu dans une structure sémantique. Jusqu’à présent, les ordinateurs ont stocké de grandes quantités de données, sans être capables cependant de les classer et a fortiori de les comprendre. La structure de Yago change la donne en permettant à l’ordinateur de pouvoir distinguer, par exemple, « Gerd Müller », le champion du monde de football en 1974, de « Gerd Müller », le ministre allemand de la Coopération économique et du Développement. De telles structures étaient auparavant élaborées manuellement, ce qui constitue en fait une tâche très complexe, en termes de production comme de vérification.

La procédure mise au point pour Yago permet de contourner astucieusement cette tâche fastidieuse. La base de connaissance va de manière systématique puiser dans le réservoir de connaissances de Wikidata, non seulement l’information indiquant si telle personne est un(e) athlète ou un(e) politicien(ne), mais également la ou les relations existant entre les deux, vont se présenter dans un format lisible par la machine. Par conséquent, le lien « se trouve à » connecte Thales Group à Neuilly-sur-Seine. La base de connaissance contient à ce jour 50 millions d’entités et 2 milliards de faits.

Un projet pour la communauté

Le code source de la base de connaissance se trouve sur la plateforme GitHub, sous la licence open source GNU GPL v3. Cette licence d’utilisation du logiciel garantit à chacun le droit d’utiliser, d’étudier, de modifier et de partager le code programme protégé. « La communauté des développeurs dispose d’une base de connaissance de haute qualité, » conclut Fabian Suchanek. « Nous espérons non seulement voir apparaître de nouveaux usages pour Yago, mais nous attendons avec un vif intérêt les contributions des développeurs. »

Site web de YAGO