Intelligence artificielle, agent conversationnel, application web, moteur de recherche, … tous ces services utilisent des millions et des millions d’informations. Mais pour faire le lien entre toutes ces ressources disponibles, il est primordial de se doter d’outils performants. C’est notamment le cas du graphe de connaissances.
Qu’est-ce qu’un graphe de connaissance ?
Le graphe de connaissance (ou knowledge graph en anglais), c’est une représentation visuelle des connaissances détenues par une machine. Autrement dit, toutes les données disponibles sont modélisées sous forme graphique. Un peu comme un organigramme avec des centaines et des centaines de branches pour faire le lien entre toutes les datas. Ce qui facilite ainsi la recherche d’information, la compréhension du contexte, la richesse des connaissances, la prise de décision, les applications d’intelligence artificielle, les assistants vocaux…
Au début, les graphes de connaissance n’étaient capables de faire des connexions qu’entre les données de certaines disciplines. Dans les années 1980, il s’agissait surtout de concevoir une structure de réseau sémantique. L’idée était alors d’établir des liens entre les mots et leurs significations. Progressivement, ces knowledge graphs se sont développé à d’autres disciplines, comme la géographie, les relations humaines, …
Puis dans les années 2010, Google développe son propre Google Knowledge Graph (GKG). Celui-ci reprend les données d’une grande variété de sources, telles que DBpedia (un graphe de connaissance utilisant les informations issues de Wikipédia), de Freebase (qui utilise plusieurs jeux de données ouvertes) ou encore la CIA World Factbook. En outre, les données utilisées présentent une grande variété de formats (microdonnées, RDFa, JSON-LD). C’est à cet instant que le concept de graphes de connaissances se démocratise.
Aujourd’hui, les graphes de connaissances sont des outils incontournables des organisations data centric. Et pour cause, ils sont au cœur de l’utilisation de nombreux services et applications.
Quelles applications ?
L’utilisation des graphes de connaissance a explosé avec l’explosion du web sémantique. Très souvent, ils sont associés aux projets d’ouverture des données.
Ainsi, ces outils sont très souvent utilisés par les moteurs de recherche, comme Google, afin de connecter les données entre elles en fonction de concepts prédéfinis. Ces outils facilitent ainsi la publication et l’indexation de sites web en fonction des thématiques abordées et la recherche des internautes.
Mais ils peuvent également être utilisés par :
- Les médias sociaux : comme Facebook, Twitter et Instagram. Les graphes de connaissances vont, par exemple, permettre de faire des connexions entre les abonnés / Groupes. C’est cela qui va notamment faciliter les suggestions d’ »amis » ou de contenu pertinent pour l’utilisateur.
- Les logiciels de questions / réponses : comme Wolfram Alpha. Ces outils contiennent une base de données présentant un volume d’informations exponentiel. Mais pour faciliter la recherche des utilisateurs, les données sont réparties sous plusieurs catégories (ce sont les graphes de connaissances).
- Les assistants virtuels : comme Siri, Alexa ou Pi. Ces outils d’intelligence artificielle doivent répondre rapidement aux requêtes de l’internaute en fonction de leur base de données. Pour cela, les connexions sémantiques sont indispensables.
- L’intelligence artificielle : basés sur les modèles d’apprentissage, les outils IA doivent être capables de faire des liens très rapidement entre toutes les données à disposition.
Comment fonctionne le graphe de connaissance ?
Le graphe de connaissance est formé de trois composants essentiels. À savoir :
1 / Un modèle de données (ou ontologie)
- Les ressources disponibles : comme les personnes, les événements, les documents, les lieux géographiques…
- Leurs propriétés : nom, date de création…
- Leurs relations : qui a créé quoi, où, comment…
Au fur et à mesure de l’ajout de nouvelles informations, l’ontologie peut être enrichie avec de nouvelles ressources, propriétés ou relations.
2 / Des référentiels
On parle également de vocabulaire contrôlé. L’idée est alors d’identifier les grands concepts qui permettent de décrire les ressources. Par exemple:
- Pour les personnes travaillant au sein d’une organisation : il est possible d’utiliser plusieurs référentiels, comme le département (RH, service administratif, commercial…) ou le niveau hiérarchique (assistant, manager, cadre, dirigeant…). Le tout forme alors un ensemble de vocabulaires contrôlés.
- Pour les lieux géographiques : vous pouvez les répartir par pays, continent, zone urbaine ou rurale, …
3 / Les ressources
Ce sont toutes les données disponibles. C’est sur elles que repose l’intégralité du graphe de connaissances. Elles peuvent alors provenir d’une grande variété de sources, comme des bases de données relationnelles, de documents XML, des textes, des images, ou même d’autres graphes de connaissance.
À l’heure du Big data, l’ajout de nouvelles ressources vient sans cesse alimenter le graphe de connaissance. Mais pour que celui-ci conserve sa pertinence, il est primordial d’intégrer des processus d’automatisation visant à modéliser toutes les connaissances disponibles.
Rejoignez la formation DataScientest
Si le graphe de connaissance apparaît comme le socle de tout un écosystème de services, encore faut-il apprendre à le maîtriser. C’est justement l’objectif d’une formation en data science. Ici, vous apprendrez à modéliser les données disponibles pour créer des services ou applications performants.