Construire les communs des données grâce au Web sémantique
Le Web déborde de contenus. Chaque seconde, nous partageons des milliards d’informations entre humains: postes sur les réseaux sociaux, articles de blog, produits à vendre, pages de wiki, menu de restaurant, bulletins scolaires etc…
Bien que partagées numériquement, ces ensemble de lettres, mots et phrases ont du sens uniquement pour les humains qui les lisent. Aux yeux d'une machine, le Web ne représente que des suites de symboles qu'elle doit stocker et afficher sur un écran. C'est ainsi que l'a conçu son créateur Tim Berners-Lee au début des années 90: des documents textuels décentralisés et reliés entre eux par des hyperliens.
10 ans plus tard, Sir Berners-Lee et d'autres se sont rendu-compte que cette approche "par document" ne suffirait pas aux besoin grandissant de la société numérique : celle-ci a besoin que la machine comprenne la donnée afin de pouvoir la traiter, l'organiser et finalement, la générer (coucou l'IA). C'est ainsi qu'est né le concept de Web sémantique.
If you think of the web today as turning all the documents in the world into one big book, then think of the Semantic Web as turning all the data into one big database, or one big mathematical formula.
Tim Berners-Lee, The Semantic Web
Pour faire simple, le Web sémantique est une manière différente du HTML de représenter les données que l'on s'échange à travers Internet pour que la machine puisse la comprendre.
Le Web sémantique n’est pas une boite noire
Comment ça fonctionne ? Rien de très compliqué. Prenons ce (petit) document HTML:
La machine ne saurait le comprendre pleinement mais si l'on souhaite faire du Web sémantique, on stockerait plutôt quelque chose qui ressemble à cela:
Techniquement, il y a plusieurs manières de représenter ces infos en utilisant une syntaxe de la famille RDF. Voilà un exemple avec la syntaxe Turtle:
Grâce à cette représentation des données dite sémantique, la machine est capable d'identifier différents sujets (Jane, Octree, le métier 'développement') et des liaisons entre ces sujets.
Avec ce principe de liens caractérisés entre sujets, on peut ainsi créer une toile d'informations reliées et obtenir un réseau de connaissances. C'est l'idée derrière le projet Linked Open Data Cloud qui vise à connecter les données d'une multitude de sources (médicales, gouvernementales, géographiques, scientifiques, médiatiques,...) dans le but de créer de nouvelles connaissances en croisant les informations.
De la mise en commun des savoirs aux communs numériques
Le Web sémantique permet donc d'abattre les silos en créant des bases de données qui ne sont pas propres à un service ou un produit. Mieux ! Il permet de créer de nouveaux services plus respectueux des utilisateurs en leur redonnant la main sur leurs données comme c'est le cas avec le projet Solid qui développe une manière alternative de consommer et d'échanger des données. Un autre exemple saillant: le Fediverse (porté notamment par le service Mastodon) fonctionne grâce au protocole ActivityPub, lui-même reposant essentiellement sur les technologies du Web sémantique.
Autrement dit, le web sémantique permet de redonner de la liberté à l’individu. Ainsi, il amorce la sortie d’un modèle économique basé sur la prédation des données privées en permettant de concevoir des alternatives aux économies de plateformes.
Et l’intelligence artificielle dans tout ça ?
L'IA profite également des avantages du Web sémantique. Le fonctionnement des LLMs, forme la plus publiquement connue d'IA aujourd'hui, consiste à ingérer une très grande quantité de données textuelles et constituer des modèles statistiques afin de prédire quel mot va suivre le précédent pour générer un nouveau texte (en très résumé). C'est une grande avancée !
Toutefois cela est également extrêmement énergivore (léger problème, la planète brûle) et pourrait être grandement amélioré grâce au Web sémantique: pas besoin de faire de nombreux calculs et indexations si les informations sont déjà traitées et présentes dans un format compréhensible par la machine. Il n'y a qu'à se servir!
À Octree : un lien entre interopérabilité et gouvernance distribuée
Chez Octree, nous avons commencé à mettre en place et utilisé des données sémantiques. Afin de prendre en main les concepts et technologies, nous avons suivi un projet de "sémantisation" qui consistait à centraliser les données des divers outils que l'on utilise (Notion, Harvest, GitLab, Jelastic,...) dans une même base de données en format RDF. Cela nous permet désormais de pouvoir faire des requêtes transversales sur notre activité afin de créer des métriques facilitant la prise de décision dans notre gouvernance distribuée.
Ce succès nous a permis ensuite de proposer un projet de sémantisation à l'un de nos clients cherchant à se rendre moins dépendant d'une solution ERP privée limitée dans ses possibilités. Ce projet est toujours en cours mais nous avons pu sans trop de difficulté libérer les données de l’entreprise et les mettre à disposition d'une alternative Open source comme Odoo.
Cette maîtrise du Web sémantique nous ouvre de grandes portes pour l'Open Data (qui nous est chère). De part sa conception, ce Web pas si alternatif que ça met avant tout l'accent sur l'ouverture et le partage des données afin de créer un réseau de connaissance commun.
C'est donc une brique de base inévitable pour nos prochains projets, mais aussi pour défendre un Web libre.
Ça vous intrigue ? Contactez-nous et parlons-en.
- Tim pour Octree
Image principale:
Network Lattice–Framework for a Zeiss Planetarium, n.d. Reprinted in László Moholy–Nagy, The New Vision: Fundamentals of Bauhaus Design, Painting, Sculpture, and Architecture (Mineola, NY: Dover, 1938/2005), 203. Source: Zeiss Archiv.