Quelques repères sur le Web sémantique / Web de données

22
Quelques repères sur le Web sémantique / Web de données Bertrand Sajus Ministère de la Culture et de la Communication Département des programmes numériques INTD, 05/04/2013

Transcript of Quelques repères sur le Web sémantique / Web de données

Page 1: Quelques repères sur le Web sémantique / Web de données

Quelques repères sur le Web sémantique / Web de données

Bertrand SajusMinistère de la Culture et de la Communication

Département des programmes numériques

INTD, 05/04/2013

Page 2: Quelques repères sur le Web sémantique / Web de données

1989-1993 : gestation du Web 

Quelques dates clés

2

1994 : - World Wide Web Consortium- T Berners-Lee : “ The Need for Semantics in the Web ”

1995 : HTML 2.0

1996 : HTTP 1.0

2001 : “The Semantic Web”T B-L, James Hendler and Ora Lassila, Scientific American Magazine

2000-2005 : Éclosion du Web 2.0

2006 Initiative W3C :Linked Open Data

2004 : RDF, OWL

2007 DBpedia

2008 SPARQL

2011Schema.org

2006  : - VIAF - Geonames

2011data.bnf.fr

Page 3: Quelques repères sur le Web sémantique / Web de données

Dans l'expérience commune des internautes, le Web c'est d'abord des « pages HTML »lisibles par des êtres humains et reliées entre elles par des hyperliens

Du Web des « pages HTML » au Web dit « sémantique »

3

Le Web sémantique est une extension du Web : il relie non pas des pages mais des données et s'adresse d'abord à des machines

Page 4: Quelques repères sur le Web sémantique / Web de données

Cadre de description des Ressources

RDF Resource Description Framework

4

Norme fondamentale du Web sémantique (2004)

- R comme Resource :

pages, images, videos, toute chose matérielle ou immatérielle

- D comme Description :

… tout ce qui peut avoir une URI

les caractéristiques des ressources et leurs interrelations

- F comme Framework :

le modèle et la syntaxe de ces descriptions

Page 5: Quelques repères sur le Web sémantique / Web de données

L'unité de base du Web sémantique est le triplet RDF

Arc de Triomphe de l’Étoile Parisest situé à

Sujet Prédicat Objet

Triplet RDF

5

Sujet Verbe ComplémentLangage naturel :

Triplet : ensemble constitué d'un sujet, d'un prédicat et d'un objet

Nœud Arc NœudGraphe :

Page 6: Quelques repères sur le Web sémantique / Web de données

http://viaf.org/viaf/44396537/

http://purl.org/dc/terms/creator

http://fr.dbpedia.org/page/Arc_de_triomphe_de_l%27%C3%89toile

Jean-François Chalgrin Arc de Triomphe de l’Étoileest l'auteur de

URIs (Uniform Ressource Identifier)

Chaque partie de la déclaration peut être nommée, et donc identifiée de manière absolueau plan mondial, par un URI :

Page 7: Quelques repères sur le Web sémantique / Web de données

http://viaf.org/viaf/44396537/

http://purl.org/dc/terms/creator

Utiliser le Web comme source de référentiels

Le Sujet est référencé dans VIAF (Virtual International Authority File)

Le Prédicat est défini dans le Dublin Core (DMCI)

L'Objet est décrit dansWikipédia / DBpediahttp://fr.dbpedia.org/resource/Arc_de_triomphe_de_l'Étoile

Page 8: Quelques repères sur le Web sémantique / Web de données

Arc de Triomphe de l’Étoile Parisest situé à

Jean-François Chalgrin

est l'architecte de

Académie des Beaux-Artsest membre de

Graphe composé de 5 triplets interconnectés

La place de l'Etoile de nuit Photographieest une

Repré

sent

e

8

Page 9: Quelques repères sur le Web sémantique / Web de données

Arc de Triomphe de l’Étoile Parisest situé à

Jean-François Chalgrin

est l'architecte de

Académie des Beaux-Artsest membre de

Enrichissement des données par liage

La place de l'Etoile de nuit Photographieest une

Repré

sent

e

Site dédié à l'architecture du XIXe s.

9

Page 10: Quelques repères sur le Web sémantique / Web de données

Arc de Triomphe de l’Étoile Parisest situé à

Jean-François Chalgrin

est l'architecte de

Académie des Beaux-Artsest membre de

Liens profonds entre les corpus

La place de l'Etoile de nuit Photographieest une

Repré

sent

e

Site dédié à l'architecture du XIXe s.

BDD biographique d'artistes néoclassiques

Plate-forme Web 2.0 d'échange de photos personnelles10

Page 11: Quelques repères sur le Web sémantique / Web de données

Arc de Triomphe de l’ÉtoileJean-François Chalgrinest l'architecte de

Les données ne sont pas spontanément interopérables

Site dédié à l'architecture du XIXe s.

BDD biographique d'artistes néoclassiques

Chalgrin, J-F. Académie des Beaux-Artsest membre de

?

Page 12: Quelques repères sur le Web sémantique / Web de données

… D'où l'utilité de référentiels communs

Exemple : VIAF (Virtual International Authority File), pour les auteurs

Arc de Triomphe de l’Étoile Parisest situé à

http://viaf.org/viaf/44396537/

est l'architecte de

Académie des Beaux-Artsest membre de

Site dédié à l'architecture du XIXe s.

BDD biographique d'artistes néoclassiques

Page 13: Quelques repères sur le Web sémantique / Web de données

SPARQL 

Le langage de requête : SPARQL Protocol and RDF Query Language

Conçu et promu par le W3C (2008, version 1.0)

Le langage de requête : SPARQL Protocol and RDF Query Language

Destiné à interroger les graphes RDF et en extraire des jeux de données :

Quelles sont les œuvres des membres de l'Académie des Beaux-Arts situées à Paris ?

Arc de Triomphe de l’Étoile Parisest situé à

Jean-François Chalgrin

est l'architecte de

Académie des Beaux-Artsest membre de

BDD biographique d'artistes néoclassiques

Site dédié à l'architecture du XIXe s.

13

Page 14: Quelques repères sur le Web sémantique / Web de données

Interconnexion des «Communautés»

Site dédié à l'architecture du XIXe s.Communauté de spécialistes

de l'architecture

BDD biographique d'artistes néoclassiquesCommunauté de spécialistes

du néoclacissisme

Plate-forme d'échange de photos personnellesCommunauté de photographes

amateurs

Data

14

Page 15: Quelques repères sur le Web sémantique / Web de données

Sorties des silos, les données traversent les frontières

Domaines institutionnels

Sujets d'intérêt

Domaines de connaissance

Espaces linguistiques

Data

Territoiresgéographiques

Circonscriptionsadministratives

Aires culturelles

15

Etc.

Page 16: Quelques repères sur le Web sémantique / Web de données

Tim Berners-Lee : « Le Web va changer de dimension »La Recherche - 01/11/2007

Web sémantique vs Web de(s) données

16

Web de données = résultat de l'application des normes et recommandationsdu "Web sémantique" aux données mises en ligne sur le Web

Web de données = immense graphe, indéfiniment extensible, composé de myriadesde triplets RDF

- Journal La Recherche : "Web sémantique, que signifie cette appellation ?"

- Tim Berners-Lee : "Le terme sémantique prête un peu à confusion (...) certains ont pensé qu'il s'agissait d'un Web qui permettrait par exemple d'effectuer des recherches sur Internet en posant des questions sous forme de phrases, en langage naturel. Or ce n'est pas son but. En fait, nous aurions dû l'appeler dès le départ Web de données."

Page 17: Quelques repères sur le Web sémantique / Web de données

Le Web de données est un espace de connaissance mondial  :

17

- L'information est disponible à un niveau granulaire très fin (data)

- Elle est décrite selon un modèle de description commun (RDF)

- Les données sont fortement reliées entre elles (Linked Data)

- Elles sont analysables par des machines

Page 18: Quelques repères sur le Web sémantique / Web de données

Les 4 principes du Web de données

18

1) Toute ressource sur laquelle on veut faire porter une assertion doit êtreidentifiée par un URI (Uniform Ressource Identifier)

2) Tout URI doit être construit à partir du protocole HTTP ce qui permet d’y accéder par des moyens numériques

3) L'utilisation d'un URI doit permettre de renvoyer des données aux formats standards du Web sémantique : RDF... et non pas seulement du HTML

4) Les ressources doivent être le plus possible liées entres elles selon ces normes

Page 19: Quelques repères sur le Web sémantique / Web de données

Le Web de données et les « données ouvertes »

19

L'échelle des données ouvertes selon T. Berners-Lee :

Les données sont en ligne quel que soit leur format

Les données sont disponibles sous forme structurée (ex. : CSV, XML, Excel, RDF)

Les données sont libres d'être exploitées juridiquement et techniquement dans des formats non-propriétaires (pas d'Excel par exemple)

Utilisation d'URIs pour identifier les données, de sorte que l'on puisse pointer dessus

Les données sont liées à d'autres données pour fournir un contexte à ces données= Linked Open Data (LOD)

Page 20: Quelques repères sur le Web sémantique / Web de données

«1, 2,  3.0 », ça buzze, c'est commode et percutant

… mais c'est quand même très simplificateur...

Et le 3.0 dans tout ça ?

20

Web 1.0

Années 1990

= Web documentaire

Web 2.0

Années 2000

= Web social

Web 3.0

Années 2010

= Web de données

Page 21: Quelques repères sur le Web sémantique / Web de données

• semantic web

L'utilisation des notions "semantic web" (Web sémantique) et "linked data" (Web de données) dans Google. Source : Google Trends

•linked data

L'essor du Web de données

2007 Dbpedia

21

Dbpedia première application grandeur nature du Web de données

Page 22: Quelques repères sur le Web sémantique / Web de données

LOD (Linked Open Data) Cloud, source lod-cloud.net/

Le Web de données comme écosystème de référentiels mondial

22

Dbpedia.org