ANTIDOT - Cas client ISIDORE

Solutions de recherche et d'accès à l'information

www.antidot.net

ISIDORE est la plateforme d'accès unifié aux données produites par

la recherche francophone en sciences humaines et sociales. Elle est un

socle applicatif ouvert constitué à la fois d'un moteur de recherche et

d'un point de diffusion des données en accès libre selon les principes

du Web Sémantique.

ISIDORE est une réalisation du Très Grand Equipement ADONIS du

CNRS. http://www.rechercheisidore.fr

Toutes les disciplines des Sciences Humaines et Sociales (SHS) sont confrontées à un accroissement accéléré des données

numérisées ou nativement numériques. Ces masses de données hétérogènes - sources textuelles, orales, iconographiques,

audiovisuelles, images 3D, publications électroniques, séries de calculs - soulèvent de nombreuses questions : accessibilité,

interopérabilité, publication, conservation, pérennité. Face à de tels enjeux, le CNRS met en oeuvre une infrastructure pour la

recherche et l'enseignement supérieur qui permettra d'accroître la visibilité des travaux et des résultats de la recherche par une

meilleure mise à disposition des données.

COntExtE Et ObjECtIfS

Fin 2009, le TGE Adonis a lancé la

réalisation du socle de services et le

moteur de recherche pour accéder

aux données et documents des SHS.

Cette plateforme, nommée Isidore, doit

permettre :

» d'offrir à la communauté un ensemble de services de traitement et de diffusion des données mutualisable à haute valeur ajoutée ;

» de constituer la mémoire vivante de la recherche en SHS ;

» de placer les données des SHS dans le « Web de données », la prochaine évolution du Web, permettant ainsi une meilleure mise à disposition des ressources, de leurs relations et de leurs échanges.

Le cahier des charges de la plateforme Isidore est particulièrement ambitieux,

tant en termes de diversité et de volumétrie des données, qu'en termes de

fonctionnalités :

»» Moissonnage ciblé des données scientifiques et des métadonnées structurées selon des protocoles variés. Plus de 750 sources différentes constituent le corpus SHS.

»» normalisation des métadonnées et enrichissement des données en s'appuyant sur des référentiels reconnus dans la communauté.

»» Moteur de recherche sur les données non structurées (texte intégral) et sur les données structurées (métadonnées documentaires existantes ou crées par enrichissement).

»» Mise à disposition des métadonnées enrichies afin de créer une boucle de rétroaction vers les producteurs de données selon les principes et technologies du Web Sémantique.

»» Intégration possible du moteur de recherche Isidore et des données exposées dans un autre environnement par la mise à disposition d'API Web.

A l'issu d'un appel d'offres, le CNRS a retenu les solutions

Information Factory (AIF) et Finder Suite (AFS) d'Antidot

pour la réalisation de la plateforme Isidore.

Antidot Information Factory (AIF) est une solution logicielle conçue spécialement pour répondre aux enjeux de valorisation

et d'exploitation des données non structurées ou semi structurées. Information Factory est une « machine à produire de

l'information » qui industrialise la captation et le traitement des données existantes puis la mise à disposition automatisée

d'informations enrichies.

Parmi les 750 sources, il en est une, l'archive en ligne HAL-SHS (http://halshs.archives-

ouvertes.fr) qui propose près de 30 000 documents déjà tous affectés dans un plan de

classement. Cette taxonomie est assez simple et représentative du domaine des SHS, si bien

qu'il a été décidé de l'étendre à l'ensemble de 750 sources grâce au module de classification

d'AIF. Cela signifie que les millions de documents du corpus Isidore doivent être rangés dans

ces catégories. Vu les volumes, toute intervention manuelle est bien évidemment exclue.

La première étape consiste à utiliser les 30 000 documents de HAL-SHS

déjà catégorisés pour entrainer le module de classification. Celui-ci regarde

pour chaque document la ou les catégories dans lesquelles ce dernier est

rangé afin d'apprendre. A l'issu de cette phase, le classifieur génère une

base de signatures sémantiques.

La base de signatures ainsi générée est exploitée lors de la

phase de traitement. Lorsqu'un document passe à travers le

module de classification, il se voit automatiquement attribuer

une ou plusieurs catégories de la taxonomie HAL-SHS. Même les

documents de HAL-SHS sont retraités et certains qui n'avaient qu'une catégorie s'en voient affecter une seconde.

Une des applications de cette classification est de pouvoir offrir, lors de la

recherche, une facette (un filtre) qui s'applique à l'ensemble des documents et pas

seulement à ceux issus de HAL-SHS.

Les résultats obtenus ont été évalués et sont d'excellente qualité puisque le score

de précision est supérieur à 90%. Ce sont en tout 4 classifications différentes qui

sont réalisées dans Isidore puisque les éléments du corpus sont analysés et rangés

selon d'autres taxonomies comme les sujets et les époques historiques.

AIF s'utilise comme un jeu de construction : pour créer des chaines de

traitement, il suffit d'assembler et de paramétrer des modules prêts à

l'emploi. Il en existe plus de 50 disponibles :

� modules de captation qui se connectent aux sources et récupèrent les données ciblées ;

�modules de normalisation et de nettoyage des données ;

� modules d'enrichissement pour la classification, l'annotation et la mise en relation.

En bout de chaine, les données enrichies ou créées peuvent être

exposées / publiées de plusieurs façons telles que la génération de

fichiers ou l'injection dans une base ou un triplestore RDF.

Bien évidemment en bout de chaine il est possible connecter le moteur de recherche AFS afin d'offrir en plus un service de

recherche performant et riche sur l'ensemble des données.

InfORMatIOn faCtORy

ClaSSIfICatIOn DES DOnnéES

Pour chacune des 750 sources à

capter et enrichir, ce sont plus de 30

modules de traitement qui s'enchainent.

Certains sont spécifiques au type de la

source (flux RSS, site, entrepôt OAI...).

D'autres sont génériques. Générique ou

spécifique, chaque module est configuré

par des paramètres qui déterminent son

comportement.

La définition des sources et de leurs

caractéristiques est réalisée à travers

une application dédiée qui fournit ces

paramètres sous forme de fichiers XML.

Une chaine de traitement AIF a été

configurée afin de transformer ces fichiers

XML de définition des sources en fichiers

de configuration de la chaine et des

modules AIF.

Ainsi la configuration de la captation et

de l'enrichissement des 750 sources est

auto générée et chaque ajout/modification

de source depuis l'interface de gestion

modifie dynamiquement le comportement de l'ensemble de la solution.

Afin de rendre les documents SHS compatibles avec le Web de données, une URI pérenne leur est attribuée si elles n'en

possèdent pas déjà. En effet, seules quelques rares sources (telles que la BnF) attribuent à leurs données des URI (Uniform

Resource Identifier) stables et pérennes. Or l'URI est l'élément fondamental

du Web de données : c'est l'identifiant unique de la ressource par lequel le lien

entre éléments est fait. Ainsi, lorsqu'un document a déjà une URI, celle-ci est

repérée et utilisée. Sinon une URI pérenne lui est attribuée lors de la phase de

normalisation. Le système de gestion des URI est Handle (www.handle.net).

Un module AIF dédié est chargé de repérer si un document possède déjà une

URI et sinon d'en demander une au système Handle.

En bout de chaine AIF, un sous-ensemble choisi de

métadonnées est transformé en RDF selon une ontologie

cible, et ces triplets RDF sont injectés dans des entrepôts.

Plusieurs triplestore sont constitués, contenant chacun les

triplets nécessaires à des usages spécifiques.

Ces entrepôts sont rendus accessibles par un point d'accès SPARQL. Les données SHS sont ainsi exposées dans le Web de

données dans une perspective d'Open Data. Respectant les principes de la négociation de contenu en vigueur sur le Web,

chaque ressource informationnelle est accessible selon plusieurs formats : HTML, RDF/XML, N3.

GEStIOn DES SOuRCES

WEb DE DOnnéES

1

1

2

2

33

Paris | Lyon | Aix-en-Provence www.antidot.net [email protected] +33 (0)4 72 76 03 80

Les données captées et enrichies par Antidot Information Factory sont

indexées par le moteur de recherche AFS.

Le moteur permet d'offrir un accès fonctionnellement riche sur

l'ensemble des données constituées :

�autocomplétion tolérante et structurée lors de la saisie ;

� affinage dynamique des réponses grâce aux facettes. Les facettes proposées proviennent pour certaines des métadonnées des documents, alors que d'autres ont été générées par AIF lors de l'enrichissement : catégories issues des étapes de classification, alignement sur des référentiels ;

� navigation transversale dans le corpus grâce à des fonctions de rebond et de liens inter documents pour une assistance à la découverte d'information ;

� recherche visuelle grâce à des représentations cartographiques ou par le positionnement des documents clés sur des échelles temporelles.

La maîtrise d'ouvrage, le TGE Adonis, avait posé un cahier des charges ambitieux et visionnaire. Grâce au travail commun

de la maitrise d'oeuvre CNRS (le CCSD), de l'intégrateur (Sword) et du fournisseur des composants technologiques (Antidot),

l'ensemble des défis fonctionnels et techniques ont été relevés et résolus avec succès.

Le résultat est reconnu par la communauté comme une réussite indéniable. Le CNRS dispose à présent d'une plateforme

ouverte dont les services (enrichissement, maillage, recherche, navigation) peuvent être intégrés à des applications variées.

Le portail Isidore en est le premier représentant.

La mission principale du projet, réalisé par le très grand équipement Adonis du CNRS, était de proposer un accès unifié à des données hétérogènes et distribuées. Il s'agit de valoriser des données structurées et le texte intégral

associé, produits dans les laboratoires et les bibliothèques de recherche. L'unification des données et l'enrichissement offre la possibilité de naviguer dans un espace documentaire et informationnel étendu permettant d'explorer des questions scientifiques nouvelles mais aussi les frontières scientifiques des disciplines. Les trois modes d'accès (web, api, 3store RDF) sont complémentaires et permettent de développer des outils à géométrie variable suivant les usages. Ainsi, la solution Information Factory d'Antidot, qui est au coeur d'ISIDORE, correspond pleinement aux attentes du TGE Adonis car elle permet de traiter à la fois les données structurées, le texte intégral, l'enrichissement, les modes accès dans le respect des standards du web sémantique ce qui est un réel plus pour nous.

MOtEuR DE REChERChE

RéSultat pROjEt

M. Stéphane pouyllauco-directeur du projet

»

«

ANTIDOT - Cas client ISIDORE

Documents

Transcript of ANTIDOT - Cas client ISIDORE