ANTIDOT - Cas client ISIDORE
-
Upload
documation-gestion-de-linformation-et-du-document-numerique-en-entreprise -
Category
Documents
-
view
871 -
download
0
description
Transcript of ANTIDOT - Cas client ISIDORE
Solutions de recherche et d'accès à l'information
www.antidot.net
ISIDORE est la plateforme d'accès unifié aux données produites par
la recherche francophone en sciences humaines et sociales. Elle est un
socle applicatif ouvert constitué à la fois d'un moteur de recherche et
d'un point de diffusion des données en accès libre selon les principes
du Web Sémantique.
ISIDORE est une réalisation du Très Grand Equipement ADONIS du
CNRS. http://www.rechercheisidore.fr
Toutes les disciplines des Sciences Humaines et Sociales (SHS) sont confrontées à un accroissement accéléré des données
numérisées ou nativement numériques. Ces masses de données hétérogènes - sources textuelles, orales, iconographiques,
audiovisuelles, images 3D, publications électroniques, séries de calculs - soulèvent de nombreuses questions : accessibilité,
interopérabilité, publication, conservation, pérennité. Face à de tels enjeux, le CNRS met en oeuvre une infrastructure pour la
recherche et l'enseignement supérieur qui permettra d'accroître la visibilité des travaux et des résultats de la recherche par une
meilleure mise à disposition des données.
COntExtE Et ObjECtIfS
Fin 2009, le TGE Adonis a lancé la
réalisation du socle de services et le
moteur de recherche pour accéder
aux données et documents des SHS.
Cette plateforme, nommée Isidore, doit
permettre :
» d'offrir à la communauté un ensemble de services de traitement et de diffusion des données mutualisable à haute valeur ajoutée ;
» de constituer la mémoire vivante de la recherche en SHS ;
» de placer les données des SHS dans le « Web de données », la prochaine évolution du Web, permettant ainsi une meilleure mise à disposition des ressources, de leurs relations et de leurs échanges.
Le cahier des charges de la plateforme Isidore est particulièrement ambitieux,
tant en termes de diversité et de volumétrie des données, qu'en termes de
fonctionnalités :
»» Moissonnage ciblé des données scientifiques et des métadonnées structurées selon des protocoles variés. Plus de 750 sources différentes constituent le corpus SHS.
»» normalisation des métadonnées et enrichissement des données en s'appuyant sur des référentiels reconnus dans la communauté.
»» Moteur de recherche sur les données non structurées (texte intégral) et sur les données structurées (métadonnées documentaires existantes ou crées par enrichissement).
»» Mise à disposition des métadonnées enrichies afin de créer une boucle de rétroaction vers les producteurs de données selon les principes et technologies du Web Sémantique.
»» Intégration possible du moteur de recherche Isidore et des données exposées dans un autre environnement par la mise à disposition d'API Web.
A l'issu d'un appel d'offres, le CNRS a retenu les solutions
Information Factory (AIF) et Finder Suite (AFS) d'Antidot
pour la réalisation de la plateforme Isidore.
Antidot Information Factory (AIF) est une solution logicielle conçue spécialement pour répondre aux enjeux de valorisation
et d'exploitation des données non structurées ou semi structurées. Information Factory est une « machine à produire de
l'information » qui industrialise la captation et le traitement des données existantes puis la mise à disposition automatisée
d'informations enrichies.
Parmi les 750 sources, il en est une, l'archive en ligne HAL-SHS (http://halshs.archives-
ouvertes.fr) qui propose près de 30 000 documents déjà tous affectés dans un plan de
classement. Cette taxonomie est assez simple et représentative du domaine des SHS, si bien
qu'il a été décidé de l'étendre à l'ensemble de 750 sources grâce au module de classification
d'AIF. Cela signifie que les millions de documents du corpus Isidore doivent être rangés dans
ces catégories. Vu les volumes, toute intervention manuelle est bien évidemment exclue.
La première étape consiste à utiliser les 30 000 documents de HAL-SHS
déjà catégorisés pour entrainer le module de classification. Celui-ci regarde
pour chaque document la ou les catégories dans lesquelles ce dernier est
rangé afin d'apprendre. A l'issu de cette phase, le classifieur génère une
base de signatures sémantiques.
La base de signatures ainsi générée est exploitée lors de la
phase de traitement. Lorsqu'un document passe à travers le
module de classification, il se voit automatiquement attribuer
une ou plusieurs catégories de la taxonomie HAL-SHS. Même les
documents de HAL-SHS sont retraités et certains qui n'avaient qu'une catégorie s'en voient affecter une seconde.
Une des applications de cette classification est de pouvoir offrir, lors de la
recherche, une facette (un filtre) qui s'applique à l'ensemble des documents et pas
seulement à ceux issus de HAL-SHS.
Les résultats obtenus ont été évalués et sont d'excellente qualité puisque le score
de précision est supérieur à 90%. Ce sont en tout 4 classifications différentes qui
sont réalisées dans Isidore puisque les éléments du corpus sont analysés et rangés
selon d'autres taxonomies comme les sujets et les époques historiques.
AIF s'utilise comme un jeu de construction : pour créer des chaines de
traitement, il suffit d'assembler et de paramétrer des modules prêts à
l'emploi. Il en existe plus de 50 disponibles :
� modules de captation qui se connectent aux sources et récupèrent les données ciblées ;
�modules de normalisation et de nettoyage des données ;
� modules d'enrichissement pour la classification, l'annotation et la mise en relation.
En bout de chaine, les données enrichies ou créées peuvent être
exposées / publiées de plusieurs façons telles que la génération de
fichiers ou l'injection dans une base ou un triplestore RDF.
Bien évidemment en bout de chaine il est possible connecter le moteur de recherche AFS afin d'offrir en plus un service de
recherche performant et riche sur l'ensemble des données.
InfORMatIOn faCtORy
ClaSSIfICatIOn DES DOnnéES
Pour chacune des 750 sources à
capter et enrichir, ce sont plus de 30
modules de traitement qui s'enchainent.
Certains sont spécifiques au type de la
source (flux RSS, site, entrepôt OAI...).
D'autres sont génériques. Générique ou
spécifique, chaque module est configuré
par des paramètres qui déterminent son
comportement.
La définition des sources et de leurs
caractéristiques est réalisée à travers
une application dédiée qui fournit ces
paramètres sous forme de fichiers XML.
Une chaine de traitement AIF a été
configurée afin de transformer ces fichiers
XML de définition des sources en fichiers
de configuration de la chaine et des
modules AIF.
Ainsi la configuration de la captation et
de l'enrichissement des 750 sources est
auto générée et chaque ajout/modification
de source depuis l'interface de gestion
modifie dynamiquement le comportement de l'ensemble de la solution.
Afin de rendre les documents SHS compatibles avec le Web de données, une URI pérenne leur est attribuée si elles n'en
possèdent pas déjà. En effet, seules quelques rares sources (telles que la BnF) attribuent à leurs données des URI (Uniform
Resource Identifier) stables et pérennes. Or l'URI est l'élément fondamental
du Web de données : c'est l'identifiant unique de la ressource par lequel le lien
entre éléments est fait. Ainsi, lorsqu'un document a déjà une URI, celle-ci est
repérée et utilisée. Sinon une URI pérenne lui est attribuée lors de la phase de
normalisation. Le système de gestion des URI est Handle (www.handle.net).
Un module AIF dédié est chargé de repérer si un document possède déjà une
URI et sinon d'en demander une au système Handle.
En bout de chaine AIF, un sous-ensemble choisi de
métadonnées est transformé en RDF selon une ontologie
cible, et ces triplets RDF sont injectés dans des entrepôts.
Plusieurs triplestore sont constitués, contenant chacun les
triplets nécessaires à des usages spécifiques.
Ces entrepôts sont rendus accessibles par un point d'accès SPARQL. Les données SHS sont ainsi exposées dans le Web de
données dans une perspective d'Open Data. Respectant les principes de la négociation de contenu en vigueur sur le Web,
chaque ressource informationnelle est accessible selon plusieurs formats : HTML, RDF/XML, N3.
GEStIOn DES SOuRCES
WEb DE DOnnéES
1
1
2
2
33
Paris | Lyon | Aix-en-Provence www.antidot.net [email protected] +33 (0)4 72 76 03 80
Les données captées et enrichies par Antidot Information Factory sont
indexées par le moteur de recherche AFS.
Le moteur permet d'offrir un accès fonctionnellement riche sur
l'ensemble des données constituées :
�autocomplétion tolérante et structurée lors de la saisie ;
� affinage dynamique des réponses grâce aux facettes. Les facettes proposées proviennent pour certaines des métadonnées des documents, alors que d'autres ont été générées par AIF lors de l'enrichissement : catégories issues des étapes de classification, alignement sur des référentiels ;
� navigation transversale dans le corpus grâce à des fonctions de rebond et de liens inter documents pour une assistance à la découverte d'information ;
� recherche visuelle grâce à des représentations cartographiques ou par le positionnement des documents clés sur des échelles temporelles.
La maîtrise d'ouvrage, le TGE Adonis, avait posé un cahier des charges ambitieux et visionnaire. Grâce au travail commun
de la maitrise d'oeuvre CNRS (le CCSD), de l'intégrateur (Sword) et du fournisseur des composants technologiques (Antidot),
l'ensemble des défis fonctionnels et techniques ont été relevés et résolus avec succès.
Le résultat est reconnu par la communauté comme une réussite indéniable. Le CNRS dispose à présent d'une plateforme
ouverte dont les services (enrichissement, maillage, recherche, navigation) peuvent être intégrés à des applications variées.
Le portail Isidore en est le premier représentant.
La mission principale du projet, réalisé par le très grand équipement Adonis du CNRS, était de proposer un accès unifié à des données hétérogènes et distribuées. Il s'agit de valoriser des données structurées et le texte intégral
associé, produits dans les laboratoires et les bibliothèques de recherche. L'unification des données et l'enrichissement offre la possibilité de naviguer dans un espace documentaire et informationnel étendu permettant d'explorer des questions scientifiques nouvelles mais aussi les frontières scientifiques des disciplines. Les trois modes d'accès (web, api, 3store RDF) sont complémentaires et permettent de développer des outils à géométrie variable suivant les usages. Ainsi, la solution Information Factory d'Antidot, qui est au coeur d'ISIDORE, correspond pleinement aux attentes du TGE Adonis car elle permet de traiter à la fois les données structurées, le texte intégral, l'enrichissement, les modes accès dans le respect des standards du web sémantique ce qui est un réel plus pour nous.
MOtEuR DE REChERChE
RéSultat pROjEt
M. Stéphane pouyllauco-directeur du projet
»
«