Post on 07-Jul-2015
description
Capitalisez vos contenus Content Server
Paris le 18 Novembre 2014
Philippe Deltenre – Temis
Pierre Nocera – Red Tree Software
Jean-Marc Touzard – Camoai
Agenda
• 15’ : Présentation des acteurs et genèse de la solution
• 30’ : Notions d'enrichissement sémantique
• 30’ : Présentation de la solution Luxid® for OpenText
• 30’ : Témoignage de l’OCDE
• 30’ : Questions ⁄ Réponses
• Éditeur spécialisé dans les modules complémentaires à la suite Content Server :
• Expertise documentaire
• Forte valeur ajoutée
• Centré sur les besoins de l’utilisateur.
• Red Tree Software est distribué en France et à l’étranger par un réseau de partenaires.
• Accélérateur de Transformation Numérique Camoai propose à ses clients conseil opérationnel et accompagnement :
• Projets Xnet, collaboratif, socialisation
• Projets ECM
• Projets BPM
• Projets de mobilité et entreprise étendue.
• Les solutions Content Server et SharePoint sont au cœur de ces offres, et Temis un partenaire naturel pour accompagner nos clients dans leurs projets ECM et Big Data.
Copyright © 2013 TEMIS - All Rights Reserved - Slide 5
Pionnier de l’Enrichissement de Contenu depuis 2000
70
Copyright © 2013 TEMIS - All Rights Reserved - Slide 6
Références clé
Copyright © 2013 TEMIS - All Rights Reserved - Slide 7
Structurerles contenus non structuréspour mieux les géreret mieux les valoriser
Copyright © 2013 TEMIS - All Rights Reserved - Slide 8
Notions d’enrichissement sémantique
Copyright © 2013 TEMIS - All Rights Reserved - Slide 9
- Flux de traitement sémantique
We report a 52 year-old man presenting an acute hair loss induced by carbamazepine (CBZ) in concentration of 8.6 microg/ml.
Analyse morpho-syntaxique1
We report a 52 year-old man presenting an acute hair loss induced by carbamazepine (CBZ) in concentration of 8.6 microg/ml.Suj. Vrb. Patient Verbe VerbeSymptôme Médicament Dosage
Identification des entités2
Identification des relations
We report a 52 year-old man presenting an acute hair loss induced by carbamazepine (CBZ) in concentration of 8.6 microg/ml.Suj. Vrb. Patient Verbe VerbeSymptôme Médicament Dosage
EFFET SECONDAIRE
Symptôme AlopécieCause CarbamazepineDosage 8.6 mg/mlPatient 52 year-old male
3
Copyright © 2013 TEMIS - All Rights Reserved - Slide 10
Quelles informations métier ?
Personnes
• Clients, Collaborateurs, Rattachement à votre annuaire
Organisations
• Filiales, Services, Fournisseurs, Compétiteurs, Partenaires
Références internes
• Projet, contrat, client, zone géographique, marché, etc…
Noms de vos produits ou services
• Taxonomie produit, accessoires, options, etc…
Terminologie et Catégories métier
• Vocabulaires techniques
• Catégories documentaires
A vous de le décider…quelques exemples
Copyright © 2013 TEMIS - All Rights Reserved - Slide 11
La plate-forme logicielle Luxid
Copyright © 2013 TEMIS - All Rights Reserved - Slide 12
Content Enrichment Platform
ContentEnrichment
Studio
AnnotationFactory
Skill Cartridge®Library
• Robustesse, Scalabilité, APIs, Web Services• 20 langues• Entités / Relations / Catégories / Thèmes …• Thésaurii, taxonomies, règles sémantique, statistiques, apprentissage
(machine learning)
Copyright © 2013 TEMIS - All Rights Reserved - Slide 13
Moteurs d’extraction spécialisés
• Focalisés sur vos “objets d’intérêt”
• Entités, Relations, Thèmes, Opinions, etc
Modulaires & Puissants
• Combinables dans un même plan de traitement
• Large gamme de techniques d’extraction
• 20 langues
• Faciles à personnaliser avec Content Enrichment Studio
Skill Cartridges®
• Anglais
• Français
• Allemand
• Flamand
• Italien
• Espagnol
• Portugais
• Tchèque
• Russe
• Hongrois
• Polonais
• Grec
• Suédois
• Danois
• Norvégien
• Finlandais
• Chinois
• Japonais
• Coréen
• Arabe
SkillCartridge
1
MorphoSyntaxique
SkillCartridge
2
Thesaurus
SkillCartridge
3
Statistique
SkillCartridge
n
MachineLearning
Copyright © 2013 TEMIS - All Rights Reserved - Slide 14
Web Services SOAP-REST / Modèle de données unique Ressources d’annotationunifiées (Skill Cartridge®)
RES
T A
PI
SC1 SC2 SCn
Annotation Plan
XelDA Admin
DocumentAnnotéXML / JSON / RDF
Document200+ formatsXML, HTML, txt, doc, pdf, …
EnterpriseSearch
Extraction d’information robuste
Copyright © 2013 TEMIS - All Rights Reserved - Slide 15
Montée en charge / Cloud
AnnotationServer
Multi-core
Luxid ®Annotation Server(1 node multi-core)
AS AS AS AS AS AS AS AS
AS AS AS AS AS AS AS AS
AS AS AS AS AS AS AS AS
AS AS AS AS AS AS AS AS
Luxid®Big Data(10-100 Machines)
HauteDisponibilité
TraitementBig Data
FluxTemps Réel
Luxid®Annotation Farm(2-10 Machines)
AnnotationServer
Multi-core
AnnotationServer
Multi-core
AnnotationServer
Multi-core
LoadBalancer
• Utilisation CPU élevée dans toutes configurations
• Déploiement en un clic dans le Cloud
• Conçu pour les Big Data (Hadoop)
Copyright © 2013 TEMIS - All Rights Reserved - Slide 16
DémonstrationLuxid Web Service
Luxid for OpenText CS10 (et Livelink 9.7…)
Pourquoi imaginer une telle solution ?
Le contexte
• Les sites ECM OpenText présentent souvent :• Une utilisation avancée des fonctionnalités documentaires et gestion de contenus (différents
types d’espaces, métadonnées, formulaires, workflows, sécurité, types de contenus)• Une forte volumétrie• Un contexte international et donc des exigences en multilinguisme.
• Malgré une fonction de recherche plutôt performante, on constate que les utilisateurs sont en fait souvent mécontents de la recherche proposée, et critiquent :
• La pertinence des résultats• La présentation des résultats.
• Comme il arrive souvent dans les projets ECM, des fonctionnalités intéressantes sont peu ou pas utilisées :
• Par méconnaissance des utilisateurs et/ou du staff projet en charge de les déployer.• Par insuffisance dans la gestion du changement.
Le contexte
• À cette situation déjà complexe viennent s’ajouter de nouvelles contraintes :
• On ne demande plus au moteur de recherche de trouver des documents où l’utilisateur ira puiser de l’information
• On demande au système d’extraire du sens dans un volume d’information croissant tellement vite que l’utilisateur ne peut plus passer son temps à analyser des documents sortis d’une liste de résultats
• On attend du système qu’il soit capable de gérer plusieurs cibles en même temps pour nous aider dans la réflexion et la prise de décision
• Et tout cela en quelques secondes sur des volumes en très forte croissance.
La réponse
• La spécialisation sémantique du moteur Luxid de Temis va apporter des réponses à ces exigences.
• Souvent perçue comme complexe et réservée à des spécialistes, l’approche sémantique reste encore rare dans les entreprises du monde industrie-commerce et services.
• Grâce aux connecteurs qui relient le moteur d’enrichissement sémantique, il sera possible de venir compléter les solutions ECM en place, en capitalisant les efforts déjà réalisés.
Le connecteur Luxid pour OpenText
Fonctionnalités et démonstration
Copyright © 2013 TEMIS - All Rights Reserved - Slide 22
Diagramme de FluxLuxid® pour OpenText
AP
I du
Mo
teu
rD
ere
cher
che
IndexDe
Recherche
Indexde
recherche
Search-based Applications
RechercheAnalyse
VisualisationFacettes
Recommendations
Insertion
Indexationdes métadonnées
Extraction automatiquedes métadonnées
Enrichissement des méta-données
Enrichissementdes interfaces
Luxid® Annotation
Factory
Cartouches sémantiques
(Skill Cartridge® )
Le Connecteur - Les fonctionnalités
• Le connecteur Luxid pour OpenText constitue la passerelle entre Content Server et Luxid, et permet d’enrichir le contenu sémantique des documents de manière automatique ou manuelle.
• Les documents classés dans OpenText Content Server voient leur contenu enrichi par des métadonnées sous forme de catégories / attributs ou de classifications.
• Le connecteur peut prendre en charge l’extraction du texte des documents avec ou sans OCR avant leur soumission au serveur Luxid.
Le Connecteur - L’architecture
• Le connecteur Luxid pour OpenText est un middleware entre Content Server et le serveur Luxid et se présente sous la forme d’un service Windows.
• Le gestionnaire de messages MSMQ est utilisé pour prendre en charge la gestion des demandes de jobs, ce qui permet d’offrir une bonne qualité de service : les demandes d’enrichissement ne sont pas perdues si l’un des 2 serveurs est arrêté.
• Plusieurs connecteurs peuvent être répartis sur plusieurs serveurs, afin de répartir la charge dans le contexte de traitements importants.
Le Connecteur - Flux de données
1 : Les documents sont stockés dans Content Server2 : Un message est envoyé au gestionnaire MSMQ pour mise en file d’attente de traitement3 : Le connecteur prend en charge le traitement, extrait éventuellement le texte des documents4 : Le document est envoyé au serveur Luxid pour enrichissement5 : Le serveur Luxid renvoie les métadonnées enrichies6 : Le connecteur met à jour les métadonnées dans Content Server sous forme de catégories / attributs ou de classifications7 : L’enrichissement sémantique est mis à disposition auprès utilisateurs grâce à l’interface standard de Content Server ( facettes, filtres de recherche, classifications, etc..)
Le Connecteur - Paramétrages
Le paramétrage s’effectue dans le module pour Content Server, dans une page d’administration dédiée.
On paramètre ainsi un ou plusieurs serveurs Luxid, en indiquant notamment l’URL du webservice Luxid.
Ensuite on crée un ou plusieurs processeurs d’analyse, qui permettent de définir le mapping entre les entités Luxid et les catégories / classifications OpenText.
Enfin on crée des Jobs pour l’execution automatique, ou des menus fonctions pour appeler un processeur d’analyse via l’interface utilisateur.
Le Connecteur – Interface utilisateur
L’appel à l’enrichissement sémantique peut s’effectuer manuellement via l’interface utilisateur grâce à un menu fonction disponible sur les documents, et via un bouton « Enrich » pour le traitement des sélections multiples.
Le Connecteur – Interface utilisateur
L’appel à l’enrichissement sémantique peut s’effectuer automatiquement. Dans l’exemple ci-dessus chaque fois qu’un document sera ajouté dans ce dossier ou un sous-dossier, il sera traité et enrichi automatiquement en utilisant le processeur d’analyse « Entities ».
Le témoignage de l’OCDE
PROJET D’ENRICHISSEMENT
SÉMANTIQUE À L’OCDE
Intégration Open Text Content Server - Luxid
• Système de Records Management de notre unité Bibliothèque et Archives depuis 2009
• Catalogue de publications OCDE et de ressources externes
• 2 500 000 documents électroniques
• Sur la période 2000-2014:
+ de 150 000 documents officiels
+ de 15 000 publications
+ de 3 000 000 de pages
Utilisation de Content Server à l’OCDE
Amélioration de la recherche standard de Content Server par:
• Des métadonnées homogènes
• Un identifiant unique pour chaque concept permettant:
de chercher dans toutes les langues simultanément
de retrouver un concept malgré l’utilisation de synonymes et l’évolution du langage
Retrouver l’information dans Content Server avec
Luxid
• Définition de lots de documents à enrichir grâce à des LiveReport (requêtes sql) avec un certain plan d’annotation
• Processus automatique et transparent
• Résultats stockés en XML pour une recherche par URI
• Amélioration de la recherche, résultats plus pertinents, plus complets
Le connecteur développé par Red Tree Software
Phase I Phase II Phase III
Mise en œuvre – Phase I
Fin 2013 Fin 2014
Phase I Phase II Phase III
Mise en œuvre – Phase II
Fin 2013 Fin 2014
Phase I Phase II Phase III
Mise en œuvre – Phase III
Fin 2013 Fin 2014
Développement des cartouches
(AWB)
Gestion des vocabulaires
LUXID
Content Server
Architecture
Enrichissement de Content ServerEnrichissement des vocabulaires
Questions - Contacts
Par mail : jm.touzard@camoai.com philippe.deltenre@temis.com pnocera@redtreesoftware.com
Par téléphone : +33 686 841 233 Linkedin : fr.linkedin.com/in/jmtouzard/ Viadeo : http://www.viadeo.com/fr/profile/jean-marc.touzard
MERCI