Journée de l'Innovation Collaborative

22
Journée de l'Innovation Collaborative 28 mars 2013 Dominique LAURENT SYNAPSE Développement Analyse sémantique textuelle

description

Journée de l'Innovation Collaborative. 28 mars 2013. Dominique LAURENT. SYNAPSE Développement. Analyse sémantique textuelle. Analyse sémantique textuelle. Plan Analyse sémantique profonde. Les noms communs Analyse sémantique profonde. Les noms propres Question-Réponse - PowerPoint PPT Presentation

Transcript of Journée de l'Innovation Collaborative

Page 1: Journée de l'Innovation Collaborative

Journée de l'Innovation Collaborative28 mars 2013

Dominique LAURENT

SYNAPSE Développement

Analyse sémantique textuelle

Page 2: Journée de l'Innovation Collaborative

Dominique LAURENT

Analyse sémantique textuelle

2

Plan1. Analyse sémantique profonde. Les noms communs

2. Analyse sémantique profonde. Les noms propres

3. Question-Réponse

4. Analyse d’opinion et de sentiments

5. Extraction de connaissances

Page 3: Journée de l'Innovation Collaborative

Dominique LAURENT

Ressources

L’analyse s’appuie sur

Plus de 300 000 lemmes de noms communs

Plus de 800 000 lemmes de noms propres

Une base grammaticale et sémantique de plus de 1 460 000 informations

Une taxonomie sur 180 000 mots et expressions

Exemple d’analyse sur une phrase du Monde (article sur Chypre,19 mars 2013)

« Le plan de sauvetage de Chypre, conclu samedi à Bruxelles, est conditionné par l'instauration d'une taxe sur les dépôts bancaires. »

Analyse syntaxico-sémantique

3

Page 4: Journée de l'Innovation Collaborative

Dominique LAURENT

Désambiguïsation sémantique

L’analyseur gère:

Plus de 25 000 sens pour environ 9000 mots polysémiques en français,

Près de 15 000 sens pour environ 6000 mots polysémiques en anglais

Plus de 120 000 expressions (nominales, verbales, adverbiales)

Anaphores

L’analyseur gère:

Les anaphores pronominales (personnels, possessifs, démonstratifs),

Les anaphores adjectivales (possessifs, démonstratifs),

En anglais et en français.

Une analyse sémantique en profondeur

4

Correction grammaticale Taux de bonne suggestion en unique proposition de plus

de 90% en correction orthographique,

Taux de correction grammaticale supérieur à 85% (60% à 70% en correction automatique)

Fréquences d’usage Pour l’ensemble des mots et expressions

Taxonomie Sur 4 niveaux

3387 feuilles au niveau 4

Plus de 200 000 mots et expressions classifiés en 4 langues : français, anglais, espagnol, portugais

Correspondance multilingue des traductions selon la classe de l’ontologie

Page 5: Journée de l'Innovation Collaborative

Dominique LAURENT

Mots-clés et concepts-clés (textes du Figaro sur Chypre, 18-19 mars 2013)

5

Extraction de mots-clés : Extraction de concepts-clés :

Page 6: Journée de l'Innovation Collaborative

Dominique LAURENT

Analyse sémantique textuelle

6

Plan1. Analyse sémantique profonde. Les noms communs

2. Analyse sémantique profonde. Les noms propres

3. Question-Réponse

4. Analyse d’opinion et de sentiments

5. Extraction de connaissances

Page 7: Journée de l'Innovation Collaborative

Dominique LAURENT

Extraction d’entités nommées

7

Page 8: Journée de l'Innovation Collaborative

Dominique LAURENT

Siglaison

Les sigles peuvent s’écrire :

En capitales (UE)

En capitales avec points abréviatifs (U.E.)

En capitales avec points abréviatifs et espaces (U.  E.)

En toutes lettres (Union Européenne)

Équivalents dans d’autres langues (EU, etc.)

Anaphores « Le cas de Chypre et de son secteur bancaire est

unique » (Le Figaro, 18/3/2013)

« L’actuel premier ministre luxembourgeois, n'a quant à lui pas caché ses réserves vis-à-vis d'un plan qu'il juge lacunaire. » (Le Monde, 19/3/2013)

Normalisation des entités nommées

8

Appellations

Le président chypriote est :

Nicos Anastasiades,

Anastasiades

Nicos

Le président chypriote

Le président de la République chypriote…

Désambiguïsation et métaphores La France

Paris

L’Élysée

Le gouvernement français

François Hollande

Page 9: Journée de l'Innovation Collaborative

Dominique LAURENT

Comparaison sur la crise de Chypre (textes des 18 et 19 mars 2013)

9

Le Figaro + Le Monde       La Tribune de Genève      

Chypre + gouvernement chypriote + Nicosie + Nicos Anastasiades + Anastasiades + Chypriotes

22227,1

%  

Chypre + Nicosie + gouvernement chypriote + Nicos Anastasiades + Chypriotes

5531,3

Europe + Union européenne + Bruxelles 51 6,2%   Banque centrale européenne + BCE 14 8,0%  

Banque centrale européenne + BCE 42 5,1%   Russie + Moscou + Kremlin + Vladimir Poutine 13 7,4%  

Russie + Moscou + Kremlin + Vladimir Poutine + Dmitri Medvedev + Medvedev + Russes

34 4,2%  Union européenne + Europe

12 6,8% 

Berlin + Allemagne + Angela Merkel + Wolfgang Schäuble30 3,7%

 

FMI + Fonds monétaire International + Christine Lagarde

11 6,3% 

FMI + Fonds monétaire International 22 2,7%   Berlin + Allemagne 7 4,0%  

Paris + France + Élysée + Pierre Moscovici + François Hollande

21 2,6%  Suisse + Genève

4 2,3% 

Eurogroupe 17 2,1%   Christos Theodoulou + Theodoulou 4 2,3%  

The Guardian       New York Times      

Cyprus + Nicosia + Cypriots + Cypriot government + Anastasiades + Nico Anastasiades + Nicos

14732,0

%  

Cyprus + Cypriots + Nicosia + Cypriot government + Nicos Anastasiades + Anastasiades

12631,5

Russia + Russian + Moscow + Soviet + Vladimir Putin + Putin + Dmitry Medvedev

6113,3

%  

Europe + European + European Union + European Commission + E.U. + EU + Bruxelles

7518,8

%  

EU + European + European Union + European Commission38 8,3%

 

Russia + Russians + Kremlin + Moscow + Vladimir Putin

35 8,8% 

British + UK + Britain + England + English + London 13 2,8%   Germany + German + Berlin + Angela Merkel 18 4,5%  

German + Berlin + Wolfgang Schaeuble12 2,6%

 

International Monetary Fund + I.M.F. + Christine Lagarde + Lagarde

14 3,5% 

IMF + International Monetary Fund 10 2,2%   Italy + Italian 13 3,3%  

France + Paris + French + Pierre Moscovici 8 1,7%   Spain + Spanish 10 2,5%  

Spain + Spanish 5 1,1%   United States + US + American + Washington 9 2,3%  

Page 10: Journée de l'Innovation Collaborative

Dominique LAURENT

Analyse sémantique textuelle

10

Plan1. Analyse sémantique profonde. Les noms

communs

2. Analyse sémantique profonde. Les noms propres

3. Question-Réponse

4. Analyse d’opinion et de sentiments

5. Extraction de connaissances

Page 11: Journée de l'Innovation Collaborative

Dominique LAURENT

Le Question-Réponse utilise toutes les technologies décrites jusqu’ici.

Analyse syntaxico-sémantique,

Analyse conceptuelle,

Résolution des anaphores,

Extraction d’entités nommées,

Extraction du type de la question, donc de la réponse.

Le Question-Réponse utile sur corpus Web et sur corpus fermé.

Question-Réponse

11

Analyse sémantique profonde

Détection du type de la question

Recherche multi-index

Taxonomie

Bases de connaissances

Extraction des phrases réponses potentielles

Analyse des paragraphes

Extraction de la réponse

Pour rappel, Watson utilise 2880 cœurs et a nécessité 200 années/homme. Le temps de réponse avec un seul cœur est d’environ deux heures par question. Moins de 3 secondes pour le moteur Quaero.

SIRI (300 années-homme) est plutôt utilisé comme assistant personnel que comme système de question-réponse.

Page 12: Journée de l'Innovation Collaborative

Dominique LAURENT

Exemple de question-réponse

12

Questions factuelles

Taux de bonne réponse entre 70 et 80 % sur des corpus Web bruités (français-anglais, évaluations Quaero).

Corpus bruités, fautes, spam.

Question de la redondance

Difficultés liées aux contradictions dans les textes

Identification du type de la question parfois délicat (« Qui est Jean-Marc Roberts ? », « Quelle est la taille du Taj Mahal ? », « Quel est le nombre de chômeurs en Europe ? »)

Questions factuelles

Taux de bonne réponse entre 70 et 80 % sur des corpus Web bruités (français-anglais, évaluations Quaero).

Corpus bruités, fautes, spam.

Question de la redondance

Difficultés liées aux contradictions dans les textes

Identification du type de la question parfois délicat (« Qui est Jean-Marc Roberts ? », « Quelle est la taille du Taj Mahal ? », « Quel est le nombre de chômeurs en Europe ? »)

Page 13: Journée de l'Innovation Collaborative

Dominique LAURENT

Questions non factuelles

Taux de succès de 70% pour les définitions, de 40 à 50% pour les questions du type « comment » ou « pourquoi ».

Mêmes problèmes que pour les questions factuelles, avec un impact plus important car la réponse ne peut être identifiée qu’après une analyse fine du texte.

Contrairement aux questions factuelles, la réponse à une question non factuelle nécessite souvent plusieurs phrases, une liste issue de l’agrégation de plusieurs documents (par exemple « quels sont les documents nécessaires pour faire un passeport ?»).

Questions non factuelles

Taux de succès de 70% pour les définitions, de 40 à 50% pour les questions du type « comment » ou « pourquoi ».

Mêmes problèmes que pour les questions factuelles, avec un impact plus important car la réponse ne peut être identifiée qu’après une analyse fine du texte.

Contrairement aux questions factuelles, la réponse à une question non factuelle nécessite souvent plusieurs phrases, une liste issue de l’agrégation de plusieurs documents (par exemple « quels sont les documents nécessaires pour faire un passeport ?»).

Exemple de question-réponse

13

Page 14: Journée de l'Innovation Collaborative

Dominique LAURENT

Analyse sémantique textuelle

14

Plan1. Analyse sémantique profonde. Les noms

communs

2. Analyse sémantique profonde. Les noms propres

3. Question-Réponse

4. Analyse d’opinion et de sentiments

5. Extraction de connaissances

Page 15: Journée de l'Innovation Collaborative

Dominique LAURENT

Analyse d’opinion et analyse de sentiments

15

Analyse de sentiment et d’opinion

Segmentation du texte en Unités Élémentaires d’Opinions

Calcul de l’opinion globale

Analyse des relations entre segments contenant des opinions

Ressources

Analyse morpho-syntaxique

Lexique de termes et expressions

subjectifs

+

Relations de discours

Polarité de l'opinion au niveau élémentaire

négations, modaux, conditionnelles

Lexique client+

Applications

Etablir des graphes relationnels sur une personne, organisationEtablir des graphes relationnels sur une personne, organisation

Détecter des groupes d’influenceDétecter des groupes d’influence

Détecter des prises de positionDétecter des prises de position

Modéliser l’information en vue d’une aide à la décisionModéliser l’information en vue d’une aide à la décision

Générer des résumés, classifications d’avis consommateurs

Générer des résumés, classifications d’avis consommateurs

Page 16: Journée de l'Innovation Collaborative

Dominique LAURENT

Analyse d’opinion et analyse de sentiments (avec Radio France)

16

Une technologie complexe Repose sur une analyse sémantique profonde

des phrases et du texte,

Intègre des lexiques spécifiques pour les opinions et pour les sentiments,

Extrait les opinions et les sentiments selon la polarité avec une échelle d’intensité (-3 à +3)

Extrait le type d’opinion (conseil, jugement, sentiment),

« pas mal » ne veut pas dire bien, il faut un traitement fin de la négation mais également des modaux et des conditionnelles.

Difficulté de repérage de marqueurs d’opinion comme « il faudrait que… » ou « il y a qu’à… »

Intérêt du niveau textuel au-delà de la phrase ou de la proposition.

Page 17: Journée de l'Innovation Collaborative

Dominique LAURENT

Analyse d’opinion et analyse de sentiments (avec Technicolor)

17

Page 18: Journée de l'Innovation Collaborative

Dominique LAURENT

Analyse d’opinion et analyse de sentiments (avec Technicolor)

18

Page 19: Journée de l'Innovation Collaborative

Dominique LAURENT

Analyse sémantique textuelle

19

Plan1. Analyse sémantique profonde

2. Entités nommées

3. Question-Réponse

4. Analyse d’opinion et de sentiments

5. Extraction de connaissances

Page 20: Journée de l'Innovation Collaborative

Dominique LAURENT

Machine reading

Analyse sémantique détaillée de gros corpus

Analyse profonde avec résolution des anaphores et désambiguïsation sémantique,

Extraction des relations syntaxico-sémantiques du type « sujet-verbe-objet » ou « sujet-verbe-attribut » avec contexte temporel et spatial,

Couplage du moteur à des bases de connaissances propriétaires ou externes (du type Dbpédia, OpenCyc, etc.),

Constitution de bases de connaissances à partir des triplets extraits,

But ultime : « comprendre » les textes.

Extraction de connaissances

20

Moteur d’inférence

Le moteur d’inférence enrichit les bases de connaissances en inférant de nouvelles connaissances

Bases de règles à partir de la taxonomie et à partir de bases de connaissances externes (du type catégories Wikipédia),

Bases d’événements et règles liées au déroulement et au contexte de ces événements,

Amélioration des réponses à des questions non factuelles,

Intérêt pédagogique à travers une pragmatique linguistique automatisée

Page 21: Journée de l'Innovation Collaborative

Dominique LAURENT

Synapse Développement dans Quaero :

Très petit partenaire ! (moins de 1% du budget)

Avantages de Quaero pour une TPE :

Projet sur 5 ans

Visibilité à plus long terme

Développements plus stratégiques, moins tactiques

Croissance de 50% de l’effectif durant Quaero.

Développements collaboratifs avec des industriels de taille (Technicolor, Orange, Exalead, maintenant Dassault systèmes).

Intégration des entités nommées dans le CMSE (Exalead)

Intégration des entités nommées et de l’analyse d’opinions et de sentiments dans le PVAA (Technicolor)

www.synapse-fr.com/pro

Synapse Développement, une TPE dans un projet industriel d’importance.

21

Page 22: Journée de l'Innovation Collaborative

Dominique LAURENT

Fin

22

Merci de votre attention,

Vos questions sont les bienvenues !

Merci de votre attention,

Vos questions sont les bienvenues !