CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent
description
Transcript of CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent
CLERC FrédéricCLERC Frédéric
COMMEROT SamiCOMMEROT Sami
CROGUENNEC JulienCROGUENNEC Julien
GARNIER NicolasGARNIER Nicolas
MIGNÉ VincentMIGNÉ Vincent
VAILLANT LaurentVAILLANT Laurent
Encadreur : DUCASSÉ MireilleEncadreur : DUCASSÉ Mireille
ReRecherche cherche SéSémantique mantique d’d’InInformationformation
Soutenance de Janvier
2
ReSeIn : ReReSeIn : Recherche cherche SéSémantique d’mantique d’InInformationformation
But de la recherche d’information : développer des systèmes
capables de fournir à un utilisateur, qui interroge une base de
données
documentaire, les textes les plus pertinents.
Difficultés actuelles dans la recherche Internet (Google) : Ce que l’on cherche se trouve rarement dans les premières
réponses Temps souvent long avant d’obtenir ce que l’on recherche
INTRODUCTION AU SUJET
Recherche d’informationRecherche d’information
3
Exemple d’applications du traitement automatique du langage naturel : Recherche documentaire Traduction automatique
Il est nécessaire pour ces applications d’acquérir un lexique
décrivant le sens des mots qu’elles manipulent.
Représentation sémantique (ie. basée sur le sens)
Des études linguistiques ont prouvé qu’il existe un lien sémantique
fort entre les noms et les verbes
La représentation des couples qualia utilise ce lien
Le couple qualia est l’élément central du projet
INTRODUCTION AU SUJET
SémantiqueSémantique
4
Couple qualia : Fait l’objet d’études linguistiques Extrait du Lexique Génératif développé en 1995 par J. Pustejovsky Définition : association d’un nom et d’un verbe qui sont liés par le sens
Exemple : le nom livre Couple (livre,lire) : rôle de but ou de fonction Couple (livre,écrire) : rôle de création etc …
Utilité de ces couples dans la recherche d’information
Exemple : reformulation de requête
« Magasin de disques » « Vendre des disques »
avec le couple qualia (magasin,vendre)
INTRODUCTION AU SUJET
Couple qualiaCouple qualia
5
Intérêt de la récupération automatique des couples qualia pour les
linguistes
Point de départ du projet : prototype de recherche de Vincent
Claveau [IRISA,TEXMEX] permettant cette récupération
But du projet :
Correction des bogues du prototype
Mise en place d’une interface pour faciliter son utilisation par les
linguistes
Réalisation d’une application Web utilisant les couples qualia
PRÉSENTATION DU PROJET
Prototype de recherchePrototype de recherche
6
1-Introduction au sujet
2- Présentation du projet
3- Le Prototype
4- La Spécification
5- Bilan
PRÉSENTATION DU PROJET
PlanPlan
7
LE PROTOTYPE
Fonctionnement Global (1/3)Fonctionnement Global (1/3)
ApprentissageProgrammation Logique
Inductive (Aleph)corpus
exemplespositifs
Expertslinguistes
exemplesnégatifs
exemple :(...) je pense aller au magasinpour acheter des disques (...)
exemples :qualia(magasin, acheter).qualia(disque, acheter)....
exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....
8
LE PROTOTYPE
Fonctionnement Global (2/3)Fonctionnement Global (2/3)
ApprentissageProgrammation Logique
Inductive (Aleph)
exemplespositifs
exemplesnégatifs
exemples :qualia(magasin, acheter).qualia(disque, acheter)....
exemples :non_qualia(magasin, penser).non_qualia(disque, aller)....
règles
exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...
9
LE PROTOTYPE
Fonctionnement Global (3/3)Fonctionnement Global (3/3)
règles
exemple :est_qualia(Nom,Verbe) si :- distance entre Nom et Verbe < 4 mots- Verbe = verbe d’action- Nom = lieu...
Extraction
corpus
couplesqualia
exemples :qualia(magasin, acheter).qualia(disque, acheter).qualia(magasin, vendre).qualia(album, vendre).qualia(disque, vendre)....
exemple :(...) Le magasin de disque vend bien le dernier album de Lorie (...)
10
LE PROTOTYPEFonctionnement Global : Fonctionnement Global : RécapitulatifRécapitulatif
règles Extraction couplesqualia
ApprentissageProgrammation Logique
Inductive
exemplespositifs
exemplesnégatifs
Expertslinguistes
corpus
11
LE PROTOTYPE
Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpusd’apprentissage : le Corpus
corpus : texte ou recueil de textes relatif à un domaine spécifique
servant à
une étude linguistique.
contraintes (pour le traitement par le prototype) :
taille conséquente (au moins 100.000 mots)
en français uniquement
style non-littéraire de préférence (phrases concrètes)
termes techniques propres au domaine fréquemment utilisés
nécessité d’avoir un étiquetage syntaxique et sémantique
des mots
12
LE PROTOTYPEDonnées nécessaires en entrée Données nécessaires en entrée d’apprentissage : le Corpus d’apprentissage : le Corpus étiquetéétiqueté
1385\1 TOK Le le#det_sg\ddef1385\4 TOK marché marché#noun_sg\acy1385\11 TOK du de#prep\rde1385\14 TOK disque disque#noun_pl\art1385\21 TOK devrait devoir#verb_sg\mod1385\29 TOK reculer reculer#verb_inf\acp1385\37 TOK cette ce#det_sg\ddemon1385\43 TOK année année#noun_sg\tme1385\48 PTERM_P . EOS .#sent\sent
Exemple de phrase : “Le marché du disque devrait reculer cette année.”
Problème : utilisation du logiciel payant Cordial7
13
Exemples Positifs E+ (resp. Négatifs E-) : couples Nom-Verbe présents dansle corpus et certifiés par un expert linguiste comme qualia (resp. non qualia).
clauses Prolog totalement adaptées
LE PROTOTYPE
Données nécessaires en entrée Données nécessaires en entrée d’apprentissage : les Exemplesd’apprentissage : les Exemples
exemple :is_qualia(magasin,acheter) :-
phrase entière d’où est tirée l’exempleavec l’étiquetage associé à chaque mot.
format :is_qualia(N,V) :-tags(et_debut,tc_vide,ts_vide),tags(NomN,tagSyntaxiqueN,tagSemantiqueN),pred(NomN,et_debut),tags(V,tagSyntaxiqueV,tagSemantiqueV),pred(N,V),...
Pour un bon apprentissage : 3.000 ex. positifs et 3.000 négatifs pour 100.000 mots très fastidieux pour les experts linguistes solution alternative automatisée : le Bootstrapping
14
LE PROTOTYPEL’apprentissage : Approche L’apprentissage : Approche généralegénérale
Obtention de règles généralisant les exemples positifs en excluant les exemples négatifs
Utilise la programmation logique inductive, système Aleph (implémenté en Prolog)
Objectif : construire des règles permettant d’extraire automatiquement les couples qualia à partir du corpus
15
LE PROTOTYPE
L’apprentissage : SchémaL’apprentissage : Schéma
ApprentissageAleph
règles
E+
E-
BackgroundKnowledge
En entrée : E+ et E-, les exemples B, le Background knowledge, ensemble de connaissances élémentaires
En sortie : les règles
16
LE PROTOTYPE
L’apprentissageL’apprentissage
description syntaxique des différents types de mots : common_noun(W) :- plural_common_noun(W).verb(W) :- infinitive(W).
description sémantique des différents types de mots :common_noun(W) :- artefact(W).verb(W) :- action_verb(W).
prédicats d’ordre et de distance (propriétés entre les mots) :precedes(V,N) :- distance(N,V,X,_).near_verb(N,V) :- distance(N,V,_,1).
L’apprentissage : L’apprentissage : Le Background KnowledgeLe Background Knowledge
17
LE PROTOTYPE
L’apprentissage : algorithmeL’apprentissage : algorithme
1. Choix de manière aléatoire d’un exemple positif e dans E+. Si E+ est vide, arrêt.
2. Construction d’un espace de recherche H
Construction du treillis correspondant à e
┬ clause la plus générale
┴ clause la plus spécifique (e)
3. Chercher dans H la règle h qui a le score le plus élevé
fonction de score = nb de E+ couverts – nb de E- couverts
4. Retirer à E+ tous les exemples couverts par la règle h. Aller à l’étape 1.
e
┴
is_qualia(A,B)
┬
18
LE PROTOTYPE
Extraction des couples qualiaExtraction des couples qualia
Extraction = exécution directe des règles Prolog sur les faits
Obtention des couples qualia (Nom, Verbe) vérifiant les règles
Extractioncouplesqualia
Règles prolog générées par Aleph
(Apprentissage)
Corpus étiqueté sous forme
de faits Prolog
19
20
21
22
2323
Le prototype est un programme en ligne de commande
Création d'une interface et d'un assistant d'installation
Un seul corpus est disponible
Recherche et création d'un nouveau corpus
Utilisation concrète des couples qualia
Spécification d'une application Web
SPÉCIFICATIONS
IntroductionIntroduction
2424
But :
Convention dans le cadre d'une distribution d'un produit
Simplifier la procédure d'installation qui est contraignante
Installation possible par un linguiste sans intervention de
l'administrateur
Conception :
Une interface qui guide l'utilisateur
Un assistant pas à pas
Possibilité de voir le déroulement détaillé de l'installation
SPÉCIFICATIONS
Installation AutomatiqueInstallation Automatique
2525
Pourquoi ?
Interface du prototype en ligne de commande et
rebutante.
Souci d'avoir un logiciel exploitable par un linguiste.
Une valeur ajoutée pour la distribution :
Des fonctionnalités supplémentaires :
• Affichage du corpus
• Sauvegarde facilitée des informations
Faciliter la manipulation des données utilisées
par le protoype :
• Les fichiers d'exemples notamment.
SPÉCIFICATIONS
Interface PrototypeInterface Prototype
2626
Conception :
Choix d'une interface avec des onglets.
Chacun des onglets représente un module ou un prérequis précis du prototype.
Parties de l'interface :1 : Menu2 : Onglets3 : Bouton d'aide4 : Operation suivante
SPÉCIFICATIONS
Interface PrototypeInterface Prototype
27
Motivations :
Tester le prototype en profondeur
Avoir une utilisation personnelle
pour notre projet
Conditions :
Texte sans fautes d’orthographe
Contraintes par rapport à l’étiquetage
SPÉCIFICATIONS
Nouveau corpusNouveau corpus
28
SPÉCIFICATIONS
Nouveau corpus sur le sportNouveau corpus sur le sport
Nouveau domaine choisi : le sport
Listing des sports : Sports collectifs Sports individuels Sports mécaniques Sports de combat Sports extrêmes
Taille du corpus : 180 000 mots environ
Source : Internet
29
But de l’application : Aider un utilisateur dans ses recherches sur Google Lui proposer des sites plus ciblés sur sa requête Prendre en compte la généralité de certaines requêtes Avoir une application concrète pour le prototype
Conception : Stockage des couples qualia dans une base de données Classement des couples en fonction de leur
pertinence
SPÉCIFICATIONS
Application WebApplication Web
30
SPÉCIFICATIONS
Application Web : ExempleApplication Web : Exemple
Page d’aide à la recherche : On propose à l’utilisateur de
compléter
sa requête, avec les couples qualia
Requête initiale :
buteur France Brésil
Buteur :
1 – marquer
2 – jouer
3 – tirer
4 – gagner
5 – manquer
Résultats :
Avec ces choix, l’utilisateur obtient une nouvelle requête :
(buteur OU marquer)ET(France Brésil)
Cette nouvelle requête est directement envoyée vers la page de résultats de Google
31
Apports : Création de rapports (Latex) Test d’un logiciel Découverte de la complexité des algorithmes Utilisation concrète de Prolog
Difficultés de mise en œuvre : Lenteur du prototype pour récupérer les couples qualia Nécessité d’utiliser Cordial7 (logiciel sous licence) au préalable
Limite du Projet : Couples qualia spécifiques à un domaine précis
Interrogations sur la validation des résultats : Pertinence des couples qualia obtenus à partir de notre corpus ? Validation de l’interface par les linguistes ? Efficacité de l’application Web dans la recherche d’informations ?
BILAN
Conclusion & Interrogations Conclusion & Interrogations