Nouvelles formes de communication écrite - part4

11
D1 - 25/08/22 Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004 Emilie Guimier De Neef

Transcript of Nouvelles formes de communication écrite - part4

Page 1: Nouvelles formes de communication écrite - part4

D1 - 13/04/23

Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D

Tutoriel TAL des NFCE

Journée ATALA

5 Juin 2004

Emilie Guimier De Neef

Page 2: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D2 - 13/04/23

Pré-traitement linguistique

chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :->a2m1 steph

Synthèse vocale

Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph

4. Un exemple de traitement automatique :

Pré-traiter des SMS avant vocalisation

Page 3: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D3 - 13/04/23

Plan

s Architecture du système

s L’analyseur de textes «TiLT»

s Adaptations de TiLT au pré-traitement des SMS

s Limites du pré-traitement

s Démonstration du système

Page 4: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D4 - 13/04/23

Architecture du système• Combinaison de 3 briques logicielles de FTR&D :

Prolix : identification de la langue

TiLT : analyse linguistique

CVOX : synthèse vocale

• Le message SMS reçu est…

1. …envoyé à un serveur Prolix de reconnaissance de langue.

2. …pré-traité linguistiquement par TiLT (SMS français uniquement)

3. …envoyé à un serveur CVOX de synthèse vocale anglaise, allemande ou française

Page 5: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D5 - 13/04/23

L'analyseur de textes TiLT

Segmentation Données de segmentation Découpage d'un texte en phrases, mots, numéros, signes de ponctuation etc.

Analyse lexicale

Lexiques (ensemble des mots d'une langue avec information morpho-flexionnelles)

Association de chaque mot à ces différentes analyses hors contexte

Méthodes de Corrections

Stratégie de correction (réaccentuation, phonétique, typographique, morphologique, décollement etc.)

Correction des formes erronées

ChunkingGrammaire (règles décrivant la séquentialité des mots d'une langue)

Désambiguïsation lexicale par exploration du contexte

RestitutionRègles de mise en forme (élision, tirets, espaces, formes contractées etc.)

Restitution adaptée du texte analysé

Principales étapes et données :

Page 6: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D6 - 13/04/23

Adaptations de TiLT au pré-traitement des SMS (1)

s Objectif : améliorer/permettre la vocalisation des SMS

Q"corriger" les formes SMS même écrites phonétiquement

Qrestituer certaines marques formelles importantes (apostrophes, tirets, majuscules etc)

Qrepérer les smileys pour bloquer leur épellation

Page 7: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D7 - 13/04/23

s Procédés d'écriture :

QAbréviations dsl pr staprem / MDR le 6néRecensement des formes les plus fréquentes (un millier environ)Association à une/plusieurs formes expansées

QEcriture phonétique et par rébus: on se dbrouille / g ht du

kféDonnées de segmentation adaptées (chiffres dans les mots)Recensement des fomes les plus fréquentes (une centaine)Modification du phonétiseur pour interprétation dynamique en mode

correction phonétique

QTroncation des mots : Veuillez m'appeler à ce

numérCorrection de la troncature à 1 caractère

QAgglutination de mots : jatend son cou 2filAdaptation du mode correctif séparation

Adaptations de TiLT au pré-traitement des SMS (2)

Page 8: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D8 - 13/04/23

s Marques émotionnelles :

QSmileys : slt ;-> / pq tapel pa :( Données de segmentation adaptéesRestitution sous forme de balises sonores

QModification expressive de la graphie : g u 16 en fisic

suupppeeer Développement d'un mode de correction tolérant à la répétition de

caractères

Adaptations de TiLT au pré-traitement des SMS (3)

Page 9: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D9 - 13/04/23

s Corrections et abréviations génèrent une ambiguïté plus importante qu'en langue standard

s L'absence de certaines marques formelles (apostrophes, signes de ponctuation, majuscules, tirets etc.) brouille les repères de la grammaire

s Adaptation de la grammaire pour :QAffiner certaines descriptions (questions, mots réduits à une lettre)QCerner des 'îlots de confiance' (salutations pour l'identification des noms propres etc.)QDécider contextuellement de l'interprétation d'une chaîne

Adaptations de TiLT au pré-traitement des SMS (4)

Page 10: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D10 - 13/04/23

s Mise en forme du message :QElisions : J n en ai pa l droit

Décidée contextuellement à la restitution du message

QTirets : va t on se

boir un verre?Ajout de tirets dans des configurations syntaxiques particulières

QMajuscule en début de nom propre : Bjr jean

claude ca va?

Adaptations de TiLT au pré-traitement des SMS (4)

Page 11: Nouvelles formes de communication écrite - part4

France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D11 - 13/04/23

Limites de l'approche

s Tous les phénomènes ne sont pas traités :QPas de procédés dynamiques pour tous les mécanismes Pas de procédés dynamiques pour tous les mécanismes d'écritured'écriture

QDifficulté d'interprétation si cumul de procédés Difficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique)(agglutination de mots + écriture phonétique)

QSegmentation des unités lexicales impossible en Segmentation des unités lexicales impossible en l'absence de séparateurl'absence de séparateur

QDifficulté augmente avec la longueur du messageDifficulté augmente avec la longueur du messageQ……