Nouvelles formes de communication écrite - part4
-
Upload
aixtal -
Category
Technology
-
view
346 -
download
1
Transcript of Nouvelles formes de communication écrite - part4
![Page 1: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/1.jpg)
D1 - 13/04/23
Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D
Tutoriel TAL des NFCE
Journée ATALA
5 Juin 2004
Emilie Guimier De Neef
![Page 2: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/2.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D2 - 13/04/23
Pré-traitement linguistique
chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :->a2m1 steph
Synthèse vocale
Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph
4. Un exemple de traitement automatique :
Pré-traiter des SMS avant vocalisation
![Page 3: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/3.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D3 - 13/04/23
Plan
s Architecture du système
s L’analyseur de textes «TiLT»
s Adaptations de TiLT au pré-traitement des SMS
s Limites du pré-traitement
s Démonstration du système
![Page 4: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/4.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D4 - 13/04/23
Architecture du système• Combinaison de 3 briques logicielles de FTR&D :
Prolix : identification de la langue
TiLT : analyse linguistique
CVOX : synthèse vocale
• Le message SMS reçu est…
1. …envoyé à un serveur Prolix de reconnaissance de langue.
2. …pré-traité linguistiquement par TiLT (SMS français uniquement)
3. …envoyé à un serveur CVOX de synthèse vocale anglaise, allemande ou française
![Page 5: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/5.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D5 - 13/04/23
L'analyseur de textes TiLT
Segmentation Données de segmentation Découpage d'un texte en phrases, mots, numéros, signes de ponctuation etc.
Analyse lexicale
Lexiques (ensemble des mots d'une langue avec information morpho-flexionnelles)
Association de chaque mot à ces différentes analyses hors contexte
Méthodes de Corrections
Stratégie de correction (réaccentuation, phonétique, typographique, morphologique, décollement etc.)
Correction des formes erronées
ChunkingGrammaire (règles décrivant la séquentialité des mots d'une langue)
Désambiguïsation lexicale par exploration du contexte
RestitutionRègles de mise en forme (élision, tirets, espaces, formes contractées etc.)
Restitution adaptée du texte analysé
Principales étapes et données :
![Page 6: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/6.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D6 - 13/04/23
Adaptations de TiLT au pré-traitement des SMS (1)
s Objectif : améliorer/permettre la vocalisation des SMS
Q"corriger" les formes SMS même écrites phonétiquement
Qrestituer certaines marques formelles importantes (apostrophes, tirets, majuscules etc)
Qrepérer les smileys pour bloquer leur épellation
![Page 7: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/7.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D7 - 13/04/23
s Procédés d'écriture :
QAbréviations dsl pr staprem / MDR le 6néRecensement des formes les plus fréquentes (un millier environ)Association à une/plusieurs formes expansées
QEcriture phonétique et par rébus: on se dbrouille / g ht du
kféDonnées de segmentation adaptées (chiffres dans les mots)Recensement des fomes les plus fréquentes (une centaine)Modification du phonétiseur pour interprétation dynamique en mode
correction phonétique
QTroncation des mots : Veuillez m'appeler à ce
numérCorrection de la troncature à 1 caractère
QAgglutination de mots : jatend son cou 2filAdaptation du mode correctif séparation
Adaptations de TiLT au pré-traitement des SMS (2)
![Page 8: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/8.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D8 - 13/04/23
s Marques émotionnelles :
QSmileys : slt ;-> / pq tapel pa :( Données de segmentation adaptéesRestitution sous forme de balises sonores
QModification expressive de la graphie : g u 16 en fisic
suupppeeer Développement d'un mode de correction tolérant à la répétition de
caractères
Adaptations de TiLT au pré-traitement des SMS (3)
![Page 9: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/9.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D9 - 13/04/23
s Corrections et abréviations génèrent une ambiguïté plus importante qu'en langue standard
s L'absence de certaines marques formelles (apostrophes, signes de ponctuation, majuscules, tirets etc.) brouille les repères de la grammaire
s Adaptation de la grammaire pour :QAffiner certaines descriptions (questions, mots réduits à une lettre)QCerner des 'îlots de confiance' (salutations pour l'identification des noms propres etc.)QDécider contextuellement de l'interprétation d'une chaîne
Adaptations de TiLT au pré-traitement des SMS (4)
![Page 10: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/10.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D10 - 13/04/23
s Mise en forme du message :QElisions : J n en ai pa l droit
Décidée contextuellement à la restitution du message
QTirets : va t on se
boir un verre?Ajout de tirets dans des configurations syntaxiques particulières
QMajuscule en début de nom propre : Bjr jean
claude ca va?
Adaptations de TiLT au pré-traitement des SMS (4)
![Page 11: Nouvelles formes de communication écrite - part4](https://reader036.fdocuments.net/reader036/viewer/2022082606/558c3b6bd8b42ab7028b466e/html5/thumbnails/11.jpg)
France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D11 - 13/04/23
Limites de l'approche
s Tous les phénomènes ne sont pas traités :QPas de procédés dynamiques pour tous les mécanismes Pas de procédés dynamiques pour tous les mécanismes d'écritured'écriture
QDifficulté d'interprétation si cumul de procédés Difficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique)(agglutination de mots + écriture phonétique)
QSegmentation des unités lexicales impossible en Segmentation des unités lexicales impossible en l'absence de séparateurl'absence de séparateur
QDifficulté augmente avec la longueur du messageDifficulté augmente avec la longueur du messageQ……