SlideShare una empresa de Scribd logo
1 de 11
Tutoriel TAL des
NFCE

Journée ATALA

5 Juin 2004

Emilie Guimier De Neef
Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de
ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère
confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des
tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom
R&D




                                                                                                              D1 - 09/10/12
4. Un exemple de traitement automatique :
    Pré-traiter des SMS avant vocalisation
                                                chui en fisic ta pa 1 id geeeniaaale 2
                                                kdo pr ludo :->
                                                a2m1 steph




                     Pré-traitement
                      linguistique                       Synthèse vocale




                 Je suis en physique t'as pas
                 une idée de cadeau géniale
                 pour ludo hahaha ! À demain
                 Stèph



France Télécom R&D                                                             La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                                                                D2 - 09/10/12
Plan

     s   Architecture du système
     s   L’analyseur de textes «TiLT»
     s   Adaptations de TiLT au pré-traitement des
         SMS
     s   Limites du pré-traitement
     s   Démonstration du système




France Télécom R&D                       La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                          D3 - 09/10/12
Architecture du système
• Combinaison de 3 briques logicielles de FTR&D :
       Prolix :        identification de la langue
       TiLT :          analyse linguistique
       CVOX :          synthèse vocale



• Le message SMS reçu est…
      1. …envoyé à un serveur Prolix de reconnaissance de langue.
      2. …pré-traité linguistiquement par TiLT (SMS français uniquement)
      3. …envoyé à un serveur CVOX de synthèse vocale anglaise, allemande
         ou française



France Télécom R&D                                     La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                                        D4 - 09/10/12
L'analyseur de textes TiLT
   Principales étapes et données :
                                                         ⇒ Découpage d'un texte en
   Segmentation      Données de segmentation             phrases, mots, numéros, signes
                                                         de ponctuation etc.
                     Lexiques (ensemble des mots         ⇒ Association de chaque mot à
   Analyse
                     d'une langue avec information       ces différentes analyses hors
   lexicale
                     morpho-flexionnelles)               contexte
                     Stratégie de correction
   Méthodes de       (réaccentuation, phonétique,        ⇒ Correction des formes
   Corrections       typographique, morphologique,       erronées
                     décollement etc.)
                     Grammaire (règles décrivant la
                                                         ⇒ Désambiguïsation lexicale
   Chunking          séquentialité des mots d'une
                                                         par exploration du contexte
                     langue)
                     Règles de mise en forme
                                                         ⇒ Restitution adaptée du texte
   Restitution       (élision, tirets, espaces, formes
                                                         analysé
                     contractées etc.)

France Télécom R&D                                           La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                                              D5 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(1)

     s   Objectif : améliorer/permettre la vocalisation des
         SMS

           Q"corriger" les formes SMS même écrites phonétiquement

           Qrestituer certaines marques formelles importantes (apostrophes,
            tirets, majuscules etc)


           Qrepérer les smileys pour bloquer leur épellation



France Télécom R&D                                     La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                                        D6 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(2)
s Procédés d'écriture :
       QAbréviations                                                            dsl pr staprem / MDR le 6né
                 Recensement des formes les plus fréquentes (un millier environ)
                 Association à une/plusieurs formes expansées


       QEcriture phonétique et par rébus:                                                                on se dbrouille / g ht
        du kfé
                 Données de segmentation adaptées (chiffres dans les mots)
                 Recensement des fomes les plus fréquentes (une centaine)
                 Modification du phonétiseur pour interprétation dynamique en mode correction phonétique


       QTroncation des mots :                                                   Veuillez m'appeler à ce numér
                 Correction de la troncature à 1 caractère


       QAgglutination de mots :                                                 jatend son cou 2fil
France TélécomAdaptation du mode correctif séparation
              R&D                                                            La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                                                              D7 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(3)

s    Marques émotionnelles :

      QSmileys :                                                                 slt ;-> / pq tapel pa :(
             Données de segmentation adaptées
             Restitution sous forme de balises sonores


      QModification expressive de la graphie :                                g u 16 en fisic suupppeeer
             Développement d'un mode de correction tolérant à la répétition de caractères




France Télécom R&D                                                          La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                                                             D8 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(4)
s Corrections et abréviations génèrent une ambiguïté
     plus importante qu'en langue standard


s     L'absence de certaines marques formelles
     (apostrophes, signes de ponctuation, majuscules, tirets
     etc.) brouille les repères de la grammaire


s    Adaptation de la grammaire pour :
      QAffiner certaines descriptions (questions, mots réduits à une lettre)
      QCerner des 'îlots de confiance' (salutations pour l'identification des noms
      propres etc.)
      QDécider contextuellement de l'interprétation d'une chaîne
France Télécom R&D                                      La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                                         D9 - 09/10/12
Adaptations de TiLT au pré-traitement des SMS
(4)
    s Mise en forme du message :
           QElisions :                                                                          J n en ai pa l droit
                     Décidée contextuellement à la restitution du message


           QTirets :                                                                  va t on se boir un verre?
                     Ajout de tirets dans des configurations syntaxiques particulières


           QMajuscule en début de nom propre :                                                  Bjr jean claude ca va?




France Télécom R&D                                                           La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                                                             D10 - 09/10/12
Limites de l'approche

     s   Tous les phénomènes ne sont pas traités :
          QPas de procédés dynamiques pour tous les mécanismes
           d'écriture
           QDifficulté d'interprétation si cumul de procédés (agglutination de
           mots + écriture phonétique)
           QSegmentation des unités lexicales impossible en l'absence de
           séparateur
           QDifficulté augmente avec la longueur du message
           Q…




France Télécom R&D                                      La communication de ce document est soumise à autorisation de France Télécom R&D
                                                                                                                        D11 - 09/10/12

Más contenido relacionado

Destacado

Solutions IT et Logiciels - 02-02
Solutions IT et Logiciels - 02-02Solutions IT et Logiciels - 02-02
Solutions IT et Logiciels - 02-02Wildix
 
Madrid devops empaquetamientodeb_i
Madrid devops empaquetamientodeb_iMadrid devops empaquetamientodeb_i
Madrid devops empaquetamientodeb_iEduardo Ferro Aldama
 
L'énorme désastre écologique du pétrole bitumeux
L'énorme désastre écologique du pétrole bitumeuxL'énorme désastre écologique du pétrole bitumeux
L'énorme désastre écologique du pétrole bitumeuxadcgeo
 
Je suis chrétien et fier de l'être...
Je suis chrétien et fier de l'être...Je suis chrétien et fier de l'être...
Je suis chrétien et fier de l'être...Robert Grimont
 
Idoles des anciens_jeunes
Idoles des anciens_jeunesIdoles des anciens_jeunes
Idoles des anciens_jeunesGerard Houdinet
 
Manual en ppt de grupos google
Manual en ppt de grupos googleManual en ppt de grupos google
Manual en ppt de grupos googleDora
 
Comment faire du buzz ?
Comment faire du buzz ?Comment faire du buzz ?
Comment faire du buzz ?CITIZEN ACT
 
Actividad nuevas tecnologias[1]
Actividad nuevas tecnologias[1]Actividad nuevas tecnologias[1]
Actividad nuevas tecnologias[1]varaps11
 
Aplicación de airocide en hospitales
Aplicación de airocide en hospitalesAplicación de airocide en hospitales
Aplicación de airocide en hospitalesrobertolorente
 
Accueil du public déficient visuel
Accueil du public déficient visuelAccueil du public déficient visuel
Accueil du public déficient visuelCoraia
 

Destacado (20)

Solutions IT et Logiciels - 02-02
Solutions IT et Logiciels - 02-02Solutions IT et Logiciels - 02-02
Solutions IT et Logiciels - 02-02
 
Asamblea ordinaria 2011 10 de abril version slideshare
Asamblea ordinaria 2011  10 de abril version slideshareAsamblea ordinaria 2011  10 de abril version slideshare
Asamblea ordinaria 2011 10 de abril version slideshare
 
Madrid devops empaquetamientodeb_i
Madrid devops empaquetamientodeb_iMadrid devops empaquetamientodeb_i
Madrid devops empaquetamientodeb_i
 
CeBIT 2011
CeBIT 2011CeBIT 2011
CeBIT 2011
 
L'énorme désastre écologique du pétrole bitumeux
L'énorme désastre écologique du pétrole bitumeuxL'énorme désastre écologique du pétrole bitumeux
L'énorme désastre écologique du pétrole bitumeux
 
Je suis chrétien et fier de l'être...
Je suis chrétien et fier de l'être...Je suis chrétien et fier de l'être...
Je suis chrétien et fier de l'être...
 
Idoles des anciens_jeunes
Idoles des anciens_jeunesIdoles des anciens_jeunes
Idoles des anciens_jeunes
 
Abcducommunisme
AbcducommunismeAbcducommunisme
Abcducommunisme
 
Portfolio 2012
Portfolio 2012Portfolio 2012
Portfolio 2012
 
Manual en ppt de grupos google
Manual en ppt de grupos googleManual en ppt de grupos google
Manual en ppt de grupos google
 
Acta 09/13 27.11.09
Acta 09/13 27.11.09Acta 09/13 27.11.09
Acta 09/13 27.11.09
 
Comment faire du buzz ?
Comment faire du buzz ?Comment faire du buzz ?
Comment faire du buzz ?
 
Réseaux sociaux 13.12.12
Réseaux sociaux 13.12.12Réseaux sociaux 13.12.12
Réseaux sociaux 13.12.12
 
Coupe du monde 2014 Brésil
Coupe du monde 2014 BrésilCoupe du monde 2014 Brésil
Coupe du monde 2014 Brésil
 
Actividad nuevas tecnologias[1]
Actividad nuevas tecnologias[1]Actividad nuevas tecnologias[1]
Actividad nuevas tecnologias[1]
 
Aplicación de airocide en hospitales
Aplicación de airocide en hospitalesAplicación de airocide en hospitales
Aplicación de airocide en hospitales
 
Accueil du public déficient visuel
Accueil du public déficient visuelAccueil du public déficient visuel
Accueil du public déficient visuel
 
Plan de choque 2013 (pre)2
Plan de choque 2013 (pre)2Plan de choque 2013 (pre)2
Plan de choque 2013 (pre)2
 
Derecho 2010- 2011. La participación de los trabajadores.
Derecho 2010- 2011. La participación de los trabajadores.Derecho 2010- 2011. La participación de los trabajadores.
Derecho 2010- 2011. La participación de los trabajadores.
 
Diapos ambiente
Diapos ambienteDiapos ambiente
Diapos ambiente
 

Nouvelles formes de communication écrite - part4

  • 1. Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004 Emilie Guimier De Neef Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D D1 - 09/10/12
  • 2. 4. Un exemple de traitement automatique : Pré-traiter des SMS avant vocalisation chui en fisic ta pa 1 id geeeniaaale 2 kdo pr ludo :-> a2m1 steph Pré-traitement linguistique Synthèse vocale Je suis en physique t'as pas une idée de cadeau géniale pour ludo hahaha ! À demain Stèph France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D2 - 09/10/12
  • 3. Plan s Architecture du système s L’analyseur de textes «TiLT» s Adaptations de TiLT au pré-traitement des SMS s Limites du pré-traitement s Démonstration du système France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D3 - 09/10/12
  • 4. Architecture du système • Combinaison de 3 briques logicielles de FTR&D :  Prolix : identification de la langue  TiLT : analyse linguistique  CVOX : synthèse vocale • Le message SMS reçu est… 1. …envoyé à un serveur Prolix de reconnaissance de langue. 2. …pré-traité linguistiquement par TiLT (SMS français uniquement) 3. …envoyé à un serveur CVOX de synthèse vocale anglaise, allemande ou française France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D4 - 09/10/12
  • 5. L'analyseur de textes TiLT Principales étapes et données : ⇒ Découpage d'un texte en Segmentation Données de segmentation phrases, mots, numéros, signes de ponctuation etc. Lexiques (ensemble des mots ⇒ Association de chaque mot à Analyse d'une langue avec information ces différentes analyses hors lexicale morpho-flexionnelles) contexte Stratégie de correction Méthodes de (réaccentuation, phonétique, ⇒ Correction des formes Corrections typographique, morphologique, erronées décollement etc.) Grammaire (règles décrivant la ⇒ Désambiguïsation lexicale Chunking séquentialité des mots d'une par exploration du contexte langue) Règles de mise en forme ⇒ Restitution adaptée du texte Restitution (élision, tirets, espaces, formes analysé contractées etc.) France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D5 - 09/10/12
  • 6. Adaptations de TiLT au pré-traitement des SMS (1) s Objectif : améliorer/permettre la vocalisation des SMS Q"corriger" les formes SMS même écrites phonétiquement Qrestituer certaines marques formelles importantes (apostrophes, tirets, majuscules etc) Qrepérer les smileys pour bloquer leur épellation France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D6 - 09/10/12
  • 7. Adaptations de TiLT au pré-traitement des SMS (2) s Procédés d'écriture : QAbréviations dsl pr staprem / MDR le 6né Recensement des formes les plus fréquentes (un millier environ) Association à une/plusieurs formes expansées QEcriture phonétique et par rébus: on se dbrouille / g ht du kfé Données de segmentation adaptées (chiffres dans les mots) Recensement des fomes les plus fréquentes (une centaine) Modification du phonétiseur pour interprétation dynamique en mode correction phonétique QTroncation des mots : Veuillez m'appeler à ce numér Correction de la troncature à 1 caractère QAgglutination de mots : jatend son cou 2fil France TélécomAdaptation du mode correctif séparation R&D La communication de ce document est soumise à autorisation de France Télécom R&D D7 - 09/10/12
  • 8. Adaptations de TiLT au pré-traitement des SMS (3) s Marques émotionnelles : QSmileys : slt ;-> / pq tapel pa :( Données de segmentation adaptées Restitution sous forme de balises sonores QModification expressive de la graphie : g u 16 en fisic suupppeeer Développement d'un mode de correction tolérant à la répétition de caractères France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D8 - 09/10/12
  • 9. Adaptations de TiLT au pré-traitement des SMS (4) s Corrections et abréviations génèrent une ambiguïté plus importante qu'en langue standard s L'absence de certaines marques formelles (apostrophes, signes de ponctuation, majuscules, tirets etc.) brouille les repères de la grammaire s Adaptation de la grammaire pour : QAffiner certaines descriptions (questions, mots réduits à une lettre) QCerner des 'îlots de confiance' (salutations pour l'identification des noms propres etc.) QDécider contextuellement de l'interprétation d'une chaîne France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D9 - 09/10/12
  • 10. Adaptations de TiLT au pré-traitement des SMS (4) s Mise en forme du message : QElisions : J n en ai pa l droit Décidée contextuellement à la restitution du message QTirets : va t on se boir un verre? Ajout de tirets dans des configurations syntaxiques particulières QMajuscule en début de nom propre : Bjr jean claude ca va? France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D10 - 09/10/12
  • 11. Limites de l'approche s Tous les phénomènes ne sont pas traités : QPas de procédés dynamiques pour tous les mécanismes d'écriture QDifficulté d'interprétation si cumul de procédés (agglutination de mots + écriture phonétique) QSegmentation des unités lexicales impossible en l'absence de séparateur QDifficulté augmente avec la longueur du message Q… France Télécom R&D La communication de ce document est soumise à autorisation de France Télécom R&D D11 - 09/10/12