SlideShare une entreprise Scribd logo
1  sur  17
Télécharger pour lire hors ligne
Correction Orthographique et
  Grammaticale Automatique

          Agnès Souque
   Doctorante, Laboratoire Lidilem,
   Université Stendhal – Grenoble 3
Doctorante – conseil auprès de Linagora
                                          1
Qui suis-je...

Une quot;Talistequot;
  –   TAL : Traitement Automatique des Langues
  –   Traitement informatique des données
      langagières
  –   Intégration de modèles linguistiques dans des
      applications informatiques

  –   => correction orthographique, grammaticale



                                                      2
Sommaire

●
    Définitions
●
    Correction orthographique
    –   Un algorithme
    –   Des ressources linguistiques
    –   Schématiquement
●
    Correction grammaticale du français
    –   Existant
    –   Fonctionnement des outils
    –   Améliorations envisagées
                                          3
Définitions
                        en informatique
●
    Correction orthographique :
    –   Comparaison de la graphie des mots du texte à
        un lexique quot;exhaustifquot; des mots de la langue
●
    Correction grammaticale :
    –   Toutes les erreurs non détectables par un
        correcteur orthographique
●
    Ex. :    * des formule => erreur grammaticale
             * vous comprendrer => erreur orthographique
●
    Distinction grammaire/orthographe différente à
    l'école...
                                                           4
Correction orthographique automatique




                                        5
Correction orthographique
                    Algorithme de correction

●
    Moteur de correction : Hunspell
●
    Détection des fautes par comparaison des mots
    du texte aux mots d'un lexique quot;exhaustifquot;
●
    Suggestions de correction
    –   Calcul de la distance de Levenshtein entre le mot
        quot;fauxquot; et les mots du lexique :
        mots les plus proches proposés en correction
    –   Des règles pour les erreurs les plus courantes
        (i.e. fautes de frappe)
●
    Aucune analyse sémantique -> traitement de
    chaînes de caractères
                                                        6
Correction orthographique
                  Ressources linguistiques

●
    Lexique compressé pour les besoins d'Hunspell
●
    2 fichiers :
    1) un fichier de mots, chacun ayant ou pas un ou
      plusieurs marqueurs (flags) d'affixation
         ex. :plaire/D
    2) un fichier d'affixe regroupant les règles
      d'affixation selon les marqueurs
         ex.: PFX D Y 2
              PFX D   0   dé    [^aàâeèéêiîoôuh½æ]
              PFX D   0   dés   [aàâeèéêiîoôuh½æ]
●
    Combinaison des 2 fichiers pour générer le
    lexique complet       => déplaire                  7
Correction orthographique
                     Ressources linguistiques

●
    Fichier d'affixe souvent créé manuellement
    –   Travail très coûteux, nécessite des linguistes
    –   Difficultés des langues minoritaires pour le créer
●
    Aff-finder :
    –   Extrait automatiquement les affixes à partir
        d'une liste des mots d'une langue
    –   Génère automatiquement les 2 fichiers
        nécessaires à la correction orthographique
    –   Permet de doter les langues minoritaires d'un
        correcteur orthographique
                                                             8
Correction orthographique
                                   Schématiquement
                                                                    MOTS DU
                                                                    TEXTE À
                                                                   CORRIGER



COMPRESSION DU LEXIQUE               MOTEUR DE CORRECTION

    Règles        Lexique                 Lexique                Comparaison
  d'affixation   quot;exhaustifquot;             quot;exhaustifquot;              au lexique




                                       Décompression
       Compression


                                                                  Suggestions
          Lexique                   Lexique        Règles         de correction
         compressé                 compressé     d'affixation   distance d'édition
                                                                     ou règles




                                                                     MOTS
                                                                   CORRIGÉS
                                                                                     9
Correction grammaticale du français




                                      10
Correction grammaticale du français
                             Existant

●
    Des logiciels propriétaires :
    –   Cordial (Synapse Developpement)
    –   Antidote (Druide Informatique)
    –   Word (Microsoft)
    –   Etc.
●
    Problèmes de ces logiciels :
    –   Coût d'intégration souvent élevé
    –   quot;Boîtes noiresquot;
    –   Ressources linguistiques inaccessibles
                                                 11
Correction grammaticale du français
                             Existant

●
    Des logiciels libres :
    –   Grac (M. Biais), toute langue
    –   An Gramadóir (K. Scannell), gaélique
    –   LanguageTool (D. Naber), anglais
    –   Etc.
●
    Problèmes de ces logiciels :
    –   Faible prise en charge du français
    –   Formalismes non adaptés pour le français

                                                   12
Correction grammaticale du français
                                   Fonctionnement des outils
           Texte à

                             Segmentation du texte en phrases, puis en
           vérifier
                         ➔
TOKENISATION
         phrases et
           tokens
                             tokens (mots + ponctuations)
 T Étiquetage
 A morpho-
                         ➔
                             Étiquetage des mots avec les informations
 G syntaxique
 G
 I
      texte étiqueté         sur leurs catégories et sous-catégories.
 N Désambi-
 G guïsation             ➔
                             Réduction du nombre d'étiquettes (tags)
        texte étiqueté
        désambiguïsé         par mot.
  CHUNKING
          Phrases
        segmentées
                         ➔
                             Segmentation à un niveau intermédiaire
         en chunks
 DÉTECTION
                             entre la phrase et le mot.
 DES FAUTES
 règles d'erreurs
                         ➔
                             Détection des fautes par correspondance
                             entre le texte et un modèle dans une règle.
ou de grammaire

        Texte corrigé

                                                                         13
Correction grammaticale du français
                                    Fonctionnement des outils
           Texte à
           vérifier
TOKENISATION
         phrases et
           tokens        ●
                             Problème du cercle perverti :
 T Étiquetage
 A morpho-
 G syntaxique
                             –   Des erreurs dans le texte
 G
                                   => mauvais étiquetage
      texte étiqueté
 I
 N Désambi-
 G guïsation

        texte étiqueté             => mauvaise détection des erreurs
        désambiguïsé
  CHUNKING
          Phrases
        segmentées
         en chunks
                         ●
                             La bonne détection des erreurs dépend
 DÉTECTION
 DES FAUTES                  d'un bon étiquetage et donc de l'absence
 règles d'erreurs
ou de grammaire
                             de fautes dans le texte...
        Texte corrigé

                                                                       14
Correction grammaticale du français
                       Fonctionnement d'un outil

●
    Correcteur grammatical libre LanguageTool,
    créé pour l'anglais par Daniel Naber
●
    Principe du pattern-matching :
    –   Correspondance exacte entre des séquences du
        texte et des modèles d'erreur
    –   Impossible de prévoir tous les modèles d'erreur
    –   Silence et bruit dans la détection des erreurs
         ●
             Ex. : règle : Sujet + verbe + quot;pasquot; => oubli de quot;nequot;
             => ne fonctionne pas avec : * Il travail pas assez
    –   Limitation au contexte immédiat
         ●
             Ex. : * La veste qu'il voulait acheter est épuisé.
                                                                    15
Correction grammaticale du français
                   Améliorations envisagées

●
    Enrichissement de la base des règles de
    correction :
    –   Constitution et analyse d'un corpus d'erreurs
    –   Enrichissement communautaire des règles
●
    Évolutions du formalisme :
    –   Collaboration communautaire entre linguistes et
        informaticiens
●
    Évolution du principe de base...


                                                          16
Merci de votre attention


   ●
       agnes.souque@free.fr

                              17

Contenu connexe

En vedette

Grammaire progressive du français niveau intermediaire 3rd (1)
Grammaire progressive du français  niveau intermediaire   3rd (1)Grammaire progressive du français  niveau intermediaire   3rd (1)
Grammaire progressive du français niveau intermediaire 3rd (1)Marco Antonio De Andrade
 
Introduction au français : des sons et des lettres
Introduction au français : des sons et des lettresIntroduction au français : des sons et des lettres
Introduction au français : des sons et des lettresPORTE Nathalie
 
Cahier d'activités - Dossier 0 e 1 (A1)
Cahier d'activités - Dossier 0 e 1 (A1)Cahier d'activités - Dossier 0 e 1 (A1)
Cahier d'activités - Dossier 0 e 1 (A1)Priscila Souza
 
(Alter ego + A1) dossier 1
(Alter ego + A1) dossier 1(Alter ego + A1) dossier 1
(Alter ego + A1) dossier 1Priscila Souza
 
2.1 grammaire progressive du français - intermediare (corrigés)
2.1   grammaire progressive du français - intermediare (corrigés)2.1   grammaire progressive du français - intermediare (corrigés)
2.1 grammaire progressive du français - intermediare (corrigés)Karine Nascimento
 

En vedette (9)

Grammaire progressive du français niveau intermediaire 3rd (1)
Grammaire progressive du français  niveau intermediaire   3rd (1)Grammaire progressive du français  niveau intermediaire   3rd (1)
Grammaire progressive du français niveau intermediaire 3rd (1)
 
Orthographe
OrthographeOrthographe
Orthographe
 
Pac3
Pac3Pac3
Pac3
 
Introduction au français : des sons et des lettres
Introduction au français : des sons et des lettresIntroduction au français : des sons et des lettres
Introduction au français : des sons et des lettres
 
Echo A2 livre
Echo A2 livreEcho A2 livre
Echo A2 livre
 
Cahier d'activités - Dossier 0 e 1 (A1)
Cahier d'activités - Dossier 0 e 1 (A1)Cahier d'activités - Dossier 0 e 1 (A1)
Cahier d'activités - Dossier 0 e 1 (A1)
 
(Alter ego + A1) dossier 1
(Alter ego + A1) dossier 1(Alter ego + A1) dossier 1
(Alter ego + A1) dossier 1
 
Vocabulaire
VocabulaireVocabulaire
Vocabulaire
 
2.1 grammaire progressive du français - intermediare (corrigés)
2.1   grammaire progressive du français - intermediare (corrigés)2.1   grammaire progressive du français - intermediare (corrigés)
2.1 grammaire progressive du français - intermediare (corrigés)
 

Plus de guest3be047

OBM : la solution collaborative libre
OBM : la solution collaborative libre OBM : la solution collaborative libre
OBM : la solution collaborative libre guest3be047
 
Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre guest3be047
 
Utilisation de services Web sécurisés en Java en environnement Open Source
Utilisation de services Web sécurisés en Java en environnement Open SourceUtilisation de services Web sécurisés en Java en environnement Open Source
Utilisation de services Web sécurisés en Java en environnement Open Sourceguest3be047
 
Embarquer Linux et des systèmes libres, méthodes et apports
Embarquer Linux et des systèmes libres, méthodes et apportsEmbarquer Linux et des systèmes libres, méthodes et apports
Embarquer Linux et des systèmes libres, méthodes et apportsguest3be047
 
Virtualisation par logiciels libres
Virtualisation par logiciels libresVirtualisation par logiciels libres
Virtualisation par logiciels libresguest3be047
 
Roadmap OOo 2008
Roadmap OOo 2008Roadmap OOo 2008
Roadmap OOo 2008guest3be047
 
Bonnes pratiques pour réussir votre projet de supervision Nagios
Bonnes pratiques pour réussir votre projet de supervision NagiosBonnes pratiques pour réussir votre projet de supervision Nagios
Bonnes pratiques pour réussir votre projet de supervision Nagiosguest3be047
 
NaReTo : tableaux de bord métiers pour la supervision
NaReTo : tableaux de bord métiers pour la supervisionNaReTo : tableaux de bord métiers pour la supervision
NaReTo : tableaux de bord métiers pour la supervisionguest3be047
 
CD d’auto-installation de Nagios, Centreon et NaReTo
CD d’auto-installation de Nagios, Centreon et NaReToCD d’auto-installation de Nagios, Centreon et NaReTo
CD d’auto-installation de Nagios, Centreon et NaReToguest3be047
 
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PMEOBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PMEguest3be047
 
Gestion de parc avec OCS et GLPI
Gestion de parc avec OCS et GLPI Gestion de parc avec OCS et GLPI
Gestion de parc avec OCS et GLPI guest3be047
 

Plus de guest3be047 (11)

OBM : la solution collaborative libre
OBM : la solution collaborative libre OBM : la solution collaborative libre
OBM : la solution collaborative libre
 
Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre Retour d'expérience - Poste de travail Libre
Retour d'expérience - Poste de travail Libre
 
Utilisation de services Web sécurisés en Java en environnement Open Source
Utilisation de services Web sécurisés en Java en environnement Open SourceUtilisation de services Web sécurisés en Java en environnement Open Source
Utilisation de services Web sécurisés en Java en environnement Open Source
 
Embarquer Linux et des systèmes libres, méthodes et apports
Embarquer Linux et des systèmes libres, méthodes et apportsEmbarquer Linux et des systèmes libres, méthodes et apports
Embarquer Linux et des systèmes libres, méthodes et apports
 
Virtualisation par logiciels libres
Virtualisation par logiciels libresVirtualisation par logiciels libres
Virtualisation par logiciels libres
 
Roadmap OOo 2008
Roadmap OOo 2008Roadmap OOo 2008
Roadmap OOo 2008
 
Bonnes pratiques pour réussir votre projet de supervision Nagios
Bonnes pratiques pour réussir votre projet de supervision NagiosBonnes pratiques pour réussir votre projet de supervision Nagios
Bonnes pratiques pour réussir votre projet de supervision Nagios
 
NaReTo : tableaux de bord métiers pour la supervision
NaReTo : tableaux de bord métiers pour la supervisionNaReTo : tableaux de bord métiers pour la supervision
NaReTo : tableaux de bord métiers pour la supervision
 
CD d’auto-installation de Nagios, Centreon et NaReTo
CD d’auto-installation de Nagios, Centreon et NaReToCD d’auto-installation de Nagios, Centreon et NaReTo
CD d’auto-installation de Nagios, Centreon et NaReTo
 
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PMEOBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
OBM Express, la solution de messagerie collaborative pensée pour les TPE et PME
 
Gestion de parc avec OCS et GLPI
Gestion de parc avec OCS et GLPI Gestion de parc avec OCS et GLPI
Gestion de parc avec OCS et GLPI
 

Correction Orthographique et Grammaticale Automatique

  • 1. Correction Orthographique et Grammaticale Automatique Agnès Souque Doctorante, Laboratoire Lidilem, Université Stendhal – Grenoble 3 Doctorante – conseil auprès de Linagora 1
  • 2. Qui suis-je... Une quot;Talistequot; – TAL : Traitement Automatique des Langues – Traitement informatique des données langagières – Intégration de modèles linguistiques dans des applications informatiques – => correction orthographique, grammaticale 2
  • 3. Sommaire ● Définitions ● Correction orthographique – Un algorithme – Des ressources linguistiques – Schématiquement ● Correction grammaticale du français – Existant – Fonctionnement des outils – Améliorations envisagées 3
  • 4. Définitions en informatique ● Correction orthographique : – Comparaison de la graphie des mots du texte à un lexique quot;exhaustifquot; des mots de la langue ● Correction grammaticale : – Toutes les erreurs non détectables par un correcteur orthographique ● Ex. : * des formule => erreur grammaticale * vous comprendrer => erreur orthographique ● Distinction grammaire/orthographe différente à l'école... 4
  • 6. Correction orthographique Algorithme de correction ● Moteur de correction : Hunspell ● Détection des fautes par comparaison des mots du texte aux mots d'un lexique quot;exhaustifquot; ● Suggestions de correction – Calcul de la distance de Levenshtein entre le mot quot;fauxquot; et les mots du lexique : mots les plus proches proposés en correction – Des règles pour les erreurs les plus courantes (i.e. fautes de frappe) ● Aucune analyse sémantique -> traitement de chaînes de caractères 6
  • 7. Correction orthographique Ressources linguistiques ● Lexique compressé pour les besoins d'Hunspell ● 2 fichiers : 1) un fichier de mots, chacun ayant ou pas un ou plusieurs marqueurs (flags) d'affixation ex. :plaire/D 2) un fichier d'affixe regroupant les règles d'affixation selon les marqueurs ex.: PFX D Y 2 PFX D 0 dé [^aàâeèéêiîoôuh½æ] PFX D 0 dés [aàâeèéêiîoôuh½æ] ● Combinaison des 2 fichiers pour générer le lexique complet => déplaire 7
  • 8. Correction orthographique Ressources linguistiques ● Fichier d'affixe souvent créé manuellement – Travail très coûteux, nécessite des linguistes – Difficultés des langues minoritaires pour le créer ● Aff-finder : – Extrait automatiquement les affixes à partir d'une liste des mots d'une langue – Génère automatiquement les 2 fichiers nécessaires à la correction orthographique – Permet de doter les langues minoritaires d'un correcteur orthographique 8
  • 9. Correction orthographique Schématiquement MOTS DU TEXTE À CORRIGER COMPRESSION DU LEXIQUE MOTEUR DE CORRECTION Règles Lexique Lexique Comparaison d'affixation quot;exhaustifquot; quot;exhaustifquot; au lexique Décompression Compression Suggestions Lexique Lexique Règles de correction compressé compressé d'affixation distance d'édition ou règles MOTS CORRIGÉS 9
  • 11. Correction grammaticale du français Existant ● Des logiciels propriétaires : – Cordial (Synapse Developpement) – Antidote (Druide Informatique) – Word (Microsoft) – Etc. ● Problèmes de ces logiciels : – Coût d'intégration souvent élevé – quot;Boîtes noiresquot; – Ressources linguistiques inaccessibles 11
  • 12. Correction grammaticale du français Existant ● Des logiciels libres : – Grac (M. Biais), toute langue – An Gramadóir (K. Scannell), gaélique – LanguageTool (D. Naber), anglais – Etc. ● Problèmes de ces logiciels : – Faible prise en charge du français – Formalismes non adaptés pour le français 12
  • 13. Correction grammaticale du français Fonctionnement des outils Texte à Segmentation du texte en phrases, puis en vérifier ➔ TOKENISATION phrases et tokens tokens (mots + ponctuations) T Étiquetage A morpho- ➔ Étiquetage des mots avec les informations G syntaxique G I texte étiqueté sur leurs catégories et sous-catégories. N Désambi- G guïsation ➔ Réduction du nombre d'étiquettes (tags) texte étiqueté désambiguïsé par mot. CHUNKING Phrases segmentées ➔ Segmentation à un niveau intermédiaire en chunks DÉTECTION entre la phrase et le mot. DES FAUTES règles d'erreurs ➔ Détection des fautes par correspondance entre le texte et un modèle dans une règle. ou de grammaire Texte corrigé 13
  • 14. Correction grammaticale du français Fonctionnement des outils Texte à vérifier TOKENISATION phrases et tokens ● Problème du cercle perverti : T Étiquetage A morpho- G syntaxique – Des erreurs dans le texte G => mauvais étiquetage texte étiqueté I N Désambi- G guïsation texte étiqueté => mauvaise détection des erreurs désambiguïsé CHUNKING Phrases segmentées en chunks ● La bonne détection des erreurs dépend DÉTECTION DES FAUTES d'un bon étiquetage et donc de l'absence règles d'erreurs ou de grammaire de fautes dans le texte... Texte corrigé 14
  • 15. Correction grammaticale du français Fonctionnement d'un outil ● Correcteur grammatical libre LanguageTool, créé pour l'anglais par Daniel Naber ● Principe du pattern-matching : – Correspondance exacte entre des séquences du texte et des modèles d'erreur – Impossible de prévoir tous les modèles d'erreur – Silence et bruit dans la détection des erreurs ● Ex. : règle : Sujet + verbe + quot;pasquot; => oubli de quot;nequot; => ne fonctionne pas avec : * Il travail pas assez – Limitation au contexte immédiat ● Ex. : * La veste qu'il voulait acheter est épuisé. 15
  • 16. Correction grammaticale du français Améliorations envisagées ● Enrichissement de la base des règles de correction : – Constitution et analyse d'un corpus d'erreurs – Enrichissement communautaire des règles ● Évolutions du formalisme : – Collaboration communautaire entre linguistes et informaticiens ● Évolution du principe de base... 16
  • 17. Merci de votre attention ● agnes.souque@free.fr 17