OUTILS LINGUISTIQUES POUR LE DÉVELOPPEMENT DES APPLICATIONS AUTOMATIQUES DE L’ARABE.
Prof. Dr. Mohamed El Hannach
University Of Sidi Mohamed Ben Abdellah, FES &
Arabic Language Engineering Society, Morocco
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Mohammed el hannach keynote anlp ieee cist 2014
1. OUTILS LINGUISTIQUES POUR LE DÉVELOPPEMENT DES APPLICATIONS AUTOMATIQUES DE L’ARABE
Prof. Dr. Mohamed El Hannach
Université Sidi Mohamed Ben Abdellah, FES &
Arabic Language Engineering Society in Morocco
2. POSTULAT & HYPOTHÈSE
La majorité des applications informatiques développées pour l’arabe connaissent un échec à différents degrés, en particulier le traitement incorrecte des données linguistiques, et ce, est dû à notre avis, à l’insuffisance des descriptions informelle des données linguistiques de cette langue, sur lesquelles sont basés les développeurs.
A notre avis, il est impératif d’entamer une ré-description formelle de différents parties de discours de l’arabe, tenant en compte le et le système algorithmique de l’arabe et le développement que connait les techniques informatiques destinés au traitement automatique des langues naturelles, en particulier l’arabe qui se veut une langue fusionniste, par opposition au reste des langues fondées sur le système ensembliste.
3. CADRE THÉORIQUE & MÉTHODOLOGIQUE
Pourquoi une ré-description de l’arabe ?
Description structurale et autres (l’histoire irrationnel)
Grammaire combinatoire, empirisme et métalangage rationnel:
La phrase est l’unité minimale du sens: Sens=: V N0 W
Le mot isolé n’a pas d’autonomie linguistique
Le verbe est une phrase simple
Les verbes se divisent en trois catégories:
Verbe ordinaire
Verbe support
Verbe figé
Chaque forme linguistique (mot ou phrase) est associée à un schéma formel qui détermine son appartenance au système linguistique de l’arabe.
Les phrases de la langue sont finies et relativement acceptables
Les règles formelles sont relatives
4. BASE DE DONNÉES : MORPHOLOGIE
Le cadre morphologique générale de l’arabe:
Morphologie: Racine + Schème (ajouts)= Mot
Trois bases de données en découlent:
1, Racines, 2, Schèmes, 3, algorithmes morphologico - phonologique
Chaque mot est le résultat de la fusion / combinaison d’une racine est d’un schème en plus des ajouts=: سألتمونيها
Le schème assure la distribution des voyelles sur les consonnes des la racine
Les voyelles se divises en trois catégories à nature phonologique:
Inchoative =: lexicale
Médiane =: morphologique
Last =: flexionnelle
Noms: simple, fléchi et complétives
Verbes (simple et fléchi): trois catégories
V-a déverbaux (simples et fléchis): 10 catégories
V-n (simples et fléchis): 5 catégories
5. LES FORMES LINGUISTIQUES
Les structures sont basées sur cinq cadres formels dont le schéma de base est: V N0 W conçue sous forme de sujets et prédicats:
1.V N0
2.V N0 N1
3.V N0 Prép N1
4.V N0 N1 Prép N2
5.V N0 Prép N1 Prép N2
Remarques:
- Pas de verbe sans sujet à cause de l’absence de la catégorie infinitif en arabe
- Le N peut être simple ou flexionnel
- Le N = Nj occupe une place déterminé dans la structure
- Chaque verbe sélectionne sa séquence nominale
6. LES BASES DE DONNÉES: SYNTAXE
A partir de la forme de base (ci-dessus): V N0 W
P=: V (x, y, … )
Nous avons 19 classes syntaxiques, divisées selon des critères distributionnelles relevant du verbe ordinaire voire principale.
Les contraintes distributionnelles sont à la base de la classification transformationnelle
Chacune des classes syntaxiques possède ses propriétés transformationnelles.
Il y a cinq propriétés transformationnelles couvrant la totalité des verbes:
Restructuration, passif, nominalisation, adjectivation, et la propriété ‘non restreint’ =: V Nnr W, ou V N0 N1nr
N2 directe, comme se veut la tradition, n’existe pas en arabe
7. COLLECTION DES DONNÉES SYNTAXIQUES
5 structures de base: V N0 W (W=: 0, 1, 2)
L’adoption du principe de transf. non orientée nous donne trois types de structures :
Phrase ordinaire:
V N0 W < => 5 formes transformées
كسر أحمد )عنق الزجاجة( > -- < كسر أحمد الزجاجة 1 من عنقها 2 R=:
Phrase a verbe support:
Exemple: V N0 W < => 3 formes nominalisées
أقلق هذا الأمر عليا > -- < أثار هذا الأمر القلق في علي Nom A=:
Phrase figés:
Exemple: V N0 W < => nombre indéfini de formes
Fig=: لقي أحمد حتفه
9. BASE DE DONNÉES: STRUCTURES FIGÉS
30,000 expressions idiomatiques
Combinaison fixe entre les éléments de la structure syntaxique:
Structure opaque
Syntaxe locale
Sous forme de graphes
Réduction morphologique
Réduction transformationnelle
Sens métaphorique
10. DICTIONNAIRES ÉLECTRONIQUES
Recueil électronique des données linguistique:
Les noms non dérivés
Les verbes
Les Adverbes
Noms déverbaux
Les sons (Kacst)
Lexicon grammar
11. APPLICATIONS
Ontologie
Contenu digital
Traduction automatique
Web Sémantique, OWL
OCR
Résumé automatique
Enseignement =: teaching et évaluation
Indexation
Analyseurs automatiques
Moteur de recherche sur le net
12. CONCLUSION
Nous insistons sur le fait de prendre en considération les travaux linguistiques basés sur un cadre théorique formel.
Nos bases de données linguistiques sont à la disposition des chercheurs désirant collaborer avec notre société en vue de développement des applications sur l’arabe
Nos remercions l’équipe de chercheurs ayant travaillé sur les bases de données pendand des années.