More than Just Lines on a Map: Best Practices for U.S Bike Routes
BoKu14-ERSS
1. Gilles Boyé & Anna Kupść
Analyse automatique
d'espaces thématiques
2. Analyse thématique
• Morphologie théorique
• Représentation de la flexion
• organisation des paradigmes des formes
• rapport entre cases du paradigme
• deux types de prédictibilité
• interprédictibilité totale : distillation
• prédictibilité graduée : graphe des régularités
• Analyse manuelle => nombreuses généralisations approximatives
3. Paradigme de formes = Tableau de cases
PASSER 1SG 2SG 3SG 1PL 2PL 3PL
Présent passe passes passe passons passez passent
Imparfait passais passais passait passions passiez passaient
Passé passai passas ...
...
Verbes 1SG 2SG 3SG 1PL 2PL 3PL
Présent PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6
Imparfait IPF.1
IPF.2
IPF.3
IPF.4
IPF.5
IPF.6
Passé PST.1 PST.2 ...
...
• Notre analyse porte sur les rapports entre les cases du tableau
• généralisation sur l'ensemble des verbes
4. Formes interprédictibles
FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6
PASSER passerai passeras passera passerons passerez passeront
ALLER irai iras ira irons irez iront
FINIR finirai finiras finira finirons finirez finiront
MORDR
E
mordrai mordras mordra mordrons mordrez mordront
SAVOIR saurai sauras saura saurons saurez sauront
Série *rai *ras *ra *rons *rez *ront
• Les cases du futur sont toujours basées sur les mêmes éléments :
• un radical pour le verbe
• une désinence pour personne
• Le rapport entre les formes est constant et indépendant du contexte
5. Formes interprédictibles
PST.1 PST.2 PST.3 PST.4 PST.5 PST.6
PASSER passai passas passa passâmes passâtes passèrent
ALLER allai allas alla allâmes allâtes allèrent
FINIR finis finis finit finîmes finîtes finirent
MORDR
E
mordis mordis mordit mordîmes mordîtes mordirent
SAVOIR sus sus sut sûmes sûtes surent
Série 1 *ai *as *a *âmes *âtes *èrent
Série 2 *is *is *it *îmes *îtes *irent
Série 3 *us *us *ut *ûmes *ûtes *urent
• Les cases du passé ne sont pas toutes basées sur les mêmes éléments :
• les désinences forment des séries différentes mais entièrement
prédictives
6. Interprédictibilité totale
• Les cases totalement interprédictibles ont la même couleur, elles
constituent une alliance de formes
• L'interprédictibilité permet de réduire le paradigme à étudier
PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6
IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6
PST.1 PST.2 PST.3 PST.4 PST.5 PST.6
FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6
SBJV.1 SBJV.2 SBJV.3 SBJV.4 SBJV.5 SBJV.6
SBJV.IPF.
1
SBJV.IPF.
2
SBJV.IPF.
3
SBJV.IPF.
4
SBJV.IPF.
5
SBJV.IPF.
6CND.1 CND.2 CND.3 CND.4 CND.5 CND.6
IMP.2 IMP.4 IMP.5
INF
PCP.PRS
PCP.PST
7. Alliances de formes : illustrations
sais sais sait savons savez savent
savais savais savait savions saviez savaient
sus sus sut sûmes sûtes surent
saurai sauras saura saurons saurez sauront
sache saches sache sachions sachiez sachent
susse susses sût sussions sussiez sussent
saurais saurais saurait saurions sauriez sauraient
sache sachons sachez
savoir
sachant
su
vais vas va allons allez vont
allais allais allai
t
allions alliez allaient
allai allas alla allâmes allâtes allèrent
irai iras ira irons irez iront
aille ailles aille allions alliez aillent
allasse allasse
s
allât allassions allassiez allassent
irais irais irait irions iriez iraient
vas allons allez
aller
allant
allé
8. Distillation du paradigme
• La distillation du paradigme consiste à prendre une case
représentante par alliance de formes (1 couleur)
PRS.1 PRS.4 PRS.6 PST.1
FUT.
1
SBJV.
1
SBJV.4 IMP.2
IMP.4 INF PCP.PRS PCP.PST
PRS.1 PRS.2 PRS.3 PRS.4 PRS.5 PRS.6
IPF.1 IPF.2 IPF.3 IPF.4 IPF.5 IPF.6
PST.1 PST.2 PST.3 PST.4 PST.5 PST.6
FUT.1 FUT.2 FUT.3 FUT.4 FUT.5 FUT.6
SBJV.1 SBJV.2 SBJV.3 SBJV.4 SBJV.5 SBJV.6
SBJV.IPF.
1
SBJV.IPF.
2
SBJV.IPF.
3
SBJV.IPF.
4
SBJV.IPF.
5
SBJV.IPF.
6CND.1 CND.2 CND.3 CND.4 CND.5 CND.6
IMP.2 IMP.4 IMP.5
INF
PCP.PRS
PCP.PST
9. Relations entre les alliances
PRS.1
PRS.4
PRS.6
PRS.
1
PRS.4 PRS.6
MORDRE mor mord
õ
mor
dMOURIR mœr murõ mœr
LAVER lav lavõ lav
BOIRE bwa byvõ bwav
4<=>6 Y Xõ X
1<=>6 X Yõ X
1<=>4 X Xõ Y
toutes reliées X Xõ X
aucunes reliées X Yõ Z
• Toutes les relations entre alliances n'ont
pas la même pertinence
• on peut extraire un sous-ensemble de
relations pertinentes qui constitue un
graphe de régularités entre alliances
4<=>6
1<=>6
1<=>4
10. Un graphe de l'espace thématique
10
Graphe de régularité obtenu manuellement (DUMAL)
• 12 relations symétriques pertinentes sur 66 possibles
PRS.1
PRS.4
PRS.6
PST.1
FUT.1
SBJV.1
SBJV.4
IMP.2
IMP.4
INF
PCP.PRS
PCP.PST
11. L'objectif
• Obtenir une distillation sur la base d'un lexique de formes
• par calcul des prédictibilités au sens de la théorie de l'information
• en tenant compte des effets de fréquence
• Construire un graphe de relations entre alliances
• sur la base des prédictibilités (sans préjuger des régularités)
• avec des relations orientées (pour tenir compte des asymétries)
12. La méthode
• Deux bases :
• Bonami, Boyé & Henri (2011) basé sur l'idée de Ackerman, Blevins,
Malouf (2009)
• BDLEX de Calmès & Pérennou (1998)
• Deux classifications :
• Classification des alternances basée sur le MGL de Albright (2002)
• Classification par ensemble d’alternances possibles
• Un calcul :
• Entropie conditionnelle par ensemble d’alternances
12
13. Principe de classification des alternances
• Pour une paire de formes du paradigme, on classe les alternances
entre la forme d’entrée et la forme de sortie
• par exemple, pour l’imparfait indicatif 1 et l’indicatif présent 6 :
LEXEME IPF.1 PRS.6
PASSER pasɛ pas
BOIRE byvɛ bwav
FINIR finisɛ finis
MENER mənɛ mɛn
SORTIR sɔrtɛ sɔrt
PRENDRE prənɛ prɛn
… … …
ɛ → Ø
yvɛ → wav
ənɛ → ɛn
… → …
13
14. Principe de classification par ensembles
• Chaque forme d’entrée est associée à l’ensemble d’alternances
susceptibles de lui être appliquées, sa classe
• par exemple, pour l’imparfait indicatif 1 et l’indicatif présent 6 :
LEXEME IPF.1
(→ PRS.6)
1 2 3 …
Classe
ɛ → Ø yvɛ → wav ənɛ → ɛn …
PASSER pasɛ pas *yvɛ *ənɛ {1, …}
BOIRE byvɛ byv byvɛ *ənɛ {1, 2, …}
FINIR finisɛ finis *yvɛ *ənɛ {1, …}
MENER mənɛ mən *yvɛ mɛn
{1, 3, …}
SORTIR sɔrtɛ sɔrt *yvɛ *ənɛ {1, …}
PRENDRE prənɛ prən *yvɛ prɛn
{1, 3, …}
… … {…, …}14
15. Entropie conditionnelle par classe
• Pour chaque classe, on calcule l’entropie conditionnelle associée :
• par exemple pour la classe {1,3,4}
50 verbes {1, 3, 4} 1 3 4
Nombre
EXEMPLE IPF.1 (→ PRS.6) ɛ → Ø ənɛ → ɛn ənɛ → jɛn
PRENDRE prənɛ prən prɛn prjɛn 24
VENIR vənɛ vən vɛn vjɛn 26
Entropie pour la classe {1,3,4} 0.999
15
16. Entropie conditionnelle par classe
• Pour chaque classe, on calcule l’entropie conditionnelle associée :
• par exemple pour la classe {1,5,6} (ɛ → Ø ; jɛ → Ø ; jɛ → i)
438 verbes {1, 5, 6} 1 5 6
Nombre
EXEMPLE IPF.1 (→ PRS.6) ɛ → Ø jɛ → Ø jɛ → i
APPAREILLER aparejɛ aparej apare aparei 134
STRIER strijɛ strij stri strii 102
COPIER kopjɛ kopj kop kopi 202
Entropie pour la classe {1,5,6} 1,527
,
16
17. Entropie conditionnelle globale
• Pour une paire de case du paradigme, on additionne les entropies
partielles en respectant les proportions de verbes dans chaque
classe :
• par exemple pour les deux classes déjà vues, {1,3,4} et {1,5,6} et
toutes les autres
Ensemble Nombre Proportion Entropie Contribution
{1, 3, 4} 50 0.78% 0.999 0.008
{1, 5, 6} 438 6.80% 1.527 0.104
… … …
Entropie globale pour IPF.1 → PRS.6 0,155
,17
18. Tableau des entropies
• Le calcul se fait sur toutes les paires
• On obtient une matrice d'entropies conditionnelles
les zéros (en blanc) indiquent la prédictibilité les alliances de formes correspondent aux zéros
symétriques et on obtient automatiquement une
nouvelle distillation
PRS.1 PRS.2 PRS.5
PRS.6 IPF.1 IPF.4
PST.1 FUT.1 SBJV.1
SBJV.4 IMP.2 IMP.4
IMP.5 INF PCP.PST
19. Graphe de prédictibilité
• On utilise le tableau des entropies pour
établir le graphe de prédictibilité sur la
distillation (relations entre les alliances de
formes)
• on classe les relations par entropies
croissantes
• on ajoute un arc à chaque fois que le
chemin entre les alliances n'est pas
parcourable sur le graphe
• on s'arrête quand toutes les alliances
peuvent s'inter-atteindre
20. Conclusion
• Le calcul de l'entropie permet d'échapper aux préconceptions sur la
régularité et de faire un calcul systématique sur les relations entre
formes.
• extraire toutes les relations dans les deux sens était inaccessible à la
main => choix arbitraire
• Le premier résultat obtenu semble très lié à l'influence de quelques
lexèmes hyper-fréquents et très irréguliers
• nous avons apporté une modification au calcul de l'entropie qui
limite cet effet en prenant en compte la fréquence des lexèmes et
de celles de leur famille (préfixés à conjugaison identique)