1. A corpus-based approach to the
categorization of minority languages
Giancarlo Luxardo
EEE (Europe, Européanité, Européanisation) – CNRS
Université Michel de Montaigne Bordeaux 3
Maison des Sciences de l'Homme d'Aquitaine
2012 LSE MI Conference on Text-Mining Methods
2. 1 - A text corpus about categorization of minority
languages in Europe
2 - Classification in “lexical worlds”
3 - Corpus partition and authors specificities
4 - Correspondence analysis
2012 LSE MI Conference on Text-Mining Methods
5. “regional or minority languages” means languages that are:
i) traditionally used within a given territory of a State by nationals
of that State who form a group numerically smaller than the rest of
the State's population; and
ii) different from the official language(s) of that State; it does not
include either dialects of the official language(s) of the State or the
languages of migrants;
European Charter for Regional or Minority Languages, 1992
2012 LSE MI Conference on Text-Mining Methods
6. 1 - A text corpus about categorization of minority
languages in Europe
➔ A corpus assembled with linguistic or legal texts
➔ Information Retrieval: keywords-based navigation
➔ Intertextuality: recognize the associations
➔ Different disciplinary approaches: linguistic, geographic,
legal...
➔ Different languages: French, English, Russian...
➔ Objective: identify a typology of notions about languages
based on their interrelationships (not: a classification
scheme for the languages)
2012 LSE MI Conference on Text-Mining Methods
7. Excerpt example
« Un linguiste russe, Aleksandr Kibrik, a (…) établi une liste des langues
"en voie de disparition" en ex-URSS : selon lui, prés de cent trente
langues étaient alors parlées sur ce territoire, dont certaines comme le iough
ou le kerek par deux ou trois personnes seulement. En même temps, elles ne
servent pas exactement aux mêmes choses, ne véhiculent pas les mêmes
contenus, ne régulent pas les mêmes rapports sociaux. Comment évaluer
l’importance relative de ces langues ? Certains adjectifs mal définis servent
parfois à en donner une idée : langues minoritaires, régionales, petites
langues, langues moins parlées pour les unes, langues véhiculaires,
grandes langues, langues internationales pour les autres... Mais ces
classifications sont loin d’être univoques et relèvent plus de l’idéologie ou
des rapports de force que de la science ».
Calvet, Louis-Jean. – « La guerre des langues et les chances d’un véritable
plurilinguisme » in : Langues : une guerre à mort, Panoramiques, n°48,
2000, pp.10-16 [p.12].
2012 LSE MI Conference on Text-Mining Methods
8. … another example
Once again, the stress must be on the speech network and the speech
community. We need to learn to keep our eyes on the ball and to more
often study minority and other threatened languages in situ, where
language behaviour actually and unselfconsciously lives. Of course, we
need to study authority structures, reward systems and organisations too,
as most of us have long been doing, but the balance is now too far in that
direction and some redirection of emphasis would seem to be very much
in order.
Fishman, Joshua A.. -“Endangered Minority Languages: Prospects for
Sociolinguistic Research”, In: Protecting Endangered Minority
Languages: Sociolinguistic Perspectives, International Journal on
Multicultural Societies (IJMS), Vol. 4, No. 2, 2002, UNESCO, 2002, pp.
275 [p. 274].
2012 LSE MI Conference on Text-Mining Methods
9. A sub-corpus in French: CLME
(Catégories de Langues Minoritaires en Europe)
● Types of sources:
single author monographs,
collective publication,
journal report,
experts report (EU)
● Dimension:
207 excerpts
25 authors
Occurrences: 23 000
Words: 4 200
Lemmas: 3 100
2012 LSE MI Conference on Text-Mining Methods
10. 104 notions identified
1 créole 25 langue dominante minoritaire
2 dialecte 26 langue dominée
3 dialecte régional 27 langue dominée écrite
4 idiome 28 langue dominée non-écrite
5 langue ancestrale 29 langue d’origine
6 langue autochtone 30 langue du peuple
7 langue commune 31 langue en diaspora
8 langue de communication 32 langue en voie de disparition
9 langue de communication interethnique 33 langue et culture locales
10 langue de diaspora 34 langue grégaire
11 langue de la communauté 35 langue historique
12 langue de la diaspora 36 langue historique de l’Europe
13 langue de la dispersion 37 langue identitaire
14 langue de l’émigration et de la diaspora 38 langue identitaire ou grégaire
15 langue de migrants 39 langue locale
16 langue de minorité nationale 40 langue maternelle
17 langue dépourvue de territoire 41 langue menacée
18 langue des colonisés 42 langue migrante
19 langue des immigrants 43 langue minorée
20 langue des migrants 44 langue minoritaire
21 langue des pays colonisés 45 langue mixte
22 langue d’Etat 46 langue moins parlée
23 langue d’immigration 47 langue moins répandue
24 langue d’isolat
11. 48 langue nationale 77 langue véhiculaire
49 langue native 78 langue de l’immigration
50 langue naturelle 79 langue de population migrante
51 langue non-écrite 80 langue de population nomade ou semi-
52 langue non-nationale nomade
53 langue officielle 81 langue locale historique
54 langue périphérique 82 langue traditionnelle
55 langue première 83 modalité insulaire
56 langue propre 84 parler
57 langue propre à un territoire 85 parler dialectal
58 langue régionale 86 parler périphérique
59 langue régionale minoritaire 87 parler vernaculaire
60 langue régionale et minoritaire 88 parler local
61 langue régionale ou minoritaire 89 parler régional
62 langue régionale ou minoritaire historique 90 patois
63 langue sans assise territoriale 91 patois local
64 langue sans Etat 92 petite langue
65 langue seconde 93 première langue
66 langue spécifique 94 sabir
67 langue allogène 95 variante dialectale
68 langue et culture régionale 96 variante locale
69 langue immigrée 97 variété
70 langue territoriale 98 variété îlienne
71 langue créole 99 variété insulaire
72 langue des minorités 100 variété linguistique
73 langue de famille 101 variété linguistique propre
74 langue frontalière 102 variété régionale
75 langue pidgin 103 variété dialectale
76 langue secondaire 104 vernaculaire
12. Author variable
S. AIROLDI
S. AKIN
P. BIDART
P. BLAIR
H. BOYER
M. BRUNEAU
L.-J. CALVET
J.-F. COUROUAU
G. DRETTAS
O. DUCROT – T. TODOROV
B. GIBLIN
H. GUILLOREL
A. HERDAM
G. JETCHEV
N. KOULAYAN
J.-L. LEONARD
Y. LESPOUX
J.-B. MARCELLESI
F. ROLLAN
F. SCHANEN
S. SINTAS
A. VIAUT
J.M.WOEHRLING
Commission Européenne (Euromosaic)
2012 LSE MI Conference on Text-Mining Methods
13. 2 - Classification in “lexical worlds”
● The CLME corpus is submitted to Alceste
● Hierarchical Descendant Classification
● 5 classes are identified
● 77 % of Elementary Context Units are classified
2012 LSE MI Conference on Text-Mining Methods
18. 4 - Correspondence Analysis (1)
2012 LSE MI Conference on Text-Mining Methods
19. Identify “notion items” in the lexical tables
dialecte 64 langue dominante 26 langue dépourvue de territoire 7
langue régionale 35 langue régionale ou minoritaire 25 langue commune 6
patois 35 langue nationale 23 langue d'origine 6
langue minoritaire 34 langue locale 15 langue de communication 5
langue officielle 32 langue d'Etat 13 langue de diaspora 5
parler 28 langue propre 12 langue en diaspora 5
langue dominée 26 langue de migrants 7 langue identitaire 5
langue maternelle 26 petite langue 5
2012 LSE MI Conference on Text-Mining Methods
21. Categorisation attempt
●les « territorialistes » : SINTAS, COMMISSION, VIAUT (langue
propre, langue d'Etat)
● les « identitaires » : DRETTAS, KOULAYAN, HERDAM, AKIN
(langue d'origine, langue maternelle, langue dépourvue de
territoire)
●les « politistes » : CALVET-ouvrage, BOYER, DUCROT (langue
nationale, langue dominante, langue dominée, langue locale)
● les « historiques » : BLAIR, MARCELLESI, WOEHRLING,
GUILLOREL (langue traditionnelle, langue commune, langue
régionale, langue de migrants)
2012 LSE MI Conference on Text-Mining Methods
22. “notion items” in English
dialect 37 variety 8 national language 4
minority language 22 mixed language 8 fusion language 4
regional language 16 IM language 7 RM language 3
vernacular 14 creole 5 Jewish language 3
state language 11 patois 4 community language 3
official language 11 stateless language 4 endangered language 3
IM: immigration minority
RM: regional minority
2012 LSE MI Conference on Text-Mining Methods