SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
A corpus-based approach to the
categorization of minority languages




                      Giancarlo Luxardo

     EEE (Europe, Européanité, Européanisation) – CNRS
         Université Michel de Montaigne Bordeaux 3
        Maison des Sciences de l'Homme d'Aquitaine
                2012 LSE MI Conference on Text-Mining Methods
1 - A text corpus about categorization of minority
languages in Europe

2 - Classification in “lexical worlds”

3 - Corpus partition and authors specificities

4 - Correspondence analysis
                  2012 LSE MI Conference on Text-Mining Methods
2012 LSE MI Conference on Text-Mining Methods
2012 LSE MI Conference on Text-Mining Methods
“regional or minority languages” means languages that are:
i) traditionally used within a given territory of a State by nationals
of that State who form a group numerically smaller than the rest of
the State's population; and
ii) different from the official language(s) of that State; it does not
include either dialects of the official language(s) of the State or the
languages of migrants;


European Charter for Regional or Minority Languages, 1992




                          2012 LSE MI Conference on Text-Mining Methods
1 - A text corpus about categorization of minority
                   languages in Europe

➔   A corpus assembled with linguistic or legal texts
➔   Information Retrieval: keywords-based navigation
➔   Intertextuality: recognize the associations
➔   Different disciplinary approaches: linguistic, geographic,
    legal...
➔   Different languages: French, English, Russian...
➔   Objective: identify a typology of notions about languages
    based on their interrelationships (not: a classification
    scheme for the languages)

                      2012 LSE MI Conference on Text-Mining Methods
Excerpt example

« Un linguiste russe, Aleksandr Kibrik, a (…) établi une liste des langues
"en voie de disparition" en ex-URSS : selon lui, prés de cent trente
langues étaient alors parlées sur ce territoire, dont certaines comme le iough
ou le kerek par deux ou trois personnes seulement. En même temps, elles ne
servent pas exactement aux mêmes choses, ne véhiculent pas les mêmes
contenus, ne régulent pas les mêmes rapports sociaux. Comment évaluer
l’importance relative de ces langues ? Certains adjectifs mal définis servent
parfois à en donner une idée : langues minoritaires, régionales, petites
langues, langues moins parlées pour les unes, langues véhiculaires,
grandes langues, langues internationales pour les autres... Mais ces
classifications sont loin d’être univoques et relèvent plus de l’idéologie ou
des rapports de force que de la science ».
Calvet, Louis-Jean. – « La guerre des langues et les chances d’un véritable
plurilinguisme » in : Langues : une guerre à mort, Panoramiques, n°48,
2000, pp.10-16 [p.12].
                          2012 LSE MI Conference on Text-Mining Methods
… another example


Once again, the stress must be on the speech network and the speech
community. We need to learn to keep our eyes on the ball and to more
often study minority and other threatened languages in situ, where
language behaviour actually and unselfconsciously lives. Of course, we
need to study authority structures, reward systems and organisations too,
as most of us have long been doing, but the balance is now too far in that
direction and some redirection of emphasis would seem to be very much
in order.
Fishman, Joshua A.. -“Endangered Minority Languages: Prospects for
Sociolinguistic Research”, In: Protecting Endangered Minority
Languages: Sociolinguistic Perspectives, International Journal on
Multicultural Societies (IJMS), Vol. 4, No. 2, 2002, UNESCO, 2002, pp.
275 [p. 274].


                         2012 LSE MI Conference on Text-Mining Methods
A sub-corpus in French: CLME
         (Catégories de Langues Minoritaires en Europe)


●   Types of sources:
    single author monographs,
    collective publication,
    journal report,
    experts report (EU)
●   Dimension:
    207 excerpts
    25 authors
    Occurrences: 23 000
    Words: 4 200
    Lemmas: 3 100

                     2012 LSE MI Conference on Text-Mining Methods
104 notions identified

1    créole                                      25   langue dominante minoritaire
2    dialecte                                    26   langue dominée
3    dialecte régional                           27   langue dominée écrite
4    idiome                                      28   langue dominée non-écrite
5    langue ancestrale                           29   langue d’origine
6    langue autochtone                           30   langue du peuple
7    langue commune                              31   langue en diaspora
8    langue de communication                     32   langue en voie de disparition
9    langue de communication interethnique       33   langue et culture locales
10    langue de diaspora                         34   langue grégaire
11    langue de la communauté                    35   langue historique
12    langue de la diaspora                      36   langue historique de l’Europe
13    langue de la dispersion                    37   langue identitaire
14    langue de l’émigration et de la diaspora   38   langue identitaire ou grégaire
15    langue de migrants                         39   langue locale
16    langue de minorité nationale               40   langue maternelle
17    langue dépourvue de territoire             41   langue menacée
18    langue des colonisés                       42   langue migrante
19    langue des immigrants                      43   langue minorée
20    langue des migrants                        44   langue minoritaire
21    langue des pays colonisés                  45   langue mixte
22    langue d’Etat                              46   langue moins parlée
23    langue d’immigration                       47   langue moins répandue
24    langue d’isolat
48   langue nationale                             77 langue véhiculaire
49   langue native                                78 langue de l’immigration
50   langue naturelle                             79 langue de population migrante
51   langue non-écrite                            80 langue de population nomade ou semi-
52   langue non-nationale                         nomade
53   langue officielle                            81 langue locale historique
54   langue périphérique                          82 langue traditionnelle
55   langue première                              83 modalité insulaire
56   langue propre                                84 parler
57   langue propre à un territoire                85 parler dialectal
58   langue régionale                             86 parler périphérique
59   langue régionale minoritaire                 87 parler vernaculaire
60   langue régionale et minoritaire              88 parler local
61   langue régionale ou minoritaire              89 parler régional
62   langue régionale ou minoritaire historique   90 patois
63   langue sans assise territoriale              91 patois local
64   langue sans Etat                             92 petite langue
65   langue seconde                               93 première langue
66   langue spécifique                            94 sabir
67   langue allogène                              95 variante dialectale
68   langue et culture régionale                  96 variante locale
69   langue immigrée                              97 variété
70   langue territoriale                          98 variété îlienne
71   langue créole                                99 variété insulaire
72   langue des minorités                         100 variété linguistique
73   langue de famille                            101 variété linguistique propre
74   langue frontalière                           102 variété régionale
75   langue pidgin                                103 variété dialectale
76   langue secondaire                            104 vernaculaire
Author variable
S. AIROLDI
S. AKIN
P. BIDART
P. BLAIR
H. BOYER
M. BRUNEAU
L.-J. CALVET
J.-F. COUROUAU
G. DRETTAS
O. DUCROT – T. TODOROV
B. GIBLIN
H. GUILLOREL
A. HERDAM
G. JETCHEV
N. KOULAYAN
J.-L. LEONARD
Y. LESPOUX
J.-B. MARCELLESI
F. ROLLAN
F. SCHANEN
S. SINTAS
A. VIAUT
J.M.WOEHRLING
Commission Européenne (Euromosaic)
                          2012 LSE MI Conference on Text-Mining Methods
2 - Classification in “lexical worlds”


●   The CLME corpus is submitted to Alceste
●   Hierarchical Descendant Classification
●   5 classes are identified
●   77 % of Elementary Context Units are classified




                     2012 LSE MI Conference on Text-Mining Methods
2012 LSE MI Conference on Text-Mining Methods
Five emergent topics


(1) catalan, enseignement, variété, propre, loi, castillan, insulaire
→ aménagement linguistique, Espagne (Sintas)
(2) territoire, traditionnel, charte, dépourvu, pratiquer, aire, article,
historique, lien, minoritaire, migrant, déclaration, géographie
→ Charte européenne des langues régionales et minoritaires
(3) dominer, peuple, exclusif, conflit, analyse, diglossie, social,
colonial, idéologie, contact, situation
→ colonisation (Boyer)
(4) défense, francophone, anglais, périphérique, petit, mondial,
supercentrale, hypercentrale, europe
→ défense de la francophonie (Calvet)
(5) dialecte, français, parlers, nation, patois, état, culture
→ dialectes (français, allemand)
                         2012 LSE MI Conference on Text-Mining Methods
CLME corpus imported with TXM




       2012 LSE MI Conference on Text-Mining Methods
3 - Corpus partition and authors specificities


●   AKIN : territoire, dépourvu, immigration, kurde
●   BOYER : sociolinguistique, diglossique, conflit, représentation,
    résistance, dominer, occitan, résistance, faveur, partager,
    inscrire
●   CALVET (articles) : droit, défense, France, francophonie,
    périphérique, défendre, PLC [politico-linguistiquement correct],
    central, réclamer, galicien, ratification, peur
●   CALVET (ouvrages) : droit, exclusif, local, dialecte, colonial,
    pays, coloniser, choisir, superstructure, libération, endogène,
    oppression, exogène
●   KOULAYAN : diaspora, maternel, origine, diasporique, natif
●   MARCELLESI : régional, référer, classe, corse, hégémonique,
    étendue, ressort, oïl
                        2012 LSE MI Conference on Text-Mining Methods
4 - Correspondence Analysis (1)




       2012 LSE MI Conference on Text-Mining Methods
Identify “notion items” in the lexical tables


dialecte               64   langue dominante                          26    langue dépourvue de territoire   7


langue régionale       35   langue régionale ou minoritaire           25    langue commune                   6


patois                 35   langue nationale                          23    langue d'origine                 6


langue minoritaire     34   langue locale                             15    langue de communication          5


langue officielle      32   langue d'Etat                             13    langue de diaspora               5


parler                 28   langue propre                             12    langue en diaspora               5


langue dominée         26   langue de migrants                        7     langue identitaire               5


langue maternelle      26                                                   petite langue                    5



                            2012 LSE MI Conference on Text-Mining Methods
Correspondence Analysis (2)




     2012 LSE MI Conference on Text-Mining Methods
Categorisation attempt

●les « territorialistes » : SINTAS, COMMISSION, VIAUT (langue
propre, langue d'Etat)
● les « identitaires » : DRETTAS, KOULAYAN, HERDAM, AKIN
(langue d'origine, langue maternelle, langue dépourvue de
territoire)
●les « politistes » : CALVET-ouvrage, BOYER, DUCROT (langue
nationale, langue dominante, langue dominée, langue locale)
● les « historiques » : BLAIR, MARCELLESI, WOEHRLING,
GUILLOREL (langue traditionnelle, langue commune, langue
régionale, langue de migrants)




                     2012 LSE MI Conference on Text-Mining Methods
“notion items” in English


dialect                       37   variety                                   8     national language     4


minority language             22   mixed language                            8     fusion language       4


regional language             16   IM language                               7     RM language           3


vernacular                    14   creole                                    5     Jewish language       3


state language                11   patois                                    4     community language    3


official language             11   stateless language                        4     endangered language   3




   IM: immigration minority
   RM: regional minority

                                   2012 LSE MI Conference on Text-Mining Methods
Thanks for listening!




 2012 LSE MI Conference on Text-Mining Methods

Más contenido relacionado

Destacado

Presentación1
Presentación1Presentación1
Presentación1josepinero
 
Actividad 3_ Liliana Romero
Actividad 3_ Liliana RomeroActividad 3_ Liliana Romero
Actividad 3_ Liliana Romerolilianaroav
 
Apresentacao alertas
Apresentacao alertasApresentacao alertas
Apresentacao alertasAna Tavares
 
Apresentação do mestrado em empreendedorismo
Apresentação do mestrado em empreendedorismoApresentação do mestrado em empreendedorismo
Apresentação do mestrado em empreendedorismoFernando Gaspar
 
Tarea 3
Tarea 3Tarea 3
Tarea 3emaut
 
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียนศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียนArrat Krupeach
 
Progeria
ProgeriaProgeria
Progeriakizz452
 
A Midia Que Mais Cresce
A Midia Que Mais CresceA Midia Que Mais Cresce
A Midia Que Mais CresceUOL
 
techos verdes
techos verdes techos verdes
techos verdes Alan Mora
 
Marketing no Mercado Imobiliário
Marketing no Mercado ImobiliárioMarketing no Mercado Imobiliário
Marketing no Mercado ImobiliárioMarketingImob
 
Talespraak lesson 8
Talespraak lesson 8Talespraak lesson 8
Talespraak lesson 8Haibiao Miao
 
Powerpoint til infoskaerm final
Powerpoint til infoskaerm finalPowerpoint til infoskaerm final
Powerpoint til infoskaerm finalpalving
 
Porfolio del curso Artes Gráficas Digitales. Primera edición
Porfolio del curso Artes Gráficas Digitales. Primera ediciónPorfolio del curso Artes Gráficas Digitales. Primera edición
Porfolio del curso Artes Gráficas Digitales. Primera ediciónnoeliacampos
 
IAB DIGITAL MORNING
IAB DIGITAL MORNINGIAB DIGITAL MORNING
IAB DIGITAL MORNINGEdvaldo Acir
 

Destacado (20)

Alho E Azeite
Alho E AzeiteAlho E Azeite
Alho E Azeite
 
India
IndiaIndia
India
 
Presentación1
Presentación1Presentación1
Presentación1
 
Internet segura
Internet seguraInternet segura
Internet segura
 
Actividad 3_ Liliana Romero
Actividad 3_ Liliana RomeroActividad 3_ Liliana Romero
Actividad 3_ Liliana Romero
 
Apresentacao alertas
Apresentacao alertasApresentacao alertas
Apresentacao alertas
 
Apresentação do mestrado em empreendedorismo
Apresentação do mestrado em empreendedorismoApresentação do mestrado em empreendedorismo
Apresentação do mestrado em empreendedorismo
 
Tarea 3
Tarea 3Tarea 3
Tarea 3
 
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียนศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
ศิลปะการวาดภาพงานสวนพฤกษศาสตร์โรงเรียน
 
ApresentaçãO Aula 72
ApresentaçãO Aula 72ApresentaçãO Aula 72
ApresentaçãO Aula 72
 
Progeria
ProgeriaProgeria
Progeria
 
Ottaviocautilli
OttaviocautilliOttaviocautilli
Ottaviocautilli
 
A Midia Que Mais Cresce
A Midia Que Mais CresceA Midia Que Mais Cresce
A Midia Que Mais Cresce
 
techos verdes
techos verdes techos verdes
techos verdes
 
Marketing no Mercado Imobiliário
Marketing no Mercado ImobiliárioMarketing no Mercado Imobiliário
Marketing no Mercado Imobiliário
 
Talespraak lesson 8
Talespraak lesson 8Talespraak lesson 8
Talespraak lesson 8
 
Powerpoint til infoskaerm final
Powerpoint til infoskaerm finalPowerpoint til infoskaerm final
Powerpoint til infoskaerm final
 
Porfolio del curso Artes Gráficas Digitales. Primera edición
Porfolio del curso Artes Gráficas Digitales. Primera ediciónPorfolio del curso Artes Gráficas Digitales. Primera edición
Porfolio del curso Artes Gráficas Digitales. Primera edición
 
27dicas
27dicas27dicas
27dicas
 
IAB DIGITAL MORNING
IAB DIGITAL MORNINGIAB DIGITAL MORNING
IAB DIGITAL MORNING
 

Similar a Languages lse

Lacommunautlinguistique 110206132613-phpapp02
Lacommunautlinguistique 110206132613-phpapp02Lacommunautlinguistique 110206132613-phpapp02
Lacommunautlinguistique 110206132613-phpapp02AGELLID Bucama
 
La communauté linguistique
La communauté linguistiqueLa communauté linguistique
La communauté linguistiqueNajlaa Zouaoui
 
Inuit tourisme langue
Inuit tourisme langueInuit tourisme langue
Inuit tourisme langueIoanaDolcos
 
Comment sauver les langues régionales de France ?
Comment sauver les langues régionales de France ?Comment sauver les langues régionales de France ?
Comment sauver les langues régionales de France ?MichelFeltinPalas
 
Insecurite 090416061237-phpapp02
Insecurite 090416061237-phpapp02Insecurite 090416061237-phpapp02
Insecurite 090416061237-phpapp02AGELLID Bucama
 
DALF C1 CIEP C
DALF C1 CIEP CDALF C1 CIEP C
DALF C1 CIEP Cmasperez
 
Journee Internationale De La Francophonie
Journee Internationale De La FrancophonieJournee Internationale De La Francophonie
Journee Internationale De La Francophonieguestab03e8
 
La Dialectologie Power
La Dialectologie PowerLa Dialectologie Power
La Dialectologie Powerguest4e68fd8
 
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...AGELLID Bucama
 
Dictionnaire des racines berberes communes Mohand Akli Haddadou
Dictionnaire des racines berberes communes Mohand Akli HaddadouDictionnaire des racines berberes communes Mohand Akli Haddadou
Dictionnaire des racines berberes communes Mohand Akli HaddadouAbdelhalim Benazzouz
 
Planification ling au maroc
Planification ling au marocPlanification ling au maroc
Planification ling au marocHafsa I'Hajar
 
Intercomprehension des langues romanes_ACampà
Intercomprehension des langues romanes_ACampàIntercomprehension des langues romanes_ACampà
Intercomprehension des langues romanes_ACampàclamuraller
 
L’évolution de la langue (Le Creole de Maurice)
L’évolution de la langue (Le Creole de Maurice)L’évolution de la langue (Le Creole de Maurice)
L’évolution de la langue (Le Creole de Maurice)Farah El Eshraky
 
Grammaire de l'amazigh : du mot à la phrase
Grammaire de l'amazigh : du mot à la phrase Grammaire de l'amazigh : du mot à la phrase
Grammaire de l'amazigh : du mot à la phrase ahmed bououd
 

Similar a Languages lse (20)

Lacommunautlinguistique 110206132613-phpapp02
Lacommunautlinguistique 110206132613-phpapp02Lacommunautlinguistique 110206132613-phpapp02
Lacommunautlinguistique 110206132613-phpapp02
 
La communauté linguistique
La communauté linguistiqueLa communauté linguistique
La communauté linguistique
 
Inuit tourisme langue
Inuit tourisme langueInuit tourisme langue
Inuit tourisme langue
 
Géographie des langues
Géographie des languesGéographie des langues
Géographie des langues
 
Sociologie des langues
Sociologie des languesSociologie des langues
Sociologie des langues
 
Sociologie des langues
Sociologie des languesSociologie des langues
Sociologie des langues
 
Comment sauver les langues régionales de France ?
Comment sauver les langues régionales de France ?Comment sauver les langues régionales de France ?
Comment sauver les langues régionales de France ?
 
Insecurite 090416061237-phpapp02
Insecurite 090416061237-phpapp02Insecurite 090416061237-phpapp02
Insecurite 090416061237-phpapp02
 
DALF C1 CIEP C
DALF C1 CIEP CDALF C1 CIEP C
DALF C1 CIEP C
 
L'espagnol, fiche d'identité
L'espagnol, fiche d'identitéL'espagnol, fiche d'identité
L'espagnol, fiche d'identité
 
Journee Internationale De La Francophonie
Journee Internationale De La FrancophonieJournee Internationale De La Francophonie
Journee Internationale De La Francophonie
 
La Dialectologie Power
La Dialectologie PowerLa Dialectologie Power
La Dialectologie Power
 
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
132613614 la-situation-linguistique-dans-le-massif-central-de-l’aures-these-d...
 
Dictionnaire des racines berberes communes Mohand Akli Haddadou
Dictionnaire des racines berberes communes Mohand Akli HaddadouDictionnaire des racines berberes communes Mohand Akli Haddadou
Dictionnaire des racines berberes communes Mohand Akli Haddadou
 
Jel2009
Jel2009Jel2009
Jel2009
 
Planification ling au maroc
Planification ling au marocPlanification ling au maroc
Planification ling au maroc
 
Intercomprehension des langues romanes_ACampà
Intercomprehension des langues romanes_ACampàIntercomprehension des langues romanes_ACampà
Intercomprehension des langues romanes_ACampà
 
L’évolution de la langue (Le Creole de Maurice)
L’évolution de la langue (Le Creole de Maurice)L’évolution de la langue (Le Creole de Maurice)
L’évolution de la langue (Le Creole de Maurice)
 
Grammaire de l'amazigh : du mot à la phrase
Grammaire de l'amazigh : du mot à la phrase Grammaire de l'amazigh : du mot à la phrase
Grammaire de l'amazigh : du mot à la phrase
 
Chapitre 4 gumperz
Chapitre 4 gumperzChapitre 4 gumperz
Chapitre 4 gumperz
 

Languages lse

  • 1. A corpus-based approach to the categorization of minority languages Giancarlo Luxardo EEE (Europe, Européanité, Européanisation) – CNRS Université Michel de Montaigne Bordeaux 3 Maison des Sciences de l'Homme d'Aquitaine 2012 LSE MI Conference on Text-Mining Methods
  • 2. 1 - A text corpus about categorization of minority languages in Europe 2 - Classification in “lexical worlds” 3 - Corpus partition and authors specificities 4 - Correspondence analysis 2012 LSE MI Conference on Text-Mining Methods
  • 3. 2012 LSE MI Conference on Text-Mining Methods
  • 4. 2012 LSE MI Conference on Text-Mining Methods
  • 5. “regional or minority languages” means languages that are: i) traditionally used within a given territory of a State by nationals of that State who form a group numerically smaller than the rest of the State's population; and ii) different from the official language(s) of that State; it does not include either dialects of the official language(s) of the State or the languages of migrants; European Charter for Regional or Minority Languages, 1992 2012 LSE MI Conference on Text-Mining Methods
  • 6. 1 - A text corpus about categorization of minority languages in Europe ➔ A corpus assembled with linguistic or legal texts ➔ Information Retrieval: keywords-based navigation ➔ Intertextuality: recognize the associations ➔ Different disciplinary approaches: linguistic, geographic, legal... ➔ Different languages: French, English, Russian... ➔ Objective: identify a typology of notions about languages based on their interrelationships (not: a classification scheme for the languages) 2012 LSE MI Conference on Text-Mining Methods
  • 7. Excerpt example « Un linguiste russe, Aleksandr Kibrik, a (…) établi une liste des langues "en voie de disparition" en ex-URSS : selon lui, prés de cent trente langues étaient alors parlées sur ce territoire, dont certaines comme le iough ou le kerek par deux ou trois personnes seulement. En même temps, elles ne servent pas exactement aux mêmes choses, ne véhiculent pas les mêmes contenus, ne régulent pas les mêmes rapports sociaux. Comment évaluer l’importance relative de ces langues ? Certains adjectifs mal définis servent parfois à en donner une idée : langues minoritaires, régionales, petites langues, langues moins parlées pour les unes, langues véhiculaires, grandes langues, langues internationales pour les autres... Mais ces classifications sont loin d’être univoques et relèvent plus de l’idéologie ou des rapports de force que de la science ». Calvet, Louis-Jean. – « La guerre des langues et les chances d’un véritable plurilinguisme » in : Langues : une guerre à mort, Panoramiques, n°48, 2000, pp.10-16 [p.12]. 2012 LSE MI Conference on Text-Mining Methods
  • 8. … another example Once again, the stress must be on the speech network and the speech community. We need to learn to keep our eyes on the ball and to more often study minority and other threatened languages in situ, where language behaviour actually and unselfconsciously lives. Of course, we need to study authority structures, reward systems and organisations too, as most of us have long been doing, but the balance is now too far in that direction and some redirection of emphasis would seem to be very much in order. Fishman, Joshua A.. -“Endangered Minority Languages: Prospects for Sociolinguistic Research”, In: Protecting Endangered Minority Languages: Sociolinguistic Perspectives, International Journal on Multicultural Societies (IJMS), Vol. 4, No. 2, 2002, UNESCO, 2002, pp. 275 [p. 274]. 2012 LSE MI Conference on Text-Mining Methods
  • 9. A sub-corpus in French: CLME (Catégories de Langues Minoritaires en Europe) ● Types of sources: single author monographs, collective publication, journal report, experts report (EU) ● Dimension: 207 excerpts 25 authors Occurrences: 23 000 Words: 4 200 Lemmas: 3 100 2012 LSE MI Conference on Text-Mining Methods
  • 10. 104 notions identified 1 créole 25 langue dominante minoritaire 2 dialecte 26 langue dominée 3 dialecte régional 27 langue dominée écrite 4 idiome 28 langue dominée non-écrite 5 langue ancestrale 29 langue d’origine 6 langue autochtone 30 langue du peuple 7 langue commune 31 langue en diaspora 8 langue de communication 32 langue en voie de disparition 9 langue de communication interethnique 33 langue et culture locales 10 langue de diaspora 34 langue grégaire 11 langue de la communauté 35 langue historique 12 langue de la diaspora 36 langue historique de l’Europe 13 langue de la dispersion 37 langue identitaire 14 langue de l’émigration et de la diaspora 38 langue identitaire ou grégaire 15 langue de migrants 39 langue locale 16 langue de minorité nationale 40 langue maternelle 17 langue dépourvue de territoire 41 langue menacée 18 langue des colonisés 42 langue migrante 19 langue des immigrants 43 langue minorée 20 langue des migrants 44 langue minoritaire 21 langue des pays colonisés 45 langue mixte 22 langue d’Etat 46 langue moins parlée 23 langue d’immigration 47 langue moins répandue 24 langue d’isolat
  • 11. 48 langue nationale 77 langue véhiculaire 49 langue native 78 langue de l’immigration 50 langue naturelle 79 langue de population migrante 51 langue non-écrite 80 langue de population nomade ou semi- 52 langue non-nationale nomade 53 langue officielle 81 langue locale historique 54 langue périphérique 82 langue traditionnelle 55 langue première 83 modalité insulaire 56 langue propre 84 parler 57 langue propre à un territoire 85 parler dialectal 58 langue régionale 86 parler périphérique 59 langue régionale minoritaire 87 parler vernaculaire 60 langue régionale et minoritaire 88 parler local 61 langue régionale ou minoritaire 89 parler régional 62 langue régionale ou minoritaire historique 90 patois 63 langue sans assise territoriale 91 patois local 64 langue sans Etat 92 petite langue 65 langue seconde 93 première langue 66 langue spécifique 94 sabir 67 langue allogène 95 variante dialectale 68 langue et culture régionale 96 variante locale 69 langue immigrée 97 variété 70 langue territoriale 98 variété îlienne 71 langue créole 99 variété insulaire 72 langue des minorités 100 variété linguistique 73 langue de famille 101 variété linguistique propre 74 langue frontalière 102 variété régionale 75 langue pidgin 103 variété dialectale 76 langue secondaire 104 vernaculaire
  • 12. Author variable S. AIROLDI S. AKIN P. BIDART P. BLAIR H. BOYER M. BRUNEAU L.-J. CALVET J.-F. COUROUAU G. DRETTAS O. DUCROT – T. TODOROV B. GIBLIN H. GUILLOREL A. HERDAM G. JETCHEV N. KOULAYAN J.-L. LEONARD Y. LESPOUX J.-B. MARCELLESI F. ROLLAN F. SCHANEN S. SINTAS A. VIAUT J.M.WOEHRLING Commission Européenne (Euromosaic) 2012 LSE MI Conference on Text-Mining Methods
  • 13. 2 - Classification in “lexical worlds” ● The CLME corpus is submitted to Alceste ● Hierarchical Descendant Classification ● 5 classes are identified ● 77 % of Elementary Context Units are classified 2012 LSE MI Conference on Text-Mining Methods
  • 14. 2012 LSE MI Conference on Text-Mining Methods
  • 15. Five emergent topics (1) catalan, enseignement, variété, propre, loi, castillan, insulaire → aménagement linguistique, Espagne (Sintas) (2) territoire, traditionnel, charte, dépourvu, pratiquer, aire, article, historique, lien, minoritaire, migrant, déclaration, géographie → Charte européenne des langues régionales et minoritaires (3) dominer, peuple, exclusif, conflit, analyse, diglossie, social, colonial, idéologie, contact, situation → colonisation (Boyer) (4) défense, francophone, anglais, périphérique, petit, mondial, supercentrale, hypercentrale, europe → défense de la francophonie (Calvet) (5) dialecte, français, parlers, nation, patois, état, culture → dialectes (français, allemand) 2012 LSE MI Conference on Text-Mining Methods
  • 16. CLME corpus imported with TXM 2012 LSE MI Conference on Text-Mining Methods
  • 17. 3 - Corpus partition and authors specificities ● AKIN : territoire, dépourvu, immigration, kurde ● BOYER : sociolinguistique, diglossique, conflit, représentation, résistance, dominer, occitan, résistance, faveur, partager, inscrire ● CALVET (articles) : droit, défense, France, francophonie, périphérique, défendre, PLC [politico-linguistiquement correct], central, réclamer, galicien, ratification, peur ● CALVET (ouvrages) : droit, exclusif, local, dialecte, colonial, pays, coloniser, choisir, superstructure, libération, endogène, oppression, exogène ● KOULAYAN : diaspora, maternel, origine, diasporique, natif ● MARCELLESI : régional, référer, classe, corse, hégémonique, étendue, ressort, oïl 2012 LSE MI Conference on Text-Mining Methods
  • 18. 4 - Correspondence Analysis (1) 2012 LSE MI Conference on Text-Mining Methods
  • 19. Identify “notion items” in the lexical tables dialecte 64 langue dominante 26 langue dépourvue de territoire 7 langue régionale 35 langue régionale ou minoritaire 25 langue commune 6 patois 35 langue nationale 23 langue d'origine 6 langue minoritaire 34 langue locale 15 langue de communication 5 langue officielle 32 langue d'Etat 13 langue de diaspora 5 parler 28 langue propre 12 langue en diaspora 5 langue dominée 26 langue de migrants 7 langue identitaire 5 langue maternelle 26 petite langue 5 2012 LSE MI Conference on Text-Mining Methods
  • 20. Correspondence Analysis (2) 2012 LSE MI Conference on Text-Mining Methods
  • 21. Categorisation attempt ●les « territorialistes » : SINTAS, COMMISSION, VIAUT (langue propre, langue d'Etat) ● les « identitaires » : DRETTAS, KOULAYAN, HERDAM, AKIN (langue d'origine, langue maternelle, langue dépourvue de territoire) ●les « politistes » : CALVET-ouvrage, BOYER, DUCROT (langue nationale, langue dominante, langue dominée, langue locale) ● les « historiques » : BLAIR, MARCELLESI, WOEHRLING, GUILLOREL (langue traditionnelle, langue commune, langue régionale, langue de migrants) 2012 LSE MI Conference on Text-Mining Methods
  • 22. “notion items” in English dialect 37 variety 8 national language 4 minority language 22 mixed language 8 fusion language 4 regional language 16 IM language 7 RM language 3 vernacular 14 creole 5 Jewish language 3 state language 11 patois 4 community language 3 official language 11 stateless language 4 endangered language 3 IM: immigration minority RM: regional minority 2012 LSE MI Conference on Text-Mining Methods
  • 23. Thanks for listening! 2012 LSE MI Conference on Text-Mining Methods