SlideShare una empresa de Scribd logo
1 de 57
séminaire "Recherches linguistiques et corpus"
STIH de l’Université Paris-Sorbonne
mercredi 8 avril 2015
Thierry Chanier
LETEC
Mulce
2
3
(Liégeois, 2014)
5
6
7
8
Collecte
des données
Contrats de
consentement
éclairé
ou
Licence d'utilisation
sur données récoltées
Anonymisation
- Préserver informations
essentielles
- Identifier utilisateur sur
toute la banque de corpus
Poser licence
d'utilisation
9
Corpus PFC, 15 ans d'études
10
Loic Liegeois (2014).
Usage des variables phonologiques
dans un corpus d'interactions
naturelles parents-enfant : impact du
bain linguistique et dispositifs cognitifs
d'apprentissage.
Humanities and Social Sciences.
Clermont Ferrand 2. French.
<tel-01108764>
http://tel.archives-ouvertes.fr/tel-01108764
11
12
13
Acquisition de la liaison
• Objet d’un débat entre une approche constructionniste,
« basée sur l’usage » (Dugua, 2006 ; Chevrot et al.,
2007 ; Chevrot et al., 2009) et une approche « basée
sur des principes abstraits » (Wauquier-Gravelines et
Braud, 2005).
• Divergence théorique, accord sur les faits observés et
relevés dans des études de corpus.
Modèles d’acquisition de la liaison
14
Annotation Contexte Exemple
A Dét - N Un ours
B Pro - V Ils aiment
C Expression figée Tout à l'heure
D V - Pro Prends-en
E Adj - N Petit oiseau
F N(pluriel) - X Des pommes et …
G Avoir - X Ils ont appris
H Être - X C'est un
I V - X Prends un verre
J Inv - X Pas appris
P « Poubelle » En orange
Z Hors contexte Le -n- âne
Annotation des données
Liaisons
catégoriques
Liaisons
variables
Acquisition de la liaison variable et catégorique : ce que nous apprend le DAE
15
 Répartition des
adresses équivalente
chez les parents de
Prune et de Salomé.
 Dominance des
énoncés adressés à
l'enfant.
 Nombre suffisant des
deux types d'énoncé
pour pouvoir les
comparer.0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Prune Salomé
Adressé à tous
Adressé à
l'enfant
Adressé à
l'adulte
Distribution des contextes de liaison dans
les corpus (chez les parents)
16
La liaison variable : analyse à partir des mots1 après
lesquels la liaison est réalisée au moins une fois.
17.30%
19.60%
29% 28.20%
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
Prune Salomé
Discours adressé à
l'adulte
Discours adressé à
l'enfant
17
Le schwa
Une voyelle pouvant alterner avec zéro dans un
même contexte lexical en fonction de différents
critères.
Cinq contextes d’apparition :
monosyllabe,
syllabe interne d'un polysyllabe
première ou la dernière syllabe d'un polysyllabe et
dans la métathèse.
Taux d’élision en DAA et DAE en FrL1
Parents
Temps de recueil
et âge de l’enfant
Taux d’élision en
DAA
Taux d’élision en
DAE
χ² P
Parents de
Baptiste
T1 : 2;4 ans
65,1% 31,7%
Chi2=75.9812 p<0,0001
T2 : 3;0 ans
49,4% 34,2%
Chi2=21.8028 p<0,0001
Parents de Salomé
T1 : 3;0 ans
62,1% 37,0%
Chi2=95.0865 p<0,0001
T2 : 3;7 ans
58,2% 56,1%
Chi2=0 p>0,05
Parents de Prune
T1 : 3;4 ans
67,8% 31,6%
Chi2=95.0865 p<0,0001
T2 : 4;0 ans
50,0% 51,2%
Chi2=0 p>0,05
65.1%
49.4%
62.1%
58.2%
67.8%
50.0%
31.7%
34.2% 37.0%
56.1%
31.6%
51.2%
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
T1 T2 T1 T2 T1 T2
Parents de Baptiste Parents de Salomé Parents de Prune
DAA
DAE
Élision chez l’enfant et développement
linguistique
9.2% 10.8%
44.2%
19.1%
44.9%
51.9%
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
Baptiste Salomé Prune
T1
T2
Enfant
Temps de recueil
et âge de l’enfant
Taux d’élision χ² P
Salomé
T1 : 2;4 ans 10,81%
χ² = 216.0006 P<0,0001
T2 : 3;0 ans 44,91%
Baptiste
T1 : 3;0 ans 9,2%
χ² = 6.7688 P<0,01
T2 : 3;7 ans 19,02%
Prune T1 : 3;4 ans 44,19%
χ² = 7.3637 P<0,01
Enfant T2 : 4;0 ans 51,9%
Élision en DAE en FrL1
Les parents tendent à davantage maintenir le schwa
lorsqu’ils s’adressent à leur enfant et ajustent leur
production en fonction des performances de celui-
ci.
Chez les parents de Salomé et Prune, au T2, plus
de différence significative DAA/DAE. Au T2,
Salomé et Prune élident le schwa dans des
proportions proches de celles des adultes.
L’élision du schwa en DAE est modulée selon le
développement linguistique de l’enfant.
22
• Corpus audio d’interactions parents-enfant recueillis en
situation naturelle (bain, jeu, repas…).
• Deux temps (voire 3) d’enregistrement afin d’observer la
vitesse et la qualité de l’acquisition de la variation
phonologique.
• Enregistrement audio géré par les parents :
• méthode peu intrusive : le chercheur n’est pas présent au domicile
familial,
• méthode qui demande peu d’intervention des parents.
• Nouvelles collectes, après réutilisation d'un corpus (mal
structuré) venant d'une ANR
• Recherche de parents, contrat de consentement éclairé)
Constitution et diffusion du corpus ALIPE
24
Avant, projet ANR Phonlex
Réalisées par Loic seul
25
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme de conversion
26
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme de conversion
27
Format XML-ALIPE
Programme de conversion
Format CHAT
Format CHAT-XML
Format XML-TEI
Conversion via le Chatter
Programme de conversion
28
Vocabulaires contrôlés
TEI > Métadonnées > Acteurs
29
<w>mais</w>
<w>la</w>
<w>politique</w>
<w>à</w>
<fs type="anonymisation">
<f name="Identity" fVal=”Place"/>
<f name="Original"
fVal=”PlaceName"/>
</fs>
<w>[_Lieu-de-travail-de-mot-Prune_]</w>
<w>c'est</w>
Transcription
Métadonnées
Métadonnées
TEI > Métadonnées > Anonymisation
30
<w>elle</w>
<w>a</w>
<w>pas</w>
<w>de</w>
<fs type="liaison">
<f name="Word1" fVal="de"/>
<f name="Word2" fVal="oreilles"/>
<f name="SynctacticContext" fVal="Z"/>
<f name="ExpectedConsonnant" fVal="o"/>
<f name="ProducedConsonnant" fVal="z"/>
<f name="ObligatoryOptional" fVal="2"/>
</fs>
<w>oreilles</w>
Transcription Métadonnées
Possibilité de futures annotations de part l’extensivité du format
31
32
Zip pour corpus distinguable :
- Transcription TEI
- Transcription avec
alignement CLAN : CHAT
- Fichier audio
- Fiche descriptive HTML
http://lrl-diffusion.univ-bpclermont.fr/alipe/
Base de corpus en ligne
33
Affichage « simplifié » des transcriptions
généré à partir du fichier XML-TEI :
- Affichage des liaisons
- Affichage des évènements para-
et extralinguistique
Lecture en ligne (streaming) des fichiers
audio téléchargeables
34
http://hdl.handle.net/11041/alipe-000853
35
Ciara R. Wigham (2012). The interplay
between nonverbal and verbal
interaction in synthetic worlds
which supports verbal participation
and production in a foreign language..
Linguistics. Université Blaise Pascal -
Clermont-Ferrand II. English. <tel-
00762382v2>
http://tel.archives-ouvertes.fr/tel-
00762382
36
Interplay nonverbal & verbal
• 1A: During a collaborative building activity, are
nonverbal acts autonomous in the synthetic world or
does interplay exist between the nonverbal and verbal
modes?
Analyses 37
Characterisation of SL modalities
Methodology 38
• Literature review of classifications of nonverbal mode
used in SLA & CSCW domains
• Classification of verbal & nonverbal modalities in Second
Life
• Elaboration of transcription methodology
Interplay textchat & voicechat
• 3D: Can the textchat serve for L2 feedback
provision?
Analyses 39
An example of modality interplay 40
European project with architects: course Environments
face-
to-face
distance
VoiceForum Second Life
Paris Malaquais
UBP Language
tutor
UBP Language
tutor
ENSAPM Architecture teachers
ENSAPM
Architecture
teachers
UBP Language
tutors
4 workgroups
GA, GE, GL, GS
Presentation
environment
Research protocol
Methodology 42
Design
Data
collection
Data
organisation
Post research
Data collection and coverage
Data
collected
Pre-
questionnaires
Session data Post
questionnaires
Semi-
directive
interviews
Environ
ment
Kwiksurveys Second Life VoiceForum Kwiksurveys Skype
Data type Spreadsheet
file
Video screen
captures
Audio
recordings
Spreadsheet file Audio
recordings
Quantity
&
coverage
of data
17 student
questionnaires
20 group
sessions & 2
presentation
sessions
19h40m
64 forum
messages
16 student
questionnaires
5 student
interviews
2h30
Multimodal
Transcription
7 sessions
5h15m
2238 verbal
2659 nonverbal
Methodology 43
pre-course post-courseduring course
Multimodal transcription using ELAN
video screen
capture
multimodal transcription
aligned using timeline
participants
& modality
view of annotations
for one participant in
one modality
Max Planck Institute for Psycholinguistics (2001). ELAN [software]. The Netherlands:
Max Planck Institute for Psycholinguistics. [http://www.lat-mpi.eu/tools/elan/]
44
Aperçu du
code de
transcription
pour non
verbal
45
An example of modality interplay 46
Annotations du chercheur
47
Un type de corpus défini dans projet MULCE
précédent : corpus d’apprentissage LETEC
Instantiation
Pedagogical
scenario
Research
protocol
Public
licence
Private
licence
Analyses
C
o
n
t
e
x
t
48
"A LETEC corpus collects in a systematic and structured way all the data from
interactions which occur during a course which is partially or entirely online.
These data are enriched by technical, pedagogical and scientific information as well as
information about the participants and are organized to allow contextualized
analyses to be performed.“ (Mulce-documentation, 2013)
ethics &
rights
Organisation des données dans LETEC
49
50
Simuligne
(2001)
UK-FR
fre
Copéas
(2005)
eng
UK-FR
Tridem
(2005-06)
UK-FR-USA
eng, fre
Ecofralin
(2008)
CO-FR
fre,spa
VMT-
teamC
(2006)
math
UK-USA-SG
INFRAL
(2009)
deu,fra
DE-FR
FR
FAVI
(2006-08)
fra
ARCHI21
(2011)
eng,fra
FR
SLIC
(2013)
USA-FR
fra
http://mulce.org http://repository.mulce.org
Nouveaux corpus
apportés par
chercheur(se)
51
52
Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from the Internet. These
heterogeneous corpora will be structured and processed in a uniform way,
complemented with metadata. CoMeRe will be released as OpenData
through the national infrastructure Ortolang, following constraints which will
be reused for the forthcoming “Corpus de Référence du Français”.
Project supported by the national
consortium Corpus-écrits, sub-part of
Huma-Num, and Ortolang
Variety + Standards + Open Access
Consortium Corpus-écrits
http://comere.org
http://hdl.handle.net/11403/comere
54
55
New macro-level elements
56
57

Más contenido relacionado

Similar a (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 FlesLintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 FlesJean-Pierre Chavagne
 
NP 25964, Future norme sur les thésaurus
NP 25964, Future norme sur les thésaurusNP 25964, Future norme sur les thésaurus
NP 25964, Future norme sur les thésaurusSylvie Dalbin
 
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...Thierry Chanier
 
Utilisation et efficacité de l'input audiovisuel pour l'apprentissage du voca...
Utilisation et efficacité de l'input audiovisuel pour l'apprentissage du voca...Utilisation et efficacité de l'input audiovisuel pour l'apprentissage du voca...
Utilisation et efficacité de l'input audiovisuel pour l'apprentissage du voca...Pascal Balancier
 
Ph Anckaert - Quels outils numeriques pourl'apprentissage des langues
Ph Anckaert - Quels outils numeriques pourl'apprentissage des languesPh Anckaert - Quels outils numeriques pourl'apprentissage des langues
Ph Anckaert - Quels outils numeriques pourl'apprentissage des languesSynhera
 
Former en phonétique corrective par des ressources numériques en ligne
Former en phonétique corrective par des ressources numériques en ligneFormer en phonétique corrective par des ressources numériques en ligne
Former en phonétique corrective par des ressources numériques en ligneMichel Billières
 
Comment intégrer les termino-ontologies de santé dans le web des données / Ju...
Comment intégrer les termino-ontologies de santé dans le web des données / Ju...Comment intégrer les termino-ontologies de santé dans le web des données / Ju...
Comment intégrer les termino-ontologies de santé dans le web des données / Ju...pwod
 
Le projet EcoOnto - avancees.
Le projet EcoOnto  - avancees.Le projet EcoOnto  - avancees.
Le projet EcoOnto - avancees.jchabalier
 
Oif atelier rel - moncton 4-8.02.13
Oif atelier rel - moncton 4-8.02.13Oif atelier rel - moncton 4-8.02.13
Oif atelier rel - moncton 4-8.02.13Gilbert Paquette
 
Une nouvelle norme pour le thésaurus (1) : Pourquoi une nouvelle norme ?
Une nouvelle norme pour le thésaurus (1) : Pourquoi une nouvelle norme ?Une nouvelle norme pour le thésaurus (1) : Pourquoi une nouvelle norme ?
Une nouvelle norme pour le thésaurus (1) : Pourquoi une nouvelle norme ?ADBS
 
Les nouvelles habitudes d’apprentissage des langues en ligne
Les nouvelles habitudes d’apprentissage des langues en ligneLes nouvelles habitudes d’apprentissage des langues en ligne
Les nouvelles habitudes d’apprentissage des langues en ligneAnna Vetter
 
Collaborations niçoises : L2 studies
Collaborations niçoises : L2 studiesCollaborations niçoises : L2 studies
Collaborations niçoises : L2 studiesShona Whyte
 
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...Mokhtar Ben Henda
 
09h00 intro programme remerciements
09h00 intro programme remerciements09h00 intro programme remerciements
09h00 intro programme remerciementsAssociationAF
 
Intégrer un podcast dans son cours - Pourquoi et comment ?
Intégrer un podcast dans son cours - Pourquoi et comment ? Intégrer un podcast dans son cours - Pourquoi et comment ?
Intégrer un podcast dans son cours - Pourquoi et comment ? SylvianeBachy
 
Des expériences simples autour du langage
Des expériences simples autour du langageDes expériences simples autour du langage
Des expériences simples autour du langageEric De la Clergerie
 
Pensée et raisonnements dans les discussions philosophique pour enfants
Pensée et raisonnements dans les discussions philosophique pour enfantsPensée et raisonnements dans les discussions philosophique pour enfants
Pensée et raisonnements dans les discussions philosophique pour enfantsGabriela Fiema, Ph.D.
 
Appel ã  communication cmlf 2014
Appel ã  communication cmlf 2014Appel ã  communication cmlf 2014
Appel ã  communication cmlf 2014lhriba
 

Similar a (co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ? (20)

LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 FlesLintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
LintercompréHension Pour Se Comprendre Tout De Suite 2010 M2 Fles
 
NP 25964, Future norme sur les thésaurus
NP 25964, Future norme sur les thésaurusNP 25964, Future norme sur les thésaurus
NP 25964, Future norme sur les thésaurus
 
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
 
Utilisation et efficacité de l'input audiovisuel pour l'apprentissage du voca...
Utilisation et efficacité de l'input audiovisuel pour l'apprentissage du voca...Utilisation et efficacité de l'input audiovisuel pour l'apprentissage du voca...
Utilisation et efficacité de l'input audiovisuel pour l'apprentissage du voca...
 
Ph Anckaert - Quels outils numeriques pourl'apprentissage des langues
Ph Anckaert - Quels outils numeriques pourl'apprentissage des languesPh Anckaert - Quels outils numeriques pourl'apprentissage des langues
Ph Anckaert - Quels outils numeriques pourl'apprentissage des langues
 
Former en phonétique corrective par des ressources numériques en ligne
Former en phonétique corrective par des ressources numériques en ligneFormer en phonétique corrective par des ressources numériques en ligne
Former en phonétique corrective par des ressources numériques en ligne
 
Comment intégrer les termino-ontologies de santé dans le web des données / Ju...
Comment intégrer les termino-ontologies de santé dans le web des données / Ju...Comment intégrer les termino-ontologies de santé dans le web des données / Ju...
Comment intégrer les termino-ontologies de santé dans le web des données / Ju...
 
Le projet EcoOnto - avancees.
Le projet EcoOnto  - avancees.Le projet EcoOnto  - avancees.
Le projet EcoOnto - avancees.
 
Oif atelier rel - moncton 4-8.02.13
Oif atelier rel - moncton 4-8.02.13Oif atelier rel - moncton 4-8.02.13
Oif atelier rel - moncton 4-8.02.13
 
Linguamón Meilleures Pratiques
Linguamón Meilleures PratiquesLinguamón Meilleures Pratiques
Linguamón Meilleures Pratiques
 
Une nouvelle norme pour le thésaurus (1) : Pourquoi une nouvelle norme ?
Une nouvelle norme pour le thésaurus (1) : Pourquoi une nouvelle norme ?Une nouvelle norme pour le thésaurus (1) : Pourquoi une nouvelle norme ?
Une nouvelle norme pour le thésaurus (1) : Pourquoi une nouvelle norme ?
 
Les nouvelles habitudes d’apprentissage des langues en ligne
Les nouvelles habitudes d’apprentissage des langues en ligneLes nouvelles habitudes d’apprentissage des langues en ligne
Les nouvelles habitudes d’apprentissage des langues en ligne
 
Collaborations niçoises : L2 studies
Collaborations niçoises : L2 studiesCollaborations niçoises : L2 studies
Collaborations niçoises : L2 studies
 
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
 
09h00 intro programme remerciements
09h00 intro programme remerciements09h00 intro programme remerciements
09h00 intro programme remerciements
 
Intégrer un podcast dans son cours - Pourquoi et comment ?
Intégrer un podcast dans son cours - Pourquoi et comment ? Intégrer un podcast dans son cours - Pourquoi et comment ?
Intégrer un podcast dans son cours - Pourquoi et comment ?
 
Des expériences simples autour du langage
Des expériences simples autour du langageDes expériences simples autour du langage
Des expériences simples autour du langage
 
Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"Tutoriel : "Gestion d’ontologies"
Tutoriel : "Gestion d’ontologies"
 
Pensée et raisonnements dans les discussions philosophique pour enfants
Pensée et raisonnements dans les discussions philosophique pour enfantsPensée et raisonnements dans les discussions philosophique pour enfants
Pensée et raisonnements dans les discussions philosophique pour enfants
 
Appel ã  communication cmlf 2014
Appel ã  communication cmlf 2014Appel ã  communication cmlf 2014
Appel ã  communication cmlf 2014
 

Último

presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptxMalikaIdseaid1
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...M2i Formation
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxssuserbd075f
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfssuser40e112
 
Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxpopzair
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.Txaruka
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertChristianMbip
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne FontaineTxaruka
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurdinaelchaine
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfabatanebureau
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.Franck Apolis
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprisesMajdaKtiri2
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptxTxaruka
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptssusercbaa22
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.docKarimKhrifech
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film françaisTxaruka
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxssusercbaa22
 

Último (20)

presentation l'interactionnisme symbolique finale.pptx
presentation l'interactionnisme symbolique  finale.pptxpresentation l'interactionnisme symbolique  finale.pptx
presentation l'interactionnisme symbolique finale.pptx
 
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
Formation M2i - Intelligence Artificielle Comment booster votre productivité ...
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptxSUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
SUPPORT DE SUR COURS_GOUVERNANCE_SI_M2.pptx
 
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdfMICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
MICROBIOLOGIE ENDODONTIQUE english and frensh 25 nov 2020.pdf
 
Présentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptxPrésentation de cartes d'extension zhr..pptx
Présentation de cartes d'extension zhr..pptx
 
Boléro. pptx Film français réalisé par une femme.
Boléro.  pptx   Film   français   réalisé  par une  femme.Boléro.  pptx   Film   français   réalisé  par une  femme.
Boléro. pptx Film français réalisé par une femme.
 
systeme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expertsysteme expert_systeme expert_systeme expert
systeme expert_systeme expert_systeme expert
 
Bolero. pptx . Film de A nnne Fontaine
Bolero. pptx . Film   de  A nnne FontaineBolero. pptx . Film   de  A nnne Fontaine
Bolero. pptx . Film de A nnne Fontaine
 
Evaluación Alumnos de Ecole Victor Hugo
Evaluación Alumnos de Ecole  Victor HugoEvaluación Alumnos de Ecole  Victor Hugo
Evaluación Alumnos de Ecole Victor Hugo
 
présentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteurprésentation sur l'échafaudage dans des travaux en hauteur
présentation sur l'échafaudage dans des travaux en hauteur
 
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdfCOURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
COURS SVT 3 EME ANNEE COLLEGE 2EME SEM.pdf
 
A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.A3iFormations, organisme de formations certifié qualiopi.
A3iFormations, organisme de formations certifié qualiopi.
 
gestion des conflits dans les entreprises
gestion des  conflits dans les entreprisesgestion des  conflits dans les entreprises
gestion des conflits dans les entreprises
 
Fondation Louis Vuitton. pptx
Fondation      Louis      Vuitton.   pptxFondation      Louis      Vuitton.   pptx
Fondation Louis Vuitton. pptx
 
Pâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie PelletierPâques de Sainte Marie-Euphrasie Pelletier
Pâques de Sainte Marie-Euphrasie Pelletier
 
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.pptMécanique Automobile LE TURBOCOMPRESSEUR.ppt
Mécanique Automobile LE TURBOCOMPRESSEUR.ppt
 
Grammaire pour les élèves de la 6ème.doc
Grammaire pour les élèves de la  6ème.docGrammaire pour les élèves de la  6ème.doc
Grammaire pour les élèves de la 6ème.doc
 
Sidonie au Japon . pptx Un film français
Sidonie    au   Japon  .  pptx  Un film françaisSidonie    au   Japon  .  pptx  Un film français
Sidonie au Japon . pptx Un film français
 
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptxApproche-des-risques-par-l’analyse-des-accidents-1.pptx
Approche-des-risques-par-l’analyse-des-accidents-1.pptx
 

(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ?

  • 1. séminaire "Recherches linguistiques et corpus" STIH de l’Université Paris-Sorbonne mercredi 8 avril 2015 Thierry Chanier LETEC Mulce
  • 2. 2
  • 4.
  • 5. 5
  • 6. 6
  • 7. 7
  • 8. 8 Collecte des données Contrats de consentement éclairé ou Licence d'utilisation sur données récoltées Anonymisation - Préserver informations essentielles - Identifier utilisateur sur toute la banque de corpus Poser licence d'utilisation
  • 9. 9 Corpus PFC, 15 ans d'études
  • 10. 10 Loic Liegeois (2014). Usage des variables phonologiques dans un corpus d'interactions naturelles parents-enfant : impact du bain linguistique et dispositifs cognitifs d'apprentissage. Humanities and Social Sciences. Clermont Ferrand 2. French. <tel-01108764> http://tel.archives-ouvertes.fr/tel-01108764
  • 11. 11
  • 12. 12
  • 13. 13 Acquisition de la liaison • Objet d’un débat entre une approche constructionniste, « basée sur l’usage » (Dugua, 2006 ; Chevrot et al., 2007 ; Chevrot et al., 2009) et une approche « basée sur des principes abstraits » (Wauquier-Gravelines et Braud, 2005). • Divergence théorique, accord sur les faits observés et relevés dans des études de corpus. Modèles d’acquisition de la liaison
  • 14. 14 Annotation Contexte Exemple A Dét - N Un ours B Pro - V Ils aiment C Expression figée Tout à l'heure D V - Pro Prends-en E Adj - N Petit oiseau F N(pluriel) - X Des pommes et … G Avoir - X Ils ont appris H Être - X C'est un I V - X Prends un verre J Inv - X Pas appris P « Poubelle » En orange Z Hors contexte Le -n- âne Annotation des données Liaisons catégoriques Liaisons variables Acquisition de la liaison variable et catégorique : ce que nous apprend le DAE
  • 15. 15  Répartition des adresses équivalente chez les parents de Prune et de Salomé.  Dominance des énoncés adressés à l'enfant.  Nombre suffisant des deux types d'énoncé pour pouvoir les comparer.0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Prune Salomé Adressé à tous Adressé à l'enfant Adressé à l'adulte Distribution des contextes de liaison dans les corpus (chez les parents)
  • 16. 16 La liaison variable : analyse à partir des mots1 après lesquels la liaison est réalisée au moins une fois. 17.30% 19.60% 29% 28.20% 0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00% Prune Salomé Discours adressé à l'adulte Discours adressé à l'enfant
  • 17. 17
  • 18. Le schwa Une voyelle pouvant alterner avec zéro dans un même contexte lexical en fonction de différents critères. Cinq contextes d’apparition : monosyllabe, syllabe interne d'un polysyllabe première ou la dernière syllabe d'un polysyllabe et dans la métathèse.
  • 19. Taux d’élision en DAA et DAE en FrL1 Parents Temps de recueil et âge de l’enfant Taux d’élision en DAA Taux d’élision en DAE χ² P Parents de Baptiste T1 : 2;4 ans 65,1% 31,7% Chi2=75.9812 p<0,0001 T2 : 3;0 ans 49,4% 34,2% Chi2=21.8028 p<0,0001 Parents de Salomé T1 : 3;0 ans 62,1% 37,0% Chi2=95.0865 p<0,0001 T2 : 3;7 ans 58,2% 56,1% Chi2=0 p>0,05 Parents de Prune T1 : 3;4 ans 67,8% 31,6% Chi2=95.0865 p<0,0001 T2 : 4;0 ans 50,0% 51,2% Chi2=0 p>0,05 65.1% 49.4% 62.1% 58.2% 67.8% 50.0% 31.7% 34.2% 37.0% 56.1% 31.6% 51.2% 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0% T1 T2 T1 T2 T1 T2 Parents de Baptiste Parents de Salomé Parents de Prune DAA DAE
  • 20. Élision chez l’enfant et développement linguistique 9.2% 10.8% 44.2% 19.1% 44.9% 51.9% 0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0% 90.0% 100.0% Baptiste Salomé Prune T1 T2 Enfant Temps de recueil et âge de l’enfant Taux d’élision χ² P Salomé T1 : 2;4 ans 10,81% χ² = 216.0006 P<0,0001 T2 : 3;0 ans 44,91% Baptiste T1 : 3;0 ans 9,2% χ² = 6.7688 P<0,01 T2 : 3;7 ans 19,02% Prune T1 : 3;4 ans 44,19% χ² = 7.3637 P<0,01 Enfant T2 : 4;0 ans 51,9%
  • 21. Élision en DAE en FrL1 Les parents tendent à davantage maintenir le schwa lorsqu’ils s’adressent à leur enfant et ajustent leur production en fonction des performances de celui- ci. Chez les parents de Salomé et Prune, au T2, plus de différence significative DAA/DAE. Au T2, Salomé et Prune élident le schwa dans des proportions proches de celles des adultes. L’élision du schwa en DAE est modulée selon le développement linguistique de l’enfant.
  • 22. 22
  • 23. • Corpus audio d’interactions parents-enfant recueillis en situation naturelle (bain, jeu, repas…). • Deux temps (voire 3) d’enregistrement afin d’observer la vitesse et la qualité de l’acquisition de la variation phonologique. • Enregistrement audio géré par les parents : • méthode peu intrusive : le chercheur n’est pas présent au domicile familial, • méthode qui demande peu d’intervention des parents. • Nouvelles collectes, après réutilisation d'un corpus (mal structuré) venant d'une ANR • Recherche de parents, contrat de consentement éclairé) Constitution et diffusion du corpus ALIPE
  • 24. 24 Avant, projet ANR Phonlex Réalisées par Loic seul
  • 25. 25 Format XML-ALIPE Programme de conversion Format CHAT Format CHAT-XML Format XML-TEI Conversion via le Chatter Programme de conversion
  • 26. 26 Format XML-ALIPE Programme de conversion Format CHAT Format CHAT-XML Format XML-TEI Conversion via le Chatter Programme de conversion
  • 27. 27 Format XML-ALIPE Programme de conversion Format CHAT Format CHAT-XML Format XML-TEI Conversion via le Chatter Programme de conversion
  • 28. 28 Vocabulaires contrôlés TEI > Métadonnées > Acteurs
  • 29. 29 <w>mais</w> <w>la</w> <w>politique</w> <w>à</w> <fs type="anonymisation"> <f name="Identity" fVal=”Place"/> <f name="Original" fVal=”PlaceName"/> </fs> <w>[_Lieu-de-travail-de-mot-Prune_]</w> <w>c'est</w> Transcription Métadonnées Métadonnées TEI > Métadonnées > Anonymisation
  • 30. 30 <w>elle</w> <w>a</w> <w>pas</w> <w>de</w> <fs type="liaison"> <f name="Word1" fVal="de"/> <f name="Word2" fVal="oreilles"/> <f name="SynctacticContext" fVal="Z"/> <f name="ExpectedConsonnant" fVal="o"/> <f name="ProducedConsonnant" fVal="z"/> <f name="ObligatoryOptional" fVal="2"/> </fs> <w>oreilles</w> Transcription Métadonnées Possibilité de futures annotations de part l’extensivité du format
  • 31. 31
  • 32. 32 Zip pour corpus distinguable : - Transcription TEI - Transcription avec alignement CLAN : CHAT - Fichier audio - Fiche descriptive HTML http://lrl-diffusion.univ-bpclermont.fr/alipe/ Base de corpus en ligne
  • 33. 33 Affichage « simplifié » des transcriptions généré à partir du fichier XML-TEI : - Affichage des liaisons - Affichage des évènements para- et extralinguistique Lecture en ligne (streaming) des fichiers audio téléchargeables
  • 35. 35 Ciara R. Wigham (2012). The interplay between nonverbal and verbal interaction in synthetic worlds which supports verbal participation and production in a foreign language.. Linguistics. Université Blaise Pascal - Clermont-Ferrand II. English. <tel- 00762382v2> http://tel.archives-ouvertes.fr/tel- 00762382
  • 36. 36
  • 37. Interplay nonverbal & verbal • 1A: During a collaborative building activity, are nonverbal acts autonomous in the synthetic world or does interplay exist between the nonverbal and verbal modes? Analyses 37
  • 38. Characterisation of SL modalities Methodology 38 • Literature review of classifications of nonverbal mode used in SLA & CSCW domains • Classification of verbal & nonverbal modalities in Second Life • Elaboration of transcription methodology
  • 39. Interplay textchat & voicechat • 3D: Can the textchat serve for L2 feedback provision? Analyses 39
  • 40. An example of modality interplay 40
  • 41. European project with architects: course Environments face- to-face distance VoiceForum Second Life Paris Malaquais UBP Language tutor UBP Language tutor ENSAPM Architecture teachers ENSAPM Architecture teachers UBP Language tutors 4 workgroups GA, GE, GL, GS Presentation environment
  • 43. Data collection and coverage Data collected Pre- questionnaires Session data Post questionnaires Semi- directive interviews Environ ment Kwiksurveys Second Life VoiceForum Kwiksurveys Skype Data type Spreadsheet file Video screen captures Audio recordings Spreadsheet file Audio recordings Quantity & coverage of data 17 student questionnaires 20 group sessions & 2 presentation sessions 19h40m 64 forum messages 16 student questionnaires 5 student interviews 2h30 Multimodal Transcription 7 sessions 5h15m 2238 verbal 2659 nonverbal Methodology 43 pre-course post-courseduring course
  • 44. Multimodal transcription using ELAN video screen capture multimodal transcription aligned using timeline participants & modality view of annotations for one participant in one modality Max Planck Institute for Psycholinguistics (2001). ELAN [software]. The Netherlands: Max Planck Institute for Psycholinguistics. [http://www.lat-mpi.eu/tools/elan/] 44
  • 46. An example of modality interplay 46
  • 48. Un type de corpus défini dans projet MULCE précédent : corpus d’apprentissage LETEC Instantiation Pedagogical scenario Research protocol Public licence Private licence Analyses C o n t e x t 48 "A LETEC corpus collects in a systematic and structured way all the data from interactions which occur during a course which is partially or entirely online. These data are enriched by technical, pedagogical and scientific information as well as information about the participants and are organized to allow contextualized analyses to be performed.“ (Mulce-documentation, 2013) ethics & rights
  • 49. Organisation des données dans LETEC 49
  • 52. 52
  • 53. Objective: Kernel corpus assembling existing corpora of different CMC genres and new corpora build on data extracted from the Internet. These heterogeneous corpora will be structured and processed in a uniform way, complemented with metadata. CoMeRe will be released as OpenData through the national infrastructure Ortolang, following constraints which will be reused for the forthcoming “Corpus de Référence du Français”. Project supported by the national consortium Corpus-écrits, sub-part of Huma-Num, and Ortolang Variety + Standards + Open Access Consortium Corpus-écrits http://comere.org http://hdl.handle.net/11403/comere
  • 54. 54
  • 56. 56
  • 57. 57

Notas del editor

  1. .