"(co)-création d’un corpus en linguistique : une étape à la portée des jeunes chercheurs ? ", séminaire "Recherches linguistiques et corpus" , STIH de l’Université Paris-Sorbonne, mercredi 8 avril 2015
10. 10
Loic Liegeois (2014).
Usage des variables phonologiques
dans un corpus d'interactions
naturelles parents-enfant : impact du
bain linguistique et dispositifs cognitifs
d'apprentissage.
Humanities and Social Sciences.
Clermont Ferrand 2. French.
<tel-01108764>
http://tel.archives-ouvertes.fr/tel-01108764
13. 13
Acquisition de la liaison
• Objet d’un débat entre une approche constructionniste,
« basée sur l’usage » (Dugua, 2006 ; Chevrot et al.,
2007 ; Chevrot et al., 2009) et une approche « basée
sur des principes abstraits » (Wauquier-Gravelines et
Braud, 2005).
• Divergence théorique, accord sur les faits observés et
relevés dans des études de corpus.
Modèles d’acquisition de la liaison
14. 14
Annotation Contexte Exemple
A Dét - N Un ours
B Pro - V Ils aiment
C Expression figée Tout à l'heure
D V - Pro Prends-en
E Adj - N Petit oiseau
F N(pluriel) - X Des pommes et …
G Avoir - X Ils ont appris
H Être - X C'est un
I V - X Prends un verre
J Inv - X Pas appris
P « Poubelle » En orange
Z Hors contexte Le -n- âne
Annotation des données
Liaisons
catégoriques
Liaisons
variables
Acquisition de la liaison variable et catégorique : ce que nous apprend le DAE
15. 15
Répartition des
adresses équivalente
chez les parents de
Prune et de Salomé.
Dominance des
énoncés adressés à
l'enfant.
Nombre suffisant des
deux types d'énoncé
pour pouvoir les
comparer.0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Prune Salomé
Adressé à tous
Adressé à
l'enfant
Adressé à
l'adulte
Distribution des contextes de liaison dans
les corpus (chez les parents)
16. 16
La liaison variable : analyse à partir des mots1 après
lesquels la liaison est réalisée au moins une fois.
17.30%
19.60%
29% 28.20%
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
Prune Salomé
Discours adressé à
l'adulte
Discours adressé à
l'enfant
18. Le schwa
Une voyelle pouvant alterner avec zéro dans un
même contexte lexical en fonction de différents
critères.
Cinq contextes d’apparition :
monosyllabe,
syllabe interne d'un polysyllabe
première ou la dernière syllabe d'un polysyllabe et
dans la métathèse.
19. Taux d’élision en DAA et DAE en FrL1
Parents
Temps de recueil
et âge de l’enfant
Taux d’élision en
DAA
Taux d’élision en
DAE
χ² P
Parents de
Baptiste
T1 : 2;4 ans
65,1% 31,7%
Chi2=75.9812 p<0,0001
T2 : 3;0 ans
49,4% 34,2%
Chi2=21.8028 p<0,0001
Parents de Salomé
T1 : 3;0 ans
62,1% 37,0%
Chi2=95.0865 p<0,0001
T2 : 3;7 ans
58,2% 56,1%
Chi2=0 p>0,05
Parents de Prune
T1 : 3;4 ans
67,8% 31,6%
Chi2=95.0865 p<0,0001
T2 : 4;0 ans
50,0% 51,2%
Chi2=0 p>0,05
65.1%
49.4%
62.1%
58.2%
67.8%
50.0%
31.7%
34.2% 37.0%
56.1%
31.6%
51.2%
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
T1 T2 T1 T2 T1 T2
Parents de Baptiste Parents de Salomé Parents de Prune
DAA
DAE
20. Élision chez l’enfant et développement
linguistique
9.2% 10.8%
44.2%
19.1%
44.9%
51.9%
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
60.0%
70.0%
80.0%
90.0%
100.0%
Baptiste Salomé Prune
T1
T2
Enfant
Temps de recueil
et âge de l’enfant
Taux d’élision χ² P
Salomé
T1 : 2;4 ans 10,81%
χ² = 216.0006 P<0,0001
T2 : 3;0 ans 44,91%
Baptiste
T1 : 3;0 ans 9,2%
χ² = 6.7688 P<0,01
T2 : 3;7 ans 19,02%
Prune T1 : 3;4 ans 44,19%
χ² = 7.3637 P<0,01
Enfant T2 : 4;0 ans 51,9%
21. Élision en DAE en FrL1
Les parents tendent à davantage maintenir le schwa
lorsqu’ils s’adressent à leur enfant et ajustent leur
production en fonction des performances de celui-
ci.
Chez les parents de Salomé et Prune, au T2, plus
de différence significative DAA/DAE. Au T2,
Salomé et Prune élident le schwa dans des
proportions proches de celles des adultes.
L’élision du schwa en DAE est modulée selon le
développement linguistique de l’enfant.
23. • Corpus audio d’interactions parents-enfant recueillis en
situation naturelle (bain, jeu, repas…).
• Deux temps (voire 3) d’enregistrement afin d’observer la
vitesse et la qualité de l’acquisition de la variation
phonologique.
• Enregistrement audio géré par les parents :
• méthode peu intrusive : le chercheur n’est pas présent au domicile
familial,
• méthode qui demande peu d’intervention des parents.
• Nouvelles collectes, après réutilisation d'un corpus (mal
structuré) venant d'une ANR
• Recherche de parents, contrat de consentement éclairé)
Constitution et diffusion du corpus ALIPE
32. 32
Zip pour corpus distinguable :
- Transcription TEI
- Transcription avec
alignement CLAN : CHAT
- Fichier audio
- Fiche descriptive HTML
http://lrl-diffusion.univ-bpclermont.fr/alipe/
Base de corpus en ligne
33. 33
Affichage « simplifié » des transcriptions
généré à partir du fichier XML-TEI :
- Affichage des liaisons
- Affichage des évènements para-
et extralinguistique
Lecture en ligne (streaming) des fichiers
audio téléchargeables
35. 35
Ciara R. Wigham (2012). The interplay
between nonverbal and verbal
interaction in synthetic worlds
which supports verbal participation
and production in a foreign language..
Linguistics. Université Blaise Pascal -
Clermont-Ferrand II. English. <tel-
00762382v2>
http://tel.archives-ouvertes.fr/tel-
00762382
37. Interplay nonverbal & verbal
• 1A: During a collaborative building activity, are
nonverbal acts autonomous in the synthetic world or
does interplay exist between the nonverbal and verbal
modes?
Analyses 37
38. Characterisation of SL modalities
Methodology 38
• Literature review of classifications of nonverbal mode
used in SLA & CSCW domains
• Classification of verbal & nonverbal modalities in Second
Life
• Elaboration of transcription methodology
39. Interplay textchat & voicechat
• 3D: Can the textchat serve for L2 feedback
provision?
Analyses 39
41. European project with architects: course Environments
face-
to-face
distance
VoiceForum Second Life
Paris Malaquais
UBP Language
tutor
UBP Language
tutor
ENSAPM Architecture teachers
ENSAPM
Architecture
teachers
UBP Language
tutors
4 workgroups
GA, GE, GL, GS
Presentation
environment
43. Data collection and coverage
Data
collected
Pre-
questionnaires
Session data Post
questionnaires
Semi-
directive
interviews
Environ
ment
Kwiksurveys Second Life VoiceForum Kwiksurveys Skype
Data type Spreadsheet
file
Video screen
captures
Audio
recordings
Spreadsheet file Audio
recordings
Quantity
&
coverage
of data
17 student
questionnaires
20 group
sessions & 2
presentation
sessions
19h40m
64 forum
messages
16 student
questionnaires
5 student
interviews
2h30
Multimodal
Transcription
7 sessions
5h15m
2238 verbal
2659 nonverbal
Methodology 43
pre-course post-courseduring course
44. Multimodal transcription using ELAN
video screen
capture
multimodal transcription
aligned using timeline
participants
& modality
view of annotations
for one participant in
one modality
Max Planck Institute for Psycholinguistics (2001). ELAN [software]. The Netherlands:
Max Planck Institute for Psycholinguistics. [http://www.lat-mpi.eu/tools/elan/]
44
48. Un type de corpus défini dans projet MULCE
précédent : corpus d’apprentissage LETEC
Instantiation
Pedagogical
scenario
Research
protocol
Public
licence
Private
licence
Analyses
C
o
n
t
e
x
t
48
"A LETEC corpus collects in a systematic and structured way all the data from
interactions which occur during a course which is partially or entirely online.
These data are enriched by technical, pedagogical and scientific information as well as
information about the participants and are organized to allow contextualized
analyses to be performed.“ (Mulce-documentation, 2013)
ethics &
rights
53. Objective: Kernel corpus assembling existing corpora of different CMC
genres and new corpora build on data extracted from the Internet. These
heterogeneous corpora will be structured and processed in a uniform way,
complemented with metadata. CoMeRe will be released as OpenData
through the national infrastructure Ortolang, following constraints which will
be reused for the forthcoming “Corpus de Référence du Français”.
Project supported by the national
consortium Corpus-écrits, sub-part of
Huma-Num, and Ortolang
Variety + Standards + Open Access
Consortium Corpus-écrits
http://comere.org
http://hdl.handle.net/11403/comere