1. DISCOURS ET
DOCTORAT -ANALYSE
DU DISCOURS
NUMÉRIQUE
CORPUS NUMERIQUES
1
Recueillir des données numériques sur les
variations du développement sexuel :
problèmes méthodologiques
Noémie Marignier – 22 novembre 2013
2. 2
Les variations du développement sexuel
Scrapbook
Corpus numériques homogènes/hétérogènes
?
Problèmes d’unité
Problèmes de représentativité : corpus infinis
3. Les variations du développement
sexuel
3
Personnes nées avec des organes génitaux qui
ne permettent pas de leur assigner le sexe mâle
ou femelle (intersexes, « hermaphrodites »)
Discours des variations sexuelles :
Discours militants (forums, sites d’association)
Discours médical (dossiers d’enfants, articles et
ouvrages médicaux)
Discours du désir (sites
pornographiques, d’exhibition…)
Presse – blogs
4. Problèmes de la constitution d’un
corpus sur les VDS
4
Sujet méconnu, tabou
Discours très dispersés
Les aspirateurs de sites (à partir d’une URL)
peu d’associations, peu de lieux numériques dédiés
pas d’événement discursif (sauf C. Semenya en 2009)
pas de dénomination stable
Problème de la dispersion des données
Diigo (social, en ligne):
Problème de la confidentialité des données
Problème de la disparition des données/accès refusé
5. Scrapbook
5
Add-on de Firefox
Permet d’enregistrer pages web en HTML hors
ligne
Avantages :
Corpus imperdable (même en cas d’accès
refusé/disparition de sites)
Données stockées dans leur environnement
Possibilité d’annoter/Rechercher plein texte
Inconvénients :
Données ne sont pas mises à jour (nouveaux
commentaires, nouveaux fils)
10. Unité/homogénéité des données :
les forums
10
Corpus « fini »
Environnement stable (mêmes couleurs,
présentation, contraintes techno-discursives etc..)
Même début d’URL
Possibilité de récolter toutes les données (même
si nombreuses)
Réseaux sociaux ? (Twitter, Facebook…)
14. Problèmes d’unité (1)
14
Corpus de presse en ligne
Presse traditionnelle (articles version en ligne et
version papier)
Blogs associés aux sites de presse
Blogs indépendants
…
Continuum de contenus, de présentations, de
fonctionnements (les sites de presse utilisent les
plates-formes de blogs)
Nombre de données ++++
Impossible de finir le corpus
18. Problèmes d’unité (2)
18
Pas de différence radicale entre presse et
blogs
Possible de récolter tous les articles de
quotidiens-hebdomadaires-magazines etc.
Critères
du tirage/diffusion par ex.
Mais impossible de récolter tous les articles de
blogs…
Sur
quels critères sélectionner les uns plutôt que
les autres?
19. Problèmes de représentativité
19
Infinité d’internet : corpus « infinis »
Comment finir des corpus dont la caractéristique est
d’être infinis ?
Limites du corpus viennent d’une impossibilité, d’une
mé-connaissance des autres données
Infinités de blogs, de sites, de pages…
Limites impossibles à justifier théoriquement
Question du biais :
Accès au corpus par mots-clés, réseaux sociaux
orientation de la recherche (par ex : sur-représentation des
blogs féministes)
21. Pornographie, VDS, corpus,
représentativité
21
Pas de site pornographique dédié aux
hermaphrodites/intersexes – pas de #tag
Dispersion
+++ des données pornographiques
sur les VDS
Corpus d’une dizaine de sites
Impossible
à justifier en dehors du fait que je les
ai trouvés dans les premiers résultats Google …
ce qui est un peu court.
Impression d’aller « à la pêche »
23. Conclusion : « L’impossible
clôture » ?
23
Mais partir d’un corpus exploratoire qu’on élargit au fur et à mesure
des indices de contextualisation qui permettent de pister les discours
transverses porte ensuite à s’interroger sur les limites que l’on fixe à
cette recherche de corpus de travail complémentaires et de corpus
de référence qui interviennent dans l’interprétation sémantique des
données: tout discours transverse inscrit lui-même d’autres discours
transverses et ainsi à l’infini, et aucun traitement informatique de
corpus ne peut réellement venir à bout de cette épaisseur dialogique
qui s’est déposée en couches sémantiques successives dans les
mots, les énoncés et les discours, et qui peut même anticiper des
discours ultérieurs. Il faut donc accepter cette impossible clôture du
corpus (et donc sa non-exhaustivité constitutive). Lorsqu’on estime
que les corpus de référence recueillis en boule de neige permettent
d’expliquer les données des corpus de travail et de répondre aux
objectifs fixés à la recherche, on arrête alors cette quête de la
traçabilité des mots et des dires. Moirand (2004)