SlideShare una empresa de Scribd logo
1 de 39
Corpus-écrits
           GT7, nouv-com
         https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/




 Expériences d'élaboration des
    corpus de référence du
  hollandais et de l'allemand.
Projet de noyau de corpus CMC
          en français
         Thierry Chanier, Université Blaise Pascal


2ème journées : Corpus de référence
du français
28-29 mars 2013, Paris
1



    CORPUS EN ALLEMAND DWDS
    DIGITALES WÖRTERBUCH DER
    DEUTSCHEN SPRACHE

    Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer (Berlin-
    Brandebourg)

                                                                   2
Principaux projets corpus en
               allemand

Allemand des 20 et 21 ème   Allemand 1650-1900




                                                 3
Objectif DWDS Noyau

      Construire un dictionnaire rendant
      compte des usages de l’allemand moderne
      à partir d’un corpus équilibré d’écrits
      - 60% électronique
      - 40% papier au départ
      -Métadonnées pour tous les documents




                                            4
DWDS-E étendu

   Mais statistiques lexicales montrent qu’il
    faut des tailles supérieures pour analyser
    certains phénomènes (collocations, etc.)
   Corpus étendu de type opportuniste
   Base importante à partir de journaux et de
    l’Internet (pb droits plus facile à régler)
   Tous les corpus DWDS et DTA, ainsi que
    les dictionnaires sont structurés en TEI/P5

                                                  5
Planification du projet DWDS




Dico DWDS basé sur dico WDG (1961-75)                               6
                             Wörterbuch der deutschen Gegenwartssprache
BBAW                                  AvH


Akademienunion

                 Patrons et ressources




                        Financé par “Akademienunion » sur 18 ans



                                                                   7
DWDS noyau : tâches principales



                            Accès :
                            voir infra

                            -TAGH :
                            morpho
                            composé
                            -STTS :
                            POS
                            - GermaNet
                            : sém.


                                         8
www.dwds.de : un site en accès libre
                                       9
Par décennies
    et genres           Les corpus


71% des textes en accès libre dans DWDS noyau
                                                10
Statistiques en accès libres faites sur ensemble corpus
On voit plus de textes après identification          11
2



    CORPUS DE RÉFÉRENCE EN
    HOLLANDAIS, SONAR
           STEVIN Nederlandstalig Referentiecorpus




    Merci à Nelleke Oostdijk (Radboud University Nijmegen)

                                                             12
Objectifs

   Construire un corpus de référence de du
    hollandais et du flamand moderne (post
    1954) de grande taille (500 M tokens) qui
    puissent servir à la fois à des analyses
    linguistiques et au développement de
    technologies du langage.
   Inclure dès le début des écrits provenant
    des médias traditionnels et de l’Internet
   Auparavant corpus oral de 9 M tokens
    (transcript + audio), collecte entre 1998 et2003
                                                       13
Une grande variété initialement prévue




                                         14
Du prévu à la réalité
  prévu              réalisé


          Phase 1 Holland. Flamand   NC




                                          15
Du prévu à la réalité
   Question de droits : grande variété,
    chronophage
   Grande variété de formats, délaisser
    formats trop complexes (PDF)
   Approche opportuniste avec Internet
    – Collectes faciles (Tweets, forum, clav) ou difficile
      (SMS)
    – Droits difficiles (Sites, blogues) ou libres
      (licences CC ou GPL)
   Maintenir équilibre global, collecter plus que
    ce qui sera intégré dans corpus référence                16
D’abord un corpus pilote




                           17
SoNaR : organisation

                                        Chercheurs
                                        Industrie




                                            Éval
Constitution    Annotations   Qualité    extérieure
  corpus        sémantiques
                                                      18
Développement: collaboration nationale




                                         19
Diagramme de flux




                    20
Ressources financières




                         21
Ressources financières




+ 1 ETP par université pour tâche A et temps partiels des
autres pour début
Budget ne comprend pas les missions internes, ni conf.
                                                            22
3                                          à
                                 u e dcd
                               sq >c        p
                                        co
                           lut _4 r sa n?
                         Sa OM            i
                                  d p 2ma
                          <N 1 dv la
                           ht     a
                               ep
                            ki

SMS / textos
Tweets
Blogues        Projet de corpus CMC en français
Forums
Clavardage
Etc.
Rappel objectifs projet 2013-14

   Créer un noyau (pas encore le corpus de
    référence !) de corpus CMC en français
   Ensembles de conversations intervenant sur
    la Toile et les réseaux
   Couvrir variété de systèmes de
    communication synchrone ou asynchrone,
    mono ou multimodaux (éventuellement) :
    blogues, tweets, SMS / textos, courriels ,
    clavardage, forums, etc.

                                                 24
Rappel objectifs projet 2013-14

   Le faire suivant standard (TEI, CLARIN,
    OLAC?)
   Diffuser en accès libre ce corpus en 2014
    sur Ortolang
   Travailler en partenarait avec Europe (projet
    consortium TEI, DARIAH)
   Intégrer ce noyau au « Corpus de référence
    du français »


                                                    25
Macrostructure discursive




(Beißwenger et
al., 2012)




                                             26
Macro et
microstructure




                 27
Audio   Clavardage


                                 Multimodalité




              (LETEC corpus Archi21 : archi21-slrefl-av-j2)
sms anonymisé
       sms brut
Salut s que 2nis c dcd à anonymisation                              Salut s que <NOM_4> c
ht 1 dvd pr sa cop ki e                                             dcd à ht 1 dvd pr sa cop
      pa la 2main?                                                      ki e pa la 2main?

                                                          dage
    sms transcodé                                      co
                                                 tr ans
                                                                     sms annoté
    Salut est-ce que
<NOM_4> s'est décidé
                                                     Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> s'est
à acheter 1 dvd pour sa                             <MOD_dcd> décidé à <MOD_ht> acheter 1 <TYP_dvd> DVD
  copine qui est pas là                               <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui
                                                        <ABS_ne> <MOD_e> est <MOD_pa> pas <TYP_la> là
        demain?                                      <MOD_2main> demain <TYP_espace_avant_?_manquante> ?



                                            annotation
              Rachel Panckhurst, CÉNC, 31/5/12        29
Variability (orthographique)

     • can only in part be explained in terms of errors, as a great deal of variation is
       intentional

     • is a research topic in itself

     • complicates research as it hinders the processing of the data by means of standard
       tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.)

         Han & Baldwin (2012: 368):
         “We found Twitter data to have an unsurprisingly long tail of OOV words,
         suggesting that conventional supervised learning will not perform well due to data
         sparsity. Additionally, many ill-formed words are ambiguous, and require context to
         disambiguate.”




Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February      8
                                                                                    2013
Expérience TAL dans notre groupe




                                   31
32
33
Groupes de travail du projet 2013
                                         Droits,
                                         Amont : accept V0
                                         Aval : accept V1
                                         métadonnées


                                                         Relations Ortolang
                                                         corpus-écrits
                                                         Prépa V1




                                                           Tweets, wikipedia
          TEI                              Nelles
                Structuration            acquisitions

Linda   méta
                Ingénieur   (Corpus-écrits + Ortolang)                    34
Dépôts individuels    Flux de traitements
                                     GT traitements
                     GT Validation




V0 Clermont




                     ingénieur




                                                      35
PROJET TEI-CMC
EUROPÉEN

                 36
   1) Modelling CMC in TEI:
    – brief overview of essential requirements concerning the
      representation of CMC from the perspective of the four projects
      [8 min],
    – selected aspects from the DeRiK-TEI schema reviewed from the
      perspective of the four projects (suggested focus: element
      posting, user modelling, interaction signs) [15 min],
    – problem sketches: (a) hypertext structures/“linked data“ (cf.
      topical focus of the conference), (b) multimodal CMC [5 mins
      each].
   2) Challenges and perspectives in mapping features of
    computer-mediated communication to elements in TEI-P5
   3) Metadata for cmc documents: challenges & suggestions

                                                                        37
Participants a                            u projet
    Groupe GT7, corpus-écrits
                                                         Linda Hriba , corpus-écrits
   Achille Falaise, LIG, Grenoble
   Benoît Sagot, Alpage, INRIA , Univ. P7
                                                         Paul Lotin, ingénieur, LRL
   Béatrice Turpin, CRTF, Univ. de Cergy                Ingénieur à recruter (6
   Céline Poudat, UMR LDI, Univ. Paris 13                mois/ETP, sur fonds
   Ciara Wigham, LRL, Univ. Blaise Pascal                Ortolang et corpus-écrits)
   Fiammetta Namer, ATILF, Nancy
   Georges Antoniadis, LIDILEM, Univ Grenoble 3
   Georgeta Cislaru, CLESTHIA, Univ. Paris 3
   Gudrun Ledegen , PREFics, Univ. de Rennes 2
   Julien Longhi, CRTF, Univ. de Cergy
   Mahé Ben Hamed, UMR BCL, Nice
   Natalia Grabar, UMR STL, CNRS Univ. Lille 3
   Paloque-Berges, Camille, DICEN, CNAM
   Rachel Panckhurst, UMR Praxiling, CNRS Univ.
    Montpellier 3
   Thierry Chanier, LRL, Univ. Blaise Pascal
   Tita Kyriacopoulou, LIGM, Univ. Marne-la-Vallée
   Virginie Zampa, LIDILEM, Univ Grenoble 3
                                                                                        38
Pour nous suivre


Corpus-écrits
GT7, nouv-com




https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ 39

Más contenido relacionado

Similar a Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011
Sylvain Machefert
 
CV Template Jun 15 WD French - Jeremie Simonet
CV Template Jun 15 WD French - Jeremie SimonetCV Template Jun 15 WD French - Jeremie Simonet
CV Template Jun 15 WD French - Jeremie Simonet
Jérémie Simonet
 
Berard texte intervention_jabes_2010
Berard texte intervention_jabes_2010Berard texte intervention_jabes_2010
Berard texte intervention_jabes_2010
ABES
 

Similar a Corpus communication médiée par les réseaux en français et corpus allemand et hollandais (20)

Interopérabilité et échanges de données pour les archives
Interopérabilité et échanges de données pour les archivesInteropérabilité et échanges de données pour les archives
Interopérabilité et échanges de données pour les archives
 
Domain_Driven_Design
Domain_Driven_DesignDomain_Driven_Design
Domain_Driven_Design
 
La Meta-programmation
La Meta-programmation La Meta-programmation
La Meta-programmation
 
Modèles de données et langages de description ouverts 2021-2022 - 1
Modèles de données et langages de description ouverts   2021-2022 - 1Modèles de données et langages de description ouverts   2021-2022 - 1
Modèles de données et langages de description ouverts 2021-2022 - 1
 
Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013Informatique documentaire - Cours Licence pro bib 2013
Informatique documentaire - Cours Licence pro bib 2013
 
Algo vol.2 sujets
Algo vol.2   sujetsAlgo vol.2   sujets
Algo vol.2 sujets
 
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
Concevoir la diffusion d’une banque de corpus dès le début du projet de reche...
 
Dev ops - Contiuous delivery
Dev ops - Contiuous deliveryDev ops - Contiuous delivery
Dev ops - Contiuous delivery
 
Conduire un projet de dématérialisation.pdf
Conduire un projet de dématérialisation.pdfConduire un projet de dématérialisation.pdf
Conduire un projet de dématérialisation.pdf
 
Démo abelos
Démo abelosDémo abelos
Démo abelos
 
Gestion avancé des médias – retour d’expérience Radio France
Gestion avancé des médias – retour d’expérience Radio France Gestion avancé des médias – retour d’expérience Radio France
Gestion avancé des médias – retour d’expérience Radio France
 
OCCIware presentation au groupe de travail Big Data du SCS
OCCIware presentation au groupe de travail Big Data du SCSOCCIware presentation au groupe de travail Big Data du SCS
OCCIware presentation au groupe de travail Big Data du SCS
 
DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant
 DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant
DDD, CQRS et Event Sourcing : quand coder propre n'est plus suffisant
 
Decoder Systematic Presentation
Decoder Systematic Presentation Decoder Systematic Presentation
Decoder Systematic Presentation
 
Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011Introduction à l'informatique documentaire - 2011
Introduction à l'informatique documentaire - 2011
 
Comment travailler avec les logiciels Open Source
Comment travailler avec les logiciels Open SourceComment travailler avec les logiciels Open Source
Comment travailler avec les logiciels Open Source
 
CV Template Jun 15 WD French - Jeremie Simonet
CV Template Jun 15 WD French - Jeremie SimonetCV Template Jun 15 WD French - Jeremie Simonet
CV Template Jun 15 WD French - Jeremie Simonet
 
Intégration continue
Intégration continueIntégration continue
Intégration continue
 
MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1MediaLille evolutions catalogage_avril2014_enjeux_1
MediaLille evolutions catalogage_avril2014_enjeux_1
 
Berard texte intervention_jabes_2010
Berard texte intervention_jabes_2010Berard texte intervention_jabes_2010
Berard texte intervention_jabes_2010
 

Último

Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
ssuserc72852
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
ikospam0
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
AmgdoulHatim
 

Último (20)

Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhk
 
L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
Cours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdfCours Préparation à l’ISO 27001 version 2022.pdf
Cours Préparation à l’ISO 27001 version 2022.pdf
 
Cours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdfCours ofppt du Trade-Marketing-Présentation.pdf
Cours ofppt du Trade-Marketing-Présentation.pdf
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLE
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024
 
Cours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesCours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiques
 
La nouvelle femme . pptx Film français
La   nouvelle   femme  . pptx  Film françaisLa   nouvelle   femme  . pptx  Film français
La nouvelle femme . pptx Film français
 
658708519-Power-Point-Management-Interculturel.pdf
658708519-Power-Point-Management-Interculturel.pdf658708519-Power-Point-Management-Interculturel.pdf
658708519-Power-Point-Management-Interculturel.pdf
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
 
La mondialisation avantages et inconvénients
La mondialisation avantages et inconvénientsLa mondialisation avantages et inconvénients
La mondialisation avantages et inconvénients
 
STRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdf
STRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdfSTRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdf
STRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdf
 

Corpus communication médiée par les réseaux en français et corpus allemand et hollandais

  • 1. Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ Expériences d'élaboration des corpus de référence du hollandais et de l'allemand. Projet de noyau de corpus CMC en français Thierry Chanier, Université Blaise Pascal 2ème journées : Corpus de référence du français 28-29 mars 2013, Paris
  • 2. 1 CORPUS EN ALLEMAND DWDS DIGITALES WÖRTERBUCH DER DEUTSCHEN SPRACHE Merci à Alexander Geyken (BBAW) et Lothar Lemnitzer (Berlin- Brandebourg) 2
  • 3. Principaux projets corpus en allemand Allemand des 20 et 21 ème Allemand 1650-1900 3
  • 4. Objectif DWDS Noyau Construire un dictionnaire rendant compte des usages de l’allemand moderne à partir d’un corpus équilibré d’écrits - 60% électronique - 40% papier au départ -Métadonnées pour tous les documents 4
  • 5. DWDS-E étendu  Mais statistiques lexicales montrent qu’il faut des tailles supérieures pour analyser certains phénomènes (collocations, etc.)  Corpus étendu de type opportuniste  Base importante à partir de journaux et de l’Internet (pb droits plus facile à régler)  Tous les corpus DWDS et DTA, ainsi que les dictionnaires sont structurés en TEI/P5 5
  • 6. Planification du projet DWDS Dico DWDS basé sur dico WDG (1961-75) 6 Wörterbuch der deutschen Gegenwartssprache
  • 7. BBAW AvH Akademienunion Patrons et ressources Financé par “Akademienunion » sur 18 ans 7
  • 8. DWDS noyau : tâches principales Accès : voir infra -TAGH : morpho composé -STTS : POS - GermaNet : sém. 8
  • 9. www.dwds.de : un site en accès libre 9
  • 10. Par décennies et genres Les corpus 71% des textes en accès libre dans DWDS noyau 10
  • 11. Statistiques en accès libres faites sur ensemble corpus On voit plus de textes après identification 11
  • 12. 2 CORPUS DE RÉFÉRENCE EN HOLLANDAIS, SONAR STEVIN Nederlandstalig Referentiecorpus Merci à Nelleke Oostdijk (Radboud University Nijmegen) 12
  • 13. Objectifs  Construire un corpus de référence de du hollandais et du flamand moderne (post 1954) de grande taille (500 M tokens) qui puissent servir à la fois à des analyses linguistiques et au développement de technologies du langage.  Inclure dès le début des écrits provenant des médias traditionnels et de l’Internet  Auparavant corpus oral de 9 M tokens (transcript + audio), collecte entre 1998 et2003 13
  • 14. Une grande variété initialement prévue 14
  • 15. Du prévu à la réalité prévu réalisé Phase 1 Holland. Flamand NC 15
  • 16. Du prévu à la réalité  Question de droits : grande variété, chronophage  Grande variété de formats, délaisser formats trop complexes (PDF)  Approche opportuniste avec Internet – Collectes faciles (Tweets, forum, clav) ou difficile (SMS) – Droits difficiles (Sites, blogues) ou libres (licences CC ou GPL)  Maintenir équilibre global, collecter plus que ce qui sera intégré dans corpus référence 16
  • 17. D’abord un corpus pilote 17
  • 18. SoNaR : organisation Chercheurs Industrie Éval Constitution Annotations Qualité extérieure corpus sémantiques 18
  • 22. Ressources financières + 1 ETP par université pour tâche A et temps partiels des autres pour début Budget ne comprend pas les missions internes, ni conf. 22
  • 23. 3 à u e dcd sq >c p co lut _4 r sa n? Sa OM i d p 2ma <N 1 dv la ht a ep ki SMS / textos Tweets Blogues Projet de corpus CMC en français Forums Clavardage Etc.
  • 24. Rappel objectifs projet 2013-14  Créer un noyau (pas encore le corpus de référence !) de corpus CMC en français  Ensembles de conversations intervenant sur la Toile et les réseaux  Couvrir variété de systèmes de communication synchrone ou asynchrone, mono ou multimodaux (éventuellement) : blogues, tweets, SMS / textos, courriels , clavardage, forums, etc. 24
  • 25. Rappel objectifs projet 2013-14  Le faire suivant standard (TEI, CLARIN, OLAC?)  Diffuser en accès libre ce corpus en 2014 sur Ortolang  Travailler en partenarait avec Europe (projet consortium TEI, DARIAH)  Intégrer ce noyau au « Corpus de référence du français » 25
  • 28. Audio Clavardage Multimodalité (LETEC corpus Archi21 : archi21-slrefl-av-j2)
  • 29. sms anonymisé sms brut Salut s que 2nis c dcd à anonymisation Salut s que <NOM_4> c ht 1 dvd pr sa cop ki e dcd à ht 1 dvd pr sa cop pa la 2main? ki e pa la 2main? dage sms transcodé co tr ans sms annoté Salut est-ce que <NOM_4> s'est décidé Salut <MOD_s_que> est-ce que <NOM_4> <MOD_c> s'est à acheter 1 dvd pour sa <MOD_dcd> décidé à <MOD_ht> acheter 1 <TYP_dvd> DVD copine qui est pas là <MOD_pr> pour sa <MOD_cop> copine <MOD_ki> qui <ABS_ne> <MOD_e> est <MOD_pa> pas <TYP_la> là demain? <MOD_2main> demain <TYP_espace_avant_?_manquante> ? annotation Rachel Panckhurst, CÉNC, 31/5/12 29
  • 30. Variability (orthographique) • can only in part be explained in terms of errors, as a great deal of variation is intentional • is a research topic in itself • complicates research as it hinders the processing of the data by means of standard tools (tokenizers, POS taggers and lemmatizers, parsers, NE recognizers, etc.) Han & Baldwin (2012: 368): “We found Twitter data to have an unsurprisingly long tail of OOV words, suggesting that conventional supervised learning will not perform well due to data sparsity. Additionally, many ill-formed words are ambiguous, and require context to disambiguate.” Workshop on Building Corpora of Computer-Mediated Communication — Dortmund 14-15 February 8 2013
  • 31. Expérience TAL dans notre groupe 31
  • 32. 32
  • 33. 33
  • 34. Groupes de travail du projet 2013 Droits, Amont : accept V0 Aval : accept V1 métadonnées Relations Ortolang corpus-écrits Prépa V1 Tweets, wikipedia TEI Nelles Structuration acquisitions Linda méta Ingénieur (Corpus-écrits + Ortolang) 34
  • 35. Dépôts individuels Flux de traitements GT traitements GT Validation V0 Clermont ingénieur 35
  • 37. 1) Modelling CMC in TEI: – brief overview of essential requirements concerning the representation of CMC from the perspective of the four projects [8 min], – selected aspects from the DeRiK-TEI schema reviewed from the perspective of the four projects (suggested focus: element posting, user modelling, interaction signs) [15 min], – problem sketches: (a) hypertext structures/“linked data“ (cf. topical focus of the conference), (b) multimodal CMC [5 mins each].  2) Challenges and perspectives in mapping features of computer-mediated communication to elements in TEI-P5  3) Metadata for cmc documents: challenges & suggestions 37
  • 38. Participants a u projet Groupe GT7, corpus-écrits  Linda Hriba , corpus-écrits  Achille Falaise, LIG, Grenoble  Benoît Sagot, Alpage, INRIA , Univ. P7  Paul Lotin, ingénieur, LRL  Béatrice Turpin, CRTF, Univ. de Cergy  Ingénieur à recruter (6  Céline Poudat, UMR LDI, Univ. Paris 13 mois/ETP, sur fonds  Ciara Wigham, LRL, Univ. Blaise Pascal Ortolang et corpus-écrits)  Fiammetta Namer, ATILF, Nancy  Georges Antoniadis, LIDILEM, Univ Grenoble 3  Georgeta Cislaru, CLESTHIA, Univ. Paris 3  Gudrun Ledegen , PREFics, Univ. de Rennes 2  Julien Longhi, CRTF, Univ. de Cergy  Mahé Ben Hamed, UMR BCL, Nice  Natalia Grabar, UMR STL, CNRS Univ. Lille 3  Paloque-Berges, Camille, DICEN, CNAM  Rachel Panckhurst, UMR Praxiling, CNRS Univ. Montpellier 3  Thierry Chanier, LRL, Univ. Blaise Pascal  Tita Kyriacopoulou, LIGM, Univ. Marne-la-Vallée  Virginie Zampa, LIDILEM, Univ Grenoble 3 38
  • 39. Pour nous suivre Corpus-écrits GT7, nouv-com https://groupes.renater.fr/wiki/corpus-ecrits-nouvcom/ 39