Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Introduction de la TEI pour la structuration et l'édition des correspondances

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 68 Anuncio

Más Contenido Relacionado

A los espectadores también les gustó (19)

Más reciente (20)

Anuncio

Introduction de la TEI pour la structuration et l'édition des correspondances

  1. 1. Introduction de la TEI pour la structuration et l'édition des correspondances 10 novembre 2014, Heidelberg Giancarlo Luxardo Cette présentation est mise à disposition selon les termes de la Licence Creative Commons Attribution Pas d’Utilisation Commerciale - Pas de Modification 3.0 France Praxiling UMR 5267 Université de Montpellier 3 – CNRS
  2. 2. • Documents • Processus • Outils • Modèles
  3. 3. • Documents • Processus • Outils • Modèles
  4. 4. Documents Qu’est-ce qu’une carte postale de Poilu ?
  5. 5. Documents Qu’est-ce qu’une carte postale de Poilu ?
  6. 6. Documents Qu’est-ce qu’une carte postale de Poilu ? Ceci n’est pas une carte postale !
  7. 7. Documents
  8. 8. Documents La Trahison des images, René Magritte (1929)
  9. 9. Documents Ceci n'est pas une pipe : l'importance de la modélisation pour les humanités numériques Lou Burnard le Mardi, 16 Décembre, 2014 - de 12:15 à 13:15 Maison des Sciences de l'Homme-Alpes Domaine Universitaire de Grenoble St-Martin d’Hères,
  10. 10. Documents Une carte postale de Poilu ? • Une source primaire, ou • une représentation : o un facsimile numérique (une image, plusieurs images) o une transcription (un texte) o une mise en page o des annotations (lisibilité ?) o des corrections orthographiques o des métadonnées o et aussi… une lecture audio ! une combinaison de…
  11. 11. Données non-structurées Qu’est-ce qu’une carte postale de Poilu ?  Traitement de texte (fichier : doc, docx, odt…)  Présenter un document
  12. 12. Données structurées Qu’est-ce qu’une carte postale de Poilu ?  Base de données (exécuter des requêtes)  Rechercher des documents (ex : toutes les correspondances du mois d’août 1914 écrites par…)
  13. 13. correspondence card letter + image + text + metadata surface 1…n Données structurées Modélisation de données
  14. 14. Données semi-structurées Qu’est-ce qu’une carte postale de Poilu ?  XML  tags  Annoter un document
  15. 15. <meta charset="UTF-8"> Aix-les-Bains,épouse <body> Je t'envoie donc trois cartes dans la même envelloppe<br> tu les recevras au moin tous a la fois et elle sont<br> toute numeroter pour les lires. je te disait donc<br> chère femme bien aimès que je t'ecrit ce soir 19 août<br> le dernnier soir que je suis à Aix en compagnie de<br> Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br> mais ce qu'il y a desagréable c'est que tu va recevoir<br> ces cartes huit jours apres que nous somme ici<br> et que nous avons reçu tous les deux deux lettre le<br> 17 courant qui était dater par vous du 12 et du<br> 13août et que vous ne savier pas encor que nous<br> étions ici a Aix. Enfin nous sonme tous bien portant et<br> tous se passe bien les francais son vainqueur partout<br> a bientot les plaisir de vous voir Alfred<br> </body> Données semi-structurées
  16. 16. <meta charset="UTF-8"> Aix-les-Bains,épouse <body> Je t'envoie donc trois cartes dans la même envelloppe<br> tu les recevras au moin tous a la fois et elle sont<br> toute numeroter pour les lires. je te disait donc<br> chère femme bien aimès que je t'ecrit ce soir 19 août<br> le dernnier soir que je suis à Aix en compagnie de<br> Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br> mais ce qu'il y a desagréable c'est que tu va recevoir<br> ces cartes huit jours apres que nous somme ici<br> et que nous avons reçu tous les deux deux lettre le<br> 17 courant qui était dater par vous du 12 et du<br> 13août et que vous ne savier pas encor que nous<br> étions ici a Aix. Enfin nous sonme tous bien portant et<br> tous se passe bien les francais son vainqueur partout<br> a bientot les plaisir de vous voir Alfred<br> </body> Ceci n’est pas un fichier XML ! (mais : pseudo-XML) Données semi-structurées
  17. 17. <?xml version="1.0" encoding="UTF-8"?> <card> <head> Aix-les-Bains,épouse </head> <body> Je t'envoie donc trois cartes dans la même envelloppe<br/> tu les recevras au moin tous a la fois et elle sont<br/> toute numeroter pour les lires. je te disait donc<br/> chère femme bien aimès que je t'ecrit ce soir 19 août<br/> le dernnier soir que je suis à Aix en compagnie de<br/> Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/> mais ce qu'il y a desagréable c'est que tu va recevoir<br/> ces cartes huit jours apres que nous somme ici<br/> et que nous avons reçu tous les deux deux lettre le<br/> 17 courant qui était dater par vous du 12 et du<br/> 13août et que vous ne savier pas encor que nous<br/> étions ici a Aix. Enfin nous sonme tous bien portant et<br/> tous se passe bien les francais son vainqueur partout<br/> a bientot les plaisir de vous voir Alfred<br/> </body> </card> Données semi-structurées
  18. 18. <?xml version="1.0" encoding="UTF-8"?> <card> <head> Aix-les-Bains,épouse </head> <body> Je t'envoie donc trois cartes dans la même envelloppe<br/> tu les recevras au moin tous a la fois et elle sont<br/> toute numeroter pour les lires. je te disait donc<br/> chère femme bien aimès que je t'ecrit ce soir 19 août<br/> le dernnier soir que je suis à Aix en compagnie de<br/> Marius buvant un verre de <s>rhum</s> <s>bi</s> Thé au rhum<br/> mais ce qu'il y a desagréable c'est que tu va recevoir<br/> ces cartes huit jours apres que nous somme ici<br/> et que nous avons reçu tous les deux deux lettre le<br/> 17 courant qui était dater par vous du 12 et du<br/> 13août et que vous ne savier pas encor que nous<br/> étions ici a Aix. Enfin nous sonme tous bien portant et<br/> tous se passe bien les francais son vainqueur partout<br/> a bientot les plaisir de vous voir Alfred<br/> </body> </card> Ceci n’est pas un document TEI ! Données semi-structurées
  19. 19. Nommage des fichiers (scripteur, date) : andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xml andre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xml andre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xml andre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml Autres métadonnées : andre-1-140807.jpg Identité du scripteur laurent-1-150515.jpg Lieu d’envoi pierre-1-141029.jpg Destinataire Données semi-structurées
  20. 20. Nommage des fichiers (scripteur, date) : andre-1-140807.xml laurent-1-150515.xml pierre-1-141029.xml andre-1-140809.xml laurent-1-150516.xml pierre-1-141105.xml andre-1-140818.xml laurent-1-150521-1.xml pierre-1-141106.xml andre-1-140820.xml laurent-1-150521-2.xml pierre-1-141116.xml Autres métadonnées : andre-1-140807.jpg Identité du scripteur laurent-1-150515.jpg Lieu d’envoi pierre-1-141029.jpg Destinataire Ceci n’est pas une base de données ! Données semi-structurées
  21. 21. • Documents • Processus • Outils • Modèles
  22. 22. Numériser  Transcrire
  23. 23. Je t'envoie donc trois cartes dans la même envelloppe tu les recevras au moin tous a la fois et elle sont toute numeroter pour les lires. je te disait donc chère femme bien aimès que je t'ecrit ce soir 19 août le dernnier soir que je suis à Aix en compagnie de Marius buvant un verre de rhum bi Thé au rhum Numériser  Transcrire
  24. 24. Je t'envoie donc trois cartes dans la même envelloppe tu les recevras au moin tous a la fois et elle sont toute numeroter pour les lires. je te disait donc chère femme bien aimès que je t'ecrit ce soir 19 août le dernnier soir que je suis à Aix en compagnie de Marius buvant un verre de rhum bi Thé au rhum <unclear>disait</unclear> <strikethrough>rhum</strikethrough> TranscrireNumériser  Transcrire
  25. 25. Numériser  Transcrire
  26. 26. St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi que Dombasle qui se trouve encor mieux a droite nous somme ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle au moin dix milles homme de troupes ça fait déjas quelque chose comme soldats. Numériser  Transcrire
  27. 27. St Nicolas ici à gauche Varangéville a droitte c'est comme St Laurent et Macon il y'a qu'un pont a traverser ca ce tien tous ainsi que Dombasle qui se trouve encor mieux a droite nous somme ici dans ces trois villes tant St Nicolas que Varangéville et Dombasle au moin dix milles homme de troupes ça fait déjas quelque chose comme soldats. Carte postale sur 4 pages Position ? Numériser  Transcrire
  28. 28. Numériser  Transcrire
  29. 29. Mardi Le 25 Janvier 1916 Cher beau-frère Je repons à ton aimable carte que j'ai reçu hier date du quelle ma fait bien plaisir de te savoir en bonne santé car il et de méme pour moi Je suis été à Baillargue Dimanche toute la famille va bien mon père étaient à Montpellier pour voir sil vous lez tuer les cochons cela fait qui les turons Mercredi ou Jeudi je pense que tu goutera de Numériser  Transcrire
  30. 30. Mardi Le 25 Janvier 1916 Cher beau-frère Je repons à ton aimable carte que j'ai reçu hier date du quelle ma fait bien plaisir de te savoir en bonne santé car il et de méme pour moi Je suis été à Baillargue Dimanche toute la famille va bien mon père étaient à Montpellier pour [?] voir sil vous lez tuer les cochons cela fait qui les turons Mercredi ou Jeudi je pense que tu goutera de [?] <gap/> Numériser  Transcrire
  31. 31. Je t'envoie donc trois cartes dans la même envelloppe tu les recevras au moin tous a la fois et elle sont toute numeroter pour les lires. Structurer  Annoter
  32. 32. Je t'envoie donc trois cartes dans la même envelloppe tu les recevras au moin tous a la fois et elle sont toute numeroter pour les lires.  Je t'envoie donc trois cartes dans la même enveloppe, tu les recevras au moins toutes à la fois et elles sont toutes numérotées pour les lire. Structurer  Annoter
  33. 33. Tableau lexical : avoir_VER:pres 3536 ne_ADV 1582 pas_ADV 1495 être_VER:pres 1457 bien_ADV1107 lettre_NOM 730 bon_ADJ 604 petit_ADJ 572 faire_VER:pres 537 recevoir_VER:pper 517 plus_ADV 494 jour_NOM 430 faire_VER:infi 424 santée_NOM 405 Structurer  Analyser
  34. 34. Analyse de données Structurer  Analyser
  35. 35. Objectif TEI Utiliser un langage de validation ? DTD XML Schema Schematron ODD Structurer  Publier
  36. 36. Objectif TEI Utiliser un langage de validation ? DTD XML Schema Schematron ODD Structurer  Publier
  37. 37. A partir d’une représentation, publier : • sur le Web • sur différents sites • sur différentes présentations • sur le papier (?) Structurer  Publier
  38. 38. • Documents • Processus • Outils • Modèles
  39. 39. MS-Word OpenOffice LibreOffice … Traitement de texte
  40. 40. Problèmes : AutoCorrect AutoFormat AutoText … coeur  Cœur apostrophes traits d’union … Traitement de texte
  41. 41. Notepad Notepad++ (support XML) Komodo Edit (multi-plateforme) … Editeurs de texte
  42. 42. Editeurs XML
  43. 43. Logiciel de textométrie
  44. 44. • Documents • Processus • Outils • Modèles
  45. 45. Text Encoding Initiative • un standard ? • une norme ? • des recommendations ? La TEI c'est quoi? Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011 http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml TEI
  46. 46. Text Encoding Initiative • un standard ? • une norme ? • des recommandations ? La TEI c'est quoi? Lou Burnard, MMSH, Aix-en-Provence, 11 February 2011 http://tei.oucs.ox.ac.uk/Talks/2011-02-aix/talk-intro-tei.xml Ceci n’est pas un format ! TEI
  47. 47. 2. Les enjeux de la TEI "Text Encoding for Interchange" • faciliter la création, l’échange, et l’intégration des données textuelles informatisées o toute sorte de texte o toutes les langues o toute origine temporelle ou culturelle • La TEI s'adresse également ... o aux débutants, cherchant des solutions bien connues et consensuelles o aux experts, cherchant à créer de nouvelles solutions 3. Les buts de la TEI • faire des recommandations qui se basent sur un consensus existant • préférer les solutions générales à celles spécifiques à une discipline • en même temps permettant la spécialisation et l'extension TEI
  48. 48. 11 Representation of Primary Sources TEI
  49. 49. Un balisage sur : • la structure physique du document <surface xml:id="alfred-1-141202-1-a" type="verso" n="1v"> <graphic url="../../Images/alfred-1-141202-1-a.jpg"/> </surface> • la structure logique du document <body> <opener> St Nicolas du Port le 2 décembre 1914 Chère femme et cher fils<lb/> </opener> <p> • la structure sémantique du document <rs type="recipient">épouse</rs> TEI
  50. 50. XSL stylesheets for TEI XML This is a family of XSLT 2.0 stylesheets to transform TEI XML documents to various formats, including XHTML, LaTeX, XSL Formatting Objects, ePub, plain text, RDF, JSON; and to/from Word OOXML (docx) and OpenOfice (odt). They concentrate on the core TEI modules which are used for simple transcription and ‘born digital’ writing. It is important to understand that they do not: • cover all TEI elements and possible attribute values • attempt to define a standard TEI processing or rendering model TEI-XSL
  51. 51. Modèles d’édition La mise en place d’un workflow dépend de : o Ressources, contexte o Modèle de document, métadonnées o Processus : numériser - transcrire - annoter - publier - exploiter
  52. 52. (1) édition des textes, traitements textométriques (2) représentation des sources primaires, publication (3) workflow multimodal Edition en trois phases
  53. 53. Contexte : • divers lieux de numérisation • stagiaires effectuent transcriptions • chercheurs dans plusieurs structures • habitude des formats Office (doc, odt, pdf…) • exigence de statistiques textuelles (1) édition des textes
  54. 54. Contexte : • divers lieux de numérisation • stagiaires effectuent transcriptions • chercheurs dans plusieurs structures • habitude des formats Office (doc, odt, pdf…) • demande de statistiques textuelles  • TXM • définition d’un format pseudo-XML (mal formé !) • pas d’éditeur XML (oXygen ?) (1) édition des textes
  55. 55. conversion (1) édition des textes pseudo-XML identities.csv XML/w metadata.csv corpus14.css
  56. 56. conversion (1) édition des textes pseudo-XML identities.csv XML/w metadata.csv corpus14.css Problème : retro-conversions ?
  57. 57. (1) édition des textes
  58. 58. (1) édition des textes
  59. 59. Contexte : • hébergement sur Ortolang • consultation de textes et images en vis-à-vis • métadonnées exposées à moissonneurs OAI-PMH • indexation par moteurs de recherche (2) représentation des sources primaires
  60. 60. Contexte : • hébergement sur Ortolang • consultation de textes et images en vis-à-vis • métadonnées exposées à moissonneurs OAI-PMH • indexation par moteurs de recherche  • TEI module: transcr (Representation of Primary Sources) …parallel / embedded transcription • conversion de XML/w à TEI • fusion images et textes sur la base du schéma de nommage • pas d’éditeur XML, mais un éditeur polyvalent (Komodo) (2) représentation des sources primaires
  61. 61. conversion (2) représentation des sources primaires XML/w identities.csv metadata.csv Dossiers images XML-TEI sous-corpus scripteurs Images
  62. 62. <creation> <name>Alfred Foray</name> <date when="1914-08-19">19-08-1914</date> <rs type="place">Aix-les-Bains</rs> <rs type="recipient">épouse</rs> </creation> </profileDesc> </teiHeader> <!-- L'élément <facsimile> décrit l'ensemble d'images associées à la correspondance (carte="card", lettre="letter") --> <facsimile> <surfaceGrp type="card" n="1"> <!-- Chaque image doit être décrite suivant le modèle: <surface xml:id="*" type="verso|recto" n="?v|?r"><graphic url="*.jpg"/></surface> --> <surface xml:id="alfred-1-140819-2-ph" type="recto" n="1r"> <graphic url="../../Images/alfred-1-140819-2-ph.jpg"/> </surface> <surface xml:id="alfred-1-140819-2" type="verso" n="1v"> <graphic url="../../Images/alfred-1-140819-2.jpg"/> </surface> </surfaceGrp> </facsimile> <text xml:lang="fr" facs="#alfred-1-140819-2"> <!-- L'élément <opener> (optionnel) regroupe une ligne de date (et lieu) <dateline> et une formule de politesse <salute> --> <body> <opener> Je t'envoie donc trois cartes dans la même envelloppe<lb/> </opener> <p> tu les recevras au moin tous a la fois et elle sont<lb/> toute numeroter pour les lires. je te disait donc<lb/> chère femme bien aimès que je t'ecrit ce soir 19 août<lb/> le dernnier soir que je suis à Aix en compagnie de<lb/> Marius buvant un verre de <del rend="overstrike">rhum</del> <del rend="overstrike">bi</del> Thé au (2) représentation des sources primaires
  63. 63. (2) représentation des sources primaires Ce qu’on ne fait pas : document TEI qui contient une spécification de schema : ODD (One Document Does it all)
  64. 64. (2) représentation des sources primaires Portail TXM
  65. 65. Contexte : • Publication de nouvelles versions du corpus • Alterner transcription fidèle et orthonormée • Ajouter carnets de guerre • Gérer plusieurs langues • Format unique pour TXM et Ortolang ? • Import en TXM d’un format TEI (3) workflow multimodal
  66. 66. Contexte : • Publication de nouvelles versions du corpus • Alterner transcription fidèle et normée • Ajouter carnets de guerre • Gérer plusieurs langues • Format unique pour TXM et Ortolang ? • Import en TXM d’un format TEI  Work in progress (3) workflow multimodal
  67. 67. Je ne voi rienplus a vous dirre pour le moment et jen profite pour vous remerçier !
  68. 68. Je ne voi rienplus a vous dirre pour le moment et jen profite pour vous remerçier ! Ceci n’est pas une citation de Laurent !

×