Atelierpratiqued’éditionXML/TEI
EmmanuelleMorlock
IGE CNRS, UMR 5189
Proposé dans le cadre du Staged’ecdotique2015
de l’In...
Objectifs de l’atelier
★ Présenter la TEI et quelques notions technique indispensables
★ Montrer que le balisage est une a...
Introduction
Qu’est-ce que la TEI ?
Pourquoi utiliser XML pour une édition numérique ?
Quelques exemples commentés
La TEI c’est tout à la fois...
★ Un cadre d’encodage gratuit et libre
○ un cadre conceptuel pour la représentation des tex...
Mais ce n’est pas...
★ Le seul standard dans le domaine de la représentation des textes
★ Un cadre contraingnant ( = “expl...
www.tei-c.org
http://books.openedition.org/oep/679 http://www.sources-chretiennes.mom.fr/upload/doc/20110505-StageEcdotique-Hisoma-TEI-F...
http://dh.obdurodon.org/what-is-xml.xhtml
Pourquoi utiliser XML
pour une édition numérique de sources ?
XML en (très) bref
1. XML ne sert pas à afficher les données mais à les décrire. Il ne fait rien.
Appliqué à la représenta...
Principe du balisage descriptif 1
★ Délimitation de segments de texte de toutes tailles
+
★ Explicitation de leur nature o...
Principe du balisage descriptif 2
★ Les attributs précisent le sens des balises
<handNote xml:id="EP" medium="red-ink">
Ez...
Principe du balisage descriptif 3
★ Le balisage descriptif = décrit les données sans indication de traitement
★ Le princip...
Concrètement
Fichier XML :
<author><forename>Louise</forename>
<surname>Labé</surname></author>
Fichier CSS :
surname { fo...
Une source unique, des usages multiples
★ Un texte explicité et enrichi au moyen d’un métalangage simple, clair,
universel...
En quoi consiste
l’encodage TEI ?
Comparez
● <titre>Phèdre</titre>
● <persName>Phèdre</persName>
● <hi rend=”italics”>Phèdre</Phèdre>
Quelques principes à retenir
★ Texte vs Document
○ Le texte est une abstraction que l’on construit et que l’on peut encode...
Structure d’un fichier TEI
Processus global
pour une édition numérique de sources ?
Quoi encoder ? 4 dimensions principales
★ L’apparence physique et visuelle
○ représentation mimétique +/- transférable d’u...
Analyse préalable
★ Il s’agit d’identifier :
○ les éléments structurants et les caractéristiques principales du doc.
○ ide...
Processus
★ Analyse du document = quoi encoder ? = analyse et qualifiation des fonctions
des objets d’intérêt
★ Choix des ...
Exemples de balisages
Substitution
.
<subst> <subst>
<del/>
<add/>
</subst>
.. are all included. <del hand="#RG">It is</del>
<subst>
<add>T</add...
Abréviation avec expansion
.
<abbr> <choice>
<abbr/>
<expan/>
</subst>
<choice>
<abbr>&amp;</abbr>
<expan>et</expan>
</cho...
Développement éditorial
.
<ex>
<expan xml:lang=”la”>
<abbr>Imp</abbr>
<ex>erator</ex>
</expan>
Changements de main
.
<handshift> milestone (balise sans contenu)
Lorem ipsum dolor
<handshift medium=”encre-verte” new=”#...
Incertain
.
<unclear>
Vade retro
<unclear reason=”tache-d-encre” cert=”medium” resp=”#EM”>
Satanas
</unclear>
texte restitué
.
<supplied>
Il se retrouvait parmi le <supplied>reason=”erreur-du-scribe ”
>s</supplied> siens.
Exemples
http://www.berardier.org/
http://vangoghletters.org/
http://godwindiary.bodleian.ox.ac.uk/index2.html
http://txm....
Atouts d’un balisage TEI
Expressivité
Exploitabilité
Evolutivité
Réutilisabilité
Permet également de repousser certains ch...
Exercices pratiques
Programme
1. Prise en main de l’éditeur XML Oxygen Editor
2. Exercice : Transcription d’un court texte
3. Principes de tra...
Prise en main
d’Oxygen Editor
Découverte de l’interface
★ Personnaliser l’espace de travail
★ Préférences : choisir le navigateur par défaut :
○ Safari ...
Exercice 1
Transcription d’une page d’un manuscrit
de Flaubert extrait des Dossiers documentaires de
Bouvard et Pécuchet
M...
Exercice de transcription en TEI
★ Depuis Oxygen, ouvrez le fichier : “TEI_exercice_SC/content/modele_exercice_0.xml”
★ Le...
Analyse du document
Objectifs :
★ repérer la structure textuelle
★ identifier les “distinctions”
pertinentes pour votre pr...
Coller le texte dans le fichier xml
Baliser : à vous de jouer !
★ utilisez au choix la vue “auteur” ou “texte”
Quelques balises TEI courantes
Pour une information détaillée sur le modèle de données ou les attributs
possibles des bali...
Voir le résultat dans un navigateur
★ Cliquez sur le bouton “ouvrir dans le navigateur”
★ Le fichier s’affiche en fonction...
Transformer le résultat
Utilisez les feuilles de style XSL de la TEI fournies avec
Oxygen :
★ Cliquez sur le bouton “confi...
Encoder l’apparat critique
Théorie
★ Cf. diaporama de M. Burghart (EHESS, UMR CIHAM)
★ cf. fichier pdf “Antisèche” dans le dossier
“TEI_exercice_SC/s...
Exemple 1 : pseudo-edition-test-file.xml
Déclaration de la méthode d’encodage :
<variantEncoding method="parallel-segmenta...
Exemple 1 : pseudo-edition-test-file.xml
Liste des témoins
<front><div>
<listWit>
<witness xml:id="A">Manuscript A</witnes...
Exemple 1 : pseudo-edition-test-file.xml
Groupes de variantes :
Exemple 1 : pseudo-edition-test-file.xml
Enchâssement de notes d’apparat :
Exercice 2
Transcription de votre cahier de collation
établi cette semaine (Valerio del Bierzo)
Encore à vous de jouer...
★ Ouvrez le fichier : TEI_exercice_SC/content/modele_apparat_critique.xml
★ à partir de votre ca...
La granularité de la variation dépend des choix de l’
encodeur...
“Contrôle qualité”
Visualisez et contrôlez votre encodage à l’aide de l’outil
développé par M. Burghart “TEI Critical Edit...
Visualisations
Diple
http://developpements.enc.sorbonne.fr/diple/theme/enc/index.php
Versioning machine
http://v-machine.o...
2 façons différentes de transformer votre
fichier XML
Diple : dé-commentez l’instruction de traitement “<?xml-
stylesheet ...
18 02-2015 atelier-pratique-xml-tei-stage-d-ecdotique-2015
18 02-2015 atelier-pratique-xml-tei-stage-d-ecdotique-2015
18 02-2015 atelier-pratique-xml-tei-stage-d-ecdotique-2015
Próxima SlideShare
Cargando en…5
×

18 02-2015 atelier-pratique-xml-tei-stage-d-ecdotique-2015

1.148 visualizaciones

Publicado el

  • Sé el primero en comentar

18 02-2015 atelier-pratique-xml-tei-stage-d-ecdotique-2015

  1. 1. Atelierpratiqued’éditionXML/TEI EmmanuelleMorlock IGE CNRS, UMR 5189 Proposé dans le cadre du Staged’ecdotique2015 de l’Institut Sources Chrétiennes, Lyon, 18/02/2015 cf. http://ecdotique.hypotheses.org/stages-et-formation/la-semaine-decdotique
  2. 2. Objectifs de l’atelier ★ Présenter la TEI et quelques notions technique indispensables ★ Montrer que le balisage est une activité intellectuelle et analytique ★ Pratiquer l’encodage en deux étapes : ○ Encodage d’un court texte ○ Encodage d’un apparat critique à partir de votre “cahier de collation” ★ Utiliser des outils de visualisation du résultat de l’encodage et de relecture ○ Simple feuille de style CSS personnalisable selon des objectifs de relecture ○ Critical edition toolbox : pour faciliter le contrôle des encodages complexes ○ Modèle d’édition critique DIPLE (Ec. Nat. des Chartes) ○ Versioning Machine pour la visualisation parallèle de plusieurs témoins
  3. 3. Introduction Qu’est-ce que la TEI ? Pourquoi utiliser XML pour une édition numérique ? Quelques exemples commentés
  4. 4. La TEI c’est tout à la fois... ★ Un cadre d’encodage gratuit et libre ○ un cadre conceptuel pour la représentation des textes ○ une architecture informatique modulaire et évolutive ○ des “Guidelines” = documentation utilisateur des recommandations d’encodage ○ un modèle de document ★ Un écosystème ○ des outils très nombreux et variés ○ un consortium international ○ une communauté d’utilisateurs actifs ★ Plus qu’un “format standard” ○ un mécanisme pour produire des schémas de contrôle et de validation personnalisés ○ un mécanisme permettant de rendre explicite des lectures/interprétations d’un texte ○ un format permettant à l’archivage à long terme des données numériques
  5. 5. Mais ce n’est pas... ★ Le seul standard dans le domaine de la représentation des textes ★ Un cadre contraingnant ( = “explique-moi ce que tu fais” et pas “fais ainsi”) ★ Non-interprétatif ou “objectif” ★ Utilisé de manière uniforme (même au sein d’un même projet) ★ Un standard stable et non-évolutif ★ Une finalité en soi ★ Un format de publication automatique ★ L’assurance de la préservation à long très terme... cf. James Cummings, “What is the TEI? And why should I care? “ (27/01/2015) <https://prezi.com/jcvxvvzecc1y/what-is- the-tei-and-why-should-i-care-a-brief-introduction-for-classicists/>
  6. 6. www.tei-c.org
  7. 7. http://books.openedition.org/oep/679 http://www.sources-chretiennes.mom.fr/upload/doc/20110505-StageEcdotique-Hisoma-TEI-FClavaud.pdf
  8. 8. http://dh.obdurodon.org/what-is-xml.xhtml
  9. 9. Pourquoi utiliser XML pour une édition numérique de sources ?
  10. 10. XML en (très) bref 1. XML ne sert pas à afficher les données mais à les décrire. Il ne fait rien. Appliqué à la représentation des textes, il permet de décrire notamment leur structure (livre, section, chapitre, paragraphe, phrase, mot…) 2. Les balises ne sont pas prédéfinies On peut librement créer ses propres balises (en fonction de la structure logique qu’on choisit de représenter par exemple) 3. On peut l’utiliser avec une “grammaire” de balises (DTD ou Schéma) Pour donner de la rigueur et encoder avec un langage commun entre projets 4. XML est auto-descriptif et assez facilement lisible On peut prendre connaissance de la structure d’un corpus assez rapidement en ouvrant simplement le fichier avec n’importe quel éditeur de texte
  11. 11. Principe du balisage descriptif 1 ★ Délimitation de segments de texte de toutes tailles + ★ Explicitation de leur nature ou fonction <baliseX>Contenu textuel</baliseX> Balise ouvrante Balise fermante Segment balisé
  12. 12. Principe du balisage descriptif 2 ★ Les attributs précisent le sens des balises <handNote xml:id="EP" medium="red-ink"> Ezra Pound's annotations. </handNote> Valeur de l’attribut Attribut
  13. 13. Principe du balisage descriptif 3 ★ Le balisage descriptif = décrit les données sans indication de traitement ★ Le principe est celui de la séparation du contenu et de la présentation. ★ Comparez : ○ <author>Louise Labé</author> ○ <span class=”small-caps”>Louise Labé</span> ★ Le but est de décrire la fonction plus que l’apparence du rendu final : ○ c’est cela qui offre la flexibilité maximale permettant des chaînes éditoriales “multi-support” : le rendu est traité à une étape ultérieure, et peut être adapté à chaque support, au contexte de réception ou dispositif de lecture...
  14. 14. Concrètement Fichier XML : <author><forename>Louise</forename> <surname>Labé</surname></author> Fichier CSS : surname { font-variant: small-caps; font-family: Times; } Résultat : Louise LABÉ
  15. 15. Une source unique, des usages multiples ★ Un texte explicité et enrichi au moyen d’un métalangage simple, clair, universel, permettant de baliser n’importe quel type de texte ★ Une source “matrice”, à partir de laquelle on peut produire des versions différentes (vue normalisée vs vue diplomatique ; version pour le web, pour les liseuses, version “grand public, version savante) ★ Un fichier lisible par les humains (contrairement aux fichiers binaires) ★ Un fichier utilisable pour des recherches fines, des extractions ciblées, des analyses automatiques... ★ Un format libre, facilitant l’intéropérabilité
  16. 16. En quoi consiste l’encodage TEI ?
  17. 17. Comparez ● <titre>Phèdre</titre> ● <persName>Phèdre</persName> ● <hi rend=”italics”>Phèdre</Phèdre>
  18. 18. Quelques principes à retenir ★ Texte vs Document ○ Le texte est une abstraction que l’on construit et que l’on peut encoder ○ Un document est un objet que l’on peut numériser ★ XML considère le texte comme un système de hiérarchies ordonnées d’objets de contenus (les balises doivent être strictement imbriquées) ★ L’encodage consiste à représenter l’information dans des structures arborescentes, en codant ces structures de manière compréhensible à un ordinateur.
  19. 19. Structure d’un fichier TEI
  20. 20. Processus global pour une édition numérique de sources ?
  21. 21. Quoi encoder ? 4 dimensions principales ★ L’apparence physique et visuelle ○ représentation mimétique +/- transférable d’un support à un autre ★ La dimension linguistique et structurelle ○ qu’un lecteur humain peut décoder puis la transcrire ou la traduire ★ La dimension sémantique ○ que l’on peut comprendre (ou pas !) et annoter ★ Le contexte de production ou de réception ○ que l’on peut décrire par le biais de métadonnées
  22. 22. Analyse préalable ★ Il s’agit d’identifier : ○ les éléments structurants et les caractéristiques principales du doc. ○ identifier les caractéristique liées aux centres d’intérêt de l’éditeur ★ Les deux peuvent venir de : ○ “pseudo-balisage” : déjà présents dans le document ○ explicitations issues du savoir externe de l’analyste ★ Au final, il s’agira toujours d’expliciter ce qui paraît important et les raisons de ses choix d’une manière la plus formalisée possible
  23. 23. Processus ★ Analyse du document = quoi encoder ? = analyse et qualifiation des fonctions des objets d’intérêt ★ Choix des balises / création d’un schéma personnalisé (à l’aide ou non du fichier de spécification ODD (One Document Does it all) ★ Balisage par approfondissements successifs ★ Présenter le document : via des “feuilles de style” CSS ou XSLT ○ CSS : simple, attribution de caractéristiques visuelles aux balises ○ XSL : plus complexe, permet de transformer le document XML ★ Exploiter le document : langages de requête XPath et XQuery...
  24. 24. Exemples de balisages
  25. 25. Substitution . <subst> <subst> <del/> <add/> </subst> .. are all included. <del hand="#RG">It is</del> <subst> <add>T</add> <del>t</del> </subst>he expressed
  26. 26. Abréviation avec expansion . <abbr> <choice> <abbr/> <expan/> </subst> <choice> <abbr>&amp;</abbr> <expan>et</expan> </choice>
  27. 27. Développement éditorial . <ex> <expan xml:lang=”la”> <abbr>Imp</abbr> <ex>erator</ex> </expan>
  28. 28. Changements de main . <handshift> milestone (balise sans contenu) Lorem ipsum dolor <handshift medium=”encre-verte” new=”#h1”/> sit amet (...) ailleurs dans le doc : <handNote xml:id=”h1”>Ecriture très régulière </handshift>
  29. 29. Incertain . <unclear> Vade retro <unclear reason=”tache-d-encre” cert=”medium” resp=”#EM”> Satanas </unclear>
  30. 30. texte restitué . <supplied> Il se retrouvait parmi le <supplied>reason=”erreur-du-scribe ” >s</supplied> siens.
  31. 31. Exemples http://www.berardier.org/ http://vangoghletters.org/ http://godwindiary.bodleian.ox.ac.uk/index2.html http://txm.bfm-corpus.org/
  32. 32. Atouts d’un balisage TEI Expressivité Exploitabilité Evolutivité Réutilisabilité Permet également de repousser certains choix au moment de l’utilisation et pas de la production ! par ex. normalisations : on encode les deux leçons, c’est le lecteur qui choisit !
  33. 33. Exercices pratiques
  34. 34. Programme 1. Prise en main de l’éditeur XML Oxygen Editor 2. Exercice : Transcription d’un court texte 3. Principes de transcription d’un apparat critique 4. Exercice : transcription du cahier de collation 5. Visualisations : a. Diple (présentation classique avec affichage des variantes au survol de la souris) b. Versioning machine (voir en parallèle les différents témoins)
  35. 35. Prise en main d’Oxygen Editor
  36. 36. Découverte de l’interface ★ Personnaliser l’espace de travail ★ Préférences : choisir le navigateur par défaut : ○ Safari (de préférence) ou Firefox ★ Expérimenter : ○ saisie d’une balise ○ balises possibles dans le contexte ○ valeurs possibles d’un attribut ○ documentation contextuelle ○ CTRL (CMD) + E ○ style
  37. 37. Exercice 1 Transcription d’une page d’un manuscrit de Flaubert extrait des Dossiers documentaires de Bouvard et Pécuchet Ms g226 (8) f°198 - conservé à la Bibliothèque municipale de Rouen http://www.dossiers-flaubert.fr/cote-g226_8_f_198__r____
  38. 38. Exercice de transcription en TEI ★ Depuis Oxygen, ouvrez le fichier : “TEI_exercice_SC/content/modele_exercice_0.xml” ★ Le fichier à transcrire se trouve dans : “TEI_exercice_SC/sources/exercice-flaubert” ★ Processus à suivre : a. Analyser le document b. Copier le texte dans l’éditeur (depuis “DBP_8_198_r_texte_avec_sauts_de_ligne.txt”) c. Baliser : i. la structure ii. les interventions éditoriales de l’auteur (ajouts, suppressions, substitutions...) iii. les normalisations iv. les entités nommées v. … et tout autre caractéristique qui vous paraît pertinente
  39. 39. Analyse du document Objectifs : ★ repérer la structure textuelle ★ identifier les “distinctions” pertinentes pour votre projet éditorial ou les analyses souhaitées : ○ Orthographe ? ○ Variantes graphiques des lettres ? ○ Capitalisations ? ○ Ponctuation ? ○ Abréviations ? ○ Mise en page ? ○ Ajouts, suppressions ? ○ erreurs, omissions ? ○ etc.
  40. 40. Coller le texte dans le fichier xml
  41. 41. Baliser : à vous de jouer ! ★ utilisez au choix la vue “auteur” ou “texte”
  42. 42. Quelques balises TEI courantes Pour une information détaillée sur le modèle de données ou les attributs possibles des balises TEI, se reporter à la documentation en ligne sur le site de la TEI : http://www.tei-c.org/ <lb/> Saut de ligne <head> titre <div> division <p> paragraphe <del> suppression <add> ajout <subst> substitution <choice> balisages alternatifs <orig> forme originale <reg> forme régularisée <placeName> Nom de lieu <persName> Nom de personne
  43. 43. Voir le résultat dans un navigateur ★ Cliquez sur le bouton “ouvrir dans le navigateur” ★ Le fichier s’affiche en fonction de la feuille de style CSS indiquée par les instructions de traitement du début du fichier (donnés par le modèle)
  44. 44. Transformer le résultat Utilisez les feuilles de style XSL de la TEI fournies avec Oxygen : ★ Cliquez sur le bouton “configurer un scénario de transformation” ★ Choisissez le scénario de votre choix dans la liste “TEI P5” ○ xhtml, pdf, odt, etc.
  45. 45. Encoder l’apparat critique
  46. 46. Théorie ★ Cf. diaporama de M. Burghart (EHESS, UMR CIHAM) ★ cf. fichier pdf “Antisèche” dans le dossier “TEI_exercice_SC/sources/exercice-JdeVitry”
  47. 47. Exemple 1 : pseudo-edition-test-file.xml Déclaration de la méthode d’encodage : <variantEncoding method="parallel-segmentation" location="internal"/> dans teiHeader//encodingDesc
  48. 48. Exemple 1 : pseudo-edition-test-file.xml Liste des témoins <front><div> <listWit> <witness xml:id="A">Manuscript A</witness> <witness xml:id="B">Manuscript B</witness> <witness xml:id="C">Manuscript C</witness> <witness xml:id="D">Manuscript D</witness> <witness xml:id="E">Manuscript E</witness> </listWit> </div></front>
  49. 49. Exemple 1 : pseudo-edition-test-file.xml Groupes de variantes :
  50. 50. Exemple 1 : pseudo-edition-test-file.xml Enchâssement de notes d’apparat :
  51. 51. Exercice 2 Transcription de votre cahier de collation établi cette semaine (Valerio del Bierzo)
  52. 52. Encore à vous de jouer... ★ Ouvrez le fichier : TEI_exercice_SC/content/modele_apparat_critique.xml ★ à partir de votre cahier de collation (ou de la mise en commun du stage d’ecdotique 2014 cf. TEI_exercice_SC/sources/exercice-valere/stage SC.2014Travail2bis.doc), complétez le fichier...
  53. 53. La granularité de la variation dépend des choix de l’ encodeur...
  54. 54. “Contrôle qualité” Visualisez et contrôlez votre encodage à l’aide de l’outil développé par M. Burghart “TEI Critical Edition Toolbox” http://ciham-digital.huma-num.fr/teitoolbox/
  55. 55. Visualisations Diple http://developpements.enc.sorbonne.fr/diple/theme/enc/index.php Versioning machine http://v-machine.org/
  56. 56. 2 façons différentes de transformer votre fichier XML Diple : dé-commentez l’instruction de traitement “<?xml- stylesheet href="../src/vmachine.xsl" type="text/xsl" ?> ” et lancez votre navigateur... Versionning machine : copiez le fichier dans “TEI_exercice_SC/vmachine_MB/samples” puis lancez votre navigateur…

×