TEI et humanités digitales en milieu linguistique franco-maghrébin. IXe Congrès de l’Association des Francoromanistes allemands. LES « INTERFACES NUMÉRIQUES » DANS LA RECHERCHE AUJOURD’HUI
1. IXe Congrès de l’Association des Francoromanistes allemandsIXe Congrès de l’Association des Francoromanistes allemands
LES « INTERFACES NUMÉRIQUES » DANS LA RECHERCHE AUJOURD’HUILES « INTERFACES NUMÉRIQUES » DANS LA RECHERCHE AUJOURD’HUI
TEI et humanités digitales en milieu
linguistique franco-maghrébin
Mokhtar BEN HENDA
Henri HUDRISIER
3. HD : un point d’histoire
1 - Le literacy and linguistic computing (1960-1980)
L’Index Thomisticum : début 1950, le père Busa était le premier à
avoir l’idée générer de façon automatique un index de chaque
mot (lemmatisation) du corpus de l’œuvre de Thomas D’Aquin
Brown Corpus for Use on Digital Computers (1964)
Tous les mots de la langue anglaise dans toutes les variétés de
discours, indexés au moyen de machines
Première tentative de normaliser, de standardiser la construction d’un
corpus selon des principes statistiques
Le Thesaurus Linguae Graecae (1972)
Base de données qui rassemblerait tous les textes de la littérature
grecque (BetaCode Vs Cartes perforées)
Considérer le texte comme un phénomène statistique
Quantifier les signes, identifier les régularités statistiques dans les
textes, d’établir des concordances (recherche des occurrences en
contexte pour chaque mot et tri)
Définir la paternité d’un texte en étudiant la distribution de
fréquences
4. 2 - L’humanities computing (1980-1994)
Les HC coïncident avec l’émergence des
langages de documents structurés
1968 : GML (Generalized Markup Language)
1985 : ODA (Open Document Architecture).
Publié en 1993
1986 : SGML (Satandard Generalized Markup
Langage)
1987 : TEI (Text Encoding Initiative)
Enjeu : rendre possible la mutualisation des
données en apportant une solution à l’immense
variété des manières d’encoder
HD : un point d’histoire
Morale des Humanities Computing « I used to read texts, but now I am
learning the tools to play with them » Lou Burnard
Morale des Humanities Computing « I used to read texts, but now I am
learning the tools to play with them » Lou Burnard
5. HD : un point d’histoire
3 - Les digital humanities (1994-…)
Développement exponentiel des capacités informatiques :
Pleine période de discussions théoriques sur l’encodage
Explosion du nombre de bibliothèques numériques et de
projets de numérisation en masse
Émergence du grid computing : partage et mise à disposition
des informations
Émergence du cloud computing
Émergence de la folksonomie : contribution par l’utilisateur
final sans médiation scientifique ou technique
03 âges numériques
1. Numérisation (machine) : [encodage binaire]
2. Médiatisation : [Documents numériques structurés]
3. Relation numérique (Scénographie) : [Réseaux
virtuels, Hypertexte, cloud…]
6. HD : un point d’histoire
1 - Le literacy and linguistic computing
(1960-1980)
2 - L’humanities computing (1980-1994)
3 - Les digital humanities (1994-…)
« Nous sommes des experts de la
maïeutique du texte, et c’est
précisément ce qui définit la contribution
des sciences humaines et sociales à
l’élaboration du Web sémantique ».
Lou Burnard, « Du literary and linguistic
computing aux digital humanities : retour sur
40 ans de relations entre sciences humaines
et informatique », in Pierre Mounier (dir.),
Read/Write Book 2, Marseille, OpenEdition
Press (« Collection « Read/Write Book » »),
2012, p. 45-58
7. HD : au-delà de la textualité
Déconstruction de la catégorie « texte » et prendre
en compte les catégories parlées ou visuelles « Les
Humanités dé-livrées » (*):
(*) Les « humanités délivrées » Cultures parlées,
visuelles et écrites, réinventées hors du livre 1-2
octobre 2013, Amphimax 414, Université de Lausanne
Développement d’une attention aux
« littératies plurielles » (imprimé, informatique,
audiovisuel)
La codification digitale d’un document, de quelque
nature qu’il soit (écrit, oral, filmé, etc.), est
aujourd’hui un des terrains les plus importants de
redéfinition de la connaissance
La TEI (Text Encoding Initiative) s’y adapte
convenablement
8. Faire des recommandations qui se basent sur des
consensus
Concertation / collaboration (Consortium TEI)
Préférer les solutions générales à celles spécifiques à une
discipline
Pratiques communautaire et inter-communautaires
(Interdisciplinarité)
En même temps permettant la spécialisation et l'extension
Appropriation / personnalisation / évolution
TEI : Fondamentaux
10. Spécialisation / harmonisation / interopérabilité
La TEI est une architecture plastique, qui peut s’adapter aux
nouveaux besoins et enjeux de la recherche en SHS
Les aménagements de la TEI en schémas spécifiques :
TEI Lite : schéma pour la description de documents simples
Bare TEI : schéma basique avec un minimum d’éléments
All : schéma avec tous les modules inclus
Corpus : schéma pour encoder les corpus linguistiques
MS : schéma pour la description des manuscrits et les formes complexes
Performance : schéma pour la description d’oeuvres théâtrales et
autres (audio, vidéo)
Speech : schéma pour la représentation du discours oral
Verse : schéma pour la description de poèmes
Dictionaries : schéma pour la description des dictionnaires
MEI : Music Encoding Initiative (2010)
TEI : Modélisation (schémas)
11. 3 niveaux de représentation
Niveau 1 : Toutes les
ressources numériques en SHS
disposent d’un minimum de
structure commune (Core TAG
SET) - Interopérabilité
Niveau 2 : Les ressources en
SHS peuvent être classées en
sous catégories par genres ou
types disposant à leurs tours
d’un minimum de points
communs (Base TAG SET)
Niveau 3 : Chaque ressource
dans une sous catégorie peut
avoir ses caractéristiques
spécifiques
Champs des SHS
Discipline Discipline Discipline
Document Document Document
TEI : hiérarchisation
14. Contexte maghrébin
Interdisciplinarité / collaboration
interinstitutionnelle
Verticalité des structures institutionnelles et
cloisonnement des disciplines
Isolement des chercheurs et les disciplines,
Complémentarité des disciplines respectives :
littérature, arts, linguistique, sciences de l’information et
de la communication, informatique, sciences
humaines et sociales
en matière de recherche littéraire, l’édition critique
d’aujourd’hui est éminemment une œuvre non
seulement collective mais aussi collaborative.
15. Contexte maghrébin
Diversité linguistique
La région du Maghreb connaît une hybridation linguistique
importante qui impacte lentement son patrimoine culturel.
D'importantes quantités de ressources dans différentes langues
et cultures ont été accumulées dans la région du Maghreb, soit
dérivées de l'arabe classique (i.e. les dialectes régionaux) ou de
divers dialectes berbères (i.e kabyle).
Plusieurs ressources sont même composées simultanément dans
plusieurs langues courantes ou réduites (arabe littéraire, l'arabe
dialectal, français, anglais, berbère) comme les journaux,
"imprimerie de ville", supports publicitaires, la littérature
populaire, contes, manuels pour l'apprentissage des langues,
etc.
Ces ressources sont souvent écrites dans une écriture hybride
mélangeant arabe classique et vernaculaire, ou en combinant
les formes de translittération entre latin, arabe et tifinagh (script
traditionnel berbère).
16. Diversité linguistique
Constat :
Il n'existe pas aujourd'hui de vaste corpus de textes en
langues et écritures vernaculaires (contrairement à la
littérature classique imprimée et le fonds de manuscrits
médiévaux),
Hypothèse :
Prise de conscience de la diversité de ces ressources
textuelles
Augmentation exponentielle du nombre de chercheurs
intéressés par la collecte et l'étude des textes anciens
classiques et des ressources orales et en dialectes
locaux,
Encodage TEI:
Proposer de nouvelles formes d’interfaces d’accès
Intégrer ces ressources dans le patrimoine culturel
international
17. Diversité linguistique
Une analyse linguistique et socio-culturelle du contexte
maghrébin définirait la façon dont la TEI, dans ses versions
actuelles et futures, saurait :
permettre de coder le patrimoine culturel maghrébin, au-
delà du seul niveau de catalogage selon les normes
bibliographiques (MARC ISBD, RCAA2, Dublin Core)
Normaliser les différentes approches de la lecture savante.
Dans son évolution constante, et la nécessité de renforcer sa
facette de l'internationalisation, la communauté TEI enrichit sans
aucun doute les caractéristiques culturelles et linguistiques, ce
qui bien sûr exigeraient que cette communauté soit organisée
pour fournir des formats standards adéquats pour l'encodage et
de présenter un large éventail de linguistique données textuelles
hétérogènes.
18. Diversité linguistique
Produire des modèles de référence basées sur la TEI dans les
langues locales et leur présenter les communautés
académiques et professionnelles. Ces normes permettront
d'aborder la complexité linguistique spécifique que
l'hybridation des ressources numériques (dialectes locaux) et
la préservation d'une richesse culturelle millénaire orale et
artistique
En tant que tel, la question de jeux de caractères n'est pas sans
conséquence pour représenter les dialectes locaux, en grande partie
parce que beaucoup de leurs aspects culturels n'ont pas été prises
en compte dans l'élaboration de normes existantes (numéros de
transcription et des symboles, des formes de ligatures, diplomatique
et anciens alphabets).
Il existe, par exemple, de nombreuses propriétés de la langue arabe
ou berbère, comme les propriétés tonales, synonymie régionale et
voyellation classique (écrit notarial) qui nécessitent un traitement
spécial.
Les normes, notamment la norme Unicode (beaucoup moins de
normes ISO 8859) ne prennent pas en compte un grand nombre de
ces aspects
19. Objectifs
Création d'une communauté de pratique spécialisée dans le
traitement des ressources spécifiques.
Nous notons que la plupart de ces ressources sont potentiellement
complexes et certaines fonctions nécessitent probablement des
arrangements de balisage spécifiques,
Cela signifie qu'un environnement dynamique est nécessaire pour
spécifier l'encodage de ces documents : un environnement dans
lequel il est simple de coder pour des structures simples, mais où des
structures plus complexes peuvent également être codées,
Par conséquent, il est important d'avoir des spécifications qui peuvent
être facilement étendues lorsque les caractéristiques nouvelles et
intéressantes sont identifiées,
Ce qui nous intéresse dans la TEI, c'est précisément
sa dynamique collégiale ouverte sur la diversité linguistique non-européenne
son éclectisme dans les disciplines de recherche (littérature, manuscrit,
corpus oraux, la recherche dans les arts, linguistique ...),
sa rigueur pour maintenir, enrichir et ldocumenter des directives ouvertes sur
la diversité, et capables d'assurer l'interopérabilité de toutes les ressources
produites.
20. Enjeux
Plus spécifiquement
L'acquisition de nouveaux habitus de recherche sur les
ressources numériques en SHS,
La maîtrise de leur mise en œuvre en corpus interopérable
pour promouvoir la synergie de la coopération et de l'étude
mondiale de ces ressources,
L'étude du processus d'appropriation, la relocalisation des
approches et des redéfinitions épistémologiques induits
21. Montage du projet
HumanitéDigitMaghreb
Le projet est une recherche-action qui s’inscrit dans les
orientations de recherche des Humanités Digitales
Projet ISCC/CNRS mis en place en 2012 par une équipe de
chercheurs de différentes institutions universitaires en
France et au Maghreb et du Canada [des linguistes,
chercheurs en littérature, culture, histoire, musique, arts,…
tant en français qu’en arabe ou berbère]
23. Objectifs généraux
S’inscrire dans la dynamique des Humanités digitales comme définie
dans les « Principes de Poughkeepsie » (résolutions finales de la
conférence de Vassar College, New York, en novembre 1987) :
« 12. Nous nous engageons dans l’édification d’une compétence collective
s’appuyant sur un vocabulaire commun, compétence collective qui
procède du travail de l’ensemble des acteurs. Cette compétence
collective a vocation à devenir un bien commun. Elle constitue une
opportunité scientifique, mais aussi une opportunité d’insertion
professionnelle, dans tous les secteurs.
13. Nous souhaitons participer à la définition et à la diffusion de bonnes
pratiques, correspondant à des besoins disciplinaires et transdisciplinaires
identifiés, qui soient évolutives et issues d’un débat puis d’un consensus au
sein des communautés concernées. L’ouverture fondamentale des digital
humanities assure néanmoins une approche pragmatique des protocoles
et des visions, qui maintient le droit à la coexistence de méthodes
différentes et concurrentes, au profit de l’enrichissement de la réflexion et
des pratiques.
14. Nous appelons à la construction de cyberinfrastructures évolutives
répondant à des besoins réels. Ces cyberinfrastructures se construiront de
façon itérative, s’appuyant sur le constat de méthodes et d’approches qui
font leurs preuves au sein des communautés de recherche. »
24. Finalités
Edition numérique : Humanités digitales
démontrer que le futur de l’édition critique numérique (qui est le cœur
de métier de la communauté TEI), est une question hautement
stratégique qui doit être collectivement débattue par les chercheurs
impliqués dans les Humanités digitales.
Intelligence collective :
Recherche collaborative en réseaux et mise en commun de ressources
numériques,
porter à un degré jusqu’ici jamais atteint l’intelligence collective des
problématiques travaillées par des chercheurs en SHS.
Communauté de pratiques (TEI Consortium)
Consortium TEI : mise en réseaux d’espaces de travail structurés par
des balises pour les sciences humaines et sociales
Appui à la recherche en littérature et en étude de textes : manuscrits,
paléographie, poésie, théâtre, lexicologie, roman, littératures orales,
etc.
25. Objectifs méthodiques
Organisation de dispositif (méthode)
Adopter des méthodes pour évaluer le rôle et l’importance
des technologies numériques et de la communication dans la
recherche scientifique
Instrumentalisation de la recherche SHS (outils)
Mettre l’accent sur les opportunités, les difficultés et les limites
de l'usage de la technologie numérique dans les pratiques
des recherches scientifiques notamment dans les sciences
humaines et la création littéraire et artistique
Evaluation/qualité de pratiques
Appliquer des procédures spécifiques pour évaluer les
pratiques numériques en SHS, lettres et arts
Stratégie (perspectives)
Trouver des orientations pour un meilleur usage des données
du monde numérique, et une bonne pratique scientifique,
surtout chez les jeunes chercheurs en SHS, lettres et arts
26. Recherche-action
Définir des modèles de structure de corpus
numérique en SHS fondés sur des typologies de
documents (genres littéraires) proposés par les
partenaires du projet dans les disciplines des
sciences humaines et sociales, des lettres eet
des arts
Produire un environnement technologique de
production de corpus SHS normalisé par la TEI
Mettre en ligne un corpus de démonstration de
ressources mutualisées en SHS
27. Schéma général du projet
Corpus SHS :
Modèles de structures
de documents SHS
Poésie
Théâtre Conte
Musique Manuscrit Discours
Fable
Autres
Vidéo
Peinture
28. Les phases du projet
Stratégie d’action (méthode)
Répartiion de roles
Choix d’outils / applications
Production de ressources
Structuration (segmentation)
Codage
Organisation des collections/corpus
Iréférencement
Indexation
Exploitation
Recherche de contenu
Diffusion
29. Une méthode de travail
Spécialiste SHS
Technicien XML/TEI
Spécialiste de l’Info-Com.
Corpus Arts & SHS
30. Une méthode de travail
Les SPÉCIALISTES SHSSPÉCIALISTES SHS identifient la structure logique d’un
type de document dans leurs spécialités respectives
(roman, poésie, théâtre, conte, manuscrit, peinture,
musique, …)
31. Une méthode de travail
Les TECHNICIENSTECHNICIENS convertissent le modèle défini par les
spécialistes SHS en schéma informatique (TEI/XML) avec
logiciels spécifiques
Codification XML/TEI
Codification XML/TEIFichiers XML
32. Une méthode de travail
Les DOCUMENTALISTESDOCUMENTALISTES font le référencement des corpus
par métadonnées et constituent les BD
Référencement/indexation
Référencement/indexation
CMS / BD
35. Outils (interfaces)
Adapter un
shéma de base
Adapter un
schéma
exhaustif
Modifier une
adaptation
existante
Utiliser une
adaptation
existante
Adapter à partir d’un
schéma spécifique
http://www.tei-c.org/Roma/
40. Outils (interfaces)
Xaira (moteur de recherche xml)
Explorer le langage d'un corpus :
chercher des mots, des motifs, des phrases ou des balises
XML
analyser la façon dont ils sont utilisés.
42. PRODUCTION : Structuration/encodage
d’un poème (TEIVerse)
Identifier dans un poème
La mesure des vers
Les différents types de vers
Les groupes de verts
(couplets, tercets, quatrains)
La strophe
La forme de la strophe
La rime
L’enjambement
Le rejet et le contre-rejet
...
Le choix de granularité peut varier entre
grands segments et éléments plus petits
Le choix de granularité peut varier entre
grands segments et éléments plus petits
43. PRODUCTION : Structuration/encodage
d’un poème (TEIVerse)
<text>
<body>
<head>Heureux qui, comme Ulysse, a fait un beau
voyage </head>
<lg>
<l>Heureux qui, comme Ulysse, a fait un beau voyage </l>
<l> Ou comme cestuy-là qui conquit la toison </l>
<l> Et puis est retourné, plein d'usage et raison </l>
<l> Vivre entre ses parents le reste de son âge ! </l>
</lg>
<lg>
<l> Quand reverrai-je, hélas, de mon petit village </l>
<l> Fumer la cheminée, et en quelle saison </l>
<l> Reverrai-je le clos de ma pauvre maison </l>
<l> Qui m'est une province, et beaucoup davantage ?
</lg>
<lg>
<l> Plus me plaît le séjour qu'ont bâti mes aïeux </l>
<l> Que des palais Romains le front audacieux </l>
<l> Plus que le marbre dur me plaît l'ardoise fine : </l>
</lg>
<lg>
<l> Plus mon Loir gaulois, que le Tibre latin </l>
<l> Plus mon petit Liré, que le mont Palatin </l>
<l> Et plus que l'air marin la douceur angevine </l>
</lg>
</body>
</text>
<teiHeader>
<fileDesc>
<titleStmt>
<Title>Heureux qui comme
Ulysse</title>
<respStmt>
<resp>Auteur</resp>
<Name>Joacquim Du
Belay</name>
</respStmt>
</titleStmt>
<sourceDesc>
<Bibl>Recueil Les regrets
</bibl>
</sourceDesc>
</fileDesc>
</teiHeader>
<text>…
44. PRODUCTION : Structuration/encodage
d’une pièce de théâtre (TEIDrama)
Identifier dans une pièce de théâtre :
L’interprétation et la mise en scène
La parole sur scène
Les didascalies
Les types d’exposition
Le dénouement
Le prologue
…
Interventions et indications scéniques
<sp who=“P”>
<speaker>Paul</speaker>
<p>Il fait chaud
aujourd’hui…</p>
</sp>
<stage>Paul allume une
cigarette</stage>
45. <surface> : une page, une stèle, tout
objet avec une inscription
La surface contient des zones et
des lignes
Elle a des coordonnées
<zone>: Une aire de la superficie
définie de façon arbitraire à des fins
éditoriaux. Les zones peuvent se
superposer : la superposition est définie
selon des coordonnées spatiaux
Peut contenir des <line>
Dispose de coordonnées
<line> : une suite de texte identifiée de
façon claire par l’éditeur
Peu contenir du texte et des
<zone>
Ne dispose pas de coordonnées
PRODUCTION : Structuration/encodage
d’un manuscrit (TEIManuscript)
57. PRODUCTION : Structuration/encodage
d’un fichier son (TEISpeech)
Un énoncé se définit comme une
« séquence attribuée à un
locuteur à un instant » : flux
temporel « Timeline »
Les énoncés sont regroupés dans
des balises <div> (division)
Les segments de discours
composant l’énoncé sont balisés
par <s> ou <seg>
Opérer, au moyen de balises et
d’attributs, une description très
fine des différents phénomènes
de communication oraux et non-
oraux qui font partie du discours :
pauses, chevauchements de paroles,
changements d’intonation, de voix
ou de langue, expressions vocalisées
(tousser, rire, se moucher, grogner…),
gestes, etc.
66. Perspectives
Projet MEI TEI-Euromed
(1) Techno-linguistique et les questions technico-
scripturaire en rapport avec la musique arabo-berbère: TEI
a été adapté pour être appliqué aux ressources
linguistiques d'Europe occidentale.
Le latin, le grec et cyrillique posent donc pas de problèmes
techniques et il existe des communautés importantes, y
compris TEI, opérant dans plus de l'anglais, allemand, français,
italien et espagnol.
Grâce aux efforts d'adaptation importants, il existe aujourd'hui
des communautés TEI en japonais, coréen et chinois.
Cependant, il ya peu ou pas de travail en arabe et encore
moins dans les langues berbères
La communauté rassemblée autour de notre projet a déjà
mobilisé pour entreprendre non seulement pour constituer des
corpus important dans ces langues, mais aussi entrepris
l'emplacement de TEI en arabe.
67. Perspectives
Projet MEI TEI-Euromed
Notons qu'il y a une traduction française de la « TEI Light »,
mais la traduction en français de la version complète de la
« TEI P5 Guidelines » (1500 pages en comptant les annexes
dont environ 600 pages sont traduites à ce jour).
Une version arabe est aussi une action liée à ce projet,
Un nouveau sujet linguistique est actuellement traité par TEI:
l'arabe est la première écriture de droite à gauche traitée par
la TEI,
Cette question semble triviale, mais pose quelques problèmes
d'adaptation de centaines de balises qui composent la TEI.
Les mêmes questions peuvent se poser dans les MEI pour la
notation musicale orientale.
68. Perspectives
Projet MEI TEI-Euromed
(2) les problèmes d'analyse scientifique pour la musique et la
poésie arabe et berbère : L'essence de la TEI, ainsi que la MEI, est
qu'au-delà des tâches de balisage de documents (en-tête et
apparat critique) et le balisage structurel (la structure explicite de
corpus poétique et/ou musical dans les collections, poèmes,
strophes, vers, hémistiches, pieds ou des signes de ponctuation,
etc ... ou des morceaux de musique, des partitions, des refrains,
des mesures, des notes et des pauses ...) des problèmes innovants
commencent réellement avec la mise en place d'un balisage
pour encoder les aspects sémantiques de l'analyse scientifique et
critique,
Dans la poésie et la musique occidentale, des niveaux de
référencement et de structuration explicites sont relativement bien
connus,
Il y a des corpus substantiel qui ont déjà pris en compte et adaptées à
leurs problèmes des modes spécifiques de balisage pour toutes les
formes de métrique occidentale (idem pour la musique),
Beaucoup d’apparats critiques ont déjà atteint une taille importante
entre les différents chercheurs utilisant la TEI et / ou MEI.
69. Le Quo vadis du projet !
Journées d’évaluation du projet à l’ISCC (25-26 avril 2013)
Pistes prévues
Inscrire le projet auprès du consortium TEI (participation de Lou
Burnard aux journées)
Internationalisation des référentiels : traduction des (bouts des)
Guidelines en
Arabe
Berbère
Monter des partenariats de bibliothèques numériques et
préservation du patrimoine au Maghreb et en Afrique
Dynamique de recherche chez les partenaires Sud
70. Perspectives
Projet MEI TEI-Euromed
Cependant, dans la musique et la poésie arabo-berbère, nous
démarrons sur une « table rase ».
Il reste à identifier les structures métriques arabes, les aspects distincts
de la notation musicale, mais dans l'ensemble pour renommer toutes
les balises pour coïncider avec la correspondance métrique, musicale
ou terminologie musicologique,
Le problèmes des humanités numériques (TEI et MEI) euro-
méditerranéennes est qu‘elles sont encore inexplorés,
Cela semble être une excellente occasion qui doit nécessairement
permettre de produire des centaines de balises spécifiques et une
terminologie multilingue pour ces zones critiques,
Ces développements (par construction) doivent être soumis à un
contrôle collégial par les consortiums MEITEI.
De ce point de vue, étant partenaire direct avec Roland Perry et Lou
Burnard, les deux fondateurs et les membres de leurs comités
scientifiques et techniques respectifs, c’est une force scientifique
majeur pour nous.