SlideShare una empresa de Scribd logo
1 de 56
Descargar para leer sin conexión
f
Mokhtar Ben Henda
MICA EA 4426
TEI et Humanités Digitales : retour d’expérience du
projet « HumanitéDigitMaghreb »
 Trois axes :
HD : Humanités digitales
TEI : Text Encoding Initiative
HuMiDa : Projet HumanitéDigitMaghreb
Plan de présentation
HD : points d’histoire
 Est-ce qu’il y a eu un Big Bang des HD ?
 Les Humanités digitales synthétisent plus clairement
l'esprit qui animait les anciennes fondations d'Alexandrie,
Pergame, et Memphis, les grandes bibliothèques
monastiques du Moyen Age, et même les premières
bibliothèques de recherche des Lumières.
 L’obsession par les variétés de représentation, de
l'organisation des connaissances, la technologie de
communication et de diffusion, et la production d'outils
utiles pour la recherche académique
 Au XXe Sc. l’informatique leur donne un nouvel élan
 3 périodes successives qui ont marqué le développement
des relations entre sciences humaines et informatique,
ainsi que les principes qui les ont portées
HD : points d’histoire
 1 - Le literacy and linguistic computing (1960-1980)
 L’Index Thomisticum : début 1950, le père Busa était le premier à avoir l’idée générer de
façon automatique un index de chaque mot (lemmatisation) du corpus de l’œuvre de
Thomas D’Aquin
 Brown Corpus for Use on Digital Computers (1964)
 Tous les mots de la langue anglaise dans toutes les variétés de discours, indexés au
moyen de machines
 Première tentative de normaliser, de standardiser la construction d’un corpus selon des
principes statistiques
 Le Thesaurus Linguae Graecae (1972)
 Base de données qui rassemblerait tous les textes de la littérature grecque (BetaCode Vs
Cartes perforées)
Considérer le texte comme un phénomène statistique
 Quantifier les signes, identifier les régularités statistiques dans les textes,
d’établir des concordances (recherche des occurrences en contexte pour
chaque mot et tri)
 Définir la paternité d’un texte en étudiant la distribution de fréquences
HD : points d’histoire
 2 - L’humanities computing (1980-1994)
 Années 1980 : importantes évolutions technologiques et
informatiques
 Encodage des données informatiques (OCR, appareil photo,
clavier)
 Émergence du concept de document numérique
 Besoin d’un modèle abstrait de structuration pour :
– produire une représentation numérique des ressources du monde réel
(livres, objets d’art…)
– pouvoir les traiter, les analyser automatiquement et les enrichir.
 Enjeu
 Pérenniser les bits dont est composé un texte numérisé
 Exprimer la portée (sens) de l’encodage dans le modèle
abstrait du texte
  Langage à balises
HD : points d’histoire
 Les HC coïncident avec l’émergence des langages de documents structurés
 1968 : GML (Generalized Markup Language)
 1985 : ODA (Open Document Architecture). Publié en 1993
 1986 : SGML (Satandard Generalized Markup Langage)
 1987 : TEI (Text Encoding Initiative)
 Enjeu : rendre possible la mutualisation des données en apportant une
solution à l’immense variété des manières d’encoder
 Tel est l’enjeu fondamental de la Text Encoding Initiative
 Marquer tous les éléments devant être distingués dans un texte
 Un modèle unique, encyclopédique, de représentation des éléments
signifiants d’un texte
Morale des humanities computing : « I used to read texts, but now I’m learning the
tools to play with them » (Lou Burnard)
HD : points d’histoire
 Institutionnalisation
 Création de formations universitaires
 Services de données : Arts and Humanities Data Service (http://www.ahds.ac.uk/)
 Archivage longue durée : Oxford Text Archive (1976 : http://ota.ahds.ac.uk/)
 Le partage et la collaboration
 En 1987 est fondée la liste Humanist : notion de communauté de pratiques reprise
du principe de la correspondance des savants du XVIIe
 Interdisciplinarité & classification des sciences
 Alliance entre sciences sociales, sciences informatiques et sciences humaines
(Pierre Bourdieu, Régis Debray, Umberto Eco, Jack Goody, Eric Havelock, Harold
Innis, André Leroi-Gourhan, Bruno Latour, Marshall McLuhan, Edgar Morin, Walter
Ong…)
 Industrialisation des savoirs
 L’imprimerie (SGML) : rupture avec l’imprimerie conventionnelle
HD : points d’histoire
 3 - Les digital humanities (1994-…)
 Développement exponentiel des capacités informatiques :
 Pleine période de discussions théoriques sur l’encodage
 Explosion du nombre de bibliothèques numériques et de projets de
numérisation en masse
 Émergence du grid computing : partage et mise à disposition des
informations
 Émergence du cloud computing
 Émergence de la folksonomie : contribution par l’utilisateur final sans
médiation scientifique ou technique
03 âges numériques (Jean-Alain Pigearias)
1. Numérisation (machine) : [encodage binaire]
2. Médiatisation : [Documents numériques structurés]
3. Relation numérique (Scénographie) : [Réseaux virtuels,
Hypertexte, cloud…]
HD : points d’histoire
 « La spécificité des sciences humaines et sociales consiste en
l’étude du texte, de l’objet textuel. Nous travaillons sur le
texte, qui représente un discours, raconte une histoire, et
tâchons d’expliquer ces histoires, ces contes, ces
représentations. »
 « Nous sommes des experts de la maïeutique du texte, et
c’est précisément ce qui définit la contribution des sciences
humaines et sociales à l’élaboration du Web sémantique ».
Lou Burnard, « Du literary and linguistic computing aux digital
humanities : retour sur 40 ans de relations entre sciences humaines et
informatique », in Pierre Mounier (dir.), Read/Write Book 2, Marseille,
OpenEdition Press (« Collection « Read/Write Book » »), 2012, p. 45-58
 Or …
HD : au-delà de la textualité
 La prédominance du texte est désormais remise en cause
 Réfléchir à la déconstruction de la catégorie « texte » et prendre en compte
les catégories parlées ou visuelles « Les Humanités délivrées » (*):
(*) Les « humanités délivrées » Cultures parlées, visuelles et écrites, réinventées
hors du livre 1-2 octobre 2013, Amphimax 414, Université de Lausanne
 Développement d’une attention aux « littératies plurielles » (imprimée,
informatique, audiovisuelle)
 La codification digitale d’un document, de quelque nature qu’il soit (écrit,
oral, filmé, etc.), est aujourd’hui un des terrains les plus importants de
redéfinition de la connaissance
 La TEI s’y adapte progressivement d’une version à une autre
Text Encoding Initiative
TEI : logique structurelle
 Un format XML (un langage à balises
: jeux de recommandations de
‘‘Tags’’ pour représenter des formes
de texte complexes
 Les TEI Guidelines sont publiées en
1990 (P1) en pleine période de
conception de langages structurés
(fondés sur SGML)
 Mode opératoire : définir la nature
des faits à représenter, puis chercher
un moyen de l’exprimer (définir des
schémas de structure) [bottom-up]
1987: Vassar College, Poughkeepsie
1990: P1 : SGML
1992: P2 : SGML
1994: P3 : SGML : 600 + elements
1995: TeiLite : SGML : 131 elements
1999: P3rev : SGML
2000: TEI Consortium
2001: P4 : XML comp
2001: TeixLite : XML
2005: P5 : XML
2007: P5 version 1
Using TEI XML
 A semantic markup language for recording and publishing texts
 It describes what something IS or what something MEANS
(rather than how it will look)
 We decide to what extent we want to identify and record
information about our texts
 -> the XML works for us, notthe other way round
 We choose the “tags” we want to use to mark up our texts, and
we list these in a schema that can be shared with others ->
development of shared markup
Why use an ontology?
 To model our common understandings and expert knowledge.
This allows us to:
 Share our knowledge with other people - also across computers and
software
 Standardize our terms – shared vocabulary
 Explicitly state our knowledge (and discover any implicit assumptions)
 Reuse our models in similar scenarios
 Computer-assisted analysis to help us work
TEI Specific achievments
 a determination that the Standard Generalized Markup Language (SC") is the
framework for development of the Guidelines;
 the specification of restrictions on and recommendations for SGML use that best serves
the needs of interchange, as well as enables maximal generality and flexibility in order
to serve the widest possible range of research, development, and application needs;
 analysis and identification of categories and features for encoding textual data, at many
levels of detail;
 specification of a set of general text structure definitions that is effective, flexible, and
 extensible;
 specification of a method for in-file documentation of electronic texts compatible with
library cataloging conventions, which can be used to trace the history of the texts and
thus assist in authenticating their provenance and the modifications they have
undergone;
 specification of encoding conventions for special kinds of texts or text features,
including: character sets, language corpora, general linguistics, dictionaries,
terminoiogicd data, spoken
 texts, hypermedia, literary prose, verse, drama, histokcal souece materials, text critical
apparatus
TEI : logique structurelle
 La TEI est une architecture plastique, qui peut s’adapter aux nouveaux
besoins et enjeux de la recherche en SHS
 Les réadaptations de la TEI :
 TEI Lite : schéma pour la description de documents simples
 Bare TEI : schéma basique avec un minimum d’éléments
 All : schéma avec tous les modules inclus
 Corpus : schéma pour encoder les corpus linguistiques
 MS : schéma pour la description des manuscrits et les formes complexes
 Performance : schéma pour la description d’oeuvres théâtrales et autres (audio, vidéo)
 Speech : schéma pour la représentation du discours oral
 Verse : schéma pour la description de poèmes
 Dictionaries : schéma pour la description des dictionnaires
 MEI : Music Encoding Initiative (2010)
TEI : logique structurelle
 3 niveaux de représentation
 Niveau 1 : Toutes les ressources
numériques en SHS disposent
d’un minimum de structure
commune (Core TAG SET)
 Niveau 2 : Les ressources en
SHS peuvent être classées en
sous catégories par genres ou
types disposant à leurs tours
d’un minimum de points
communs (Base TAG SET)
 Niveau 3 : Chaque ressource
dans une sous catégorie peut
avoir ses propres spécificités
Champs des SHS
Discipline Discipline Discipline
Document Document Document
 Because the TE1 is an SGML application, a TE1 conformant
document must be described by a document type definition
(DTD), which defines tags and provides a BNF grammar
description of the allowed structural relationships among them.
A TEI DTD is composed of the core tagsets, a single base tagset,
and any number of user selected additional tagsets, built up
according to a set of rules documented in the TE1 Guidelines. In
general, the full tagset for a given document is put together in
such a way that sets of tags can be included or excluded from it,
and thus the tags are allowed in a document or prohibited,
respectively.
Addidiormal tagsets (optional)
 special application areas such as alignment and linkage of text
segments to fom hypertexts;
 feature structure notation proposed for the encoding of entirely
abstract in
 A user of the TE9 scheme may combine as rnany or as few
additional tagsets as suit his or her needs. The existence of
tagsets for particulae application areas in the Guidelines reflects,
to some extent, accidents of history: no claim to systematic or
encyclopedic coverage is implied. It is expected that new tagsets
will be defined as a part of the continued work of the TE1 and in
related projectsterpretations of a text
TEI : logique structurelle
Niveau collection
Niveau entité
Niveau unité
Niveau paragraphe
Niveau chapitre
Liminaires : page de titre,
table des matières,
préface, dédicace etc
Annexes : Index, …
En-tête
(métadonnées) :
Données
bibliographqiues,
Techniques,
administratives, etc.
 At the highest level, al1 TE1 documents conform to a common
model. The basic unit is a text, that is, any single document or
stretch of natural language regarded as a self-contained unit for
processing purposes. The association of such a unit with a header
describing it as a bibliographic entity is regarded as a single TE1
element. Two variations on this basic structure are defined: a
collection of TE1 elements, or a variety of composite texts. The
first is appropriate for large disparate collections of independent
texts, for example in language corpora, or collections of unrelated
papers in an archive; the second applies to cases such as the
complete works of a given author, which might be regarded
simultaneously as a single text in its own right and as a series of
independent texts.
TEI : logique structurelle
 Structure minimale
<TEI>
<teiHeader>
[en-tête TEI]
</teiHeader>
<text>
<front>
[liminaires...]
</front>
<body>
[contenu]
</body>
<back>
[annexes]
</back>
</text>
</TEI>
Identifier dans un poème :
 La mesure des vers
 Les différents types de vers
 Les groupes de verts (couplets,
tercets, quatrains)
 La strophe
 La forme de la strophe
 La rime
 L’enjambement
 Le rejet et le contre-rejet
 ...
Le choix de granularité peut varier entre grands
segments et éléments plus petits
Stucturation d’un poème (TEIVerse)
Un sonnet : 2 quatrains, 2 tercet
Stucturation d’un poème (TEIVerse)
<text>
<body>
<head>Heureux qui, comme Ulysse, a fait un beau voyage </head>
<lg>
<l>Heureux qui, comme Ulysse, a fait un beau voyage </l>
<l> Ou comme cestuy-là qui conquit la toison </l>
<l> Et puis est retourné, plein d'usage et raison </l>
<l> Vivre entre ses parents le reste de son âge ! </l>
</lg>
<lg>
<l> Quand reverrai-je, hélas, de mon petit village </l>
<l> Fumer la cheminée, et en quelle saison </l>
<l> Reverrai-je le clos de ma pauvre maison </l>
<l> Qui m'est une province, et beaucoup davantage ?
</lg>
<lg>
<l> Plus me plaît le séjour qu'ont bâti mes aïeux </l>
<l> Que des palais Romains le front audacieux </l>
<l> Plus que le marbre dur me plaît l'ardoise fine : </l>
</lg>
<lg>
<l> Plus mon Loir gaulois, que le Tibre latin </l>
<l> Plus mon petit Liré, que le mont Palatin </l>
<l> Et plus que l'air marin la douceur angevine </l>
</lg>
</body>
</text>
<teiHeader>
<fileDesc>
<titleStmt>
<Title>Heureux qui comme
Ulysse</title>
<respStmt>
<resp>Auteur</resp>
<Name>Joacquim Du
Belay</name>
</respStmt>
</titleStmt>
<sourceDesc>
<Bibl>Recueil Les regrets
</bibl>
</sourceDesc>
</fileDesc>
</teiHeader>
<text>…
Identifier dans une pièce de théâtre :
 L’interprétation et la mise en scène
 La parole sur scène
 Les didascalies
 Les types d’exposition
 Le dénouement
 Le prologue
 …
Structuration d’une pièce de théâtre (TEIDrama)
Structuration d’un manuscrit (TEIManuscript)
<surface> : une page, une stèle, tout
objet avec une inscription
 La surface contient des zones et des
lignes
 Elle a des coordonnées
<zone>: Une aire de la superficie définie
de façon arbitraire à des fins éditoriaux.
Les zones peuvent se superposer : la
superposition est définie selon des
coordonnées spatiaux
 Peut contenir des <line>
 Dispose de coordonnées
<line> : une suite de texte identifiée de
façon claire par l’éditeur
 Peu contenir du texte et des <zone>
 Ne dispose pas de coordonnées
Structuration d’un manuscrit (TEIManuscript)
<sourceDoc>
<surface ulx="0" uly="0" lrx="200" lry="300">
<zone ulx="10" uly="43" lrx="185" lry="84"
rotate="0”>
<zone>
<line rend="right"> 1 April 2009</line>
</zone>
<line>Fed Birds in the park today.</line>
<line>Might write an articleabout</line>
<line>the Thick-billed Warbler.</line>
</zone>
<zone ulx="9" uly="20" lrx="70" lry="60" rotate="90”>
<line>Samaria is a Greek</line>
<line>brand of water that</line>
<line>comes from the natural</line>
<line>springs of Stilos, in</line>
<line>Crete</line>
</zone>
</surface>
</sourceDoc>
Structuration d’un manuscrit (TEIManuscript)
<surface
ulx="0"
uly="0"
lrx="700"
lry="1000">
<!-- ... -->
</surface>
<zone
ulx="93"
uly="681"
lrx="967"
lry="1568">
<graphic url=« gb.jpg"/>
</zone>
Structuration d’un manuscrit (TEIManuscript)
<surface xml:id=“s1” ulx="0" uly="0" lrx="50"
lry="50">
<zone xml:id=“s1-z1” ulx="1" uly="1"
lrx="10" lry="10">
<line>Poem</line>
<!-- ... -->
<line>the head</line>
</zone>
<zone xml:id=“s1-z2” ulx="4" uly="4"
lrx="20" lry="20">
<surface xml:id=“s2” ulx="0" uly="0"
lrx="100" lry="100">
<zone xml:id=“s2-z1” ulx="10" uly="10"
lrx="90" lry="95"> Spring has just set in here,
and the weather […] a steamer </zone>
</surface>
</zone>
</surface>
s1
s1-z1
s1-z2
s2
s2-z1
Structuration d’un graphique (Graph)
 Image Markup Tool
Structuration d’un graphique (Graph)
<teiHeader>
<fileDesc>
<titleStmt>
<title>The Image Markup Logo</title>
</titleStmt>
<publicationStmt>
<p></p>
</publicationStmt>
<sourceDesc>
<p>377 x 259</p>
</sourceDesc>
</fileDesc>
<encodingDesc>
</encodingDesc>
</teiHeader>
Structuration d’une partition musicale (MEI)
© The Music Encoding Initiative. http://music-encoding.org/
Structuration d’une partition musicale (MEI)
© The Music Encoding Initiative. http://music-encoding.org/
Structuration d’un partition musicale (MEI)
Structuration d’un partition musicale (MEI)
Métadonnées(TEIHeader)Espacedenom
Structuration d’un partition musicale (MEI)
‫الليل‬ ‫في‬ ‫الياسمينة‬ ‫تحت‬
‫نسمة‬‫والورد‬‫محاذيني‬
‫األغصان‬‫تــــميل‬ ‫عليا‬
‫تمسحلي‬‫دمعة‬ ‫في‬‫عيني‬
‫تحت‬‫الياسمينة‬‫اتكيت‬
‫عدلت‬‫وغنيت‬ ‫الـــعود‬
‫وتناطر‬‫وبكيت‬ ‫دمعي‬
‫تفكرتك‬‫كنت‬ ‫كيف‬‫تجيني‬
‫جنينة‬‫النوار‬ ‫مزينها‬
‫فاحت‬‫األزهار‬ ‫ريحت‬ ‫من‬
‫تفكرتك‬‫النار‬ ‫شعــــلت‬
‫عملت‬‫لهليبة‬‫في‬‫قليبي‬
‫متوحش‬‫محتار‬ ‫وحدي‬
‫ال‬‫أطيار‬ ‫حس‬ ‫ال‬ ‫و‬ ‫قمرة‬
‫كان‬‫األشجار‬ ‫ع‬ ‫النسمة‬
‫توانس‬‫فيا‬‫وتواسيني‬
Stanza(Quatrin)
Structuration d’un partition musicale (MEI)
Structuration d’un fichier son (TEISpeech)
 Un énoncé se définit comme une « séquence
attribuée à un locuteur à un instant » : flux
temporel « Timeline »
 Les énoncés sont regroupés dans des balises
<div> (division)
 Les segments de discours composant l’énoncé
sont balisés par <s> ou <seg>
 Opérer, au moyen de balises et d’attributs,
une description très fine des différents
phénomènes de communication oraux et
non-oraux qui font partie du discours :
 pauses, chevauchements de paroles, changements
d’intonation, de voix ou de langue, expressions
vocalisées (tousser, rire, se moucher, grogner…),
gestes, etc.
Le projet HumanitéDigitMaghreb
 Le projet est une recherche-action qui s’inscrit dans les orientations de
recherche des Humanités Digitales
 C'est un projet ISCC/CNRS mis en place en 2012 par une équipe de
chercheurs de différentes institutions universitaires en France et au
Maghreb et du Canada [des linguistes, chercheurs en littérature, culture,
histoire, musique, arts,… tant en français qu’en arabe ou berbère]
Objectifs du projet
 Mettre l’accent sur les opportunités, les difficultés et les limites de l'usage de la technologie
numérique dans les pratiques des recherches scientifiques notamment dans les sciences
humaines et la création artistique (Instrumentalisation de la recherche)
 Quelles méthodes doit-on adopter aujourd’hui pour évaluer le rôle et l’importance des
technologies numériques et de la communication dans la recherche scientifique ?
(Organisation de dispositif)
 Existe-t-il des procédures spécifiques pour diagnostiquer et juger les pratiques numériques
en arts et en sciences humaines ? (évaluation/qualité de pratiques)
 Trouver des orientations pour un meilleur usage des données du monde numérique, et une
bonne pratique scientifique, surtout chez les jeunes chercheurs en art et sciences humaines
(perspectives, stratégies)
Plus concrètement :
 S’approprier des nouveaux habitus de recherche sur des ressources numériques
en SHS
 Maîtriser leur mise en corpus interopérables pour favoriser la synergie de
coopération d’étude mondialisée sur ces patrimoines
 Étudier les processus d’appropriations, les déplacements d’approches et donc les
redéfinitions épistémologiques induites
Objectifs du projet
Plus concrètement encore …
 Définir des modèles de structure de corpus numérique en SHS fondés
sur des typologies de documents (genres littéraires) proposés par les
partenaires du projet dans des disciplines des sciences humaines, des
Arts et des techniques
 Produire un environnement applicatif de production de corpus SHS
normalisé par la TEI
 Mettre en ligne un corpus de démonstration de ressources
numériques en SHS mutualisées
Objectifs du projet
1. Les spécialistes en Arts et SHS
identifient la structure logique d’un
type de document dans leurs
spécialités respectives (roman, poésie,
théâtre, conte, manuscrit, peinture,
musique, …)
Une distribution des rôles:
2. Les techniciens convertissent le modèle
défini par les spécialistes SHS en schéma
informatique (TEI/XML) avec un logiciel
approprié
Une distribution des rôles:
3. Les spécialiste de l’information font le référencement
des corpus par métadonnées
Une distribution des rôles:
Spécialiste Arts & SHS
Technicien XML/TEI
Spécialiste de l’Info-Com.
Corpus Arts & SHS
Articulation des activités
Schéma général du projet
Corpus SHS :
échantillon de structures
de documents
Poésie
Théâtre Conte
Musique Manuscrit Discours
Fable
Autres
Vidéo
Peinture
Oxygen : logiciel de production
de corpus numérique en TEI
Les outils du projet
ROMA : pour créer des schémas TEI spécifiques et
valides
Les outils du projet
OxGarage : pour convertir des formats de documents
numériques de et vers la TEI ;
Les outils du projet
Les outils du projet
 OMEKA : agrégateur de corpus/collection/document
Les outils du projet
 OMEKA : référencement par métadonnées (Dublin Core)
Les outils du projet
 OMEKA : Moissonnage par OAI-PMH
Les outils du projet
 OMEKA : environnement d’archivage et de recherche
Le Quo vadis du projet !
 Journées d’évaluation du projet à l’ISCC (25-26 avril 2013)
 Pistes prévues
 Inscrire le projet auprès du consortium TEI (participation de Lou Burnard aux
journées)
 Internationalisation des référentiels : traduction des (bouts des) Guidelines en
 Arabe
 Berbère
 Monter des partenariats de bibliothèques numériques et préservation du
patrimoine au Maghreb et en Afrique
 Dynamique de recherche chez les partenaires Sud
<TEI>
<Teiheader>
Remercier la salle
</Teiheader>
<Text>
<Body>
<p>Merci de votre attention</p>
</body>
</Text>
</TEI>

Más contenido relacionado

Destacado

TEI for building multilingual corpora
TEI for building multilingual corporaTEI for building multilingual corpora
TEI for building multilingual corporaMokhtar Ben Henda
 
Reporducion agricola
Reporducion agricolaReporducion agricola
Reporducion agricolafaber1010
 
Periodico cristian gomez 1 (1)
Periodico cristian gomez 1 (1)Periodico cristian gomez 1 (1)
Periodico cristian gomez 1 (1)fable911
 
Caracteristicas arreglado pdf
Caracteristicas arreglado pdfCaracteristicas arreglado pdf
Caracteristicas arreglado pdf3ticgrupo7
 
Factorizamos con tony cad
Factorizamos con tony cadFactorizamos con tony cad
Factorizamos con tony cadVictor Alegre
 
Alimentos para bajar el colesterol
Alimentos para bajar el colesterolAlimentos para bajar el colesterol
Alimentos para bajar el colesterolalimentosparabaj
 
Les arts et le front populaire
Les arts et le front populaireLes arts et le front populaire
Les arts et le front populaireEmmanuel Dhullu
 
Dossier de Presse Congrès Mondial Sofrocay
Dossier de Presse Congrès Mondial SofrocayDossier de Presse Congrès Mondial Sofrocay
Dossier de Presse Congrès Mondial Sofrocaypbcom1998
 
Défilé du 14 juillet 2015 - Mexique invité d'honneur
Défilé du 14 juillet 2015 - Mexique invité d'honneurDéfilé du 14 juillet 2015 - Mexique invité d'honneur
Défilé du 14 juillet 2015 - Mexique invité d'honneurLe Grand Journal du Mexique
 
Aquatic Fitness Equipment
Aquatic Fitness EquipmentAquatic Fitness Equipment
Aquatic Fitness Equipmentarvindbenjara
 
Tecnologías de la información y las comunicaciones
Tecnologías de la información y las comunicacionesTecnologías de la información y las comunicaciones
Tecnologías de la información y las comunicaciones0luis01
 
Pobresa infantil Marga Mari Klose
Pobresa infantil Marga Mari KlosePobresa infantil Marga Mari Klose
Pobresa infantil Marga Mari Kloseunicefcatalunya
 
L’Etat doit indemniser les entrepreneurs des dysfonctionnements du RSI
L’Etat doit indemniser les entrepreneurs des dysfonctionnements du RSIL’Etat doit indemniser les entrepreneurs des dysfonctionnements du RSI
L’Etat doit indemniser les entrepreneurs des dysfonctionnements du RSIInstitut Protection Sociale
 
Présentation pour la rencontre en Roumanie sur notre région: Îles Canaries
Présentation pour la rencontre en Roumanie sur notre région: Îles CanariesPrésentation pour la rencontre en Roumanie sur notre région: Îles Canaries
Présentation pour la rencontre en Roumanie sur notre région: Îles Canariesleticiaprofesor
 

Destacado (20)

TEI for building multilingual corpora
TEI for building multilingual corporaTEI for building multilingual corpora
TEI for building multilingual corpora
 
Reporducion agricola
Reporducion agricolaReporducion agricola
Reporducion agricola
 
Periodico cristian gomez 1 (1)
Periodico cristian gomez 1 (1)Periodico cristian gomez 1 (1)
Periodico cristian gomez 1 (1)
 
Caracteristicas arreglado pdf
Caracteristicas arreglado pdfCaracteristicas arreglado pdf
Caracteristicas arreglado pdf
 
Factorizamos con tony cad
Factorizamos con tony cadFactorizamos con tony cad
Factorizamos con tony cad
 
Escrito ref.
Escrito ref.Escrito ref.
Escrito ref.
 
Alimentos para bajar el colesterol
Alimentos para bajar el colesterolAlimentos para bajar el colesterol
Alimentos para bajar el colesterol
 
Presentación1
Presentación1Presentación1
Presentación1
 
Les arts et le front populaire
Les arts et le front populaireLes arts et le front populaire
Les arts et le front populaire
 
Dossier de Presse Congrès Mondial Sofrocay
Dossier de Presse Congrès Mondial SofrocayDossier de Presse Congrès Mondial Sofrocay
Dossier de Presse Congrès Mondial Sofrocay
 
Lesson plan
Lesson planLesson plan
Lesson plan
 
Défilé du 14 juillet 2015 - Mexique invité d'honneur
Défilé du 14 juillet 2015 - Mexique invité d'honneurDéfilé du 14 juillet 2015 - Mexique invité d'honneur
Défilé du 14 juillet 2015 - Mexique invité d'honneur
 
Aquatic Fitness Equipment
Aquatic Fitness EquipmentAquatic Fitness Equipment
Aquatic Fitness Equipment
 
Tecnologías de la información y las comunicaciones
Tecnologías de la información y las comunicacionesTecnologías de la información y las comunicaciones
Tecnologías de la información y las comunicaciones
 
A174 Dieu nous accueille
A174 Dieu nous accueilleA174 Dieu nous accueille
A174 Dieu nous accueille
 
Taller valencia 12 de abril de 2013
Taller valencia 12 de abril de 2013Taller valencia 12 de abril de 2013
Taller valencia 12 de abril de 2013
 
Pobresa infantil Marga Mari Klose
Pobresa infantil Marga Mari KlosePobresa infantil Marga Mari Klose
Pobresa infantil Marga Mari Klose
 
L’Etat doit indemniser les entrepreneurs des dysfonctionnements du RSI
L’Etat doit indemniser les entrepreneurs des dysfonctionnements du RSIL’Etat doit indemniser les entrepreneurs des dysfonctionnements du RSI
L’Etat doit indemniser les entrepreneurs des dysfonctionnements du RSI
 
Inventos
InventosInventos
Inventos
 
Présentation pour la rencontre en Roumanie sur notre région: Îles Canaries
Présentation pour la rencontre en Roumanie sur notre région: Îles CanariesPrésentation pour la rencontre en Roumanie sur notre région: Îles Canaries
Présentation pour la rencontre en Roumanie sur notre région: Îles Canaries
 

Similar a TEI et Humanités Digitales : projet HumanitéDigitMaghreb

De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...Lou Burnard
 
L'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liéesL'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liéesGilbert Paquette
 
Master1 Histoire Internet 2008 2009
Master1 Histoire Internet 2008 2009Master1 Histoire Internet 2008 2009
Master1 Histoire Internet 2008 2009Alexandre Serres
 
Conversion numérique et modification épistémologique
Conversion numérique et modification épistémologiqueConversion numérique et modification épistémologique
Conversion numérique et modification épistémologiquemap8slide
 
Humanités numériques - Digital Humanities
Humanités numériques - Digital HumanitiesHumanités numériques - Digital Humanities
Humanités numériques - Digital HumanitiesURFIST de Paris
 
Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...
Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...
Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...Documentation Rouen
 
Normes standards (numériques)
Normes standards (numériques)Normes standards (numériques)
Normes standards (numériques)Clément Dussarps
 
Conf mapcolldoct24.05
Conf mapcolldoct24.05Conf mapcolldoct24.05
Conf mapcolldoct24.05map8slide
 
Projets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersProjets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersEmmanuelle Morlock
 
Exploring Enlightenment: Text Mining the 18th-Century Republic of Letters
Exploring Enlightenment: Text Mining the 18th-Century Republic of LettersExploring Enlightenment: Text Mining the 18th-Century Republic of Letters
Exploring Enlightenment: Text Mining the 18th-Century Republic of Lettersglennroe
 
De la lecture à la navigation: quelles compétences médiatiques
De la lecture à la navigation: quelles compétences médiatiquesDe la lecture à la navigation: quelles compétences médiatiques
De la lecture à la navigation: quelles compétences médiatiquesPierre Fastrez
 
Droit documentation electronique edshs
Droit documentation electronique edshsDroit documentation electronique edshs
Droit documentation electronique edshscarovalerie37
 
Documentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droitDocumentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droitcarovalerie37
 
Indexation sociale et bibliothéconomie de masse
Indexation sociale et bibliothéconomie de masseIndexation sociale et bibliothéconomie de masse
Indexation sociale et bibliothéconomie de masseolivier
 
Hamonic generiques hope
Hamonic generiques hopeHamonic generiques hope
Hamonic generiques hopeAssociationAF
 
Ceci n'est pas une pipe
Ceci n'est pas une pipeCeci n'est pas une pipe
Ceci n'est pas une pipeLou Burnard
 
Humanités numériques et littératies
Humanités numériques et littératiesHumanités numériques et littératies
Humanités numériques et littératiesOlivier Le Deuff
 

Similar a TEI et Humanités Digitales : projet HumanitéDigitMaghreb (20)

De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
De "Literary and Linguistic Computing" jusqu'aux "Humanites numeriques" : que...
 
L'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liéesL'ingénierie des ENA fondée sur le web des données ouvertes et liées
L'ingénierie des ENA fondée sur le web des données ouvertes et liées
 
Master1 Histoire Internet 2008 2009
Master1 Histoire Internet 2008 2009Master1 Histoire Internet 2008 2009
Master1 Histoire Internet 2008 2009
 
Conversion numérique et modification épistémologique
Conversion numérique et modification épistémologiqueConversion numérique et modification épistémologique
Conversion numérique et modification épistémologique
 
Humanités numériques - Digital Humanities
Humanités numériques - Digital HumanitiesHumanités numériques - Digital Humanities
Humanités numériques - Digital Humanities
 
Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...
Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...
Hervé Le Crosnier : Typologie des publications, contraintes juridiques, écono...
 
Normes standards (numériques)
Normes standards (numériques)Normes standards (numériques)
Normes standards (numériques)
 
Semantic web introduction
Semantic web introductionSemantic web introduction
Semantic web introduction
 
Conf mapcolldoct24.05
Conf mapcolldoct24.05Conf mapcolldoct24.05
Conf mapcolldoct24.05
 
Projets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiersProjets d'Humanités numérique et collaboration de différents métiers
Projets d'Humanités numérique et collaboration de différents métiers
 
Exploring Enlightenment: Text Mining the 18th-Century Republic of Letters
Exploring Enlightenment: Text Mining the 18th-Century Republic of LettersExploring Enlightenment: Text Mining the 18th-Century Republic of Letters
Exploring Enlightenment: Text Mining the 18th-Century Republic of Letters
 
De la lecture à la navigation: quelles compétences médiatiques
De la lecture à la navigation: quelles compétences médiatiquesDe la lecture à la navigation: quelles compétences médiatiques
De la lecture à la navigation: quelles compétences médiatiques
 
Droit documentation electronique edshs
Droit documentation electronique edshsDroit documentation electronique edshs
Droit documentation electronique edshs
 
Documentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droitDocumentation électronique. Ecole doctorale, droit
Documentation électronique. Ecole doctorale, droit
 
Projet : Modèles informatiques et linguistiques pour l'histoire du livre. Jea...
Projet : Modèles informatiques et linguistiques pour l'histoire du livre. Jea...Projet : Modèles informatiques et linguistiques pour l'histoire du livre. Jea...
Projet : Modèles informatiques et linguistiques pour l'histoire du livre. Jea...
 
Indexation sociale et bibliothéconomie de masse
Indexation sociale et bibliothéconomie de masseIndexation sociale et bibliothéconomie de masse
Indexation sociale et bibliothéconomie de masse
 
Test
TestTest
Test
 
Hamonic generiques hope
Hamonic generiques hopeHamonic generiques hope
Hamonic generiques hope
 
Ceci n'est pas une pipe
Ceci n'est pas une pipeCeci n'est pas une pipe
Ceci n'est pas une pipe
 
Humanités numériques et littératies
Humanités numériques et littératiesHumanités numériques et littératies
Humanités numériques et littératies
 

Más de Mokhtar Ben Henda

Webinaire de formation sur les REL
Webinaire de formation sur les RELWebinaire de formation sur les REL
Webinaire de formation sur les RELMokhtar Ben Henda
 
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...Mokhtar Ben Henda
 
Modalités & outils d’évaluation dans l’apprentissages en ligne
Modalités & outils d’évaluation dans l’apprentissages en ligneModalités & outils d’évaluation dans l’apprentissages en ligne
Modalités & outils d’évaluation dans l’apprentissages en ligneMokhtar Ben Henda
 
Écosystème d’ensemble d’un dispositif de formation hybride
Écosystème d’ensemble d’un dispositif de formation hybride Écosystème d’ensemble d’un dispositif de formation hybride
Écosystème d’ensemble d’un dispositif de formation hybride Mokhtar Ben Henda
 
Évaluation & Valorisation des résultats de la recherche
Évaluation & Valorisation des résultats de la rechercheÉvaluation & Valorisation des résultats de la recherche
Évaluation & Valorisation des résultats de la rechercheMokhtar Ben Henda
 
Modeling a Framework for Production and Dissemination of Open Educational Res...
Modeling a Framework for Production and Dissemination of Open Educational Res...Modeling a Framework for Production and Dissemination of Open Educational Res...
Modeling a Framework for Production and Dissemination of Open Educational Res...Mokhtar Ben Henda
 
Transformation Numerique à l'UEL (Vietnam)
Transformation Numerique à l'UEL (Vietnam)Transformation Numerique à l'UEL (Vietnam)
Transformation Numerique à l'UEL (Vietnam)Mokhtar Ben Henda
 
Classe inversée au TLU, Hanoï
Classe inversée au TLU, HanoïClasse inversée au TLU, Hanoï
Classe inversée au TLU, HanoïMokhtar Ben Henda
 
Formation Hybride au TLU, Hanoï
Formation Hybride au TLU, HanoïFormation Hybride au TLU, Hanoï
Formation Hybride au TLU, HanoïMokhtar Ben Henda
 
Gender-Equality_Scenarios.pptx
Gender-Equality_Scenarios.pptxGender-Equality_Scenarios.pptx
Gender-Equality_Scenarios.pptxMokhtar Ben Henda
 
Normes technologiques internationales : potentiels d’Innovation et de créativ...
Normes technologiques internationales : potentiels d’Innovation et de créativ...Normes technologiques internationales : potentiels d’Innovation et de créativ...
Normes technologiques internationales : potentiels d’Innovation et de créativ...Mokhtar Ben Henda
 
Modeling 30% online & 70% face-to-face learning
Modeling 30% online & 70% face-to-face learningModeling 30% online & 70% face-to-face learning
Modeling 30% online & 70% face-to-face learningMokhtar Ben Henda
 
Webinaires AUF ENS-Luang Prabang Laos
Webinaires AUF ENS-Luang Prabang LaosWebinaires AUF ENS-Luang Prabang Laos
Webinaires AUF ENS-Luang Prabang LaosMokhtar Ben Henda
 
مقاربة تحليلية للموارد التعليمية المفتوحة بموجب تراخيص المشاع الإبداعي و علاق...
مقاربة تحليلية للموارد التعليمية المفتوحة بموجب تراخيص المشاع الإبداعي و علاق...مقاربة تحليلية للموارد التعليمية المفتوحة بموجب تراخيص المشاع الإبداعي و علاق...
مقاربة تحليلية للموارد التعليمية المفتوحة بموجب تراخيص المشاع الإبداعي و علاق...Mokhtar Ben Henda
 
Open education between the specifications of Creative Commons and Copyright
Open education between the specifications of Creative Commons and CopyrightOpen education between the specifications of Creative Commons and Copyright
Open education between the specifications of Creative Commons and CopyrightMokhtar Ben Henda
 
Les fondamentaux de la classe inversée
Les fondamentaux de la classe inverséeLes fondamentaux de la classe inversée
Les fondamentaux de la classe inverséeMokhtar Ben Henda
 
L’intégrité académique en relation avec l’offre de formation d’un établisseme...
L’intégrité académique en relation avec l’offre de formation d’un établisseme...L’intégrité académique en relation avec l’offre de formation d’un établisseme...
L’intégrité académique en relation avec l’offre de formation d’un établisseme...Mokhtar Ben Henda
 
Animation des activités d'une classe virtuelle
Animation des activités d'une classe virtuelleAnimation des activités d'une classe virtuelle
Animation des activités d'une classe virtuelleMokhtar Ben Henda
 

Más de Mokhtar Ben Henda (20)

Webinaire de formation sur les REL
Webinaire de formation sur les RELWebinaire de formation sur les REL
Webinaire de formation sur les REL
 
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
La norme technique comme catalyseur de transferts : la Francophonie à l’oeuvr...
 
Modalités & outils d’évaluation dans l’apprentissages en ligne
Modalités & outils d’évaluation dans l’apprentissages en ligneModalités & outils d’évaluation dans l’apprentissages en ligne
Modalités & outils d’évaluation dans l’apprentissages en ligne
 
Écosystème d’ensemble d’un dispositif de formation hybride
Écosystème d’ensemble d’un dispositif de formation hybride Écosystème d’ensemble d’un dispositif de formation hybride
Écosystème d’ensemble d’un dispositif de formation hybride
 
Évaluation & Valorisation des résultats de la recherche
Évaluation & Valorisation des résultats de la rechercheÉvaluation & Valorisation des résultats de la recherche
Évaluation & Valorisation des résultats de la recherche
 
Modeling a Framework for Production and Dissemination of Open Educational Res...
Modeling a Framework for Production and Dissemination of Open Educational Res...Modeling a Framework for Production and Dissemination of Open Educational Res...
Modeling a Framework for Production and Dissemination of Open Educational Res...
 
Transformation Numerique à l'UEL (Vietnam)
Transformation Numerique à l'UEL (Vietnam)Transformation Numerique à l'UEL (Vietnam)
Transformation Numerique à l'UEL (Vietnam)
 
Classe inversée au TLU, Hanoï
Classe inversée au TLU, HanoïClasse inversée au TLU, Hanoï
Classe inversée au TLU, Hanoï
 
Classe virtuelle au TLU
Classe virtuelle au TLUClasse virtuelle au TLU
Classe virtuelle au TLU
 
Formation Hybride au TLU, Hanoï
Formation Hybride au TLU, HanoïFormation Hybride au TLU, Hanoï
Formation Hybride au TLU, Hanoï
 
Ressouces Éducatives
Ressouces ÉducativesRessouces Éducatives
Ressouces Éducatives
 
Gender-Equality_Scenarios.pptx
Gender-Equality_Scenarios.pptxGender-Equality_Scenarios.pptx
Gender-Equality_Scenarios.pptx
 
Normes technologiques internationales : potentiels d’Innovation et de créativ...
Normes technologiques internationales : potentiels d’Innovation et de créativ...Normes technologiques internationales : potentiels d’Innovation et de créativ...
Normes technologiques internationales : potentiels d’Innovation et de créativ...
 
Modeling 30% online & 70% face-to-face learning
Modeling 30% online & 70% face-to-face learningModeling 30% online & 70% face-to-face learning
Modeling 30% online & 70% face-to-face learning
 
Webinaires AUF ENS-Luang Prabang Laos
Webinaires AUF ENS-Luang Prabang LaosWebinaires AUF ENS-Luang Prabang Laos
Webinaires AUF ENS-Luang Prabang Laos
 
مقاربة تحليلية للموارد التعليمية المفتوحة بموجب تراخيص المشاع الإبداعي و علاق...
مقاربة تحليلية للموارد التعليمية المفتوحة بموجب تراخيص المشاع الإبداعي و علاق...مقاربة تحليلية للموارد التعليمية المفتوحة بموجب تراخيص المشاع الإبداعي و علاق...
مقاربة تحليلية للموارد التعليمية المفتوحة بموجب تراخيص المشاع الإبداعي و علاق...
 
Open education between the specifications of Creative Commons and Copyright
Open education between the specifications of Creative Commons and CopyrightOpen education between the specifications of Creative Commons and Copyright
Open education between the specifications of Creative Commons and Copyright
 
Les fondamentaux de la classe inversée
Les fondamentaux de la classe inverséeLes fondamentaux de la classe inversée
Les fondamentaux de la classe inversée
 
L’intégrité académique en relation avec l’offre de formation d’un établisseme...
L’intégrité académique en relation avec l’offre de formation d’un établisseme...L’intégrité académique en relation avec l’offre de formation d’un établisseme...
L’intégrité académique en relation avec l’offre de formation d’un établisseme...
 
Animation des activités d'une classe virtuelle
Animation des activités d'une classe virtuelleAnimation des activités d'une classe virtuelle
Animation des activités d'une classe virtuelle
 

TEI et Humanités Digitales : projet HumanitéDigitMaghreb

  • 1. f Mokhtar Ben Henda MICA EA 4426 TEI et Humanités Digitales : retour d’expérience du projet « HumanitéDigitMaghreb »
  • 2.  Trois axes : HD : Humanités digitales TEI : Text Encoding Initiative HuMiDa : Projet HumanitéDigitMaghreb Plan de présentation
  • 3. HD : points d’histoire  Est-ce qu’il y a eu un Big Bang des HD ?  Les Humanités digitales synthétisent plus clairement l'esprit qui animait les anciennes fondations d'Alexandrie, Pergame, et Memphis, les grandes bibliothèques monastiques du Moyen Age, et même les premières bibliothèques de recherche des Lumières.  L’obsession par les variétés de représentation, de l'organisation des connaissances, la technologie de communication et de diffusion, et la production d'outils utiles pour la recherche académique  Au XXe Sc. l’informatique leur donne un nouvel élan  3 périodes successives qui ont marqué le développement des relations entre sciences humaines et informatique, ainsi que les principes qui les ont portées
  • 4. HD : points d’histoire  1 - Le literacy and linguistic computing (1960-1980)  L’Index Thomisticum : début 1950, le père Busa était le premier à avoir l’idée générer de façon automatique un index de chaque mot (lemmatisation) du corpus de l’œuvre de Thomas D’Aquin  Brown Corpus for Use on Digital Computers (1964)  Tous les mots de la langue anglaise dans toutes les variétés de discours, indexés au moyen de machines  Première tentative de normaliser, de standardiser la construction d’un corpus selon des principes statistiques  Le Thesaurus Linguae Graecae (1972)  Base de données qui rassemblerait tous les textes de la littérature grecque (BetaCode Vs Cartes perforées) Considérer le texte comme un phénomène statistique  Quantifier les signes, identifier les régularités statistiques dans les textes, d’établir des concordances (recherche des occurrences en contexte pour chaque mot et tri)  Définir la paternité d’un texte en étudiant la distribution de fréquences
  • 5. HD : points d’histoire  2 - L’humanities computing (1980-1994)  Années 1980 : importantes évolutions technologiques et informatiques  Encodage des données informatiques (OCR, appareil photo, clavier)  Émergence du concept de document numérique  Besoin d’un modèle abstrait de structuration pour : – produire une représentation numérique des ressources du monde réel (livres, objets d’art…) – pouvoir les traiter, les analyser automatiquement et les enrichir.  Enjeu  Pérenniser les bits dont est composé un texte numérisé  Exprimer la portée (sens) de l’encodage dans le modèle abstrait du texte   Langage à balises
  • 6. HD : points d’histoire  Les HC coïncident avec l’émergence des langages de documents structurés  1968 : GML (Generalized Markup Language)  1985 : ODA (Open Document Architecture). Publié en 1993  1986 : SGML (Satandard Generalized Markup Langage)  1987 : TEI (Text Encoding Initiative)  Enjeu : rendre possible la mutualisation des données en apportant une solution à l’immense variété des manières d’encoder  Tel est l’enjeu fondamental de la Text Encoding Initiative  Marquer tous les éléments devant être distingués dans un texte  Un modèle unique, encyclopédique, de représentation des éléments signifiants d’un texte Morale des humanities computing : « I used to read texts, but now I’m learning the tools to play with them » (Lou Burnard)
  • 7. HD : points d’histoire  Institutionnalisation  Création de formations universitaires  Services de données : Arts and Humanities Data Service (http://www.ahds.ac.uk/)  Archivage longue durée : Oxford Text Archive (1976 : http://ota.ahds.ac.uk/)  Le partage et la collaboration  En 1987 est fondée la liste Humanist : notion de communauté de pratiques reprise du principe de la correspondance des savants du XVIIe  Interdisciplinarité & classification des sciences  Alliance entre sciences sociales, sciences informatiques et sciences humaines (Pierre Bourdieu, Régis Debray, Umberto Eco, Jack Goody, Eric Havelock, Harold Innis, André Leroi-Gourhan, Bruno Latour, Marshall McLuhan, Edgar Morin, Walter Ong…)  Industrialisation des savoirs  L’imprimerie (SGML) : rupture avec l’imprimerie conventionnelle
  • 8. HD : points d’histoire  3 - Les digital humanities (1994-…)  Développement exponentiel des capacités informatiques :  Pleine période de discussions théoriques sur l’encodage  Explosion du nombre de bibliothèques numériques et de projets de numérisation en masse  Émergence du grid computing : partage et mise à disposition des informations  Émergence du cloud computing  Émergence de la folksonomie : contribution par l’utilisateur final sans médiation scientifique ou technique 03 âges numériques (Jean-Alain Pigearias) 1. Numérisation (machine) : [encodage binaire] 2. Médiatisation : [Documents numériques structurés] 3. Relation numérique (Scénographie) : [Réseaux virtuels, Hypertexte, cloud…]
  • 9. HD : points d’histoire  « La spécificité des sciences humaines et sociales consiste en l’étude du texte, de l’objet textuel. Nous travaillons sur le texte, qui représente un discours, raconte une histoire, et tâchons d’expliquer ces histoires, ces contes, ces représentations. »  « Nous sommes des experts de la maïeutique du texte, et c’est précisément ce qui définit la contribution des sciences humaines et sociales à l’élaboration du Web sémantique ». Lou Burnard, « Du literary and linguistic computing aux digital humanities : retour sur 40 ans de relations entre sciences humaines et informatique », in Pierre Mounier (dir.), Read/Write Book 2, Marseille, OpenEdition Press (« Collection « Read/Write Book » »), 2012, p. 45-58  Or …
  • 10. HD : au-delà de la textualité  La prédominance du texte est désormais remise en cause  Réfléchir à la déconstruction de la catégorie « texte » et prendre en compte les catégories parlées ou visuelles « Les Humanités délivrées » (*): (*) Les « humanités délivrées » Cultures parlées, visuelles et écrites, réinventées hors du livre 1-2 octobre 2013, Amphimax 414, Université de Lausanne  Développement d’une attention aux « littératies plurielles » (imprimée, informatique, audiovisuelle)  La codification digitale d’un document, de quelque nature qu’il soit (écrit, oral, filmé, etc.), est aujourd’hui un des terrains les plus importants de redéfinition de la connaissance  La TEI s’y adapte progressivement d’une version à une autre
  • 12. TEI : logique structurelle  Un format XML (un langage à balises : jeux de recommandations de ‘‘Tags’’ pour représenter des formes de texte complexes  Les TEI Guidelines sont publiées en 1990 (P1) en pleine période de conception de langages structurés (fondés sur SGML)  Mode opératoire : définir la nature des faits à représenter, puis chercher un moyen de l’exprimer (définir des schémas de structure) [bottom-up] 1987: Vassar College, Poughkeepsie 1990: P1 : SGML 1992: P2 : SGML 1994: P3 : SGML : 600 + elements 1995: TeiLite : SGML : 131 elements 1999: P3rev : SGML 2000: TEI Consortium 2001: P4 : XML comp 2001: TeixLite : XML 2005: P5 : XML 2007: P5 version 1
  • 13. Using TEI XML  A semantic markup language for recording and publishing texts  It describes what something IS or what something MEANS (rather than how it will look)  We decide to what extent we want to identify and record information about our texts  -> the XML works for us, notthe other way round  We choose the “tags” we want to use to mark up our texts, and we list these in a schema that can be shared with others -> development of shared markup
  • 14. Why use an ontology?  To model our common understandings and expert knowledge. This allows us to:  Share our knowledge with other people - also across computers and software  Standardize our terms – shared vocabulary  Explicitly state our knowledge (and discover any implicit assumptions)  Reuse our models in similar scenarios  Computer-assisted analysis to help us work
  • 15. TEI Specific achievments  a determination that the Standard Generalized Markup Language (SC") is the framework for development of the Guidelines;  the specification of restrictions on and recommendations for SGML use that best serves the needs of interchange, as well as enables maximal generality and flexibility in order to serve the widest possible range of research, development, and application needs;  analysis and identification of categories and features for encoding textual data, at many levels of detail;  specification of a set of general text structure definitions that is effective, flexible, and  extensible;  specification of a method for in-file documentation of electronic texts compatible with library cataloging conventions, which can be used to trace the history of the texts and thus assist in authenticating their provenance and the modifications they have undergone;  specification of encoding conventions for special kinds of texts or text features, including: character sets, language corpora, general linguistics, dictionaries, terminoiogicd data, spoken  texts, hypermedia, literary prose, verse, drama, histokcal souece materials, text critical apparatus
  • 16. TEI : logique structurelle  La TEI est une architecture plastique, qui peut s’adapter aux nouveaux besoins et enjeux de la recherche en SHS  Les réadaptations de la TEI :  TEI Lite : schéma pour la description de documents simples  Bare TEI : schéma basique avec un minimum d’éléments  All : schéma avec tous les modules inclus  Corpus : schéma pour encoder les corpus linguistiques  MS : schéma pour la description des manuscrits et les formes complexes  Performance : schéma pour la description d’oeuvres théâtrales et autres (audio, vidéo)  Speech : schéma pour la représentation du discours oral  Verse : schéma pour la description de poèmes  Dictionaries : schéma pour la description des dictionnaires  MEI : Music Encoding Initiative (2010)
  • 17. TEI : logique structurelle  3 niveaux de représentation  Niveau 1 : Toutes les ressources numériques en SHS disposent d’un minimum de structure commune (Core TAG SET)  Niveau 2 : Les ressources en SHS peuvent être classées en sous catégories par genres ou types disposant à leurs tours d’un minimum de points communs (Base TAG SET)  Niveau 3 : Chaque ressource dans une sous catégorie peut avoir ses propres spécificités Champs des SHS Discipline Discipline Discipline Document Document Document
  • 18.  Because the TE1 is an SGML application, a TE1 conformant document must be described by a document type definition (DTD), which defines tags and provides a BNF grammar description of the allowed structural relationships among them. A TEI DTD is composed of the core tagsets, a single base tagset, and any number of user selected additional tagsets, built up according to a set of rules documented in the TE1 Guidelines. In general, the full tagset for a given document is put together in such a way that sets of tags can be included or excluded from it, and thus the tags are allowed in a document or prohibited, respectively.
  • 19. Addidiormal tagsets (optional)  special application areas such as alignment and linkage of text segments to fom hypertexts;  feature structure notation proposed for the encoding of entirely abstract in  A user of the TE9 scheme may combine as rnany or as few additional tagsets as suit his or her needs. The existence of tagsets for particulae application areas in the Guidelines reflects, to some extent, accidents of history: no claim to systematic or encyclopedic coverage is implied. It is expected that new tagsets will be defined as a part of the continued work of the TE1 and in related projectsterpretations of a text
  • 20. TEI : logique structurelle Niveau collection Niveau entité Niveau unité Niveau paragraphe Niveau chapitre Liminaires : page de titre, table des matières, préface, dédicace etc Annexes : Index, … En-tête (métadonnées) : Données bibliographqiues, Techniques, administratives, etc.
  • 21.  At the highest level, al1 TE1 documents conform to a common model. The basic unit is a text, that is, any single document or stretch of natural language regarded as a self-contained unit for processing purposes. The association of such a unit with a header describing it as a bibliographic entity is regarded as a single TE1 element. Two variations on this basic structure are defined: a collection of TE1 elements, or a variety of composite texts. The first is appropriate for large disparate collections of independent texts, for example in language corpora, or collections of unrelated papers in an archive; the second applies to cases such as the complete works of a given author, which might be regarded simultaneously as a single text in its own right and as a series of independent texts.
  • 22. TEI : logique structurelle  Structure minimale <TEI> <teiHeader> [en-tête TEI] </teiHeader> <text> <front> [liminaires...] </front> <body> [contenu] </body> <back> [annexes] </back> </text> </TEI>
  • 23. Identifier dans un poème :  La mesure des vers  Les différents types de vers  Les groupes de verts (couplets, tercets, quatrains)  La strophe  La forme de la strophe  La rime  L’enjambement  Le rejet et le contre-rejet  ... Le choix de granularité peut varier entre grands segments et éléments plus petits Stucturation d’un poème (TEIVerse) Un sonnet : 2 quatrains, 2 tercet
  • 24. Stucturation d’un poème (TEIVerse) <text> <body> <head>Heureux qui, comme Ulysse, a fait un beau voyage </head> <lg> <l>Heureux qui, comme Ulysse, a fait un beau voyage </l> <l> Ou comme cestuy-là qui conquit la toison </l> <l> Et puis est retourné, plein d'usage et raison </l> <l> Vivre entre ses parents le reste de son âge ! </l> </lg> <lg> <l> Quand reverrai-je, hélas, de mon petit village </l> <l> Fumer la cheminée, et en quelle saison </l> <l> Reverrai-je le clos de ma pauvre maison </l> <l> Qui m'est une province, et beaucoup davantage ? </lg> <lg> <l> Plus me plaît le séjour qu'ont bâti mes aïeux </l> <l> Que des palais Romains le front audacieux </l> <l> Plus que le marbre dur me plaît l'ardoise fine : </l> </lg> <lg> <l> Plus mon Loir gaulois, que le Tibre latin </l> <l> Plus mon petit Liré, que le mont Palatin </l> <l> Et plus que l'air marin la douceur angevine </l> </lg> </body> </text> <teiHeader> <fileDesc> <titleStmt> <Title>Heureux qui comme Ulysse</title> <respStmt> <resp>Auteur</resp> <Name>Joacquim Du Belay</name> </respStmt> </titleStmt> <sourceDesc> <Bibl>Recueil Les regrets </bibl> </sourceDesc> </fileDesc> </teiHeader> <text>…
  • 25. Identifier dans une pièce de théâtre :  L’interprétation et la mise en scène  La parole sur scène  Les didascalies  Les types d’exposition  Le dénouement  Le prologue  … Structuration d’une pièce de théâtre (TEIDrama)
  • 26. Structuration d’un manuscrit (TEIManuscript) <surface> : une page, une stèle, tout objet avec une inscription  La surface contient des zones et des lignes  Elle a des coordonnées <zone>: Une aire de la superficie définie de façon arbitraire à des fins éditoriaux. Les zones peuvent se superposer : la superposition est définie selon des coordonnées spatiaux  Peut contenir des <line>  Dispose de coordonnées <line> : une suite de texte identifiée de façon claire par l’éditeur  Peu contenir du texte et des <zone>  Ne dispose pas de coordonnées
  • 28. <sourceDoc> <surface ulx="0" uly="0" lrx="200" lry="300"> <zone ulx="10" uly="43" lrx="185" lry="84" rotate="0”> <zone> <line rend="right"> 1 April 2009</line> </zone> <line>Fed Birds in the park today.</line> <line>Might write an articleabout</line> <line>the Thick-billed Warbler.</line> </zone> <zone ulx="9" uly="20" lrx="70" lry="60" rotate="90”> <line>Samaria is a Greek</line> <line>brand of water that</line> <line>comes from the natural</line> <line>springs of Stilos, in</line> <line>Crete</line> </zone> </surface> </sourceDoc> Structuration d’un manuscrit (TEIManuscript) <surface ulx="0" uly="0" lrx="700" lry="1000"> <!-- ... --> </surface> <zone ulx="93" uly="681" lrx="967" lry="1568"> <graphic url=« gb.jpg"/> </zone>
  • 29. Structuration d’un manuscrit (TEIManuscript) <surface xml:id=“s1” ulx="0" uly="0" lrx="50" lry="50"> <zone xml:id=“s1-z1” ulx="1" uly="1" lrx="10" lry="10"> <line>Poem</line> <!-- ... --> <line>the head</line> </zone> <zone xml:id=“s1-z2” ulx="4" uly="4" lrx="20" lry="20"> <surface xml:id=“s2” ulx="0" uly="0" lrx="100" lry="100"> <zone xml:id=“s2-z1” ulx="10" uly="10" lrx="90" lry="95"> Spring has just set in here, and the weather […] a steamer </zone> </surface> </zone> </surface> s1 s1-z1 s1-z2 s2 s2-z1
  • 30. Structuration d’un graphique (Graph)  Image Markup Tool
  • 31. Structuration d’un graphique (Graph) <teiHeader> <fileDesc> <titleStmt> <title>The Image Markup Logo</title> </titleStmt> <publicationStmt> <p></p> </publicationStmt> <sourceDesc> <p>377 x 259</p> </sourceDesc> </fileDesc> <encodingDesc> </encodingDesc> </teiHeader>
  • 32. Structuration d’une partition musicale (MEI) © The Music Encoding Initiative. http://music-encoding.org/
  • 33. Structuration d’une partition musicale (MEI) © The Music Encoding Initiative. http://music-encoding.org/
  • 35. Structuration d’un partition musicale (MEI) Métadonnées(TEIHeader)Espacedenom
  • 36. Structuration d’un partition musicale (MEI) ‫الليل‬ ‫في‬ ‫الياسمينة‬ ‫تحت‬ ‫نسمة‬‫والورد‬‫محاذيني‬ ‫األغصان‬‫تــــميل‬ ‫عليا‬ ‫تمسحلي‬‫دمعة‬ ‫في‬‫عيني‬ ‫تحت‬‫الياسمينة‬‫اتكيت‬ ‫عدلت‬‫وغنيت‬ ‫الـــعود‬ ‫وتناطر‬‫وبكيت‬ ‫دمعي‬ ‫تفكرتك‬‫كنت‬ ‫كيف‬‫تجيني‬ ‫جنينة‬‫النوار‬ ‫مزينها‬ ‫فاحت‬‫األزهار‬ ‫ريحت‬ ‫من‬ ‫تفكرتك‬‫النار‬ ‫شعــــلت‬ ‫عملت‬‫لهليبة‬‫في‬‫قليبي‬ ‫متوحش‬‫محتار‬ ‫وحدي‬ ‫ال‬‫أطيار‬ ‫حس‬ ‫ال‬ ‫و‬ ‫قمرة‬ ‫كان‬‫األشجار‬ ‫ع‬ ‫النسمة‬ ‫توانس‬‫فيا‬‫وتواسيني‬ Stanza(Quatrin)
  • 38. Structuration d’un fichier son (TEISpeech)  Un énoncé se définit comme une « séquence attribuée à un locuteur à un instant » : flux temporel « Timeline »  Les énoncés sont regroupés dans des balises <div> (division)  Les segments de discours composant l’énoncé sont balisés par <s> ou <seg>  Opérer, au moyen de balises et d’attributs, une description très fine des différents phénomènes de communication oraux et non-oraux qui font partie du discours :  pauses, chevauchements de paroles, changements d’intonation, de voix ou de langue, expressions vocalisées (tousser, rire, se moucher, grogner…), gestes, etc.
  • 39. Le projet HumanitéDigitMaghreb  Le projet est une recherche-action qui s’inscrit dans les orientations de recherche des Humanités Digitales  C'est un projet ISCC/CNRS mis en place en 2012 par une équipe de chercheurs de différentes institutions universitaires en France et au Maghreb et du Canada [des linguistes, chercheurs en littérature, culture, histoire, musique, arts,… tant en français qu’en arabe ou berbère]
  • 40. Objectifs du projet  Mettre l’accent sur les opportunités, les difficultés et les limites de l'usage de la technologie numérique dans les pratiques des recherches scientifiques notamment dans les sciences humaines et la création artistique (Instrumentalisation de la recherche)  Quelles méthodes doit-on adopter aujourd’hui pour évaluer le rôle et l’importance des technologies numériques et de la communication dans la recherche scientifique ? (Organisation de dispositif)  Existe-t-il des procédures spécifiques pour diagnostiquer et juger les pratiques numériques en arts et en sciences humaines ? (évaluation/qualité de pratiques)  Trouver des orientations pour un meilleur usage des données du monde numérique, et une bonne pratique scientifique, surtout chez les jeunes chercheurs en art et sciences humaines (perspectives, stratégies)
  • 41. Plus concrètement :  S’approprier des nouveaux habitus de recherche sur des ressources numériques en SHS  Maîtriser leur mise en corpus interopérables pour favoriser la synergie de coopération d’étude mondialisée sur ces patrimoines  Étudier les processus d’appropriations, les déplacements d’approches et donc les redéfinitions épistémologiques induites Objectifs du projet
  • 42. Plus concrètement encore …  Définir des modèles de structure de corpus numérique en SHS fondés sur des typologies de documents (genres littéraires) proposés par les partenaires du projet dans des disciplines des sciences humaines, des Arts et des techniques  Produire un environnement applicatif de production de corpus SHS normalisé par la TEI  Mettre en ligne un corpus de démonstration de ressources numériques en SHS mutualisées Objectifs du projet
  • 43. 1. Les spécialistes en Arts et SHS identifient la structure logique d’un type de document dans leurs spécialités respectives (roman, poésie, théâtre, conte, manuscrit, peinture, musique, …) Une distribution des rôles:
  • 44. 2. Les techniciens convertissent le modèle défini par les spécialistes SHS en schéma informatique (TEI/XML) avec un logiciel approprié Une distribution des rôles:
  • 45. 3. Les spécialiste de l’information font le référencement des corpus par métadonnées Une distribution des rôles:
  • 46. Spécialiste Arts & SHS Technicien XML/TEI Spécialiste de l’Info-Com. Corpus Arts & SHS Articulation des activités
  • 47. Schéma général du projet Corpus SHS : échantillon de structures de documents Poésie Théâtre Conte Musique Manuscrit Discours Fable Autres Vidéo Peinture
  • 48. Oxygen : logiciel de production de corpus numérique en TEI Les outils du projet
  • 49. ROMA : pour créer des schémas TEI spécifiques et valides Les outils du projet
  • 50. OxGarage : pour convertir des formats de documents numériques de et vers la TEI ; Les outils du projet
  • 51. Les outils du projet  OMEKA : agrégateur de corpus/collection/document
  • 52. Les outils du projet  OMEKA : référencement par métadonnées (Dublin Core)
  • 53. Les outils du projet  OMEKA : Moissonnage par OAI-PMH
  • 54. Les outils du projet  OMEKA : environnement d’archivage et de recherche
  • 55. Le Quo vadis du projet !  Journées d’évaluation du projet à l’ISCC (25-26 avril 2013)  Pistes prévues  Inscrire le projet auprès du consortium TEI (participation de Lou Burnard aux journées)  Internationalisation des référentiels : traduction des (bouts des) Guidelines en  Arabe  Berbère  Monter des partenariats de bibliothèques numériques et préservation du patrimoine au Maghreb et en Afrique  Dynamique de recherche chez les partenaires Sud
  • 56. <TEI> <Teiheader> Remercier la salle </Teiheader> <Text> <Body> <p>Merci de votre attention</p> </body> </Text> </TEI>