SlideShare una empresa de Scribd logo
1 de 14
Descargar para leer sin conexión
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
1
Compte-rendu
par Sébastien Pont
Janvier 2017
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
2
Table des matières
Préambule 3
"Il était une fois dans le web, 20 ans d'archives de l'internet en France". 3
Regards croisés sur les outils d'accès à la BnF et à l'Ina. 4
L'expérience des ateliers du dépôt légal du web de l'Ina. 5
Les archives de l'internet comme sources : méthodes et représentations. 6
L'adoption de la loi DADVSI et les enjeux juridiques. 8
Archives de l'internet et territoires. 9
La reconnaissance du patrimoine nativement numérique. 10
Collecter de nouveaux objets sur internet. 11
Archivage du web, le temps des expérimentations en France. 12
La création du .fr 12
Premiers sites web, premières communautés, témoignages. 13
Bilan 14
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
3
Préambule
Le colloque "Il était une fois dans le web, 20 ans d'archives de l'internet en France", organisé par
la BnF François Mitterrand et l'Ina, avec le soutien de l'Université Paris- Lumière et Web 90, s'est
tenu au sein du site François-Mitterrand de la BnF le 23 novembre 2016. Il a pour but d'effectuer
un bilan de l'archivage du web. Le déroulé de la journée suit un ordre antéchronologique et fait
intervenir les principaux acteurs qui ont œuvré en amont, pendant et après l'instauration du dépôt
légal sur les archives de l'internet. La matinée aborde les usages actuels des archives de l'internet,
en présentant tout d'abord les outils d'accès à ces archives dans les institutions dépositaires du
dépôt légal que sont l'Ina et la BnF. Ensuite est présenté l'élaboration des méthodologies pour
l'utilisation de ces archives, au travers de l'expérience des ateliers du dépôt légal du web
organisés par l'Ina. S’ensuit les usages transdisciplinaires de ces archives qui sont présentés par
des chercheurs, qui exposent par ailleurs les utilisations qui peuvent être faites avec les archives
de l'internet. L'après-midi commence par un historique de la loi DADVSI et ses enjeux
juridiques. En complémentarité suit une présentation des territoires de l'archive, du point de vue
de ses conditions d'accès comme des enjeux nationaux qui s'y rattachent. Ensuite est traitée la
reconnaissance des particularités de l'archive de l'internet du fait de son statut numérique et les
formes et les expressions de sa collecte. S'ensuit le partage de l'expérience conjointe des deux
dépositaires du dépôt légal et les méthodologies qu'ils emploient respectivement. Enfin, les
aspects techniques de l'archivage et de son contenu sont exposés, tout comme l'expérience de
pionniers du web. Premier colloque du genre en France, il se veut donc pluridisciplinaire et tend à
aborder tous les enjeux de l'archivage de l'internet. Il s'adresse à toutes les personnes qui utilisent
ces archives, de près ou de loin, ainsi qu'aux curieux désirant mieux en connaître les usages et le
potentiel.
« Il était une fois dans le web, 20 ans d'archives de l'internet en
France »
L'introduction de la journée est effectuée par Sylvaine Tarsot-Gillery, directrice générale de la
BnF depuis 2014, et Agnès Magnien, directrice chargée des collections à l'Ina depuis 2014,
chargée de représenter Laurent Vallet, président-directeur général de l'Ina depuis 2015.
Sylvaine Tarsot-Gillery commence par poser ce séminaire comme une pierre d'étape. Il rassemble
en effet plusieurs dates symboliques, à savoir les vingt ans des collections (en accord avec la
fondation Internet Archive), les dix ans de la loi DADVSI, les cinq ans de son décret
d'application et enfin la première année d'exercice du projet Corpus. Ce colloque est donc
l'occasion d'un arrêt sur image pour faire le point sur les avancées, l'état actuel et les perspectives
d'avenir du dépôt légal du Web. Elle souligne la matière hautement évolutive de ces collections
sur le web, car lui-même par nature en perpétuel changement, et le travail du ministère de la
culture pour l'évolution du cadre juridique des documents numériques va dans ce sens. En plus du
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
4
projet Corpus1
, la BnF a effectué la refonte de l'application permettant l'accès aux archives de
l'internet, avec désormais un design repensé et de nouveaux outils. Des plateformes archives de
l'internet labs ont été ouvertes à des équipes de recherches afin de travailler sur des nouveaux
modes d'exploration de collections et pour documenter certains événements comme les attentats
de Paris ou l'ANR Web 90 qui se charge de documenter le Web des années 1990. Elle souligne
l'enjeux que représentent ces données de l'archive de l'internet - qui ont une valeur informative et
patrimoniale - et leur nature très volatile, d'où la nécessité de les conserver afin de ne pas perdre
la mémoire de cette production électronique. Par ailleurs, la BnF est cofondatrice d'un consortium
international pour la préservation de l'internet depuis 2003. La méthode de la BnF est un juste
milieu entre une collecte large quantitative et une collecte ciblée qualitative. De partenariats sont
établis avec des bureaux d'enregistrements et des chercheurs afin de couvrir un champ large de
l'internet et à même de couvrir une mémoire. Des campagnes sont menées pour collecter des sites
plus en profondeur, avec leur architecture et la possibilité de les rafraichir et d'accéder à
l'ensemble des données qu'ils comportent. Elle souligne le volume de données considérables que
cela représente. D'autre part, l'accès à ces données se développe. Depuis 2008 l'accès distant aux
collections du l'internet se déploie dans les bibliothèques de recherche en région. Ces efforts sont
faits dans le but de contribuer aux humanités numériques et les disciplines émergentes qui
valorisent ces sources nouvelles. Agnès Magnien s'associe à Sylvaine Tarsot-Gillery pour
souligner l'importance de ce colloque "étape", dont les enjeux sont de réfléchir aux méthodes,
objectifs et enjeux de la construction de la mémoire contemporaine et son accessibilité. Elle
souligne l'importance de rendre accessibles les archives de l'internet en prenant en compte les
besoins des usagers. Elle souligne enfin l'importance pour l'Ina et la BnF de travailler ensemble,
dans des missions qui sont complémentaires.
Regards croisés sur les outils d'accès à la BnF et à l'Ina
Zeynep Pehlivan est ingénieur de recherche à l'Ina et Peter Tirling chargé de collections
numériques à la BnF.
La présentation de Peter et Zeynep a pour enjeux de présenter les outils d'accès développés par
l'Ina et la BnF pour l'accès aux archives de l'internet. Peter Tirling commence par affirmer que le
succès des archives repose sur ses outils. Son travail est de reprendre les besoins des utilisateurs,
chercheurs et amateurs. Les captations s'effectuent de manière (avec une captation générale en
2016 de près de 4, 4 millions de domaines), et de manière plus ciblées, c'est-à-dire plus complètes
et régulières (en 2016 près de 22 000 sites). À cela s'ajoute les acquisitions rétrospectives auprès
de l'Internet Archive (Les documents antérieurs à la mise en fonction des captations par l'Ina et la
BnF ont été racheté à la fondation Internet Archive). L'interface de la BnF a été refaite
récemment. La page d'accueil concentre une sélection de sites effectuée par des bibliothécaires.
Un outil permet une recherche par URL, un calendrier propose la visualisation de captures
1
Service d'extraction de corpus à des fins de fouille de textes et de données développé par la BnF
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
5
effectuées par les robots, et enfin la navigation à l'intérieur du site. Il y a la possibilité de générer
un permalien afin de pouvoir citer précisément le site internet consulté. Une recherche plus
thématique est possible avec des parcours guidés effectués par des chercheurs et des instituts de
recherche. Enfin, la BnF est en train de tester un prototype d'outil de recherche plein texte calqué
sur l'outil utilisé par la British Library. Zeynep Pehlivan poursuit en présentant l'algorithme de
captation de l'Ina établit en 2009. Jusqu'en 2008, les ressources sont celles archivées par l'Internet
Archive. S'ensuit une présentation de la recherche avec les outils de l'Ina. Il existe trois
possibilités de recherche : par URL, au sein du catalogue ou plein texte. Ensuite, le chercheur
détermine le choix du jour, de l'heure. Il peut ensuite naviguer au sein du site, de manière plus ou
moins profonde suivant la captation effectuée. En 2010 est mis au point un système de captation
des plateformes vidéo, et en 2011 une recherche des vidéos est permise. Les vidéos peuvent être
visualisées indépendamment de leur provenance. On peut à ce titre retrouver des contenus issus
des plateformes Youtube, Dailymotion ou France TV. La captation de Twitter s'effectue depuis
2015. Pour toute recherche, il est possible au chercheur de générer des statistiques d’enregistrer
ses recherches, d'exporter ses résultats et de créer un corpus grâce à un compte personnel. D'autre
part, une cellule de recherche ASAP a été mise en place suite aux attentats de 2015, et se veut
constituer des archives de sauvegarde au sujet des attentats Paris, afin de recueillir une mémoire
du web suite aux attentats de Paris. Zeynep Pehlivan conclue en listant les projets de recherche
commun : l'ANR Web 90 , l'ASAP et le RESAW.
L'expérience des ateliers du dépôt légal du web de l'Ina
Louise Merzeau est enseignant-chercheur en sciences de l'information et de la communication à
l'Université Paris Ouest Nanterre La Défense et directrice adjointe du laboratoire Dicen-IDF.
Claude Mussou est responsable de l'Inathèque.
Les ateliers Ina Dépôt Légal Web (abrégé Ina DL Web) ont été lancés dans le prolongement
d'une formule d'ateliers de recherche méthodologique après que le dépôt légal de la télévision et
de la radio ait été mis en place. Ils consistent en un travail conjoint entre institutions et chercheurs
pour penser les usages des archives du dépôt légal. Il s'agit également de mettre au point et
valider des outils d'accès aux archives de l'internet et entamer des recherches pour aider leur
valorisation scientifique. Louise Merzeau souligne qu'il s'agit de cerner les attentes des
chercheurs, c'est-à-dire de comprendre et d'accompagner leurs pratiques, créant ainsi un circuit
qui va de l'archive aux usages en passant par la recherche documentaire. Il s'agit avant tout de
développer une réflexivité des sciences humaines et sociales sur ces outils. Trois points essentiels
sont mis en avant : prolonger les ateliers du dépôt légal de la radio et de la télévision, anticiper les
usages et la consultation, et penser le web comme ressource et/ou dispositif. Au cours des
ateliers, une historiographie du web est mise au jour. Il s'agit de travailler avec de nouvelles
sources et de nouveaux outils, et déterminer ainsi la place du web dans nos sociétés. Claude
Mussou poursuit en relevant que les projets de recherche concrets sont rares en ce qui concerne la
recherche sur le web. Les ateliers Ina DL ont été réorientés en 2015 avec la création des "labs",
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
6
c'est-à-dire des ateliers plus concentrés dans le temps et sur des thématiques plus précises et
concrètes. Le premier portait sur les tweets et les attentats de Paris en 2015, avec la collaboration
de REAPS et ASAP du CNRS. Il s'agit de présenter les outils d'accès et de poursuivre la
collaboration au-delà de l'atelier. Elles invitent à consulter le site DICEN IDF, à l'origine blog des
ateliers devenus site à part entière.
Les archives de l'internet comme sources : méthodes et
représentations
Valérie Beaudouin est directrice d'études à Télécom Paris-Tech - UMR 13. Sophie Gebeil est
maître de conférences en histoire à l'ESPÉ d'Aix-Marseille et au laboratoire TELEMME.
Francesca Musiani et Valérie Schafer sont chargés de recherche à l'ISCC, CNRS, Paris-
Sorbonne, UPMC. Marie-Luce Viaud est chef de projet Recherche et développement à l'Ina.
Dana Diminescu est sociologue et enseignant-chercheur à Télécom Paris-Tech.
La table ronde fait intervenir des chercheurs qui utilisent les sources du Web comme base pour
leurs travaux et a pour objectif de présenter ces travaux et leurs méthodologies. Sophie Gebeil
entame la discussion en précisant que ses travaux se basent sur les bases de données conjointes de
l'Ina et de la BnF. Ses recherches visent à comprendre comment la toile a été mobilisée par les
acteurs mémoriels pour donner à voir une autre histoire de l'immigration, souvent perçue comme
une mémoire minoritaire. Au départ, cinq cent références d'archive constituaient sont corpus, et il
a été restreint à treize dispositifs archivés sur la décennie, privilégiant ainsi la méthode
qualitative. Marie-Luce Viaud développe quant à elle des outils pour suivre l'actualité quel que
soit le support ou la façon dont elle se propage. Valérie Schafer et Francesca Musiani travaillent
conjointement sur les archives portant sur le web des années 1990, l'archivage de Twitter (et donc
le web récent) et les incunables du web. Francesca Musiani a une démarche sociologique
puisqu'elle se concentre sur les aspects techniques de l'innovation, sa mise en pratique et sa
réception. Valérie Beaudouin travaille quant à elle sur la question des usages de l'internet depuis
la fin des années 1990. Elle a pour priorité la constitution d'un corpus, à la vue de la nature
changeante du web. Il s'agit de stabiliser un corpus de données sous peine de voir les travaux
effectués sans valeur. De sa propre expérience, les corpus constitués au départ à partir de moyens
personnels sont aujourd'hui inexploitables puisque n'appliquant pas une méthodologie adéquate.
Depuis trois ans est mis en place un projet de recherche sur le patrimoine numérisé en ligne
autour de la Grande Guerre auquel elle participe. Plutôt que d'exploiter le web vivant, par nature
trop changeant, le projet de recherche a fait le choix de travailler uniquement avec les données
archivées par la BnF. Il s'agit alors de cartographier l'espace de ces sites web et déterminer leurs
relations. Se dégage ainsi deux sphères : d'une part une sphère institutionnelle, avec musées et
lieux de mémoire officiels, et d'autre part une sphère d'amateurs très active et qui représente la
moitié du corpus. Les travaux de recherche de Dana Diminescu portent sur l'étude des diasporas
sur le web. Elle et son équipe de recherche ont à ce titre développé un outil disponible sur le web,
"e-diaspora". Associée au départ au site internet PAJOL (Site internet pour l'aide et la défense des
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
7
sans-papiers), Dana Diminescu a constaté l'essoufflement du site et a eu la volonté de ne pas
perdre les informations qui s'y étaient accumulées, ce qui l'a amené à s'intéresser à l'archivage du
web. Les archives du web qu'elle étudie lui permettent d'analyser la migration d'auteurs de blogs
personnels vers Twitter, des recherches qu'elle ne peut d'ailleurs pas mener avec d'autres sources.
Ainsi, elle peut identifier de nouveaux acteurs, voir les groupes émergents et ceux dominants en
ce qui concerne les diasporas en ligne. Le travail de Marie-Luce Viaud est de suivre les archives
du web et d'en faire des corrélations afin de déterminer comment une communauté va réagir à des
chocs. Elle prend l'exemple de la polémique apparue au cours de l'été 2016 sur le burkini. De la
loi mise en application par un maire à la réaction politique gouvernementale, les outils issus du
web ont pris une importance fondamentale pour la transmission de l'information, bien qu'il n'ait
pas été le seul. Elle souligne que si le web donne une impression d'avoir tout vu, il reflète en
réalité qu'une vision de la collecte et non de la production effective. D'autre part, dans le cas des
émissions de télévisions, les interventions postées sur le web par les téléspectateurs sont par
nature subjectives. Ces derniers n'en occupent pas moins la base de travaux scientifiques. Il s'agit
alors d'élaborer des méthodes rigoureuses et des outils pour pouvoir travailler avec ce type de
source. Valérie Beaudouin complète ce constat en précisant que les archives du web font l'objet
de collectes très bien documentées par les conservateurs et les bibliothèques. Le chercheur est
donc face non pas à une nature mouvante des sources relatives au web, mais face à un corpus
documenté. De plus, les possibilités de l'archivage permettent de revenir aux données initiales
telles qu'elles se présentaient à l'utilisateur au moment où elles ont été créées. Enfin, Valérie
Beaudouin met un point d'honneur à expliciter les méthodes employées, afin de permettre la
reproductibilité des recherches. En faisant des hypothèses et des choix, les travaux effectués
doivent pouvoir être mis en discussion et repris par une nouvelle équipe de recherche, afin de
faire avancer la recherche de façon collective. Un double discours est ainsi permis : documenter à
la fois un événement et la manière de le traiter, pouvant ainsi nourrir les historiographies à venir.
Dana Diminescu rappelle que l'exhaustivité du web est impossible mais suffisant pour son
exploitation, dans la mesure où les contours de l'archivage s'arrêtent là où finissent les questions
que les chercheurs posent. Sophie Gebeil poursuit en affirmant que les archives du web peuvent
être une source pour l'histoire puisqu'elles constituent la principale source de ses travaux. Il
s'agissait de vérifier la conversion numérique des auteurs et des sites web. Son travail part des
archives vers les acteurs amateurs afin de recueillir une mémoire de l'immigration maghrébine.
Valérie Schafer incite quant à elle sur les choix institutionnels que représentent ces archives qui
visent à établir une représentativité à défaut d'exhaustivité. Le web est le reflet numérique et pas
seulement institutionnel, et à ce titre les traces laissées par les internautes sont aussi recueillies.
Francesca Musiani complète en disant que l'historiographie est fortement liée à l'informatique,
avec ses moyens et ses technologies, et que l'utilisateur commun a des technologies limitées face
aux grandes entreprises du web, et n'ont donc pas les mêmes pouvoirs d'action. Dana Diminescu
rappelle que l'on ne peut pas déléguer toute une mémoire aux machines et que le regard du
chercheur est indispensable. Valérie Schafer poursuit en insistant sur les collaborations qui
doivent s'effectuer entre les institutions et les chercheurs, afin de permettre un travail commun.
Cela nécessite au chercheur des compétences informatiques et qu'il développe des compétences
en humanités numériques, et ces enseignements sont un enjeu pour l'usage plus développé de ces
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
8
archives du web. Une des particularités de ces digital humanities est l'interdisciplinarité. Dana
Diminescu complète en disant que les digital humanities consistent aussi en une approche
systémique de système complexe. A la question posée de l'avenir, Valérie Schafer répond qu'il
faut tout d'abord utiliser les outils précieux mis à disposition, les comprendre et les transmettre.
Ensuite, il faut également approfondir la question des métadonnées associées aux archives du
web. Enfin, l'écueil pour le chercheur est de trop croire à ses données, puisqu'il s'agit avant tout
d'un objet de flux. De plus, les archives du web comportent aussi des questionnements éthiques
quant à leur utilisation. Il y a en effet une priorité dans la conservation, le droit à l'oubli et le droit
à la mémoire. Il en va ainsi de la responsabilité du chercheur.
L'adoption de la loi DADVSI et les enjeux juridiques
Geneviève Piejut est directrice adjointe de la direction des collections de l'Ina jusqu'en 2014.
Jean-Baptiste Soufron est avocat, journaliste (FWPA/Science Po), et ancien secrétaire général
du Conseil national pour le numérique.
Geneviève se propose d'effectuer un historique de la mise en place de la loi DADVSI (Loi no
2006-961 du 1er août 2006 relative au droit d’auteur et aux droits voisins dans la société de
l’information). La loi DADVSI est un projet de loi initié dès 2001 mais qui n'est pas passé devant
le gouvernement en raison des élections présidentielles de 2002. Concomitamment, on retrouve la
LCI (Loi n°2009-669 du 12 juin 2009 favorisant la diffusion et la protection de la création sur
internet, et qui crée notamment la Haute Autorité pour la Diffusion des Œuvres et la Protection
des Droits sur Internet (HADOPI)), concrétisation juridique de la loi DADVSI et qui vise à
protéger les droits d'auteur. Les réflexions autour de la loi DADVSI sont lancées par Jospin dans
le but de démocratiser l'usage d'internet. De plus, l'internet est perçu comme un facteur de
croissance économique et est donc porté par le ministère de l'économie. Il s'agissait donc au
départ d'enjeux éloignés de la préoccupation patrimoniale. Toutefois, associée à Jean-Michel
Rode, la réflexion sur la conservation patrimoniale des archives du web sous la forme d'un dépôt
légal voit le jour. En 2004 est votée la loi LCEN (Loi no 2004-575 du 21 juin 2004 pour la
confiance dans l’économie numérique). De manière à mettre en application ces lois, le premier
point qu'il s'agissait de débloquer était que l'archivage de l'internet ne devait pas être une charge
pour les personnes soumises au dépôt légal. C'est la raison pour laquelle les données sont
collectées par des robots et que les organismes archivés ont seulement à fournir les codes d'accès
à leur espace en ligne. De plus, l'archivage ne devait pas constituer une charge financière pour le
dépositaire et il revient à l'Etat d'en assumer les coûts. Dans ce cadre, les outils de la collecte ne
doivent pas représenter une charge excessive et s'effectuer dans une économie raisonnable. Il
s'agissait également d'établir le périmètre du web français pour le système de sélection et
d'échantillonnage, et de mettre en place des procédures de collectes les plus automatisées
possibles. Il fallait aussi garantir des conditions de consultation en respectant les droits d'auteurs,
pour ne pas fragiliser l'économie du secteur, et pour ce faire le même système que l'Inathèque a
été adopté. Il fallait aussi mettre en place une collaboration entre l'Ina et la BnF pour ne pas que
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
9
leurs actions se recoupent. Jean-Baptiste Soufron commence par dire que les valeurs véhiculées
par DADVSI sont importantes et il craint qu'elles aient été laissées de côté depuis quelques
années. La loi DADVSI obéit à une logique réglementaire : s'adapter à l'évolution des
technologies. Elle se compose en deux parties, d'une part le dépôt légal et d'autre par la question
des droits d'auteur des fonctionnaires. Aujourd'hui la loi de la république numérique est un sujet à
l'ouverture mais pas le dépôt légal, il existe pourtant des zones de frictions. La république
numérique est une mise à disposition des données, et elle créée de nouveaux concepts de données
de référence. Les transformations opérées sont plus d'ouverture mais le traitement des questions
d'interopérabilité est non résolu. De plus, il regrette le manque de décision sur les définitions
standard en matière d'archivage et sur la recherche concernant l'archivage. La loi DADVSI a
légiféré sur l'émergence du web (blogs, etc.), c'est à dire un web standardisé. Or, les pratiques
d'accès à internet se sont diversifiées, confirmant une tendance à une balkanisation du numérique.
Il pose alors la question de repérer les acteurs, certains étant devenus invisibles. Par ailleurs, il
met en évidence les tunnels informationnels : le web est un moyen de communication qui se
passe des médias traditionnels. Enfin, il pose les questions du droit à l'oubli et propose d'archiver
les règles des algorithmes et des contenus, puisqu'ils sont aussi signifiants que les contenus en
eux-mêmes.
Archives de l'internet et territoires
Fabienne Greffet est maître de conférences en science politique à l'Université de Lorraine, et
chercheur à l'IRENEE et à Pacte-CNRS. David Lesvenan est président de l'association www.bzh,
registre gestionnaire de l'extension internet bretonne ".bzh". Frédéric-David Martin est adjoint à
la directrice du département de la Coopération (BnF). Jérôme Scheitzer est directeur adjoint du
développement des collections de la bibliothèque nationale et universitaire de Strasbourg,
responsable du pôle d'excellence "Alsatiques". Marta Severo est maître de conférences en
sciences de la communication à l'Université Paris Ouest Nanterre La Défense. Anne Pavis est
responsable documentaire à l'Inathèque.
Marta Severo commence par poser la question de savoir comment les archives du web peuvent
permettre d'étudier les nouveaux territoires du web et comment utiliser les archives pour étudier
les espaces géographiques. Richard Roger définit quant à lui le web national : les sites qui font
partie du .fr sont des sites gérés par des acteurs français et qui parlent d'un certain pays. La
répartition territoriale des postes de consultation Ina et BnF est ensuite présentée. Jérôme
Scheitzer mène une réflexion sur la collecte d'un web local, une définition plus restreinte. David
Lesvenan parle du web régional et de la création du domaine ".bzh". Il n'y a pas de définition de
champ géographique strict comme pour le .fr. Donc l'attribution du domaine concerne des
personnes qui marquent un attachement à la région bretonne, ou des personnes qui en parlent
(ailleurs dans le monde ou en France). La notion d'attachement a été définie par Bruno Latour :
c'est une vérification qui intervient a posteriori. De plus 98% des sites du domaine sont basés en
France. Jérôme Scheitzer continue sur les noms de domaine et les enjeux de définition.
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
10
Strasbourg se définit par exemple en .eu, en référence à la dimension européenne de la ville.
Fabienne Greffet souligne en ce sens que les enjeux de collecte sont uniquement nationaux
puisque définis par des bibliothèques nationales, et pose la question de l'indexation et de la
définition d'un domaine comme .eu. La conservation transnationale est motivée par des enjeux
nationaux, et des recherches transnationales devraient être initiées, mais les sources ne le
permettent pas puisqu'il n'existe pas d'archivage transnational. Il est alors paradoxal de raisonner
en matière de frontière pour des archives ou des médias qui se jouent des frontières.
La reconnaissance du patrimoine nativement numérique
Eric Guichard est maître de conférences HDR à l'ENSSIB et responsable de l'équipe Réseaux
Savoirs & Territoires de l'Ens-Ulm. Camille Paloque-Berges, docteur en Sciences de
l'information et de la communication, a été empêchée et n'a pas pu intervenir.
Eric Guichard commence par souligner que le temps de construction du patrimoine culturel est
indéfinissable, puisque déterminé suivant les personnes qui s'y intéressent. Le patrimoine
nativement numérique signifie des pratiques nouvelles des historiens, des données numériques
complémentaires à des données papiers. Le numérique fait appel aux nombres, ce qui demande
une formation à des méthodes dont sont généralement peu coutumiers les chercheurs des sciences
sociales. A cela s'ajoute l'instabilité de la conservation de ces archives du fait des technologies
qui évoluent et deviennent rapidement obsolètes, jusqu'à ne plus permettre la lecture de certaines
archives. La culture numérique, constitutive de la culture et donc du patrimoine, est une culture
technique et réflexive de l’écriture du moment. Il pose la question d'imaginer un patrimoine
numérique à l’heure de l’inculture généralisée et souligne qu'il n'y a pas de pensée critique sans
une culture de l’écrit. Le patrimoine, dans une version non autoritaire, pose la question de la
culture numérique. C’est aussi elle qui définira les cadres principaux du premier.
Collecter de nouveaux objets sur internet
Ariane Bouchard est adjointe à la responsable du dépôt légal des livres numériques à la BnF.
Louise Fauduet est chef du service Multimédia au département de l'audiovisuel à la BnF.
Thomas Drugeon est responsable du dépôt légal du web à l'Ina. Philippe Mezzasalma est
conservateur et chef du service Presse à la BnF.
Thomas Drugeon commence par signaler le mouvement actuel qui se crée pour la télévision à la
demande (VOD) et les événements en direct (sportifs ou médiatiques). Le web accompagne la
télévision et il donne l'exemple de fils Twitter qui peuvent passer en bandeaux au cours d'un
émission télévisée. De même, certaines émissions radio sont filmées et diffusées en ligne en
direct, constituant ainsi une extension sur le web de la radio. Enfin, les émissions de radio ou de
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
11
télévision sont souvent disponibles intégralement sur le web, et parfois même diffusées
partiellement à la télévision ou la radio mais pouvant se retrouver en intégralité sur le web. L'Ina
effectue une captation du web en direct qui est équivalente à 32 chaînes captées 24 h/24. Il
poursuit en posant le problème de la vidéo hébergée une plateforme comme Youtube. Elle est
éditorialisée sur le site mais également dans des contextes différents. Les interprétations de la
vidéo peuvent alors fortement varier suivant leur contexte. La captation de la vidéo par l'Ina
s'effectue d'abord en dehors de son contexte, puis l'enregistrement des métadonnées s'effectue
dans un second temps. L'Ina effectue des captations sur des périmètres larges et des objets parfois
à l'extérieur du web, alors que la BnF capte sans en sortir les objets. Louise Fauduet poursuit en
décrivant la captation de Dailymotion effectuée par la BnF. Elle a été effectuée par des membres
associés, et a enregistré l'intégralité des choix éditoriaux du site dans le cadre de journées témoin.
Ariane Bouchard complète ce tableau avec le volet du livre numérique. Il n'existe pas de collecte
spécifique au livre numérique. La captation des sites s'effectue par robots, puis les données sont
traitées et accessibles à la consultation dans les archives de l'internet. Les fichiers .epub sont
enregistrés, tout comme les sites se présentent comme des livres. Cependant la collecte comporte
plusieurs limites : elle capte uniquement les contenus gratuits, la logique de dépôt pour les
éditions commerciales étant en train de se mettre en place. Une question soulevée par membre du
public : la plateforme Youtube est éditorialisée en fonction de l'utilisateur et de sa navigation
internet, par le biais des cookies. Comment gérer un contenu par définition personnalisé ?
Thomas Drugeon répond que le robot de collecte est dépersonnalisé et dans le sens om il ne
comporte pas de cookies. Il capte alors des contenus standard en fonction de son adresse IP. Il
collecte ainsi des tendances, des modes, mais pas des parcours.
Archivage du web, le temps des expérimentations en France
Bruno Bachimont est enseignant-chercheur à l'Université de technologie de Compiègne. Julien
Masanes est président de l'Internet Memory Foundation.
Ayant travaillé côte à côte lors de l'établissement du dépôt légal du web, tous deux veulent
présenter le processus de partage des missions entre les deux institutions de la BnF et de l'Ina.
Ces relations furent de leur propre aveu concurrentielles mais stimulantes, et ont le mérite de
mettre en évidence les vues et les moyens employés par ces derniers. Bruno Bachimont
commence par poser la question de la différence entre un média et un medium. Il en donne la
réponse : le médium est pour la diffusion, le média la transmission. Deux points de vue
s'affrontent alors. D'une part, il s'agit de prolonger les collections (médium), et d'autre part il
s'agit de délivrer un contenu nouveau associé à de nouvelles pratiques (médias). Conserver le
dépôt légal du web est alors un juste milieu entre rendre compte de l'innovation et garder une
cohérence patrimoniale pour des collections déjà constituées. Il poursuit en remarquant que
l'archive du web à un rapport indiciaire. Elle ne peut pas être consultée à l'identique,
contrairement au livre dans le sens où l'objet est resté le même. Le web reste une trace, et pose
donc des questions de définition et d'appréhension. Il poursuit en faisant un autre constat : le web
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
12
est un milieu. Ce milieu nous environne, nous interagissons avec celui-ci et nous met précisément
en relation avec un environnement. Il donne la métaphore du poisson qui ne voit pas l'eau : le
poisson nous représente et l'eau représente le web. Il s'agit alors d'assumer l'arbitraire, car
archiver le web est illusoire, et il est important d'archiver des objets qui permettent de révéler ce
milieu. Julien Masanes continue en soulignant que le côté technique est important. Cependant le
challenge principal est la dissolution des intermédiaires, ce milieu d'acteurs qui produisent des
filtres, des routes, etc. Avec ce web ce milieu s'est dissout, et les acteurs traditionnels ne suffisent
plus. La démocratisation et la diffusion permises grâce à internet laissent des traces comme
jamais auparavant de par tout le monde, et les acteurs traditionnels comme les grands journaux
côtoient les acteurs individuels comme Twitter. Les archives permettent de créer une mémoire
sur laquelle toutes les générations futures pourront travailler. Cependant, ce contenu
techniquement très fragile et la publication instantanée est très dépendante du serveur d'origine.
Les outils développés permettent le suivi des liens, une série de micro décisions et des contraintes
qui construisent l'artefact de l'archive. Il finit par poser la question de la légitimité des contenus et
comment se positionner par rapport à eux, et conclut qu'il faut capter indépendamment d'une
opinion générale.
La création du .fr
Loïc Damilaville est directeur marketing de l'AFNIC.
L'année 2016 célèbre le trentième anniversaire de la création de l'extension ".fr". Le système des
noms de domaine est ce qui précède la création du web, c'est-à-dire des machines connectées
entre elles et identifiées par des adresses IP. Cette pratique était lisible pour les machines mais
difficilement exploitable par les humains, d'où la création en 1985 du DNS, Domain Name
System, qui permet l'association d'une adresse IP à un nom de domaine. Aux extensions
génériques telles que ".com" se succédèrent des extensions plus spécifiques, en fonction du pays
comme le ".fr" (France), ".su" (Union soviétique) ou le ".yu" (ex-Yougoslavie, aujourd'hui
supprimé). Aujourd'hui, seuls les noms de domaine ".com" et ".net" sont ouverts à tous. Les
autres sont soumis à des contrôles par les organismes chargés de leur gestion, et à ce titre
l'AFNIC se charge entre autres de la gestion du .fr. En tout ce sont 1226 extensions génériques et
311 extensions géographiques. Loïc Damilaville se propose ensuite d'effectuer un rapide
historique de la création du nom de domaine .fr. Destiné dans un premiers temps aux chercheurs
de l'INRIA, son usage s'est peu à peu étendu à l'ensemble de la communauté française. Des
années 1986 à 1997, l'INRIA assure également l'administration du réseau Fnet, seul support de
l’internet en France jusqu’en 1992. Cette même année, l'INRIA crée un service ad hoc pour gérer
le .fr, le NIC France, petit à petit autofinancé (adhésions des opérateurs/bureaux d’enregistrement
et création/renouvellement des noms de domaine). En 1996, une charte de nommage met l'accent
sur le .fr en tant que zone de confiance, dans un contexte où le droit des noms de domaine est
encore à ses débuts, notamment en ce qui concerne la protection des marques. En 1999 est créé
l'UDRP, Uniform Dispute Resolution Policy, afin de gérer les extensions génériques. Le nombre
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
13
de domaines est alors limité et il faut pour les acquéreurs justifier d'un droit afin de bénéficier un
nom de domaine. Les flux financiers devenant de plus en plus importants, l'INRIA externalise la
gestion du .fr, et en 1997 est créé l'AFNIC, composée de dix membres (cinq nommés par l'Etat et
cinq élus). Petit à petit, la charte de nommage s’assouplit et recherche une meilleure facilité
d’enregistrement combinée avec une meilleure protection des ayants droits. En 2001 est créé
l'extension .com.fr, ou les justificatifs ne sont pas demandés, et d’un .nom.fr destiné aux
particuliers. En 2004, la limitation du nombre de domaine est abandonnée et il n'est plus
nécessaire de justifier d’un droit sur un nom de domaine pour le déposer. En effet, des
vérifications sur des bases de données accessibles en ligne permettent l’automatisation du
processus d’enregistrement. Dans le même temps est mis en place la procédure de résolution des
litiges (PARL) en partenariat avec l'Organisation mondiale de la propriété intellectuelle (OMPI)
et le Centre de médiation et d’arbitrage de Paris (CMAP). En 2006, suivant la même logique, le
.fr s'ouvre aux particuliers français, et en 2011 aux particuliers européens. En 2008 est mis en
place la procédure PREDEC (remplaçant la PARL) et en 2016 la PARL Expert est assurée par
l'OMPI. Le nombre de domaines ouvert, surtout après l'ouverture aux particuliers et l'abandon du
droit au nom en 2004, ne cesse d'augmenter.
Premiers sites web, premières communautés, témoignages
Roei Amit est directeur chargé du numérique à la RMN - Grand Palais. Isabelle Aveline est
responsable Innovation et développement numérique, fondatrice du site zazieweb.com.
Alexandre Gefen est chercheur au Centre d'Etude de la Langue et des Littératures Françaises,
fondateur du site Fabula.org (OBVIL). Stéphane Ramezi est directeur adjoint à la diffusion et à
l'innovation à l'Ina.
Stéphane Ramezzo commence par répondre à la question de la place du web dans les années
1990. Selon lui, le web est un nouveau terrain d'expression infini et illimité, contrairement aux
médias traditionnels. Roei Amit poursuit en présentant le site grand public de l'Ina, ina.fr. Il a été
lancé en 2006 dans le contexte du lancement des plateformes vidéo telles que Youtube ou
Dailymotion. Le site est d'abord destiné aux professionnels, puis a été ensuite ouvert au grand
public. Le projet était d'ailleurs initialement intitulé "archives pour tous". Alexandre Gefen
souligne l'existence d'une culture de l'open access, c'est-à-dire communiquer à grande échelle et
rejoint ce qui se fait dans les autres sciences (comme Calenda par exemple). La recherche se met
au diapason de la culture de l'open access. Isabelle Aveline propose quant à elle une vision un
peu différente, qui n'est pas celle d'un chercheur mais celle d'un inventeur. Elle souligne l'égalité
qui existait aux débuts du web entre les "metteurs de contenu", et les instances officielles comme
les particuliers bénéficiaient de la même interface. Ensuite, Alexandre Gefen remarque que
l'accumulation des données des archives du web n'est rien sans que l'on puisse les exploiter. Il
s'agit alors de mettre en place des outils qui en permettent l'exploitation, notamment des outils
statistiques, afin d'exploiter le nombre de donnée très conséquent (comme le logiciel Google
Ngram qui permet d'observer l'évolution de la fréquence d'un ou de plusieurs mots à travers le
"Il était une fois dans le web, 20 ans d'archives de l'internet en France"
Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université.
14
temps dans les imprimés). Roei Amit se joint à ces souhaits, en ajoutant la création d'API. Les
intervenants soulignent également la personnalisation du web qui devient de plus en plus
importante. Les utilisateurs accèdent à un espace personnalisé, à travers des applications dédiées
qui permettent aussi plus de mobilité. Le web n'est alors plus un espace public, ce qui pose des
questions nouvelles pour son archivage. L'archive évolue, et il s'agit d'en suivre le mouvement.
Bilan
Le colloque "Il était une fois dans le web, 20 ans d'archives de l'internet en France" a montré le
processus de patrimonialisation de l'archive de l'internet et la mise en place des politiques de
conservation par l'Ina et la BnF, accompagné par une série de lois sur l’internet et ses usages
entamée dès la fin des années 1990 et toujours d’actualité. Il en a proposé un historique efficace
et un point sur les outils disponibles proposés par l'Ina et la BnF et les applications possibles,
notamment dans le champ des sciences humaines. Il en ressort qu'aborder les archives de
l'internet demande une veille constante et une formation spécifique, et les participants ont souvent
souligné l'importance de sensibiliser aux outils offerts par les institutions et le potentiel de ces
archives, afin de susciter de nouvelles recherches. Ils ont souligné également l'importance de la
mise en place de nouvelles méthodologies et d'outils pour les aborder. Les collectes, qui
consistent en un juste milieu entre captation quantitative et qualitative, sont effectuées suivant les
besoins des chercheurs et de la mémoire collective, et le contenu de l’archive a autant
d’importance que ses méthodes. Sur les perspectives ouvertes de l'archive, il a été précisé que
l'agora public que pouvait être le web, où tout le monde avait une certaine forme d'égalité, est en
train de disparaitre au profit d'un web de plus en plus mobile et individualisé. Archiver le web est
aborder une matière mouvante et en constante redéfinition, et ce colloque a relevé le défi d'en
tracer les contours en prenant soin de souligner les aspects techniques, territoriaux, juridiques et
historiques qui s'y rattachaient. La fin de la journée fait finalement ressortir plus de questions qu'à
son commencement : espérons qu'un nouveau colloque dans quelques années nous permettra d'y
répondre. En attendant, on lira avec profit le numéro de la revue RESET consacré au patrimoine
et à la patrimonialisation numériques.

Más contenido relacionado

La actualidad más candente

La numérisation des archives de la mission de folklore musical en Basse-Breta...
La numérisation des archives de la mission de folklore musical en Basse-Breta...La numérisation des archives de la mission de folklore musical en Basse-Breta...
La numérisation des archives de la mission de folklore musical en Basse-Breta...Jpsd consultant
 
JABES 2018 - Poster : la Bivup, Bibliothèque virtuelle de l’Université de Poi...
JABES 2018 - Poster : la Bivup, Bibliothèque virtuelle de l’Université de Poi...JABES 2018 - Poster : la Bivup, Bibliothèque virtuelle de l’Université de Poi...
JABES 2018 - Poster : la Bivup, Bibliothèque virtuelle de l’Université de Poi...ABES
 
Le patrimoine numérique, de la production à la valorisation
Le patrimoine numérique, de la production à la valorisationLe patrimoine numérique, de la production à la valorisation
Le patrimoine numérique, de la production à la valorisationguest3c0ffc
 
Le CIRDOC valorise un patrimoine réparti sur 10 régions
Le CIRDOC valorise un patrimoine réparti sur 10 régionsLe CIRDOC valorise un patrimoine réparti sur 10 régions
Le CIRDOC valorise un patrimoine réparti sur 10 régionsArkhenum
 
Catalogue documentaire des travaux de recherche universitaire (mémoires, thès...
Catalogue documentaire des travaux de recherche universitaire (mémoires, thès...Catalogue documentaire des travaux de recherche universitaire (mémoires, thès...
Catalogue documentaire des travaux de recherche universitaire (mémoires, thès...Anissa-Claire Adgharouamane
 
De la “Culture” qui passe par le numérique aux cultures propres au numérique
De la “Culture” qui passe par le numérique aux cultures propres au numériqueDe la “Culture” qui passe par le numérique aux cultures propres au numérique
De la “Culture” qui passe par le numérique aux cultures propres au numériqueYannick Vernet
 
Récit du stage à la phonothèque de la MMSH de Donatella Mistretta, juin 2016
Récit du stage à la phonothèque de la MMSH de Donatella Mistretta, juin 2016Récit du stage à la phonothèque de la MMSH de Donatella Mistretta, juin 2016
Récit du stage à la phonothèque de la MMSH de Donatella Mistretta, juin 2016Phonothèque MMSH
 
Nouvelles technologies et archéologie suisse
Nouvelles technologies et archéologie suisseNouvelles technologies et archéologie suisse
Nouvelles technologies et archéologie suisseNathalie Duplain
 
Nouvelles Technologies, Patrimoine culturel immatériel et Médiation
Nouvelles Technologies, Patrimoine culturel immatériel et MédiationNouvelles Technologies, Patrimoine culturel immatériel et Médiation
Nouvelles Technologies, Patrimoine culturel immatériel et MédiationJustine G. Chapleau
 
Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...
Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...
Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...Equipex Biblissima
 
La ville de Nice expose en ligne ses trésors régionaux avec YooLib
La ville de Nice expose en ligne ses trésors régionaux avec YooLibLa ville de Nice expose en ligne ses trésors régionaux avec YooLib
La ville de Nice expose en ligne ses trésors régionaux avec YooLibArkhenum
 
Cultures d'ici et d'ailleurs. Le multiculturalisme en bibliothèque / Sandrine...
Cultures d'ici et d'ailleurs. Le multiculturalisme en bibliothèque / Sandrine...Cultures d'ici et d'ailleurs. Le multiculturalisme en bibliothèque / Sandrine...
Cultures d'ici et d'ailleurs. Le multiculturalisme en bibliothèque / Sandrine...Ferrer Sandrine
 
Enjeux pour l’historien de demain : l’exploitation des sources numériques
Enjeux pour l’historien de demain : l’exploitation des sources numériquesEnjeux pour l’historien de demain : l’exploitation des sources numériques
Enjeux pour l’historien de demain : l’exploitation des sources numériquesEquipex Biblissima
 

La actualidad más candente (20)

L'habitant un client à ne pas oublier
L'habitant un client à ne pas oublierL'habitant un client à ne pas oublier
L'habitant un client à ne pas oublier
 
La numérisation des archives de la mission de folklore musical en Basse-Breta...
La numérisation des archives de la mission de folklore musical en Basse-Breta...La numérisation des archives de la mission de folklore musical en Basse-Breta...
La numérisation des archives de la mission de folklore musical en Basse-Breta...
 
Les archives sonores du CNRS s'écoutent en Europe : participation au programm...
Les archives sonores du CNRS s'écoutent en Europe : participation au programm...Les archives sonores du CNRS s'écoutent en Europe : participation au programm...
Les archives sonores du CNRS s'écoutent en Europe : participation au programm...
 
JABES 2018 - Poster : la Bivup, Bibliothèque virtuelle de l’Université de Poi...
JABES 2018 - Poster : la Bivup, Bibliothèque virtuelle de l’Université de Poi...JABES 2018 - Poster : la Bivup, Bibliothèque virtuelle de l’Université de Poi...
JABES 2018 - Poster : la Bivup, Bibliothèque virtuelle de l’Université de Poi...
 
Le patrimoine numérique, de la production à la valorisation
Le patrimoine numérique, de la production à la valorisationLe patrimoine numérique, de la production à la valorisation
Le patrimoine numérique, de la production à la valorisation
 
Le CIRDOC valorise un patrimoine réparti sur 10 régions
Le CIRDOC valorise un patrimoine réparti sur 10 régionsLe CIRDOC valorise un patrimoine réparti sur 10 régions
Le CIRDOC valorise un patrimoine réparti sur 10 régions
 
Assemblée générale 2017 du programme de recherche BVH : projet "Bibliothèques...
Assemblée générale 2017 du programme de recherche BVH : projet "Bibliothèques...Assemblée générale 2017 du programme de recherche BVH : projet "Bibliothèques...
Assemblée générale 2017 du programme de recherche BVH : projet "Bibliothèques...
 
Catalogue documentaire des travaux de recherche universitaire (mémoires, thès...
Catalogue documentaire des travaux de recherche universitaire (mémoires, thès...Catalogue documentaire des travaux de recherche universitaire (mémoires, thès...
Catalogue documentaire des travaux de recherche universitaire (mémoires, thès...
 
La catastrophe d’Asie-Mineure : usages scientifiques et mémoriels d'un corpus...
La catastrophe d’Asie-Mineure : usages scientifiques et mémoriels d'un corpus...La catastrophe d’Asie-Mineure : usages scientifiques et mémoriels d'un corpus...
La catastrophe d’Asie-Mineure : usages scientifiques et mémoriels d'un corpus...
 
Lecture publique et immigration(s)
Lecture publique et immigration(s)Lecture publique et immigration(s)
Lecture publique et immigration(s)
 
A quoi sert l'ACIM ? Pour que la musique ait toute sa place en bibliothèque !
A quoi sert l'ACIM ? Pour que la musique ait toute sa place en bibliothèque !A quoi sert l'ACIM ? Pour que la musique ait toute sa place en bibliothèque !
A quoi sert l'ACIM ? Pour que la musique ait toute sa place en bibliothèque !
 
De la “Culture” qui passe par le numérique aux cultures propres au numérique
De la “Culture” qui passe par le numérique aux cultures propres au numériqueDe la “Culture” qui passe par le numérique aux cultures propres au numérique
De la “Culture” qui passe par le numérique aux cultures propres au numérique
 
Récit du stage à la phonothèque de la MMSH de Donatella Mistretta, juin 2016
Récit du stage à la phonothèque de la MMSH de Donatella Mistretta, juin 2016Récit du stage à la phonothèque de la MMSH de Donatella Mistretta, juin 2016
Récit du stage à la phonothèque de la MMSH de Donatella Mistretta, juin 2016
 
Nouvelles technologies et archéologie suisse
Nouvelles technologies et archéologie suisseNouvelles technologies et archéologie suisse
Nouvelles technologies et archéologie suisse
 
Nouvelles Technologies, Patrimoine culturel immatériel et Médiation
Nouvelles Technologies, Patrimoine culturel immatériel et MédiationNouvelles Technologies, Patrimoine culturel immatériel et Médiation
Nouvelles Technologies, Patrimoine culturel immatériel et Médiation
 
Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...
Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...
Pourquoi et comment concevoir un observatoire du patrimoine écrit du Moyen A...
 
La ville de Nice expose en ligne ses trésors régionaux avec YooLib
La ville de Nice expose en ligne ses trésors régionaux avec YooLibLa ville de Nice expose en ligne ses trésors régionaux avec YooLib
La ville de Nice expose en ligne ses trésors régionaux avec YooLib
 
Cultures d'ici et d'ailleurs. Le multiculturalisme en bibliothèque / Sandrine...
Cultures d'ici et d'ailleurs. Le multiculturalisme en bibliothèque / Sandrine...Cultures d'ici et d'ailleurs. Le multiculturalisme en bibliothèque / Sandrine...
Cultures d'ici et d'ailleurs. Le multiculturalisme en bibliothèque / Sandrine...
 
Enjeux pour l’historien de demain : l’exploitation des sources numériques
Enjeux pour l’historien de demain : l’exploitation des sources numériquesEnjeux pour l’historien de demain : l’exploitation des sources numériques
Enjeux pour l’historien de demain : l’exploitation des sources numériques
 
Accéder à l'art et à la culture grâce au Web
Accéder à l'art et à la culture grâce au WebAccéder à l'art et à la culture grâce au Web
Accéder à l'art et à la culture grâce au Web
 

Similar a "Il était une fois dans le web, 20 ans d'archives de l'internet en France" compte-rendu réalisé par Sébastien Pont

Bibliothèques et crowdsourcing
Bibliothèques et crowdsourcingBibliothèques et crowdsourcing
Bibliothèques et crowdsourcingPauline Moirez
 
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Bessem Aamira
 
Le web participatif, Rennes, juin 2009
Le web participatif, Rennes, juin 2009Le web participatif, Rennes, juin 2009
Le web participatif, Rennes, juin 2009Xavier Galaup
 
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...Equipex Biblissima
 
Les publics dans les politiques culturelles locales
Les publics dans les politiques culturelles locales Les publics dans les politiques culturelles locales
Les publics dans les politiques culturelles locales Xavier Galaup
 
Biblissima, un observatoire de la transmission des textes anciens
Biblissima, un observatoire de la transmission des textes anciensBiblissima, un observatoire de la transmission des textes anciens
Biblissima, un observatoire de la transmission des textes anciensEquipex Biblissima
 
Le web participatif en bibliotheque publique
Le web participatif en bibliotheque publiqueLe web participatif en bibliotheque publique
Le web participatif en bibliotheque publiqueXavier Galaup
 
Exploitation des documents audiovisuels numériques d’archives : usages, modal...
Exploitation des documents audiovisuels numériques d’archives : usages, modal...Exploitation des documents audiovisuels numériques d’archives : usages, modal...
Exploitation des documents audiovisuels numériques d’archives : usages, modal...Simon Côté-Lapointe
 
Aspects juridiques de l'archivage pérenne de l'information scientifique
Aspects juridiques de l'archivage pérenne de l'information scientifiqueAspects juridiques de l'archivage pérenne de l'information scientifique
Aspects juridiques de l'archivage pérenne de l'information scientifiquePierre Naegelen
 
Bibliotheque et Internet
Bibliotheque et InternetBibliotheque et Internet
Bibliotheque et InternetXavier Galaup
 
Evolution de la place de l'usager en bibliothèque
Evolution de la place de l'usager en bibliothèqueEvolution de la place de l'usager en bibliothèque
Evolution de la place de l'usager en bibliothèqueXavier Galaup
 
Les Outils participatifs
Les Outils participatifsLes Outils participatifs
Les Outils participatifsXavier Galaup
 
UNPIdF_Lancement du bouquet numérique du journal le Monde
UNPIdF_Lancement du bouquet numérique du journal le MondeUNPIdF_Lancement du bouquet numérique du journal le Monde
UNPIdF_Lancement du bouquet numérique du journal le Mondeunpidf
 
L'informatique et le numérique à la médiathèque de berre l'étang
L'informatique et le numérique à la médiathèque de berre l'étangL'informatique et le numérique à la médiathèque de berre l'étang
L'informatique et le numérique à la médiathèque de berre l'étangCasse2
 
Jabes 2019 - Session parallèle "Calames, au service d'une politique de valori...
Jabes 2019 - Session parallèle "Calames, au service d'une politique de valori...Jabes 2019 - Session parallèle "Calames, au service d'une politique de valori...
Jabes 2019 - Session parallèle "Calames, au service d'une politique de valori...ABES
 
Dematerialisation et offre en bibliotheque
Dematerialisation et offre en bibliothequeDematerialisation et offre en bibliotheque
Dematerialisation et offre en bibliothequeXavier Galaup
 
Diffuser et valoriser les données de la recherche : exemples issus de l’expé...
Diffuser et valoriser les données de la recherche :  exemples issus de l’expé...Diffuser et valoriser les données de la recherche :  exemples issus de l’expé...
Diffuser et valoriser les données de la recherche : exemples issus de l’expé...Phonothèque MMSH
 
Un dispositif complet pour la valorisation des archives de la recherche : la ...
Un dispositif complet pour la valorisation des archives de la recherche : la ...Un dispositif complet pour la valorisation des archives de la recherche : la ...
Un dispositif complet pour la valorisation des archives de la recherche : la ...Phonothèque MMSH
 

Similar a "Il était une fois dans le web, 20 ans d'archives de l'internet en France" compte-rendu réalisé par Sébastien Pont (20)

Bibliothèques et crowdsourcing
Bibliothèques et crowdsourcingBibliothèques et crowdsourcing
Bibliothèques et crowdsourcing
 
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
Les expériences du CNUDST à la recherche d’une stratégie nationale pour les a...
 
Le web participatif, Rennes, juin 2009
Le web participatif, Rennes, juin 2009Le web participatif, Rennes, juin 2009
Le web participatif, Rennes, juin 2009
 
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
Le portail Biblissima. Explorer les ressources numériques sur le patrimoine é...
 
Les publics dans les politiques culturelles locales
Les publics dans les politiques culturelles locales Les publics dans les politiques culturelles locales
Les publics dans les politiques culturelles locales
 
Biblissima, un observatoire de la transmission des textes anciens
Biblissima, un observatoire de la transmission des textes anciensBiblissima, un observatoire de la transmission des textes anciens
Biblissima, un observatoire de la transmission des textes anciens
 
Le web participatif en bibliotheque publique
Le web participatif en bibliotheque publiqueLe web participatif en bibliotheque publique
Le web participatif en bibliotheque publique
 
Exploitation des documents audiovisuels numériques d’archives : usages, modal...
Exploitation des documents audiovisuels numériques d’archives : usages, modal...Exploitation des documents audiovisuels numériques d’archives : usages, modal...
Exploitation des documents audiovisuels numériques d’archives : usages, modal...
 
InformaSciences, service de reference virtuel en sciences UNIGE
InformaSciences, service de reference virtuel en sciences UNIGEInformaSciences, service de reference virtuel en sciences UNIGE
InformaSciences, service de reference virtuel en sciences UNIGE
 
Aspects juridiques de l'archivage pérenne de l'information scientifique
Aspects juridiques de l'archivage pérenne de l'information scientifiqueAspects juridiques de l'archivage pérenne de l'information scientifique
Aspects juridiques de l'archivage pérenne de l'information scientifique
 
Bibliotheque et Internet
Bibliotheque et InternetBibliotheque et Internet
Bibliotheque et Internet
 
Evolution de la place de l'usager en bibliothèque
Evolution de la place de l'usager en bibliothèqueEvolution de la place de l'usager en bibliothèque
Evolution de la place de l'usager en bibliothèque
 
Les Outils participatifs
Les Outils participatifsLes Outils participatifs
Les Outils participatifs
 
UNPIdF_Lancement du bouquet numérique du journal le Monde
UNPIdF_Lancement du bouquet numérique du journal le MondeUNPIdF_Lancement du bouquet numérique du journal le Monde
UNPIdF_Lancement du bouquet numérique du journal le Monde
 
L'informatique et le numérique à la médiathèque de berre l'étang
L'informatique et le numérique à la médiathèque de berre l'étangL'informatique et le numérique à la médiathèque de berre l'étang
L'informatique et le numérique à la médiathèque de berre l'étang
 
Jabes 2019 - Session parallèle "Calames, au service d'une politique de valori...
Jabes 2019 - Session parallèle "Calames, au service d'une politique de valori...Jabes 2019 - Session parallèle "Calames, au service d'une politique de valori...
Jabes 2019 - Session parallèle "Calames, au service d'une politique de valori...
 
Bib num!!!
Bib num!!!Bib num!!!
Bib num!!!
 
Dematerialisation et offre en bibliotheque
Dematerialisation et offre en bibliothequeDematerialisation et offre en bibliotheque
Dematerialisation et offre en bibliotheque
 
Diffuser et valoriser les données de la recherche : exemples issus de l’expé...
Diffuser et valoriser les données de la recherche :  exemples issus de l’expé...Diffuser et valoriser les données de la recherche :  exemples issus de l’expé...
Diffuser et valoriser les données de la recherche : exemples issus de l’expé...
 
Un dispositif complet pour la valorisation des archives de la recherche : la ...
Un dispositif complet pour la valorisation des archives de la recherche : la ...Un dispositif complet pour la valorisation des archives de la recherche : la ...
Un dispositif complet pour la valorisation des archives de la recherche : la ...
 

"Il était une fois dans le web, 20 ans d'archives de l'internet en France" compte-rendu réalisé par Sébastien Pont

  • 1. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 1 Compte-rendu par Sébastien Pont Janvier 2017
  • 2. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 2 Table des matières Préambule 3 "Il était une fois dans le web, 20 ans d'archives de l'internet en France". 3 Regards croisés sur les outils d'accès à la BnF et à l'Ina. 4 L'expérience des ateliers du dépôt légal du web de l'Ina. 5 Les archives de l'internet comme sources : méthodes et représentations. 6 L'adoption de la loi DADVSI et les enjeux juridiques. 8 Archives de l'internet et territoires. 9 La reconnaissance du patrimoine nativement numérique. 10 Collecter de nouveaux objets sur internet. 11 Archivage du web, le temps des expérimentations en France. 12 La création du .fr 12 Premiers sites web, premières communautés, témoignages. 13 Bilan 14
  • 3. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 3 Préambule Le colloque "Il était une fois dans le web, 20 ans d'archives de l'internet en France", organisé par la BnF François Mitterrand et l'Ina, avec le soutien de l'Université Paris- Lumière et Web 90, s'est tenu au sein du site François-Mitterrand de la BnF le 23 novembre 2016. Il a pour but d'effectuer un bilan de l'archivage du web. Le déroulé de la journée suit un ordre antéchronologique et fait intervenir les principaux acteurs qui ont œuvré en amont, pendant et après l'instauration du dépôt légal sur les archives de l'internet. La matinée aborde les usages actuels des archives de l'internet, en présentant tout d'abord les outils d'accès à ces archives dans les institutions dépositaires du dépôt légal que sont l'Ina et la BnF. Ensuite est présenté l'élaboration des méthodologies pour l'utilisation de ces archives, au travers de l'expérience des ateliers du dépôt légal du web organisés par l'Ina. S’ensuit les usages transdisciplinaires de ces archives qui sont présentés par des chercheurs, qui exposent par ailleurs les utilisations qui peuvent être faites avec les archives de l'internet. L'après-midi commence par un historique de la loi DADVSI et ses enjeux juridiques. En complémentarité suit une présentation des territoires de l'archive, du point de vue de ses conditions d'accès comme des enjeux nationaux qui s'y rattachent. Ensuite est traitée la reconnaissance des particularités de l'archive de l'internet du fait de son statut numérique et les formes et les expressions de sa collecte. S'ensuit le partage de l'expérience conjointe des deux dépositaires du dépôt légal et les méthodologies qu'ils emploient respectivement. Enfin, les aspects techniques de l'archivage et de son contenu sont exposés, tout comme l'expérience de pionniers du web. Premier colloque du genre en France, il se veut donc pluridisciplinaire et tend à aborder tous les enjeux de l'archivage de l'internet. Il s'adresse à toutes les personnes qui utilisent ces archives, de près ou de loin, ainsi qu'aux curieux désirant mieux en connaître les usages et le potentiel. « Il était une fois dans le web, 20 ans d'archives de l'internet en France » L'introduction de la journée est effectuée par Sylvaine Tarsot-Gillery, directrice générale de la BnF depuis 2014, et Agnès Magnien, directrice chargée des collections à l'Ina depuis 2014, chargée de représenter Laurent Vallet, président-directeur général de l'Ina depuis 2015. Sylvaine Tarsot-Gillery commence par poser ce séminaire comme une pierre d'étape. Il rassemble en effet plusieurs dates symboliques, à savoir les vingt ans des collections (en accord avec la fondation Internet Archive), les dix ans de la loi DADVSI, les cinq ans de son décret d'application et enfin la première année d'exercice du projet Corpus. Ce colloque est donc l'occasion d'un arrêt sur image pour faire le point sur les avancées, l'état actuel et les perspectives d'avenir du dépôt légal du Web. Elle souligne la matière hautement évolutive de ces collections sur le web, car lui-même par nature en perpétuel changement, et le travail du ministère de la culture pour l'évolution du cadre juridique des documents numériques va dans ce sens. En plus du
  • 4. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 4 projet Corpus1 , la BnF a effectué la refonte de l'application permettant l'accès aux archives de l'internet, avec désormais un design repensé et de nouveaux outils. Des plateformes archives de l'internet labs ont été ouvertes à des équipes de recherches afin de travailler sur des nouveaux modes d'exploration de collections et pour documenter certains événements comme les attentats de Paris ou l'ANR Web 90 qui se charge de documenter le Web des années 1990. Elle souligne l'enjeux que représentent ces données de l'archive de l'internet - qui ont une valeur informative et patrimoniale - et leur nature très volatile, d'où la nécessité de les conserver afin de ne pas perdre la mémoire de cette production électronique. Par ailleurs, la BnF est cofondatrice d'un consortium international pour la préservation de l'internet depuis 2003. La méthode de la BnF est un juste milieu entre une collecte large quantitative et une collecte ciblée qualitative. De partenariats sont établis avec des bureaux d'enregistrements et des chercheurs afin de couvrir un champ large de l'internet et à même de couvrir une mémoire. Des campagnes sont menées pour collecter des sites plus en profondeur, avec leur architecture et la possibilité de les rafraichir et d'accéder à l'ensemble des données qu'ils comportent. Elle souligne le volume de données considérables que cela représente. D'autre part, l'accès à ces données se développe. Depuis 2008 l'accès distant aux collections du l'internet se déploie dans les bibliothèques de recherche en région. Ces efforts sont faits dans le but de contribuer aux humanités numériques et les disciplines émergentes qui valorisent ces sources nouvelles. Agnès Magnien s'associe à Sylvaine Tarsot-Gillery pour souligner l'importance de ce colloque "étape", dont les enjeux sont de réfléchir aux méthodes, objectifs et enjeux de la construction de la mémoire contemporaine et son accessibilité. Elle souligne l'importance de rendre accessibles les archives de l'internet en prenant en compte les besoins des usagers. Elle souligne enfin l'importance pour l'Ina et la BnF de travailler ensemble, dans des missions qui sont complémentaires. Regards croisés sur les outils d'accès à la BnF et à l'Ina Zeynep Pehlivan est ingénieur de recherche à l'Ina et Peter Tirling chargé de collections numériques à la BnF. La présentation de Peter et Zeynep a pour enjeux de présenter les outils d'accès développés par l'Ina et la BnF pour l'accès aux archives de l'internet. Peter Tirling commence par affirmer que le succès des archives repose sur ses outils. Son travail est de reprendre les besoins des utilisateurs, chercheurs et amateurs. Les captations s'effectuent de manière (avec une captation générale en 2016 de près de 4, 4 millions de domaines), et de manière plus ciblées, c'est-à-dire plus complètes et régulières (en 2016 près de 22 000 sites). À cela s'ajoute les acquisitions rétrospectives auprès de l'Internet Archive (Les documents antérieurs à la mise en fonction des captations par l'Ina et la BnF ont été racheté à la fondation Internet Archive). L'interface de la BnF a été refaite récemment. La page d'accueil concentre une sélection de sites effectuée par des bibliothécaires. Un outil permet une recherche par URL, un calendrier propose la visualisation de captures 1 Service d'extraction de corpus à des fins de fouille de textes et de données développé par la BnF
  • 5. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 5 effectuées par les robots, et enfin la navigation à l'intérieur du site. Il y a la possibilité de générer un permalien afin de pouvoir citer précisément le site internet consulté. Une recherche plus thématique est possible avec des parcours guidés effectués par des chercheurs et des instituts de recherche. Enfin, la BnF est en train de tester un prototype d'outil de recherche plein texte calqué sur l'outil utilisé par la British Library. Zeynep Pehlivan poursuit en présentant l'algorithme de captation de l'Ina établit en 2009. Jusqu'en 2008, les ressources sont celles archivées par l'Internet Archive. S'ensuit une présentation de la recherche avec les outils de l'Ina. Il existe trois possibilités de recherche : par URL, au sein du catalogue ou plein texte. Ensuite, le chercheur détermine le choix du jour, de l'heure. Il peut ensuite naviguer au sein du site, de manière plus ou moins profonde suivant la captation effectuée. En 2010 est mis au point un système de captation des plateformes vidéo, et en 2011 une recherche des vidéos est permise. Les vidéos peuvent être visualisées indépendamment de leur provenance. On peut à ce titre retrouver des contenus issus des plateformes Youtube, Dailymotion ou France TV. La captation de Twitter s'effectue depuis 2015. Pour toute recherche, il est possible au chercheur de générer des statistiques d’enregistrer ses recherches, d'exporter ses résultats et de créer un corpus grâce à un compte personnel. D'autre part, une cellule de recherche ASAP a été mise en place suite aux attentats de 2015, et se veut constituer des archives de sauvegarde au sujet des attentats Paris, afin de recueillir une mémoire du web suite aux attentats de Paris. Zeynep Pehlivan conclue en listant les projets de recherche commun : l'ANR Web 90 , l'ASAP et le RESAW. L'expérience des ateliers du dépôt légal du web de l'Ina Louise Merzeau est enseignant-chercheur en sciences de l'information et de la communication à l'Université Paris Ouest Nanterre La Défense et directrice adjointe du laboratoire Dicen-IDF. Claude Mussou est responsable de l'Inathèque. Les ateliers Ina Dépôt Légal Web (abrégé Ina DL Web) ont été lancés dans le prolongement d'une formule d'ateliers de recherche méthodologique après que le dépôt légal de la télévision et de la radio ait été mis en place. Ils consistent en un travail conjoint entre institutions et chercheurs pour penser les usages des archives du dépôt légal. Il s'agit également de mettre au point et valider des outils d'accès aux archives de l'internet et entamer des recherches pour aider leur valorisation scientifique. Louise Merzeau souligne qu'il s'agit de cerner les attentes des chercheurs, c'est-à-dire de comprendre et d'accompagner leurs pratiques, créant ainsi un circuit qui va de l'archive aux usages en passant par la recherche documentaire. Il s'agit avant tout de développer une réflexivité des sciences humaines et sociales sur ces outils. Trois points essentiels sont mis en avant : prolonger les ateliers du dépôt légal de la radio et de la télévision, anticiper les usages et la consultation, et penser le web comme ressource et/ou dispositif. Au cours des ateliers, une historiographie du web est mise au jour. Il s'agit de travailler avec de nouvelles sources et de nouveaux outils, et déterminer ainsi la place du web dans nos sociétés. Claude Mussou poursuit en relevant que les projets de recherche concrets sont rares en ce qui concerne la recherche sur le web. Les ateliers Ina DL ont été réorientés en 2015 avec la création des "labs",
  • 6. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 6 c'est-à-dire des ateliers plus concentrés dans le temps et sur des thématiques plus précises et concrètes. Le premier portait sur les tweets et les attentats de Paris en 2015, avec la collaboration de REAPS et ASAP du CNRS. Il s'agit de présenter les outils d'accès et de poursuivre la collaboration au-delà de l'atelier. Elles invitent à consulter le site DICEN IDF, à l'origine blog des ateliers devenus site à part entière. Les archives de l'internet comme sources : méthodes et représentations Valérie Beaudouin est directrice d'études à Télécom Paris-Tech - UMR 13. Sophie Gebeil est maître de conférences en histoire à l'ESPÉ d'Aix-Marseille et au laboratoire TELEMME. Francesca Musiani et Valérie Schafer sont chargés de recherche à l'ISCC, CNRS, Paris- Sorbonne, UPMC. Marie-Luce Viaud est chef de projet Recherche et développement à l'Ina. Dana Diminescu est sociologue et enseignant-chercheur à Télécom Paris-Tech. La table ronde fait intervenir des chercheurs qui utilisent les sources du Web comme base pour leurs travaux et a pour objectif de présenter ces travaux et leurs méthodologies. Sophie Gebeil entame la discussion en précisant que ses travaux se basent sur les bases de données conjointes de l'Ina et de la BnF. Ses recherches visent à comprendre comment la toile a été mobilisée par les acteurs mémoriels pour donner à voir une autre histoire de l'immigration, souvent perçue comme une mémoire minoritaire. Au départ, cinq cent références d'archive constituaient sont corpus, et il a été restreint à treize dispositifs archivés sur la décennie, privilégiant ainsi la méthode qualitative. Marie-Luce Viaud développe quant à elle des outils pour suivre l'actualité quel que soit le support ou la façon dont elle se propage. Valérie Schafer et Francesca Musiani travaillent conjointement sur les archives portant sur le web des années 1990, l'archivage de Twitter (et donc le web récent) et les incunables du web. Francesca Musiani a une démarche sociologique puisqu'elle se concentre sur les aspects techniques de l'innovation, sa mise en pratique et sa réception. Valérie Beaudouin travaille quant à elle sur la question des usages de l'internet depuis la fin des années 1990. Elle a pour priorité la constitution d'un corpus, à la vue de la nature changeante du web. Il s'agit de stabiliser un corpus de données sous peine de voir les travaux effectués sans valeur. De sa propre expérience, les corpus constitués au départ à partir de moyens personnels sont aujourd'hui inexploitables puisque n'appliquant pas une méthodologie adéquate. Depuis trois ans est mis en place un projet de recherche sur le patrimoine numérisé en ligne autour de la Grande Guerre auquel elle participe. Plutôt que d'exploiter le web vivant, par nature trop changeant, le projet de recherche a fait le choix de travailler uniquement avec les données archivées par la BnF. Il s'agit alors de cartographier l'espace de ces sites web et déterminer leurs relations. Se dégage ainsi deux sphères : d'une part une sphère institutionnelle, avec musées et lieux de mémoire officiels, et d'autre part une sphère d'amateurs très active et qui représente la moitié du corpus. Les travaux de recherche de Dana Diminescu portent sur l'étude des diasporas sur le web. Elle et son équipe de recherche ont à ce titre développé un outil disponible sur le web, "e-diaspora". Associée au départ au site internet PAJOL (Site internet pour l'aide et la défense des
  • 7. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 7 sans-papiers), Dana Diminescu a constaté l'essoufflement du site et a eu la volonté de ne pas perdre les informations qui s'y étaient accumulées, ce qui l'a amené à s'intéresser à l'archivage du web. Les archives du web qu'elle étudie lui permettent d'analyser la migration d'auteurs de blogs personnels vers Twitter, des recherches qu'elle ne peut d'ailleurs pas mener avec d'autres sources. Ainsi, elle peut identifier de nouveaux acteurs, voir les groupes émergents et ceux dominants en ce qui concerne les diasporas en ligne. Le travail de Marie-Luce Viaud est de suivre les archives du web et d'en faire des corrélations afin de déterminer comment une communauté va réagir à des chocs. Elle prend l'exemple de la polémique apparue au cours de l'été 2016 sur le burkini. De la loi mise en application par un maire à la réaction politique gouvernementale, les outils issus du web ont pris une importance fondamentale pour la transmission de l'information, bien qu'il n'ait pas été le seul. Elle souligne que si le web donne une impression d'avoir tout vu, il reflète en réalité qu'une vision de la collecte et non de la production effective. D'autre part, dans le cas des émissions de télévisions, les interventions postées sur le web par les téléspectateurs sont par nature subjectives. Ces derniers n'en occupent pas moins la base de travaux scientifiques. Il s'agit alors d'élaborer des méthodes rigoureuses et des outils pour pouvoir travailler avec ce type de source. Valérie Beaudouin complète ce constat en précisant que les archives du web font l'objet de collectes très bien documentées par les conservateurs et les bibliothèques. Le chercheur est donc face non pas à une nature mouvante des sources relatives au web, mais face à un corpus documenté. De plus, les possibilités de l'archivage permettent de revenir aux données initiales telles qu'elles se présentaient à l'utilisateur au moment où elles ont été créées. Enfin, Valérie Beaudouin met un point d'honneur à expliciter les méthodes employées, afin de permettre la reproductibilité des recherches. En faisant des hypothèses et des choix, les travaux effectués doivent pouvoir être mis en discussion et repris par une nouvelle équipe de recherche, afin de faire avancer la recherche de façon collective. Un double discours est ainsi permis : documenter à la fois un événement et la manière de le traiter, pouvant ainsi nourrir les historiographies à venir. Dana Diminescu rappelle que l'exhaustivité du web est impossible mais suffisant pour son exploitation, dans la mesure où les contours de l'archivage s'arrêtent là où finissent les questions que les chercheurs posent. Sophie Gebeil poursuit en affirmant que les archives du web peuvent être une source pour l'histoire puisqu'elles constituent la principale source de ses travaux. Il s'agissait de vérifier la conversion numérique des auteurs et des sites web. Son travail part des archives vers les acteurs amateurs afin de recueillir une mémoire de l'immigration maghrébine. Valérie Schafer incite quant à elle sur les choix institutionnels que représentent ces archives qui visent à établir une représentativité à défaut d'exhaustivité. Le web est le reflet numérique et pas seulement institutionnel, et à ce titre les traces laissées par les internautes sont aussi recueillies. Francesca Musiani complète en disant que l'historiographie est fortement liée à l'informatique, avec ses moyens et ses technologies, et que l'utilisateur commun a des technologies limitées face aux grandes entreprises du web, et n'ont donc pas les mêmes pouvoirs d'action. Dana Diminescu rappelle que l'on ne peut pas déléguer toute une mémoire aux machines et que le regard du chercheur est indispensable. Valérie Schafer poursuit en insistant sur les collaborations qui doivent s'effectuer entre les institutions et les chercheurs, afin de permettre un travail commun. Cela nécessite au chercheur des compétences informatiques et qu'il développe des compétences en humanités numériques, et ces enseignements sont un enjeu pour l'usage plus développé de ces
  • 8. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 8 archives du web. Une des particularités de ces digital humanities est l'interdisciplinarité. Dana Diminescu complète en disant que les digital humanities consistent aussi en une approche systémique de système complexe. A la question posée de l'avenir, Valérie Schafer répond qu'il faut tout d'abord utiliser les outils précieux mis à disposition, les comprendre et les transmettre. Ensuite, il faut également approfondir la question des métadonnées associées aux archives du web. Enfin, l'écueil pour le chercheur est de trop croire à ses données, puisqu'il s'agit avant tout d'un objet de flux. De plus, les archives du web comportent aussi des questionnements éthiques quant à leur utilisation. Il y a en effet une priorité dans la conservation, le droit à l'oubli et le droit à la mémoire. Il en va ainsi de la responsabilité du chercheur. L'adoption de la loi DADVSI et les enjeux juridiques Geneviève Piejut est directrice adjointe de la direction des collections de l'Ina jusqu'en 2014. Jean-Baptiste Soufron est avocat, journaliste (FWPA/Science Po), et ancien secrétaire général du Conseil national pour le numérique. Geneviève se propose d'effectuer un historique de la mise en place de la loi DADVSI (Loi no 2006-961 du 1er août 2006 relative au droit d’auteur et aux droits voisins dans la société de l’information). La loi DADVSI est un projet de loi initié dès 2001 mais qui n'est pas passé devant le gouvernement en raison des élections présidentielles de 2002. Concomitamment, on retrouve la LCI (Loi n°2009-669 du 12 juin 2009 favorisant la diffusion et la protection de la création sur internet, et qui crée notamment la Haute Autorité pour la Diffusion des Œuvres et la Protection des Droits sur Internet (HADOPI)), concrétisation juridique de la loi DADVSI et qui vise à protéger les droits d'auteur. Les réflexions autour de la loi DADVSI sont lancées par Jospin dans le but de démocratiser l'usage d'internet. De plus, l'internet est perçu comme un facteur de croissance économique et est donc porté par le ministère de l'économie. Il s'agissait donc au départ d'enjeux éloignés de la préoccupation patrimoniale. Toutefois, associée à Jean-Michel Rode, la réflexion sur la conservation patrimoniale des archives du web sous la forme d'un dépôt légal voit le jour. En 2004 est votée la loi LCEN (Loi no 2004-575 du 21 juin 2004 pour la confiance dans l’économie numérique). De manière à mettre en application ces lois, le premier point qu'il s'agissait de débloquer était que l'archivage de l'internet ne devait pas être une charge pour les personnes soumises au dépôt légal. C'est la raison pour laquelle les données sont collectées par des robots et que les organismes archivés ont seulement à fournir les codes d'accès à leur espace en ligne. De plus, l'archivage ne devait pas constituer une charge financière pour le dépositaire et il revient à l'Etat d'en assumer les coûts. Dans ce cadre, les outils de la collecte ne doivent pas représenter une charge excessive et s'effectuer dans une économie raisonnable. Il s'agissait également d'établir le périmètre du web français pour le système de sélection et d'échantillonnage, et de mettre en place des procédures de collectes les plus automatisées possibles. Il fallait aussi garantir des conditions de consultation en respectant les droits d'auteurs, pour ne pas fragiliser l'économie du secteur, et pour ce faire le même système que l'Inathèque a été adopté. Il fallait aussi mettre en place une collaboration entre l'Ina et la BnF pour ne pas que
  • 9. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 9 leurs actions se recoupent. Jean-Baptiste Soufron commence par dire que les valeurs véhiculées par DADVSI sont importantes et il craint qu'elles aient été laissées de côté depuis quelques années. La loi DADVSI obéit à une logique réglementaire : s'adapter à l'évolution des technologies. Elle se compose en deux parties, d'une part le dépôt légal et d'autre par la question des droits d'auteur des fonctionnaires. Aujourd'hui la loi de la république numérique est un sujet à l'ouverture mais pas le dépôt légal, il existe pourtant des zones de frictions. La république numérique est une mise à disposition des données, et elle créée de nouveaux concepts de données de référence. Les transformations opérées sont plus d'ouverture mais le traitement des questions d'interopérabilité est non résolu. De plus, il regrette le manque de décision sur les définitions standard en matière d'archivage et sur la recherche concernant l'archivage. La loi DADVSI a légiféré sur l'émergence du web (blogs, etc.), c'est à dire un web standardisé. Or, les pratiques d'accès à internet se sont diversifiées, confirmant une tendance à une balkanisation du numérique. Il pose alors la question de repérer les acteurs, certains étant devenus invisibles. Par ailleurs, il met en évidence les tunnels informationnels : le web est un moyen de communication qui se passe des médias traditionnels. Enfin, il pose les questions du droit à l'oubli et propose d'archiver les règles des algorithmes et des contenus, puisqu'ils sont aussi signifiants que les contenus en eux-mêmes. Archives de l'internet et territoires Fabienne Greffet est maître de conférences en science politique à l'Université de Lorraine, et chercheur à l'IRENEE et à Pacte-CNRS. David Lesvenan est président de l'association www.bzh, registre gestionnaire de l'extension internet bretonne ".bzh". Frédéric-David Martin est adjoint à la directrice du département de la Coopération (BnF). Jérôme Scheitzer est directeur adjoint du développement des collections de la bibliothèque nationale et universitaire de Strasbourg, responsable du pôle d'excellence "Alsatiques". Marta Severo est maître de conférences en sciences de la communication à l'Université Paris Ouest Nanterre La Défense. Anne Pavis est responsable documentaire à l'Inathèque. Marta Severo commence par poser la question de savoir comment les archives du web peuvent permettre d'étudier les nouveaux territoires du web et comment utiliser les archives pour étudier les espaces géographiques. Richard Roger définit quant à lui le web national : les sites qui font partie du .fr sont des sites gérés par des acteurs français et qui parlent d'un certain pays. La répartition territoriale des postes de consultation Ina et BnF est ensuite présentée. Jérôme Scheitzer mène une réflexion sur la collecte d'un web local, une définition plus restreinte. David Lesvenan parle du web régional et de la création du domaine ".bzh". Il n'y a pas de définition de champ géographique strict comme pour le .fr. Donc l'attribution du domaine concerne des personnes qui marquent un attachement à la région bretonne, ou des personnes qui en parlent (ailleurs dans le monde ou en France). La notion d'attachement a été définie par Bruno Latour : c'est une vérification qui intervient a posteriori. De plus 98% des sites du domaine sont basés en France. Jérôme Scheitzer continue sur les noms de domaine et les enjeux de définition.
  • 10. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 10 Strasbourg se définit par exemple en .eu, en référence à la dimension européenne de la ville. Fabienne Greffet souligne en ce sens que les enjeux de collecte sont uniquement nationaux puisque définis par des bibliothèques nationales, et pose la question de l'indexation et de la définition d'un domaine comme .eu. La conservation transnationale est motivée par des enjeux nationaux, et des recherches transnationales devraient être initiées, mais les sources ne le permettent pas puisqu'il n'existe pas d'archivage transnational. Il est alors paradoxal de raisonner en matière de frontière pour des archives ou des médias qui se jouent des frontières. La reconnaissance du patrimoine nativement numérique Eric Guichard est maître de conférences HDR à l'ENSSIB et responsable de l'équipe Réseaux Savoirs & Territoires de l'Ens-Ulm. Camille Paloque-Berges, docteur en Sciences de l'information et de la communication, a été empêchée et n'a pas pu intervenir. Eric Guichard commence par souligner que le temps de construction du patrimoine culturel est indéfinissable, puisque déterminé suivant les personnes qui s'y intéressent. Le patrimoine nativement numérique signifie des pratiques nouvelles des historiens, des données numériques complémentaires à des données papiers. Le numérique fait appel aux nombres, ce qui demande une formation à des méthodes dont sont généralement peu coutumiers les chercheurs des sciences sociales. A cela s'ajoute l'instabilité de la conservation de ces archives du fait des technologies qui évoluent et deviennent rapidement obsolètes, jusqu'à ne plus permettre la lecture de certaines archives. La culture numérique, constitutive de la culture et donc du patrimoine, est une culture technique et réflexive de l’écriture du moment. Il pose la question d'imaginer un patrimoine numérique à l’heure de l’inculture généralisée et souligne qu'il n'y a pas de pensée critique sans une culture de l’écrit. Le patrimoine, dans une version non autoritaire, pose la question de la culture numérique. C’est aussi elle qui définira les cadres principaux du premier. Collecter de nouveaux objets sur internet Ariane Bouchard est adjointe à la responsable du dépôt légal des livres numériques à la BnF. Louise Fauduet est chef du service Multimédia au département de l'audiovisuel à la BnF. Thomas Drugeon est responsable du dépôt légal du web à l'Ina. Philippe Mezzasalma est conservateur et chef du service Presse à la BnF. Thomas Drugeon commence par signaler le mouvement actuel qui se crée pour la télévision à la demande (VOD) et les événements en direct (sportifs ou médiatiques). Le web accompagne la télévision et il donne l'exemple de fils Twitter qui peuvent passer en bandeaux au cours d'un émission télévisée. De même, certaines émissions radio sont filmées et diffusées en ligne en direct, constituant ainsi une extension sur le web de la radio. Enfin, les émissions de radio ou de
  • 11. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 11 télévision sont souvent disponibles intégralement sur le web, et parfois même diffusées partiellement à la télévision ou la radio mais pouvant se retrouver en intégralité sur le web. L'Ina effectue une captation du web en direct qui est équivalente à 32 chaînes captées 24 h/24. Il poursuit en posant le problème de la vidéo hébergée une plateforme comme Youtube. Elle est éditorialisée sur le site mais également dans des contextes différents. Les interprétations de la vidéo peuvent alors fortement varier suivant leur contexte. La captation de la vidéo par l'Ina s'effectue d'abord en dehors de son contexte, puis l'enregistrement des métadonnées s'effectue dans un second temps. L'Ina effectue des captations sur des périmètres larges et des objets parfois à l'extérieur du web, alors que la BnF capte sans en sortir les objets. Louise Fauduet poursuit en décrivant la captation de Dailymotion effectuée par la BnF. Elle a été effectuée par des membres associés, et a enregistré l'intégralité des choix éditoriaux du site dans le cadre de journées témoin. Ariane Bouchard complète ce tableau avec le volet du livre numérique. Il n'existe pas de collecte spécifique au livre numérique. La captation des sites s'effectue par robots, puis les données sont traitées et accessibles à la consultation dans les archives de l'internet. Les fichiers .epub sont enregistrés, tout comme les sites se présentent comme des livres. Cependant la collecte comporte plusieurs limites : elle capte uniquement les contenus gratuits, la logique de dépôt pour les éditions commerciales étant en train de se mettre en place. Une question soulevée par membre du public : la plateforme Youtube est éditorialisée en fonction de l'utilisateur et de sa navigation internet, par le biais des cookies. Comment gérer un contenu par définition personnalisé ? Thomas Drugeon répond que le robot de collecte est dépersonnalisé et dans le sens om il ne comporte pas de cookies. Il capte alors des contenus standard en fonction de son adresse IP. Il collecte ainsi des tendances, des modes, mais pas des parcours. Archivage du web, le temps des expérimentations en France Bruno Bachimont est enseignant-chercheur à l'Université de technologie de Compiègne. Julien Masanes est président de l'Internet Memory Foundation. Ayant travaillé côte à côte lors de l'établissement du dépôt légal du web, tous deux veulent présenter le processus de partage des missions entre les deux institutions de la BnF et de l'Ina. Ces relations furent de leur propre aveu concurrentielles mais stimulantes, et ont le mérite de mettre en évidence les vues et les moyens employés par ces derniers. Bruno Bachimont commence par poser la question de la différence entre un média et un medium. Il en donne la réponse : le médium est pour la diffusion, le média la transmission. Deux points de vue s'affrontent alors. D'une part, il s'agit de prolonger les collections (médium), et d'autre part il s'agit de délivrer un contenu nouveau associé à de nouvelles pratiques (médias). Conserver le dépôt légal du web est alors un juste milieu entre rendre compte de l'innovation et garder une cohérence patrimoniale pour des collections déjà constituées. Il poursuit en remarquant que l'archive du web à un rapport indiciaire. Elle ne peut pas être consultée à l'identique, contrairement au livre dans le sens où l'objet est resté le même. Le web reste une trace, et pose donc des questions de définition et d'appréhension. Il poursuit en faisant un autre constat : le web
  • 12. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 12 est un milieu. Ce milieu nous environne, nous interagissons avec celui-ci et nous met précisément en relation avec un environnement. Il donne la métaphore du poisson qui ne voit pas l'eau : le poisson nous représente et l'eau représente le web. Il s'agit alors d'assumer l'arbitraire, car archiver le web est illusoire, et il est important d'archiver des objets qui permettent de révéler ce milieu. Julien Masanes continue en soulignant que le côté technique est important. Cependant le challenge principal est la dissolution des intermédiaires, ce milieu d'acteurs qui produisent des filtres, des routes, etc. Avec ce web ce milieu s'est dissout, et les acteurs traditionnels ne suffisent plus. La démocratisation et la diffusion permises grâce à internet laissent des traces comme jamais auparavant de par tout le monde, et les acteurs traditionnels comme les grands journaux côtoient les acteurs individuels comme Twitter. Les archives permettent de créer une mémoire sur laquelle toutes les générations futures pourront travailler. Cependant, ce contenu techniquement très fragile et la publication instantanée est très dépendante du serveur d'origine. Les outils développés permettent le suivi des liens, une série de micro décisions et des contraintes qui construisent l'artefact de l'archive. Il finit par poser la question de la légitimité des contenus et comment se positionner par rapport à eux, et conclut qu'il faut capter indépendamment d'une opinion générale. La création du .fr Loïc Damilaville est directeur marketing de l'AFNIC. L'année 2016 célèbre le trentième anniversaire de la création de l'extension ".fr". Le système des noms de domaine est ce qui précède la création du web, c'est-à-dire des machines connectées entre elles et identifiées par des adresses IP. Cette pratique était lisible pour les machines mais difficilement exploitable par les humains, d'où la création en 1985 du DNS, Domain Name System, qui permet l'association d'une adresse IP à un nom de domaine. Aux extensions génériques telles que ".com" se succédèrent des extensions plus spécifiques, en fonction du pays comme le ".fr" (France), ".su" (Union soviétique) ou le ".yu" (ex-Yougoslavie, aujourd'hui supprimé). Aujourd'hui, seuls les noms de domaine ".com" et ".net" sont ouverts à tous. Les autres sont soumis à des contrôles par les organismes chargés de leur gestion, et à ce titre l'AFNIC se charge entre autres de la gestion du .fr. En tout ce sont 1226 extensions génériques et 311 extensions géographiques. Loïc Damilaville se propose ensuite d'effectuer un rapide historique de la création du nom de domaine .fr. Destiné dans un premiers temps aux chercheurs de l'INRIA, son usage s'est peu à peu étendu à l'ensemble de la communauté française. Des années 1986 à 1997, l'INRIA assure également l'administration du réseau Fnet, seul support de l’internet en France jusqu’en 1992. Cette même année, l'INRIA crée un service ad hoc pour gérer le .fr, le NIC France, petit à petit autofinancé (adhésions des opérateurs/bureaux d’enregistrement et création/renouvellement des noms de domaine). En 1996, une charte de nommage met l'accent sur le .fr en tant que zone de confiance, dans un contexte où le droit des noms de domaine est encore à ses débuts, notamment en ce qui concerne la protection des marques. En 1999 est créé l'UDRP, Uniform Dispute Resolution Policy, afin de gérer les extensions génériques. Le nombre
  • 13. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 13 de domaines est alors limité et il faut pour les acquéreurs justifier d'un droit afin de bénéficier un nom de domaine. Les flux financiers devenant de plus en plus importants, l'INRIA externalise la gestion du .fr, et en 1997 est créé l'AFNIC, composée de dix membres (cinq nommés par l'Etat et cinq élus). Petit à petit, la charte de nommage s’assouplit et recherche une meilleure facilité d’enregistrement combinée avec une meilleure protection des ayants droits. En 2001 est créé l'extension .com.fr, ou les justificatifs ne sont pas demandés, et d’un .nom.fr destiné aux particuliers. En 2004, la limitation du nombre de domaine est abandonnée et il n'est plus nécessaire de justifier d’un droit sur un nom de domaine pour le déposer. En effet, des vérifications sur des bases de données accessibles en ligne permettent l’automatisation du processus d’enregistrement. Dans le même temps est mis en place la procédure de résolution des litiges (PARL) en partenariat avec l'Organisation mondiale de la propriété intellectuelle (OMPI) et le Centre de médiation et d’arbitrage de Paris (CMAP). En 2006, suivant la même logique, le .fr s'ouvre aux particuliers français, et en 2011 aux particuliers européens. En 2008 est mis en place la procédure PREDEC (remplaçant la PARL) et en 2016 la PARL Expert est assurée par l'OMPI. Le nombre de domaines ouvert, surtout après l'ouverture aux particuliers et l'abandon du droit au nom en 2004, ne cesse d'augmenter. Premiers sites web, premières communautés, témoignages Roei Amit est directeur chargé du numérique à la RMN - Grand Palais. Isabelle Aveline est responsable Innovation et développement numérique, fondatrice du site zazieweb.com. Alexandre Gefen est chercheur au Centre d'Etude de la Langue et des Littératures Françaises, fondateur du site Fabula.org (OBVIL). Stéphane Ramezi est directeur adjoint à la diffusion et à l'innovation à l'Ina. Stéphane Ramezzo commence par répondre à la question de la place du web dans les années 1990. Selon lui, le web est un nouveau terrain d'expression infini et illimité, contrairement aux médias traditionnels. Roei Amit poursuit en présentant le site grand public de l'Ina, ina.fr. Il a été lancé en 2006 dans le contexte du lancement des plateformes vidéo telles que Youtube ou Dailymotion. Le site est d'abord destiné aux professionnels, puis a été ensuite ouvert au grand public. Le projet était d'ailleurs initialement intitulé "archives pour tous". Alexandre Gefen souligne l'existence d'une culture de l'open access, c'est-à-dire communiquer à grande échelle et rejoint ce qui se fait dans les autres sciences (comme Calenda par exemple). La recherche se met au diapason de la culture de l'open access. Isabelle Aveline propose quant à elle une vision un peu différente, qui n'est pas celle d'un chercheur mais celle d'un inventeur. Elle souligne l'égalité qui existait aux débuts du web entre les "metteurs de contenu", et les instances officielles comme les particuliers bénéficiaient de la même interface. Ensuite, Alexandre Gefen remarque que l'accumulation des données des archives du web n'est rien sans que l'on puisse les exploiter. Il s'agit alors de mettre en place des outils qui en permettent l'exploitation, notamment des outils statistiques, afin d'exploiter le nombre de donnée très conséquent (comme le logiciel Google Ngram qui permet d'observer l'évolution de la fréquence d'un ou de plusieurs mots à travers le
  • 14. "Il était une fois dans le web, 20 ans d'archives de l'internet en France" Compte-rendu réalisé par Sébastien Pont, Aix-Marseille Université. 14 temps dans les imprimés). Roei Amit se joint à ces souhaits, en ajoutant la création d'API. Les intervenants soulignent également la personnalisation du web qui devient de plus en plus importante. Les utilisateurs accèdent à un espace personnalisé, à travers des applications dédiées qui permettent aussi plus de mobilité. Le web n'est alors plus un espace public, ce qui pose des questions nouvelles pour son archivage. L'archive évolue, et il s'agit d'en suivre le mouvement. Bilan Le colloque "Il était une fois dans le web, 20 ans d'archives de l'internet en France" a montré le processus de patrimonialisation de l'archive de l'internet et la mise en place des politiques de conservation par l'Ina et la BnF, accompagné par une série de lois sur l’internet et ses usages entamée dès la fin des années 1990 et toujours d’actualité. Il en a proposé un historique efficace et un point sur les outils disponibles proposés par l'Ina et la BnF et les applications possibles, notamment dans le champ des sciences humaines. Il en ressort qu'aborder les archives de l'internet demande une veille constante et une formation spécifique, et les participants ont souvent souligné l'importance de sensibiliser aux outils offerts par les institutions et le potentiel de ces archives, afin de susciter de nouvelles recherches. Ils ont souligné également l'importance de la mise en place de nouvelles méthodologies et d'outils pour les aborder. Les collectes, qui consistent en un juste milieu entre captation quantitative et qualitative, sont effectuées suivant les besoins des chercheurs et de la mémoire collective, et le contenu de l’archive a autant d’importance que ses méthodes. Sur les perspectives ouvertes de l'archive, il a été précisé que l'agora public que pouvait être le web, où tout le monde avait une certaine forme d'égalité, est en train de disparaitre au profit d'un web de plus en plus mobile et individualisé. Archiver le web est aborder une matière mouvante et en constante redéfinition, et ce colloque a relevé le défi d'en tracer les contours en prenant soin de souligner les aspects techniques, territoriaux, juridiques et historiques qui s'y rattachaient. La fin de la journée fait finalement ressortir plus de questions qu'à son commencement : espérons qu'un nouveau colloque dans quelques années nous permettra d'y répondre. En attendant, on lira avec profit le numéro de la revue RESET consacré au patrimoine et à la patrimonialisation numériques.