OpenRefine (anciennement Google Refine) est un outil puissant pour manipuler de grandes quantités de données, permettant des opérations de nettoyage en masse, l’exploration rapide de jeux de données, la conversion d’un format à l’autre, l’application de transformations cellulaires de base et avancées, le filtrage et le partitionnement des données avec des expressions régulières, l’extraction d’entités nommées sur des champs de texte intégral... Son usage, en tant qu’outil libre et gratuit, s’impose donc rapidement et cet atelier offrira un aperçu large de ses possibilités à l’appui de cas concrets.
1. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Les TIC et l’art
OpenRefine
traitement de données en masse
Antoine Courtin / Pierre Mounier /Antonio Mendes da Silva – jeudi 9 juin 2016
2. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
LOD cloud diagram d’août 2014
L’outil OpenRefine est historiquement lié à l’existence de Freebase, l’un des tous premiers projets
collaboratifs d’entrepôts de données sémantiques sur le web
3. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Qu’est-ce qu’OpenRefine ?
Historique :
2007 mars : Metaweb lance Freebase
2010 : Freebase est proposée avec l’outil de nettoyage et de
traitement des données Gridworks (v1.0)
2010 juillet : Google rachète Metaweb
2010 nov : Gridworks devient Google Refine
2012 oct : Arrêt de Google Refine dont le code est libéré et qui devient
OpenRefine
[2012 : Le contenu de Freebase est transféré sur Wikidata
2014 déc : Google annonce la fermeture de Freebase
2015 : Fermeture progressive de Freebase et des services associés
2016 mai : Fermeture définitive de Freebase
…………………..]
4. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Un tutoriel pas à pas sur OpenRefine :
http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
5. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
1. Installation d’OpenRefine : http://openrefine.org/download.html
6. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
2. Récupérer un set de données à nettoyer pour l’atelier :
http://enipedia.tudelft.nl/wiki/OpenRefine_Tutorial
7. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Exercices…
8. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Où les trouver ? Comment les installer ?
• Sur le site officiel, à la page des
téléchargments
-> http://openrefine.org/download.html
• sur Github, dans des répertoires
spécifiques (recherche sur « plugin et/ou
extension)
-> http://bit.ly/1X9TEx4
-> http://bit.ly/1UEghq1
• Fermer l’application
• Se rendre dans le répertoire où se trouve
l’application
• Dans le dossier /webapp/, créer le dossier
« extensions » si celui-ci n’existe pas
• Télécharger l’extension souhaitée au
format .zip, le dézipper et placer ce
répertoire dans le répertoire
/webapp/extensions
• Relancer l’application
« Augmenter » le comportement d’OpenRefine
9. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
« Augmenter » le comportement d’OpenRefine
Les plugins/extensions les + utiles
• Exporter les données en RDF (à partir d’un squelette
issue d’une ontologie par ex.)
• https://github.com/fadmaa/grefine-rdf-
extension/releases
• (ATTENTION: renommer le dossier dezippé en
« rdf-extension » avant de le copier dans le
répertoire /webapp/extensions/)
• Extraction d’entités nommées
• https://github.com/RubenVerborgh/Refine-NER-
Extension
• VIB-BITS: 3 plugins (gestions des actions/historique;
comparaison entre 2 textes; gestions des facettes)
• https://www.bits.vib.be/index.php/software-
overview/openrefine
• Réaliser des statistiques
• https://github.com/sparkica/refine-stats
Des services à paramétrer
• La reconciliation avec VIAF
• http://refine.codefork.com/
• Aller dans « Add Standard Service » puis ajouter
le code suivant:
http://refine.codefork.com/reconcile/viaf
10. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Une utilisation « augmentée » d’OpenRefine
Quelques exemples/exercices
• Utiliser l’API de Google pour géolocaliser des lieux
• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis
• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et
Allegheny.
• Lancer la géolocalisation via « by fetching URL »
• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value,
"url »)
• Extraite les coordonnées géographiques dans une autre colonne
• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York
• Créer une colonne avec pour créer le nom complet
• Filtrer sur les élèves nés à New York
• Procéder à la réconciliation en utilisant le VIAF
• Utiliser l’interface pour valider et choisir la réconciliation
• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
11. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
OpenRefine & les plugins
• Utiliser l’API de Google pour géolocaliser des lieux
• Ajouter à la colonne Lieu_naissance 1, le terme de Etats-Unis
• cells['Lieu_naissance 1'].value + ", Etats-Unis"
• Jouer avec les filtres pour avoir dans la zone centrale, les architectes nés à Bennington, Aurora et Allegheny.
• Lancer la géolocalisation via « by fetching URL »
• "http://maps.google.com/maps/api/geocode/json?sensor=false&address=" + escape(value, "url »)
• Extraite les coordonnées géographiques dans une autre colonne
• with(value.parseJson().results[0].geometry.location, pair, pair.lat +", " + pair.lng)
• Procéder à une « reconciliation » avec VIAF sur les élèves nés à New York
• Créer une colonne avec pour créer le nom complet
• cells['Nom_usuel'].value + ", " + cells['Prenom_usuel'].value
• Filtrer sur les élèves nés à New York
• Procéder à la réconciliation en utilisant le VIAF
• Utiliser l’interface pour valider et choisir la réconciliation
• Créer une colonne en extrayant l’id des résultats de la reconciliation avec VIAF
• cell.recon.match.id
Quelques exemples/exercices -> réponses
12. Les TIC et l'art
OpenRefine
9 juin 2016
Institut national d'histoire de l'art
Accès:
6, rue des Petits-Champs
75002Paris
Adresse postale:
2, rue Vivienne
75002Paris
Métro : Bourse, Pyramides
Palais royal/Musée du Louvre
Tél. : +33 (0) 1 47 03 8984
Fax : +33 (0) 1 47 03 8636
lesticetlart@inha.fr
http://invisu.inha.fr
Certains des + d’OpenRefine
• Pouvoir facilement relier 2 projets et ajouter des données de l’un à l’autre des projets
• cell.cross("My Address Book", "friend")[0].cells["address"].value[0]
• Pouvoir sauvegarder et rejouer un ensemble des tâches ultérieurement grâce à un fichier json
• Aller dans l’onglet “Unod/Redo” puis dans Extract/Aplply
• Extraire des données d’une page web
• Grâce à lafonction “Add column by fetching URL” + la fonctionparseHTML
Paramétrages pratiques
• Paramétrer le nombre de facettes autorisées
• http://127.0.0.1:3333/preferences
• Ajouter ui.browsing.listFacet.limit (ex 10000)
• Augmenter la mémoire allouer à OpenRefine (pour traiter des fichiers + gros)
• modifier le paramètre-XXmx2048M dansle fichier “google.refine.l4j.ini”