2. Les données ouvertes : mode d’emploi ?
• Décembre 2011 : une petite révolution en France
• 1er trimestre 2012 : le Conseil Général de la Gironde
lance un appel d’offres
• Les villes lancent des concours
• Données publiques mais aussi données privées en
Open Data
• Mode d’emploi ?
• Comment les constituer?
• Comment les utiliser?
• Quel est l’enjeu?
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
3. Les données ouvertes : mode d’emploi ?
• Introduction :
• Enjeux : André May, Mondeca
• Ouverture des données publiques de la France : Romain Lacombe,
Etalab
• Mondeca :
• Linked Open Data : Thomas Francart
• Témoignage : Charles Ruelle, Etalab
• Atos :
• Cloud et Linked Open Data : Steve Peguet
• Emakina
• Marketing de la démarche : Alexis Mons
• Témoignage : Guillaume Neron Bancel (CG du Loir-et-Cher)
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
4. Section I
LINKED OPEN DATA :
VALORISER VOS DONNÉES PAR LA
SÉMANTIQUE ET LEUR OUVERTURE
5. PLAN
OPEN DATA : POURQUOI ? COMMENT ?
GESTION DU CATALOGUE DES DONNÉES
GESTION DU CONTENU DES DONNÉES
6. TITRE PREMIERE PARTIE
Data is King
Variante : « Content is King, but Data is God »
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
7. Mondeca et les bonnes pratiques de l’Open Data
Catalogue des bonnes pratiques de l’open data en construction par le
projet datalocale.fr : ~ 75 critères dans 13 rubriques
• Animation • Licence
• API • Linked Data
• Applications • Nommage
• Catalogage • Transparence
• Format • Utilisabilité
• Historique • Vie privée
• Identification Valeur ajoutée de Mondeca :
aucune / partielle / forte
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
8. Gestion du catalogue et gestion du contenu des données
• Gérer et publier un • S’intéresser au contenu
catalogue de données des données du catalogue
ouvertes • Normaliser
• Recencer • Expliciter la sémantique
• Qualifier • Relier
• Annoter • etc.
• Indexer
• etc.
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
9. Le guide Michelin de l’Open Data
Notation qualitative sur 5 étoiles pour la mise en ligne des données
★ Données accessibles sur le web (sans
conditions de formats)
★★ Données accessibles structurées (exemple:
Excel au lieu de l’image d’un tableau)
★★★ Formats non-propriétaires (exemple: csv au
lieu d’Excel)
★★★★ Usage d’URL pour identifier les données
★★★★★ Données liées sémantiquement
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
10. La data oui… mais liée !
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
11. Publier des données – pourquoi ?
• Législation : acteurs publics
• SEO : schema.org
• Pour favoriser l’émergence d’un écosystème autour des
données : feedback, curateurs, utilisateurs…
• Pour permettre leur réutilisation et attirer de nouveaux clients
• Pour faciliter leur mise en relation avec d’autres données et
augmenter leurs chances d’être trouvée
• Pour permettre à d’autres données de les référencer et favoriser leur
accès
• Pour faciliter la réutilisation des données par plusieurs
applications, en interne, dans l’entreprise
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
12. PLAN
OPEN DATA : POURQUOI ? COMMENT ?
GESTION DU CATALOGUE DES DONNÉES
GESTION DU CONTENU DES DONNÉES
13. Gestion des catalogues de jeux de données
• Catégoriser les datasets sur plusieurs axes :
• Géographique
• Thématique
• Administratif (service producteur)
• Temporel
• Format
• => des métadonnées sur les données
• Nécessité d’administrer ces vocabulaires
• Permet :
• Meilleure qualification des jeux de données
• Meilleur travail collaboratif sur un référentiel unifié
• Meilleure recherche
• Navigation par facettes
• Navigation dans les résultats (thématiques liées, services remplaçants, etc.)
• Meilleure interopérabilité avec d’autres systèmes (si les référentiels sont
partagés)
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
14. Mondeca : Vocabulary and ontology management
Import/Export
Traceability
Versioning
Quality control
Reporting
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
15. Charles Ruelle
@charlesruelle - charles.ruelle@pm.gouv.fr
Etalab.gouv.fr @etalab
Data.gouv.fr #etalab
16. Les missions d’Etalab
• Coordonner l’action des administrations de l’Etat et de ses
établissements publics administratifs pour faciliter la
réutilisation la plus large possible de leurs informations
publiques
• Création d’une plateforme destinée à rassembler et à
mettre à disposition librement et le plus largement possible
les informations publiques de l’Etat, de ses établissements
publics administratifs, et si elles le souhaitent, des
collectivités territoriales.
17. Data.gouv.fr : la plateforme de diffusion des données
• Un Front office unique
– La recherche et la navigation dans l’inventaire des jeux de données
publiés
– La consultation des jeux de données publiés
– Le téléchargement des jeux de données
– Une base de connaissance collaborative sur l’open data : échanges et
discussions sur son actualité, ses acteurs, ses perspectives, les jeux de
données et leurs réutilisations…
• Un Back office dédié aux producteurs de données, supportant
le processus et les fonctionnalités de la publication des jeux de
données
• Un Middle office dédié à l’équipe ETALAB
– Modération
– Administration du catalogue et des référentiels
– Administration du datastore et des flux d’imports automatisés
18. Quelques chiffres
• 105 administrations impliquées
• 14 correspondants ministériels
• + de 200 contributeurs sur la plateforme
• + de 350 000 fichiers disponibles en téléchargement
• + de 300 000 téléchargements
• 2 000 000 pages vues
19. Data.gouv.fr : vision technologique de la plateforme
• Une architecture articulée autour d’une ontologie adossée à des vocabulaires
contrôlés, qui fédère l’ensemble des sources de données utiles et de leurs
ressources associées
– Scalable (Volumétrie, mise à jour, usage concurrent, haute disponibilité)
– Administrable (Déploiement, configuration maintenance)
• Un moteur de recherche donne du sens aux informations et simplifie l’accès aux
données pour les internautes :
– Analyse des questions (lexicale, correction orthographique et phonétique, expansion,
usage de dictionnaires complémentaires, sémantique)
– Fourniture des réponses pertinentes (listes de résultats) et structurées (Facettes
contextuelles et dynamique, nuage de tags)
– Une navigation sémantisée entre concepts : jeu de données, ressource, producteur,
articles associés
20. Data.gouv.fr : vision technologique de la plateforme
Import des fiches
par lots
Saisie manuelle dans
l’espace producteur Imports par lots, ou
Via l’espace producteur
21. Modèle conceptuel d’inventaire
Distribution
Inventaire Identifier
[Général] Creator
entête
date
…
Status
ID
Jeu de Couverture Producteur
données temporelle
Titre
Date
corps
Type
Thème Description
Thème
Période
Ressource Producteur de Territoire
associée données Territoire distribution
22. Data.gouv.fr : précisions sur l’ontologie
Producteur
Producteur
Producteur Producteur
Producteur
Producteur
Annuaire de l’administration (Alimenté à partir de Service-Public.fr )
Pays et
Pays et
Pays et
Pays et
Territoires
Territoires
Découpage administratif
Territoires
territoires
Code Officiel Géographique (http://rdf.insee.fr/geo/)
Pays et
Pays et
Pays et
Territoires et
Matière
Territoires
Thématiques
Territoires
Thème
Eurovoc 4.3 : Thématiques (http://eurovoc.europa.eu/drupal/?q=fr)
Des mots clé libres s'appliquent à tous les vocabulaires contrôlés.
Ils servent à accueillir l'indexation correspondante dans la source et permettre l'ajout de mots
clé non présents dans les vocabulaires proposés.
23. Data.gouv.fr : évolutions
• Amélioration de la recherche
– Multiplication des facettes
– Suggestions de recherches
– Hiérarchisation des facettes
– Recherche multicritères (ciblage sur les propriétés)
– Recherche spécialisée (géographique…)
– Etude de l’ajout d’autres thésaurus & alignements (Hydrographique, zones
de pêche, AGROVOC …)
• Suivre les évolutions du modèle DCAT (Data Catalog Vocabulary)
– Format standardisé (W3C) de publication de catalogues de données
gouvernementales
– Publier le catalogue sémantique (Linked Open Data)
• Normaliser les données
24. Modèle DCAT
DCAT is used by data.gouv.fr, data.gov, data.gov.uk, data.australia.gov.au,
data.govt.nz, statcentral.ie, London Datastore, and datasf.org
25. Alignement de vocabulaires
• Pourquoi ?
– Si le contenu est annoté sur un vocabulaire A, et que l’utilisateur cherche
avec un vocabulaire B ?
– Favorise l’interopérabilité : permet d’interroger un catalogue annoté sur un
vocabulaire différent de celui de la recherche
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
26. Utilisation des alignements dans un moteur de
recherche
• Plutôt au moment de l’indexation
• On traduit les annotations des documents d’origine en
utilisant l’alignement
– Du vocabulaire A vers le vocabulaire B
• On enrichit l’index avec les concepts du vocabulaire B
– L’index contient donc l’annotation sur le vocabulaire A et sur le vocabulaire
B
• On peut ensuite rechercher sur le corpus en utilisant les
concepts du vocabulaire B
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
29. PLAN
OPEN DATA : POURQUOI ? COMMENT ?
GESTION DU CATALOGUE DES DONNÉES
GESTION DU CONTENU DES DONNÉES
30. Publier ses données sur le web (de données)
1. Quelle Modélisation ? (et quels vocabulaires
réutiliser ?)
2. Quels Identifiants ?
3. Quels Liens avec d’autres données ?
4. Quel Format ?
5. Quel Mécanisme de publication ?
6. Quelle Evolution dans le temps ?
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
31. Les identifiants, cas de l’INSEE
• Article dans « Documentaliste, Sciences de l’information »,
décembre 2011, dossier sur le Web sémantique
• INSEE : publication de nomenclatures officielles
• Attribution de « codes » aux entités
• Activités, produits, services, etc.
• Code Officiel Géographique (COG)
• Découpage administratif et statistique du territoire
• Code d’une commune
• 05065 : commune de Guillestre
• Valable uniquement dans un contexte où l’on sait que c’est la valeur d’un code
commune
• Pour la publication des données
• Génération d’URI à partir du code
• http://data.insee.fr/geo/Commune/05065
• Génération des données facilitée
• Réutilisation des données facilitée, pour des applications qui s’appuient déjà sur
les codes
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
32. Le format, cas de la SNOMED
• Tableau Excel à sémantique ambigüe
• 1 ligne par terme
• Mais plusieurs fois le même « TERMCODE »…
• Sans explication dans la documentation
• Il faut désambigüiser en fonction de l’ordre d’apparition dans le
tableau…
• Un format de publication sémantique en RDF aurait levé toute
ambiguïté sur les identifiants des concepts
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
33. La publication : le cas de service-public.fr
• Répertoire de l’administration française
• Géré par la DILA (Direction de l’Information Légale et Administrative)
• Problématique d’identifiants : quel identifiant utiliser pour
identifier les services ?
• Problématique de publication :
• Quelles données publier ?
• Sous quels formats ?
• RDF pour les données brutes
• HTML pour l’internaute
• XML pour des services partenaires
• Une bonne solution serait : mécanisme de négociation de contenu pour
que chaque type d’utilisateur accède au format approprié
• Problématique d’évolution de l’annuaire de l’administration
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
34. La négociation de contenu
• http://validator.linkeddata.org
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
35. Mondeca et le projet CG33
• Travail sur les données elles-mêmes :
• Définition du/des modèles de représentations des données
• Identification et utilisation de vocabulaires de référence pour
catégoriser les données
• Transformation des données CSV en RDF
• (Alignement des données entre elles)
• Choix d’un triplestore
• Chargement des données en RDF dans un triplestore
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
36. Le projet Datalift
• Partners : INRIA Exmo & Edelweiss, ATOS, IGN,
INSEE, EURECOM, FING
• Objective: develop a platform to publish and interlink
datasets on the Web of Data
• Publish datasets coming from a network of partners and
data providers and propose a set of tools for easing the
datasets publication process.
– selecting ontologies for publishing data
– converting data to the appropriate format (RDF using the
selected ontology)
– publishing the linked data
– interlinking data with other data sources
• Mondeca's role: data conversion tools, import
interfaces, open data publishing, mapping with LOD
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
37. LOV : Linked Open Vocabularies
• http://labs.mondeca.com/dataset/lov
• Un catalogue de l’écosystème des vocabulaires de
description de données sémantiques.
• Décrit les vocabulaires inter-reliés
• Mise à jour automatique en temps réel pour suivre
l’évolution de cet écosystème
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
40. LOV Search
• Search for a vocabulary, a class, or a property to reuse
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
41. LOV Stats
• Donne des métriques sur l’utilisation des classes et
propriétés des vocabulaires du web de données :
• Références à la classe/propriété dans d’autres vocabulaires
• En nombre de vocabulaires
• Dublin Core en tête
• En nombre de classes/propriétés qui y référent
• SKOS en tête
• Nombre d’occurrences de la classe/propriété dans tout le web
de données
• FOAF et Uniprot en tête
• Permet de connaître la « popularité » des classes et
propriétés des vocabulaires du web de données
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
42. LOV Stats
• Nombre d’utilisation de l’élément dans _tout_ le
web de données
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
43. Excel : sémantique implicite
A B C
E-Mail
1 First name Second name
address
2 Tom Houston th@ex.com
3 Tim Presley jp@ex.com
4 ... ... ...
A B C D E
1 Corporate EMEA Company Germany Sales Germany
2 Corporate EMEA Company Germany Marketing Germany
3 Corporate Americas Company USA Sales USA
4 Corporate Americas Company USA Marketing USA
5 Corporate Shared Services HR
6 Corporate Shared Services IT
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
44. Le résultat des élections sur data.gouv.fr
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
45. XLWrap : de excel vers RDF
• http://xlwrap.sourceforge.net/ : Permet de rendre
accessible les données d’un fichier excel/csv en SPARQL
• Approche « middleware » : donne accès aux données d’un fichier
excel/csv via SPARQL
• Ou approche « transformation » : transforme le contenu d’un fichier
excel/csv en RDF : mais nécessite d’écrire du code
• Fichier de paramétrage pour expliciter comment
transformer le tableau en RDF
• Permet de traiter des fichiers excel compliqués
• Pas simplement « 1 ligne = 1 entité, 1 colonne = 1 propriété »
• Intérêt : transformer les données Excel/CSV en RDF
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
46. Exprimer le résultats des élections en RDF
• Cas pratique où l’on cherche à expliciter la
sémantique des données
• Démontrer la réutilisation de vocabulaires
• Event
• Time
• Geo
• FOAF
• Lier à d’autres données
• INSEE
• DBPedia
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
51. Les fondamentaux du Cloud
Software as a Service
• Solutions logicielles
(SaaS)
Platform as a Service
(PaaS) • Test et développement, Middleware…
Infrastructure as a Service
(IaaS)
• Computing, Stockage, Réseau…
Accès par les technologies Internet à des ressources
informatiques de taille modulable - à la hausse ou à la baisse
- disponibles à la demande, et payables à l’usage
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
52. Les avantages des infrastructures à la demande
(IaaS)
• Porter une application sur une plate-forme Cloud
• Flexibilité pour le dimensionnement des besoins : aucun risque de
surinvestissement ni de manque de ressources
• Rapidité de mise sur le marché (sans processus d’achats de matériels,
etc..)
• En choisissant un fournisseur comme Atos, certitude que les données
restent sur le territoire national, sont sécurisées, auditables, non
soumises à une loi étrangère
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
53. Plateformes Cloud de développement et de test
(PaaS)
AUTOMATISATION
SECURITE
Cloud hybride
Privé automatisé Public
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
54. Services à la demande pour le Secteur Public
(SaaS)
• A3C (Atos Cloud Communication and Collaboration), les offres Microsoft
Exchange, Lync et SharePoint disponibles à la demande depuis les Data Centers
d’Atos
• Offres dans le domaine de l’Education : Espace Numérique de Travail,
Optimisation du SI/Poste de travail des Collèges ou des Lycées
• Offres dans le domaine de la Santé : transmission de dossiers médicaux,
systèmes de gestion d’hôpitaux, télémédecine
• L’offre MyCity pour que les
municipalités mettent à
disposition des citoyens des
applications mobiles
« utiles », en modèle
payable à la consommation
FixThis iBiking CityTransport Agenda Next2Me
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
55. Canopy : un partenariat stratégique
Le leader Européen de Le 1er vendeur de La 1ère entreprise de
Services IT solutions de stockage Cloud virtualisation Cloud
Services Cloud avancés pour le bénéfice
des Administrations d’Etat, des collectivités territoriales
et des administrations hospitalières
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
56. Offre Canopy
Compréhension du contexte Cloud sur
l’ensemble du cycle de vie SI
▶ Stratégie Consulting
▶ Architecture, reprise de l’existant
▶ Mise en œuvre, migration et exploitation
Services de migration
et de développement
Portefeuille de services Cloud
▶ Reprise de l’existant du client
▶ Applications éligibles à ses besoins métiers
▶ Ouverture de l’écosystème indépendamment des
éditeurs
Plateforme Cloud
Solutions de développement et de test (Développement + Production)
(PaaS)
▶ Environnements de développement, recette et
production basés sur des plateformes Cloud Portefeuille de
▶ Plateforme ouverte
▶ Gestion de la qualité de services
services Cloud
Solution de Cloud Privé Infrastructure
▶ Solution clé en main à déployer Cloud dédiée ou privée
▶ Orchestration des Clouds Privés, Publics ou Hybrides
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
57. Solution de Cloud privé
Solution de Cloud privé réalisée avec les technologies
EMC-VMware-VCE technology :
▶ Nuages pré-configurés et standardisés pour être déployés
▶ Solution clé en main et exploitée soit par Atos Managed Services dans les
Data Centers Atos ou par le Client dans ses Data Centers
▶ Gestion de la qualité de services, de la sécurité et des SLAs
Client Cloud
on premises
Operated by
Pre-Engineered Customer
Pre-Integrated or
Accelerates the Journey
Atos Cloud
Operated by
Atos Managed
Services
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
58. Offre OpenData Center (ODC)
• Offre SaaS
• Infrastructure mutualisée pour le
secteur public et dédiée pour chaque Valorisation
des données
client sur un axe territoriale
• Basée sur des solutions Open Elévation
Source des
données
• Basée sur les travaux d’innovation Gestion de la
qualité des
d’Atos mariant technologiquement le données
web 2.0 et le web 3.0
• Fédérant l’ensemble des acteurs de
l’OpenData
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
59. Etude des données existantes (Consulting)
• Données numériques
• Toutes les administrations ont depuis longtemps constitué de grandes quantités
de données. Celles-ci sont structurées (par exemple : bases de données, feuilles
de calcul) ou non (photos, notices, documents). Si les données ne sont pas sous
forme numérique, elles relèveront d’un chantier de dématérialisation qui fait
l’objet d’une offre spécifique. La présente offre concerne les données
numériques.
• L’étude de l’existant des données vise à dresser un inventaire
raisonné
• disponibilité et forme externe des données (par exemple : en ligne, sur CD,
archives papier)
• format des données numériques (base de données, CSV, XML, etc.)
• qualité des données (fraîcheur, volume, débit, documentation disponible, etc.)
• caractéristique d’usage (nom, propriétaire, utilisateurs, référence ou copie,
processus impliqués, etc.)
• Livrable : Catalogue des données
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
60. Qualification des données
• La qualité des données OpenData est actuellement
préoccupante. Elles sont brutes, hétérogènes, non
documentées…
• Il s’agit d’évaluer la qualité des données résultantes et d’en
garantir le niveau lors de leur exposition.
• Cette qualité est de même nature que celle d’un système
de gestion de la qualité des données (DQMS). La qualité
des données entrantes est déterminante.
• L’offre Atos répond aux exigences à l’aide de l’outil Altao
en SaaS
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
61. Altao Data Management Solutions
Solution couvrant
▶ Le chargement et le contrôle
des données source (contrôles
syntaxiques et audits métiers)
▶ La transformation et la
transcodification des données
source vers un format pivot
correspondant à l’interface de
chargement de la cible
▶ Le contrôle de qualité des
données cible
Principal livrable
▶ Données transformées prêtes
à être chargées dans
l’application cible
Services Additionnels Services Additionnels
▶ Détection / Fusion de doublons ; ▶ Normalisation de données ;
▶ IHM de correction de données de masse ; ▶ Traitements de comparaison source – cible …
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
62. Altao Qualification fonctionnelle des données
Qualification fonctionnelle des données sources : Audits « source »
▶ Nous définissons des audits fonctionnels permettant de contrôler que la qualité des données source est
compatible avec les règles de reprise établies.
▶ Ces audits visent également à améliorer la maîtrise des données source et à identifier les travaux de
fiabilisation à entreprendre dans les systèmes source
Formalisme du rapport :
▶ Les résultats sont fournis sous forme
d’un rapport HTML présentant le
nombre d’anomalies identifiées
▶ La liste de ces anomalies est
directement visualisable sous un
tableur de type Excel
▶ Les résultats des audits sont historiés
afin de suivre l’avancement des
réhabilitations
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
63. Altao Qualification technique des données
Qualification technique des données : Profilage
▶ Analyse technique visant à établir une parfaite vision syntaxique des données sources, et notamment à
identifier pour chaque donnée source les éléments suivants :
▶ Densité indiquant le taux d’alimentation
de la donnée ;
▶ Unicité indiquant si la donnée est
candidate à être clé primaire unique de la
structure de données ;
▶ Motif indiquant les différents formats
présents pour cette donnée (exemple :
identification pour un champ « numéro
de téléphone » de données stockés sous le
format « 99 99 99 99 99 » ou « +99 9 99
99 99 99 » ) ;
▶ Liste de valeurs recensant pour les
données devant respecter une
nomenclature stricte;
▶ Le profilage permet d’identifier les valeurs marginales présentes en base de données qui pourraient nuire à la
qualité des données transformées et de lancer les opérations de fiabilisation nécessaires dans les systèmes
source
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
64. Catégorisation
• Un dataset OpenData est
catégorisable à l’aide de
métadonnées.
• Parmi celles-ci, on trouvera
celles qui sont nécessaires
au référencement dans le
portail Etalab lorsque le
dataset doit avoir le statut
d’OpenData français.
• Le vocabulaire VOID est
utilisé en priorité.
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
65. Analyse des catégories
• Les données exposées appartiennent à des catégories qui
facilitent leur accès.
• Ces catégories sont thématiques, techniques, origine.
• Thématiques
• Il y en a plus ou moins (6 à Paris, 12 à Rennes, 46 au
Data.gov) Exemple de répartition
• Selon l’exposant d’OpenData, les priorités peuvent être
très différentes
• Techniques
• Le format de représentation des données.
• Données numériques, géographiques, textuelles, images,
etc.
• Origine
• Organisme producteur des données
• Signalétique
• Date de création, nom de la source, …
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
66. Catalogage des données
• Mise à disposition des jeux de données ouvertes via un
catalogue (entrepôt open source CKAN)
• Mise en valeur des jeux de données et animation via un portail
public alimenté par ce catalogue
• Gestion des métadonnées associées à la catégorisation en
respectant les normes en cours par saisie guidée suivant des
thésaurus prédéfinis
• Service de catégorisation automatique des données sur des
référentiels/taxonomies partagés de l’OpenData
» Projet client datalocale Gironde
(en cours)
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
67. OpenData Linked OpenData (LOD)
C’est un nouveau monde de données
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
68. Le triplet, la molécule de base
RDF Toute connaissance peut être
ramenée à un ensemble équivalent de
triplets (sujet, prédicat, objet).
Fabien
doc.html a pour auteur
Fabien et a pour thème
la Musique
Prédicat auteur
doc.html
thème
doc.html a pour auteur Fabien
doc.html a pour thème Musique
Musique
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
69. Cinématique de datalift
• L’élévation et l’interconnexion de DataS
Dataet DataS
Data
Data Set Setet
Data
jeux de données
Data
Data
Set Data
Set Set
Set Set
• Le dispositif prend en compte des données brutes de Données exploitées
toutes provenances, formats et structures.
Data
• Ces données sont dans des blocs statiques, des datasets Data
Set Data Exploitation
ou jeux de données. Set Set
• Pour les transformer en données du web des données, il Data
Data Interconnexion
faut déterminer le vocabulaire (sélection d’ontologie) qui Set
Set Data
Set
va permettre leur expression en clair (conversion).
• Les données converties ont la forme de triplet (sujet, Data Publication
Set
prédicat, objet), ce sont désormais des données
publiables dans le web des données. Data Conversion
• Les données des blocs convertis sont ensuite Set
interconnectées avec les données déjà publiées.
Data Sélection
• Cet enrichissement est la dernière phase du processus Set
d’élévation de données, le lift.
• La valeur des données résultantes est augmentée et leur Données brutes
exploitation pourra en profiter. Externes Data
Internes
Set
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
70. Conversion dans un format standard
▶ L’offre Atos couvre les formats habituels de l’OpenData
– CSV format texte de base qui peut être ouvert par de nombreuses applications (Tous les éditeurs de
texte, Excel de Microsoft, Classeur d’Open office, …) http://fr.wikipedia.org/wiki/Comma-
separated_values
– XLS format feuille de calcul qui peut être ouvert par des tableurs (Excel de Microsoft, Classeur
d’Open office, …) http://fr.wikipedia.org/wiki/XLS
– ODS format feuille de calcul qui peut être ouvert par des tableurs (Classeur d’Open office, …)
http://fr.wikipedia.org/wiki/OpenDocument
– DWG (standard de fait) format natif de conception d'Autodesk et des SIG. Il peut être lu par une
grande variété de logiciels (Autodesk ou autres) http://fr.wikipedia.org/wiki/DWG
– ECW format utilisé pour les images raster géo-référencées
http://fr.wikipedia.org/wiki/Enhanced_Compression_Wavelet
– KML langage de balisage développé par Keyhole Inc. A été racheté par Google pour afficher les
données dans Google Maps, Google Earth et d’autres applications similaires. KML est un standard
Open Geospatial Consortium http://fr.wikipedia.org/wiki/KML -
http://fr.wikipedia.org/wiki/Open_Geospatial_Consortium
– MrSID: MrSID (prononcé «Mister SID») format utilisé pour les images matricielles géoréférencées.
http://fr.wikipedia.org/wiki/Formats_de_fichier_SIG
– SHP (standard de fait) format natif du logiciel SIG de ESRI. Peut être lu par une grande variété de
logiciels ESRI ou autre.
– Flux Web format de données utilisé pour fournir aux utilisateurs un contenu fréquemment mis à
jour. Les formats les plus courants : RSS, Atom http://fr.wikipedia.org/wiki/Rss
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
71. Interconnexion des données
Longitude Données statistiques
Latitude
Population
Paris Paris 2°21′ 07″ E
48°51′ 24″ N Paris
Données géographiques 2.211.297
Population de
Les données 2.211.297 habitants
s’enrichissent
mutuellement au
bénéfice du lecteur
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
72. Le requêteur Datalift (SPARQL endpoint)
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
73. Certification
• Données
• Le respect de certaines normes de représentation de données est
assorti d’un label, par exemple pour des données géographiques
(données vecteur, données raster).
• Les logiciels de géomatique proposent en général des outils de
conversion entre les différents systèmes de projection. Toutefois,
dans le cas du Lambert-93, cette conversion n'est pas simple car elle
impose d'utiliser une grille de conversion. De plus, de nouveaux
systèmes légaux ont également été définis pour les DOM / TOM.
L'IGN propose donc aux éditeurs intéressés une procédure de
labellisation.
• Vocabulaires (ontologies)
• Datalift, en tant que tel, labellise tous ses résultats. Pour être
cataloguées et utilisables dans Datalift, les ontologies doivent être
labellisées Datalift. Une ontologie labellisée est conservée dans
le catalogue avec son versionnement.
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
74. Labellisation
• Objectif : labelliser les données en fonction de leur qualité,
catégorisation et certification pour renforcer la confiance
• Par un organisme indépendant à but non lucratif
• Accompagner les collectivités dans leur démarche d’ouverture de leurs
données
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
75. Valorisation des données auprès de l’usager
– Visualisation graphique
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
76. Valorisation des données auprès de l’usager
– Application mobile géolocalisée
Application eG20 data
mise en œuvre
avec partenariat BeTomorrow
pour la DUI (Proxima Mobile)
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
77. Valorisation des données auprès de l’élu ou de l’agent
– Dashboard sur l’OpenData
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
78. Rassembler, collaborer
• Un paradigme fondé sur l’intelligence collective
Bernard Stiegler préconise un changement majeur de paradigme (avril 2011) :
• « L’intelligence collective est devenue la principale valeur économique. Les
meilleures idées naissent dans ces terreaux fertiles qui n’ont pas nécessairement
de modèle immédiatement rentable. C’est le rôle de la puissance publique de
favoriser, pourquoi pas dans le cadre de partenariats public-privé, la création
d’espaces capables de les valoriser. C’est ce que l’on pourrait appeler le
développement de “capabilités”. »
• La première phase du projet de Rennes (100 000 €) a ainsi été financée à 80 %
par des partenaires extérieurs
Xavier Crouan explique :
• « Les grands prestataires publics, comme la CAF, la SNCF ou La Poste, les
groupes de médias, comme Ouest France, mais aussi les entreprises privées
engagées dans la prestation de services, comme Kéolis, qui a déjà mis à
disposition les données de Vélo STAR, sont intéressés par le bouillonnement
créatif qui peut naître de cette libération des données publiques. »
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
79. Développer un écosystème de PMEs innovantes autour
d’OpenData Center
• La décentralisation du mouvement est de nature à
favoriser l’innovation
• Rassembler autour d’une communauté l’ensemble des
acteurs innovants (PMEs), des fournisseurs privés de
données publiques (grands prestataires publics), des
pôles de compétitivité, des initiatives citoyennes et
des collectivités pour développer l’OpenData
• Plusieurs intérêts sur la démarche déjà identifiés
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
80. Modèle économique de l’offre
• Ouverture des données gratuite avec choix du mode licence
• Facturation à l’usage en mode SaaS pour la gestion de la qualité des
données, l’élévation des données et la valorisation des données auprès des
usagers
• Prestations complémentaires :
• Consulting :
• Etude de l’existant
• Accompagnement sur la démarche
• Intégration de la valorisation des données sur le portail Intranet / Internet
du client
• Dashboard de valorisation des données ouvertes pour l’élu et l’agent
• Migration/Qualification des données existantes pour améliorer la qualité
de l’information du Système d’Information de Gestion du client
• Alimentation des données qualifiées du Système d’Information
Décisionnelle du client
• Catalogue des données ouvertes du client
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
81. Facturation initiale/Facturation mensuelle
• Facturation à l’usage pour la gestion de la qualité des données
• Facturation à l’usage pour le catalogage des données
• Facturation à l’usage pour l’élévation des données :
• Dataset par niveau de complexité et volume
• Facturation à l’usage sur la valorisation des données :
• Génération web par niveau de valorisation :
• Catalogue d’APIs/WebServices d’accès aux datasets et aux RDFs par catégorie
• Portlets d’intégration dans le portail institutionnel existant incluant moteur de
recherche et requêteur SPARQL
• Portail web 2.0 avec valorisation graphique des données
• Génération d’application mobile cross-devices par niveau de valorisation :
• Accès via le navigateur au portail web 2.0 optimisé mobile
• Application mobile dédiée basée sur le portail web 2.0
• Application mobile NG avec géolocalisation des données
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
82. Démonstration de DataLift
Les données CSV
de la mairie de Paris
DataLift-
Input
DataLift
Datalift- Datalift-
Mashup Convert
Un mashup réalisé
en mélangeant requête SPARQL Les données au format RDF
sur DataLift et Google avec enrichissement vCard
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
83. Conclusion
+
Smart
OpenData
Center
+
Cantine 10 mai 2012 : Données Ouvertes : mode d’emploi ?
84. Retour sur investissement et comment le dynamiser dans
le cadre d’une animation et d’une communication efficiente
Alexis Mons
85. L’OPENDATA SE RÉDUIT-IL À UN CONCOURS
D’APPLICATIONS POUR TÉLÉPHONE MOBILE ?
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
86. AU HASARD ...
Rennes Amiens Metz Montpellier Lille
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
87. QUI CONSOMME DES DONNÉES OUVERTES ?
•Des journalistes et des chercheurs
• Data-journalisme et fact-checking
•Des militants
• Exemple de NosDeputes.fr
•Moins des «développeurs» que des (grandes)
entreprises
• Celles qui valorisaient déjà de la donnée publique
• Celles qui ont les données au centre de leur business-model
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
88. L’OPENDATA EST À LA CROISÉE DE
L’EXIGENCE DE TRANSPARENCE
D’OÙ ELLE VIENT,
À L’ÉCONOMIE DES DONNÉES
OÙ ELLE VA
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
89. TRANSPARENCE ?
•La transparence est une exigence de comportement
• Ouverture
• Neutralité
• Bienveillance
• Confiance
•Une exigence de cohérence, qui commence par soi-
même !
•La transparence est une politique générale
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
90. ECONOMIE DES DONNÉES ?
•L’ouverture des données est une oeuvre de
décloisonnement qui sert deux ambitions :
• Faire les choses plus vite
• Rendre plus de choses possibles
•Ce qui s’applique à soi-même ,
•Avant que cela ne soit une opportunité de croissance
extérieure ...
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
91. OÙ ON VA ?
POURQUOI ON Y VA ?
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
92. OÙ ON VA ENSEMBLE ?
POURQUOI ON Y VA ENSEMBLE ?
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
93. L’OPENDATA, OÙ LA QUESTION DE LA
MARQUE PARTAGÉE
• Appartenance
• Adhésion
• Ambition commune
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
94. L’EXIGENCE D’UN MARKETING
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
95. EXIGENCES D’UN MARKETING SINGULIER
•Une marque partagée
• Où être partenaire n’est pas un simple mot
•Un mouvement
• Qui accompagne une modernité qui se reformule en
permanence
•Une exigence commune
• Dans le comportement
• Dans l’engagement
•Une performance individuelle et collective
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
96. EXIGENCES D’UN MARKETING SINGULIER
•Une stratégie
•Une marque connectée aux autres
•Une organisation en réseau
•Une dynamique événementielle et éditoriale
•Des partenariats vivants
•Un programme participatif articulé à tous les niveaux
d’appropriation et d’interaction
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?
97. RÉFLÉCHISSEZ BIEN À QUI PORTE L’OPENDATA
CHEZ VOUS,
SA POSITION ET SA NATURE ONT UN SENS ...
Cantine 10 mai 2012 ::Données Ouvertes ::mode d’emploi ?
Cantine 10 mai 2012 Données Ouvertes mode d’emploi ?