SlideShare una empresa de Scribd logo
1 de 28
Descargar para leer sin conexión
Avant propos
Introduction
A. Les annuaires de données.
L’annuaire Open Data de Data Publica
Google Public Data Explorer
DataMarket
Quandl
Les annuaires institutionnels
B. Les sources publiques
L’INSEE
Les données des collectivités
Les Ministères
Les organisations publiques nationales
Les organisations publiques internationales
C.Les sources de données privées
Les Sociétés
Associations, Organisations professionnelles et syndicats
Crowdsourcing
D. Chercher sur le Web
Chercher des données sur grâce aux moteurs de recherche
Chercher des données sur Common Crawl
Chercher avec les outils de Data Publica
Conclusion
Data Guide – Le Pense-bête des sources de données du Web 1
Avant propos
Avec l’expérience acquise par la mise en place de son annuaire
aujourd’hui riche de plus de 16 000 jeux de données créé dès
septembre 2010, les équipes de Data Publica ont souhaité partager
leur connaissance des sources.
Les données que vous cherchez existent-elles ? Comment les
trouver ? Quels sont les sites où ces données peuvent être
répertoriées ? Existe t-il des astuces pour trouver des données sur
les moteurs de recherche ? Ce livre blanc est un début de réponse
dont nous espérons qu’il vous aidera à trouver les données que
vous cherchez.
Ce guide ne prétend pas à l’exhaustivité. Il vise simplement à offrir
au lecteur un panorama des sources disponibles.
Data Guide – Le Pense-bête des sources de données du Web 2
Introduction
Les sources disponibles
Il existe quantité de sources de données disponibles parmi lesquelles on
distinguera :
- Sources publiques : administration, organisations publiques nationales
et internationales, collectivités
- Sources privées : entreprises, syndicats professionnels ou associations
- Les annuaires de données (tels que celui développé par Data Publica)
Toutefois ces sources ne sont pas les seules possibilités offertes aux
internautes pour trouver des données. Les données peuvent également
être disséminées sur la toile et d’autant plus difficiles à trouver.
Que ce soient des astuces pour chercher sur les moteurs de recherches
ou bien des archives du web créées par des sociétés spécialisées,
d’autres solutions existent pour trouver les données. Le pense-bête des
sources des données du Web est justement l’outil à conserver près de
soi.
NB : Attention « données publiques » ne signifie pas pour autant « données gratuites »
même si une grande partie d’entre elles sont gratuites. Le dernier rapport de Mohammed
Adnène Trojette, par ailleurs magistrat à la Cour desComptes, fait la liste de toutes les
données publiques qui restent soumises à redevance dans son rapport remis au Premier
Ministre le 5 novembre dernier et disponible sur cette page.
Data Guide – Le Pense-bête des sources de données du Web 3
A. Les annuaires de données.
Les annuaires de données sont des sites qui regroupent des données
disponibles par ailleurs.
L’annuaire Open Data de Data Publica
L’annuaire Open Data de Data Publica est l’exemple même d’un
annuaire de données.
Sur l’annuaire Open Data de Data Publica, près de 16 000 jeux de
données peuvent être recherchés et sont accessibles gratuitement, en
libre service, sans inscription. 200 éditeurs publics et privés ont une
partie de leurs données référencées dans cet annuaire : INSEE,
ministère, préfectures, institutions publiques internationales, Eurostat,
OCDE, Banque Mondiale. Attention l’annuaire Open Data ne contient
pas toutes les données de ces éditeurs. Si vous ne trouvez pas les
données sur Data Publica et que vous pensez que ces éditeurs publics
les diffusent, alors nous vous invitons à visiter leur portail d’accès à
leurs données [voir plus bas].
Data Guide – Le Pense-bête des sources de données du Web 4
Sur Data Publica, la navigation est simple : tapez dans la barre de
recherche les données dont vous avez besoin, affinez et triez ensuite les
premiers résultats avec les facettes présentes dans la colonne de
gauche : vous pouvez sélectionner plusieurs thèmes, éditeurs, formats,
licence..
Un peu plus de 4 000 jeux de données sont visualisables sous forme de
cartes, histogrammes, courbes et tableaux. Les fonctionnalités de cet
outil permettent d’intégrer des visualisations dans les articles, posts de
blog et pages web. Vous pouvez également paramétrer les séries : cela
permet d’afficher et de comparer uniquement les indicateurs désirés.
Les données peuvent enfin être exportées sous de multiples formats :
xls, csv, Kml, png…
Carte, histogramme, tableau ou courbe : insérez facilement une visualisation interactive
dans vos articles en ligne grâce au visualisateur générique de données de l’annuaire open
data de Data Publica.
Data Guide – Le Pense-bête des sources de données du Web 5
Google Public Data Explorer
Googe a également mis au point un service d’indexation des données
publiques visible à http://www.google.com/publicdata/directory Sur ce
site, vous aurez accès à quelques séries d’indicateurs des grandes
institutions internationales : Banque Mondiale, Bureaux des études
statistiques américaines, OCDE, Fonds Monétaire International...
Google Public Data Explorer est avant tout un outil de visualisation des
principaux indicateurs démographiques, sociologiques et économiques
publiés par les organisations internationales.
Cet outil facilement paramétrable est surtout utile pour afficher des
séries et les partager sur les réseaux sociaux et dans des articles. Par
ailleurs, Google Public Data Explorer n’est pas exhaustif : il n’indexe pas
non plus toutes les données des organisations nationales et
internationales.
Visitez et utilisez Google Public Data Explorer
Data Guide – Le Pense-bête des sources de données du Web 6
DataMarket
Datamarket est une société islandaise qui a développé un catalogue de
données en répertoriant comme Data Publica et Google Public Data
Explorer des données d’organisations publiques et privées, nationales et
internationales. Ces données sont classées par thèmes, pays,
organisations...
Les données sont visualisables et peuvent être exportées, à la condition
de s’être préalablement inscrit. Par ailleurs, certains jeux de données
sont payants parmi les 44 200 en ligne : consultez le site Datamarket
7Data Guide – Le Pense-bête des sources de données du Web
Quandl
Plus jeune société présente sur le créneau de l’agrégation de données,
Quandl est une start up canadienne qui a déjà indexé près de 8 millions
de jeux de données principalement économiques, et financiers, dont une
grande partie concerne surtout l’Amérique du nord pour le moment.
Avec l’objectif de devenir l’équivalent de Wikipedia pour les données,
Quandl fonctionne sur un mode collaboratif.
Visitez et testez Quandl : http://www.quandl.com/
Taux d’homicides aux Etats-Unis
Data Guide – Le Pense-bête des sources de données du Web 8
Les annuaires institutionnels
De nombreux Etats ont déjà mis en place des annuaires de données.
Petit état des lieux de sites incontournables.
Data.gouv.fr
L’annuaire français des données publiques a été lancé le 5 décembre
2011. Actuellement près de 353 000 jeux de données y sont disponibles.
Cet annuaire officiel des données publiques est placé sous l’autorité de
la mission Etalab dirigée par Henri Verdier.
Data.gov
Premier annuaire national de données publiques mis en place par l’Etat
fédéral en mai 2009, le site data.gov dispense aujourd’hui plus de 91000
jeux de données diffusés par les services de l’administration.
Data.gov.uk
Le site officiel servant de répertoire pour les données publiques du
gouvernement du Royaume-Uni, mis en place en septembre 2009
donnant accès à environ 9650 jeux de données.
Data Guide – Le Pense-bête des sources de données du Web 9
Sur Data.gov, retrouvez la carte interactive de près de 300 sites open data par pays
Cliquez sur la carte et téléchargez la liste en xls sur ce lien
B. Les producteurs publics de données
Les organisations publiques nationales et locales diffusent de
nombreuses données parfois non répertoriées par les annuaires :
ministères, collectivités, organisations publiques, institutions,
collectivités, les sources sont particulièrement nombreuses et les
données abondantes.
L’INSEE
Si vous cherchez des données statistiques sur la France alors le site de
l’INSEE vous permettra d’accéder à des bases de données
particulièrement détaillées : économie, population, logement, éducation
ainsi qu’à des indicateurs mis à jour mensuellement.
Plusieurs centaines de milliers de fichiers excel auxquels s’ajoutent plus
de 200 000 fichiers pdf, des centaines de fichiers zippés et des cartes
interactives sont consultables sur le site. A lui seul le site de l’INSEE
contient plus de données que le site data.gouv.fr. D’ailleurs comme
détaillé dans notre analyse, une grande partie des 350 000 fichiers de
Data.gouv.fr provient de seulement quelques bases de données INSEE.
Outre les études ponctuelles, trois types de données produites et
publiées par l’INSEE sont particulièrement intéressantes :
1. Les données détaillées par thème : http://www.insee.fr/fr/themes/
Retrouvez des études statistiques sur les thèmes de l’agriculture, du
commerce, des conditions de vie, de l’économie etc.. Dans ces données
thématiques vous pouvez également retrouver des indices conjoncturels
mis à jour mensuellement ou trimestriellement : enquête de
conjoncture sur les ménages, sur l’industrie, l’automobile, le commerce
de détail, la création d’entreprise etc..
Data Guide – Le Pense-bête des sources de données du Web 10
2. Les grandes bases de données: http://www.insee.fr/fr/bases-de-
donnees/
Dans les grandes bases de données de l’INSEE vous aurez accès par
exemple :
- aux Statistiques structurelles d'entreprises : toutes les statistiques
d'entreprise issues du dispositif Esane et de la statistique publique.
- aux indices et séries chronologiques : tous les indices et indicateurs de
l’Insee, sur de longues périodes, documentés et accompagnés de
graphiques.
- aux résultats des recensements de la population : les résultats
détaillés, les cartes et toutes les informations utiles sur les
recensements.
- aux Données locales : de nombreuses données très détaillées sont
disponibles à l’échelle de votre commune ou de votre quartier (IRIS).
- Au Répertoire Sirene qui permet d’accéder à des données d’entreprises
http://www.sirene.fr
3. Les bases de données régionales http://www.insee.fr/fr/regions/
Dans ces bases locales, sont regroupés un certain nombre d’indicateurs
locaux : présentation de la région en chiffres, conjoncture régionale,
études..
Presque chaque pays dispose d’une organisation équivalente à notre
institut statistique national : une liste assez complète mais non
exhaustive, est disponible sur cette page.
Data Guide – Le Pense-bête des sources de données du Web 11
Les données des collectivités
De nombreuses collectivités ont déjà ouvert leur portail de données.
Aussi si vous cherchez des données particulièrement concernant un
territoire, essayez d’abord de voir si il existe un portail d’une collectivité
au niveau géographique communal, de la communauté d’agglomération,
du département ou de la région.
Nantes, Rennes, Paris, le conseil général du 71, Montpellier, la
Communauté urbaine de Bordeaux, Lyon et Toulouse très récemment :
ces collectivités, entre autres, ont déjà référencé de nombreuses
données à dimension locale sur des portails dédiés.
L’association nantaise Libertic a créé une carte interactive à laquelle vous
pouvez collaborer qui liste les initiatives. Voir le projet en ligne
Data Guide – Le Pense-bête des sources de données du Web 12
Les Ministères
Les ministères sont des sources de données parfois négligées : pourtant
ils sont nombreux à compiler et éditer des données souvent diffusées
dans des chapitres dédiés de leurs sites web. Vous cherchez par
exemple:
- des données sur le tourisme ? Alors n’hésitez pas à vous rendre sur le
site du ministère du tourisme sur cette page.
- des résultats d’élection manquent à votre étude : le ministère de
l’intérieur aura quelque chose pour vous sur ces pages.
Parmi les ministères les plus productifs en terme de données n’oubliez
pas :
1. Le ministère du développement durable :
http://www.developpement-durable.gouv.fr/ il s’agit de l’un des plus
prolifiques : énergie, écologie, bâtiment etc.. des centaines de sources
sont accessibles depuis le site du ministère.
2. Le ministère de l’agriculture et notamment son site :
http://www.franceagrimer.fr/
3. Le ministère de l’éducation nationale : séries du bac, le personnel
enseignant etc..
4. Le ministère du travail et ses pages statistiques notamment sur le
chômage
Sans oublier les préfectures : source de données méconnues mais qui
diffusent régulièrement des informations sur les élus (maires, députés,
sénateurs), les autorisations officielles d’exercer certaines activités etc..
13Data Guide – Le Pense-bête des sources de données du Web
A noter : chaque ministère dispose normalement d’un correspondant
open data (lire l’interview de Philippe Guiraud, le correspondant open
data du ministère de l’intérieur). Vous avez également la possibilité de
contacter chaque ministère pour être mis en relation avec ce
correspondant qui pourra peut-être vous informer des données
publiques disponibles.
Les organisations publiques nationales
Les 560 opérateurs de l’Etat sont également des producteurs de données
auxquels on ne pense pas suffisamment. Parmi ces opérateurs, on trouve
par exemple : les agences régionales de santé, l’agence du médicament,
le CNRS, INRIA, les musées nationaux, Pôle emploi, l’Institut National des
Etudes Démographiques etc... Tous ces opérateurs dont la liste est
accessible ici peuvent avoir les données que vous cherchez.
N’oubliez pas non plus des institutions telles que la Banque de France qui
présente des dizaines d’indicateurs particulièrement pertinents mis à
jour mensuellement sur l’activité économique dans un chapitre dédié de
son site web.
Data Guide – Le Pense-bête des sources de données du Web 14
Les organisations publiques internationales
On sous estime également la quantité de données disponibles au sein
des institutions publiques internationales : Eurostat, la Banque
Mondiale, le Bureau International du Travail, l’OCDE etc..
L’Union européenne - Eurostat
Certainement l’une des sources les plus complètes pour comparer des
données européennes, des milliers de statistiques sont disponibles à
plusieurs niveaux de granularité géographique (3 niveaux détaillés de
granularité régionale européenne : NUTS 1, 2 et 3) sous format tableur.
Outre Eurostat, l’Union européenne regroupe également un certain
nombre d’organisation qui diffusent également des données dont la liste
est disponible sur cette page.
Banque Mondiale - http://data.worldbank.org/
La Banque Mondiale est l’une des premières organisations
internationales à avoir consacré un chapitre entier de son site à la
diffusion de données statistiques. Plus de 8 000 séries temporelles sont
accessibles et vous y trouverez des fiches pays à jour pour chacun des
200 nations référencées exportables sous format xls et xml. Près de 800
indicateurs par pays sont disponibles concernant l’économie, la
démographie, la santé etc... Il s’agit de l’une des bases de données les
plus complètes par pays.
L’OCDE - http://stats.oecd.org/
On peut également ajouter à cette liste les bases de données statistiques
disponibles sur le site de l’OCDE. 22 thèmes couverts et exportables des
formats différents (CSV, XLS, XML..)
Data Guide – Le Pense-bête des sources de données du Web 15
Ajoutons à cette liste des organisations internationales les producteurs de
données tels que :
Le FMI : http://www.imf.org/external/data.htm
La CNUCED : http://unctad.org/fr/Pages/Statistics.aspx
La FAO : http://faostat.fao.org/
Le BIT : http://kilm.ilo.org/KILMnetBeta/default2.asp
L’OMS : http://www.who.int/research/en/
L’OMC : http://stat.wto.org/Home/WSDBHome.aspx?Language=
C. Les sources de données privées (ou d’entreprises détenues par l’Etat)
Même si leur nombre reste encore particulièrement faible, les
organisations privées ne sont pas les moins réactives à mettre des données
à disposition du public.
Les Sociétés
Si vous cherchez des données spécifiques à un secteur, il est envisageable
que l’un des acteurs de ce secteur rende publiques certaines informations.
Voici plusieurs exemples concrets tant en France qu’à l’étranger.
La SNCF : http://test.data-sncf.com/
Depuis plusieurs mois la SNCF s’est engagée dans une démarche de
libération d’un certain nombre de données. Petit à petit des données sont
disponibles sous la forme de jeux de données ou accessibles par API :
horaires des lignes Transilien, équipements des gare d’Ile-de-France, tarifs
des abonnements, liste des gares, nombre moyen de voyageurs par gare
du réseau Ile de France etc..
La RATP : http://data.ratp.fr
La régie Autonome des Transports Parisiens s’est également convertie à
une démarche open data depuis peu de temps : trafic entrant par stations,
qualité de l’air mesuré, accessibilité des lignes etc... Des données que Data
Publica a notamment utilisé pour ce tableau de Bord de la RATP.
Data Guide – Le Pense-bête des sources de données du Web 16
JC DECAUX : https://developer.jcdecaux.com/
Avec l’ouverture des données du réseau Vélib, la société JC Decaux est
l’une des rares sociétés privées à jouer le jeu de l’open data. Les données
en temps réel des velib’ permet le développement d’applications et
optimise les usages du service.
La Française des Jeux - http://www.fdj.fr
A titre d’exemple, la Française des Jeux met à la disposition des joueurs
les statistiques sur les jeux de tirages et les paris sportifs. Vous avez ainsi
accès aux séries des tirages du loto et euromillions, des loto sportifs ou
encore du keno (qui malheureusement ne seront sans doute pas utiles
pour prédire les combinaisons à venir).
BP - British Petroleum
La société BP diffuse sur son site un volumineux jeu de données sur le
secteur de l’énergie. Dans ce fichier, on trouve plus d’une cinquantaine
d’onglets avec des séries statistiques temporelles longues relatives à la
production internationale des différentes énergies, fossiles et
renouvelables.
ENEL - Société Italienne d’Electricité http://data.enel.com
La société ENEL a décidé d’emboiter le pas de l’open data en mettant
près de 300 de jeux de données à la disposition des internautes :
données financières de la société, statistiques écologiques,
développement durable, vous serez surpris par la richesse de leur
portail.
Data Guide – Le Pense-bête des sources de données du Web 17
Associations, Organisations professionnelles et syndicats
Les organisations, associations et syndicats professionnels disposent de
nombreuses données. Dans un premier temps, vous pouvez prendre
connaissance des syndicats professionnels qui existent en consultant le
fichier des fédérations professionnelles françaises disponible sur
l’annuaire open data de Data Publica.
Data Publica a relevé trois initiatives open data provenant d’associations
et d’organisations.
Le Comité des Constructeurs Automobiles Français - CCFA
http://www.ccfa.fr/
Sur le site du Comité des Constructeurs Automobiles Français, vous avez
accès à des données mensuelles uniques sur la production et les
immatriculations de véhicules : http://www.ccfa.fr/Donnees-mensuelles
Disponibles sous des formats excel et pdf, cette source de données reste
méconnue et offre pourtant des données détaillées pour la production
et les immatriculations des véhicules par type, par pays (en Europe), et
par marque.
L’organisation internationale du café - International Coffee Organization
Cette organisation qui fédère les pays exportateurs et importateurs
donne accès à de multiples séries statistiques sur la production et les
exportations de café dans le monde.
http://www.ico.org/coffee_prices.asp?section=Statistics
Le Comité International Olympique
Les données accumulées par le Comité International Olympique sont
nombreuses et variées : elles sont également disponibles aujourd’hui
sur un portail dédié http://www.olympic.org/olympic-results qui permet
d’accéder à des séries détaillées par J.O., épreuves, pays ou athlètes.
Data Guide – Le Pense-bête des sources de données du Web 18
Crowdsourcing
Le crowdsourcing consiste à mobiliser une communauté afin de collecter
des données. Les sites de crowdsourcing permettent d’accéder aux
informations qui ne sont pas libérées ou qui le sont mais à des
conditions financières empêchant leur réutilisation. Voici trois
expériences de crowdsourcing des données qui offrent des solutions
alternatives.
Données géographiques : OSM (Open Street Map )
http://www.openstreetmap.org/
Le site d’OpenStreetMap rassemble une communauté à travers le monde
dont l’objectif vise à rendre libre et accessible l’information
géographique. Les données sont librement réutilisables et offrent donc
une alternative aux données payantes fournies par l’IGN ou Google. Lire
l’interview de son représentant français, Gaël Musquet,
Données sur l’alimentation : Openfoodfacts
http://openfoodfacts.org/
Openfoodfacts est une initiative consacrée au recueil de données sur
l’alimentation détaillée sur les étiquettes et les codes barres des
produits. Ce sont près de 11 000 produits qui sont référencés sur ce site.
Les données peuvent être réutilisées avec la licence ODBL. Lire
l’interview de Stéphane Gigandet.
Les données politiques : Regards Citoyens
http://www.regardscitoyens.org/
Depuis 2009, l’association Regards Citoyens travaille à la transparence
des données politiques notamment en collectant et en rendant
disponibles des données sur les parlementaires au travers des sites qu’ils
ont édités : nosdeputes.fr et nossenateurs.fr. Relire l’interview de l’un
des fondateurs de Regards Citoyens.
Data Guide – Le Pense-bête des sources de données du Web 19
D. Chercher sur le Web
Chercher des données sur grâce aux moteurs de recherche
Les moteurs de recherche restent les outils les plus simples pour trouver
les données dont on a besoin et vérifier leur disponibilité. Parmi ceux-ci,
Google occupe une place majeure : c’est le moteur de recherche le plus
utilisé dans le monde et qui indexe le plus de pages web (près de 40
milliards).
Afin de mieux chercher vos données, il existe quelques manipulations à
connaître qui permettent de mieux parcourir et sélectionner les
résultats. D’abord dans les paramétrages de la recherche, Google offre la
possibilité de chercher dans certains types de contenus (livre, vidéos,
actualités etc..), pour la période voulue, dans la langue souhaitée.
Chercher uniquement les résultats dans un seul site :
Dans la barre de recherche, indiquez la formule suivante
“site:nomdusite.fr” suivi des mots clés.
Chercher uniquement les résultats dans un site et pour un type de
fichier en particulier
Vous cherchez des données uniquement disponibles dans un format
tableur ou dans un pdf, là encore une autre formule permet de le faire.
Dans la barre de recherche, indiquer la formule suivante (sans espace)
“site:nomdusite.fr” suivi d’un espace et “filetype:xls” et les mots clés.
Par exemple vous ne cherchez que des statistiques éditées par
l’administration sur la discrimination dans des fichiers excel ? Alors tapez
dans la barre de recherche :
site:gouv.fr filetype:xls discrimination
Data Guide – Le Pense-bête des sources de données du Web 20
Exemple de recherche avec le mot discrimination limité aux sites gouvernementaux français (gouv.fr) et dans
les fichiers excel (filetype:xls). Cette recherche spécifique indique que 108 fichiers excel publiés par les sites
des ministères et préfectures évoquent ce thème.
Exclure des mots clés de votre recherche
Afin d’exclure des mots clés de votre recherche, il vous suffit d’indiquer
le signe “-” collé au mot que vous souhaitez exclure des résultats. Par
exemple, pour ne pas avoir dans la liste de vos résultats les pages
wikipédia, indiquez “-wikipedia” : faîtes l’expérience d’abord en tapant le
mot wikipedia suivi de “-wikipedia” et ensuite sans cette exclusion et
comparez les résultats.
Trouver l’expression exacte
Pour limiter votre recherche à une sélection de mots précise, il faudra
mettre en guillemets les mots clés.
Il ne s’agit que d’un échantillon des possibilités offertes par Google. Un
excellent document résumant toutes les possibilités grâce aux moteurs
de recherche est librement disponible et consultable réalisé et produit
par Victorine Porte, étudiante à l’université de Poitiers : télécharger le
document
Data Guide – Le Pense-bête des sources de données du Web 21
Chercher des données sur Common Crawl
Common Crawl est une fondation américaine dont l’objectif est de
mettre en place une copie du web et de la rendre librement accessible
auprès du public. Ce sont ainsi 100 tera octets qui sont aujourd’hui
accessibles pour y effectuer des recherches et extraire ainsi des
données. Cette option n’est ouverte qu’aux développeurs aguerris. Data
Publica par exemple a utilisé les données de Common Crawl afin de
réaliser une carte de l’éco-système de l’opendata. Cette cartographie a
pour objectif d’identifier les acteurs sur le web de l’open data français,
leur importance et les liens qu’ils entretiennent. Ce travail a été
récompensée par Common Crawl. Ce travail met en lumière le potentiel
du web comme ressource de données.
Chercher avec les outils de Data Publica
Vous n’avez pas trouvé les données que vous cherchiez dans les sources
évoquées, vous savez qu’elles sont disponibles mais éparses, difficiles à
rassembler. Effectivement, il faut parfois développer des programmes
d’extraction, de nettoyage, de déduplication pour obtenir les données
que l’on cherche. C’est le métier de Data Publica de vous fournir les
données dont vous avez besoin mais qu’il vous est difficile d’acquérir.
L’expertise des équipes de Data Publica repose justement sur cette
connaissance des sources et la maîtrise des outils pour extraire les
données des sources. De nombreux outils ont été développés par nos
équipes techniques afin de pouvoir extraire, nettoyer, dédupliquer et
livrer les données dont les organisations ont besoin.
Data Guide – Le Pense-bête des sources de données du Web 22
Chaîne de valeur de la production de données par Data Publica
Data Guide – Le Pense-bête des sources de données du Web 23
Data Publica a développé plusieurs services autour de la recherche de
données parmi lesquels :
• un service de données sur mesure : indiquez-nous les spécificités des
données que vous cherchez et nous vous les livrerons.
• un service de tableau de bord : vous souhaitez construire un tableau
de bord à n’importe quel niveau géographique (commune, nation,
département etc...) et qui présente des données à jour sur les
thèmes souhaités ? Data Publica vous construit l’application
alimentée par les données désirées et mis à jour en temps réel.
• un service d’enrichissement de données B2B : vous disposez de
données que vous désirez enrichir d’informations disponibles sur
Internet : par exemple, un fichier d’entreprises auquel vous souhaitez
ajouter des données précises comme les comptes de réseau social,
horaires, des adresses mails etc...
Revenons par exemple sur le Tableau de bord avec celui que Data Publica
a produit pour la société Secafi. Ce tableau de bord a été réalisé en
utilisant de multiples sources de données publiques : ministère de
l’intérieur, Direccte, Pole emploi, INSEE...
Secafi est une société spécialisée dans l'expertise, l'assistance et le
conseil auprès des Instances Représentatives du Personnel : comité
d'entreprise, comité de groupe, comité d'entreprise européen... La
société intervient principalement dans des missions de conseils et de
diagnostics : ses consultants sont amenés à utiliser régulièrement les
mêmes indicateurs économiques territoriaux pour porter un avis, établir
une analyse et alimenter une étude.
Pour éviter ce travail rébarbatif de recherche des données, souvent
toujours les mêmes données, la société Secafi a demandé à Data Publica
de lui fournir un outil de visualisation et de manipulation des données
publiques sur les thèmes de l’emploi, l’économie (etc..) niveau
géographiques des 300 zones d’emploi de métropole.
Data Guide – Le Pense-bête des sources de données du Web 24
Pour ce faire, Data Publica a mis en place un processus de scraping
[recueil] de données sur plusieurs dizaines de sites pour extraire des
centaines d’indicateurs en temps réel et les visualiser dans un tableau de
bord des zones d’emploi sur mesure.
Cet outil illustre les possibilités d’utilisation des données dès lors que les
sources sont connues. De la même manière, des tableaux de bord
peuvent être créés qui mixeraient des données publiques avec des
données internes.
Data Guide – Le Pense-bête des sources de données du Web 25
Conclusion
Les sources de données sont nombreuses sur Internet. Même si des sites
comme Google, Bing ou Yahoo peuvent vous permettre d’affiner vos
recherches, une bonne connaissance des ressources vous permettra de
gagner du temps. D’abord n’oubliez pas qu’il existe :
- des annuaires de données (Data Publica, Google Public Data Explorer..)
- des producteurs de données à chaque niveau géographique :
o communal (exemple la petite ville de Brocas, 800 habitants)
o de la communauté urbaine (comme celle de Bordeaux)
o du département (ex : Conseil Général de Saône et Loire)
o de la région (ex : Pays de Loire)
o national (ex : Data.gouv.fr)
o international (ex : Eurostat, Banque Mondiale..)
- des producteurs institutionnels de données publiques
o préfecture
o ministère
o institutions
o opérateurs de l’Etat
- des producteurs privés :
o associations, fédérations, syndicats
o sociétés
o sites de crowdsourcing des données
Et si votre recherche est plus compliquée que prévue, alors vous avez
toujours la possibilité de faire appel aux services de Data Publica qui a
développé des outils uniques de recherche, d’extraction et de traitement
des données.
Contactez-nous pour en savoir plus.
Data Guide – Le Pense-bête des sources de données du Web 26
Le Data guide de Data Publica

Más contenido relacionado

Destacado

CONCEPTO DE INFORMÁTICA - CONCEPTO DE COMPUTADORA - PROGRAMAS BÁSICOS - DISP...
CONCEPTO DE INFORMÁTICA - CONCEPTO DE COMPUTADORA - PROGRAMAS BÁSICOS -  DISP...CONCEPTO DE INFORMÁTICA - CONCEPTO DE COMPUTADORA - PROGRAMAS BÁSICOS -  DISP...
CONCEPTO DE INFORMÁTICA - CONCEPTO DE COMPUTADORA - PROGRAMAS BÁSICOS - DISP...
Nena Suriaga
 
Webmontag Berlin "A/B Testing"
Webmontag Berlin "A/B Testing"Webmontag Berlin "A/B Testing"
Webmontag Berlin "A/B Testing"
Webmontag Berlin
 
Balle & boulot
Balle & boulotBalle & boulot
Balle & boulot
Denis Papy
 
Panorama national-ess-2012
Panorama national-ess-2012Panorama national-ess-2012
Panorama national-ess-2012
MARTIN SYLVAIN
 
Va plaza athenee
Va plaza atheneeVa plaza athenee
Va plaza athenee
amarvanessa
 

Destacado (20)

La Biblia
La BibliaLa Biblia
La Biblia
 
Ambiente a
Ambiente aAmbiente a
Ambiente a
 
CONCEPTO DE INFORMÁTICA - CONCEPTO DE COMPUTADORA - PROGRAMAS BÁSICOS - DISP...
CONCEPTO DE INFORMÁTICA - CONCEPTO DE COMPUTADORA - PROGRAMAS BÁSICOS -  DISP...CONCEPTO DE INFORMÁTICA - CONCEPTO DE COMPUTADORA - PROGRAMAS BÁSICOS -  DISP...
CONCEPTO DE INFORMÁTICA - CONCEPTO DE COMPUTADORA - PROGRAMAS BÁSICOS - DISP...
 
Aspectos a tomar en cuenta para la seguridad
Aspectos a tomar en cuenta para la seguridadAspectos a tomar en cuenta para la seguridad
Aspectos a tomar en cuenta para la seguridad
 
BACAAB BERGRED
BACAAB BERGREDBACAAB BERGRED
BACAAB BERGRED
 
Webmontag Berlin "A/B Testing"
Webmontag Berlin "A/B Testing"Webmontag Berlin "A/B Testing"
Webmontag Berlin "A/B Testing"
 
PROYECTO GRUPO 5
PROYECTO GRUPO 5PROYECTO GRUPO 5
PROYECTO GRUPO 5
 
Gat1
Gat1Gat1
Gat1
 
Balle & boulot
Balle & boulotBalle & boulot
Balle & boulot
 
Rss
RssRss
Rss
 
La presentation de Saumur
La presentation de SaumurLa presentation de Saumur
La presentation de Saumur
 
Panorama national-ess-2012
Panorama national-ess-2012Panorama national-ess-2012
Panorama national-ess-2012
 
Préfaces Guide des expertes 2013
Préfaces Guide des expertes 2013Préfaces Guide des expertes 2013
Préfaces Guide des expertes 2013
 
IfCC Institut für Cloud Computing
IfCC Institut für Cloud ComputingIfCC Institut für Cloud Computing
IfCC Institut für Cloud Computing
 
Uriel garcia gaytan
Uriel garcia gaytanUriel garcia gaytan
Uriel garcia gaytan
 
Cloud & Sécurité : une approche pragmatique pour les RSSI
Cloud & Sécurité : une approche pragmatique pour les RSSICloud & Sécurité : une approche pragmatique pour les RSSI
Cloud & Sécurité : une approche pragmatique pour les RSSI
 
Stratégie Microsoft : Skype et Lync future
Stratégie Microsoft : Skype et Lync futureStratégie Microsoft : Skype et Lync future
Stratégie Microsoft : Skype et Lync future
 
PROYECTO GRUPO 7
PROYECTO GRUPO 7PROYECTO GRUPO 7
PROYECTO GRUPO 7
 
Va plaza athenee
Va plaza atheneeVa plaza athenee
Va plaza athenee
 
Entregable 1 Modelos de Aprendizaje
Entregable 1  Modelos de AprendizajeEntregable 1  Modelos de Aprendizaje
Entregable 1 Modelos de Aprendizaje
 

Similar a Le Data guide de Data Publica

20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF
Andre Meillassoux
 
Cours EMI CFD - Mars 2012
Cours EMI CFD - Mars 2012Cours EMI CFD - Mars 2012
Cours EMI CFD - Mars 2012
tdudouet
 
Rapport intelligence économique Open Data
Rapport intelligence économique Open DataRapport intelligence économique Open Data
Rapport intelligence économique Open Data
louaticombe
 
Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)"
Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)"Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)"
Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)"
Charles Ruelle
 
Les sources économiques et financières
Les sources économiques et financièresLes sources économiques et financières
Les sources économiques et financières
Aref Jdey
 
Sitra seminaire-pleiniere-etatlab
Sitra seminaire-pleiniere-etatlabSitra seminaire-pleiniere-etatlab
Sitra seminaire-pleiniere-etatlab
Apidae (ex-Sitra)
 

Similar a Le Data guide de Data Publica (20)

20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF20150604 AFDIT Conf A Meillassoux BIG DATA VF
20150604 AFDIT Conf A Meillassoux BIG DATA VF
 
Rapport intelligence economique open data - linkedin
Rapport intelligence economique   open data - linkedinRapport intelligence economique   open data - linkedin
Rapport intelligence economique open data - linkedin
 
ASOCEU France - Lesson 1 - How Public Authority publishes data
ASOCEU France - Lesson 1 - How Public Authority publishes data ASOCEU France - Lesson 1 - How Public Authority publishes data
ASOCEU France - Lesson 1 - How Public Authority publishes data
 
Cours emi cfd
Cours emi cfdCours emi cfd
Cours emi cfd
 
Cours EMI CFD - Mars 2012
Cours EMI CFD - Mars 2012Cours EMI CFD - Mars 2012
Cours EMI CFD - Mars 2012
 
Rapport intelligence économique Open Data
Rapport intelligence économique Open DataRapport intelligence économique Open Data
Rapport intelligence économique Open Data
 
Utc data publica1
Utc data publica1Utc data publica1
Utc data publica1
 
Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)"
Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)"Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)"
Intervention à l'INRIA : "L’ouverture des données au niveau national (Etalab)"
 
Les sources économiques et financières
Les sources économiques et financièresLes sources économiques et financières
Les sources économiques et financières
 
Vie privée et Internet
Vie privée et Internet Vie privée et Internet
Vie privée et Internet
 
Dossier de présentation du nouveau portail data.gouv.fr
Dossier de présentation du nouveau portail data.gouv.fr Dossier de présentation du nouveau portail data.gouv.fr
Dossier de présentation du nouveau portail data.gouv.fr
 
Ecrire et publier en sciences humaines et sociales
Ecrire et publier en sciences humaines et socialesEcrire et publier en sciences humaines et sociales
Ecrire et publier en sciences humaines et sociales
 
Sitra seminaire-pleiniere-etatlab
Sitra seminaire-pleiniere-etatlabSitra seminaire-pleiniere-etatlab
Sitra seminaire-pleiniere-etatlab
 
2017 : l'année de la "data territoriale" ?
2017 : l'année de la "data territoriale" ?2017 : l'année de la "data territoriale" ?
2017 : l'année de la "data territoriale" ?
 
Introduction aux données ouvertes
Introduction aux données ouvertesIntroduction aux données ouvertes
Introduction aux données ouvertes
 
L’internet des sciences humaines et sociales. Recherches - Perspectives
L’internet des sciences humaines et sociales. Recherches - Perspectives L’internet des sciences humaines et sociales. Recherches - Perspectives
L’internet des sciences humaines et sociales. Recherches - Perspectives
 
Etalab - 10 ans de data VF.pdf
Etalab - 10 ans de data VF.pdfEtalab - 10 ans de data VF.pdf
Etalab - 10 ans de data VF.pdf
 
123 open data
123 open data123 open data
123 open data
 
Comment mettre en place un système de veille et de curation de l'information ...
Comment mettre en place un système de veille et de curation de l'information ...Comment mettre en place un système de veille et de curation de l'information ...
Comment mettre en place un système de veille et de curation de l'information ...
 
AGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoireAGMQ 2011 : Les données libres et le territoire
AGMQ 2011 : Les données libres et le territoire
 

Más de Kezhan SHI

B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_
Kezhan SHI
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_
Kezhan SHI
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard
Kezhan SHI
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014
Kezhan SHI
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan
Kezhan SHI
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
Kezhan SHI
 

Más de Kezhan SHI (20)

Big data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-septBig data fp prez nouv. formation_datascience_15-sept
Big data fp prez nouv. formation_datascience_15-sept
 
Big data fiche data science 15 09 14
Big data fiche data science 15 09 14Big data fiche data science 15 09 14
Big data fiche data science 15 09 14
 
Big data ads gouvernance ads v2[
Big data ads   gouvernance ads v2[Big data ads   gouvernance ads v2[
Big data ads gouvernance ads v2[
 
Big data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-septBig data f prez formation_datascience_14-sept
Big data f prez formation_datascience_14-sept
 
B -technical_specification_for_the_preparatory_phase__part_ii_
B  -technical_specification_for_the_preparatory_phase__part_ii_B  -technical_specification_for_the_preparatory_phase__part_ii_
B -technical_specification_for_the_preparatory_phase__part_ii_
 
A -technical_specification_for_the_preparatory_phase__part_i_
A  -technical_specification_for_the_preparatory_phase__part_i_A  -technical_specification_for_the_preparatory_phase__part_i_
A -technical_specification_for_the_preparatory_phase__part_i_
 
20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard20140806 traduction hypotheses_sous-jacentes_formule_standard
20140806 traduction hypotheses_sous-jacentes_formule_standard
 
20140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-201420140613 focus-specifications-techniques-2014
20140613 focus-specifications-techniques-2014
 
20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan20140516 traduction spec_tech_eiopa_2014_bilan
20140516 traduction spec_tech_eiopa_2014_bilan
 
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_C  -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
C -annexes_to_technical_specification_for_the_preparatory_phase__part_i_
 
Qis5 technical specifications-20100706
Qis5 technical specifications-20100706Qis5 technical specifications-20100706
Qis5 technical specifications-20100706
 
Directive solvabilité 2
Directive solvabilité 2Directive solvabilité 2
Directive solvabilité 2
 
Directive omnibus 2
Directive omnibus 2Directive omnibus 2
Directive omnibus 2
 
Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2Tableau de comparaison bilan S1 et bilan S2
Tableau de comparaison bilan S1 et bilan S2
 
Optimal discretization of hedging strategies rosenbaum
Optimal discretization of hedging strategies   rosenbaumOptimal discretization of hedging strategies   rosenbaum
Optimal discretization of hedging strategies rosenbaum
 
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...Machine learning pour les données massives algorithmes randomis´es, en ligne ...
Machine learning pour les données massives algorithmes randomis´es, en ligne ...
 
Détection de profils, application en santé et en économétrie geissler
Détection de profils, application en santé et en économétrie   geisslerDétection de profils, application en santé et en économétrie   geissler
Détection de profils, application en santé et en économétrie geissler
 
Loi hamon sébastien bachellier
Loi hamon sébastien bachellierLoi hamon sébastien bachellier
Loi hamon sébastien bachellier
 
Eurocroissance arnaud cohen
Eurocroissance arnaud cohenEurocroissance arnaud cohen
Eurocroissance arnaud cohen
 
From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...From data and information to knowledge : the web of tomorrow - Serge abitboul...
From data and information to knowledge : the web of tomorrow - Serge abitboul...
 

Le Data guide de Data Publica

  • 1.
  • 2. Avant propos Introduction A. Les annuaires de données. L’annuaire Open Data de Data Publica Google Public Data Explorer DataMarket Quandl Les annuaires institutionnels B. Les sources publiques L’INSEE Les données des collectivités Les Ministères Les organisations publiques nationales Les organisations publiques internationales C.Les sources de données privées Les Sociétés Associations, Organisations professionnelles et syndicats Crowdsourcing D. Chercher sur le Web Chercher des données sur grâce aux moteurs de recherche Chercher des données sur Common Crawl Chercher avec les outils de Data Publica Conclusion Data Guide – Le Pense-bête des sources de données du Web 1
  • 3. Avant propos Avec l’expérience acquise par la mise en place de son annuaire aujourd’hui riche de plus de 16 000 jeux de données créé dès septembre 2010, les équipes de Data Publica ont souhaité partager leur connaissance des sources. Les données que vous cherchez existent-elles ? Comment les trouver ? Quels sont les sites où ces données peuvent être répertoriées ? Existe t-il des astuces pour trouver des données sur les moteurs de recherche ? Ce livre blanc est un début de réponse dont nous espérons qu’il vous aidera à trouver les données que vous cherchez. Ce guide ne prétend pas à l’exhaustivité. Il vise simplement à offrir au lecteur un panorama des sources disponibles. Data Guide – Le Pense-bête des sources de données du Web 2
  • 4. Introduction Les sources disponibles Il existe quantité de sources de données disponibles parmi lesquelles on distinguera : - Sources publiques : administration, organisations publiques nationales et internationales, collectivités - Sources privées : entreprises, syndicats professionnels ou associations - Les annuaires de données (tels que celui développé par Data Publica) Toutefois ces sources ne sont pas les seules possibilités offertes aux internautes pour trouver des données. Les données peuvent également être disséminées sur la toile et d’autant plus difficiles à trouver. Que ce soient des astuces pour chercher sur les moteurs de recherches ou bien des archives du web créées par des sociétés spécialisées, d’autres solutions existent pour trouver les données. Le pense-bête des sources des données du Web est justement l’outil à conserver près de soi. NB : Attention « données publiques » ne signifie pas pour autant « données gratuites » même si une grande partie d’entre elles sont gratuites. Le dernier rapport de Mohammed Adnène Trojette, par ailleurs magistrat à la Cour desComptes, fait la liste de toutes les données publiques qui restent soumises à redevance dans son rapport remis au Premier Ministre le 5 novembre dernier et disponible sur cette page. Data Guide – Le Pense-bête des sources de données du Web 3
  • 5. A. Les annuaires de données. Les annuaires de données sont des sites qui regroupent des données disponibles par ailleurs. L’annuaire Open Data de Data Publica L’annuaire Open Data de Data Publica est l’exemple même d’un annuaire de données. Sur l’annuaire Open Data de Data Publica, près de 16 000 jeux de données peuvent être recherchés et sont accessibles gratuitement, en libre service, sans inscription. 200 éditeurs publics et privés ont une partie de leurs données référencées dans cet annuaire : INSEE, ministère, préfectures, institutions publiques internationales, Eurostat, OCDE, Banque Mondiale. Attention l’annuaire Open Data ne contient pas toutes les données de ces éditeurs. Si vous ne trouvez pas les données sur Data Publica et que vous pensez que ces éditeurs publics les diffusent, alors nous vous invitons à visiter leur portail d’accès à leurs données [voir plus bas]. Data Guide – Le Pense-bête des sources de données du Web 4
  • 6. Sur Data Publica, la navigation est simple : tapez dans la barre de recherche les données dont vous avez besoin, affinez et triez ensuite les premiers résultats avec les facettes présentes dans la colonne de gauche : vous pouvez sélectionner plusieurs thèmes, éditeurs, formats, licence.. Un peu plus de 4 000 jeux de données sont visualisables sous forme de cartes, histogrammes, courbes et tableaux. Les fonctionnalités de cet outil permettent d’intégrer des visualisations dans les articles, posts de blog et pages web. Vous pouvez également paramétrer les séries : cela permet d’afficher et de comparer uniquement les indicateurs désirés. Les données peuvent enfin être exportées sous de multiples formats : xls, csv, Kml, png… Carte, histogramme, tableau ou courbe : insérez facilement une visualisation interactive dans vos articles en ligne grâce au visualisateur générique de données de l’annuaire open data de Data Publica. Data Guide – Le Pense-bête des sources de données du Web 5
  • 7. Google Public Data Explorer Googe a également mis au point un service d’indexation des données publiques visible à http://www.google.com/publicdata/directory Sur ce site, vous aurez accès à quelques séries d’indicateurs des grandes institutions internationales : Banque Mondiale, Bureaux des études statistiques américaines, OCDE, Fonds Monétaire International... Google Public Data Explorer est avant tout un outil de visualisation des principaux indicateurs démographiques, sociologiques et économiques publiés par les organisations internationales. Cet outil facilement paramétrable est surtout utile pour afficher des séries et les partager sur les réseaux sociaux et dans des articles. Par ailleurs, Google Public Data Explorer n’est pas exhaustif : il n’indexe pas non plus toutes les données des organisations nationales et internationales. Visitez et utilisez Google Public Data Explorer Data Guide – Le Pense-bête des sources de données du Web 6
  • 8. DataMarket Datamarket est une société islandaise qui a développé un catalogue de données en répertoriant comme Data Publica et Google Public Data Explorer des données d’organisations publiques et privées, nationales et internationales. Ces données sont classées par thèmes, pays, organisations... Les données sont visualisables et peuvent être exportées, à la condition de s’être préalablement inscrit. Par ailleurs, certains jeux de données sont payants parmi les 44 200 en ligne : consultez le site Datamarket 7Data Guide – Le Pense-bête des sources de données du Web
  • 9. Quandl Plus jeune société présente sur le créneau de l’agrégation de données, Quandl est une start up canadienne qui a déjà indexé près de 8 millions de jeux de données principalement économiques, et financiers, dont une grande partie concerne surtout l’Amérique du nord pour le moment. Avec l’objectif de devenir l’équivalent de Wikipedia pour les données, Quandl fonctionne sur un mode collaboratif. Visitez et testez Quandl : http://www.quandl.com/ Taux d’homicides aux Etats-Unis Data Guide – Le Pense-bête des sources de données du Web 8
  • 10. Les annuaires institutionnels De nombreux Etats ont déjà mis en place des annuaires de données. Petit état des lieux de sites incontournables. Data.gouv.fr L’annuaire français des données publiques a été lancé le 5 décembre 2011. Actuellement près de 353 000 jeux de données y sont disponibles. Cet annuaire officiel des données publiques est placé sous l’autorité de la mission Etalab dirigée par Henri Verdier. Data.gov Premier annuaire national de données publiques mis en place par l’Etat fédéral en mai 2009, le site data.gov dispense aujourd’hui plus de 91000 jeux de données diffusés par les services de l’administration. Data.gov.uk Le site officiel servant de répertoire pour les données publiques du gouvernement du Royaume-Uni, mis en place en septembre 2009 donnant accès à environ 9650 jeux de données. Data Guide – Le Pense-bête des sources de données du Web 9 Sur Data.gov, retrouvez la carte interactive de près de 300 sites open data par pays Cliquez sur la carte et téléchargez la liste en xls sur ce lien
  • 11. B. Les producteurs publics de données Les organisations publiques nationales et locales diffusent de nombreuses données parfois non répertoriées par les annuaires : ministères, collectivités, organisations publiques, institutions, collectivités, les sources sont particulièrement nombreuses et les données abondantes. L’INSEE Si vous cherchez des données statistiques sur la France alors le site de l’INSEE vous permettra d’accéder à des bases de données particulièrement détaillées : économie, population, logement, éducation ainsi qu’à des indicateurs mis à jour mensuellement. Plusieurs centaines de milliers de fichiers excel auxquels s’ajoutent plus de 200 000 fichiers pdf, des centaines de fichiers zippés et des cartes interactives sont consultables sur le site. A lui seul le site de l’INSEE contient plus de données que le site data.gouv.fr. D’ailleurs comme détaillé dans notre analyse, une grande partie des 350 000 fichiers de Data.gouv.fr provient de seulement quelques bases de données INSEE. Outre les études ponctuelles, trois types de données produites et publiées par l’INSEE sont particulièrement intéressantes : 1. Les données détaillées par thème : http://www.insee.fr/fr/themes/ Retrouvez des études statistiques sur les thèmes de l’agriculture, du commerce, des conditions de vie, de l’économie etc.. Dans ces données thématiques vous pouvez également retrouver des indices conjoncturels mis à jour mensuellement ou trimestriellement : enquête de conjoncture sur les ménages, sur l’industrie, l’automobile, le commerce de détail, la création d’entreprise etc.. Data Guide – Le Pense-bête des sources de données du Web 10
  • 12. 2. Les grandes bases de données: http://www.insee.fr/fr/bases-de- donnees/ Dans les grandes bases de données de l’INSEE vous aurez accès par exemple : - aux Statistiques structurelles d'entreprises : toutes les statistiques d'entreprise issues du dispositif Esane et de la statistique publique. - aux indices et séries chronologiques : tous les indices et indicateurs de l’Insee, sur de longues périodes, documentés et accompagnés de graphiques. - aux résultats des recensements de la population : les résultats détaillés, les cartes et toutes les informations utiles sur les recensements. - aux Données locales : de nombreuses données très détaillées sont disponibles à l’échelle de votre commune ou de votre quartier (IRIS). - Au Répertoire Sirene qui permet d’accéder à des données d’entreprises http://www.sirene.fr 3. Les bases de données régionales http://www.insee.fr/fr/regions/ Dans ces bases locales, sont regroupés un certain nombre d’indicateurs locaux : présentation de la région en chiffres, conjoncture régionale, études.. Presque chaque pays dispose d’une organisation équivalente à notre institut statistique national : une liste assez complète mais non exhaustive, est disponible sur cette page. Data Guide – Le Pense-bête des sources de données du Web 11
  • 13. Les données des collectivités De nombreuses collectivités ont déjà ouvert leur portail de données. Aussi si vous cherchez des données particulièrement concernant un territoire, essayez d’abord de voir si il existe un portail d’une collectivité au niveau géographique communal, de la communauté d’agglomération, du département ou de la région. Nantes, Rennes, Paris, le conseil général du 71, Montpellier, la Communauté urbaine de Bordeaux, Lyon et Toulouse très récemment : ces collectivités, entre autres, ont déjà référencé de nombreuses données à dimension locale sur des portails dédiés. L’association nantaise Libertic a créé une carte interactive à laquelle vous pouvez collaborer qui liste les initiatives. Voir le projet en ligne Data Guide – Le Pense-bête des sources de données du Web 12
  • 14. Les Ministères Les ministères sont des sources de données parfois négligées : pourtant ils sont nombreux à compiler et éditer des données souvent diffusées dans des chapitres dédiés de leurs sites web. Vous cherchez par exemple: - des données sur le tourisme ? Alors n’hésitez pas à vous rendre sur le site du ministère du tourisme sur cette page. - des résultats d’élection manquent à votre étude : le ministère de l’intérieur aura quelque chose pour vous sur ces pages. Parmi les ministères les plus productifs en terme de données n’oubliez pas : 1. Le ministère du développement durable : http://www.developpement-durable.gouv.fr/ il s’agit de l’un des plus prolifiques : énergie, écologie, bâtiment etc.. des centaines de sources sont accessibles depuis le site du ministère. 2. Le ministère de l’agriculture et notamment son site : http://www.franceagrimer.fr/ 3. Le ministère de l’éducation nationale : séries du bac, le personnel enseignant etc.. 4. Le ministère du travail et ses pages statistiques notamment sur le chômage Sans oublier les préfectures : source de données méconnues mais qui diffusent régulièrement des informations sur les élus (maires, députés, sénateurs), les autorisations officielles d’exercer certaines activités etc.. 13Data Guide – Le Pense-bête des sources de données du Web
  • 15. A noter : chaque ministère dispose normalement d’un correspondant open data (lire l’interview de Philippe Guiraud, le correspondant open data du ministère de l’intérieur). Vous avez également la possibilité de contacter chaque ministère pour être mis en relation avec ce correspondant qui pourra peut-être vous informer des données publiques disponibles. Les organisations publiques nationales Les 560 opérateurs de l’Etat sont également des producteurs de données auxquels on ne pense pas suffisamment. Parmi ces opérateurs, on trouve par exemple : les agences régionales de santé, l’agence du médicament, le CNRS, INRIA, les musées nationaux, Pôle emploi, l’Institut National des Etudes Démographiques etc... Tous ces opérateurs dont la liste est accessible ici peuvent avoir les données que vous cherchez. N’oubliez pas non plus des institutions telles que la Banque de France qui présente des dizaines d’indicateurs particulièrement pertinents mis à jour mensuellement sur l’activité économique dans un chapitre dédié de son site web. Data Guide – Le Pense-bête des sources de données du Web 14
  • 16. Les organisations publiques internationales On sous estime également la quantité de données disponibles au sein des institutions publiques internationales : Eurostat, la Banque Mondiale, le Bureau International du Travail, l’OCDE etc.. L’Union européenne - Eurostat Certainement l’une des sources les plus complètes pour comparer des données européennes, des milliers de statistiques sont disponibles à plusieurs niveaux de granularité géographique (3 niveaux détaillés de granularité régionale européenne : NUTS 1, 2 et 3) sous format tableur. Outre Eurostat, l’Union européenne regroupe également un certain nombre d’organisation qui diffusent également des données dont la liste est disponible sur cette page. Banque Mondiale - http://data.worldbank.org/ La Banque Mondiale est l’une des premières organisations internationales à avoir consacré un chapitre entier de son site à la diffusion de données statistiques. Plus de 8 000 séries temporelles sont accessibles et vous y trouverez des fiches pays à jour pour chacun des 200 nations référencées exportables sous format xls et xml. Près de 800 indicateurs par pays sont disponibles concernant l’économie, la démographie, la santé etc... Il s’agit de l’une des bases de données les plus complètes par pays. L’OCDE - http://stats.oecd.org/ On peut également ajouter à cette liste les bases de données statistiques disponibles sur le site de l’OCDE. 22 thèmes couverts et exportables des formats différents (CSV, XLS, XML..) Data Guide – Le Pense-bête des sources de données du Web 15
  • 17. Ajoutons à cette liste des organisations internationales les producteurs de données tels que : Le FMI : http://www.imf.org/external/data.htm La CNUCED : http://unctad.org/fr/Pages/Statistics.aspx La FAO : http://faostat.fao.org/ Le BIT : http://kilm.ilo.org/KILMnetBeta/default2.asp L’OMS : http://www.who.int/research/en/ L’OMC : http://stat.wto.org/Home/WSDBHome.aspx?Language= C. Les sources de données privées (ou d’entreprises détenues par l’Etat) Même si leur nombre reste encore particulièrement faible, les organisations privées ne sont pas les moins réactives à mettre des données à disposition du public. Les Sociétés Si vous cherchez des données spécifiques à un secteur, il est envisageable que l’un des acteurs de ce secteur rende publiques certaines informations. Voici plusieurs exemples concrets tant en France qu’à l’étranger. La SNCF : http://test.data-sncf.com/ Depuis plusieurs mois la SNCF s’est engagée dans une démarche de libération d’un certain nombre de données. Petit à petit des données sont disponibles sous la forme de jeux de données ou accessibles par API : horaires des lignes Transilien, équipements des gare d’Ile-de-France, tarifs des abonnements, liste des gares, nombre moyen de voyageurs par gare du réseau Ile de France etc.. La RATP : http://data.ratp.fr La régie Autonome des Transports Parisiens s’est également convertie à une démarche open data depuis peu de temps : trafic entrant par stations, qualité de l’air mesuré, accessibilité des lignes etc... Des données que Data Publica a notamment utilisé pour ce tableau de Bord de la RATP. Data Guide – Le Pense-bête des sources de données du Web 16
  • 18. JC DECAUX : https://developer.jcdecaux.com/ Avec l’ouverture des données du réseau Vélib, la société JC Decaux est l’une des rares sociétés privées à jouer le jeu de l’open data. Les données en temps réel des velib’ permet le développement d’applications et optimise les usages du service. La Française des Jeux - http://www.fdj.fr A titre d’exemple, la Française des Jeux met à la disposition des joueurs les statistiques sur les jeux de tirages et les paris sportifs. Vous avez ainsi accès aux séries des tirages du loto et euromillions, des loto sportifs ou encore du keno (qui malheureusement ne seront sans doute pas utiles pour prédire les combinaisons à venir). BP - British Petroleum La société BP diffuse sur son site un volumineux jeu de données sur le secteur de l’énergie. Dans ce fichier, on trouve plus d’une cinquantaine d’onglets avec des séries statistiques temporelles longues relatives à la production internationale des différentes énergies, fossiles et renouvelables. ENEL - Société Italienne d’Electricité http://data.enel.com La société ENEL a décidé d’emboiter le pas de l’open data en mettant près de 300 de jeux de données à la disposition des internautes : données financières de la société, statistiques écologiques, développement durable, vous serez surpris par la richesse de leur portail. Data Guide – Le Pense-bête des sources de données du Web 17
  • 19. Associations, Organisations professionnelles et syndicats Les organisations, associations et syndicats professionnels disposent de nombreuses données. Dans un premier temps, vous pouvez prendre connaissance des syndicats professionnels qui existent en consultant le fichier des fédérations professionnelles françaises disponible sur l’annuaire open data de Data Publica. Data Publica a relevé trois initiatives open data provenant d’associations et d’organisations. Le Comité des Constructeurs Automobiles Français - CCFA http://www.ccfa.fr/ Sur le site du Comité des Constructeurs Automobiles Français, vous avez accès à des données mensuelles uniques sur la production et les immatriculations de véhicules : http://www.ccfa.fr/Donnees-mensuelles Disponibles sous des formats excel et pdf, cette source de données reste méconnue et offre pourtant des données détaillées pour la production et les immatriculations des véhicules par type, par pays (en Europe), et par marque. L’organisation internationale du café - International Coffee Organization Cette organisation qui fédère les pays exportateurs et importateurs donne accès à de multiples séries statistiques sur la production et les exportations de café dans le monde. http://www.ico.org/coffee_prices.asp?section=Statistics Le Comité International Olympique Les données accumulées par le Comité International Olympique sont nombreuses et variées : elles sont également disponibles aujourd’hui sur un portail dédié http://www.olympic.org/olympic-results qui permet d’accéder à des séries détaillées par J.O., épreuves, pays ou athlètes. Data Guide – Le Pense-bête des sources de données du Web 18
  • 20. Crowdsourcing Le crowdsourcing consiste à mobiliser une communauté afin de collecter des données. Les sites de crowdsourcing permettent d’accéder aux informations qui ne sont pas libérées ou qui le sont mais à des conditions financières empêchant leur réutilisation. Voici trois expériences de crowdsourcing des données qui offrent des solutions alternatives. Données géographiques : OSM (Open Street Map ) http://www.openstreetmap.org/ Le site d’OpenStreetMap rassemble une communauté à travers le monde dont l’objectif vise à rendre libre et accessible l’information géographique. Les données sont librement réutilisables et offrent donc une alternative aux données payantes fournies par l’IGN ou Google. Lire l’interview de son représentant français, Gaël Musquet, Données sur l’alimentation : Openfoodfacts http://openfoodfacts.org/ Openfoodfacts est une initiative consacrée au recueil de données sur l’alimentation détaillée sur les étiquettes et les codes barres des produits. Ce sont près de 11 000 produits qui sont référencés sur ce site. Les données peuvent être réutilisées avec la licence ODBL. Lire l’interview de Stéphane Gigandet. Les données politiques : Regards Citoyens http://www.regardscitoyens.org/ Depuis 2009, l’association Regards Citoyens travaille à la transparence des données politiques notamment en collectant et en rendant disponibles des données sur les parlementaires au travers des sites qu’ils ont édités : nosdeputes.fr et nossenateurs.fr. Relire l’interview de l’un des fondateurs de Regards Citoyens. Data Guide – Le Pense-bête des sources de données du Web 19
  • 21. D. Chercher sur le Web Chercher des données sur grâce aux moteurs de recherche Les moteurs de recherche restent les outils les plus simples pour trouver les données dont on a besoin et vérifier leur disponibilité. Parmi ceux-ci, Google occupe une place majeure : c’est le moteur de recherche le plus utilisé dans le monde et qui indexe le plus de pages web (près de 40 milliards). Afin de mieux chercher vos données, il existe quelques manipulations à connaître qui permettent de mieux parcourir et sélectionner les résultats. D’abord dans les paramétrages de la recherche, Google offre la possibilité de chercher dans certains types de contenus (livre, vidéos, actualités etc..), pour la période voulue, dans la langue souhaitée. Chercher uniquement les résultats dans un seul site : Dans la barre de recherche, indiquez la formule suivante “site:nomdusite.fr” suivi des mots clés. Chercher uniquement les résultats dans un site et pour un type de fichier en particulier Vous cherchez des données uniquement disponibles dans un format tableur ou dans un pdf, là encore une autre formule permet de le faire. Dans la barre de recherche, indiquer la formule suivante (sans espace) “site:nomdusite.fr” suivi d’un espace et “filetype:xls” et les mots clés. Par exemple vous ne cherchez que des statistiques éditées par l’administration sur la discrimination dans des fichiers excel ? Alors tapez dans la barre de recherche : site:gouv.fr filetype:xls discrimination Data Guide – Le Pense-bête des sources de données du Web 20
  • 22. Exemple de recherche avec le mot discrimination limité aux sites gouvernementaux français (gouv.fr) et dans les fichiers excel (filetype:xls). Cette recherche spécifique indique que 108 fichiers excel publiés par les sites des ministères et préfectures évoquent ce thème. Exclure des mots clés de votre recherche Afin d’exclure des mots clés de votre recherche, il vous suffit d’indiquer le signe “-” collé au mot que vous souhaitez exclure des résultats. Par exemple, pour ne pas avoir dans la liste de vos résultats les pages wikipédia, indiquez “-wikipedia” : faîtes l’expérience d’abord en tapant le mot wikipedia suivi de “-wikipedia” et ensuite sans cette exclusion et comparez les résultats. Trouver l’expression exacte Pour limiter votre recherche à une sélection de mots précise, il faudra mettre en guillemets les mots clés. Il ne s’agit que d’un échantillon des possibilités offertes par Google. Un excellent document résumant toutes les possibilités grâce aux moteurs de recherche est librement disponible et consultable réalisé et produit par Victorine Porte, étudiante à l’université de Poitiers : télécharger le document Data Guide – Le Pense-bête des sources de données du Web 21
  • 23. Chercher des données sur Common Crawl Common Crawl est une fondation américaine dont l’objectif est de mettre en place une copie du web et de la rendre librement accessible auprès du public. Ce sont ainsi 100 tera octets qui sont aujourd’hui accessibles pour y effectuer des recherches et extraire ainsi des données. Cette option n’est ouverte qu’aux développeurs aguerris. Data Publica par exemple a utilisé les données de Common Crawl afin de réaliser une carte de l’éco-système de l’opendata. Cette cartographie a pour objectif d’identifier les acteurs sur le web de l’open data français, leur importance et les liens qu’ils entretiennent. Ce travail a été récompensée par Common Crawl. Ce travail met en lumière le potentiel du web comme ressource de données. Chercher avec les outils de Data Publica Vous n’avez pas trouvé les données que vous cherchiez dans les sources évoquées, vous savez qu’elles sont disponibles mais éparses, difficiles à rassembler. Effectivement, il faut parfois développer des programmes d’extraction, de nettoyage, de déduplication pour obtenir les données que l’on cherche. C’est le métier de Data Publica de vous fournir les données dont vous avez besoin mais qu’il vous est difficile d’acquérir. L’expertise des équipes de Data Publica repose justement sur cette connaissance des sources et la maîtrise des outils pour extraire les données des sources. De nombreux outils ont été développés par nos équipes techniques afin de pouvoir extraire, nettoyer, dédupliquer et livrer les données dont les organisations ont besoin. Data Guide – Le Pense-bête des sources de données du Web 22
  • 24. Chaîne de valeur de la production de données par Data Publica Data Guide – Le Pense-bête des sources de données du Web 23
  • 25. Data Publica a développé plusieurs services autour de la recherche de données parmi lesquels : • un service de données sur mesure : indiquez-nous les spécificités des données que vous cherchez et nous vous les livrerons. • un service de tableau de bord : vous souhaitez construire un tableau de bord à n’importe quel niveau géographique (commune, nation, département etc...) et qui présente des données à jour sur les thèmes souhaités ? Data Publica vous construit l’application alimentée par les données désirées et mis à jour en temps réel. • un service d’enrichissement de données B2B : vous disposez de données que vous désirez enrichir d’informations disponibles sur Internet : par exemple, un fichier d’entreprises auquel vous souhaitez ajouter des données précises comme les comptes de réseau social, horaires, des adresses mails etc... Revenons par exemple sur le Tableau de bord avec celui que Data Publica a produit pour la société Secafi. Ce tableau de bord a été réalisé en utilisant de multiples sources de données publiques : ministère de l’intérieur, Direccte, Pole emploi, INSEE... Secafi est une société spécialisée dans l'expertise, l'assistance et le conseil auprès des Instances Représentatives du Personnel : comité d'entreprise, comité de groupe, comité d'entreprise européen... La société intervient principalement dans des missions de conseils et de diagnostics : ses consultants sont amenés à utiliser régulièrement les mêmes indicateurs économiques territoriaux pour porter un avis, établir une analyse et alimenter une étude. Pour éviter ce travail rébarbatif de recherche des données, souvent toujours les mêmes données, la société Secafi a demandé à Data Publica de lui fournir un outil de visualisation et de manipulation des données publiques sur les thèmes de l’emploi, l’économie (etc..) niveau géographiques des 300 zones d’emploi de métropole. Data Guide – Le Pense-bête des sources de données du Web 24
  • 26. Pour ce faire, Data Publica a mis en place un processus de scraping [recueil] de données sur plusieurs dizaines de sites pour extraire des centaines d’indicateurs en temps réel et les visualiser dans un tableau de bord des zones d’emploi sur mesure. Cet outil illustre les possibilités d’utilisation des données dès lors que les sources sont connues. De la même manière, des tableaux de bord peuvent être créés qui mixeraient des données publiques avec des données internes. Data Guide – Le Pense-bête des sources de données du Web 25
  • 27. Conclusion Les sources de données sont nombreuses sur Internet. Même si des sites comme Google, Bing ou Yahoo peuvent vous permettre d’affiner vos recherches, une bonne connaissance des ressources vous permettra de gagner du temps. D’abord n’oubliez pas qu’il existe : - des annuaires de données (Data Publica, Google Public Data Explorer..) - des producteurs de données à chaque niveau géographique : o communal (exemple la petite ville de Brocas, 800 habitants) o de la communauté urbaine (comme celle de Bordeaux) o du département (ex : Conseil Général de Saône et Loire) o de la région (ex : Pays de Loire) o national (ex : Data.gouv.fr) o international (ex : Eurostat, Banque Mondiale..) - des producteurs institutionnels de données publiques o préfecture o ministère o institutions o opérateurs de l’Etat - des producteurs privés : o associations, fédérations, syndicats o sociétés o sites de crowdsourcing des données Et si votre recherche est plus compliquée que prévue, alors vous avez toujours la possibilité de faire appel aux services de Data Publica qui a développé des outils uniques de recherche, d’extraction et de traitement des données. Contactez-nous pour en savoir plus. Data Guide – Le Pense-bête des sources de données du Web 26