2. Qui est l’Aproged ?
• Association professionnelle créée en 1993
• Une centaine d’adhérents représentant les professionnels
de la valorisation des contenus numériques
(indexation, linguistique, moteurs de recherche, sémantique,
dématérialisation, gestion de contenu et de
document, archivage, capture, éditique, workflow… ).
• Au cœur de la réflexion sur la gestion et l’optimisation
des contenus et des documents numériques
• Rôle déterminant en matière d’information et d’études,
de formation et de normalisation.
• Fondateur du Forum des Acteurs du Numérique devenu
en 2012 le Congrès national de la Valorisation des
Contenus numériques
7. Références Big Data
• Big data, exploiter de grands volumes de données : quels
sont les enjeux pour les acteurs du marché de
l’information et de la connaissance ? (3 juillet 2012) Compte
rendu Vivien Mann bientôt en ligne,
• Jean DELAHOUSSE (Jean DELAHOUSSE Conseil) « Introduction au Big
Data »
• Gabriel KEPEKLIAN & Grégoire WIBAUX (ATOS) « Quels modèles
économique pour le Big Data »
• Daniel TERRUGI (INA) « Big Data, exploiter de grands volumes de
donnée »
• Mark ASCH (INSMI-CNRS) « L’exploitation des données
scientifiques »
13. Agenda de la formation APROGED
• Qu’est ce que le Big Data ? Exemples avec les données des réseaux
sociaux (Facebook, Twitter …), l’Internet des objets (données des compteurs
etc. …), l’Open Data, les données de géolocalisation etc. …
• Technologies et métriques du Big Data – ce qu’on peut obtenir du Big
Data - les technologies de stockage – les méthodes d’analyse de
l’information – les techniques de visualisation – les techniques de
restitution –
• Les modèles économiques du Big Data, les acteurs - le rôle de l’Etat
en France, en Europe, aux Etats-Unis – les projets soutenus par l’Etat
français en 2013 après appel à projets – la valeur ajoutée apportée par le
traitement – la valeur ajoutée apportée par le service – le modèle
publicitaire
• Aspects juridiques du projet – la propriété intellectuelle – le savoir-
faire – Informatique et libertés (Cnil) – la Charte Ethique du Big Data de
l’Aproged – Les contrats et les bonnes clauses
14. Big Data et ADBS
• l’état de l’art technologique (de quoi on
parle ?)
• aux Enjeux :
– (r)évolution des traitements informatiques
– Principaux champs d’application
– Enjeux en terme de gisement d’activité et
d’emplois potentiels.
15.
16. Désigne les masses de
données auxquelles sont
confrontés les acteurs du
secteur privé comme du
secteur public et qu’ils
veulent/peuvent exploiter
pour générer des nouveaux
business et/ou être plus
efficaces.
Le Big Data : lieu d’innovation
27. Les ordres de grandeur
• Le volume de Big Data croît de 60% chaque année
• La valeur des données a dépassé celle du hardware
2015
20 Zetta (1021)
2030
1 Yotta (1024)
30. Traitement de logs Applications verticales Business intelligence Analyse et visualisation
Analyse d’infrastructure Infra. opérationnelle Infra. as a Service Structuration
Fournisseurs de données
Technologies
Petit aperçu du paysage
31. Data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
Compute Cluster
DFS Block 1 DFS Block 1
DFS Block 1
DFS Block 2
DFS Block 2
DFS Block 2
DFS Block 3
DFS Block 3
Map
Map
Map
Results
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
Reduce
Overview
Image courtesy of the Apache Software Foundation
32. Stockage
Traitement
La librairie Apache Hadoop permet de traiter de larges ensembles de données
de manière distribuée au travers de grappes d’ordinateurs en utilisant un
modèle de programmation simple
Hadoop Distributed File System
41. Une surabondance d’application à gérer!
Number&complexityof
technologies/datasources
Time Frame
eCommerce
Smarter
Planet
eDiscovery
Decision support
Alerting
Watson
Predictions
Historic
Relationship
Detection
Pattern
Detection
Find influencers
Brand
management
Climate Modeling
And Prediction
Investment Trend
Detection
Reputation
management
Voice of Customer
Gov’t Intelligence
Apps
Log Analysis
Future(Predict)
Ad targeting
Churn detection
Find drug
interactions
Fraud
Detection
Source: IDC, Big Data and the information advantage
Sue Feldman
Sentiment extraction
42. L’offre, la proposition de valeur
• Les applications de traitement des logs
– IP-Label (la qualité perçue), Wallix, Splunk, Loggly, SumoLogic, …
• Les applications verticales
– BloomReach (big data marketing), …
• Business intelligence
– Oracle, SAP, BO, Cognos, SAS, GoodData, …
• Analyse et visualisation
– Pikko, GreenPlum, Palantir, Visual.ly, …
• Fournisseurs de données
– GNIP, INRIX, DataSift
• Analyse d’infrastructure
– Hortonworks, Cloudera, MapR,…
• Infrastructure opérationnelle
– CouchBase, Teradata, 10gen, …
• Infrastructure as a Service
– Amazon web services, Infochimps, WindowsAzure, …
• Bases de données structurées
– Oracle, MySQL, SQLServer, …
• Technologies
– Hadoop, HiBase, Cassandra, …
44. Les segments de clientèle visés
• Santé
– Chaque hôpital : 150 TB 650 TB en 2015 (imagerie médicale, données)
• Service client
– Il y a 4 ans 59% des clients quittaient leurs fournisseurs s’ils avaient une mauvaise prestation,
aujourd’hui on est passé à 86%
• Assurances, administrations
– Elles font face à des fraudes en quantité croissante
• Services financiers
– L’information financière : par ex. le Dow Jones = 19.000 news par jour
• Grandes distributions
– Les ventes ratées pour défaut en stock représentent 170 M$ aux USA
– L’analyse des tickets de caisse
• Télécommunication
– 5 milliards d’abonnés au portable qui attendent des services personnalisés
• Ministères
– La population de chaque pays, …
• Bibliothèques
– La pérennisation des fonds, des archives, …
• Etc.
47. R O I
Du ROI au ROD
Machines / Réseaux / Software BIG DATA
Volumes Efficacité
Return On Investment
R
Return On Data
O D
48. DÉFINITION : BUSINESS MODEL
Selon une définition actuelle qui fait
consensus, il s’agit d’un « outil » qui décrit
la façon de créer, délivrer et capturer de la
valeur pour un acteur économique ou un
écosystème économique.
49. Les segments
de clientèle
Les parte-
naires clefs
La structure
de coûts
Les flux de
revenus
Les canaux
de distribution
Les relations
avec le client
Les activités
clefs
Les ressources
clefs
Les propositions
de valeur
50. L’offre
Les canaux de
distribution
Les relations avec
le client
Les segments de
clientèle
Les flux de revenusLa structure de coûts
Les activités
clefs
Le réseau de
partenaires
Les ressources
clefs
La matrice du Business Model
Collecter
Traiter des log
Appli verticales
Analyser
Visualiser
Interpréter
Structurer
Stocker
Administration
Média
Industrie
Banque
Santé
Distribution
…
Self-service
Formation
Support
Débit
Performance
Espace
Conseil
Calcul
Stockage
B2B
A2B
Hébergeur
Datacenter
HPC
Constructeur
Opérateur Cloud
Maintenance de la plateforme
Abonnement
Développement
Exploitation
Valorisation des données
Ventes / reventes
Lot / transaction
PI, Licences, loyers
51. • Gratuité et applications et services spécialisés
• Gratuité et publicités
• Abonnement à des API
• Abonnement à d’autres fonctions
• Vente de data de qualité (premium)
Des business model classiques web
Source : datamarket.com
53. Une variété de talents
Source: McKinsey Global Institute: Big Data: The next frontier for innovation, competition and productivity (June 2011)
54. Une variété de talents
• Spécialistes en source de données
– Sources ouvertes
– Sources payantes
– Sources internes
• Terminologues
– Gestionnaire de terminologie, lexiques métiers, des ontologies
– Expertise métier
– Web Semantique
• Documentalistes et experts en Système d’information documentaire
– Gestion électronique des documents
– Moteurs de recherche
– Text Mining
– Visualisation de données
– Reporting
56. Les données : une matière première et des produits à forte
valeur ajoutée
• Commerce et les affaires
– SI d’entreprise, transactions commerciales,
systèmes de réservation, …
• Loisirs
– Musique, vidéo, jeux, réseaux sociaux…
• Sciences
– Astronomie, physique et énergie, génome, …
• Médecine
– Dossier médical, sécurité sociale, imagérie
• Environnement
– Climat, dév durable, pollution, alimentation,…
• Humanités et Sciences Sociales
– Numérisation du savoir (littérature, histoire,…),
interactions dans les réseaux sociaux, données
archéologiques…
BD et fichiers d’entreprises
Données WEB et
Réseaux Sociaux
Données de Capteurs
Données d’expériences
scientifiques
57. Une petite idée des volumes de données
!"#$%&' ($) ' ("*
Volume Exemple
1 gigabyte: 109
Information known in the human genome
1 terabyte:1012
Annual world literature production
1 petabyte: 1015
All US academic research libraries
1 exabyte: 1018
Two thirds of annual world production of
information
Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx
58. Caractéristiques
• Des recherches principalement tirées par
– Des applications industrielles
– L’émergence de nouvelles technologies
– L’émergence de nouveaux usages
• Une recherche dominée (ou presque) par des labos
industriels
– Nombreuses « success stories »
– Des laboratoires industriels de pointe
• IBM, Oracle, Microsoft, Sun, AT&T, Bell Labs, Google, Yahoo!
– Une grande perméabilité entre monde académique et monde
industriel (en particulier aux US, moins en Europe)
59. Les grands verrous dans la gestion des masses de données
1. La virtualisation du stockage et de l’accès (Cloud).
2. L’intégration de données.
3. La gestion d’événements et de flots de données.
4. L’analyse complexe à grande échelle.
5. La qualité et protection des données.
6. La visualisation/navigation des masses de données.
7. La préservation des données.
60. Défi 1 : Stockage à grande échelle (Cloud)
• Bénéfices du Cloud
– Pas d’infrastructure à acquérir ni à gérer
• « Pay as you go »
– Stockage massif de données (à moindre coût)
• Coûts de stockage et d’utilisation réduits
– Accès anytime – anywhere via Internet
• Ex: iCloud (Apple)
– Qualité de service
• Disponibilité, sécurité
– Elasticité
• absorbe facilement les charges lourdes ou soudaines
• Challenges du Cloud
– Indexation intelligente (sémantique)
– Sécurité et Confidentialité (privacy)
– Calcul haute performance (//)
– Cohérence et qualité des données
D
C
Time
R
D
C
R
61. Défi 2 : Analyse complexe à grande échelle
• Analyse en temps réel de flots continus de données
émanant de différentes sources
– Ex: Découvrir et comprendre les patterns
caractéristiques du comportement des
clients/utilisateurs
• Réaction en temps réel à des événements d’alerte
– Ex: attaques sur le réseau
• Requêtes multidimensionnelles sur des grands
ensembles de données
– Découvrir et comprendre des patterns en
analysant le comportement d’une population
– Découvrir des corrélations entre phénomènes
Divy Agrawal et al , VLDB Tutorial’2010
62. Défi 3 : la gestion de flots d’événements
• Capture d’événements
– Politique de détection et de composition (requêtes sur les évnts)
– Introduction d’incertitude sur l’arrivée des événements et sur le contenu de
leurs messages
– Détection / simulation d’événements rares
• Réaction aux événements
– Politique de déclenchement, consommation, exécution (optimisation)
– Couplage transactionnel
– Analyse : confluence, terminaison
• Bufferisation
– Taille des fenêtres temporelles
– Stratégies de glissement
• Historisation
– Stockage massif
– Indexation
– Analyse complexe (analyse de séquences, motifs fréquents,…)
Cible :
intelligence
ambiante,
réseaux sociaux,
surveillance
temps réel,
robotique,
bioinformatique
.
63. Défi 4 : La visualisation des masses de données
• Besoins
– Navigation intuitive/contextuelle
• desktop intelligent, réseaux sociaux, contenus MM
– Visualisation de phénomènes non perceptibles
• Génome, trou noir
– Analyse visuelle
• Découverte de connaissances
• Challenges
– Invention de nouvelles métaphores graphiques
– Algorithmes de graphes performants (//)
• Optimisation de la visulaisation de grands graphes
– Clusterisation et stats de graphes
– Adaptation aux terminaux /équipements
64. Défi 5 : La préservation des données
• Comment préserver les données à durée de vie illimité?
– connaissances scientifiques
– produits culturelles
– connaissances archéologiques et environnementales
– connaissances sociales (recensements)
• Comment préserver les données à durée de vie longue mais
limitée
– patrimoine informationnel des entreprises
– Données personnelles (stockées dans les disques privés ou
publiés sur le Web)
– Données publiques (fichiers sécu, police, …)
• Quel coût pour la préservation des données
– Coût de conversion des données (formats)
– Coût pour la migration des technologies
– Coût de maintien des technologies de niche
• Quelle stratégie pour les données gérées dans le Cloud ?
Accroissement de
l’hétérogénéité des
MDD
Plus grandes
difficultés pour leur
intégration et leur
exploitation