SlideShare una empresa de Scribd logo
1 de 65
Descargar para leer sin conexión
Big Data
Charles Huot
Vice-Président
ADBS
12 février 2013
Qui est l’Aproged ?
• Association professionnelle créée en 1993
• Une centaine d’adhérents représentant les professionnels
de la valorisation des contenus numériques
(indexation, linguistique, moteurs de recherche, sémantique,
dématérialisation, gestion de contenu et de
document, archivage, capture, éditique, workflow… ).
• Au cœur de la réflexion sur la gestion et l’optimisation
des contenus et des documents numériques
• Rôle déterminant en matière d’information et d’études,
de formation et de normalisation.
• Fondateur du Forum des Acteurs du Numérique devenu
en 2012 le Congrès national de la Valorisation des
Contenus numériques
Livres blancs Aproged
V1 en janv 2012 V2 en oct 2012
Livres blancs Aproged
Document et Cloud
Juin 2012
Livres blancs Aproged
Content Analytics
Janvier 2013
Livres blancs Aproged
E-réputation et B2B
Février 2013
Références Big Data
• Big data, exploiter de grands volumes de données : quels
sont les enjeux pour les acteurs du marché de
l’information et de la connaissance ? (3 juillet 2012) Compte
rendu Vivien Mann bientôt en ligne,
• Jean DELAHOUSSE (Jean DELAHOUSSE Conseil) « Introduction au Big
Data »
• Gabriel KEPEKLIAN & Grégoire WIBAUX (ATOS) « Quels modèles
économique pour le Big Data »
• Daniel TERRUGI (INA) « Big Data, exploiter de grands volumes de
donnée »
• Mark ASCH (INSMI-CNRS) « L’exploitation des données
scientifiques »
IDC: « Worldwide Big Data Taxonomy, 2011 »
Cap Gemini: « The Deciding Factor: Big Data & Decison Making »
McKinsey Global Institute: « Big data: The next Frontier for innovation, competition,
and productivity
« Nation’s most pressing challenges »
« Investissements d’Avenir »
Agenda de la formation APROGED
• Qu’est ce que le Big Data ? Exemples avec les données des réseaux
sociaux (Facebook, Twitter …), l’Internet des objets (données des compteurs
etc. …), l’Open Data, les données de géolocalisation etc. …
• Technologies et métriques du Big Data – ce qu’on peut obtenir du Big
Data - les technologies de stockage – les méthodes d’analyse de
l’information – les techniques de visualisation – les techniques de
restitution –
• Les modèles économiques du Big Data, les acteurs - le rôle de l’Etat
en France, en Europe, aux Etats-Unis – les projets soutenus par l’Etat
français en 2013 après appel à projets – la valeur ajoutée apportée par le
traitement – la valeur ajoutée apportée par le service – le modèle
publicitaire
• Aspects juridiques du projet – la propriété intellectuelle – le savoir-
faire – Informatique et libertés (Cnil) – la Charte Ethique du Big Data de
l’Aproged – Les contrats et les bonnes clauses
Big Data et ADBS
• l’état de l’art technologique (de quoi on
parle ?)
• aux Enjeux :
– (r)évolution des traitements informatiques
– Principaux champs d’application
– Enjeux en terme de gisement d’activité et
d’emplois potentiels.
Désigne les masses de
données auxquelles sont
confrontés les acteurs du
secteur privé comme du
secteur public et qu’ils
veulent/peuvent exploiter
pour générer des nouveaux
business et/ou être plus
efficaces.
Le Big Data : lieu d’innovation
Beaucoup plus de données
Vraiment beaucoup plus
Des puces RFID
pour tracer les vaches
Des capteurs sur
les réacteurs
d’avion
Des capteurs pour
suivre la
circulation
Accumuler des
données sur l’univers
Génome
Décrire les génomes
Concevoir ensemble
Jouer, acheter,
communiquer et
laisser des traces
numériques
Parler de soi et
des autres
Les ordres de grandeur
• Le volume de Big Data croît de 60% chaque année
• La valeur des données a dépassé celle du hardware
2015
20 Zetta (1021)
2030
1 Yotta (1024)
Big Data Projet technique
Ecosystème
http://gigaom.com/cloud/whos-connected-to-whom-in-hadoop-world-infographic/
Traitement de logs Applications verticales Business intelligence Analyse et visualisation
Analyse d’infrastructure Infra. opérationnelle Infra. as a Service Structuration
Fournisseurs de données
Technologies
Petit aperçu du paysage
Data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
Compute Cluster
DFS Block 1 DFS Block 1
DFS Block 1
DFS Block 2
DFS Block 2
DFS Block 2
DFS Block 3
DFS Block 3
Map
Map
Map
Results
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
data data data data data
Reduce
Overview
Image courtesy of the Apache Software Foundation
Stockage
Traitement
La librairie Apache Hadoop permet de traiter de larges ensembles de données
de manière distribuée au travers de grappes d’ordinateurs en utilisant un
modèle de programmation simple
Hadoop Distributed File System
Gestion de fichiers
Hadoop Distributed File System HDFS
Map Reduce
Hadoop MapReduce
Traitement
graphes…
Giraph
Langages
Pig, Hive, Crunch, Sqoop
ComposantsCoordination
...Zookeeper
SGBDNoSql
Hbase
DataViz et BigData
des résultats visualisables, compréhensibles, interprétables
http://panneaux.expoviz.fr/post/24461221952/5-1-2
PHOTOGRAPHIER PARIS
LE CHOIX DES TOURISTES, CELUI DES HABITANTS
http://youtu.be/Ncon_z67VQs
Twitter Adoption
BigData & Applications
Une surabondance d’application à gérer!
Number&complexityof
technologies/datasources
Time Frame
eCommerce
Smarter
Planet
eDiscovery
Decision support
Alerting
Watson
Predictions
Historic
Relationship
Detection
Pattern
Detection
Find influencers
Brand
management
Climate Modeling
And Prediction
Investment Trend
Detection
Reputation
management
Voice of Customer
Gov’t Intelligence
Apps
Log Analysis
Future(Predict)
Ad targeting
Churn detection
Find drug
interactions
Fraud
Detection
Source: IDC, Big Data and the information advantage
Sue Feldman
Sentiment extraction
L’offre, la proposition de valeur
• Les applications de traitement des logs
– IP-Label (la qualité perçue), Wallix, Splunk, Loggly, SumoLogic, …
• Les applications verticales
– BloomReach (big data marketing), …
• Business intelligence
– Oracle, SAP, BO, Cognos, SAS, GoodData, …
• Analyse et visualisation
– Pikko, GreenPlum, Palantir, Visual.ly, …
• Fournisseurs de données
– GNIP, INRIX, DataSift
• Analyse d’infrastructure
– Hortonworks, Cloudera, MapR,…
• Infrastructure opérationnelle
– CouchBase, Teradata, 10gen, …
• Infrastructure as a Service
– Amazon web services, Infochimps, WindowsAzure, …
• Bases de données structurées
– Oracle, MySQL, SQLServer, …
• Technologies
– Hadoop, HiBase, Cassandra, …
Les segments de clientèle visés
Les segments de clientèle visés
• Santé
– Chaque hôpital : 150 TB  650 TB en 2015 (imagerie médicale, données)
• Service client
– Il y a 4 ans 59% des clients quittaient leurs fournisseurs s’ils avaient une mauvaise prestation,
aujourd’hui on est passé à 86%
• Assurances, administrations
– Elles font face à des fraudes en quantité croissante
• Services financiers
– L’information financière : par ex. le Dow Jones = 19.000 news par jour
• Grandes distributions
– Les ventes ratées pour défaut en stock représentent 170 M$ aux USA
– L’analyse des tickets de caisse
• Télécommunication
– 5 milliards d’abonnés au portable qui attendent des services personnalisés
• Ministères
– La population de chaque pays, …
• Bibliothèques
– La pérennisation des fonds, des archives, …
• Etc.
Time Line
client
Contrats
CRM
Collecter
Stocker
Extraire
Formaliser
Codifier
Réconcilier
Enrichir
Agréger
Organiser
Indexer
Donner
accès
Filtrer
Représenter
Action
Affiner profil
client
Tableau de
bord produits
& processus
CRM
Marketing
Comprendre, prévoir, agir
La télévision et Twitter
R O I
Du ROI au ROD
Machines / Réseaux / Software BIG DATA
Volumes Efficacité
Return On Investment
R
Return On Data
O D
DÉFINITION : BUSINESS MODEL
Selon une définition actuelle qui fait
consensus, il s’agit d’un « outil » qui décrit
la façon de créer, délivrer et capturer de la
valeur pour un acteur économique ou un
écosystème économique.
Les segments
de clientèle
Les parte-
naires clefs
La structure
de coûts
Les flux de
revenus
Les canaux
de distribution
Les relations
avec le client
Les activités
clefs
Les ressources
clefs
Les propositions
de valeur
L’offre
Les canaux de
distribution
Les relations avec
le client
Les segments de
clientèle
Les flux de revenusLa structure de coûts
Les activités
clefs
Le réseau de
partenaires
Les ressources
clefs
La matrice du Business Model
Collecter
Traiter des log
Appli verticales
Analyser
Visualiser
Interpréter
Structurer
Stocker
Administration
Média
Industrie
Banque
Santé
Distribution
…
Self-service
Formation
Support
Débit
Performance
Espace
Conseil
Calcul
Stockage
B2B
A2B
Hébergeur
Datacenter
HPC
Constructeur
Opérateur Cloud
Maintenance de la plateforme
Abonnement
Développement
Exploitation
Valorisation des données
Ventes / reventes
Lot / transaction
PI, Licences, loyers
• Gratuité et applications et services spécialisés
• Gratuité et publicités
• Abonnement à des API
• Abonnement à d’autres fonctions
• Vente de data de qualité (premium)
Des business model classiques web
Source : datamarket.com
BigData & Emploi
Une variété de talents
Source: McKinsey Global Institute: Big Data: The next frontier for innovation, competition and productivity (June 2011)
Une variété de talents
• Spécialistes en source de données
– Sources ouvertes
– Sources payantes
– Sources internes
• Terminologues
– Gestionnaire de terminologie, lexiques métiers, des ontologies
– Expertise métier
– Web Semantique
• Documentalistes et experts en Système d’information documentaire
– Gestion électronique des documents
– Moteurs de recherche
– Text Mining
– Visualisation de données
– Reporting
BigData & Science
Masses de Données Scientifiques: Enjeux et Perspectives
Les données : une matière première et des produits à forte
valeur ajoutée
• Commerce et les affaires
– SI d’entreprise, transactions commerciales,
systèmes de réservation, …
• Loisirs
– Musique, vidéo, jeux, réseaux sociaux…
• Sciences
– Astronomie, physique et énergie, génome, …
• Médecine
– Dossier médical, sécurité sociale, imagérie
• Environnement
– Climat, dév durable, pollution, alimentation,…
• Humanités et Sciences Sociales
– Numérisation du savoir (littérature, histoire,…),
interactions dans les réseaux sociaux, données
archéologiques…
BD et fichiers d’entreprises
Données WEB et
Réseaux Sociaux
Données de Capteurs
Données d’expériences
scientifiques
Une petite idée des volumes de données
!"#$%&' ($) ' ("*
Volume Exemple
1 gigabyte: 109
Information known in the human genome
1 terabyte:1012
Annual world literature production
1 petabyte: 1015
All US academic research libraries
1 exabyte: 1018
Two thirds of annual world production of
information
Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx
Caractéristiques
• Des recherches principalement tirées par
– Des applications industrielles
– L’émergence de nouvelles technologies
– L’émergence de nouveaux usages
• Une recherche dominée (ou presque) par des labos
industriels
– Nombreuses « success stories »
– Des laboratoires industriels de pointe
• IBM, Oracle, Microsoft, Sun, AT&T, Bell Labs, Google, Yahoo!
– Une grande perméabilité entre monde académique et monde
industriel (en particulier aux US, moins en Europe)
Les grands verrous dans la gestion des masses de données
1. La virtualisation du stockage et de l’accès (Cloud).
2. L’intégration de données.
3. La gestion d’événements et de flots de données.
4. L’analyse complexe à grande échelle.
5. La qualité et protection des données.
6. La visualisation/navigation des masses de données.
7. La préservation des données.
Défi 1 : Stockage à grande échelle (Cloud)
• Bénéfices du Cloud
– Pas d’infrastructure à acquérir ni à gérer
• « Pay as you go »
– Stockage massif de données (à moindre coût)
• Coûts de stockage et d’utilisation réduits
– Accès anytime – anywhere via Internet
• Ex: iCloud (Apple)
– Qualité de service
• Disponibilité, sécurité
– Elasticité
• absorbe facilement les charges lourdes ou soudaines
• Challenges du Cloud
– Indexation intelligente (sémantique)
– Sécurité et Confidentialité (privacy)
– Calcul haute performance (//)
– Cohérence et qualité des données
D
C
Time
R
D
C
R
Défi 2 : Analyse complexe à grande échelle
• Analyse en temps réel de flots continus de données
émanant de différentes sources
– Ex: Découvrir et comprendre les patterns
caractéristiques du comportement des
clients/utilisateurs
• Réaction en temps réel à des événements d’alerte
– Ex: attaques sur le réseau
• Requêtes multidimensionnelles sur des grands
ensembles de données
– Découvrir et comprendre des patterns en
analysant le comportement d’une population
– Découvrir des corrélations entre phénomènes
Divy Agrawal et al , VLDB Tutorial’2010
Défi 3 : la gestion de flots d’événements
• Capture d’événements
– Politique de détection et de composition (requêtes sur les évnts)
– Introduction d’incertitude sur l’arrivée des événements et sur le contenu de
leurs messages
– Détection / simulation d’événements rares
• Réaction aux événements
– Politique de déclenchement, consommation, exécution (optimisation)
– Couplage transactionnel
– Analyse : confluence, terminaison
• Bufferisation
– Taille des fenêtres temporelles
– Stratégies de glissement
• Historisation
– Stockage massif
– Indexation
– Analyse complexe (analyse de séquences, motifs fréquents,…)
Cible :
intelligence
ambiante,
réseaux sociaux,
surveillance
temps réel,
robotique,
bioinformatique
.
Défi 4 : La visualisation des masses de données
• Besoins
– Navigation intuitive/contextuelle
• desktop intelligent, réseaux sociaux, contenus MM
– Visualisation de phénomènes non perceptibles
• Génome, trou noir
– Analyse visuelle
• Découverte de connaissances
• Challenges
– Invention de nouvelles métaphores graphiques
– Algorithmes de graphes performants (//)
• Optimisation de la visulaisation de grands graphes
– Clusterisation et stats de graphes
– Adaptation aux terminaux /équipements
Défi 5 : La préservation des données
• Comment préserver les données à durée de vie illimité?
– connaissances scientifiques
– produits culturelles
– connaissances archéologiques et environnementales
– connaissances sociales (recensements)
• Comment préserver les données à durée de vie longue mais
limitée
– patrimoine informationnel des entreprises
– Données personnelles (stockées dans les disques privés ou
publiés sur le Web)
– Données publiques (fichiers sécu, police, …)
• Quel coût pour la préservation des données
– Coût de conversion des données (formats)
– Coût pour la migration des technologies
– Coût de maintien des technologies de niche
• Quelle stratégie pour les données gérées dans le Cloud ?
Accroissement de
l’hétérogénéité des
MDD
Plus grandes
difficultés pour leur
intégration et leur
exploitation
www.aproged.org
Merci
de votre
attention

Más contenido relacionado

La actualidad más candente

La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesSAS FRANCE
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayetKezhan SHI
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big DataEvenements01
 
L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseMathieu Lahaye
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Philippe METAYER
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerceCOMPETITIC
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataNicolas Peene
 
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceLe Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceAbdessatar Hammedi
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungenGalsungen
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCGMicropole Group
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceJulien DEMAUGÉ-BOST
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEGroupe IDAIA
 

La actualidad más candente (20)

La valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usagesLa valeur des Big Data sera dans leurs usages
La valeur des Big Data sera dans leurs usages
 
Big data en (ré)assurance régis delayet
Big data en (ré)assurance   régis delayetBig data en (ré)assurance   régis delayet
Big data en (ré)assurance régis delayet
 
Etude sur le Big Data
Etude sur le Big DataEtude sur le Big Data
Etude sur le Big Data
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Valtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entrepriseValtech - Du BI au Big Data, une révolution dans l’entreprise
Valtech - Du BI au Big Data, une révolution dans l’entreprise
 
Matinée 01 Big Data
Matinée 01 Big DataMatinée 01 Big Data
Matinée 01 Big Data
 
L'utilisation du Big Data en entreprise
L'utilisation du Big Data en entrepriseL'utilisation du Big Data en entreprise
L'utilisation du Big Data en entreprise
 
Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"Formation professionnelle "Big data : concepts et enjeux"
Formation professionnelle "Big data : concepts et enjeux"
 
Big Data, kesako ?
Big Data, kesako ?Big Data, kesako ?
Big Data, kesako ?
 
Competitic big data et commerce
Competitic   big data et commerceCompetitic   big data et commerce
Competitic big data et commerce
 
Point de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big DataPoint de Vue Sopra Consulting sur le Big Data
Point de Vue Sopra Consulting sur le Big Data
 
Analyse spatiale en Big data
Analyse spatiale en Big dataAnalyse spatiale en Big data
Analyse spatiale en Big data
 
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’AssuranceLe Big Data transforme en profondeur le monde de la Banque et de l’Assurance
Le Big Data transforme en profondeur le monde de la Banque et de l’Assurance
 
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
2014 Présentation pour la soutenance du probatoire "Big Data"de galsungen
 
Présentation Big Data DFCG
Présentation Big Data DFCGPrésentation Big Data DFCG
Présentation Big Data DFCG
 
BIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligenceBIG DATA - Les données au service de la business intelligence
BIG DATA - Les données au service de la business intelligence
 
Programme Big Data
Programme Big DataProgramme Big Data
Programme Big Data
 
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIEAtelier 2AM / BIG DATA LAB by Groupe CARTEGIE
Atelier 2AM / BIG DATA LAB by Groupe CARTEGIE
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 

Destacado

Building a Big Data Solution
Building a Big Data SolutionBuilding a Big Data Solution
Building a Big Data SolutionJames Serra
 
Documental Multimedia Redacciones On Line
Documental Multimedia Redacciones On LineDocumental Multimedia Redacciones On Line
Documental Multimedia Redacciones On Linealvaroliuzzi
 
Tutoriel Utilisation Overblog
Tutoriel Utilisation OverblogTutoriel Utilisation Overblog
Tutoriel Utilisation Overblogwebmaster87
 
PresentacióN10
PresentacióN10PresentacióN10
PresentacióN10isologia
 
Entrevista con Leona Andrea
Entrevista con Leona AndreaEntrevista con Leona Andrea
Entrevista con Leona Andreaasso.es
 
Federacion Médica del Perú Y El Soat Médico
Federacion Médica del Perú Y El Soat MédicoFederacion Médica del Perú Y El Soat Médico
Federacion Médica del Perú Y El Soat MédicoDr. Eugenio Vargas
 
Grabado En Piedra
Grabado En PiedraGrabado En Piedra
Grabado En Piedraguest9877b1
 
Comparación metodo montessori
Comparación metodo montessoriComparación metodo montessori
Comparación metodo montessoriEva_del
 
Evento Propiedad Intelectual 17 junio de 2008
Evento Propiedad Intelectual 17 junio de 2008Evento Propiedad Intelectual 17 junio de 2008
Evento Propiedad Intelectual 17 junio de 2008Christian Sifaqui
 
Pictures
PicturesPictures
Picturesalex
 
Milagros de la naturaleza
Milagros de la naturalezaMilagros de la naturaleza
Milagros de la naturalezaDennia
 
Systemique
SystemiqueSystemique
Systemiquebunoc
 
News 20060815123603
News 20060815123603News 20060815123603
News 20060815123603guest2bf2a1
 
Muy Urgente Amistad Verdadera
Muy Urgente Amistad VerdaderaMuy Urgente Amistad Verdadera
Muy Urgente Amistad VerdaderaAdriana Gotsis
 
Luis Enrique- Análisis de Fan Page
Luis Enrique- Análisis de Fan PageLuis Enrique- Análisis de Fan Page
Luis Enrique- Análisis de Fan PageGemaOA7
 

Destacado (20)

Building a Big Data Solution
Building a Big Data SolutionBuilding a Big Data Solution
Building a Big Data Solution
 
Documental Multimedia Redacciones On Line
Documental Multimedia Redacciones On LineDocumental Multimedia Redacciones On Line
Documental Multimedia Redacciones On Line
 
Tutoriel Utilisation Overblog
Tutoriel Utilisation OverblogTutoriel Utilisation Overblog
Tutoriel Utilisation Overblog
 
PresentacióN10
PresentacióN10PresentacióN10
PresentacióN10
 
Entrevista con Leona Andrea
Entrevista con Leona AndreaEntrevista con Leona Andrea
Entrevista con Leona Andrea
 
Federacion Médica del Perú Y El Soat Médico
Federacion Médica del Perú Y El Soat MédicoFederacion Médica del Perú Y El Soat Médico
Federacion Médica del Perú Y El Soat Médico
 
Escala Monica
Escala MonicaEscala Monica
Escala Monica
 
Act3 apcr
Act3 apcrAct3 apcr
Act3 apcr
 
Grabado En Piedra
Grabado En PiedraGrabado En Piedra
Grabado En Piedra
 
Comparación metodo montessori
Comparación metodo montessoriComparación metodo montessori
Comparación metodo montessori
 
Evento Propiedad Intelectual 17 junio de 2008
Evento Propiedad Intelectual 17 junio de 2008Evento Propiedad Intelectual 17 junio de 2008
Evento Propiedad Intelectual 17 junio de 2008
 
Glossaire Du Blogging
Glossaire Du BloggingGlossaire Du Blogging
Glossaire Du Blogging
 
Pictures
PicturesPictures
Pictures
 
actualidad
actualidadactualidad
actualidad
 
Milagros de la naturaleza
Milagros de la naturalezaMilagros de la naturaleza
Milagros de la naturaleza
 
Systemique
SystemiqueSystemique
Systemique
 
News 20060815123603
News 20060815123603News 20060815123603
News 20060815123603
 
Muy Urgente Amistad Verdadera
Muy Urgente Amistad VerdaderaMuy Urgente Amistad Verdadera
Muy Urgente Amistad Verdadera
 
Momentos Dificiles
Momentos DificilesMomentos Dificiles
Momentos Dificiles
 
Luis Enrique- Análisis de Fan Page
Luis Enrique- Análisis de Fan PageLuis Enrique- Análisis de Fan Page
Luis Enrique- Análisis de Fan Page
 

Similar a Big Data, Charles Huot, Aproged,février 2013

Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessVincent de Stoecklin
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Denodo
 
Offre onepoint - Data science et big data
Offre onepoint  - Data science et big data Offre onepoint  - Data science et big data
Offre onepoint - Data science et big data GroupeONEPOINT
 
Big Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseBig Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseGenève Lab
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientDenodo
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Introduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprisesIntroduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprisesMessaoud Hatri
 
Parcours de formations DATA ACADEMY
Parcours de formations DATA ACADEMYParcours de formations DATA ACADEMY
Parcours de formations DATA ACADEMYTechnofutur TIC
 
Offre 3org Conseil sur la gouvernance et la gestion de l'information d'entrep...
Offre 3org Conseil sur la gouvernance et la gestion de l'information d'entrep...Offre 3org Conseil sur la gouvernance et la gestion de l'information d'entrep...
Offre 3org Conseil sur la gouvernance et la gestion de l'information d'entrep...Perrein Jean-Pascal
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data VirtualizationDenodo
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015IBM France Lab
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationDenodo
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big DataYann Gourvennec
 
Francois Paulus Semsoft Big Data & analyse
Francois Paulus Semsoft Big Data & analyseFrancois Paulus Semsoft Big Data & analyse
Francois Paulus Semsoft Big Data & analyseInsurance_Marketing
 

Similar a Big Data, Charles Huot, Aproged,février 2013 (20)

Big data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-businessBig data - Cours d'introduction l Data-business
Big data - Cours d'introduction l Data-business
 
Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?Quel est l'avenir des stratégies de données?
Quel est l'avenir des stratégies de données?
 
Offre onepoint - Data science et big data
Offre onepoint  - Data science et big data Offre onepoint  - Data science et big data
Offre onepoint - Data science et big data
 
Big Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entrepriseBig Data: quelle valeur pour l'entreprise
Big Data: quelle valeur pour l'entreprise
 
La Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance clientLa Logical Data Fabric au secours de la connaissance client
La Logical Data Fabric au secours de la connaissance client
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Introduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprisesIntroduction aux systèmes d’information des entreprises
Introduction aux systèmes d’information des entreprises
 
Parcours de formations DATA ACADEMY
Parcours de formations DATA ACADEMYParcours de formations DATA ACADEMY
Parcours de formations DATA ACADEMY
 
Offre 3org Conseil sur la gouvernance et la gestion de l'information d'entrep...
Offre 3org Conseil sur la gouvernance et la gestion de l'information d'entrep...Offre 3org Conseil sur la gouvernance et la gestion de l'information d'entrep...
Offre 3org Conseil sur la gouvernance et la gestion de l'information d'entrep...
 
Session découverte de la Data Virtualization
Session découverte de la Data VirtualizationSession découverte de la Data Virtualization
Session découverte de la Data Virtualization
 
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015Bluemix Paris Meetup :  Big data et Analytics - 15 avril 2015
Bluemix Paris Meetup : Big data et Analytics - 15 avril 2015
 
Big Data - Quel usage au sein des projets internet
Big Data - Quel usage au sein des projets internetBig Data - Quel usage au sein des projets internet
Big Data - Quel usage au sein des projets internet
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
 
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data VirtualizationRéinventez votre stratégie de données en 2021 avec la Data Virtualization
Réinventez votre stratégie de données en 2021 avec la Data Virtualization
 
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'AssuranceArrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
Arrow Group: Techday Big Data - Etat et Enjeu pour l'Assurance
 
[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data[Fr] Information builders - MDM et Big Data
[Fr] Information builders - MDM et Big Data
 
Big data
Big dataBig data
Big data
 
Francois Paulus Semsoft Big Data & analyse
Francois Paulus Semsoft Big Data & analyseFrancois Paulus Semsoft Big Data & analyse
Francois Paulus Semsoft Big Data & analyse
 
Introduction au Big data
Introduction au Big data Introduction au Big data
Introduction au Big data
 
BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node BigData BigBuzz @ Le Node
BigData BigBuzz @ Le Node
 

Más de ADBS

Usage mobile de l'information. "5 à 7 ADBS", 4 décembre 2012
Usage mobile de l'information. "5 à 7 ADBS", 4 décembre 2012Usage mobile de l'information. "5 à 7 ADBS", 4 décembre 2012
Usage mobile de l'information. "5 à 7 ADBS", 4 décembre 2012ADBS
 
“Open Data” & “Big Data” présentation de Romain Lacombe, mission Etalab, févr...
“Open Data” & “Big Data” présentation de Romain Lacombe, mission Etalab, févr...“Open Data” & “Big Data” présentation de Romain Lacombe, mission Etalab, févr...
“Open Data” & “Big Data” présentation de Romain Lacombe, mission Etalab, févr...ADBS
 
Open data territorial benjamin jean vf
Open data territorial   benjamin jean vfOpen data territorial   benjamin jean vf
Open data territorial benjamin jean vfADBS
 
20121006 open data-adbs-charles népote
20121006   open data-adbs-charles népote20121006   open data-adbs-charles népote
20121006 open data-adbs-charles népoteADBS
 
Archivage du web quelle mise en oeuvre 5à7_sep2012
Archivage du web   quelle mise en oeuvre 5à7_sep2012Archivage du web   quelle mise en oeuvre 5à7_sep2012
Archivage du web quelle mise en oeuvre 5à7_sep2012ADBS
 
Archiva duweb
Archiva duwebArchiva duweb
Archiva duwebADBS
 
120313 curation5 7_adb_sb
120313 curation5 7_adb_sb120313 curation5 7_adb_sb
120313 curation5 7_adb_sbADBS
 
Vous avez dit "curation" ? 5 à 7 ADBS, 13 mars 2012
Vous avez dit "curation" ? 5 à 7 ADBS, 13 mars 2012Vous avez dit "curation" ? 5 à 7 ADBS, 13 mars 2012
Vous avez dit "curation" ? 5 à 7 ADBS, 13 mars 2012ADBS
 
Medline 2.0 : les alternatives à PubMed
Medline 2.0 : les alternatives à PubMedMedline 2.0 : les alternatives à PubMed
Medline 2.0 : les alternatives à PubMedADBS
 
Innovation 2.0 : solution Seek & Share pour le documentaliste embarqué dans l...
Innovation 2.0 : solution Seek & Share pour le documentaliste embarqué dans l...Innovation 2.0 : solution Seek & Share pour le documentaliste embarqué dans l...
Innovation 2.0 : solution Seek & Share pour le documentaliste embarqué dans l...ADBS
 
Internet Santé, quel intérêt pour le patient ?
Internet Santé, quel intérêt pour le patient ?Internet Santé, quel intérêt pour le patient ?
Internet Santé, quel intérêt pour le patient ?ADBS
 
Introduction aux médias sociaux pour la santé
Introduction aux médias sociaux pour la santéIntroduction aux médias sociaux pour la santé
Introduction aux médias sociaux pour la santéADBS
 
Enquete MIS
Enquete MISEnquete MIS
Enquete MISADBS
 
Atelier adbs 27 mars 2012 présentation pmb
Atelier adbs 27 mars 2012   présentation pmbAtelier adbs 27 mars 2012   présentation pmb
Atelier adbs 27 mars 2012 présentation pmbADBS
 
"Recherche d’informations & veille en PME industrielle" Jacques Loigerot
"Recherche d’informations & veille en PME industrielle" Jacques Loigerot"Recherche d’informations & veille en PME industrielle" Jacques Loigerot
"Recherche d’informations & veille en PME industrielle" Jacques LoigerotADBS
 
"Méthode et outils de veille e-réputation" Marie Paniez, AltnetPlanet
"Méthode et outils de veille e-réputation" Marie Paniez, AltnetPlanet"Méthode et outils de veille e-réputation" Marie Paniez, AltnetPlanet
"Méthode et outils de veille e-réputation" Marie Paniez, AltnetPlanetADBS
 
Magali Guibert de Eric Salmon & Partners
Magali Guibert de Eric Salmon & PartnersMagali Guibert de Eric Salmon & Partners
Magali Guibert de Eric Salmon & PartnersADBS
 
Asuncion valderrama unesco
Asuncion valderrama unescoAsuncion valderrama unesco
Asuncion valderrama unescoADBS
 
Solutions de gestion de l’information en Saas et cloud. (2) Quel cloud pour l...
Solutions de gestion de l’information en Saas et cloud. (2) Quel cloud pour l...Solutions de gestion de l’information en Saas et cloud. (2) Quel cloud pour l...
Solutions de gestion de l’information en Saas et cloud. (2) Quel cloud pour l...ADBS
 
Evolutions des compétences des professionnels de l'information
Evolutions des compétences des professionnels de l'informationEvolutions des compétences des professionnels de l'information
Evolutions des compétences des professionnels de l'informationADBS
 

Más de ADBS (20)

Usage mobile de l'information. "5 à 7 ADBS", 4 décembre 2012
Usage mobile de l'information. "5 à 7 ADBS", 4 décembre 2012Usage mobile de l'information. "5 à 7 ADBS", 4 décembre 2012
Usage mobile de l'information. "5 à 7 ADBS", 4 décembre 2012
 
“Open Data” & “Big Data” présentation de Romain Lacombe, mission Etalab, févr...
“Open Data” & “Big Data” présentation de Romain Lacombe, mission Etalab, févr...“Open Data” & “Big Data” présentation de Romain Lacombe, mission Etalab, févr...
“Open Data” & “Big Data” présentation de Romain Lacombe, mission Etalab, févr...
 
Open data territorial benjamin jean vf
Open data territorial   benjamin jean vfOpen data territorial   benjamin jean vf
Open data territorial benjamin jean vf
 
20121006 open data-adbs-charles népote
20121006   open data-adbs-charles népote20121006   open data-adbs-charles népote
20121006 open data-adbs-charles népote
 
Archivage du web quelle mise en oeuvre 5à7_sep2012
Archivage du web   quelle mise en oeuvre 5à7_sep2012Archivage du web   quelle mise en oeuvre 5à7_sep2012
Archivage du web quelle mise en oeuvre 5à7_sep2012
 
Archiva duweb
Archiva duwebArchiva duweb
Archiva duweb
 
120313 curation5 7_adb_sb
120313 curation5 7_adb_sb120313 curation5 7_adb_sb
120313 curation5 7_adb_sb
 
Vous avez dit "curation" ? 5 à 7 ADBS, 13 mars 2012
Vous avez dit "curation" ? 5 à 7 ADBS, 13 mars 2012Vous avez dit "curation" ? 5 à 7 ADBS, 13 mars 2012
Vous avez dit "curation" ? 5 à 7 ADBS, 13 mars 2012
 
Medline 2.0 : les alternatives à PubMed
Medline 2.0 : les alternatives à PubMedMedline 2.0 : les alternatives à PubMed
Medline 2.0 : les alternatives à PubMed
 
Innovation 2.0 : solution Seek & Share pour le documentaliste embarqué dans l...
Innovation 2.0 : solution Seek & Share pour le documentaliste embarqué dans l...Innovation 2.0 : solution Seek & Share pour le documentaliste embarqué dans l...
Innovation 2.0 : solution Seek & Share pour le documentaliste embarqué dans l...
 
Internet Santé, quel intérêt pour le patient ?
Internet Santé, quel intérêt pour le patient ?Internet Santé, quel intérêt pour le patient ?
Internet Santé, quel intérêt pour le patient ?
 
Introduction aux médias sociaux pour la santé
Introduction aux médias sociaux pour la santéIntroduction aux médias sociaux pour la santé
Introduction aux médias sociaux pour la santé
 
Enquete MIS
Enquete MISEnquete MIS
Enquete MIS
 
Atelier adbs 27 mars 2012 présentation pmb
Atelier adbs 27 mars 2012   présentation pmbAtelier adbs 27 mars 2012   présentation pmb
Atelier adbs 27 mars 2012 présentation pmb
 
"Recherche d’informations & veille en PME industrielle" Jacques Loigerot
"Recherche d’informations & veille en PME industrielle" Jacques Loigerot"Recherche d’informations & veille en PME industrielle" Jacques Loigerot
"Recherche d’informations & veille en PME industrielle" Jacques Loigerot
 
"Méthode et outils de veille e-réputation" Marie Paniez, AltnetPlanet
"Méthode et outils de veille e-réputation" Marie Paniez, AltnetPlanet"Méthode et outils de veille e-réputation" Marie Paniez, AltnetPlanet
"Méthode et outils de veille e-réputation" Marie Paniez, AltnetPlanet
 
Magali Guibert de Eric Salmon & Partners
Magali Guibert de Eric Salmon & PartnersMagali Guibert de Eric Salmon & Partners
Magali Guibert de Eric Salmon & Partners
 
Asuncion valderrama unesco
Asuncion valderrama unescoAsuncion valderrama unesco
Asuncion valderrama unesco
 
Solutions de gestion de l’information en Saas et cloud. (2) Quel cloud pour l...
Solutions de gestion de l’information en Saas et cloud. (2) Quel cloud pour l...Solutions de gestion de l’information en Saas et cloud. (2) Quel cloud pour l...
Solutions de gestion de l’information en Saas et cloud. (2) Quel cloud pour l...
 
Evolutions des compétences des professionnels de l'information
Evolutions des compétences des professionnels de l'informationEvolutions des compétences des professionnels de l'information
Evolutions des compétences des professionnels de l'information
 

Big Data, Charles Huot, Aproged,février 2013

  • 2. Qui est l’Aproged ? • Association professionnelle créée en 1993 • Une centaine d’adhérents représentant les professionnels de la valorisation des contenus numériques (indexation, linguistique, moteurs de recherche, sémantique, dématérialisation, gestion de contenu et de document, archivage, capture, éditique, workflow… ). • Au cœur de la réflexion sur la gestion et l’optimisation des contenus et des documents numériques • Rôle déterminant en matière d’information et d’études, de formation et de normalisation. • Fondateur du Forum des Acteurs du Numérique devenu en 2012 le Congrès national de la Valorisation des Contenus numériques
  • 3. Livres blancs Aproged V1 en janv 2012 V2 en oct 2012
  • 4. Livres blancs Aproged Document et Cloud Juin 2012
  • 5. Livres blancs Aproged Content Analytics Janvier 2013
  • 6. Livres blancs Aproged E-réputation et B2B Février 2013
  • 7. Références Big Data • Big data, exploiter de grands volumes de données : quels sont les enjeux pour les acteurs du marché de l’information et de la connaissance ? (3 juillet 2012) Compte rendu Vivien Mann bientôt en ligne, • Jean DELAHOUSSE (Jean DELAHOUSSE Conseil) « Introduction au Big Data » • Gabriel KEPEKLIAN & Grégoire WIBAUX (ATOS) « Quels modèles économique pour le Big Data » • Daniel TERRUGI (INA) « Big Data, exploiter de grands volumes de donnée » • Mark ASCH (INSMI-CNRS) « L’exploitation des données scientifiques »
  • 8. IDC: « Worldwide Big Data Taxonomy, 2011 »
  • 9. Cap Gemini: « The Deciding Factor: Big Data & Decison Making »
  • 10. McKinsey Global Institute: « Big data: The next Frontier for innovation, competition, and productivity
  • 11. « Nation’s most pressing challenges »
  • 13. Agenda de la formation APROGED • Qu’est ce que le Big Data ? Exemples avec les données des réseaux sociaux (Facebook, Twitter …), l’Internet des objets (données des compteurs etc. …), l’Open Data, les données de géolocalisation etc. … • Technologies et métriques du Big Data – ce qu’on peut obtenir du Big Data - les technologies de stockage – les méthodes d’analyse de l’information – les techniques de visualisation – les techniques de restitution – • Les modèles économiques du Big Data, les acteurs - le rôle de l’Etat en France, en Europe, aux Etats-Unis – les projets soutenus par l’Etat français en 2013 après appel à projets – la valeur ajoutée apportée par le traitement – la valeur ajoutée apportée par le service – le modèle publicitaire • Aspects juridiques du projet – la propriété intellectuelle – le savoir- faire – Informatique et libertés (Cnil) – la Charte Ethique du Big Data de l’Aproged – Les contrats et les bonnes clauses
  • 14. Big Data et ADBS • l’état de l’art technologique (de quoi on parle ?) • aux Enjeux : – (r)évolution des traitements informatiques – Principaux champs d’application – Enjeux en terme de gisement d’activité et d’emplois potentiels.
  • 15.
  • 16. Désigne les masses de données auxquelles sont confrontés les acteurs du secteur privé comme du secteur public et qu’ils veulent/peuvent exploiter pour générer des nouveaux business et/ou être plus efficaces. Le Big Data : lieu d’innovation
  • 17. Beaucoup plus de données Vraiment beaucoup plus
  • 18.
  • 19. Des puces RFID pour tracer les vaches
  • 20. Des capteurs sur les réacteurs d’avion
  • 21. Des capteurs pour suivre la circulation
  • 25. Jouer, acheter, communiquer et laisser des traces numériques
  • 26. Parler de soi et des autres
  • 27. Les ordres de grandeur • Le volume de Big Data croît de 60% chaque année • La valeur des données a dépassé celle du hardware 2015 20 Zetta (1021) 2030 1 Yotta (1024)
  • 28. Big Data Projet technique
  • 30. Traitement de logs Applications verticales Business intelligence Analyse et visualisation Analyse d’infrastructure Infra. opérationnelle Infra. as a Service Structuration Fournisseurs de données Technologies Petit aperçu du paysage
  • 31. Data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data Compute Cluster DFS Block 1 DFS Block 1 DFS Block 1 DFS Block 2 DFS Block 2 DFS Block 2 DFS Block 3 DFS Block 3 Map Map Map Results data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data data Reduce Overview Image courtesy of the Apache Software Foundation
  • 32. Stockage Traitement La librairie Apache Hadoop permet de traiter de larges ensembles de données de manière distribuée au travers de grappes d’ordinateurs en utilisant un modèle de programmation simple Hadoop Distributed File System
  • 33. Gestion de fichiers Hadoop Distributed File System HDFS Map Reduce Hadoop MapReduce Traitement graphes… Giraph Langages Pig, Hive, Crunch, Sqoop ComposantsCoordination ...Zookeeper SGBDNoSql Hbase
  • 34. DataViz et BigData des résultats visualisables, compréhensibles, interprétables
  • 35.
  • 37.
  • 39.
  • 41. Une surabondance d’application à gérer! Number&complexityof technologies/datasources Time Frame eCommerce Smarter Planet eDiscovery Decision support Alerting Watson Predictions Historic Relationship Detection Pattern Detection Find influencers Brand management Climate Modeling And Prediction Investment Trend Detection Reputation management Voice of Customer Gov’t Intelligence Apps Log Analysis Future(Predict) Ad targeting Churn detection Find drug interactions Fraud Detection Source: IDC, Big Data and the information advantage Sue Feldman Sentiment extraction
  • 42. L’offre, la proposition de valeur • Les applications de traitement des logs – IP-Label (la qualité perçue), Wallix, Splunk, Loggly, SumoLogic, … • Les applications verticales – BloomReach (big data marketing), … • Business intelligence – Oracle, SAP, BO, Cognos, SAS, GoodData, … • Analyse et visualisation – Pikko, GreenPlum, Palantir, Visual.ly, … • Fournisseurs de données – GNIP, INRIX, DataSift • Analyse d’infrastructure – Hortonworks, Cloudera, MapR,… • Infrastructure opérationnelle – CouchBase, Teradata, 10gen, … • Infrastructure as a Service – Amazon web services, Infochimps, WindowsAzure, … • Bases de données structurées – Oracle, MySQL, SQLServer, … • Technologies – Hadoop, HiBase, Cassandra, …
  • 43. Les segments de clientèle visés
  • 44. Les segments de clientèle visés • Santé – Chaque hôpital : 150 TB  650 TB en 2015 (imagerie médicale, données) • Service client – Il y a 4 ans 59% des clients quittaient leurs fournisseurs s’ils avaient une mauvaise prestation, aujourd’hui on est passé à 86% • Assurances, administrations – Elles font face à des fraudes en quantité croissante • Services financiers – L’information financière : par ex. le Dow Jones = 19.000 news par jour • Grandes distributions – Les ventes ratées pour défaut en stock représentent 170 M$ aux USA – L’analyse des tickets de caisse • Télécommunication – 5 milliards d’abonnés au portable qui attendent des services personnalisés • Ministères – La population de chaque pays, … • Bibliothèques – La pérennisation des fonds, des archives, … • Etc.
  • 47. R O I Du ROI au ROD Machines / Réseaux / Software BIG DATA Volumes Efficacité Return On Investment R Return On Data O D
  • 48. DÉFINITION : BUSINESS MODEL Selon une définition actuelle qui fait consensus, il s’agit d’un « outil » qui décrit la façon de créer, délivrer et capturer de la valeur pour un acteur économique ou un écosystème économique.
  • 49. Les segments de clientèle Les parte- naires clefs La structure de coûts Les flux de revenus Les canaux de distribution Les relations avec le client Les activités clefs Les ressources clefs Les propositions de valeur
  • 50. L’offre Les canaux de distribution Les relations avec le client Les segments de clientèle Les flux de revenusLa structure de coûts Les activités clefs Le réseau de partenaires Les ressources clefs La matrice du Business Model Collecter Traiter des log Appli verticales Analyser Visualiser Interpréter Structurer Stocker Administration Média Industrie Banque Santé Distribution … Self-service Formation Support Débit Performance Espace Conseil Calcul Stockage B2B A2B Hébergeur Datacenter HPC Constructeur Opérateur Cloud Maintenance de la plateforme Abonnement Développement Exploitation Valorisation des données Ventes / reventes Lot / transaction PI, Licences, loyers
  • 51. • Gratuité et applications et services spécialisés • Gratuité et publicités • Abonnement à des API • Abonnement à d’autres fonctions • Vente de data de qualité (premium) Des business model classiques web Source : datamarket.com
  • 53. Une variété de talents Source: McKinsey Global Institute: Big Data: The next frontier for innovation, competition and productivity (June 2011)
  • 54. Une variété de talents • Spécialistes en source de données – Sources ouvertes – Sources payantes – Sources internes • Terminologues – Gestionnaire de terminologie, lexiques métiers, des ontologies – Expertise métier – Web Semantique • Documentalistes et experts en Système d’information documentaire – Gestion électronique des documents – Moteurs de recherche – Text Mining – Visualisation de données – Reporting
  • 55. BigData & Science Masses de Données Scientifiques: Enjeux et Perspectives
  • 56. Les données : une matière première et des produits à forte valeur ajoutée • Commerce et les affaires – SI d’entreprise, transactions commerciales, systèmes de réservation, … • Loisirs – Musique, vidéo, jeux, réseaux sociaux… • Sciences – Astronomie, physique et énergie, génome, … • Médecine – Dossier médical, sécurité sociale, imagérie • Environnement – Climat, dév durable, pollution, alimentation,… • Humanités et Sciences Sociales – Numérisation du savoir (littérature, histoire,…), interactions dans les réseaux sociaux, données archéologiques… BD et fichiers d’entreprises Données WEB et Réseaux Sociaux Données de Capteurs Données d’expériences scientifiques
  • 57. Une petite idée des volumes de données !"#$%&' ($) ' ("* Volume Exemple 1 gigabyte: 109 Information known in the human genome 1 terabyte:1012 Annual world literature production 1 petabyte: 1015 All US academic research libraries 1 exabyte: 1018 Two thirds of annual world production of information Source: http://www.jisc.ac.uk/publications/briefingpapers/2004/pub_datadeluge.aspx
  • 58. Caractéristiques • Des recherches principalement tirées par – Des applications industrielles – L’émergence de nouvelles technologies – L’émergence de nouveaux usages • Une recherche dominée (ou presque) par des labos industriels – Nombreuses « success stories » – Des laboratoires industriels de pointe • IBM, Oracle, Microsoft, Sun, AT&T, Bell Labs, Google, Yahoo! – Une grande perméabilité entre monde académique et monde industriel (en particulier aux US, moins en Europe)
  • 59. Les grands verrous dans la gestion des masses de données 1. La virtualisation du stockage et de l’accès (Cloud). 2. L’intégration de données. 3. La gestion d’événements et de flots de données. 4. L’analyse complexe à grande échelle. 5. La qualité et protection des données. 6. La visualisation/navigation des masses de données. 7. La préservation des données.
  • 60. Défi 1 : Stockage à grande échelle (Cloud) • Bénéfices du Cloud – Pas d’infrastructure à acquérir ni à gérer • « Pay as you go » – Stockage massif de données (à moindre coût) • Coûts de stockage et d’utilisation réduits – Accès anytime – anywhere via Internet • Ex: iCloud (Apple) – Qualité de service • Disponibilité, sécurité – Elasticité • absorbe facilement les charges lourdes ou soudaines • Challenges du Cloud – Indexation intelligente (sémantique) – Sécurité et Confidentialité (privacy) – Calcul haute performance (//) – Cohérence et qualité des données D C Time R D C R
  • 61. Défi 2 : Analyse complexe à grande échelle • Analyse en temps réel de flots continus de données émanant de différentes sources – Ex: Découvrir et comprendre les patterns caractéristiques du comportement des clients/utilisateurs • Réaction en temps réel à des événements d’alerte – Ex: attaques sur le réseau • Requêtes multidimensionnelles sur des grands ensembles de données – Découvrir et comprendre des patterns en analysant le comportement d’une population – Découvrir des corrélations entre phénomènes Divy Agrawal et al , VLDB Tutorial’2010
  • 62. Défi 3 : la gestion de flots d’événements • Capture d’événements – Politique de détection et de composition (requêtes sur les évnts) – Introduction d’incertitude sur l’arrivée des événements et sur le contenu de leurs messages – Détection / simulation d’événements rares • Réaction aux événements – Politique de déclenchement, consommation, exécution (optimisation) – Couplage transactionnel – Analyse : confluence, terminaison • Bufferisation – Taille des fenêtres temporelles – Stratégies de glissement • Historisation – Stockage massif – Indexation – Analyse complexe (analyse de séquences, motifs fréquents,…) Cible : intelligence ambiante, réseaux sociaux, surveillance temps réel, robotique, bioinformatique .
  • 63. Défi 4 : La visualisation des masses de données • Besoins – Navigation intuitive/contextuelle • desktop intelligent, réseaux sociaux, contenus MM – Visualisation de phénomènes non perceptibles • Génome, trou noir – Analyse visuelle • Découverte de connaissances • Challenges – Invention de nouvelles métaphores graphiques – Algorithmes de graphes performants (//) • Optimisation de la visulaisation de grands graphes – Clusterisation et stats de graphes – Adaptation aux terminaux /équipements
  • 64. Défi 5 : La préservation des données • Comment préserver les données à durée de vie illimité? – connaissances scientifiques – produits culturelles – connaissances archéologiques et environnementales – connaissances sociales (recensements) • Comment préserver les données à durée de vie longue mais limitée – patrimoine informationnel des entreprises – Données personnelles (stockées dans les disques privés ou publiés sur le Web) – Données publiques (fichiers sécu, police, …) • Quel coût pour la préservation des données – Coût de conversion des données (formats) – Coût pour la migration des technologies – Coût de maintien des technologies de niche • Quelle stratégie pour les données gérées dans le Cloud ? Accroissement de l’hétérogénéité des MDD Plus grandes difficultés pour leur intégration et leur exploitation