4. LES MEGADONNEES RÉPONDENT À DE NOUVEAUX
BESOINS
Big Data
Self-Service BI
BI institutionnelle
Données structurées d’entreprise
CRM SCM
Données locales
Système de
fichierstextes
ERP Base de
données
Données non structurées d’entreprise et externes
Image, VidéoGestion de
contenu, Logs
Réseaux sociaux
DataWarehouse Datamart Cubes
Reporting
ETL Data Cleansing
Couche sémantique
Data Gathering
Business Discovery Data Visualisation
Approche Agile
Mining
Data Interact
Massive Processing
Parallel
Flux des clics
utilisateursen
temps réel
Données GPS et
spatiales
Sentiment Analysis
Social Interaction Open Data
Analyse du Web
Mobile
Voix en Texte
Indexation
Texte MiningGestion des Logs
Analyse des RFID /
Capteurs
6. DMT
DWH
ODS
6
Données Structurées ou Semi-structurées d’entreprise
Logs fixe
Base de
donnée
Base de
donnéesLogs mobile
Base de
données
BI Audience BI Mobile BI Commercial BI Données
Quelques limitations de la
BI actuelle:
1. BI globalement en silo
=> ce qui ne constitue
pas de la vraie BI
2. Socle de données sur
Netezza avec risque de
saturation avérée
3. Aucune possibilité
d’incorporer des
données non
structurées (type blog,
réseaux sociaux …)
4. BI en mode batch
BI - ARCHITECTURE 2013 ET 2014
7. Parc applicatif BI en transformation
en 2014 et cible 2015 : activons le
Big Data !
7Date •Titre de la présentation
8. Data Mart Fonctionnel
8
Open Data Group
(Données brutes et Open Datamart)
Données Structurées ou Semi-structurées d’entreprise
Logs fixe Commerc
iale
FinanceLogs mobile
Données non structurées
Image, VidéoPortail / IntranetSocial NetworkRH MPG CRM
Data Visualisation
VISION CIBLE ARCHITECTURE DE LA BI
11. 11
OUR CONVICTION: OPENSOURCE WOULD SOLVE
MOST OF BI PAINS
The Enterprise Data Hub of Cloudera would be
the « Extended DataWarehouse »
The NoSql « Column Database » is the simple way to give access to the
end user and ensure good performance
The end of the Batch, and the welcome of the Streaming
and real time data
Performance ETL for the data transformation on top of
Hadoop
New Data Visualization / Data Story Telling, which is very
quick to install/deploy, and simple to use
12. LE PARTAGE DE CONNAISSANCES EST CLEF!
12
Le mangement de la donnée est essentiel dans toute
pratique Big Data et tout projet. Nous avons lancé dans le
cadre de l’association 3 groupes de travail:
• Big Data
• Data Science
• Data Gouvernance
D’autres ateliers suivront, des événements, de la littérature
… donc abonnez-vous et n’attendez plus!
http://www.dama-france.org/
14. LE NOSQL, POURQUOI?
14
1970
~2009
Système transactionnel:
Écritures concurrentes,
Performance accès concurrents
Standardisation …
Systèmes de fichiers Base de données - RDBMS
Base de données - RDBMS
Big Data:
Volumétrie (téra/péta octet)
Performance
Données non structurées
15. NOSQL – NOT ONLY SQL
DIFFÉRENTS TYPES:
• BASES ORIENTÉES CLÉ / VALEUR
• BASES ORIENTÉES COLONNES
• BASES ORIENTÉES GRAPHES
• BASES ORIENTÉES DOCUMENTS
15
Data Model Performance Scalability Flexibility Complexity Functionality
Key–Value Store high high high none variable (none)
Column-Oriented
Store
high high moderate low minimal
Document-
Oriented Store
high
variable
(high)
high low variable (low)
Graph Database variable variable high high graph theory
Relational
Database
variable variable low moderate
relational
algebra
Ben Scofield a évalué les différents types de NoSQL:
16. NOSQL – FOCUS SUR IMPALA ET
L’ORIENTÉE COLONNE
16
RowId Matricule Nom Prénom DateEntrée Fonction Salaire
1 53427Dupont Eric 01/01/2000 Ingénieur 30000
2 89765Martin Jean 15/03/2007 Contrôleur 65000
3 109755LeMaitre Gaston 13/12/2003 Architecte 45000
4 76598Dupont Gaston 01/01/2000 Contrôleur 50000
5 9090432Prince Charles 01/01/2010 Ingénieur 55000
Nom
Dupont 1;4
Martin 2
LeMaitre 3
Prince 5
Prenom
Eric 1
Jean 2
Gaston 3;4
Charles 5
Sur Impala, le mode Parquet enregistre cela en binaire et de façon compressée, ce
qui accélère les analyses OLAP – agrégations, filtres …
17. CONSEIL: COMMENT ACTIVER LES PROJETS ET
COMMENT REMÉDIER À L’IMMOBILISME?
Avec votre bâton de pèlerin:
• expliquez
• démystifiez
• donnez du sens
• fédérez!
Trouvez le sponsor dans l’entreprise, qui vous
• soutiendra
• appuiera
• mettra en lumière
Lancez-vous! Nous avons toute la maturité
technologique pour enfin réaliser tous nos
désirs en termes de data! Épanouissez-
vous!
17