2. 2
Agenda
1. Voyage au pays du Big Data
L’initiative Big Data Chez Cdiscount
2. Et pourquoi pas muscler la plateforme BI Legacy ?
V+V+V = CPU+RAM+IO ?
3. Choisir sa distribution Hadoop !
Comment le choix MAPR s’est imposé
4. Et si c’était à refaire ?
REX après 1 an en opérations
3. 3
Du POC à la réalité
PROJET STAFFING (DSI) INFRA
PHASE 1
POC
PHASE 2
Adoption de la technologie
PHASE 3
Passage à l’échelle
Q1 2013 Q2 2013 Q3 2013 Q4 2013 Q1 2014 Q2 2014
Plateforme MAPR (M3)
Plateforme HD-INSIGHT
Plateforme MAPR (M3)
3 puis 4 et enfin 6
Noeuds MAPR (M3)
Plateforme MAPR (M3)
Plateforme MAPR (M5)
3 Personnes Dédiées
Accompagnement par
Dataiku
10 personnes pour assurer les développements
3 Personnes pour l’administration de la plateforme
Accompagnement continu (Dataiku, Ysance et MAPR)
2 projets déployés
(1 par POC)
Déploiement progressif d’une quinzaine de projets, concernant le
marketing, la régie pub, les achats, la logistique, … et bien sûr le
site avec de la personnalisation
4. 4
Focus Architecture
Technologies mises en oeuvre
Log Files
BizData
(customers, orders, products, offers, …)
Website
Personalization
Data Sharing
(partners)
Logistic
Analytics
Reporting &
Data Sharing
(customers)
BI
5. 5
Agenda
1. Voyage au pays du Big Data
L’initiative Big Data Chez Cdiscount
2. Et pourquoi pas muscler la plateforme BI Legacy ?
V+V+V = CPU+RAM+IO ?
3. Choisir sa distribution Hadoop !
Comment le choix MAPR s’est imposé
4. Et si c’était à refaire ?
REX après 1 an en opérations
6. 6
Le premier V : Volume
Impact de l’augmentation des volumes
HW
HW
HW
L’augmentation exponentielle du TCO limite
la capacité des systèmes traditionnels à gérer
de gros volumes de données
7. 7
Le second V : Velocity
Nécessité d’accélérer la mise à disposition des analyses
HW
SW
HW
HW
L’augmentation exponentielle du TCO limite
la capacité des systèmes traditionnels à gérer
des performances accrue (Scale-Up only)
8. 8
Le troisième V : Variety
Opportunité de traiter des sources de données hétérogènes
HW
SW
HW
HW
HW
L’augmentation exponentielle du TCO limite
la capacité des systèmes traditionnels à gérer
des données non structurées
9. 9
Le choix d’Hadoop
Volume, Velocity, Variety
– Les systèmes traditionnels peuvent jusqu’à un certain point répondre à ces enjeux
– Nous avons travaillé cette voie avec des accélérateurs d’infrastructure sur du décisionnel
classique pour donner le temps à l’initiative BigData d’émerger tout en continuant de
répondre aux enjeux métier court terme
Le choix d’Hadoop
– Plusieurs éditeurs ont mis sur le marché des solutions de BI en scale-out (Parralel DWH
chez Microsoft par exemple), faisant passer le TCO d’un modèle exponentiel vers un
modèle linéaire …
– … Mais seules les solutions construites sur le Framework Hadoop associées à du
« Commodity Hardware » permettent de rendre le TCO asymptotique.
De nouveaux horizons
– La rupture technologique apportée par ce genre de solutions permet aux DSI d’ouvrir de
nouveaux horizons à l’ensemble de nos business line (et pas seulement aux data-scientist
des équipes marketing)
10. 10
Agenda
1. Voyage au pays du Big Data
L’initiative Big Data Chez Cdiscount
2. Et pourquoi pas muscler la plateforme BI Legacy ?
V+V+V = CPU+RAM+IO ?
3. Choisir sa distribution Hadoop !
Comment le choix MAPR s’est imposé
4. Et si c’était à refaire ?
REX après 1 an en opérations
11. 11
Hadoop : Les trois alternatives
Construire sa propre « distribution » sur la base du Framework
– L’ensemble des composants du projet Apache Hadoop sont open-source
– Construire sa propre distribution permet de disposer des dernières fonctionnalités
publiées par la communauté
– Nécessite d’avoir des équipes rompues à l’intégration de softwares open-source
Choisir une des trois distributions majeures
– Trois distribution se partagent le marché (MAPR, Cloudera et HortonWorks)
– Ces distributions garantissent pour une version donnée l’intégration de l’ensemble des
composants du framework Hadoop (MapReduce, Zookeeper, Hbase, Hive, Pig, …)
– Ces trois distribution contribuent de manière importante au projet Apache Hadoop
– Ces trois distributions sont à l’origine de nombreuses améliorations du Framework
Choisir une solution intégrée (Package)
– Ces solutions se basent souvent sur une des trois distributions précédentes
– Elles apportent une intégration avancée avec l’infrastructure
– En mode Cloud : HD-Insight, Elastic Map Reduce
– En mode OnPremise : Pivotal, IBM InfoSphere BigInsights, Oracle, Microsoft, SAP
12. 12
Hadoop : Les critères de choix
Notre Enjeu Majeur
– Haute-disponibilité et performance des systèmes : par construction, HDFS, bien que
permettant de faire du scale-out, a un gros point faible (le name-node)
Les problématiques nouvelles
– Backup et PRA : Le volume de données conséquent ne permet pas d’aborder la
sécurisation des données avec les méthodes traditionnelles
– Administration des systèmes : au démarrage de l’initiative BigData, 95% des systèmes
(un millier d’instances de serveurs) exploités étaient des systèmes windows. Les équipes
Cdiscount ne sont donc pas rompues à l’administration des systèmes linux et encore
moins avec des systèmes de fichier non-POSIX (comme HDFS)
13. 13
Hadoop : notre choix
MAPRFS
– Dépasse les contraintes de contention et de haute disponibilité du name-node d’HDFS
– Système de fichier Full POSIX simplifiant l’administration des systèmes (commandes
linux usuelles)
– Accessibilité du filesystem en NFS (simplification des taches de maintenance sur les
données : migration, copie d’archive, …)
Haute Disponibilité
– Réplication native sur un second cluster (OnPremise ou dans le Cloud)
– Gestion de bascule du service sur le réplicat
– Capacité à faire des snapshots pour du fast-recovery
… Mais aussi
– Une intégration propre avec l’ETL Talend
– Un dashboard de métrologie et supervision permettant aux développeurs d’avoir un bon
niveau d’information sur l’état du cluster
– Une roadmap produit mettant en avant des enjeux qui nous parlent (Haute-dispo,
performance et temps-réel)
14. 14
Agenda
1. Voyage au pays du Big Data
L’initiative Big Data Chez Cdiscount
2. Et pourquoi pas muscler la plateforme BI Legacy ?
V+V+V = CPU+RAM+IO ?
3. Choisir sa distribution Hadoop !
Comment le choix MAPR s’est imposé
4. Et si c’était à refaire ?
REX après 1 an en opérations
15. 15
L’initiative BigData après un an
Les plus
– Le ROI de la plateforme est supérieur aux attentes
– Le déploiement de nouveaux périmètres a été plus rapide que prévu
– La capacité de manipuler les données via NFS est un vrai plus pour les opérations de
maintenance (migration, recopie d’environnement, …)
– La plateforme dispose d’un PRA (ce qui n’est pas le cas de notre plateforme
décisionnelle traditionnelle)
Les Moins
– Le rapatriement de la plateforme OnPremise aurait du être accéléré en regard de
l’accélération des déploiements de projets business
– Malgré le choix d’une distribution réputée facile à administrer, le manque de maitrise
technique de nos équipes (environnements linux) rend la gestion d’incident
relativement complexe
16. 16
Les prochaines étapes
– Temps Réel
– Se donner la capacité à personnaliser la navigation sur des échelles de temps réduite (au sein
même d’une session de navigation)
– Se donner la capacité de mesurer l’efficacité de nos mises en avant produit sur des échelles de
temps réduites (à l’heure près vs J+1 aujourd’hui)
– Evaluation de Shark & Spark
– Calculs complexes & Machine Learning
– Affiner le matching entre nos segments clients et produits pour améliorer la performance des
recommandations produits
– Mécaniques d’élasticité des prix (en fonction des ventes, du stock, de la concurrence, …)
– Gestion des risques et détection de la fraude
– Mécaniques de prévision à destination de la logistique et de nos vendeurs Marketplace
– Industrialisation du produit « Dataplatform by Cdiscount »
– Accompagner l’internationalisation de la plateforme E-commerce (6 pays à fin juin 2014,
objectif 20 pays d’ici 2016) avec un produit Dataplatform packagé
– Normalisation des entrées/sortie