Oxalide MorningTech #1 - BigData
1er MorningTech @Oxalide, animé par Ludovic Piot (@lpiot), le 15 décembre 2016.
Pour cette 1ère édition du Morning Tech nous vous proposons une overview sur un des thèmes du moment : le Big Data.
Au delà de ce buzz word nous aborderons :
Les grands concepts
Les étapes clés des projets Big Data et les technologies à utiliser (stockage, ingestion, …)
Les enjeux des architectures Big Data (architecture lambda, …)
L'intelligence artificielle (machine learning, deep learning, …)
Et nous finirons par un cas d'usage du big data sur AWS autour de l'utilisation des données gyroscopiques de vos internautes mobiles
Subject: Oxalide's 1st MorningTech talk about BigData.
Date: 15-dec-2016
Speakers: Ludovic Piot (@lpiot, @oxalide)
Language: french
Lien SpeakerDeck : https://speakerdeck.com/lpiot/oxalide-morningtech-number-1-bigdata
Lien SlideShare : https://www.slideshare.net/LudovicPiot/oxalide-morningtech-1-bigdata
YouTube Video capture: https://youtu.be/7O85lRzvMY0
Main topics:
* Les grands enjeux du BigData
** les 3 V du Gartner : volume, variété, vélocité
* Le stockage des données
** datalake
** les technos
* L'ingestion des données
** ETL
** datastream
** les technos
* Les enjeux du compute
** map-reduce
** spark
** lambda architecture
* Démo d'une plateforme BigData sur AWS
* L'intelligence artificielle
** datascience exploratoire et notebooks,
** machine learning,
** deep learning,
** data pipeline
** les technos
* Pour aller plus loin
** La gouvernance des données
** La dataviz
2. Les événements Oxalide
• Objectif : présentation d’une thématique métier ou technique
• Tout public : 80 à 100 personnes
• Déroulé : 1 soir par trimestre de 18h à 21h
• Introduction de la thématique par un partenaire
• Tour de table avec des clients et non clients
• Echange convivial autour d’un apéritif dînatoire
• Objectif : présentation d’une technologie
• Réservé aux clients : public technique avec laptop – 30
personnes
• Déroulé : 1 matinée par trimestre de 9h à 13h
• Présentation de la technologie
• Tuto pour la configuration en ligne de commande
• Objectif : présentation d’une thématique métier ou technique
• Réservé aux clients : 30 personnes
• Déroulé : 1 matin par trimestre de 9h à 12h
• Big picture
• Démonstration et retour d’expérience
Apérotech
Workshop
Morning Tech
6. SoLoMo et IoT – l’explosion de la data
SO
cial
LOcal
MO
bile
7. IoT – l’explosion de la data
!
Organizations are redefining data strategies due to the requirements of the
evolving Enterprise Data Warehouse (EDW).
Enterprise
Data
VoIP
Machine
Data
Social Media
8. Les 3V : les dimensions du Gartner
• Volume : Le volume de données crées et gérées est en constante
augmentation (+59% / an en 2011)
• Variété : Les types de données collectées sont très variés (texte, son, image,
logs…). Nécessité que les outils de traitement prennent en compte cette
diversité
• Vélocité : Besoin de rapidité pour pouvoir utiliser les données au fur et à
mesure qu'elles sont collectées. Il faut les utiliser rapidement, ou elles n'ont
aucune valeur.
Les 2 nouveaux V émergeant :
• Véracité : dimension apportant une notion de qualité de la donnée pour le
métier
• Visibilité : pour souligner la nécessité que la data soit accessible pour le métier
afin de permettre la prise de décision rapide
11. BigData vs. gestion traditionnelle des données
!
Traditional Systems vs. Hadoop
Traditional
Database
SCALE (storage & processing)
Hadoop
Distribution
NoSQL
MPP
Analytics
EDW
schema
speed
governance
best fit use
processing
Required on write Required on read
Reads are fast Writes are fast
Standards and structured Loosely structured
Limited, no data processing Processing coupled with data
data typesStructured Multi and unstructured
Interactive OLAP Analytics
Complex ACID Transactions
Operational Data Store
Data Discovery
Processing unstructured data
Massive Storage/Processing
12. Le stockage distribué
!
Data Pipeline
DataNode 1
Data Integrity – Writing Data
6. Success!
3.Data+
checksum
4. Verify
Checksum
4. Data and
checksum
5. Success! 5.Success!
DataNode 4 DataNode 12
Client
2. OK,
please use
DataNodes
1, 4, 12.
1. I want to
write a block
of data.
NameNode
16. Le pipeline BigData
data answers
ingest /
collect
store process analyse
Time to answer (latency)
Throughput
Cost
17. La Lambda Architecture
Serving
Layer
Standardize, Cleanse, Integrate, Filter,
Transform
Batch
Layer
Extract & Load
Conform, Summarize, Access
Speed
Layer
• Organize data
based on
source/derived
relationships
• Allows for fault
and rebuild
process
• There are lots of different ways of organizing data in an enterprise data
platform that includes Hadoop.
18. Evolution des traitements Big Data
http://www.slideshare.net/1Strategy/2016-utah-cloud-summit-big-data-architectural-patterns-and-best-practices-on-aws
Collect Store Analyse ConsumeETL
Hot
Warm
Hot
Cold
Hot
Hot
Hot
Slow
25. Le Machine Learning
• Jeu de données : labellisé (avec les réponses)
• Objectif d’apprentissage :
• Régression (prévision)
• Classification
Apprentissage
supervisé
26. Hypothèse et fonction de coût
But du jeu :
Trouver une fonction h qui représente fidèlement les données.
Régression linéaire :
ℎ 𝑥 = 𝜃% + 𝜃' 𝑥' + 𝜃( 𝑥( + ⋯ + 𝜃* 𝑥*
27. Le Machine Learning
• Jeu de données : non-labellisé (sans réponse)
• Objectif d’apprentissage :
• Identifier / détecter des structures dans les données
Apprentissage
non-supervisé
29. Réseaux neuronaux
• Basés sur le fonctionnement
d’un cerveau
• Hypothèse non linéaire !
• Classification multi-classe
• Comme avant, on essaye
de minimiser la fonction de
coût en modifiant peu à
peu les coefficients Θ(i)
32. Big Data : les domaines d’application
Objectifs recherchés :
• Collecter la donnée dès sa production (en temps réel)
• Conserver l’intégralité de la donnée, sans perte d’information
• Permettre l’exploitation a posteriori pour de nouveaux usages et/ou à travers de nouvelles technologies
Mise en œuvre :
• Collecte et nettoyage des données via Flume, Storm, Spark, Logstash, Kafka, Kinesis, etc.
• Stockage de la donnée dénormalisée dans Cassandra, HDFS, Hbase, Hive, AWS S3, Redshift
Datalake
Collecter et stocker la donnée
AWS S3HADOOPCASANDRA
Besoin recensé sur :
EasyBourse, L’Etudiant…
REDSHIFTHIVE HBASE KAFKA
33. Big Data : les domaines d’application
Objectifs recherchés :
• Collecter la donnée dès sa production (en temps réel)
• Traiter la donnée au fil de l’eau
• Permettre l’exploitation et la consultation immédiates des données traitées dans des outils de requête en
temps réel
Mise en œuvre :
• Collecte, nettoyage et traitement des données via Flume, Storm, Spark, Logstash, Kafka, Kinesis, etc.
• Stockage de la donnée traitée dans Cassandra, Redshift, ElasticSearch
Lambda architecture – Speed layer
Traiter immédiatement la donnée et la consulter en temps réel
SPARK
Besoin recensé sur :
EasyBourse, L’Etudiant…
FLUME STORMELASTICSEARCHCASANDRA REDSHIFT KINESIS
34. Big Data : les domaines d’application
DMP : Data Management Platform
Qualifier son audience
Objectifs recherchés :
• Personnalisation de contenus et de l'expérience utilisateur
Mise en œuvre :
• TBC
http://www.journaldunet.com/ebusiness/expert/58869/la-data-
management-platform--dmp----fonctionnalites-et-benefices-de-l-
exploitation-des-donnees.shtml
Besoin recensé sur :
L’Express, Kwanko, Le
Parisien, 20 min, …
35. Big Data : les domaines d’application
Objectifs recherchés :
• Explorer des jeux de données restreints pour identifier des caractéristiques
• Classifier les données selon des features détectées automatiquement
• Identifier automatiquement des groupes de données similaires
• Faire des prédictions basées sur les données existantes
Mise en œuvre :
• Mise en place d’outils d’exploration pour les datascientists : Jupyter, zeppelin, spark notebook, RStudio
• Mise en œuvre d’un datapipeline : kafka, yarn, scikit-learn, spark ml, R, H2O, graphlab,…
Machine Learning
Un pas vers l’IA
Besoin recensé sur :
Fjord, Qivivo
SCIKIT LEARNZEPPELINJUPYTER RYARN KAFKASPARK H2O