Webinar Degetel DataStax

Webinar
Degetel - DataStax
Révolution dans la gestion de la data
Du SQL au NoSQL : Pourquoi ? Différences ? Comment ça marche ?
13/10/2015

Table de matières
• Mot d’accueil
• Les nouveaux métiers dela gestion de la DATA
• Introduction
• Quand la base de données devient unproblème
• Pourquoi Cassandra et Comparaison SGBDR
• Apache Cassandra
• DataStax Enterprise
• Cas d’Utilisation
• Questions / Réponses

Mot d’accueil
Georges KLENKLE
Directeur Général

DegetelPure player de l’innovation, du digital et de la mobilité
1999
CRÉATION DE LA SOCIETÉ
400
COLLABORATEURS
36 m€
DE CHIFFRE D’AFFAIRES
+100
CLIENTS ACTIFS
63%
DU CA EFFECTUÉ DANS LE CAC
40
NoSQL
DEPUIS 2010

GroupeTimeline
NoSQL Cassandra

GroupePure player de l’innovation, du digital et de la mobilité
Mobile
Web
Conseil
Cloud Computing
Transformation SI
Social media
Design
IOT
Big data
Nos partenaires
Nos métiers

les nouveaux métiersde la gestion de la Data
Le big data : « c'est avant tout la capacité à extraire de l'information à
partir de données non structurées ».
Jean-Charles Cointot et Yves Eychenne, La Revolution Big Data
Aujourd’hui l'enjeu n’est plus d’extraire les données, mais consiste à
transformer ces informations en actions, comme le lancement d'un nouveau
produit ou le développement de nouveaux services.
L’incidence est une mutation des métiers du Big data et Degetel s’y inscrit en recrutant
les meilleurs profils de ces nouveaux métiers :
• Data scientist
• Chief data officer
• Data protection officer
• Master data manager
• Chief Marketing Technologist

les nouveaux métiersde la gestion de la Data
- 190 000
MCKINSEY PRÉVOIT UN
DÉFICIT DE -140 000 À
-190 000 DATA SCIENTIST
D’ICI 2018 AUX ETATS UNIS
137 000
EMPLOIS EN FRANCE GRÂCE
AU BIG DATA À L’HORIZON
2020 (src:economie.gouv.fr)
27%
SELON GARTNER 27% DES
ORGANISATIONS AURONT UN
CHIEF DATA OFFICER EN
2017
3 chiffres clés à horizon 2020 :

Document confidentiel
10
DataStax délivre une plateforme de la base de
données Apache Cassandra, conçue
spécifiquement pour les besoins en
Performance et Disponibilité exigés par les
applications d’Internet des Objets, Web ou
Mobiles, en offrant aux entreprises une base
de données Sécurisée toujours disponible, qui
reste Simple à administrer même pour des
déploiements à grande échelle, dans un seul
ou de Multiples Data Centers et dans le Cloud.

Quand la base de données
devient un problème

Qu’est ce qui change aujourd’hui ?
13

La troisième vague des bases de données
©2015 DataStax Confidential. Do not distribute without consent.

Application “classique”– ok pour les SGBDR
15
• Données sur une seule machine
• Support d’accès concurrents
• ACID rend le travail confortable
• Scalabilité verticale

16
SGBDR pour le “Big Data”
OLTP ou Analytique ?

Replication: ACID ?
17

La 3ème forme normale ne scale pas
18
• Impossible de prédire les
requêtes
• Les utilisateurs ne veulent plus
attendre
• Les données doivent être
dénormalisées
• Si les données ne tiennent pas
en mémoire…
• Les recherches sur disques
sont coûteuses
(SELECT CONCAT(city_name,', ',region)
value, latitude, longitude, id,
population, ( 3959 * acos( cos(
radians($latitude) ) * cos( radians( latitude ) ) *
cos( radians( longitude ) - radians($longitude) ) +
sin( radians($latitude) ) * sin( radians( latitude ) ) )
) AS distance, CASE region WHEN '$region'
THEN 1 ELSE 0 END AS region_match FROM
`cities` $where and foo_count > 5 ORDER BY
region_match desc, foo_count desc limit 0, 11)
UNION (SELECT CONCAT(city_name,',
',region) value, latitude, longitude,
id, population, ( 3959 * acos( cos(
radians($latitude) ) * cos( radians( latitude ) ) *
cos( radians( longitude ) - radians($longitude) ) +
sin( radians($latitude) ) * sin( radians( latitude ) ) )
) AS distance, CASE region WHEN '$region'
THEN 1 ELSE 0 END AS region_match FROM
`cities` $where ORDER BY region_match desc,
population desc, distance asc limit 0, 11) limit
0, 11;

Le partitionnement est un “cauchemar”
19
• Données stockées sur différentes machines
• Pas de jointures, pas d’agrégats
• Tout est dénormalisé
• Requêtage via un index secondaire doit taper sur toutes les
partitions
• Ajouter des partitions demande un déplacement de données
• Changement de schema

Très Haute Disponibilité ?
20
• Failover du Master … qui est responsable?
– Architectures complexes
– “Bricolage” du code
• Compléxité du Multi-Data Center
• Arrêt de services fréquents
• Changement des settings de la base de
données
– Défaillance des disques …
– Mises à jour OS et logiciel …

Résumé des “problèmes”
21
• La montée en charge est difficile
• L’Acidité n’est pas tout le temps assurée
• Le re-partionnement est un processus manuel
• Il faut dénormaliser pour les performances
• La très haute disponible est complexe et demande des
composants additionnels

Leçons retenues
22
• Dans la pratique la cohérence n’est pas assurée
Abandon
• Le partionnement et le re-balancing sont difficiles
Réalisé et Intégré
• Chacune des parties rend le système plus
complexe
Architecture Simplifiée – pas de Maître/Esclave
• La scalabilité verticale coûte chère
“Commodity Hardware”
• Scatter / gather no good
Dernomalisation pour les performances
Requête sur 1 seule machine

Pourquoi Apache Cassandra
et comparaison SGBDR

Pourquoi de pas utiliser Oracle ? 
©2014 DataStax Confidential. Do not distribute without consent. 24
Versus

Cassandra - La Base de Données Distribuée leader
Bordeaux
Paris
Marseille
C *
C *
C *C *
Toujours Disponible
Distribution
géographique
Performance reconnue
Extensibilité prédictible
Simplicité
Opérationnelle
Séries Temporelles
26

Apache Cassandra™
• Apache Cassandra™ = Base de données NoSQL, Open Source, Distribuée et créée
pour les applications en ligne, modernes, critiques et avec des montée en charge
massive.
• Java, hybride entre Amazon Dynamo et Google BigTable
• Sans Maître-Esclave, sans Point Unique de Défaillance (Single Point Of Failure)
• Distribuée avec la possibilité de Centres de Données (Data Center)
• 100% Disponible
• Massivement scalable
• Montée en charge linéaire
• Haute Performance
• Simple à Exploiter
Dynamo
BigTable
BigTable: http://research.google.com/archive/bigtable-osdi06.pdf
Dynamo: http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf
Node 1
Node 2
Node 3Node 4
Node 5

Montée en charge linéaire
Plus de données ? Ajout de noeuds
Besoin de plus de débit? Ajout de noeuds
http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html

Cassandra @ Netflix
• 90+ Clusters
• 5000+ noeuds
• 4 Data Centres (Régions Amazon)
• > 1 Trillion transactions par jour
http://planetcassandra.org/functional-use-cases/
Exemple de Montée en Charge
Utilisation
• Films regardés?
• Qu’avez vous regardé avant et après?
• Où vous avez fait pause?
• Qu’est ce que vous avez arrêté après 5 minutes?
• ….

Nodes Down != Database Down
Datacenter Down != Database
Down
Upgrade != Database Down
Haute Disponibilité

Défaillance d’un Noeud
• La défaillance d’un seul noeud ne doit pas entraîner de défaillance du système
• Facteur de Réplication + Niveau de Cohérence = Succès
• Exemple:
– RF = 3
– CL = QUORUM
Node 1
1st copy
Node 4
Node 5
Node 2
2nd copy
Node 3
3rd copy
Parallel
Write
Write
CL=QUORUM
5 μs ack
12 μs ack
12 μs ack
>51% de réponses – donc la requête est réussie

Configuration en Data Center
Node 1
1st copy
Node 4
Node 5
Node 2
2nd copy
Node 3
3rd copy
Node 1
1st copy
Node 4
Node 5
Node 2
2nd copy
Node 3
3rd copy
DC: EUROPEDC: USA
• Actif partout – lecture/écriture dans tous les DC
• Le client écrit localement dans un DC
• Données synchronisées à travers le WAN
• Facteur de Réplication par DC
Utilisations
• DC de sauvegarde
• Distribution géographique
• Charge différente entre
DC
• Prod -> Pré-prod

Cloud & Cloud Hybride
• DataStax Enterprise et Cassandra sont disponibles en multi-data center
et dans le cloud (Amazon AWS, Google Cloud et Microsoft Azure)
• Les données écrites dans n’importe quel noeud sont aussi
automatiquement et de manière transparente écrites sur tous les autres
noeuds dans les autres data centers sans ETL
Data Centre 1
Data Centre 2
Public Cloud

Exemple de déploiement
Cassandra fonctionne aussi bien pour des petits que pour des
déploiements énormes!
Déploiement Cassandra chez Apple
• 75 000+ noeuds
• 10’s petabytes de données
• Millions ops/second
• Plus gros cluster à 1000+ noeuds
Apple Inc.: Cassandra at Apple for Massive Scale
Video https://www.youtube.com/watch?v=Bc4ql9TDzyg
From Cassandra Summit, London, December 2014

Straightening the road
RELATIONAL DATABASES
CQL SQL
OpsCenter / DevCenter Management tools
DSE for search & analytics Integration
Security Security
Support, consulting & training 30 years ecosystem

DataStax Enterprise
In-Memory
Option de base de données en mémoire
pour le stockage en RAM et non plus sur
disque de certaines données pour un
accès encore plus rapide.
Search
Fonctionnaliés de recherche sur des
données Cassandra via Apache Solr.
Fonctionnalités avancées et performante
sur de gros volumes.
Analytics
Intégration de frameworks analytiques
tels que Spark et Hadoop pour des
analyses temps-réel ou en mode
batch.
Support
Support 24x7 avec des hot-fixes et
des revues de performance.
Visual Admin
Un outil visuel “DataStax OpsCenter”
pour la supervision et l’administration
d’un cluster Cassandra et DataStax.
Management Services
Services d’administration automatique et
suivi des performances.
Cassandra Certified
Une version de Apache Cassandra certifiée, supportée et prête pour
l’entreprise.
Security
Fonctionalités de sécurité d’entreprise
comme le chiffrement des données sur
disques, des traces d’audit et une
authentification externe via Kerberos,
LDAP/Active Directory
Puissance pour le
Développement
Robustesse et Support
pour la Production

Le futur de DataStax Enterprise

DataStax Enterprise + DataWarehouse / Hadoop
© 2014 DataStax, All
Rights Reserved.
Company
Confidential
Write Intensive
Internet of Things - Activity logs for
fraud and recommendation –
Messages
40
Read Intensive
Catalogue – Playlist –
Recommendation – Fraud Alert –
Personalization
Operational Search, Dashboard
and Reporting
Offline Applications
Historical Analysis - OLAP -
Complex Analytics – Self Service
BI
Operational Search, Dashboard
and Reporting
Data Warehouse
Hadoop cluster Computation
Engine
Multidimensional Cube

Des clients sur tous les verticaux

Cas d’usage fréquents
Messagerie
Catalogue/
Playlists
Détection de
Fraude
Recommandation/
Personnalisation
Objets connectés/
Données de Capteurs

Plus d’information
• DataStax: http://www.datastax.com
• Downloads: http://www.datastax.com/download
• Documentation: http://www.datastax.com/docs
• Developer Blog: http://www.datastax.com/dev/blog
• Academy: https://academy.datastax.com/
• Community Site: http://planetcassandra.org
©2014 DataStax Confidential. Do not distribute without consent.

Questions/Réponses
Merci!
Georges KLENKLE
Directeur Général
gklenkle@degetel.com
Victor Coustenoble
Ingénieur Solutions
victor.coustenoble@datastax.com

Webinar Degetel DataStax

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Webinar Degetel DataStax

Similar a Webinar Degetel DataStax (20)

Webinar Degetel DataStax