2. Table de matières
• Mot d’accueil
• Les nouveaux métiers dela gestion de la DATA
• Introduction
• Quand la base de données devient unproblème
• Pourquoi Cassandra et Comparaison SGBDR
• Apache Cassandra
• DataStax Enterprise
• Cas d’Utilisation
• Questions / Réponses
4. DegetelPure player de l’innovation, du digital et de la mobilité
1999
CRÉATION DE LA SOCIETÉ
400
COLLABORATEURS
36 m€
DE CHIFFRE D’AFFAIRES
+100
CLIENTS ACTIFS
63%
DU CA EFFECTUÉ DANS LE CAC
40
NoSQL
DEPUIS 2010
6. GroupePure player de l’innovation, du digital et de la mobilité
Mobile
Web
Conseil
Cloud Computing
Transformation SI
Social media
Design
IOT
Big data
Nos partenaires
Nos métiers
7. les nouveaux métiersde la gestion de la Data
Le big data : « c'est avant tout la capacité à extraire de l'information à
partir de données non structurées ».
Jean-Charles Cointot et Yves Eychenne, La Revolution Big Data
Aujourd’hui l'enjeu n’est plus d’extraire les données, mais consiste à
transformer ces informations en actions, comme le lancement d'un nouveau
produit ou le développement de nouveaux services.
L’incidence est une mutation des métiers du Big data et Degetel s’y inscrit en recrutant
les meilleurs profils de ces nouveaux métiers :
• Data scientist
• Chief data officer
• Data protection officer
• Master data manager
• Chief Marketing Technologist
8. les nouveaux métiersde la gestion de la Data
- 190 000
MCKINSEY PRÉVOIT UN
DÉFICIT DE -140 000 À
-190 000 DATA SCIENTIST
D’ICI 2018 AUX ETATS UNIS
137 000
EMPLOIS EN FRANCE GRÂCE
AU BIG DATA À L’HORIZON
2020 (src:economie.gouv.fr)
27%
SELON GARTNER 27% DES
ORGANISATIONS AURONT UN
CHIEF DATA OFFICER EN
2017
3 chiffres clés à horizon 2020 :
10. Document confidentiel
10
DataStax délivre une plateforme de la base de
données Apache Cassandra, conçue
spécifiquement pour les besoins en
Performance et Disponibilité exigés par les
applications d’Internet des Objets, Web ou
Mobiles, en offrant aux entreprises une base
de données Sécurisée toujours disponible, qui
reste Simple à administrer même pour des
déploiements à grande échelle, dans un seul
ou de Multiples Data Centers et dans le Cloud.
15. Document confidentiel
Application “classique”– ok pour les SGBDR
15
• Données sur une seule machine
• Support d’accès concurrents
• ACID rend le travail confortable
• Scalabilité verticale
18. Document confidentiel
La 3ème forme normale ne scale pas
18
• Impossible de prédire les
requêtes
• Les utilisateurs ne veulent plus
attendre
• Les données doivent être
dénormalisées
• Si les données ne tiennent pas
en mémoire…
• Les recherches sur disques
sont coûteuses
(SELECT CONCAT(city_name,', ',region)
value, latitude, longitude, id,
population, ( 3959 * acos( cos(
radians($latitude) ) * cos( radians( latitude ) ) *
cos( radians( longitude ) - radians($longitude) ) +
sin( radians($latitude) ) * sin( radians( latitude ) ) )
) AS distance, CASE region WHEN '$region'
THEN 1 ELSE 0 END AS region_match FROM
`cities` $where and foo_count > 5 ORDER BY
region_match desc, foo_count desc limit 0, 11)
UNION (SELECT CONCAT(city_name,',
',region) value, latitude, longitude,
id, population, ( 3959 * acos( cos(
radians($latitude) ) * cos( radians( latitude ) ) *
cos( radians( longitude ) - radians($longitude) ) +
sin( radians($latitude) ) * sin( radians( latitude ) ) )
) AS distance, CASE region WHEN '$region'
THEN 1 ELSE 0 END AS region_match FROM
`cities` $where ORDER BY region_match desc,
population desc, distance asc limit 0, 11) limit
0, 11;
19. Document confidentiel
Le partitionnement est un “cauchemar”
19
• Données stockées sur différentes machines
• Pas de jointures, pas d’agrégats
• Tout est dénormalisé
• Requêtage via un index secondaire doit taper sur toutes les
partitions
• Ajouter des partitions demande un déplacement de données
• Changement de schema
20. Document confidentiel
Très Haute Disponibilité ?
20
• Failover du Master … qui est responsable?
– Architectures complexes
– “Bricolage” du code
• Compléxité du Multi-Data Center
• Arrêt de services fréquents
• Changement des settings de la base de
données
– Défaillance des disques …
– Mises à jour OS et logiciel …
21. Document confidentiel
Résumé des “problèmes”
21
• La montée en charge est difficile
• L’Acidité n’est pas tout le temps assurée
• Le re-partionnement est un processus manuel
• Il faut dénormaliser pour les performances
• La très haute disponible est complexe et demande des
composants additionnels
22. Document confidentiel
Leçons retenues
22
• Dans la pratique la cohérence n’est pas assurée
Abandon
• Le partionnement et le re-balancing sont difficiles
Réalisé et Intégré
• Chacune des parties rend le système plus
complexe
Architecture Simplifiée – pas de Maître/Esclave
• La scalabilité verticale coûte chère
“Commodity Hardware”
• Scatter / gather no good
Dernomalisation pour les performances
Requête sur 1 seule machine
26. Document confidentiel
Cassandra - La Base de Données Distribuée leader
Bordeaux
Paris
Marseille
C *
C *
C *C *
Toujours Disponible
Distribution
géographique
Performance reconnue
Extensibilité prédictible
Simplicité
Opérationnelle
Séries Temporelles
26
28. Document confidentiel
Montée en charge linéaire
Plus de données ? Ajout de noeuds
Besoin de plus de débit? Ajout de noeuds
http://techblog.netflix.com/2011/11/benchmarking-cassandra-scalability-on.html
33. Document confidentiel
Cloud & Cloud Hybride
• DataStax Enterprise et Cassandra sont disponibles en multi-data center
et dans le cloud (Amazon AWS, Google Cloud et Microsoft Azure)
• Les données écrites dans n’importe quel noeud sont aussi
automatiquement et de manière transparente écrites sur tous les autres
noeuds dans les autres data centers sans ETL
Data Centre 1
Data Centre 2
Public Cloud
34. Document confidentiel
Exemple de déploiement
Cassandra fonctionne aussi bien pour des petits que pour des
déploiements énormes!
Déploiement Cassandra chez Apple
• 75 000+ noeuds
• 10’s petabytes de données
• Millions ops/second
• Plus gros cluster à 1000+ noeuds
Apple Inc.: Cassandra at Apple for Massive Scale
Video https://www.youtube.com/watch?v=Bc4ql9TDzyg
From Cassandra Summit, London, December 2014
36. Document confidentiel
Straightening the road
RELATIONAL DATABASES
CQL SQL
OpsCenter / DevCenter Management tools
DSE for search & analytics Integration
Security Security
Support, consulting & training 30 years ecosystem
37. Document confidentiel
DataStax Enterprise
In-Memory
Option de base de données en mémoire
pour le stockage en RAM et non plus sur
disque de certaines données pour un
accès encore plus rapide.
Search
Fonctionnaliés de recherche sur des
données Cassandra via Apache Solr.
Fonctionnalités avancées et performante
sur de gros volumes.
Analytics
Intégration de frameworks analytiques
tels que Spark et Hadoop pour des
analyses temps-réel ou en mode
batch.
Support
Support 24x7 avec des hot-fixes et
des revues de performance.
Visual Admin
Un outil visuel “DataStax OpsCenter”
pour la supervision et l’administration
d’un cluster Cassandra et DataStax.
Management Services
Services d’administration automatique et
suivi des performances.
Cassandra Certified
Une version de Apache Cassandra certifiée, supportée et prête pour
l’entreprise.
Security
Fonctionalités de sécurité d’entreprise
comme le chiffrement des données sur
disques, des traces d’audit et une
authentification externe via Kerberos,
LDAP/Active Directory
Puissance pour le
Développement
Robustesse et Support
pour la Production