Migrer de 2003 à 2012 R2, adopter HyperV ou Microsoft Azure : comment réalise...
Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel
1. Révolution dans l'analytique et les entrepôts de
données à découvrir avec Intel
[PAR217]
Stanislas Odinot
Consultant technique
Intel Corporation
www.intel.com
Serveurs / Entreprise / Réseaux / IT
3. 2015+
Déluge de données
22 nm
(2011)
45 nm
(2007) >1000 ExaOctets
Plus de terminaux De trafic sur internet (2009)
90 nm
(2003)
(2006)
180 nm
(1999)
Plus d’utilisateurs
>15
Milliards
(2005)
De terminaux
connectés
(2004)
2,5M ordinateurs
+1 Milliard Connectés en IP
De Netcitoyens En 1994
(1998)
5. Secteur des télécommunications : Exemple de China Mobile
Guangdong*
Objectif : Donner en temps réel aux clients l’historique de leurs communications
téléphoniques.
Solution: Hadoop pour limiter un goulet d’étranglement d’accès aux données
(vs SGBDR), augmenter la capacité de stockage et rendre le tout évolutif
Gains : TCO bien moins élevé, performances 30x supérieures,
transition souple, capacité analytique supplémentaires dédié
aux usages de abonnés pour de la publicité ciblée.
Quelques données
• 30 To de données de facturation traités par mois
• Récupération en temps réel de 6 mois d’historique de
communication
• 300k enregistrements/sec., 800k insertion/sec.
• 15 requêtes analytiques (liées à qualité de service, facturation,
marketing, estimation des revenus, et satisfaction client)
• 133 serveurs (nœuds)
6. Secteur publique : transport Collecte régionale de données
Exemple avec Chongqing
Objectif : Analyse du trafic afin de tirer des statistiques dérivées
des infractions, mise à disposition des informations, et analyse Serveur
prédictive du trafic routier d’application
Solution : Client HBase embarqué dans une caméra pour des
insertions de données structurées et non-structurées en temps Traitement réparti sur plusieurs nœuds du quartier
réel
Gains :
• Requêtes automatisées pour les infractions de circulation
• Data mining pour les faux permis : moins d’1 minute pour
toutes les données sur une semaine.
• Amélioration du trafic routier de 25%
Quelques données : Dérivé Analytique Services
• + de 30.000 points de collecte de données issues des
cameras
• Po de donnés liées au trafic routier et plusieurs To d’images
• 2 milliards d’entrées dans HBase Prévention d’infractions Service d’info trafic
8. Secteur industriel : Exemple d’Intel Corporation [IT@Intel]
Objectif : Améliorer les tests et validation des microprocesseurs tout en réduisant
le temps requis.
C=
A&B
Solution: Utilisation des informations historiques des tests, débugge et validation
afin de diminuer leur nombre et gagner sur temps.
Gains : Un premier POC a permit d’économiser 3 millions de $ en 2012, et l’on estime
possible d’économiser jusqu’à 30 millions de $ entre 2013 et 2014.
Autres POC :
• Détection rapide de failles de sécurité : 200 millions d’évènements serveur (logs, DNS, DHCP, proxy,
VPN…) traités en 30 minutes.
• Optimisation des réseaux de ventes/distribution (anticipation des changements des consommateurs,
amélioration de la chaîne d’approvisionnement, etc.)
9. Le rôle d’Intel dans le Big Data
Participe au développement et propose des applications et services
optimisés
Accélère le traitement et l’analyse de gros volumes de données en
procurant des CPU, du stockage, des I/O et du réseau rapides et efficaces
Collabore activement avec un large écosystème pour faire croitre le
traitement de gros volumes de données en se concentrant sur les usages et
des architectures de référence
10. Espace Intel sur github
Plusieurs projets en cours
HiBench HiTune Projet Panthera
HiBench est une suite de HiTune permet d’analyser Extensions Hive pour un support
benchmarks pour Hadoop les performance d’un amélioré des requêtes SQL
cluster Hadoop (SQL-92)
9 workload typiques pour
3 composants majeurs
hadoop
Micro benchmarks • Tracker
HDFS benchmarks • Aggregation Engine
Web search benchmarks • Analysis Engine
Machine learning benchmarks
Data analytics benchmarks
• https://github.com/intel-hadoop
11. HiBench : Caractérisations des charges applicatives
données “-” de données Encore “-” de données compressé
12. Intel HiTune
Utilitaire d’analyse de performance pour Hadoop
• Les utilisateurs développent leurs applications basées sur le
modèle MapReduce
• Le framework Hadoop l’applique sur le cluster
• HiTune instrumente automatiquement les tâches Hadoop (au
niveau binaire) et collecte les informations liées à l’exécution
− Impact faible (inf. à 2%)
− Pas de modification de code source
− Nombreuses informations collectées
− Informations lié à la JVM
− Informations systèmes
− Récupération des log Hadoop
13. HiTune : Analyse et génération de rapports
• Rapport d’analyse HiTune (.csv) • Rapport d’analyse visuel (.xlsm)
− Métriques systèmes − Résumé d’exécution d’un job
− CPU − Comparaison entre multiples jobs
− IO disque − Métriques systèmes
− IO réseau − Métriques Hadoop
− mémoire − Stat sur les flux de données
− Métriques Hadoop
− Métriques du NameNode
− Métriques du DataNode
− Métriques du JobTracker
− Métriques du TaskTracker
− Métriques de la JVM
− Stat sur les flux de données
− Job, MapTasks, Reduce Tasks
− Thread dump pour Map/Reduce
14. Contenu autour d’Hadoop et du Big Data
Architecture de référence, optimisation, etc.
Getting Started with
Hadoop*: Planning Guide Intel Blog « Data Stack » Mining Big Data in Enterprise for
Better Business Intelligence
Intel® Cloud Builders
Hadoop* Clusters Built
Guide to Apache Hadoop*
on 10 Gigabit Ethernet
15. Transactionnel, BI, Analytique et bases de données
La contribution d’Intel
Traitement transactionnel Business Intelligence et Analytique Base de données
Focus sur les
Charges appl.
Platformes & Scale-up & Scale-out
Architectures 2 Socket 4 Socket 8 Socket Scalable (8+)
Système Stack applicatives
Innovation HW OS dédiés
Ecosystème Software
avec les OEM aux applications critiques à haut niveau de
disponnibilité
Silicium
CPUs LAN Logiciels
Chipsets SSDs
Briques
Valeur ajoutée Performance Evolutivité RAS ROI Choix
16. Xeon® E7
Gamme Intel Xeon®
SMI SMI SMI SMI
SMI SMI SMI SMI
Westmere Westmere
EX EX
x4 x8 x4 x8
E5-4600 DDR3 DDR3
QPI
Sandy Sandy Core Core
DDR3
QPI DDR3
Bridge Bridge
Up to 4 CPUs DDR3 DDR3
Core Core
QPI
QPI
Up to 48 DIMMs DDR3 DDR3
SMI SMI SMI SMI
SMI SMI SMI SMI
Up to 160 PCIe3 lanes QPI QPI
Westmere Westmere
Two QPI links per CPU DDR3
Sandy Sandy DDR3
EX QPI
EX
DDR3 QPI Bridge DDR3
(ring topology) DDR3
Bridge
DDR3
Core Core Core Core
DDR3 DDR3
x4 x8 x4 x8
…
QPI
QPI
E5-2600
SMI SMI SMI SMI
SMI SMI SMI SMI
DDR3 DDR3 Westmere
Sandy Sandy Westmere
Up to 2 CPUs DDR3 Bridge QPI Bridge DDR3 EX EX
QPI
DDR3 QPI DDR3
Up to 24 DIMMs DDR3
Core Core
DDR3 Core
Core
Up to 80 PCIe lanes
x4 x8 x4 x8
Two QPI links
E3-1200v2 Atom
E5-2400 DDR3
Sandy Sandy DDR3
Sandy Saltwell
DDR3 QPI DDR3 DDR3
Up to 2 CPUs Bridge Bridge Bridge DDR3
DDR3 Core DDR3 DDR3 Core
Core
Up to 12 DIMMs Core
Up to 48 PCIe lanes x4 x8 x4 x8 x8
x4 x8
One QPI link
17. Hadoop et les bases de données tirent avantage des SSD
Performances
Performances &
& Endurance
Endurance
Capacité
Capacité
Intel 910
Intel 520 Intel 710
Intel 320
SSD 800 Go
SSD 480 Go 10 Petaoctet
Sur SSD 800 Go (4k)
550 Mo/s SSD 300 Go
Jusqu’à 600 Go (en lecture) 1.1 Petaoctet 2000 Mo/s
(en lecture)
270/220 Mo/s R/W 520 Mo/s Sur SSD 300 Go (4k)
1000 Mo/s
(en écriture) 270/210 Mo/s R/W (en écriture)
18. Le 10 GbE proposé en standard
Intel® Ethernet Controller X540
Flex LOM CNA/NIC
LOM
Le premier contrôleur 10GBASE-T élaboré à la fois pour les cartes
réseaux et l’intégration aux cartes mères (LOM
19. Collaboration active avec un large écosystème
Base de données et infra de calculs Moteurs d’analyses
Relationnel
VOLTDB
Non relationnel
EXALYTICS
Faites votre choix, tous sont optimisés, dont certains, exclusivement sur Xeon
20. Conclusion
1 Les données sont là et les technologies qui les entourent
évoluent rapidement
2 Intel s’est déjà positionné sur la partie applicative et
propose des plateformes optimisées
3
Intel s’est engagé à investiguer dans de nouvelles
technologies capables d’adresser les futurs besoins en
terme de traitement de données