Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel

Révolution dans l'analytique et les entrepôts de
données à découvrir avec Intel
[PAR217]

Stanislas Odinot
Consultant technique
Intel Corporation

www.intel.com

Serveurs / Entreprise / Réseaux / IT

Mentions légales
INFORMATION IN THIS DOCUMENT IS PROVIDED IN CONNECTION WITH INTEL PRODUCTS. NO LICENSE, EXPRESS OR IMPLIED, BY ESTOPPEL OR
OTHERWISE, TO ANY INTELLECTUAL PROPERTY RIGHTS IS GRANTED BY THIS DOCUMENT. EXCEPT AS PROVIDED IN INTEL'S TERMS AND
CONDITIONS OF SALE FOR SUCH PRODUCTS, INTEL ASSUMES NO LIABILITY WHATSOEVER AND INTEL DISCLAIMS ANY EXPRESS OR IMPLIED
WARRANTY, RELATING TO SALE AND/OR USE OF INTEL PRODUCTS INCLUDING LIABILITY OR WARRANTIES RELATING TO FITNESS FOR A
PARTICULAR PURPOSE, MERCHANTABILITY, OR INFRINGEMENT OF ANY PATENT, COPYRIGHT OR OTHER INTELLECTUAL PROPERTY RIGHT.
UNLESS OTHERWISE AGREED IN WRITING BY INTEL, THE INTEL PRODUCTS ARE NOT DESIGNED NOR INTENDED FOR ANY APPLICATION IN
WHICH THE FAILURE OF THE INTEL PRODUCT COULD CREATE A SITUATION WHERE PERSONAL INJURY OR DEATH MAY OCCUR.
Intel may make changes to specifications and product descriptions at any time, without notice. Designers must not rely on the absence or
characteristics of any features or instructions marked "reserved" or "undefined." Intel reserves these for future definition and shall have no
responsibility whatsoever for conflicts or incompatibilities arising from future changes to them. The information here is subject to change without
notice. Do not finalize a design with this information.
The products described in this document may contain design defects or errors known as errata which may cause the product to deviate from
published specifications. Current characterized errata are available on request.
All products, computer systems, dates, and figures specified are preliminary based on current expectations, and are subject to change without
notice.
Contact your local Intel sales office or your distributor to obtain the latest specifications and before placing your product order.
Copyright © 2013, Intel Corporation. All rights reserved.

*Other names and brands may be claimed as the property of others.

2015+
Déluge de données
22 nm
(2011)

45 nm
(2007) >1000 ExaOctets
Plus de terminaux De trafic sur internet (2009)

90 nm
(2003)
(2006)

180 nm
(1999)
Plus d’utilisateurs
>15
Milliards
(2005)

De terminaux
connectés
(2004)
2,5M ordinateurs
+1 Milliard Connectés en IP
De Netcitoyens En 1994
(1998)

Evolution du traitement des données en entreprise

Secteur des télécommunications : Exemple de China Mobile
Guangdong*
Objectif : Donner en temps réel aux clients l’historique de leurs communications
téléphoniques.
Solution: Hadoop pour limiter un goulet d’étranglement d’accès aux données
(vs SGBDR), augmenter la capacité de stockage et rendre le tout évolutif
Gains : TCO bien moins élevé, performances 30x supérieures,
transition souple, capacité analytique supplémentaires dédié
aux usages de abonnés pour de la publicité ciblée.
Quelques données
• 30 To de données de facturation traités par mois
• Récupération en temps réel de 6 mois d’historique de
communication
• 300k enregistrements/sec., 800k insertion/sec.
• 15 requêtes analytiques (liées à qualité de service, facturation,
marketing, estimation des revenus, et satisfaction client)
• 133 serveurs (nœuds)

Secteur publique : transport Collecte régionale de données

Exemple avec Chongqing
Objectif : Analyse du trafic afin de tirer des statistiques dérivées
des infractions, mise à disposition des informations, et analyse Serveur
prédictive du trafic routier d’application

Solution : Client HBase embarqué dans une caméra pour des
insertions de données structurées et non-structurées en temps Traitement réparti sur plusieurs nœuds du quartier
réel
Gains :
• Requêtes automatisées pour les infractions de circulation
• Data mining pour les faux permis : moins d’1 minute pour
toutes les données sur une semaine.
• Amélioration du trafic routier de 25%
Quelques données : Dérivé Analytique Services

• + de 30.000 points de collecte de données issues des
cameras
• Po de donnés liées au trafic routier et plusieurs To d’images
• 2 milliards d’entrées dans HBase Prévention d’infractions Service d’info trafic

Secteur de l’énergie: Exemple avec EDF R&D*
Objectif du POC : Construire un « entrepôt de données
opérationnel » capable d’ingérer des données et
autorisant la réalisations de requêtes multiples et
simultanées sur de multiples courbes de consommation

Solution: Hadoop avec Hive pour les requêtes, HBase la
base de donnée, Sqoop (requêter le SGBD), HDFS pour le
stockage et utilisation d’un générateur de courbes
CurboGen© (NodeJS, Redis)
Quelques données
• 1 mesure toutes les 10 minutes pour 35 millions de clients par an -> 1 800
milliards d’enregistrements = 120 To de données non compressées
• POC : 25 Go / jours
• 20 nœuds, 132 To fonctionnant avec Hadoop/Cloudera
• Les outils : Cloudera, Hive, HBase, HDFS, Sqoop, NodeJS, Redis, Tableau Software
• Sources : http://www.slideshare.net/Hadoop_Summit/proof-of-concent-with-hadoop
• http://www.youtube.com/watch?v=mjzblMBvt3Q

Secteur industriel : Exemple d’Intel Corporation [IT@Intel]
Objectif : Améliorer les tests et validation des microprocesseurs tout en réduisant
le temps requis.
C=
A&B

Solution: Utilisation des informations historiques des tests, débugge et validation
afin de diminuer leur nombre et gagner sur temps.
Gains : Un premier POC a permit d’économiser 3 millions de $ en 2012, et l’on estime
possible d’économiser jusqu’à 30 millions de $ entre 2013 et 2014.
Autres POC :
• Détection rapide de failles de sécurité : 200 millions d’évènements serveur (logs, DNS, DHCP, proxy,
VPN…) traités en 30 minutes.
• Optimisation des réseaux de ventes/distribution (anticipation des changements des consommateurs,
amélioration de la chaîne d’approvisionnement, etc.)

Le rôle d’Intel dans le Big Data
Participe au développement et propose des applications et services
optimisés

Accélère le traitement et l’analyse de gros volumes de données en
procurant des CPU, du stockage, des I/O et du réseau rapides et efficaces

Collabore activement avec un large écosystème pour faire croitre le
traitement de gros volumes de données en se concentrant sur les usages et
des architectures de référence

Espace Intel sur github
Plusieurs projets en cours
HiBench HiTune Projet Panthera

HiBench est une suite de HiTune permet d’analyser Extensions Hive pour un support
benchmarks pour Hadoop les performance d’un amélioré des requêtes SQL
cluster Hadoop (SQL-92)
9 workload typiques pour
3 composants majeurs
hadoop
Micro benchmarks • Tracker
HDFS benchmarks • Aggregation Engine
Web search benchmarks • Analysis Engine
Machine learning benchmarks
Data analytics benchmarks

• https://github.com/intel-hadoop

HiBench : Caractérisations des charges applicatives

données “-” de données Encore “-” de données compressé

Intel HiTune
Utilitaire d’analyse de performance pour Hadoop

• Les utilisateurs développent leurs applications basées sur le
modèle MapReduce
• Le framework Hadoop l’applique sur le cluster
• HiTune instrumente automatiquement les tâches Hadoop (au
niveau binaire) et collecte les informations liées à l’exécution
− Impact faible (inf. à 2%)
− Pas de modification de code source
− Nombreuses informations collectées
− Informations lié à la JVM
− Informations systèmes
− Récupération des log Hadoop

HiTune : Analyse et génération de rapports
• Rapport d’analyse HiTune (.csv) • Rapport d’analyse visuel (.xlsm)
− Métriques systèmes − Résumé d’exécution d’un job
− CPU − Comparaison entre multiples jobs
− IO disque − Métriques systèmes
− IO réseau − Métriques Hadoop
− mémoire − Stat sur les flux de données
− Métriques Hadoop
− Métriques du NameNode
− Métriques du DataNode
− Métriques du JobTracker
− Métriques du TaskTracker
− Métriques de la JVM
− Stat sur les flux de données
− Job, MapTasks, Reduce Tasks
− Thread dump pour Map/Reduce

Contenu autour d’Hadoop et du Big Data
Architecture de référence, optimisation, etc.

Getting Started with
Hadoop*: Planning Guide Intel Blog « Data Stack » Mining Big Data in Enterprise for
Better Business Intelligence

Intel® Cloud Builders
Hadoop* Clusters Built
Guide to Apache Hadoop*
on 10 Gigabit Ethernet

Transactionnel, BI, Analytique et bases de données
La contribution d’Intel
Traitement transactionnel Business Intelligence et Analytique Base de données
Focus sur les
Charges appl.

Platformes & Scale-up & Scale-out
Architectures 2 Socket 4 Socket 8 Socket Scalable (8+)

Système Stack applicatives
Innovation HW OS dédiés
Ecosystème Software
avec les OEM aux applications critiques à haut niveau de
disponnibilité
Silicium

CPUs LAN Logiciels
Chipsets SSDs
Briques

Valeur ajoutée Performance Evolutivité RAS ROI Choix

Xeon® E7
Gamme Intel Xeon®

SMI SMI SMI SMI
SMI SMI SMI SMI
Westmere Westmere
EX EX
x4 x8 x4 x8
E5-4600 DDR3 DDR3
QPI
Sandy Sandy Core Core
DDR3
QPI DDR3
Bridge Bridge
 Up to 4 CPUs DDR3 DDR3
Core Core

QPI

QPI
 Up to 48 DIMMs DDR3 DDR3

SMI SMI SMI SMI
SMI SMI SMI SMI
 Up to 160 PCIe3 lanes QPI QPI
Westmere Westmere
 Two QPI links per CPU DDR3
Sandy Sandy DDR3
EX QPI
EX
DDR3 QPI Bridge DDR3
(ring topology) DDR3
Bridge
DDR3
Core Core Core Core
DDR3 DDR3

x4 x8 x4 x8

…

QPI
QPI
E5-2600

SMI SMI SMI SMI
SMI SMI SMI SMI
DDR3 DDR3 Westmere
Sandy Sandy Westmere
 Up to 2 CPUs DDR3 Bridge QPI Bridge DDR3 EX EX
QPI
DDR3 QPI DDR3
 Up to 24 DIMMs DDR3
Core Core
DDR3 Core
Core
 Up to 80 PCIe lanes
x4 x8 x4 x8
 Two QPI links
E3-1200v2 Atom
E5-2400 DDR3
Sandy Sandy DDR3
Sandy Saltwell
DDR3 QPI DDR3 DDR3
 Up to 2 CPUs Bridge Bridge Bridge DDR3
DDR3 Core DDR3 DDR3 Core
Core
 Up to 12 DIMMs Core

 Up to 48 PCIe lanes x4 x8 x4 x8 x8
x4 x8
 One QPI link

Hadoop et les bases de données tirent avantage des SSD
Performances
Performances &
& Endurance
Endurance
Capacité
Capacité
Intel 910
Intel 520 Intel 710
Intel 320

SSD 800 Go
SSD 480 Go 10 Petaoctet
Sur SSD 800 Go (4k)
550 Mo/s SSD 300 Go
Jusqu’à 600 Go (en lecture) 1.1 Petaoctet 2000 Mo/s
(en lecture)
270/220 Mo/s R/W 520 Mo/s Sur SSD 300 Go (4k)
1000 Mo/s
(en écriture) 270/210 Mo/s R/W (en écriture)

Le 10 GbE proposé en standard
Intel® Ethernet Controller X540

Flex LOM CNA/NIC
LOM

Le premier contrôleur 10GBASE-T élaboré à la fois pour les cartes
réseaux et l’intégration aux cartes mères (LOM

Collaboration active avec un large écosystème
Base de données et infra de calculs Moteurs d’analyses
Relationnel

VOLTDB

Non relationnel

EXALYTICS

Faites votre choix, tous sont optimisés, dont certains, exclusivement sur Xeon

Conclusion

1  Les données sont là et les technologies qui les entourent
évoluent rapidement

2  Intel s’est déjà positionné sur la partie applicative et
propose des plateformes optimisées

3
 Intel s’est engagé à investiguer dans de nouvelles
technologies capables d’adresser les futurs besoins en
terme de traitement de données

Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel

Similar a Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel (20)

Más de Microsoft Décideurs IT

Más de Microsoft Décideurs IT (20)

Révolution dans l'analytique et les entrepôts de données à découvrir avec Intel