Data lake y virtualización. Ejes para una arquitectura abierta en big data v6

Data Lake y Virtualización
Ejes para Una Arquitectura Abierta en BIG DATA
@JULITOJUL101

Transformación Digital de BBVA: Caso de Estudio
en Harvard
http://www.elmundo.es/economia/2015/11/23/5652e567e2704ee57c8b45b4.html
• La TECNOLOGIA va a impulsar una enorme mejora de
la productividad y la eficiencia en la BANCA
• Los BANCOS deben convertirse en organizaciones
impulsadas por los DATOS y ofrecer una banca basada
en el conocimiento
• BBVA es experta en Analítica de DATOS
ELMUNDO.ES
Francisco Gonzalez
Presidente BBVA

Álvarez-Pallete: Los Datos son el Petroleo del
Siglo XXI
http://www.iese.edu/es/conoce-iese/prensa-noticias/noticias/2015/julio/alvarez-pallete-datos-son-petroleo-siglo-xxi/
• TODOS los sectores de actividad, se verán afectados por la
disrupción tecnológica
• El gran potencial de las empresas radicará precisamente
en la cantidad de DATOS que sean capaces de GENERAR
• Simplificación y Digitalización van de la mano
• En 2019, las PERSONAS, al menos, dispondrán de cuatro
dispositivos.
IESE Business School
Jose Maria Alvarez Pallete
Presidente Telefonica
@jmalvpa

© Copyright 2017 Dell Inc.4
2 0 2 0 : U N N U E V O M U N D O D I G I T A L
PERSONAS
CONECTADAS
2.3B
7B
2015 2020
DISPOSITIVOS
CONECTADOS
4.9B
30B
2015 2020
DATOS EN EL
PLANETA
8ZB
44ZB
2015 2020
3X 6X 5X

Michael DELL lo tiene claro “Better together”
Servers
Proveedor de
Servidores en Norte
America,
Sudamerica y China
Support
No lo decimos
nosotros, lo
dicen nuestros
clientes
Data center
Proveedor de virtualización
en el Data Center
(IaaS)
Storage
Mayor cuota de Mercado
Mundial
(STaaS)
Cloud
Proveedor de infrestructura
CLOUD
1.000.000 Servidores
instalados
Innovation
Mas inversion en I+D que
ningún otro partner
tecnológico. $4B al año.

Echemos un OJO atras en el tiempo…
BIG DATA
CLARO EJEMPLO DE
TRANSFORMACION
ACEPTADO
MASIFICADO
ASENTADO

Para finalizar … como ayuda la tecnologia a
convertirnos en ciudadanos digitales…
haciendo que las compañias se tranformen…
y que prediciiones tenemos

Ecosistema Big Data (PUFFFFFFF)
CINCO FASES
INGESTA
ALMACENAJE
ANALIZAR
MOSTRAR
ACTUAR

DATA LAKE
… ¿Y que hacemos?… SIMPLIFICAR
Multiples Tecnologias Convergen en el 90% en Hadoop (HDFS)
Multiples Data Analytics
Diferentes Departamentos, On Premise
me lo llevo a la nube
¿Tiene algo que decir el
DATO?
Que soy UNICO y Persisto. Que soy de
la EMPRESA, no de alguien concreto

… ¿Y que hacemos?… SIMPLIFICAR
VIRTUALIZACIÓN
Hay algo que cambia a
gran velocidad
Las herramientas de Trabajo. SIN DUDA
Herramientas, Tecnologias,
usuarios y tareas
Data scientist, Modelos e hipótesis y necesita
proceso
Business analyst, queries del negocio sobre
modelos/algoritmos definidos
Si esto CRECE y CRECE
y CRECE????????
¿Como actualizo, parcheo, balanceo
recursos, los optimizo?

IaaSSaaSIaaS/PaaS
HDFS EN ISILON
HADOOP EN SCALEIO
APLICACIONES DE ANALITICA
PLATAFORMA DE DATOS
EJECUCIÓN HIVE/GEMFIREPOSTGRESQL IN MEMORY DD.BBCASSANDRA/HBase
PROCESO COUCHBASESPRING XD
RECOPILACIÓN
APLICACIONES
Red WebSensor ProveedorRedes sociales Mercado
E S T R U C T U R A D O SN O E S T R U C T U R A D O S
ERP PLMCRM
Arquitectura GENERAL BIG DATA
DATA LAKE SDS
VIRTUALIZACION
IMPALAKAFKA

El Concepto de DATA LAKE en una SLIDE
• Una infraestructura para TODOS los DATOS
• Arquitectura SCALE-OUT para absorber decadas de datos.
• Que soporte Multiples Aplicaciones y Cargas de Trabajo
• Capaz de adaptarse al rendimiento sin impacto
• Que tenga Futuro, evolucion (Cloud Enable, IoT)

Datos
Tradicionales
Nuevas
Fuentes
Datos
Dispositivos
Geolocalización
Web Data
IoT
Docs, emails, Home
Directories
Server Logs
Dato Estructurado y Dato NO Estructurado

Tres definiciones de Hadoop
Hadoop
Es un framework de Data Analytics de Apache que premite
procesado en paralelo de un conjunto grande de data sets
MapReduce
Es el proceso de Hadoop que divide la carga de trabajo
entre multiples nodos que puedan procesarlo
HDFS
File system distribuido para los datos. Proporciona
disponibilidad y localidad del dato (x3 mirror)

INGESTA
Capturar datos del mayor
número de Fuente posibles
nuevas y existentes
ALMACENAR
Almacenar todo en un
repositorio común para un
análisis cross-data
ANALIZAR
Usar algoritmos
avanzados para descubrir
patrones predictivos
MOSTRAR
Compartir los insights
con expertos
del negocio
ACTUAR
Construir aplicaciones
data-driven para
determinar necesidades
del negocio
Arquitectura Abierta para BIG DATA
DATA LAKE VIRTUALIZACION
HDFS WORKER MAP/REDUCE

Ethernet
Arquitectura Cerrada o Arquitectura Abierta
NameNode
Data Node + Compute Node
Escalabilidad
Disponibilidad
Rendimiento
Heterogeneidad
¿En Computo, en Capacidad (Triple Mirror), Name Node?
Impacto Name Node, No desagregar Map/Reduce de HDFS
Movimiento Datos (+Tiempo), Data/Compute Fight, Localidad Dato
Clave, Silos de DATOS por Distribución.

Necesito contaros como funciona un Cluster
Hadoop (HDFS)
HDFS
filefilefilefile
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
Compute
Data
3X
NFS
Name node
Decision Support
Databases
SOCIAL
NETWORK
OLAP
EDW
HTTP
CIFS
FTP
NFS
Landing Zone Servers
Paso 1:
Los Datos se Copian en
Landing Zone
Paso 2:
Los Datos se Copian al
Cluster (3 times)
Paso 3:
Hadoop Jobs se
ejecutan
S3

Como definimos al DATA LAKE…
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
22

Un Repositorio COMUN para TODO…
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test

Accesible desde CUALQUIER Protocolo…
DATA LAKE
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
24

DATA LAKE
SCALE-OUT SINGLE
REPOSITORY
MULTI-PROTOCOL /
WORKLOAD TIERS
ENTERPRISE
FEATURES
MANAGE
PBs
ENTERPRISE

Un único File System en un único BOTE Común
Singlevolume
Single volume and file system
 Directorios y ficheros son stripeados a través de todos
los nodos del cluster
Automatizacón
 NO se precisa configuracion (IP Balanced)
 NO se precisa mas que un punto de montaje
 NO se precisaran nuevas migraciones de datos

Reparto de los recursos entre los NODOS
• Autobalanceo mueve contenido a nuevos nodos
añadido online automaticamente
• Eliminamos puntos de saturacion, clave en
Analítica
• Almacenamiento Data Lake usable superior al
80%
Empty
Empty
Empty
Empty
Empty
Full
Full
Full
Full
Balanced
Balanced
Balanced
Balanced
Balanced
Balanceo de la Carga
Automatizado entre todos los nodos reduciendo costs,
complejidad y riesgos

No todos los datos tienen la misma criticidad
28
NITRO (FLASH)
High Performance
S-Series
Highly Versatile
X-Series
Nearline
NL-Series
Gestión Inteligente
de los Datos
<30 días S210
> 1 año HD400
>30 días NL410
<30 días
Un año

Arquitectura Abierta = SIMPLE
Clientes y Aplicaciones
RESTful API
GET PUT POST DELETE
Conectividad
Ethernet
10GbE
OneFS (DATA LAKE)Multi-Protocol Client/Application Layer
Conectividad
Ethernet
Protocolos
SMBNFS
FTPHTTP
HDFS
for
Hadoop
REST
for Object

Y todo lo contado Para que???
MEJORAR LOS TIEMPOS
DE EJECUCIÓN
17m32s 30m18s 20m50s
MEJORAR
EL RENDIMIENTO
16m00s
75%
Reducción de
Tiempos de
EJECUCIÓN
45%
Reducción en
COMPUTO

Workers con vHadoop, mejoran la Capa
Proceso
Arquitectura Cerrada (DAS)
 55MB/s Node Throughput
 Compute: 30m 18s
 Time To Results: 68m 40s
Arquitectura Abierta
 85MB/s Node Throughput
 Compute: 16m 00s
 Time To Results: 16m 00s
name node
datanode
Isilon
name node
name node
name node
MAP
Reduce
MAP
Reduce
MAP
Reduce
VIRTUALIZACION
DATA LAKE

Discutamos sobre la nomenclatura
Virtualización
IaaS
Cloud Privada
Cloud Publica
Cloud Hibrida
SDDC
SDS
SDNPaaS/SaaS
SDC

StorageNetworkingCompute
CAPA DE SERVICIOS
Definición de Virtualización
HYPERVISOR
Virtual
Machines
Virtual
Machines
Virtual
Machines
HW x86 HW x86 HW x86 HW x86

SDN: Software Define Network
L2/L3 stack
Dell EMC Open Networking
SDN Base
Controller-less Fabric
Servicios Avanzados
L2/L3, Automatización
Health, Evolución
Others
RESTful,
JSON API
AnsibleC APIVMware OpenStack Python Integración
L2/L3 stack L2/L3 stack

Diferentes Nombres para un mismo proposito
Computo Virtualizado (IaaS, Cloud
Privada)
Eficiencia y simplicidad
Contener y reducir costes
Coordinar y mejorar la entrega de Servicios
Abstraer
Automatizar
HCI

Que es Vmware en una SLIDE
App
Services
Insfraest
Services
VMware vSphere
• VMware HA
• SRM
Continuidad
de Negocio
• vCPU
• Memoria
Computo
• vSAN
• VMDK
Almacenamiento
• NSX
Network
• vMOTION
• DRS
Disponibilidad
• Miles VM
• Heterogeneo
Escalabilidad

Hacia donde va VMware
vRealize Cloud Management
vRealize
vCloud director
vCloud air

Que es OPENSTACK en una SLIDE
Horizon
dashboard
Swift
object store
Glance
image store
Nova
compute node
Cinder
volume service
Keystone
identity service
Heat
Orchestration
Celiometer telemetry service
Trove
database
Neutron
networking
S3 EC2 EBS vPC RDSAMI
IAMCloud
Formation

Diferentes Nombres para un mismo proposito
Siguiente Evolución - IoT
EDGE to CORE to CLOUD
Velocidad y Agilidad
Reducir los tiempos entre la codificación y el paso a
producción (DevOps)
Computo Virtualizado (IaaS, Cloud
Privada)
Eficiencia y simplicidad
Contener y reducir costes
Coordinar y mejorar la entrega de Servicios
Abstraer
Automatizar
HCI

Scale-out Isilon para un Scale-out en COMPUTO
Compute
Nodes
• Capa Proceso BIG DATA e Isilon son SCALE-
OUT
• HDFS en Isilon se ejecuta como parallel file
system
• Cada Nodo de Computo (Map/Reduce) usara
TODOs los Nodos de Isilon
• Escalabilidad Lineal en Capacidad y en
Throughput
• Computo y Datos creceran BAJO DEMANDA,
Online y 24x7
• 10GbE con SDN permitira “eliminar” la
localidad del dato.
Isilon
Nodes
SDN
Ethernet

DATA LAKE + VIRTUALIZACION
 Scale compute independiente del
almacenamiento
 Alcanzar el rendimiento óptimo
balanceado incluso si la carga
evoluciona
 Sin migración de datos, nunca
mas!
 Añadimos nuevo rendimiento con
nuevos nodos
Nodos Computo WORKER
Almacenamiento
Rendimiento y
Capacidad
REQUERIDO
Nodos WORKER
Requeridos
Cual es el resultado de
DATA LAKE + VIRTUALIZACION

SMB, NFS,
HTTP, FTP,
HDFS
Soportamos y Soportaremos cualquier
Distribución BIG DATA
NFS
SMB
SMB
NFS
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
VIRTUALIZACION
DATA LAKE
SDN
MAP
Reduce
MAP
Reduce
MAP
Reduce
name
node
datanode
Isilon
name
node
name
node
name
node

Compartamos Conclusiones
VIRTUALIZACION
DATA LAKE
SDN
MAP
Reduce
MAP
Reduce
MAP
Reduce
name
node
datanode
Isilon
name
node
name
node
name
node
Escalabilidad garantizada Arquitectura Flexible sin límites
Adaptación total al negocio Consolidacion de Analítica
 SCALE-OUT en Datos y Computo
 Mayor Disponibilidad y Rendimiento
Lineal
 Optimización de Recursos (TCO)
 Balanceo de Carga en Proceso y
Datos
 Crecimiento no disruptivo
 Sin migraciones de datos
 Repositorio Común de los Datos
 Heterogeneidad de Soluciones Big
Data
 Prepararados para nuevas “olas”
(IoT)
 Prestaciones predecibles
 Actualizaciones plug & play
 Adaptación de configuraciones y
prestaciones

VIRTUALIZACION
DATA LAKE
DATACENTER
En los Proximos 15 Años
Todo centrado en el Negocio
Aplicaciones Cloud-Native
Analítica Prescriptiva
Infraestructura Agil
Internet of Everything
5

Data lake y virtualización. Ejes para una arquitectura abierta en big data v6

Data lake y virtualización. Ejes para una arquitectura abierta en big data v6

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Data lake y virtualización. Ejes para una arquitectura abierta en big data v6

Similar a Data lake y virtualización. Ejes para una arquitectura abierta en big data v6 (20)

Último

Último (20)

Data lake y virtualización. Ejes para una arquitectura abierta en big data v6