tics en la vida cotidiana prepa en linea modulo 1.pptx
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
1. Data Lake y Virtualización
Ejes para Una Arquitectura Abierta en BIG DATA
@JULITOJUL101
2. Transformación Digital de BBVA: Caso de Estudio
en Harvard
http://www.elmundo.es/economia/2015/11/23/5652e567e2704ee57c8b45b4.html
• La TECNOLOGIA va a impulsar una enorme mejora de
la productividad y la eficiencia en la BANCA
• Los BANCOS deben convertirse en organizaciones
impulsadas por los DATOS y ofrecer una banca basada
en el conocimiento
• BBVA es experta en Analítica de DATOS
ELMUNDO.ES
Francisco Gonzalez
Presidente BBVA
3. Álvarez-Pallete: Los Datos son el Petroleo del
Siglo XXI
http://www.iese.edu/es/conoce-iese/prensa-noticias/noticias/2015/julio/alvarez-pallete-datos-son-petroleo-siglo-xxi/
• TODOS los sectores de actividad, se verán afectados por la
disrupción tecnológica
• El gran potencial de las empresas radicará precisamente
en la cantidad de DATOS que sean capaces de GENERAR
• Simplificación y Digitalización van de la mano
• En 2019, las PERSONAS, al menos, dispondrán de cuatro
dispositivos.
IESE Business School
Jose Maria Alvarez Pallete
Presidente Telefonica
@jmalvpa
5. Michael DELL lo tiene claro “Better together”
Servers
Proveedor de
Servidores en Norte
America,
Sudamerica y China
Support
No lo decimos
nosotros, lo
dicen nuestros
clientes
Data center
Proveedor de virtualización
en el Data Center
(IaaS)
Storage
Mayor cuota de Mercado
Mundial
(STaaS)
Cloud
Proveedor de infrestructura
CLOUD
1.000.000 Servidores
instalados
Innovation
Mas inversion en I+D que
ningún otro partner
tecnológico. $4B al año.
6. Echemos un OJO atras en el tiempo…
BIG DATA
CLARO EJEMPLO DE
TRANSFORMACION
ACEPTADO
MASIFICADO
ASENTADO
9. Para finalizar … como ayuda la tecnologia a
convertirnos en ciudadanos digitales…
haciendo que las compañias se tranformen…
y que prediciiones tenemos
10. Para finalizar … como ayuda la tecnologia a
convertirnos en ciudadanos digitales…
haciendo que las compañias se tranformen…
y que prediciiones tenemos
11. Ecosistema Big Data (PUFFFFFFF)
CINCO FASES
INGESTA
ALMACENAJE
ANALIZAR
MOSTRAR
ACTUAR
12. DATA LAKE
… ¿Y que hacemos?… SIMPLIFICAR
Multiples Tecnologias Convergen en el 90% en Hadoop (HDFS)
Multiples Data Analytics
Diferentes Departamentos, On Premise
me lo llevo a la nube
¿Tiene algo que decir el
DATO?
Que soy UNICO y Persisto. Que soy de
la EMPRESA, no de alguien concreto
13. … ¿Y que hacemos?… SIMPLIFICAR
VIRTUALIZACIÓN
Hay algo que cambia a
gran velocidad
Las herramientas de Trabajo. SIN DUDA
Herramientas, Tecnologias,
usuarios y tareas
Data scientist, Modelos e hipótesis y necesita
proceso
Business analyst, queries del negocio sobre
modelos/algoritmos definidos
Si esto CRECE y CRECE
y CRECE????????
¿Como actualizo, parcheo, balanceo
recursos, los optimizo?
14. IaaSSaaSIaaS/PaaS
HDFS EN ISILON
HADOOP EN SCALEIO
APLICACIONES DE ANALITICA
PLATAFORMA DE DATOS
EJECUCIÓN HIVE/GEMFIREPOSTGRESQL IN MEMORY DD.BBCASSANDRA/HBase
PROCESO COUCHBASESPRING XD
RECOPILACIÓN
APLICACIONES
Red WebSensor ProveedorRedes sociales Mercado
E S T R U C T U R A D O SN O E S T R U C T U R A D O S
ERP PLMCRM
Arquitectura GENERAL BIG DATA
DATA LAKE SDS
VIRTUALIZACION
IMPALAKAFKA
16. El Concepto de DATA LAKE en una SLIDE
• Una infraestructura para TODOS los DATOS
• Arquitectura SCALE-OUT para absorber decadas de datos.
• Que soporte Multiples Aplicaciones y Cargas de Trabajo
• Capaz de adaptarse al rendimiento sin impacto
• Que tenga Futuro, evolucion (Cloud Enable, IoT)
18. Tres definiciones de Hadoop
Hadoop
Es un framework de Data Analytics de Apache que premite
procesado en paralelo de un conjunto grande de data sets
MapReduce
Es el proceso de Hadoop que divide la carga de trabajo
entre multiples nodos que puedan procesarlo
HDFS
File system distribuido para los datos. Proporciona
disponibilidad y localidad del dato (x3 mirror)
19. INGESTA
Capturar datos del mayor
número de Fuente posibles
nuevas y existentes
ALMACENAR
Almacenar todo en un
repositorio común para un
análisis cross-data
ANALIZAR
Usar algoritmos
avanzados para descubrir
patrones predictivos
MOSTRAR
Compartir los insights
con expertos
del negocio
ACTUAR
Construir aplicaciones
data-driven para
determinar necesidades
del negocio
Arquitectura Abierta para BIG DATA
DATA LAKE VIRTUALIZACION
HDFS WORKER MAP/REDUCE
20. Ethernet
Arquitectura Cerrada o Arquitectura Abierta
NameNode
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Escalabilidad
Disponibilidad
Rendimiento
Heterogeneidad
¿En Computo, en Capacidad (Triple Mirror), Name Node?
Impacto Name Node, No desagregar Map/Reduce de HDFS
Movimiento Datos (+Tiempo), Data/Compute Fight, Localidad Dato
Clave, Silos de DATOS por Distribución.
21. Necesito contaros como funciona un Cluster
Hadoop (HDFS)
HDFS
filefilefilefile
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
Compute
Data
3X
NFS
Name node
Decision Support
Databases
SOCIAL
NETWORK
OLAP
EDW
HTTP
CIFS
FTP
NFS
Landing Zone Servers
Paso 1:
Los Datos se Copian en
Landing Zone
Paso 2:
Los Datos se Copian al
Cluster (3 times)
Paso 3:
Hadoop Jobs se
ejecutan
S3
22. Como definimos al DATA LAKE…
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
22
23. Un Repositorio COMUN para TODO…
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
24. Accesible desde CUALQUIER Protocolo…
DATA LAKE
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
24
26. Un único File System en un único BOTE Común
Singlevolume
Single volume and file system
Directorios y ficheros son stripeados a través de todos
los nodos del cluster
Automatizacón
NO se precisa configuracion (IP Balanced)
NO se precisa mas que un punto de montaje
NO se precisaran nuevas migraciones de datos
27. Reparto de los recursos entre los NODOS
• Autobalanceo mueve contenido a nuevos nodos
añadido online automaticamente
• Eliminamos puntos de saturacion, clave en
Analítica
• Almacenamiento Data Lake usable superior al
80%
Empty
Empty
Empty
Empty
Empty
Full
Full
Full
Full
Balanced
Balanced
Balanced
Balanced
Balanced
Balanceo de la Carga
Automatizado entre todos los nodos reduciendo costs,
complejidad y riesgos
28. No todos los datos tienen la misma criticidad
28
NITRO (FLASH)
High Performance
S-Series
Highly Versatile
X-Series
Nearline
NL-Series
Gestión Inteligente
de los Datos
<30 días S210
> 1 año HD400
>30 días NL410
<30 días
Un año
29. Arquitectura Abierta = SIMPLE
Clientes y Aplicaciones
RESTful API
GET PUT POST DELETE
Conectividad
Ethernet
10GbE
OneFS (DATA LAKE)Multi-Protocol Client/Application Layer
Conectividad
Ethernet
Protocolos
SMBNFS
FTPHTTP
HDFS
for
Hadoop
REST
for Object
30. Y todo lo contado Para que???
MEJORAR LOS TIEMPOS
DE EJECUCIÓN
17m32s 30m18s 20m50s
MEJORAR
EL RENDIMIENTO
16m00s
75%
Reducción de
Tiempos de
EJECUCIÓN
45%
Reducción en
COMPUTO
31. Workers con vHadoop, mejoran la Capa
Proceso
Arquitectura Cerrada (DAS)
55MB/s Node Throughput
Compute: 30m 18s
Time To Results: 68m 40s
Arquitectura Abierta
85MB/s Node Throughput
Compute: 16m 00s
Time To Results: 16m 00s
name node
datanode
Isilon
name node
name node
name node
MAP
Reduce
MAP
Reduce
MAP
Reduce
VIRTUALIZACION
DATA LAKE
37. Diferentes Nombres para un mismo proposito
Computo Virtualizado (IaaS, Cloud
Privada)
Eficiencia y simplicidad
Contener y reducir costes
Coordinar y mejorar la entrega de Servicios
Abstraer
Automatizar
HCI
38. Que es Vmware en una SLIDE
App
Services
Insfraest
Services
VMware vSphere
• VMware HA
• SRM
Continuidad
de Negocio
• vCPU
• Memoria
Computo
• vSAN
• VMDK
Almacenamiento
• NSX
Network
• vMOTION
• DRS
Disponibilidad
• Miles VM
• Heterogeneo
Escalabilidad
39. Hacia donde va VMware
vRealize Cloud Management
vRealize
vCloud director
vCloud air
40. Que es OPENSTACK en una SLIDE
Horizon
dashboard
Swift
object store
Glance
image store
Nova
compute node
Cinder
volume service
Keystone
identity service
Heat
Orchestration
Celiometer telemetry service
Trove
database
Neutron
networking
S3 EC2 EBS vPC RDSAMI
IAMCloud
Formation
41. Diferentes Nombres para un mismo proposito
Siguiente Evolución - IoT
EDGE to CORE to CLOUD
Velocidad y Agilidad
Reducir los tiempos entre la codificación y el paso a
producción (DevOps)
Computo Virtualizado (IaaS, Cloud
Privada)
Eficiencia y simplicidad
Contener y reducir costes
Coordinar y mejorar la entrega de Servicios
Abstraer
Automatizar
HCI
43. Scale-out Isilon para un Scale-out en COMPUTO
Compute
Nodes
• Capa Proceso BIG DATA e Isilon son SCALE-
OUT
• HDFS en Isilon se ejecuta como parallel file
system
• Cada Nodo de Computo (Map/Reduce) usara
TODOs los Nodos de Isilon
• Escalabilidad Lineal en Capacidad y en
Throughput
• Computo y Datos creceran BAJO DEMANDA,
Online y 24x7
• 10GbE con SDN permitira “eliminar” la
localidad del dato.
Isilon
Nodes
SDN
Ethernet
44. DATA LAKE + VIRTUALIZACION
Scale compute independiente del
almacenamiento
Alcanzar el rendimiento óptimo
balanceado incluso si la carga
evoluciona
Sin migración de datos, nunca
mas!
Añadimos nuevo rendimiento con
nuevos nodos
Nodos Computo WORKER
Almacenamiento
Rendimiento y
Capacidad
REQUERIDO
Nodos WORKER
Requeridos
Cual es el resultado de
DATA LAKE + VIRTUALIZACION
45. SMB, NFS,
HTTP, FTP,
HDFS
Soportamos y Soportaremos cualquier
Distribución BIG DATA
NFS
SMB
SMB
NFS
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
VIRTUALIZACION
DATA LAKE
SDN
MAP
Reduce
MAP
Reduce
MAP
Reduce
name
node
datanode
Isilon
name
node
name
node
name
node
46. Compartamos Conclusiones
VIRTUALIZACION
DATA LAKE
SDN
MAP
Reduce
MAP
Reduce
MAP
Reduce
name
node
datanode
Isilon
name
node
name
node
name
node
Escalabilidad garantizada Arquitectura Flexible sin límites
Adaptación total al negocio Consolidacion de Analítica
SCALE-OUT en Datos y Computo
Mayor Disponibilidad y Rendimiento
Lineal
Optimización de Recursos (TCO)
Balanceo de Carga en Proceso y
Datos
Crecimiento no disruptivo
Sin migraciones de datos
Repositorio Común de los Datos
Heterogeneidad de Soluciones Big
Data
Prepararados para nuevas “olas”
(IoT)
Prestaciones predecibles
Actualizaciones plug & play
Adaptación de configuraciones y
prestaciones
47. VIRTUALIZACION
DATA LAKE
DATACENTER
En los Proximos 15 Años
Todo centrado en el Negocio
Aplicaciones Cloud-Native
Analítica Prescriptiva
Infraestructura Agil
Internet of Everything
5