SlideShare una empresa de Scribd logo
1 de 48
Data Lake y Virtualización
Ejes para Una Arquitectura Abierta en BIG DATA
@JULITOJUL101
Transformación Digital de BBVA: Caso de Estudio
en Harvard
http://www.elmundo.es/economia/2015/11/23/5652e567e2704ee57c8b45b4.html
• La TECNOLOGIA va a impulsar una enorme mejora de
la productividad y la eficiencia en la BANCA
• Los BANCOS deben convertirse en organizaciones
impulsadas por los DATOS y ofrecer una banca basada
en el conocimiento
• BBVA es experta en Analítica de DATOS
ELMUNDO.ES
Francisco Gonzalez
Presidente BBVA
Álvarez-Pallete: Los Datos son el Petroleo del
Siglo XXI
http://www.iese.edu/es/conoce-iese/prensa-noticias/noticias/2015/julio/alvarez-pallete-datos-son-petroleo-siglo-xxi/
• TODOS los sectores de actividad, se verán afectados por la
disrupción tecnológica
• El gran potencial de las empresas radicará precisamente
en la cantidad de DATOS que sean capaces de GENERAR
• Simplificación y Digitalización van de la mano
• En 2019, las PERSONAS, al menos, dispondrán de cuatro
dispositivos.
IESE Business School
Jose Maria Alvarez Pallete
Presidente Telefonica
@jmalvpa
© Copyright 2017 Dell Inc.4
2 0 2 0 : U N N U E V O M U N D O D I G I T A L
PERSONAS
CONECTADAS
2.3B
7B
2015 2020
DISPOSITIVOS
CONECTADOS
4.9B
30B
2015 2020
DATOS EN EL
PLANETA
8ZB
44ZB
2015 2020
3X 6X 5X
Michael DELL lo tiene claro “Better together”
Servers
Proveedor de
Servidores en Norte
America,
Sudamerica y China
Support
No lo decimos
nosotros, lo
dicen nuestros
clientes
Data center
Proveedor de virtualización
en el Data Center
(IaaS)
Storage
Mayor cuota de Mercado
Mundial
(STaaS)
Cloud
Proveedor de infrestructura
CLOUD
1.000.000 Servidores
instalados
Innovation
Mas inversion en I+D que
ningún otro partner
tecnológico. $4B al año.
Echemos un OJO atras en el tiempo…
BIG DATA
CLARO EJEMPLO DE
TRANSFORMACION
ACEPTADO
MASIFICADO
ASENTADO
DELL EMC y JOHN
Para finalizar … como ayuda la tecnologia a
convertirnos en ciudadanos digitales…
haciendo que las compañias se tranformen…
y que prediciiones tenemos
Para finalizar … como ayuda la tecnologia a
convertirnos en ciudadanos digitales…
haciendo que las compañias se tranformen…
y que prediciiones tenemos
Ecosistema Big Data (PUFFFFFFF)
CINCO FASES
INGESTA
ALMACENAJE
ANALIZAR
MOSTRAR
ACTUAR
DATA LAKE
… ¿Y que hacemos?… SIMPLIFICAR
Multiples Tecnologias Convergen en el 90% en Hadoop (HDFS)
Multiples Data Analytics
Diferentes Departamentos, On Premise
me lo llevo a la nube
¿Tiene algo que decir el
DATO?
Que soy UNICO y Persisto. Que soy de
la EMPRESA, no de alguien concreto
… ¿Y que hacemos?… SIMPLIFICAR
VIRTUALIZACIÓN
Hay algo que cambia a
gran velocidad
Las herramientas de Trabajo. SIN DUDA
Herramientas, Tecnologias,
usuarios y tareas
Data scientist, Modelos e hipótesis y necesita
proceso
Business analyst, queries del negocio sobre
modelos/algoritmos definidos
Si esto CRECE y CRECE
y CRECE????????
¿Como actualizo, parcheo, balanceo
recursos, los optimizo?
IaaSSaaSIaaS/PaaS
HDFS EN ISILON
HADOOP EN SCALEIO
APLICACIONES DE ANALITICA
PLATAFORMA DE DATOS
EJECUCIÓN HIVE/GEMFIREPOSTGRESQL IN MEMORY DD.BBCASSANDRA/HBase
PROCESO COUCHBASESPRING XD
RECOPILACIÓN
APLICACIONES
Red WebSensor ProveedorRedes sociales Mercado
E S T R U C T U R A D O SN O E S T R U C T U R A D O S
ERP PLMCRM
Arquitectura GENERAL BIG DATA
DATA LAKE SDS
VIRTUALIZACION
IMPALAKAFKA
DATA LAKE
El Concepto de DATA LAKE en una SLIDE
• Una infraestructura para TODOS los DATOS
• Arquitectura SCALE-OUT para absorber decadas de datos.
• Que soporte Multiples Aplicaciones y Cargas de Trabajo
• Capaz de adaptarse al rendimiento sin impacto
• Que tenga Futuro, evolucion (Cloud Enable, IoT)
Datos
Tradicionales
Nuevas
Fuentes
Datos
Dispositivos
Geolocalización
Web Data
IoT
Docs, emails, Home
Directories
Server Logs
Dato Estructurado y Dato NO Estructurado
Tres definiciones de Hadoop
Hadoop
Es un framework de Data Analytics de Apache que premite
procesado en paralelo de un conjunto grande de data sets
MapReduce
Es el proceso de Hadoop que divide la carga de trabajo
entre multiples nodos que puedan procesarlo
HDFS
File system distribuido para los datos. Proporciona
disponibilidad y localidad del dato (x3 mirror)
INGESTA
Capturar datos del mayor
número de Fuente posibles
nuevas y existentes
ALMACENAR
Almacenar todo en un
repositorio común para un
análisis cross-data
ANALIZAR
Usar algoritmos
avanzados para descubrir
patrones predictivos
MOSTRAR
Compartir los insights
con expertos
del negocio
ACTUAR
Construir aplicaciones
data-driven para
determinar necesidades
del negocio
Arquitectura Abierta para BIG DATA
DATA LAKE VIRTUALIZACION
HDFS WORKER MAP/REDUCE
Ethernet
Arquitectura Cerrada o Arquitectura Abierta
NameNode
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Data Node + Compute Node
Escalabilidad
Disponibilidad
Rendimiento
Heterogeneidad
¿En Computo, en Capacidad (Triple Mirror), Name Node?
Impacto Name Node, No desagregar Map/Reduce de HDFS
Movimiento Datos (+Tiempo), Data/Compute Fight, Localidad Dato
Clave, Silos de DATOS por Distribución.
Necesito contaros como funciona un Cluster
Hadoop (HDFS)
HDFS
filefilefilefile
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
MAP
Reduce
Compute
Data
3X
NFS
Name node
Decision Support
Databases
SOCIAL
NETWORK
OLAP
EDW
HTTP
CIFS
FTP
NFS
Landing Zone Servers
Paso 1:
Los Datos se Copian en
Landing Zone
Paso 2:
Los Datos se Copian al
Cluster (3 times)
Paso 3:
Hadoop Jobs se
ejecutan
S3
Como definimos al DATA LAKE…
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
22
Un Repositorio COMUN para TODO…
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
Accesible desde CUALQUIER Protocolo…
DATA LAKE
Home Directories & File SharesSurveillance
Next-Gen Application
Hadoop & Analytics
Transaction
Logs
BLOBSEDW
Content
Shares
Marketing M&E
Social & Next-Gen
Archive &
Backup Target
Data Monetization
Design, Test
& Manufacture
Application Test
24
DATA LAKE
SCALE-OUT SINGLE
REPOSITORY
MULTI-PROTOCOL /
WORKLOAD TIERS
ENTERPRISE
FEATURES
MANAGE
PBs
ENTERPRISE
Un único File System en un único BOTE Común
Singlevolume
Single volume and file system
 Directorios y ficheros son stripeados a través de todos
los nodos del cluster
Automatizacón
 NO se precisa configuracion (IP Balanced)
 NO se precisa mas que un punto de montaje
 NO se precisaran nuevas migraciones de datos
Reparto de los recursos entre los NODOS
• Autobalanceo mueve contenido a nuevos nodos
añadido online automaticamente
• Eliminamos puntos de saturacion, clave en
Analítica
• Almacenamiento Data Lake usable superior al
80%
Empty
Empty
Empty
Empty
Empty
Full
Full
Full
Full
Balanced
Balanced
Balanced
Balanced
Balanced
Balanceo de la Carga
Automatizado entre todos los nodos reduciendo costs,
complejidad y riesgos
No todos los datos tienen la misma criticidad
28
NITRO (FLASH)
High Performance
S-Series
Highly Versatile
X-Series
Nearline
NL-Series
Gestión Inteligente
de los Datos
<30 días S210
> 1 año HD400
>30 días NL410
<30 días
Un año
Arquitectura Abierta = SIMPLE
Clientes y Aplicaciones
RESTful API
GET PUT POST DELETE
Conectividad
Ethernet
10GbE
OneFS (DATA LAKE)Multi-Protocol Client/Application Layer
Conectividad
Ethernet
Protocolos
SMBNFS
FTPHTTP
HDFS
for
Hadoop
REST
for Object
Y todo lo contado Para que???
MEJORAR LOS TIEMPOS
DE EJECUCIÓN
17m32s 30m18s 20m50s
MEJORAR
EL RENDIMIENTO
16m00s
75%
Reducción de
Tiempos de
EJECUCIÓN
45%
Reducción en
COMPUTO
Workers con vHadoop, mejoran la Capa
Proceso
Arquitectura Cerrada (DAS)
 55MB/s Node Throughput
 Compute: 30m 18s
 Time To Results: 68m 40s
Arquitectura Abierta
 85MB/s Node Throughput
 Compute: 16m 00s
 Time To Results: 16m 00s
name node
datanode
Isilon
name node
name node
name node
MAP
Reduce
MAP
Reduce
MAP
Reduce
VIRTUALIZACION
DATA LAKE
VIRTUALIZACIÓN
Discutamos sobre la nomenclatura
Virtualización
IaaS
Cloud Privada
Cloud Publica
Cloud Hibrida
SDDC
SDS
SDNPaaS/SaaS
SDC
StorageNetworkingCompute
CAPA DE SERVICIOS
Definición de Virtualización
HYPERVISOR
Virtual
Machines
Virtual
Machines
Virtual
Machines
HW x86 HW x86 HW x86 HW x86
SDN: Software Define Network
L2/L3 stack
Dell EMC Open Networking
SDN Base
Controller-less Fabric
Servicios Avanzados
L2/L3, Automatización
Health, Evolución
Others
RESTful,
JSON API
AnsibleC APIVMware OpenStack Python Integración
L2/L3 stack L2/L3 stack
SDS: Software Define Storage
Servers
Network
StorageConverged Architecture
200,000 IOPS
20K IOPS20K IOPS20K IOPS20K IOPS20K IOPS20K IOPS 20K IOPS20K IOPS20K IOPS20K IOPS
Flash | SSD | HDD | RAID Cache | RAM
Bare Metal | KVM | VMware | Hyper-V
Diferentes Nombres para un mismo proposito
Computo Virtualizado (IaaS, Cloud
Privada)
Eficiencia y simplicidad
Contener y reducir costes
Coordinar y mejorar la entrega de Servicios
Abstraer
Automatizar
HCI
Que es Vmware en una SLIDE
App
Services
Insfraest
Services
VMware vSphere
• VMware HA
• SRM
Continuidad
de Negocio
• vCPU
• Memoria
Computo
• vSAN
• VMDK
Almacenamiento
• NSX
Network
• vMOTION
• DRS
Disponibilidad
• Miles VM
• Heterogeneo
Escalabilidad
Hacia donde va VMware
vRealize Cloud Management
vRealize
vCloud director
vCloud air
Que es OPENSTACK en una SLIDE
Horizon
dashboard
Swift
object store
Glance
image store
Nova
compute node
Cinder
volume service
Keystone
identity service
Heat
Orchestration
Celiometer telemetry service
Trove
database
Neutron
networking
S3 EC2 EBS vPC RDSAMI
IAMCloud
Formation
Diferentes Nombres para un mismo proposito
Siguiente Evolución - IoT
EDGE to CORE to CLOUD
Velocidad y Agilidad
Reducir los tiempos entre la codificación y el paso a
producción (DevOps)
Computo Virtualizado (IaaS, Cloud
Privada)
Eficiencia y simplicidad
Contener y reducir costes
Coordinar y mejorar la entrega de Servicios
Abstraer
Automatizar
HCI
DATA LAKE
+
VIRTUALIZACION
Scale-out Isilon para un Scale-out en COMPUTO
Compute
Nodes
• Capa Proceso BIG DATA e Isilon son SCALE-
OUT
• HDFS en Isilon se ejecuta como parallel file
system
• Cada Nodo de Computo (Map/Reduce) usara
TODOs los Nodos de Isilon
• Escalabilidad Lineal en Capacidad y en
Throughput
• Computo y Datos creceran BAJO DEMANDA,
Online y 24x7
• 10GbE con SDN permitira “eliminar” la
localidad del dato.
Isilon
Nodes
SDN
Ethernet
DATA LAKE + VIRTUALIZACION
 Scale compute independiente del
almacenamiento
 Alcanzar el rendimiento óptimo
balanceado incluso si la carga
evoluciona
 Sin migración de datos, nunca
mas!
 Añadimos nuevo rendimiento con
nuevos nodos
Nodos Computo WORKER
Almacenamiento
Rendimiento y
Capacidad
REQUERIDO
Nodos WORKER
Requeridos
Cual es el resultado de
DATA LAKE + VIRTUALIZACION
SMB, NFS,
HTTP, FTP,
HDFS
Soportamos y Soportaremos cualquier
Distribución BIG DATA
NFS
SMB
SMB
NFS
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
MAP Reduce
VIRTUALIZACION
DATA LAKE
SDN
MAP
Reduce
MAP
Reduce
MAP
Reduce
name
node
datanode
Isilon
name
node
name
node
name
node
Compartamos Conclusiones
VIRTUALIZACION
DATA LAKE
SDN
MAP
Reduce
MAP
Reduce
MAP
Reduce
name
node
datanode
Isilon
name
node
name
node
name
node
Escalabilidad garantizada Arquitectura Flexible sin límites
Adaptación total al negocio Consolidacion de Analítica
 SCALE-OUT en Datos y Computo
 Mayor Disponibilidad y Rendimiento
Lineal
 Optimización de Recursos (TCO)
 Balanceo de Carga en Proceso y
Datos
 Crecimiento no disruptivo
 Sin migraciones de datos
 Repositorio Común de los Datos
 Heterogeneidad de Soluciones Big
Data
 Prepararados para nuevas “olas”
(IoT)
 Prestaciones predecibles
 Actualizaciones plug & play
 Adaptación de configuraciones y
prestaciones
VIRTUALIZACION
DATA LAKE
DATACENTER
En los Proximos 15 Años
Todo centrado en el Negocio
Aplicaciones Cloud-Native
Analítica Prescriptiva
Infraestructura Agil
Internet of Everything
5
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6

Más contenido relacionado

La actualidad más candente

Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsMundo Contact
 
Bigdata, Business Intelligence? = PowerBi
Bigdata, Business Intelligence? = PowerBiBigdata, Business Intelligence? = PowerBi
Bigdata, Business Intelligence? = PowerBiEmilio Gives
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data AnalyticsStratebi
 
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big DataKEEDIO
 
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACKKEEDIO
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoDatalytics
 
¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...
¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...
¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...Martín Cabrera
 
Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...
Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...
Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...Denodo
 
Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3
Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3
Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3Martín Cabrera
 
IBM Systems Hoja de espe cificaciones IBM Power System S822LC for Big Data ...
IBM Systems Hoja de espe cificaciones IBM Power System  S822LC for Big  Data ...IBM Systems Hoja de espe cificaciones IBM Power System  S822LC for Big  Data ...
IBM Systems Hoja de espe cificaciones IBM Power System S822LC for Big Data ...Diana Sofia Moreno Rodriguez
 
Webinar: Self-service Analytics con Virtualización de Datos
Webinar: Self-service Analytics con Virtualización de DatosWebinar: Self-service Analytics con Virtualización de Datos
Webinar: Self-service Analytics con Virtualización de DatosDenodo
 
Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...
Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...
Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...Martín Cabrera
 
Analítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesAnalítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesBEEVA_es
 
A10 Qlik Sense Desayuno Oct 2016
A10 Qlik Sense Desayuno Oct 2016A10 Qlik Sense Desayuno Oct 2016
A10 Qlik Sense Desayuno Oct 2016Analytics10
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosCelestino Güemes Seoane
 
Lecciones aprendidas en la gestión de datos en tiempos de pandemia
Lecciones aprendidas en la gestión de datos en tiempos de pandemiaLecciones aprendidas en la gestión de datos en tiempos de pandemia
Lecciones aprendidas en la gestión de datos en tiempos de pandemiaDenodo
 

La actualidad más candente (20)

Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
 
Bigdata, Business Intelligence? = PowerBi
Bigdata, Business Intelligence? = PowerBiBigdata, Business Intelligence? = PowerBi
Bigdata, Business Intelligence? = PowerBi
 
9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics9 problemas en proyectos Data Analytics
9 problemas en proyectos Data Analytics
 
Obtención de Datos en #BigData
Obtención de Datos en #BigDataObtención de Datos en #BigData
Obtención de Datos en #BigData
 
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
2016 ULL Cabildo KEEDIO - Proyecto y Roles Big Data
 
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
2016 ULL Cabildo KEEDIO - KEEDIO DATA STACK
 
Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Aplicaciones de BI con Pentaho
Aplicaciones de BI con PentahoAplicaciones de BI con Pentaho
Aplicaciones de BI con Pentaho
 
¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...
¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...
¿Qué debemos hacer desde Tecnología para estar alineados con la Transformac...
 
Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...
Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...
Cómo simplificar las arquitecturas híbridas y multi-cloud con la virtualizaci...
 
Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3
Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3
Cisco CIO Summit 2016 Everis - Martin_Cabrera - v3
 
IBM Systems Hoja de espe cificaciones IBM Power System S822LC for Big Data ...
IBM Systems Hoja de espe cificaciones IBM Power System  S822LC for Big  Data ...IBM Systems Hoja de espe cificaciones IBM Power System  S822LC for Big  Data ...
IBM Systems Hoja de espe cificaciones IBM Power System S822LC for Big Data ...
 
Webinar: Self-service Analytics con Virtualización de Datos
Webinar: Self-service Analytics con Virtualización de DatosWebinar: Self-service Analytics con Virtualización de Datos
Webinar: Self-service Analytics con Virtualización de Datos
 
Querona
QueronaQuerona
Querona
 
Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...
Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...
Creando la Plataforma para la Transformación Digital @ Red Hat Forum Latin Am...
 
Analítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesAnalítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionales
 
A10 Qlik Sense Desayuno Oct 2016
A10 Qlik Sense Desayuno Oct 2016A10 Qlik Sense Desayuno Oct 2016
A10 Qlik Sense Desayuno Oct 2016
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
 
Lecciones aprendidas en la gestión de datos en tiempos de pandemia
Lecciones aprendidas en la gestión de datos en tiempos de pandemiaLecciones aprendidas en la gestión de datos en tiempos de pandemia
Lecciones aprendidas en la gestión de datos en tiempos de pandemia
 
Data as a Service
Data as a ServiceData as a Service
Data as a Service
 

Similar a Data lake y virtualización. Ejes para una arquitectura abierta en big data v6

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoDatalytics
 
Big Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuroBig Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuroAntonio González Castro
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD InsightEduardo Castro
 
Introducción a BigData - up - 2015
Introducción a BigData - up - 2015Introducción a BigData - up - 2015
Introducción a BigData - up - 2015Gabriel Eisbruch
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data PipelinesCarlos Fuentes
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosJohn Bulla
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasJoseph Lopez
 
Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Joseph Lopez
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Big data y las apis
Big data y  las apis Big data y  las apis
Big data y las apis CloudAppi
 
Operational Data Graph: Un enfoque innovador para optimizar las operaciones d...
Operational Data Graph: Un enfoque innovador para optimizar las operaciones d...Operational Data Graph: Un enfoque innovador para optimizar las operaciones d...
Operational Data Graph: Un enfoque innovador para optimizar las operaciones d...Neo4j
 
Nunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de ITNunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de ITNunsys S.L.
 

Similar a Data lake y virtualización. Ejes para una arquitectura abierta en big data v6 (20)

Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Big Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuroBig Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuro
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD Insight
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Introducción a BigData - up - 2015
Introducción a BigData - up - 2015Introducción a BigData - up - 2015
Introducción a BigData - up - 2015
 
BigData
BigDataBigData
BigData
 
Adaptive Big Data Pipelines
Adaptive Big Data PipelinesAdaptive Big Data Pipelines
Adaptive Big Data Pipelines
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datos
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big data y las apis
Big data y  las apis Big data y  las apis
Big data y las apis
 
Operational Data Graph: Un enfoque innovador para optimizar las operaciones d...
Operational Data Graph: Un enfoque innovador para optimizar las operaciones d...Operational Data Graph: Un enfoque innovador para optimizar las operaciones d...
Operational Data Graph: Un enfoque innovador para optimizar las operaciones d...
 
CASO PRACTICO 2.pptx
CASO PRACTICO 2.pptxCASO PRACTICO 2.pptx
CASO PRACTICO 2.pptx
 
Business Analytics 101
Business Analytics 101Business Analytics 101
Business Analytics 101
 
Nunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de ITNunsys HP Day - Un nuevo estilo de IT
Nunsys HP Day - Un nuevo estilo de IT
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 

Último

Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaarkananubis
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 

Último (20)

Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
R1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en minaR1600G CAT Variables de cargadores en mina
R1600G CAT Variables de cargadores en mina
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 

Data lake y virtualización. Ejes para una arquitectura abierta en big data v6

  • 1. Data Lake y Virtualización Ejes para Una Arquitectura Abierta en BIG DATA @JULITOJUL101
  • 2. Transformación Digital de BBVA: Caso de Estudio en Harvard http://www.elmundo.es/economia/2015/11/23/5652e567e2704ee57c8b45b4.html • La TECNOLOGIA va a impulsar una enorme mejora de la productividad y la eficiencia en la BANCA • Los BANCOS deben convertirse en organizaciones impulsadas por los DATOS y ofrecer una banca basada en el conocimiento • BBVA es experta en Analítica de DATOS ELMUNDO.ES Francisco Gonzalez Presidente BBVA
  • 3. Álvarez-Pallete: Los Datos son el Petroleo del Siglo XXI http://www.iese.edu/es/conoce-iese/prensa-noticias/noticias/2015/julio/alvarez-pallete-datos-son-petroleo-siglo-xxi/ • TODOS los sectores de actividad, se verán afectados por la disrupción tecnológica • El gran potencial de las empresas radicará precisamente en la cantidad de DATOS que sean capaces de GENERAR • Simplificación y Digitalización van de la mano • En 2019, las PERSONAS, al menos, dispondrán de cuatro dispositivos. IESE Business School Jose Maria Alvarez Pallete Presidente Telefonica @jmalvpa
  • 4. © Copyright 2017 Dell Inc.4 2 0 2 0 : U N N U E V O M U N D O D I G I T A L PERSONAS CONECTADAS 2.3B 7B 2015 2020 DISPOSITIVOS CONECTADOS 4.9B 30B 2015 2020 DATOS EN EL PLANETA 8ZB 44ZB 2015 2020 3X 6X 5X
  • 5. Michael DELL lo tiene claro “Better together” Servers Proveedor de Servidores en Norte America, Sudamerica y China Support No lo decimos nosotros, lo dicen nuestros clientes Data center Proveedor de virtualización en el Data Center (IaaS) Storage Mayor cuota de Mercado Mundial (STaaS) Cloud Proveedor de infrestructura CLOUD 1.000.000 Servidores instalados Innovation Mas inversion en I+D que ningún otro partner tecnológico. $4B al año.
  • 6. Echemos un OJO atras en el tiempo… BIG DATA CLARO EJEMPLO DE TRANSFORMACION ACEPTADO MASIFICADO ASENTADO
  • 7. DELL EMC y JOHN
  • 8.
  • 9. Para finalizar … como ayuda la tecnologia a convertirnos en ciudadanos digitales… haciendo que las compañias se tranformen… y que prediciiones tenemos
  • 10. Para finalizar … como ayuda la tecnologia a convertirnos en ciudadanos digitales… haciendo que las compañias se tranformen… y que prediciiones tenemos
  • 11. Ecosistema Big Data (PUFFFFFFF) CINCO FASES INGESTA ALMACENAJE ANALIZAR MOSTRAR ACTUAR
  • 12. DATA LAKE … ¿Y que hacemos?… SIMPLIFICAR Multiples Tecnologias Convergen en el 90% en Hadoop (HDFS) Multiples Data Analytics Diferentes Departamentos, On Premise me lo llevo a la nube ¿Tiene algo que decir el DATO? Que soy UNICO y Persisto. Que soy de la EMPRESA, no de alguien concreto
  • 13. … ¿Y que hacemos?… SIMPLIFICAR VIRTUALIZACIÓN Hay algo que cambia a gran velocidad Las herramientas de Trabajo. SIN DUDA Herramientas, Tecnologias, usuarios y tareas Data scientist, Modelos e hipótesis y necesita proceso Business analyst, queries del negocio sobre modelos/algoritmos definidos Si esto CRECE y CRECE y CRECE???????? ¿Como actualizo, parcheo, balanceo recursos, los optimizo?
  • 14. IaaSSaaSIaaS/PaaS HDFS EN ISILON HADOOP EN SCALEIO APLICACIONES DE ANALITICA PLATAFORMA DE DATOS EJECUCIÓN HIVE/GEMFIREPOSTGRESQL IN MEMORY DD.BBCASSANDRA/HBase PROCESO COUCHBASESPRING XD RECOPILACIÓN APLICACIONES Red WebSensor ProveedorRedes sociales Mercado E S T R U C T U R A D O SN O E S T R U C T U R A D O S ERP PLMCRM Arquitectura GENERAL BIG DATA DATA LAKE SDS VIRTUALIZACION IMPALAKAFKA
  • 16. El Concepto de DATA LAKE en una SLIDE • Una infraestructura para TODOS los DATOS • Arquitectura SCALE-OUT para absorber decadas de datos. • Que soporte Multiples Aplicaciones y Cargas de Trabajo • Capaz de adaptarse al rendimiento sin impacto • Que tenga Futuro, evolucion (Cloud Enable, IoT)
  • 17. Datos Tradicionales Nuevas Fuentes Datos Dispositivos Geolocalización Web Data IoT Docs, emails, Home Directories Server Logs Dato Estructurado y Dato NO Estructurado
  • 18. Tres definiciones de Hadoop Hadoop Es un framework de Data Analytics de Apache que premite procesado en paralelo de un conjunto grande de data sets MapReduce Es el proceso de Hadoop que divide la carga de trabajo entre multiples nodos que puedan procesarlo HDFS File system distribuido para los datos. Proporciona disponibilidad y localidad del dato (x3 mirror)
  • 19. INGESTA Capturar datos del mayor número de Fuente posibles nuevas y existentes ALMACENAR Almacenar todo en un repositorio común para un análisis cross-data ANALIZAR Usar algoritmos avanzados para descubrir patrones predictivos MOSTRAR Compartir los insights con expertos del negocio ACTUAR Construir aplicaciones data-driven para determinar necesidades del negocio Arquitectura Abierta para BIG DATA DATA LAKE VIRTUALIZACION HDFS WORKER MAP/REDUCE
  • 20. Ethernet Arquitectura Cerrada o Arquitectura Abierta NameNode Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node Data Node + Compute Node Escalabilidad Disponibilidad Rendimiento Heterogeneidad ¿En Computo, en Capacidad (Triple Mirror), Name Node? Impacto Name Node, No desagregar Map/Reduce de HDFS Movimiento Datos (+Tiempo), Data/Compute Fight, Localidad Dato Clave, Silos de DATOS por Distribución.
  • 21. Necesito contaros como funciona un Cluster Hadoop (HDFS) HDFS filefilefilefile MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce Compute Data 3X NFS Name node Decision Support Databases SOCIAL NETWORK OLAP EDW HTTP CIFS FTP NFS Landing Zone Servers Paso 1: Los Datos se Copian en Landing Zone Paso 2: Los Datos se Copian al Cluster (3 times) Paso 3: Hadoop Jobs se ejecutan S3
  • 22. Como definimos al DATA LAKE… Home Directories & File SharesSurveillance Next-Gen Application Hadoop & Analytics Transaction Logs BLOBSEDW Content Shares Marketing M&E Social & Next-Gen Archive & Backup Target Data Monetization Design, Test & Manufacture Application Test 22
  • 23. Un Repositorio COMUN para TODO… Home Directories & File SharesSurveillance Next-Gen Application Hadoop & Analytics Transaction Logs BLOBSEDW Content Shares Marketing M&E Social & Next-Gen Archive & Backup Target Data Monetization Design, Test & Manufacture Application Test
  • 24. Accesible desde CUALQUIER Protocolo… DATA LAKE Home Directories & File SharesSurveillance Next-Gen Application Hadoop & Analytics Transaction Logs BLOBSEDW Content Shares Marketing M&E Social & Next-Gen Archive & Backup Target Data Monetization Design, Test & Manufacture Application Test 24
  • 25. DATA LAKE SCALE-OUT SINGLE REPOSITORY MULTI-PROTOCOL / WORKLOAD TIERS ENTERPRISE FEATURES MANAGE PBs ENTERPRISE
  • 26. Un único File System en un único BOTE Común Singlevolume Single volume and file system  Directorios y ficheros son stripeados a través de todos los nodos del cluster Automatizacón  NO se precisa configuracion (IP Balanced)  NO se precisa mas que un punto de montaje  NO se precisaran nuevas migraciones de datos
  • 27. Reparto de los recursos entre los NODOS • Autobalanceo mueve contenido a nuevos nodos añadido online automaticamente • Eliminamos puntos de saturacion, clave en Analítica • Almacenamiento Data Lake usable superior al 80% Empty Empty Empty Empty Empty Full Full Full Full Balanced Balanced Balanced Balanced Balanced Balanceo de la Carga Automatizado entre todos los nodos reduciendo costs, complejidad y riesgos
  • 28. No todos los datos tienen la misma criticidad 28 NITRO (FLASH) High Performance S-Series Highly Versatile X-Series Nearline NL-Series Gestión Inteligente de los Datos <30 días S210 > 1 año HD400 >30 días NL410 <30 días Un año
  • 29. Arquitectura Abierta = SIMPLE Clientes y Aplicaciones RESTful API GET PUT POST DELETE Conectividad Ethernet 10GbE OneFS (DATA LAKE)Multi-Protocol Client/Application Layer Conectividad Ethernet Protocolos SMBNFS FTPHTTP HDFS for Hadoop REST for Object
  • 30. Y todo lo contado Para que??? MEJORAR LOS TIEMPOS DE EJECUCIÓN 17m32s 30m18s 20m50s MEJORAR EL RENDIMIENTO 16m00s 75% Reducción de Tiempos de EJECUCIÓN 45% Reducción en COMPUTO
  • 31. Workers con vHadoop, mejoran la Capa Proceso Arquitectura Cerrada (DAS)  55MB/s Node Throughput  Compute: 30m 18s  Time To Results: 68m 40s Arquitectura Abierta  85MB/s Node Throughput  Compute: 16m 00s  Time To Results: 16m 00s name node datanode Isilon name node name node name node MAP Reduce MAP Reduce MAP Reduce VIRTUALIZACION DATA LAKE
  • 33. Discutamos sobre la nomenclatura Virtualización IaaS Cloud Privada Cloud Publica Cloud Hibrida SDDC SDS SDNPaaS/SaaS SDC
  • 34. StorageNetworkingCompute CAPA DE SERVICIOS Definición de Virtualización HYPERVISOR Virtual Machines Virtual Machines Virtual Machines HW x86 HW x86 HW x86 HW x86
  • 35. SDN: Software Define Network L2/L3 stack Dell EMC Open Networking SDN Base Controller-less Fabric Servicios Avanzados L2/L3, Automatización Health, Evolución Others RESTful, JSON API AnsibleC APIVMware OpenStack Python Integración L2/L3 stack L2/L3 stack
  • 36. SDS: Software Define Storage Servers Network StorageConverged Architecture 200,000 IOPS 20K IOPS20K IOPS20K IOPS20K IOPS20K IOPS20K IOPS 20K IOPS20K IOPS20K IOPS20K IOPS Flash | SSD | HDD | RAID Cache | RAM Bare Metal | KVM | VMware | Hyper-V
  • 37. Diferentes Nombres para un mismo proposito Computo Virtualizado (IaaS, Cloud Privada) Eficiencia y simplicidad Contener y reducir costes Coordinar y mejorar la entrega de Servicios Abstraer Automatizar HCI
  • 38. Que es Vmware en una SLIDE App Services Insfraest Services VMware vSphere • VMware HA • SRM Continuidad de Negocio • vCPU • Memoria Computo • vSAN • VMDK Almacenamiento • NSX Network • vMOTION • DRS Disponibilidad • Miles VM • Heterogeneo Escalabilidad
  • 39. Hacia donde va VMware vRealize Cloud Management vRealize vCloud director vCloud air
  • 40. Que es OPENSTACK en una SLIDE Horizon dashboard Swift object store Glance image store Nova compute node Cinder volume service Keystone identity service Heat Orchestration Celiometer telemetry service Trove database Neutron networking S3 EC2 EBS vPC RDSAMI IAMCloud Formation
  • 41. Diferentes Nombres para un mismo proposito Siguiente Evolución - IoT EDGE to CORE to CLOUD Velocidad y Agilidad Reducir los tiempos entre la codificación y el paso a producción (DevOps) Computo Virtualizado (IaaS, Cloud Privada) Eficiencia y simplicidad Contener y reducir costes Coordinar y mejorar la entrega de Servicios Abstraer Automatizar HCI
  • 43. Scale-out Isilon para un Scale-out en COMPUTO Compute Nodes • Capa Proceso BIG DATA e Isilon son SCALE- OUT • HDFS en Isilon se ejecuta como parallel file system • Cada Nodo de Computo (Map/Reduce) usara TODOs los Nodos de Isilon • Escalabilidad Lineal en Capacidad y en Throughput • Computo y Datos creceran BAJO DEMANDA, Online y 24x7 • 10GbE con SDN permitira “eliminar” la localidad del dato. Isilon Nodes SDN Ethernet
  • 44. DATA LAKE + VIRTUALIZACION  Scale compute independiente del almacenamiento  Alcanzar el rendimiento óptimo balanceado incluso si la carga evoluciona  Sin migración de datos, nunca mas!  Añadimos nuevo rendimiento con nuevos nodos Nodos Computo WORKER Almacenamiento Rendimiento y Capacidad REQUERIDO Nodos WORKER Requeridos Cual es el resultado de DATA LAKE + VIRTUALIZACION
  • 45. SMB, NFS, HTTP, FTP, HDFS Soportamos y Soportaremos cualquier Distribución BIG DATA NFS SMB SMB NFS MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce MAP Reduce VIRTUALIZACION DATA LAKE SDN MAP Reduce MAP Reduce MAP Reduce name node datanode Isilon name node name node name node
  • 46. Compartamos Conclusiones VIRTUALIZACION DATA LAKE SDN MAP Reduce MAP Reduce MAP Reduce name node datanode Isilon name node name node name node Escalabilidad garantizada Arquitectura Flexible sin límites Adaptación total al negocio Consolidacion de Analítica  SCALE-OUT en Datos y Computo  Mayor Disponibilidad y Rendimiento Lineal  Optimización de Recursos (TCO)  Balanceo de Carga en Proceso y Datos  Crecimiento no disruptivo  Sin migraciones de datos  Repositorio Común de los Datos  Heterogeneidad de Soluciones Big Data  Prepararados para nuevas “olas” (IoT)  Prestaciones predecibles  Actualizaciones plug & play  Adaptación de configuraciones y prestaciones
  • 47. VIRTUALIZACION DATA LAKE DATACENTER En los Proximos 15 Años Todo centrado en el Negocio Aplicaciones Cloud-Native Analítica Prescriptiva Infraestructura Agil Internet of Everything 5