SlideShare una empresa de Scribd logo
Introducción a Big
Data
Agenda
• Introducción a Big Data
• Datos estructurados y no estructurados
• Hadoop
• Ecosistema Hadoop
• Casos de Estudio
Definiciones de Big Data
• Un conjunto de tecnologías relacionadas y no
relacionadas para analítica a gran escala
• Gran volumen, alta velocidad y gran variedad de
información que demanda un procesado poco costoso
para obtener conocimiento y tomar decisiones.
Las V’s de Big Data
•Volumen: Terabytes, Petabytes, Exabytes
•Velocidad: hora, segundos, milisegundos
•Variedad: 5 formatos, 10 formatos, 20+
formatos
•Variabilidad: formatos cambian en el
tiempo
No todas las V’s tienen que estar presentes
ROI probado
• Google AdWords: Predicción de click through rates
(CTR)
• Netflix: 75% del streaming de video viene de
recomendaciones
• Amazon: 35% de las ventas de producto vienen de
recomendaciones de producto
Nada nuevo, excepto las V’s
Correlación de Búsquedas
¿Sólo correlaciones?
http://www.tylervigen.com/
Big Data ≠ BI Tradicional con más datos
• Big Data está redefiniendo los procesos de gestión de
datos maestros, calidad de datos y gestión del ciclo de
vida de la información
• Big Data NO reemplaza EDW y OLAP, suplementa esas
inversiones
• El ecosistema Big Data incluye una gran variedad de
tecnologías analíticas
• Bases de datos columnares, JSON y almacenes de
ficheros no estructurados
Enfoque evolutivo
ETL Tool
(SSIS, etc)
EDW
(SQL Svr, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Data Marts
Data Lake(s)
Ingest (EL)
Original Data
Dashboards
Apps
Scale-out
Storage &
Compute
(HDFS, Blob
Storage, etc)
Transform & Load
Streaming data
Cambios en patrones DW
El almacenamiento Big Data (hoy
en día Data Lake) se caracteriza por
tres atributos clave:
• Recoge todo
• Explótalo desde cualquier sitio
• Acceso Flexible
Cambios en patrones DW
Cambiar de Esquema primero a Esquema más tarde
1. Llegan los datos
2. Se deriva el
esquema
3. Limpieza de Datos
4. Transformación
5. Carga en EDW
6. Análisis
1.
2.
3.
4.
Valor de
los datos
LENTO
Rápido valor
de los datos
Cambios en Patrones
Results
Datos no
relacionales
Social
apps
Sensor
and RFID
Mobile
apps
Web
apps
Hadoop
Datos Relac. y OLAP
Traditional schema-based data
warehouse applications
EDW
HDFS bridge
Enhanced query
engine
External table
External data
source
External file
format
Regular
T-SQL
Básicamente construir un “puente” hacia Big Data
Componentes de una Arquitectura Big
Data
Tipos de Carga de Trabajo
• Procesado batch de grandes orígenes de datos
• Procesado de grandes cantidades de datos en tiempo
real
• Exploración interactiva de grandes cantidades de
datos
• Analítica predictiva y Machine Learning
• Considerar big data cuando:
• Se almacenan y procesan grandes cantidades de datos
demasiado grandes para una base de datos tradicional
• Transformar datos no estructurados para análisis y Reporting
• Capturar, procesar y analizar grandes cantidades de datos en
streaming en tiempo real o con muy baja latencia
Agenda
• Introducción a Big Data
• Datos estructurados y no estructurados
• Hadoop
• Ecosistema Hadoop
• Casos de Estudio
Datos no estructurados no se
están analizando
Registros
Datos
Estructurados
BIG DATA
▪ Datos estructurados
▪ BBDD Relacionales
▪ BBDD Analíticas
Datos no estructurados no se
están analizando
Log files
Datos
menos
estructura
dos
Public data
Device
outputs
Texto/Image
nes
Registros
Datos
Estructurados
New
Insights
▪ Datos Menos estructurados
▪ Crear ETL para transformar
en Relacional
▪ Mucho tiempo desarrollo
▪ Susceptible cambio estructura
▪ Archivado o borrado
▪ Acceso caro
▪ Datos estructurados
▪ BBDD Relacionales
▪ BBDD Analíticas
Datos en las organizaciones
20%
80%
Tipos de datos
Structured
Less Structured
Ejemplos de datos no estructurados
12 Tb
day
21 Pb
Hadoop
cluster
7 Pb
Month
(search
queries info)
1 Tb
tweets/day
75
Million
scores/day
Millions of
opinions
4 Billion
Graph
edg/day
7 Tb
data/day
Agenda
• Introducción a Big Data
• Datos estructurados y no estructurados
• Hadoop
• Ecosistema Hadoop
• Casos de Estudio
Hadoop
• Open Source ☺
• Plataforma de almacenamiento y procesado para Big
Data
• Optimizado para manejar
• Datos de forma masiva utilizando paralelismo
• Variedad de datos(Estructurado, No estructurado, Menos
estructurado)
• Uso de hardware barato
• No para OLTP / OLAP
• Mover el cómputo hacia el dato
Hadoop
• Componentes core de Hadoop: HDFS & MapReduce
• Hadoop Distribution File System
• Distribuido, tolerante a fallos, redundante, autorecuperable
• Map Reduce
• Procesamiento distribuido, tolerante a fallos, procesa donde
está el dato. Lectura y procesado distribuido.
Un cliente escribiendo datos en
HDFS
File File File
File File File
File
File File File
File File File
File File
File File File
File File
File File File
File File
NameNode DataNode
File File
File File
DataNode DataNode
File
File
File File
File
File File
Tamaño de Bloque = 64 Mb
Factor Replicación = 3
Hadoop
• Escalable
• Escala linealmente en capacidad de almacenamiento y
procesado.
• Tolerante a Fallos
• Matrimonio entre un Sistema de ficheros distribuido y un
framework tolerante a fallos utilizado para leer datos
• Procesamiento distribuido
• Sigue la estrategia de divide y vencerás.
RDBMS vs Hadoop
Característica RDBMS Hadoop
Tamaño de Datos Gigabytes (Terabytes) Petabytes (Hexabytes)
Acceso Interactivo y Batch Batch – NO Interactivo
Actualizaciones Leer/ Escribir varias veces Escribir una vez, leer varias veces
Estructura Esquema estático Esquema dinámico
Integridad Alta (ACID) Baja
Escalado No lineal Lineal
Tiempo de respuesta
consultas
Puede ser casi inmediato Tiene latencia (debido a procesamiento
batch)
Historia Hadoop
2002: Nutch open source motor de búsqueda por Doug Cutting
2003: Google publica un documento sobre GFS (Google Distribute File System)
2004: Nutch Distributed Files System (NDFS)
2004: Google publica un documento sobre MapReduce
2005: MapReduce se implementa en NDFS
2006: Doug Cutting se une a Yahoo! & inician Apache Hadoop Subproject
2008: Hadoop se convierte en un Proyecto top de Apache
El índice de Yahoo’s se ejecuta en un cluster de 10.000 nodos
Hadoop rompe el record de 1TB en ordenación: 209s en 910 nodos
New York Times convierte 4TB de archivos en PDF en 24h en 100 nodos
2011: Yahoo crea HortonWorks, una compañía dedicada a Hadoop
2011: HortonWorks y Microsoft anuncian un acuerdo
2011: Microsoft libera la primera preview de Isotop/HDInsight
2018: Cloudera compra Horthonworks
El Zoo de Big Data
• El objetivo de Hadoop es crear
un framework unificado para
procesar big data
• Tres requisitos principales:
• Escalabilidad
• Fiabilidad
• Eficiencia HDFS
YARN
MapReduce Tez
Hadoop Core
Distributed Storage
(HDFS)
Map Reduce
ODBC
Ecosistema Hadoop
YARN
TEZ
Hive
• Sistema Data Warehouse para Hadoop
• Facilita las sumarizaciones de datos
• Consultas Ad-hoc
• Lenguaje consulta similar SQL: HiveQL
• Análisis de grandes conjuntos de datos almacenados
en Hadoop
• Por detrás ejecuta
• Trabajos MapReduce
• Stinger / Tez
• LLAP (Long Live and Process)
Pig
• Lenguaje scripting de Alto nivel
• Capa de procesamiento de Alto Nivel que se ejecuta en
Hadoop
• Usa ambos HDFS y Map Reduce
• Facilidad de programación
• El Usuario se enfoca en semántica en lugar de eficiencia. Map
Reduce es como lenguaje de ensamblador
• Extensibilidad
Flume & Sqoop
• Flume
• Recolectar y mover grandes cantidades de datos
• Ejecución distribuida
• Sqoop
• Import y Export: RDBMS → HDFS, Hive..
• SQL Server, MySQL, Oracle
• Ejecución distribuida
Mahout & Pegasus
• Mahout
• Machine learning y data mining a gran escala
• clusterización, recomendaciones, clasificación, y más.
• Pegasus
• Page Rank y Graph Mining
• Network Analysis.
• Por detrás se ejecutan Trabajos MapReduce
Agenda
• Introducción a Big Data
• Datos estructurados y no estructurados
• Hadoop
• Ecosistema Hadoop
• Casos de Estudio
Almacena ahora, averigua más tarde
• Hadoop facilita almacenamiento y procesado
• Fácil de desarrollar programas que obtienen
conocimiento de datos no estructurados
• Framework para almacenar y procesar subconjunto de
los datos a demanda
Datos en Tiempo Real
• Utilizar almacenes de datos operacionales en tiempo
real (RT ODSs)
• Utilizar DW en Tiempo real
• Implementar CDC
• Presentar datos en tiempo real y datos históricos
• Definir umbrales aceptables y reglas de negocio para
todas las entidades del tiempo real
Datos en Tiempo Real
• Flujo de datos continuo
• Manejar el stream como si fuese una cola
• Ventanas de tiempo
• Arquitectura de datos Hadoop y Lambda
• Enriquecer datos de streaming con datos de la
organización
• Almacenar los datos de stream para construir la
historia
Arquitectura Lambda
Casos de estudio Hadoop (I)
• Modelado de Riesgos
• Banca y seguros,
• Análisis de rotación
• Consultar logs y datos complejos desde múltiples orígenes
• Motor de recomendaciones
Casos de Estudio Hadoop (II)
• Ad Targeting
• CTR, placement, auction
• Análisis de transacción en punto de venta
• Análisis cesta de la compra, mejora de márgenes
• Datos de Redes
• Predicción de fallos, ratios de transmission, protocolos de
transmisión
Casos de Estudio Hadoop (III)
• Detección de fraude
• En transacciones
• Calidad búsquedas
• Resultados relevantes, utilidad de búsquedas
• Data sandbox
• Almacenado ahora y analizado después
• Análisis de Sentimiento
• Twitter
Caso de Éxito: Mood Index
MIDAMO
Opciones
Datalakehouse

Más contenido relacionado

Similar a 01 Introduccion a Big Data y Hadoop.pdf

Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
SolidQ
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
Gustavo Alzate Sandoval
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
Carlos Augusto Carreño Villarreyes
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Urko Zurutuza
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Joseph Lopez
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
Juan José Domenech
 
Flowics - Jornada en Big Data 2016 - ITBA
Flowics - Jornada en Big Data 2016 - ITBA Flowics - Jornada en Big Data 2016 - ITBA
Flowics - Jornada en Big Data 2016 - ITBA
Andres Moratti
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVA
BEEVA_es
 
BI - Componentes de BI.pptx
BI - Componentes de BI.pptxBI - Componentes de BI.pptx
BI - Componentes de BI.pptx
JOHNATANSTEVENPALOMG
 
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAExpert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
John Bulla
 
Hadoop_Introduction_pptx.pptx
Hadoop_Introduction_pptx.pptxHadoop_Introduction_pptx.pptx
Hadoop_Introduction_pptx.pptx
AlbertoBarronMiranda1
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
SpanishPASSVC
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
Joseph Lopez
 
Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)
Javier Gómez Santos
 
Querona
QueronaQuerona
Querona
Synergo!
 
Big Data en el entorno Bancario
Big Data en el entorno BancarioBig Data en el entorno Bancario
Big Data en el entorno Bancario
Martín Cabrera
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
Arsys
 
Desayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azureDesayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azure
Guillermo Javier Bellmann
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
mateo luquez
 
Sistema de Bases de Datos AWS
Sistema de Bases de Datos AWSSistema de Bases de Datos AWS
Sistema de Bases de Datos AWS
Amazon Web Services LATAM
 

Similar a 01 Introduccion a Big Data y Hadoop.pdf (20)

Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Monta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión IMonta una Infraestructura Big Data para tu Empresa - Sesión I
Monta una Infraestructura Big Data para tu Empresa - Sesión I
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Flowics - Jornada en Big Data 2016 - ITBA
Flowics - Jornada en Big Data 2016 - ITBA Flowics - Jornada en Big Data 2016 - ITBA
Flowics - Jornada en Big Data 2016 - ITBA
 
Data Platform de BEEVA
Data Platform de BEEVAData Platform de BEEVA
Data Platform de BEEVA
 
BI - Componentes de BI.pptx
BI - Componentes de BI.pptxBI - Componentes de BI.pptx
BI - Componentes de BI.pptx
 
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAExpert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
 
Hadoop_Introduction_pptx.pptx
Hadoop_Introduction_pptx.pptxHadoop_Introduction_pptx.pptx
Hadoop_Introduction_pptx.pptx
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)Panorama BigData (OpenExpo2017)
Panorama BigData (OpenExpo2017)
 
Querona
QueronaQuerona
Querona
 
Big Data en el entorno Bancario
Big Data en el entorno BancarioBig Data en el entorno Bancario
Big Data en el entorno Bancario
 
Whitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar HadoopWhitepaper – Qué es y cómo utilizar Hadoop
Whitepaper – Qué es y cómo utilizar Hadoop
 
Desayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azureDesayuno de arquitectos: Big data en azure
Desayuno de arquitectos: Big data en azure
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Sistema de Bases de Datos AWS
Sistema de Bases de Datos AWSSistema de Bases de Datos AWS
Sistema de Bases de Datos AWS
 

Último

UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
Mayra798665
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
agustincarranza11
 
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
darkskills2011
 
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
hugowagner811
 
William James funcionalismo datos relevantes.pdf
William James funcionalismo datos relevantes.pdfWilliam James funcionalismo datos relevantes.pdf
William James funcionalismo datos relevantes.pdf
IvanNievesEspinoza
 
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICOAVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
ronaldomarca1999
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
mirimerlos5
 
Libro - Teoria Historia de la Arquitectura
Libro - Teoria Historia de la ArquitecturaLibro - Teoria Historia de la Arquitectura
Libro - Teoria Historia de la Arquitectura
baceg35604
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
YulEz1
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
eleandroth
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
eliassalascolonia43
 
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docxInforme 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
francescasansonikoga
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
IrapuatoCmovamos
 
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptxReporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
ZuppaSRL
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
riveroarlett5b
 

Último (17)

UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
 
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
MONOGRAFIA DEL BUSCADOR YAHOO! APSTI1"A"
 
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
PROCESAMIENTO DIGITAL DE IMAGENES PDS 2020
 
William James funcionalismo datos relevantes.pdf
William James funcionalismo datos relevantes.pdfWilliam James funcionalismo datos relevantes.pdf
William James funcionalismo datos relevantes.pdf
 
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICOAVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
AVANCE TECNOLOGICO AREAS DE IMPACTO DEL AVANCE TECNOLOGICO
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
 
Libro - Teoria Historia de la Arquitectura
Libro - Teoria Historia de la ArquitecturaLibro - Teoria Historia de la Arquitectura
Libro - Teoria Historia de la Arquitectura
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
 
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docxInforme 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
Informe 13 _ _Software OnLine_ Ofimática, edición y descargas entre otros_.docx
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
 
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptxReporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
Reporte_de_Accidentes_y_Criterio_de_clasificacion_1 (1).pptx
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
 

01 Introduccion a Big Data y Hadoop.pdf

  • 2. Agenda • Introducción a Big Data • Datos estructurados y no estructurados • Hadoop • Ecosistema Hadoop • Casos de Estudio
  • 3. Definiciones de Big Data • Un conjunto de tecnologías relacionadas y no relacionadas para analítica a gran escala • Gran volumen, alta velocidad y gran variedad de información que demanda un procesado poco costoso para obtener conocimiento y tomar decisiones.
  • 4. Las V’s de Big Data •Volumen: Terabytes, Petabytes, Exabytes •Velocidad: hora, segundos, milisegundos •Variedad: 5 formatos, 10 formatos, 20+ formatos •Variabilidad: formatos cambian en el tiempo No todas las V’s tienen que estar presentes
  • 5. ROI probado • Google AdWords: Predicción de click through rates (CTR) • Netflix: 75% del streaming de video viene de recomendaciones • Amazon: 35% de las ventas de producto vienen de recomendaciones de producto
  • 9. Big Data ≠ BI Tradicional con más datos • Big Data está redefiniendo los procesos de gestión de datos maestros, calidad de datos y gestión del ciclo de vida de la información • Big Data NO reemplaza EDW y OLAP, suplementa esas inversiones • El ecosistema Big Data incluye una gran variedad de tecnologías analíticas • Bases de datos columnares, JSON y almacenes de ficheros no estructurados
  • 10. Enfoque evolutivo ETL Tool (SSIS, etc) EDW (SQL Svr, Teradata, etc) Extract Original Data Load Transformed Data Transform BI Tools Data Marts Data Lake(s) Ingest (EL) Original Data Dashboards Apps Scale-out Storage & Compute (HDFS, Blob Storage, etc) Transform & Load Streaming data
  • 11. Cambios en patrones DW El almacenamiento Big Data (hoy en día Data Lake) se caracteriza por tres atributos clave: • Recoge todo • Explótalo desde cualquier sitio • Acceso Flexible
  • 12. Cambios en patrones DW Cambiar de Esquema primero a Esquema más tarde 1. Llegan los datos 2. Se deriva el esquema 3. Limpieza de Datos 4. Transformación 5. Carga en EDW 6. Análisis 1. 2. 3. 4. Valor de los datos LENTO Rápido valor de los datos
  • 13. Cambios en Patrones Results Datos no relacionales Social apps Sensor and RFID Mobile apps Web apps Hadoop Datos Relac. y OLAP Traditional schema-based data warehouse applications EDW HDFS bridge Enhanced query engine External table External data source External file format Regular T-SQL Básicamente construir un “puente” hacia Big Data
  • 14. Componentes de una Arquitectura Big Data
  • 15. Tipos de Carga de Trabajo • Procesado batch de grandes orígenes de datos • Procesado de grandes cantidades de datos en tiempo real • Exploración interactiva de grandes cantidades de datos • Analítica predictiva y Machine Learning • Considerar big data cuando: • Se almacenan y procesan grandes cantidades de datos demasiado grandes para una base de datos tradicional • Transformar datos no estructurados para análisis y Reporting • Capturar, procesar y analizar grandes cantidades de datos en streaming en tiempo real o con muy baja latencia
  • 16. Agenda • Introducción a Big Data • Datos estructurados y no estructurados • Hadoop • Ecosistema Hadoop • Casos de Estudio
  • 17. Datos no estructurados no se están analizando Registros Datos Estructurados BIG DATA ▪ Datos estructurados ▪ BBDD Relacionales ▪ BBDD Analíticas
  • 18. Datos no estructurados no se están analizando Log files Datos menos estructura dos Public data Device outputs Texto/Image nes Registros Datos Estructurados New Insights ▪ Datos Menos estructurados ▪ Crear ETL para transformar en Relacional ▪ Mucho tiempo desarrollo ▪ Susceptible cambio estructura ▪ Archivado o borrado ▪ Acceso caro ▪ Datos estructurados ▪ BBDD Relacionales ▪ BBDD Analíticas
  • 19. Datos en las organizaciones 20% 80% Tipos de datos Structured Less Structured
  • 20. Ejemplos de datos no estructurados 12 Tb day 21 Pb Hadoop cluster 7 Pb Month (search queries info) 1 Tb tweets/day 75 Million scores/day Millions of opinions 4 Billion Graph edg/day 7 Tb data/day
  • 21. Agenda • Introducción a Big Data • Datos estructurados y no estructurados • Hadoop • Ecosistema Hadoop • Casos de Estudio
  • 22. Hadoop • Open Source ☺ • Plataforma de almacenamiento y procesado para Big Data • Optimizado para manejar • Datos de forma masiva utilizando paralelismo • Variedad de datos(Estructurado, No estructurado, Menos estructurado) • Uso de hardware barato • No para OLTP / OLAP • Mover el cómputo hacia el dato
  • 23. Hadoop • Componentes core de Hadoop: HDFS & MapReduce • Hadoop Distribution File System • Distribuido, tolerante a fallos, redundante, autorecuperable • Map Reduce • Procesamiento distribuido, tolerante a fallos, procesa donde está el dato. Lectura y procesado distribuido.
  • 24. Un cliente escribiendo datos en HDFS File File File File File File File File File File File File File File File File File File File File File File File File File NameNode DataNode File File File File DataNode DataNode File File File File File File File Tamaño de Bloque = 64 Mb Factor Replicación = 3
  • 25. Hadoop • Escalable • Escala linealmente en capacidad de almacenamiento y procesado. • Tolerante a Fallos • Matrimonio entre un Sistema de ficheros distribuido y un framework tolerante a fallos utilizado para leer datos • Procesamiento distribuido • Sigue la estrategia de divide y vencerás.
  • 26. RDBMS vs Hadoop Característica RDBMS Hadoop Tamaño de Datos Gigabytes (Terabytes) Petabytes (Hexabytes) Acceso Interactivo y Batch Batch – NO Interactivo Actualizaciones Leer/ Escribir varias veces Escribir una vez, leer varias veces Estructura Esquema estático Esquema dinámico Integridad Alta (ACID) Baja Escalado No lineal Lineal Tiempo de respuesta consultas Puede ser casi inmediato Tiene latencia (debido a procesamiento batch)
  • 27. Historia Hadoop 2002: Nutch open source motor de búsqueda por Doug Cutting 2003: Google publica un documento sobre GFS (Google Distribute File System) 2004: Nutch Distributed Files System (NDFS) 2004: Google publica un documento sobre MapReduce 2005: MapReduce se implementa en NDFS 2006: Doug Cutting se une a Yahoo! & inician Apache Hadoop Subproject 2008: Hadoop se convierte en un Proyecto top de Apache El índice de Yahoo’s se ejecuta en un cluster de 10.000 nodos Hadoop rompe el record de 1TB en ordenación: 209s en 910 nodos New York Times convierte 4TB de archivos en PDF en 24h en 100 nodos 2011: Yahoo crea HortonWorks, una compañía dedicada a Hadoop 2011: HortonWorks y Microsoft anuncian un acuerdo 2011: Microsoft libera la primera preview de Isotop/HDInsight 2018: Cloudera compra Horthonworks
  • 28. El Zoo de Big Data • El objetivo de Hadoop es crear un framework unificado para procesar big data • Tres requisitos principales: • Escalabilidad • Fiabilidad • Eficiencia HDFS YARN MapReduce Tez Hadoop Core
  • 30. Hive • Sistema Data Warehouse para Hadoop • Facilita las sumarizaciones de datos • Consultas Ad-hoc • Lenguaje consulta similar SQL: HiveQL • Análisis de grandes conjuntos de datos almacenados en Hadoop • Por detrás ejecuta • Trabajos MapReduce • Stinger / Tez • LLAP (Long Live and Process)
  • 31. Pig • Lenguaje scripting de Alto nivel • Capa de procesamiento de Alto Nivel que se ejecuta en Hadoop • Usa ambos HDFS y Map Reduce • Facilidad de programación • El Usuario se enfoca en semántica en lugar de eficiencia. Map Reduce es como lenguaje de ensamblador • Extensibilidad
  • 32. Flume & Sqoop • Flume • Recolectar y mover grandes cantidades de datos • Ejecución distribuida • Sqoop • Import y Export: RDBMS → HDFS, Hive.. • SQL Server, MySQL, Oracle • Ejecución distribuida
  • 33. Mahout & Pegasus • Mahout • Machine learning y data mining a gran escala • clusterización, recomendaciones, clasificación, y más. • Pegasus • Page Rank y Graph Mining • Network Analysis. • Por detrás se ejecutan Trabajos MapReduce
  • 34. Agenda • Introducción a Big Data • Datos estructurados y no estructurados • Hadoop • Ecosistema Hadoop • Casos de Estudio
  • 35. Almacena ahora, averigua más tarde • Hadoop facilita almacenamiento y procesado • Fácil de desarrollar programas que obtienen conocimiento de datos no estructurados • Framework para almacenar y procesar subconjunto de los datos a demanda
  • 36. Datos en Tiempo Real • Utilizar almacenes de datos operacionales en tiempo real (RT ODSs) • Utilizar DW en Tiempo real • Implementar CDC • Presentar datos en tiempo real y datos históricos • Definir umbrales aceptables y reglas de negocio para todas las entidades del tiempo real
  • 37. Datos en Tiempo Real • Flujo de datos continuo • Manejar el stream como si fuese una cola • Ventanas de tiempo • Arquitectura de datos Hadoop y Lambda • Enriquecer datos de streaming con datos de la organización • Almacenar los datos de stream para construir la historia
  • 39. Casos de estudio Hadoop (I) • Modelado de Riesgos • Banca y seguros, • Análisis de rotación • Consultar logs y datos complejos desde múltiples orígenes • Motor de recomendaciones
  • 40. Casos de Estudio Hadoop (II) • Ad Targeting • CTR, placement, auction • Análisis de transacción en punto de venta • Análisis cesta de la compra, mejora de márgenes • Datos de Redes • Predicción de fallos, ratios de transmission, protocolos de transmisión
  • 41. Casos de Estudio Hadoop (III) • Detección de fraude • En transacciones • Calidad búsquedas • Resultados relevantes, utilidad de búsquedas • Data sandbox • Almacenado ahora y analizado después • Análisis de Sentimiento • Twitter
  • 42. Caso de Éxito: Mood Index