Este documento introduce el concepto de Big Data y Hadoop. Explica que Big Data se refiere a grandes volúmenes y variedad de datos que requieren nuevas formas de procesamiento. Describe las características clave de Hadoop, incluyendo HDFS para almacenamiento distribuido de datos y MapReduce para procesamiento paralelo. También presenta el ecosistema Hadoop y casos de uso comunes como recomendaciones, detección de fraude y análisis de sentimiento en redes sociales.
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
Este documento presenta una introducción a Big Data, incluyendo las tendencias de la industria, definiciones de Big Data, ejemplos de datos masivos, y utilidades de Big Data. También describe escenarios de análisis empresarial utilizando herramientas como Hadoop, Hive y HDInsight, y cómo Microsoft Excel puede usarse para explotar y analizar grandes conjuntos de datos.
Este documento presenta Polybase en SQL Server 2016. Polybase permite consultar y combinar datos estructurados y no estructurados almacenados en SQL Server y Hadoop. Se describen los escenarios de uso como combinar datos de diferentes orígenes, permitir que científicos de datos lean grandes volúmenes de datos, y almacenar datos de forma barata. Finalmente, se explican los pasos para instalar y configurar Polybase, como habilitarlo, enlazarlo con un clúster Hadoop y crear tablas externas.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Big Data es un concepto que hace referencia a un gran conjunto datos complejos, de formato heterogéneos y que donde las aplicaciones y mecanismos tradicionales de procesamiento no resultan ser los más adecuados para procesarlos. Los desafíos dentro del Big Data incluyen el análisis, la captura, la transformación de datos, búsqueda, intercambio, almacenamiento, transferencia, visualización y privacidad de la información.
Inmerso en este nuevo ecosistema de datos de gran tamaño y sin formato, se encuentra Apache Hadoop, un framework de Software desarrollado en un principio por Yahoo, y que ha sido y está siendo el standard de la industria para el procesamiento masivo de datos dentro de un cluster de computadores.
En el presente meetup realizamos una breve descripción de la arquitectura de este framwork y cómo Hadoop puede integrarse con otras diferentes soluciones empresariales. A su vez revisamos como grandes empresas tecnológicas han visto y apostado por Apache Hadoop como una herramienta para construcción de soluciones y procesamiento de datos en entornos de Big Data.
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
Presentación de Javier Torrenteras en el SolidQ Business Analytics Day en Valencia (España)
- ¿Por qué Big data?
- Entonces...Haddoop ¿Qué es?
- ventajas y Componentes de Hadoop
-HD Insight, Windows Azure HDInsight
-Grandes DW
www.bisql.com
Este documento describe las características de los grandes datos y Apache Hadoop. Explica que Hadoop es una plataforma de código abierto para almacenar y analizar grandes conjuntos de datos de forma distribuida a través de clústeres de hardware estándar. Sus componentes principales son HDFS para almacenamiento distribuido de datos y MapReduce para procesamiento paralelo. También describe otros componentes como Pig, Hive, Sqoop y cómo Microsoft ofrece Hadoop a través de HDInsight en Windows Server y Azure.
El documento presenta una agenda para una capacitación sobre Big Data y Data Lakes. Incluye temas como la arquitectura de Data Lake, la creación de metadatos y análisis de información, y la transformación y procesamiento de datos. También incluye casos de uso de compañías como FINRA, Netflix y Yelp que utilizan servicios de AWS como S3, Redshift, EMR y Athena para almacenar y analizar grandes volúmenes de datos de manera rentable.
En esta sesión veremos diferentes métodos para cargar datos en un cluster de HDInsight (Hadoop). Veremos como cada método es válido para: datos desde origenes OLTP, datos desde origenes sin estructura y datos a los que se dota estructura para presentarselos a HDInsight. En cada escenario se debe considerar el uso posterior que se le dará al dato para hacerlo de la forma más eficiente. Habrá casos en los que el dato se serializa con librerías .NET y en otros casos el dato se procesará como texto puro
Introducción a Big Data. HDInsight - Webcast Technet SolidQSolidQ
Este documento presenta una introducción a Big Data, incluyendo las tendencias de la industria, definiciones de Big Data, ejemplos de datos masivos, y utilidades de Big Data. También describe escenarios de análisis empresarial utilizando herramientas como Hadoop, Hive y HDInsight, y cómo Microsoft Excel puede usarse para explotar y analizar grandes conjuntos de datos.
Este documento presenta Polybase en SQL Server 2016. Polybase permite consultar y combinar datos estructurados y no estructurados almacenados en SQL Server y Hadoop. Se describen los escenarios de uso como combinar datos de diferentes orígenes, permitir que científicos de datos lean grandes volúmenes de datos, y almacenar datos de forma barata. Finalmente, se explican los pasos para instalar y configurar Polybase, como habilitarlo, enlazarlo con un clúster Hadoop y crear tablas externas.
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
Breve sinopsis sobre como comprender todo el escenario en la manipulación de datos procedentes del Big Data, de los Almacenes de Datos Empresariales con motor de datos SQL Azure bajo Plataforma BI
Big Data es un concepto que hace referencia a un gran conjunto datos complejos, de formato heterogéneos y que donde las aplicaciones y mecanismos tradicionales de procesamiento no resultan ser los más adecuados para procesarlos. Los desafíos dentro del Big Data incluyen el análisis, la captura, la transformación de datos, búsqueda, intercambio, almacenamiento, transferencia, visualización y privacidad de la información.
Inmerso en este nuevo ecosistema de datos de gran tamaño y sin formato, se encuentra Apache Hadoop, un framework de Software desarrollado en un principio por Yahoo, y que ha sido y está siendo el standard de la industria para el procesamiento masivo de datos dentro de un cluster de computadores.
En el presente meetup realizamos una breve descripción de la arquitectura de este framwork y cómo Hadoop puede integrarse con otras diferentes soluciones empresariales. A su vez revisamos como grandes empresas tecnológicas han visto y apostado por Apache Hadoop como una herramienta para construcción de soluciones y procesamiento de datos en entornos de Big Data.
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
Presentación de Javier Torrenteras en el SolidQ Business Analytics Day en Valencia (España)
- ¿Por qué Big data?
- Entonces...Haddoop ¿Qué es?
- ventajas y Componentes de Hadoop
-HD Insight, Windows Azure HDInsight
-Grandes DW
www.bisql.com
Este documento describe las características de los grandes datos y Apache Hadoop. Explica que Hadoop es una plataforma de código abierto para almacenar y analizar grandes conjuntos de datos de forma distribuida a través de clústeres de hardware estándar. Sus componentes principales son HDFS para almacenamiento distribuido de datos y MapReduce para procesamiento paralelo. También describe otros componentes como Pig, Hive, Sqoop y cómo Microsoft ofrece Hadoop a través de HDInsight en Windows Server y Azure.
El documento presenta una agenda para una capacitación sobre Big Data y Data Lakes. Incluye temas como la arquitectura de Data Lake, la creación de metadatos y análisis de información, y la transformación y procesamiento de datos. También incluye casos de uso de compañías como FINRA, Netflix y Yelp que utilizan servicios de AWS como S3, Redshift, EMR y Athena para almacenar y analizar grandes volúmenes de datos de manera rentable.
En esta sesión veremos diferentes métodos para cargar datos en un cluster de HDInsight (Hadoop). Veremos como cada método es válido para: datos desde origenes OLTP, datos desde origenes sin estructura y datos a los que se dota estructura para presentarselos a HDInsight. En cada escenario se debe considerar el uso posterior que se le dará al dato para hacerlo de la forma más eficiente. Habrá casos en los que el dato se serializa con librerías .NET y en otros casos el dato se procesará como texto puro
Este documento proporciona una introducción a Big Data y HDInsight. Explica conceptos clave como Hadoop, HDFS, MapReduce, Hive y Pig. También describe las ventajas de HDInsight como una plataforma escalable en la nube para procesar y analizar grandes volúmenes de datos estructurados y no estructurados.
En esta presentacion explicamos el concepto de Big Data y Business Intelligence (Inteligencia de negocio), asi como tambien presentamos las herramientas basadas en software open source como son Hadoop y Pentaho que permiten implementar soluciones, hablamos de los ecosistemas disponibles y mas.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Este documento presenta un taller de 3 días sobre cómo implementar una infraestructura Big Data para una empresa. El primer día se introduce el concepto de Big Data. El segundo día se instala un cluster Cloudera. El tercer día se realizan ejercicios prácticos sobre el cluster Cloudera. El documento también cubre temas como el ecosistema Big Data, herramientas como Hadoop, HDFS, HBase y sistemas de procesamiento como MapReduce, Pig y Storm.
Flowics - Jornada en Big Data 2016 - ITBA Andres Moratti
Este documento describe Flowics, una plataforma de marketing social que permite a marcas y medios capitalizar y amplificar contenido generado por usuarios en redes sociales. La plataforma recopila grandes volúmenes de datos en tiempo real de fuentes como Twitter y los procesa para enriquecerlos con información como el idioma, la ubicación y el sentimiento, almacenándolos en bases de datos NoSQL y SQL. Luego expone los datos procesados a través de APIs para su uso en aplicaciones web y de movilidad. La plataforma es altamente
El documento describe los principales componentes de Business Intelligence (BI). Explica que BI se compone de fuentes de información, herramientas ETL, almacenes de datos (data warehouse y data marts), herramientas de análisis como OLAP y visualización, y usuarios finales. También cubre conceptos como calidad de datos, procesamiento analítico en línea y datamining. El objetivo final de BI es identificar tendencias de negocio e informar la toma de decisiones.
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAJohn Bulla
Este documento presenta una introducción a los conceptos de Big Data, incluyendo definiciones de Big Data, las 4 V's (volumen, velocidad, variedad y variabilidad), ejemplos de conjuntos de datos Big Data, escenarios de análisis de negocios, Hadoop y MongoDB. También incluye una demostración de HDInsight y MongoDB.
Este documento presenta una introducción a Hadoop, incluida su arquitectura, características y componentes clave. Explica que Hadoop es un marco de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos a través de clústeres de hardware básico de manera escalable, tolerante a fallos y económica. Sus componentes principales son HDFS para almacenamiento distribuido de datos y YARN para programación y ejecución de aplicaciones.
Conociendo los servicios adicionales en big dataSpanishPASSVC
Todos han empezado a usar y a conocer Hadoop y HDInsight, en parte los lenguajes usados para su consumo, pero poco se hablado de los servicios complementarios que pueden enriquecer la experiencia BigData, conozca estos servicios y su aplicación.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Este documento presenta una introducción a los conceptos de Big Data y análisis de datos. Define Big Data como la capacidad de extraer información de múltiples fuentes de datos dentro y fuera de una empresa para tomar mejores decisiones de negocios. Explica que la mayoría de los datos se generan fuera de las bases de datos estructuradas tradicionales y que es necesario integrar y analizar diferentes tipos y cantidades de datos. También introduce conceptos como Hadoop, datos en tiempo real, almacenes de datos modernos y la diferencia entre procesamiento paralelo mas
Este documento proporciona una introducción a Hadoop, MongoDB y Cassandra. Explica brevemente el origen y propósito de cada tecnología, sus componentes principales y cuándo cada una es más adecuada para diferentes tipos de problemas y requisitos. En resumen, Hadoop es mejor para almacenamiento y análisis de grandes cantidades de datos sin estructura fija, MongoDB es más adecuado para acceso en tiempo real a datos flexibles y Cassandra ofrece el mejor rendimiento para cargas de trabajo que requieren alta disponibilidad y escalabilidad
uerona es un almacén de datos virtual de autoservicio que permite una transición instantánea a un motor de SQL alojado en nube como SQL Server Data Warehouse.
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
Hadoop es un marco de software de código abierto utilizado para desarrollar aplicaciones de procesamiento de datos que se ejecutan en un entorno informático distribuido. Proporciona almacenamiento masivo para cualquier tipo de datos, una gran potencia de procesamiento y tiene la capacidad teórica de procesar tareas concurrentes virtualmente ilimitada. Los datos residen en HDFS, un sistema de archivos distribuido que almacena archivos en un clúster de máquinas, lo que permite almacenar enormes cantidades de datos. Hadoop es una ar
El documento describe Big Data y las herramientas para su análisis. Big Data se refiere a grandes conjuntos de datos que crecen rápidamente y son difíciles de procesar con herramientas de bases de datos tradicionales. Hadoop es una plataforma popular de código abierto para almacenar y procesar grandes cantidades de datos de forma distribuida. El documento también discute otras herramientas como Pig, Hive, HDFS e Impala que se usan con Hadoop para extraer información de los datos.
Este documento proporciona una introducción a Big Data y HDInsight. Explica conceptos clave como Hadoop, HDFS, MapReduce, Hive y Pig. También describe las ventajas de HDInsight como una plataforma escalable en la nube para procesar y analizar grandes volúmenes de datos estructurados y no estructurados.
En esta presentacion explicamos el concepto de Big Data y Business Intelligence (Inteligencia de negocio), asi como tambien presentamos las herramientas basadas en software open source como son Hadoop y Pentaho que permiten implementar soluciones, hablamos de los ecosistemas disponibles y mas.
Monta una Infraestructura Big Data para tu Empresa - Sesión IUrko Zurutuza
Este documento presenta un taller de 3 días sobre cómo implementar una infraestructura Big Data para una empresa. El primer día se introduce el concepto de Big Data. El segundo día se instala un cluster Cloudera. El tercer día se realizan ejercicios prácticos sobre el cluster Cloudera. El documento también cubre temas como el ecosistema Big Data, herramientas como Hadoop, HDFS, HBase y sistemas de procesamiento como MapReduce, Pig y Storm.
Flowics - Jornada en Big Data 2016 - ITBA Andres Moratti
Este documento describe Flowics, una plataforma de marketing social que permite a marcas y medios capitalizar y amplificar contenido generado por usuarios en redes sociales. La plataforma recopila grandes volúmenes de datos en tiempo real de fuentes como Twitter y los procesa para enriquecerlos con información como el idioma, la ubicación y el sentimiento, almacenándolos en bases de datos NoSQL y SQL. Luego expone los datos procesados a través de APIs para su uso en aplicaciones web y de movilidad. La plataforma es altamente
El documento describe los principales componentes de Business Intelligence (BI). Explica que BI se compone de fuentes de información, herramientas ETL, almacenes de datos (data warehouse y data marts), herramientas de análisis como OLAP y visualización, y usuarios finales. También cubre conceptos como calidad de datos, procesamiento analítico en línea y datamining. El objetivo final de BI es identificar tendencias de negocio e informar la toma de decisiones.
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAJohn Bulla
Este documento presenta una introducción a los conceptos de Big Data, incluyendo definiciones de Big Data, las 4 V's (volumen, velocidad, variedad y variabilidad), ejemplos de conjuntos de datos Big Data, escenarios de análisis de negocios, Hadoop y MongoDB. También incluye una demostración de HDInsight y MongoDB.
Este documento presenta una introducción a Hadoop, incluida su arquitectura, características y componentes clave. Explica que Hadoop es un marco de código abierto que permite el procesamiento distribuido de grandes conjuntos de datos a través de clústeres de hardware básico de manera escalable, tolerante a fallos y económica. Sus componentes principales son HDFS para almacenamiento distribuido de datos y YARN para programación y ejecución de aplicaciones.
Conociendo los servicios adicionales en big dataSpanishPASSVC
Todos han empezado a usar y a conocer Hadoop y HDInsight, en parte los lenguajes usados para su consumo, pero poco se hablado de los servicios complementarios que pueden enriquecer la experiencia BigData, conozca estos servicios y su aplicación.
Big Data - Desarrollando soluciones efectivasJoseph Lopez
Este documento presenta una introducción a los conceptos de Big Data y análisis de datos. Define Big Data como la capacidad de extraer información de múltiples fuentes de datos dentro y fuera de una empresa para tomar mejores decisiones de negocios. Explica que la mayoría de los datos se generan fuera de las bases de datos estructuradas tradicionales y que es necesario integrar y analizar diferentes tipos y cantidades de datos. También introduce conceptos como Hadoop, datos en tiempo real, almacenes de datos modernos y la diferencia entre procesamiento paralelo mas
Este documento proporciona una introducción a Hadoop, MongoDB y Cassandra. Explica brevemente el origen y propósito de cada tecnología, sus componentes principales y cuándo cada una es más adecuada para diferentes tipos de problemas y requisitos. En resumen, Hadoop es mejor para almacenamiento y análisis de grandes cantidades de datos sin estructura fija, MongoDB es más adecuado para acceso en tiempo real a datos flexibles y Cassandra ofrece el mejor rendimiento para cargas de trabajo que requieren alta disponibilidad y escalabilidad
uerona es un almacén de datos virtual de autoservicio que permite una transición instantánea a un motor de SQL alojado en nube como SQL Server Data Warehouse.
En el último año, Big Data se ha transformado en uno de los pilares más importantes de la estrategia de negocio de los Bancos de Chile y el mundo. En un entorno cada vez más competitivo y con altos niveles de regulación, las organizaciones deben comenzar a tomar decisiones en función de los datos y no de la intuición. Para tomar dichas decisiones, se vuelve necesario procesar grandes volúmenes de información de manera eficiente, incorporando nuevas fuentes de datos y automatizando las decisiones a través de algoritmos analíticos avanzados. Durante esta presentación, analizaremos qué deben hacer los Bancos para transformar su arquitectura de datos tradicional, en una arquitectura de datos moderna con soporte para big data y así estar preparados para abordar los nuevos desafíos que plantea la transformación digital del negocio financiero.
Hadoop es un marco de software de código abierto utilizado para desarrollar aplicaciones de procesamiento de datos que se ejecutan en un entorno informático distribuido. Proporciona almacenamiento masivo para cualquier tipo de datos, una gran potencia de procesamiento y tiene la capacidad teórica de procesar tareas concurrentes virtualmente ilimitada. Los datos residen en HDFS, un sistema de archivos distribuido que almacena archivos en un clúster de máquinas, lo que permite almacenar enormes cantidades de datos. Hadoop es una ar
El documento describe Big Data y las herramientas para su análisis. Big Data se refiere a grandes conjuntos de datos que crecen rápidamente y son difíciles de procesar con herramientas de bases de datos tradicionales. Hadoop es una plataforma popular de código abierto para almacenar y procesar grandes cantidades de datos de forma distribuida. El documento también discute otras herramientas como Pig, Hive, HDFS e Impala que se usan con Hadoop para extraer información de los datos.
Yahoo! es una compañía tecnológica fundada en 1994 que comenzó como un directorio de sitios web y se convirtió en uno de los primeros motores de búsqueda y portales en Internet. Ofrecía servicios variados como correo electrónico, noticias, finanzas y entretenimiento, siendo una parte fundamental del crecimiento inicial de la web. A lo largo de su historia, Yahoo! ha evolucionado y enfrentado desafíos significativos, pero su legado incluye su contribución pionera a la accesibilidad y organización de la información en línea.
El Observatorio ciudadano Irapuato ¿Cómo vamos?, presenta el
Reporte hemerográfico al mes de mayo de 2024
Este reporte contiene información registrada por Irapuato ¿cómo vamos? analizando los medios de comunicación tanto impresos como digitales y algunas fuentes de información como la Secretaría de Seguridad ciudadana.
2. Agenda
• Introducción a Big Data
• Datos estructurados y no estructurados
• Hadoop
• Ecosistema Hadoop
• Casos de Estudio
3. Definiciones de Big Data
• Un conjunto de tecnologías relacionadas y no
relacionadas para analítica a gran escala
• Gran volumen, alta velocidad y gran variedad de
información que demanda un procesado poco costoso
para obtener conocimiento y tomar decisiones.
4. Las V’s de Big Data
•Volumen: Terabytes, Petabytes, Exabytes
•Velocidad: hora, segundos, milisegundos
•Variedad: 5 formatos, 10 formatos, 20+
formatos
•Variabilidad: formatos cambian en el
tiempo
No todas las V’s tienen que estar presentes
5. ROI probado
• Google AdWords: Predicción de click through rates
(CTR)
• Netflix: 75% del streaming de video viene de
recomendaciones
• Amazon: 35% de las ventas de producto vienen de
recomendaciones de producto
9. Big Data ≠ BI Tradicional con más datos
• Big Data está redefiniendo los procesos de gestión de
datos maestros, calidad de datos y gestión del ciclo de
vida de la información
• Big Data NO reemplaza EDW y OLAP, suplementa esas
inversiones
• El ecosistema Big Data incluye una gran variedad de
tecnologías analíticas
• Bases de datos columnares, JSON y almacenes de
ficheros no estructurados
10. Enfoque evolutivo
ETL Tool
(SSIS, etc)
EDW
(SQL Svr, Teradata, etc)
Extract
Original Data
Load
Transformed
Data
Transform
BI Tools
Data Marts
Data Lake(s)
Ingest (EL)
Original Data
Dashboards
Apps
Scale-out
Storage &
Compute
(HDFS, Blob
Storage, etc)
Transform & Load
Streaming data
11. Cambios en patrones DW
El almacenamiento Big Data (hoy
en día Data Lake) se caracteriza por
tres atributos clave:
• Recoge todo
• Explótalo desde cualquier sitio
• Acceso Flexible
12. Cambios en patrones DW
Cambiar de Esquema primero a Esquema más tarde
1. Llegan los datos
2. Se deriva el
esquema
3. Limpieza de Datos
4. Transformación
5. Carga en EDW
6. Análisis
1.
2.
3.
4.
Valor de
los datos
LENTO
Rápido valor
de los datos
13. Cambios en Patrones
Results
Datos no
relacionales
Social
apps
Sensor
and RFID
Mobile
apps
Web
apps
Hadoop
Datos Relac. y OLAP
Traditional schema-based data
warehouse applications
EDW
HDFS bridge
Enhanced query
engine
External table
External data
source
External file
format
Regular
T-SQL
Básicamente construir un “puente” hacia Big Data
15. Tipos de Carga de Trabajo
• Procesado batch de grandes orígenes de datos
• Procesado de grandes cantidades de datos en tiempo
real
• Exploración interactiva de grandes cantidades de
datos
• Analítica predictiva y Machine Learning
• Considerar big data cuando:
• Se almacenan y procesan grandes cantidades de datos
demasiado grandes para una base de datos tradicional
• Transformar datos no estructurados para análisis y Reporting
• Capturar, procesar y analizar grandes cantidades de datos en
streaming en tiempo real o con muy baja latencia
16. Agenda
• Introducción a Big Data
• Datos estructurados y no estructurados
• Hadoop
• Ecosistema Hadoop
• Casos de Estudio
17. Datos no estructurados no se
están analizando
Registros
Datos
Estructurados
BIG DATA
▪ Datos estructurados
▪ BBDD Relacionales
▪ BBDD Analíticas
18. Datos no estructurados no se
están analizando
Log files
Datos
menos
estructura
dos
Public data
Device
outputs
Texto/Image
nes
Registros
Datos
Estructurados
New
Insights
▪ Datos Menos estructurados
▪ Crear ETL para transformar
en Relacional
▪ Mucho tiempo desarrollo
▪ Susceptible cambio estructura
▪ Archivado o borrado
▪ Acceso caro
▪ Datos estructurados
▪ BBDD Relacionales
▪ BBDD Analíticas
19. Datos en las organizaciones
20%
80%
Tipos de datos
Structured
Less Structured
20. Ejemplos de datos no estructurados
12 Tb
day
21 Pb
Hadoop
cluster
7 Pb
Month
(search
queries info)
1 Tb
tweets/day
75
Million
scores/day
Millions of
opinions
4 Billion
Graph
edg/day
7 Tb
data/day
21. Agenda
• Introducción a Big Data
• Datos estructurados y no estructurados
• Hadoop
• Ecosistema Hadoop
• Casos de Estudio
22. Hadoop
• Open Source ☺
• Plataforma de almacenamiento y procesado para Big
Data
• Optimizado para manejar
• Datos de forma masiva utilizando paralelismo
• Variedad de datos(Estructurado, No estructurado, Menos
estructurado)
• Uso de hardware barato
• No para OLTP / OLAP
• Mover el cómputo hacia el dato
23. Hadoop
• Componentes core de Hadoop: HDFS & MapReduce
• Hadoop Distribution File System
• Distribuido, tolerante a fallos, redundante, autorecuperable
• Map Reduce
• Procesamiento distribuido, tolerante a fallos, procesa donde
está el dato. Lectura y procesado distribuido.
25. Hadoop
• Escalable
• Escala linealmente en capacidad de almacenamiento y
procesado.
• Tolerante a Fallos
• Matrimonio entre un Sistema de ficheros distribuido y un
framework tolerante a fallos utilizado para leer datos
• Procesamiento distribuido
• Sigue la estrategia de divide y vencerás.
26. RDBMS vs Hadoop
Característica RDBMS Hadoop
Tamaño de Datos Gigabytes (Terabytes) Petabytes (Hexabytes)
Acceso Interactivo y Batch Batch – NO Interactivo
Actualizaciones Leer/ Escribir varias veces Escribir una vez, leer varias veces
Estructura Esquema estático Esquema dinámico
Integridad Alta (ACID) Baja
Escalado No lineal Lineal
Tiempo de respuesta
consultas
Puede ser casi inmediato Tiene latencia (debido a procesamiento
batch)
27. Historia Hadoop
2002: Nutch open source motor de búsqueda por Doug Cutting
2003: Google publica un documento sobre GFS (Google Distribute File System)
2004: Nutch Distributed Files System (NDFS)
2004: Google publica un documento sobre MapReduce
2005: MapReduce se implementa en NDFS
2006: Doug Cutting se une a Yahoo! & inician Apache Hadoop Subproject
2008: Hadoop se convierte en un Proyecto top de Apache
El índice de Yahoo’s se ejecuta en un cluster de 10.000 nodos
Hadoop rompe el record de 1TB en ordenación: 209s en 910 nodos
New York Times convierte 4TB de archivos en PDF en 24h en 100 nodos
2011: Yahoo crea HortonWorks, una compañía dedicada a Hadoop
2011: HortonWorks y Microsoft anuncian un acuerdo
2011: Microsoft libera la primera preview de Isotop/HDInsight
2018: Cloudera compra Horthonworks
28. El Zoo de Big Data
• El objetivo de Hadoop es crear
un framework unificado para
procesar big data
• Tres requisitos principales:
• Escalabilidad
• Fiabilidad
• Eficiencia HDFS
YARN
MapReduce Tez
Hadoop Core
30. Hive
• Sistema Data Warehouse para Hadoop
• Facilita las sumarizaciones de datos
• Consultas Ad-hoc
• Lenguaje consulta similar SQL: HiveQL
• Análisis de grandes conjuntos de datos almacenados
en Hadoop
• Por detrás ejecuta
• Trabajos MapReduce
• Stinger / Tez
• LLAP (Long Live and Process)
31. Pig
• Lenguaje scripting de Alto nivel
• Capa de procesamiento de Alto Nivel que se ejecuta en
Hadoop
• Usa ambos HDFS y Map Reduce
• Facilidad de programación
• El Usuario se enfoca en semántica en lugar de eficiencia. Map
Reduce es como lenguaje de ensamblador
• Extensibilidad
32. Flume & Sqoop
• Flume
• Recolectar y mover grandes cantidades de datos
• Ejecución distribuida
• Sqoop
• Import y Export: RDBMS → HDFS, Hive..
• SQL Server, MySQL, Oracle
• Ejecución distribuida
33. Mahout & Pegasus
• Mahout
• Machine learning y data mining a gran escala
• clusterización, recomendaciones, clasificación, y más.
• Pegasus
• Page Rank y Graph Mining
• Network Analysis.
• Por detrás se ejecutan Trabajos MapReduce
34. Agenda
• Introducción a Big Data
• Datos estructurados y no estructurados
• Hadoop
• Ecosistema Hadoop
• Casos de Estudio
35. Almacena ahora, averigua más tarde
• Hadoop facilita almacenamiento y procesado
• Fácil de desarrollar programas que obtienen
conocimiento de datos no estructurados
• Framework para almacenar y procesar subconjunto de
los datos a demanda
36. Datos en Tiempo Real
• Utilizar almacenes de datos operacionales en tiempo
real (RT ODSs)
• Utilizar DW en Tiempo real
• Implementar CDC
• Presentar datos en tiempo real y datos históricos
• Definir umbrales aceptables y reglas de negocio para
todas las entidades del tiempo real
37. Datos en Tiempo Real
• Flujo de datos continuo
• Manejar el stream como si fuese una cola
• Ventanas de tiempo
• Arquitectura de datos Hadoop y Lambda
• Enriquecer datos de streaming con datos de la
organización
• Almacenar los datos de stream para construir la
historia
39. Casos de estudio Hadoop (I)
• Modelado de Riesgos
• Banca y seguros,
• Análisis de rotación
• Consultar logs y datos complejos desde múltiples orígenes
• Motor de recomendaciones
40. Casos de Estudio Hadoop (II)
• Ad Targeting
• CTR, placement, auction
• Análisis de transacción en punto de venta
• Análisis cesta de la compra, mejora de márgenes
• Datos de Redes
• Predicción de fallos, ratios de transmission, protocolos de
transmisión
41. Casos de Estudio Hadoop (III)
• Detección de fraude
• En transacciones
• Calidad búsquedas
• Resultados relevantes, utilidad de búsquedas
• Data sandbox
• Almacenado ahora y analizado después
• Análisis de Sentimiento
• Twitter