SlideShare una empresa de Scribd logo
1 de 34
HD Insight
Ing. Eduardo Castro, PhD
MVP de SQL Server
Agenda
Big Data Hadoop HDInsight Azure
Escalabilidad
Escenarios de
uso
Demostraciones
Presentación de Big Data
Introducción a Big Data y Hadoop
Big data es una colección de conjuntos de datos tan grande y
complejo que se vuelve difícil para trabajar con el uso de
herramientas de gestión de base de datos tradicionales. Las
dificultades incluyen la captura, almacenamiento, búsqueda,
intercambio, análisis y visualización
Presentación de Big Data
Soluciones de datos con complejidades de:
VOLUMEN
(Tamaño)
VARIEDAD
(Estructura)
VELOCIDAD
(Speed)
Presentación de Big Data
Internet de las Cosas
Audio Video
Archivos
De
Registro
Texto / Imagen
Sentimiento Social
Market Data Feeds
eGov Feeds
Tiempo
Wikis / Blogs
Click Analisis
Sensores / RFID /
Dispositivos
Espacial y Coordenadas GPS
WEB 2.0Móvil
Publicidad ColaboracióneCommerce
Publicidad Digital
Search Marketing
Web Logs
Recomendaciones
ERP / CRM
Canalización de
ventas
Cuentas
por Pagar
Nómina
Inventario
Contactos
Seguimiento
Trato
Terabytes
(10E12)
Gigabytes
(10E9)
Exabytes
(10E18)
Petabytes
(10E15)
Velocity - Variedad
Volumen
1980
190.000 $
2010
0.07 $
1990
9000 $
2000
15 $
Almacenamiento / GB
ERP / CRM WEB 2.0 Internet de las Cosas
Presentación de Big Data
Escenarios comunes
Big Data escenarios de aplicación
Respuesta a las nuevas preguntas
¿Cómo puedo optimizar mis
servicios sobre la base de
patrones de clima, tráfico, etc.?
¿Cuál es el sentimiento social
de mi producto?
¿Cómo puedo predecir mejor
los resultados futuros?
Big Data Algoritmos comunes
c
Big Data algoritmos comunes
Minería de datos y flujos de datos
Big Data algoritmos comunes
Búsqueda de elementos similares o complementarias
Big Data Común Algoritmos
Conjuntos de elementos frecuentes - Análisis de carrito
de compras
¿Qué es Hadoop?
•Colección de proyectos de código abierto de Apache
para el almacenamiento / procesamiento de grandes
volúmenes de datos (grande, semi-estructurado)
•La base del "kernel" de HDInsight
Hadoop Capacidades
Aprendizaje
Automático
Procesamient
o
Cálculo
Distribuido
Extraer Cargar
Transformar
Análisis
Predictivo
Hadoop aspectos básicos
Hadoop sirve analizar grandes cantidades de datos
Se trata de un conjunto de proyectos de código abierto que
transforman hardware normal en un servicio que puede:
Almacenar petabytes de datos de forma fiable
Permitir enormes cálculos distribuidos
Atributos clave:
Código abierto
Altamente escalable
Se ejecuta en hardware básico
(Sin pérdida de datos) redundante y confiable
El procesamiento por lotes - utilizando “Map-Reduce" como paradigma de procesamiento
Hadoop Introduciendo
RDBMS TRADICIONAL HADOOP
Tamaño de
datos
Acceso
Actualizaciones
Estructura
Integridad
Escala
Relación de
DBA
Cómo funciona
Cómo funciona
ServidorServidor
ServidorServidor
DURACIÓN
Demostración
Hadoop Ecosystem
Distributed Storage
(HDFS)
Query
(Hive)
Distributed Processing
(MapReduce)
ODBC
Legenda
Red = Core
Hadoop
Blue = Data
processing
Purple =
Microsoft
integration
points and
value adds
Orange = Data
Movement
Green =
Packages
Introduciendo HDInsight
HDInsight es 100% de Microsoft y compatible Apache Hadoop
Disponible como servicio en Microsoft Azure
Permite a las organizaciones contar con nuevos puntos de vista sobre
los datos no estructurados, mientras que conecta con las herramientas
de BI de Microsoft
Introduciendo HDInsight
100% de solución Hadoop en la nube
Análisis a través de Excel
Agilidad de implementación
Desarrolla en.NET y Java
Construida sobre Hortonworks Plataforma de
Datos (HDP)
Puede ser automatizado con PowerShell y
línea de comandos
Flujo de datos tradicional E-Commerce
Nuevo E-Commerce Gran flujo de datos
Windows Azure HDInsight Service
Windows Azure HDInsight Service
Almacenamiento de datos en
HDInsight
Consumo de HDInsight Result Sets
Destino Herramienta - Biblioteca Requiere Active HDInsight
Cluster
SQL Server,
Azure SQL DB
Sqoop (Hadoop ecosystem project) Si
Excel Codename “Data Explorer” No
Another Blob Storage
Account
Azure Blob Storage REST APIs (Copy Blob, etc) No
SQL Server Analysis
Services
Hive ODBC Driver Si
Existing BI Apps Hive ODBC Driver Si
DEMO
Creación de un clúster Hadoop, Explorar
Sistema de Archivos
Hadoop Flujo De Datos
HadoopDatos Analítica
Demostración
Programación con HDInsight
Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus…
C#, F# Map/Reduce, LINQ to Hive, .NET management clients
JavaScript Map/Reduce, Browser hosted console, Node.js management clients
PowerShell, Cross Platform CLI tools, SSIS Custom tasks
Resumen
Data Knowledge Action
Análisis de datos con HD Insight

Más contenido relacionado

La actualidad más candente

El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
cruetic2015
 
Virtualización de datos: las claves para el análisis de datos en tiempo real ...
Virtualización de datos: las claves para el análisis de datos en tiempo real ...Virtualización de datos: las claves para el análisis de datos en tiempo real ...
Virtualización de datos: las claves para el análisis de datos en tiempo real ...
Denodo
 

La actualidad más candente (20)

CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datos
 
Big data y hadoop
Big data y hadoopBig data y hadoop
Big data y hadoop
 
HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016
 
A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016A10 Analytics Desayuno Oct 2016
A10 Analytics Desayuno Oct 2016
 
Big Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivasBig Data - Desarrollando soluciones efectivas
Big Data - Desarrollando soluciones efectivas
 
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQIntroducción a Big Data. HDInsight - Webcast Technet SolidQ
Introducción a Big Data. HDInsight - Webcast Technet SolidQ
 
A10 Qlik Sense Desayuno Oct 2016
A10 Qlik Sense Desayuno Oct 2016A10 Qlik Sense Desayuno Oct 2016
A10 Qlik Sense Desayuno Oct 2016
 
A10 Analytics Evento Michal Kosinski Jul 2017
A10 Analytics Evento Michal Kosinski Jul 2017A10 Analytics Evento Michal Kosinski Jul 2017
A10 Analytics Evento Michal Kosinski Jul 2017
 
Introducción Azure Synapse Analytics
Introducción Azure Synapse AnalyticsIntroducción Azure Synapse Analytics
Introducción Azure Synapse Analytics
 
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
El impacto de las tecnologías BIGDATA en los procesos de analítica y segurida...
 
Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014Nuevos escenarios BI con SQL Server 2014
Nuevos escenarios BI con SQL Server 2014
 
Innovación Amazon
Innovación AmazonInnovación Amazon
Innovación Amazon
 
¿Cómo afianzar la transformación digital con APIs de datos en tiempo real?
¿Cómo afianzar la transformación digital con APIs de datos en tiempo real?¿Cómo afianzar la transformación digital con APIs de datos en tiempo real?
¿Cómo afianzar la transformación digital con APIs de datos en tiempo real?
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 
Virtualización de datos: las claves para el análisis de datos en tiempo real ...
Virtualización de datos: las claves para el análisis de datos en tiempo real ...Virtualización de datos: las claves para el análisis de datos en tiempo real ...
Virtualización de datos: las claves para el análisis de datos en tiempo real ...
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
AWS Innovate 2020 - Aprenda cómo el Data Flywheel puede ayudarle en su estrat...
AWS Innovate 2020 - Aprenda cómo el Data Flywheel puede ayudarle en su estrat...AWS Innovate 2020 - Aprenda cómo el Data Flywheel puede ayudarle en su estrat...
AWS Innovate 2020 - Aprenda cómo el Data Flywheel puede ayudarle en su estrat...
 
Visualización de big data con power view
Visualización de big data con power viewVisualización de big data con power view
Visualización de big data con power view
 
Obtención de Datos en #BigData
Obtención de Datos en #BigDataObtención de Datos en #BigData
Obtención de Datos en #BigData
 
¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?¿Cuál es el futuro de la estrategia de datos?
¿Cuál es el futuro de la estrategia de datos?
 

Similar a Análisis de datos con HD Insight

Big data y software libre
Big data y software libreBig data y software libre
Big data y software libre
ASPgems
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
mateo luquez
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
Antonio Rodriguez
 

Similar a Análisis de datos con HD Insight (20)

Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Integración de Datos sin límites con Pentaho
Integración de Datos sin límites con PentahoIntegración de Datos sin límites con Pentaho
Integración de Datos sin límites con Pentaho
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
 
Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!Inteligencia de negocio en la nube, una realidad palpable!!!
Inteligencia de negocio en la nube, una realidad palpable!!!
 
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
Building The Modern Architecture of Hybrid Data for Big Data with Microsoft D...
 
Visualización de Big Data con Power View
Visualización de Big Data con Power ViewVisualización de Big Data con Power View
Visualización de Big Data con Power View
 
Big data y software libre
Big data y software libreBig data y software libre
Big data y software libre
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
Analítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionalesAnalítica nueva generacion y BD aplicado a los sistemas informacionales
Analítica nueva generacion y BD aplicado a los sistemas informacionales
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Microsoft Business Analytics 2013
Microsoft Business Analytics 2013Microsoft Business Analytics 2013
Microsoft Business Analytics 2013
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
BigData
BigDataBigData
BigData
 
Big Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data LakeBig Data en Azure: Azure Data Lake
Big Data en Azure: Azure Data Lake
 
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAExpert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
 
Big data
Big dataBig data
Big data
 
Dts y analysis services 2000
Dts y analysis services 2000Dts y analysis services 2000
Dts y analysis services 2000
 

Último

redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
nicho110
 

Último (14)

How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.How to use Redis with MuleSoft. A quick start presentation.
How to use Redis with MuleSoft. A quick start presentation.
 
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptxinfor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
infor expo AVANCES TECNOLOGICOS DEL SIGLO 21.pptx
 
Guia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos BasicosGuia Basica para bachillerato de Circuitos Basicos
Guia Basica para bachillerato de Circuitos Basicos
 
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptxEVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
EVOLUCION DE LA TECNOLOGIA Y SUS ASPECTOSpptx
 
Buenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptxBuenos_Aires_Meetup_Redis_20240430_.pptx
Buenos_Aires_Meetup_Redis_20240430_.pptx
 
investigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXIinvestigación de los Avances tecnológicos del siglo XXI
investigación de los Avances tecnológicos del siglo XXI
 
presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...presentación del desensamble y ensamble del equipo de computo en base a las n...
presentación del desensamble y ensamble del equipo de computo en base a las n...
 
Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21Innovaciones tecnologicas en el siglo 21
Innovaciones tecnologicas en el siglo 21
 
Generaciones de las Computadoras..pdf...
Generaciones de las Computadoras..pdf...Generaciones de las Computadoras..pdf...
Generaciones de las Computadoras..pdf...
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
redes informaticas en una oficina administrativa
redes informaticas en una oficina administrativaredes informaticas en una oficina administrativa
redes informaticas en una oficina administrativa
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
Resistencia extrema al cobre por un consorcio bacteriano conformado por Sulfo...
 
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdfpresentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
presentacion_desamblado_de_una_computadora_base_a_las_normas_de_seguridad.pdf
 

Análisis de datos con HD Insight

  • 1. HD Insight Ing. Eduardo Castro, PhD MVP de SQL Server
  • 2. Agenda Big Data Hadoop HDInsight Azure Escalabilidad Escenarios de uso Demostraciones
  • 4. Introducción a Big Data y Hadoop Big data es una colección de conjuntos de datos tan grande y complejo que se vuelve difícil para trabajar con el uso de herramientas de gestión de base de datos tradicionales. Las dificultades incluyen la captura, almacenamiento, búsqueda, intercambio, análisis y visualización
  • 5. Presentación de Big Data Soluciones de datos con complejidades de: VOLUMEN (Tamaño) VARIEDAD (Estructura) VELOCIDAD (Speed)
  • 6. Presentación de Big Data Internet de las Cosas Audio Video Archivos De Registro Texto / Imagen Sentimiento Social Market Data Feeds eGov Feeds Tiempo Wikis / Blogs Click Analisis Sensores / RFID / Dispositivos Espacial y Coordenadas GPS WEB 2.0Móvil Publicidad ColaboracióneCommerce Publicidad Digital Search Marketing Web Logs Recomendaciones ERP / CRM Canalización de ventas Cuentas por Pagar Nómina Inventario Contactos Seguimiento Trato Terabytes (10E12) Gigabytes (10E9) Exabytes (10E18) Petabytes (10E15) Velocity - Variedad Volumen 1980 190.000 $ 2010 0.07 $ 1990 9000 $ 2000 15 $ Almacenamiento / GB ERP / CRM WEB 2.0 Internet de las Cosas
  • 7. Presentación de Big Data Escenarios comunes
  • 8. Big Data escenarios de aplicación Respuesta a las nuevas preguntas ¿Cómo puedo optimizar mis servicios sobre la base de patrones de clima, tráfico, etc.? ¿Cuál es el sentimiento social de mi producto? ¿Cómo puedo predecir mejor los resultados futuros?
  • 10. Big Data algoritmos comunes Minería de datos y flujos de datos
  • 11. Big Data algoritmos comunes Búsqueda de elementos similares o complementarias
  • 12. Big Data Común Algoritmos Conjuntos de elementos frecuentes - Análisis de carrito de compras
  • 13. ¿Qué es Hadoop? •Colección de proyectos de código abierto de Apache para el almacenamiento / procesamiento de grandes volúmenes de datos (grande, semi-estructurado) •La base del "kernel" de HDInsight
  • 15. Hadoop aspectos básicos Hadoop sirve analizar grandes cantidades de datos Se trata de un conjunto de proyectos de código abierto que transforman hardware normal en un servicio que puede: Almacenar petabytes de datos de forma fiable Permitir enormes cálculos distribuidos Atributos clave: Código abierto Altamente escalable Se ejecuta en hardware básico (Sin pérdida de datos) redundante y confiable El procesamiento por lotes - utilizando “Map-Reduce" como paradigma de procesamiento
  • 16. Hadoop Introduciendo RDBMS TRADICIONAL HADOOP Tamaño de datos Acceso Actualizaciones Estructura Integridad Escala Relación de DBA
  • 20. Hadoop Ecosystem Distributed Storage (HDFS) Query (Hive) Distributed Processing (MapReduce) ODBC Legenda Red = Core Hadoop Blue = Data processing Purple = Microsoft integration points and value adds Orange = Data Movement Green = Packages
  • 21. Introduciendo HDInsight HDInsight es 100% de Microsoft y compatible Apache Hadoop Disponible como servicio en Microsoft Azure Permite a las organizaciones contar con nuevos puntos de vista sobre los datos no estructurados, mientras que conecta con las herramientas de BI de Microsoft
  • 22. Introduciendo HDInsight 100% de solución Hadoop en la nube Análisis a través de Excel Agilidad de implementación Desarrolla en.NET y Java Construida sobre Hortonworks Plataforma de Datos (HDP) Puede ser automatizado con PowerShell y línea de comandos
  • 23. Flujo de datos tradicional E-Commerce
  • 24. Nuevo E-Commerce Gran flujo de datos
  • 27. Almacenamiento de datos en HDInsight
  • 28. Consumo de HDInsight Result Sets Destino Herramienta - Biblioteca Requiere Active HDInsight Cluster SQL Server, Azure SQL DB Sqoop (Hadoop ecosystem project) Si Excel Codename “Data Explorer” No Another Blob Storage Account Azure Blob Storage REST APIs (Copy Blob, etc) No SQL Server Analysis Services Hive ODBC Driver Si Existing BI Apps Hive ODBC Driver Si
  • 29. DEMO Creación de un clúster Hadoop, Explorar Sistema de Archivos
  • 30. Hadoop Flujo De Datos HadoopDatos Analítica
  • 32. Programación con HDInsight Hive, Pig, Mahout, Cascading, Scalding, Scoobi, Pegasus… C#, F# Map/Reduce, LINQ to Hive, .NET management clients JavaScript Map/Reduce, Browser hosted console, Node.js management clients PowerShell, Cross Platform CLI tools, SSIS Custom tasks