SlideShare una empresa de Scribd logo
1 de 46
Big Data: La Hora H
Agenda
•Introducción: La revolución de los Datos
•Escenarios de Business Analytics
•¿Y cómo exploto toda esta información?: Microsoft Excel
La revolución de los Datos
Tendencias de la Industria
44x
En 2015, servicios de nube pública tendrán 46%
de crecimiento neto en gasto de ti
Introducción: La revolución de los datos
•Big Data, Data Science y lo que nos pueden proporcionar
•Actores de mercado en Big Data
•Utilidades de Big Data
¿Qué es Big Data?
• Big data Consists of datasets that grow so large that they
become awkward to work with using on-hand DB
Management tools.
• Wikipedia
Big data is when the size of the data itself becomes part of
the problem
Mike Lukides, O’Reilly Radar
It’s not just your “Big Data” problems, it’s all about your BIG
“data” Problems.
Alexander Stojanovic, Hadoop Manager on Win Azure
Las 4 V’s
Volumen
Velocidad
Variedad
Variabilidad
Ejemplos de Big Data
12 Tb
día
21 Pb
Hadoop
cluster
7 Pb
mes
1 Tb
tweets/dia
75
Million
scores/day
14 Tb
Hadoop
cluster
4 Billion
Graph
edg/day
7 Tb
datos/dia
Ficheros log
Datos
menos
estructura
dos
Datos
públicos
Device
outputs
Texto/
Imágenes
New
Insights
 Datos menos estructurados
 Intentar un ETL para
transformarlo en relacional
 Tiempo de desarrollo elevado
 Son datos susceptibles a
cambios de estructura
 Archivados y Borrados
 Acceso caro
Entonces…¿cómo obtengo insights?
Datos
estructurados
 Datos estructurados
 Bases de Datos relacionales
 Bases de Datos analíticas
Registros
¿Qué es Big Data para ?
• Datos, datos, datos…..
• ¿Big? Hoy es Big, pero dentro de 2-3 años, ¿seguirá siendo big?
• Equipos y negocios “centrados en datos”
• Big Data: “ Barreras para que una organización o equipo puedan almacenar, procesar y
acceder todos los datos que necesitan para operar con eficiencia, tomar decisiones,
reducir riesgos, etc.”
Utilidades de Big Data
•Vista completa de nuestros usuarios
•Seguridad / inteligencia
•Operaciones Analíticas (TI, dispositivos,…)
•Complemento de DW
Caso de Éxito: Mood Index
MIDAMO
Escenarios de Business
Analytics
Escenarios de Business Analytics
•Análisis sencillo de gran cantidad de datos no estructurados:
Microsoft HDInsight
•Análisis sencillo de datos en memoria: Microsoft StreamInsight
•Análisis en profundidad: SQL Server y Self-Service BI
¿Qué es Hadoop?
•Open Source
•Plataforma de almacenamiento de datos y
análisis para Big Data
•Optimizado para manejar
• Datos masivos a través de paralelismo
• Variedad de datos (Estructurados, No-estructurados,
Menos estructurados)
• Uso de hardware económico
•No para OLTP / OLAP
•Escalable
• Escala linealmente en capacidad de almacenamiento
y computación
•Tolerante a Fallos
• Proporcionado por el Sistema de ficheros distribuido
y el framework de lectura
•Procesamiento distribuido
• Sigue la estrategia de divide y vencerás
¿Qué es Hadoop?: Ventajas
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Hadoop Distributed File System (HDFS)
•Sistema de ficheros distribuido diseñado para
grandes conjuntos de datos
•Fiable y con buen rendimiento
• Alto rendimiento de acceso: Latencia de disco
• Alto ancho de banda Almacenamiento Clustered auto-
reparable
•Divide los datos entre los nodos en un Cluster
• NameNode: Mantiene el mapeo de bloques de
ficheros a nodos esclavos
• DataNode: Almacena y sirve bloques de datos
Hadoop Distributed File System (HDFS)
File File File
File File File
File
File File File
File File File
File File
File File File
File File
File File File
File File
NameNode DataNode
File File
File File
DataNode DataNode
File
File
File File
File
File File
Block Size = 64 Mb
Replication Factor = 3
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Map Reduce Framework
• Motor de planificación parar Procesamiento de carga
distribuido
• Pares Clave-Valor
• Función Map
• Función Reduce
• Lenguajes de Script : Java, python, Javascript…
• Saca provecho de la distribución de datos de HDFS
• JobTracker: Planifica los trabajos entre los TaskTrackers
• TaskTracker: unidades de trabajo
Map Reduce Framework
File File File
File File File
File
File File File
File File File
File File
File File File
File File
File File File
File File
JobTracker TaskTracker
MapReduce
Job
TaskTracker TaskTracker
File
File
File File
File
File File
map
mapmap
Reduce
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Sqoop
•Tecnología que sirve de interfaz entre HDFS y los
Sistemas de información empresarial
•Orígenes de datos relacionales integrados
• MySQL, Oracle, SQL Server …
•Importación / Exportación (Bidireccional)
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Pig
•Lenguaje de flujo de datos de alto nivel y
framework de ejecución
•Lenguaje de consulta: PigLatin
• Posibilidad de join de tablas
•Por detrás ejecuta trabajos MapReduce
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Hive
•Infraestructura Data Warehouse desde Hadoop
•Proporciona
• Sumarización de Datos
• Consultas Ad-hoc
•Lenguaje consulta estilo SQL: HiveQL
•Por detrás ejecuta trabajos MapReduce
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
¿Qué es Hadoop?: Componentes
Otros componentes: Hadoop
Ecosystem
•Mahout
• Minería de Datos y Machine Learning
•Pegasus
• Page Rank y Graph Mining
• Social Network Analysis
HDInsight
•Project Isotope
•Proporciona Apache Hadoop en
• Windows Server
• Windows Azure
•Active Directory & System Center
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Lucene …
Hadoop: Componentes Originales
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
HDInsight
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
JDBC
Hive ODBC
Microsoft
BI
Platform
HDinsight
HDFS
Map Reduce
HivePig
Sqoop
Mahout Pegasus Flume
JDBC
Hive ODBC
Windows Azure & Windows Server
Microsoft
BI
Platform
HDInsight
Características HDInsight
• HDFS
• Basado en Windows
• Compatibilidad con Directorio Activo
• Almacenamiento compatible:
• HDFS
• Azure Blob Storage
• Amazon S3
• MapReduce Framework
• Compatibilidad JavaScript
• Hadoop Streaming con compatibilidad F# y C#
Características HDInsight
• Hive
• Consola Interactiva
• Complemento Hive para Excel
• Hive ODBC Driver
• Potentes funciones regex
• Pig
• Consola Interactiva
• Sqoop
• Driver JDBC para SQL Server y SQL Server PDW
Administrando un cluster
HDinsight en Windows Azure
Primeros pasos
Escenarios de Integración
¿Y cómo explotamos esta
información?
¿Y cómo exploto toda esta información?:
Microsoft Excel
•PowerPivot
•Complementos Excel para Minería de Datos
•Acceso a Datos Hadoop
•Data Explorer
Excel y sus complementos
Big Data: La Hora H

Más contenido relacionado

La actualidad más candente

"Introduction to Data Visualization" Workshop for General Assembly by Hunter ...
"Introduction to Data Visualization" Workshop for General Assembly by Hunter ..."Introduction to Data Visualization" Workshop for General Assembly by Hunter ...
"Introduction to Data Visualization" Workshop for General Assembly by Hunter ...Hunter Whitney
 
Modern Data Warehousing with the Microsoft Analytics Platform System
Modern Data Warehousing with the Microsoft Analytics Platform SystemModern Data Warehousing with the Microsoft Analytics Platform System
Modern Data Warehousing with the Microsoft Analytics Platform SystemJames Serra
 
Data Strategy
Data StrategyData Strategy
Data Strategysabnees
 
Building a Data Lake on AWS
Building a Data Lake on AWSBuilding a Data Lake on AWS
Building a Data Lake on AWSGary Stafford
 
Data Platform Architecture Principles and Evaluation Criteria
Data Platform Architecture Principles and Evaluation CriteriaData Platform Architecture Principles and Evaluation Criteria
Data Platform Architecture Principles and Evaluation CriteriaScyllaDB
 
BI Consultancy - Data, Analytics and Strategy
BI Consultancy - Data, Analytics and StrategyBI Consultancy - Data, Analytics and Strategy
BI Consultancy - Data, Analytics and StrategyShivam Dhawan
 
Big Data PPT by Rohit Dubey
Big Data PPT by Rohit DubeyBig Data PPT by Rohit Dubey
Big Data PPT by Rohit DubeyRohit Dubey
 
Customer Data Platform 101
Customer Data Platform 101Customer Data Platform 101
Customer Data Platform 101Kiyoto Tamura
 
Building A Bi Strategy
Building A Bi StrategyBuilding A Bi Strategy
Building A Bi Strategylarryzagata
 
Estrategia de datos en las organizaciones
Estrategia de datos en las organizaciones Estrategia de datos en las organizaciones
Estrategia de datos en las organizaciones SAS Colombia
 
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RInteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RLuis Joyanes
 
Big data by Mithlesh sadh
Big data by Mithlesh sadhBig data by Mithlesh sadh
Big data by Mithlesh sadhMithlesh Sadh
 
5 Steps for Architecting a Data Lake
5 Steps for Architecting a Data Lake5 Steps for Architecting a Data Lake
5 Steps for Architecting a Data LakeMetroStar
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivassgcuadrado
 

La actualidad más candente (20)

"Introduction to Data Visualization" Workshop for General Assembly by Hunter ...
"Introduction to Data Visualization" Workshop for General Assembly by Hunter ..."Introduction to Data Visualization" Workshop for General Assembly by Hunter ...
"Introduction to Data Visualization" Workshop for General Assembly by Hunter ...
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Modern Data Warehousing with the Microsoft Analytics Platform System
Modern Data Warehousing with the Microsoft Analytics Platform SystemModern Data Warehousing with the Microsoft Analytics Platform System
Modern Data Warehousing with the Microsoft Analytics Platform System
 
Big Data
Big DataBig Data
Big Data
 
Data Strategy
Data StrategyData Strategy
Data Strategy
 
Big data ppt
Big data pptBig data ppt
Big data ppt
 
Building a Data Lake on AWS
Building a Data Lake on AWSBuilding a Data Lake on AWS
Building a Data Lake on AWS
 
Big data
Big dataBig data
Big data
 
Data Platform Architecture Principles and Evaluation Criteria
Data Platform Architecture Principles and Evaluation CriteriaData Platform Architecture Principles and Evaluation Criteria
Data Platform Architecture Principles and Evaluation Criteria
 
BI Consultancy - Data, Analytics and Strategy
BI Consultancy - Data, Analytics and StrategyBI Consultancy - Data, Analytics and Strategy
BI Consultancy - Data, Analytics and Strategy
 
Big Data PPT by Rohit Dubey
Big Data PPT by Rohit DubeyBig Data PPT by Rohit Dubey
Big Data PPT by Rohit Dubey
 
Customer Data Platform 101
Customer Data Platform 101Customer Data Platform 101
Customer Data Platform 101
 
Building A Bi Strategy
Building A Bi StrategyBuilding A Bi Strategy
Building A Bi Strategy
 
Estrategia de datos en las organizaciones
Estrategia de datos en las organizaciones Estrategia de datos en las organizaciones
Estrategia de datos en las organizaciones
 
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en RInteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
Inteligencia de negocios (BI) y Analítica de negocios (BA): Un enfoque en R
 
Big data by Mithlesh sadh
Big data by Mithlesh sadhBig data by Mithlesh sadh
Big data by Mithlesh sadh
 
BUSSINESS INTELLIGENT
BUSSINESS INTELLIGENTBUSSINESS INTELLIGENT
BUSSINESS INTELLIGENT
 
5 Steps for Architecting a Data Lake
5 Steps for Architecting a Data Lake5 Steps for Architecting a Data Lake
5 Steps for Architecting a Data Lake
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Casos big data
Casos big dataCasos big data
Casos big data
 

Similar a BigDataHoraH

01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdfAntonioSotoRodriguez1
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datosAntonio Rodriguez
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAExpert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAJohn Bulla
 
Polybase
PolybasePolybase
PolybaseSolidQ
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Joseph Lopez
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataSpanishPASSVC
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosJohn Bulla
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big datamateo luquez
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesJuan José Domenech
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementaciónDiego Krauthamer
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Denodo
 
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014SolidQ
 
Carga y procesamiento de datos en HDInsight
Carga y procesamiento de datos en HDInsightCarga y procesamiento de datos en HDInsight
Carga y procesamiento de datos en HDInsightEladio Rincón Herrera
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD InsightEduardo Castro
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataUrko Zurutuza
 

Similar a BigDataHoraH (20)

01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf01 Introduccion a Big Data y Hadoop.pdf
01 Introduccion a Big Data y Hadoop.pdf
 
Como de grandes son tus datos
Como de grandes son tus datosComo de grandes son tus datos
Como de grandes son tus datos
 
SolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datosSolidQ Business Analytics Day | Como de grandes son tus datos
SolidQ Business Analytics Day | Como de grandes son tus datos
 
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de Datos Empresariales (EDW) y Windows Azure (SQL Databas...
 
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATAExpert Day 2013 - Trabaja al tope con tus datos BIG DATA
Expert Day 2013 - Trabaja al tope con tus datos BIG DATA
 
Big Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open SourceBig Data y Business Intelligence con Software Open Source
Big Data y Business Intelligence con Software Open Source
 
Big data, Hadoop, HDInsight
Big data, Hadoop, HDInsightBig data, Hadoop, HDInsight
Big data, Hadoop, HDInsight
 
Polybase
PolybasePolybase
Polybase
 
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
Big Data, Almacenes de datos empresariales (EDW) y Windows Azure (SQL Databas...
 
Conociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big dataConociendo los servicios adicionales en big data
Conociendo los servicios adicionales en big data
 
CloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datosCloudCamp - Big Data – La revolución de los datos
CloudCamp - Big Data – La revolución de los datos
 
Exposicion big data
Exposicion big dataExposicion big data
Exposicion big data
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
Presentación big data
Presentación big dataPresentación big data
Presentación big data
 
Big Data a traves de una implementación
Big Data a traves de una implementaciónBig Data a traves de una implementación
Big Data a traves de una implementación
 
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
Webinar Vault IT: Analítica avanzada y Machine Learning con virtualización de...
 
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
Carga y procesamiento de datos en HDInsight | SolidQ Summit 2014
 
Carga y procesamiento de datos en HDInsight
Carga y procesamiento de datos en HDInsightCarga y procesamiento de datos en HDInsight
Carga y procesamiento de datos en HDInsight
 
Análisis de datos con HD Insight
Análisis de datos con HD InsightAnálisis de datos con HD Insight
Análisis de datos con HD Insight
 
Jornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big DataJornada en enpresa digitala: Mitos y Realidades del Big Data
Jornada en enpresa digitala: Mitos y Realidades del Big Data
 

Más de SolidQ

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ
 
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ
 
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?SolidQ
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en LinuxSolidQ
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida realSolidQ
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízateSolidQ
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksSolidQ
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BISolidQ
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesSolidQ
 
R en relacional
R en relacionalR en relacional
R en relacionalSolidQ
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!SolidQ
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en AzureSolidQ
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018SolidQ
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018SolidQ
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018SolidQ
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018SolidQ
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...SolidQ
 

Más de SolidQ (20)

SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration ServicesSolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
SolidQ Summit 2018 - Qué necesita saber un DBA de Integration Services
 
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLSSolidQ Summit 2018 - Seguridad a nivel datos. RLS
SolidQ Summit 2018 - Seguridad a nivel datos. RLS
 
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
SolidQ Summit 2018 - Todo lo que un integrador de datos debería tener... y pa...
 
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
SolidQ Summit 2018 - ¿Dificultades gestionando relaciones muchos a muchos? De...
 
SolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantesSolidQ Summit 2018 - Report Server: Nuevos mutantes
SolidQ Summit 2018 - Report Server: Nuevos mutantes
 
Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?Cuando QueryStore no sirve, ¿qué opciones tenemos?
Cuando QueryStore no sirve, ¿qué opciones tenemos?
 
SQL Server 2017 en Linux
SQL Server 2017 en LinuxSQL Server 2017 en Linux
SQL Server 2017 en Linux
 
Columnstore en la vida real
Columnstore en la vida realColumnstore en la vida real
Columnstore en la vida real
 
PowerApprízate
PowerApprízatePowerApprízate
PowerApprízate
 
Jugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocksJugando a ser rico: Machine Learning para predicción de stocks
Jugando a ser rico: Machine Learning para predicción de stocks
 
Analizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BIAnalizando tus Redes Sociales con Power BI
Analizando tus Redes Sociales con Power BI
 
Mantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para DummiesMantenimiento de SQL Server para Dummies
Mantenimiento de SQL Server para Dummies
 
R en relacional
R en relacionalR en relacional
R en relacional
 
Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!Cuando haces bot ya no hay stop!!
Cuando haces bot ya no hay stop!!
 
Arquitecturas lambda en Azure
Arquitecturas lambda en AzureArquitecturas lambda en Azure
Arquitecturas lambda en Azure
 
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
Bot Framework: otra manera de acceder a tus datos - SolidQ Summit 2018
 
BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018BIE2E en Azure - SolidQ Summit 2018
BIE2E en Azure - SolidQ Summit 2018
 
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
¿Qué viene GDPR? Mi SQL está preparado- SolidQ Summit 2018
 
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018Hilando fino en SSAS multidimensional - SolidQ Summit 2018
Hilando fino en SSAS multidimensional - SolidQ Summit 2018
 
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
Adaptive Query Processing: Mejoras en el motor de consulta de SQL Server 2017...
 

Último

LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son241514984
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxJOSEFERNANDOARENASCA
 

Último (20)

LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
El uso de las tic en la vida ,lo importante que son
El uso de las tic en la vida ,lo importante  que sonEl uso de las tic en la vida ,lo importante  que son
El uso de las tic en la vida ,lo importante que son
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
Arenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptxArenas Camacho-Practica tarea Sesión 12.pptx
Arenas Camacho-Practica tarea Sesión 12.pptx
 

BigDataHoraH

Notas del editor

  1. http://social.technet.microsoft.com/wiki/contents/articles/13820.introduction-to-hdinsight-services-for-windows-azure.aspx
  2. As we look at the IT industry today, a number of important trends are changing the way software is being purchased, deployed and used in the organization. Data ExplosionThe volume of data in the workplace is exploding. According to IDC, digital data will grow more than 40x over the next decade. As more and more data is created digitally, we expect to see ever greater demands being placed on our data platforms to store, secure, process and manage these large volumes of data.Consumerization of ITToday we see an increasing trend toward the “consumerization” of IT—creating the demand for Web 2.0 experiences in the business environment. As consumers, we are accustomed to powerful user-friendly experiences, whether searching the Internet on a mobile device to find information instantly, or quickly accessing our personal financial data. In the workplace, however, we are often unable to answer even the most basic questions about our business. Increasingly, users demand business experiences that more closely mirror the convenience and ease of use in consumer life.Private and Public CloudCloud computing is changing the way data is accessed and processed, and it is creating whole new models for the way applications are delivered. According to IDC, Cloud services will account for 46% of net-new growth in overall IT spending. With private and public cloud infrastructure, organizations have an opportunity to reduce TCO dramatically as data volume increases. As we see an evolution toward greater use of private and public clouds, we see an increasing need for solutions that support hybrid cloud scenarios.
  3. data is expected to grow by up to 44 times by 2020Data is growing faster than computers are getting bigger.2 billion internet users 2011Everyday, we create 2.5 quintillion bytes of data–so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: from sensors used to gather climate information, posts to social media sites, digital pictures and videos posted online, transaction records of online purchases, and from cell phone GPS signals to name a few. This data is big data. We’re discussing data problems ranging from gigabytes to petabytes of data. At some point, traditional techniques for working with data run out of steam.
  4. Big data spans three dimensions: Volume, Velocity ,Variety , VariabilityVolume – Big data comes in one size: large. Enterprises are awash with data, easily amassing terabytes and even petabytes of information. Velocity – Often time-sensitive, big data must be used as it is streaming in to the enterprise in order to maximize its value to the business. Variety – Big data extends beyond structured data, including unstructured data of all varieties: text, audio, video, click streams, log files and more. Variability
  5.  Yahoo uses up to 170 petabytes of data in Hadoop, an open source software framework for very large data sets, to customize the home pages it presents to users. That improved visits click-throughs by 160 percent,
  6. CrawlersMost of the organizations that have built data platforms have found it necessary to go beyond the relational database model. Traditional relational database systems stop being effective at this scale. Managing sharding and replication across a horde of database servers is difficult and slow. The need to define a schema in advance conflicts with reality of multiple, unstructured data sources, in which you may not know what’s important until after you’ve analyzed the data. Relational databases are designed for consistency, to support complex transactions that can easily be rolled back if any one of a complex set of operations fails. While rock-solid consistency is crucial to many applications, it’s not really necessary for the kind of analysis we’re discussing here. Do you really care if you have 1,010 or 1,012 Twitter followers?The typical decision-making process goes something like this: capture some data, integrate it together, analyze the clean and integrated data, make some decisions, execute. By the time you decide and execute, the data may be too old and have cost you too muchEjemplo de sensores en hospital
  7. After this, then “Why great performance, Why cheap, Why good processing, Why good data storage”
  8. Hadoop is essentially a batch systemHadoop processes data as it arrives, and delivers intermediate results in (near) realtime. Near real-time data analysis enables features like trending topics on sites like Twitter. These features only require soft real-time; reports on trending topics don’t require millisecond accuracy.
  9. HDFS está inspirado en el sistema de archivos de Google. El sistema de archivos distribuido de Hadoop tiene como propósito organizar los archivos en un espacio de nombres jerárquico. HDFS tiene dos diferencias fundamentales respecto otros sistemas de archivos: HDFS puede abarcar múltiples máquinas y además HDFS se ejecuta en un espacio de usuario, al contrario que otros sistemas de archivos los cuales están estrechamente ligados al kernel del sistema operativo. El sistema de archivos distribuido de Hadoop esta diseñado para almacenar de forma fiable archivos de tamaño grande en clusters. HDFS almacena cada archivo como una secuencia de bloques, todos los bloques del archivo excepto el último son del mismo tamaño. Los bloques pertenecientes a un archivo estarán replicados en diferentes clusters para la tolerancia a fallos. Tanto el tamaño de bloque como el factor de replicación se pueden configurar para cada archivo.NameNode: Nodo único maestro, que controla el namespace del sistema de archivos y regula el acceso a los archivos de las peticiones clientes. Mantiene el rastro de que DataNodes tienen qué bloques de datos y usa esta información para controlar la jerarquía de todo el sistema de archivo. DataNode: Son los responsables de servir las lecturas y escrituras desde el sistema de archivos cliente, realiza las operaciones como abrir, cerrar, renombrar, etc. de los archivos y directorios, además realizan la creación de bloques, eliminación y replicación bajo las instrucciones del NameNode.
  10. Block size: 64mbReplication factor: 3hdfs-site.xml
  11. MapReduce es un framework que permite la computación paralela sobre grandes colecciones de datos. Al igual que HDFS tiene también una arquitectura maestro/esclavo. Cuenta con un servidor maestro o JobTracker y varios servidores esclavos TaskTracker, uno por cada nodo del clúster. Veamos cuáles son las diferencias entre ellos:JobTracker es el punto de interacción con los usuarios. Los usuarios envían los trabajos Map/Reduce al JobTracker, que los pone en una cola de trabajos pendientes y ejecuta en orden de llegada. El JobTracker gestiona la asignación de tareas y delega las tareas a los TaskTrackers. Los TaskTrackers ejecutan tareas bajo la orden del JobTracker. MapReduce se basa en la idea de tomar una operación básica funcional y aplicarla, paralelamente, a gigabytes o terabytes de datos. Para lograr dicho paralelismo, necesitamos tener cada operación MapReduce independiente de las otras.Storing data is only part of building a data platform, though. Data is only useful if you can do something with it, and enormous datasets present computational problems.Google popularized the MapReduce approach, which is basically a divide-and-conquer strategy for distributing an extremely large problem across an extremely large computing cluster. In the “map” stage, a programming task is divided into a number of identical subtasks, which are then distributed across many processors; the intermediate results are then combined by a single reduce task.Google’s biggest problem, creating large searches. It’s easy to distribute a search across thousands of processors, and then combine the results into a single set of answers. What’s less obvious is that MapReduce has proven to be widely applicable to many large data problems, ranging from search to machine learning.
  12. Less network latency
  13. Otro de los conceptos que existen en el ecosistema de Hadoop es Sqoop. Sqoop permite transferir gran volumen de datos de manera eficiente entre Hadoop y datos estructurados externos, como RDBMS y Data Warehouse. Aunque se trata de un proyecto todavía en desarrollo, esta teniendo gran éxito en el mundo empresarial, con la finalidad de solidificar los datos de Hadoop y los datos de DW. Sqoop ofrece conectores para integrar Hadoop con otros sistemas, entre ellos SQL Server. Mediante este conector podemos importar datos desde:Tablas de SQL Server a archivos delimitados HDFSTablas de SQL Server a archivos SequenceFiles en HDFSTablas de SQL Server a las tablas de Hive.Consultas ejecutadas en SQL Server a archivos de texto delimitados de HDFSConsultas ejecutadas en SQL Server a archivos SequenceFiles en HDFSConsultas ejecutadas en SQL Server a las tablas de Hive.Y podemos exportar datos:De archivos delimitados HDFS a SQL ServerDe archivos SequenceFiles en HDFS a SQL ServerDesde las tablas de Hive a las tablas de SQL Server
  14. Pig ofrece una plataforma que consta de un lenguaje de alto de nivel para conseguir programas para analizar grandes volúmenes de datos. Pig presenta una característica importante que es el paralelismo, por lo que permite manejar grandes conjuntos de datos en su totalidad.La infraestructura que Pig presenta es un compilador que produce secuencias de MapReduce. El lenguaje Pig consiste en un lenguaje textual llamado PigLatin. PigLatin abstrae la programación de Java a una notación que hace que los programas de MapReduce en alto nivel, es parecido a SQL en RDBMS. Además, los usuarios pueden crear sus propias funciones para algún propósito en concreto.
  15. Hive consiste en un sistema de Data Warehouse para Hadoop que permite realizar consultas ad-hoc y analizar grandes volúmenes de datos almacenados en el sistema de archivos HDFS. Hive utiliza MapReduce para su ejecución y HDFS para su almacenamiento.Hive proporciona un mecanismo para abstraer la estructura de estos datos y consultar los datos mediante un lenguaje parecido a SQL, llamado HiveQL.Las sentencias HQL se descomponen por el servicio de HQL en tareas MapReduce y se ejecutan en un cluster. Las sentencias HQL se pueden ejecutar de distintas formas.· Podemos ejecutar las sentencias por línea de comandos, conocida como Hive Shell· Desde aplicaciones usando los conectores Java DatabaseConnectivity (JDBC) o Open DatabaseConnectivity (ODBC)· Desde un cliente llamado HiveThrift. Este cliente es muy similar que cualquier cliente de base de datos que se instala en el equipo cliente de un usuario y se comunica con el servidor de Hive. Se puede usar el cliente HiveThrift en aplicaciones escritas en C, Java, C#, PHP, Python o Ruby. Hive tiene un alto parecido a las bases de datos tradicionales, pero debido a que Hive se basa en Hadoop y operaciones MapReduce, presenta algunas diferencias. Hadoop está pensado para realizar consultas secuenciales, entonces podemos tener consultas con una latencia muy alta, por lo tanto, se sería adecuado utilizar Hive en aplicaciones que requieren tiempos de respuesta muy rápidos. Y por otro lado, Hive está orientado a operaciones de lectura, por lo que no es adecuado utilizarlo en aplicaciones que impliquen un alto número de escrituras
  16. Commercial support
  17. The real advantage of the JavaScript layer should show itself in integrating Hadoop into a business environment, making it easy for developers to create intranet analytical environments accessible by business users. Combined with Microsoft's focus on bringing server-side JavaScript to Windows and Azure through Node.js, this gives an interesting glimpse into Microsoft's view of where developer enthusiasm and talent will lie.