SlideShare una empresa de Scribd logo
1 de 24
#sgvirtual

http://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg

@abxda
#sgvirtual

@abxda
#sgvirtual

Según Gartner:
Big data is high-volume, high-velocity and highvariety information assets that demand costeffective, innovative forms of information
processing for enhanced insight and decision
making.

http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf

@abxda
#sgvirtual

Big Data y Ciencia de Datos
¿quién?
¿cuántos?
¿por qué?
¿qué?
¿dónde?

Internet de las Cosas

Internet de las Personas
Volumen
Internet de las Ideas
Internet de todo
…

Datos
Crudos

Ciencia de
Datos
(Transforma =>)

Información
(Significado)

Análisis de Datos
Estadística
Minería de Datos

http://www.datascienceassn.org/
http://en.wikipedia.org/wiki/DIKW_Pyramid

Machine Learning

Análisis de Redes (Grafos)
Muestreo
Estratificaciones
Mucho mas…
Análisis de Regresión

Tomar
Decisiones
Y Actuar
@abxda
#sgvirtual

Científico de Datos

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

@abxda
#sgvirtual

¿Qué tanto es tantito?
8 Bits = 1Byte
1024 Bytes = 1 Kilobyte
1024 Kilobytes = 1 Megabyte
1024 Megabytes = 1 Gigabyte
1024 Gigabytes = 1 Terabyte
1024 Terabytes = 1 Petabyte
1024 Petabytes = 1 Exabyte

@abxda
#sgvirtual

Era Multicore
35 años de Historia del Microprocesador

Primavera 2005 Inicia la era multicore
Diciembre 2004 -> MapReduce

@abxda
#sgvirtual

Computo en Paralelo

Difícil de
Programar

MapReduce
(2004)
Google, Inc.
Fácil de
Programar

http://theory.stanford.edu/~sergei/papers/soda10-mrc.pdf
http://www.sciencedirect.com/science/article/pii/S1877050912001470
http://research.google.com/archive/mapreduce.html

@abxda
#sgvirtual

MapReduce

Cientos o Miles
De Computadoras

Cientos o Miles
De Computadoras

http://research.google.com/archive/mapreduce.html

@abxda
#sgvirtual

MapReduce
(Pseudocódigo para contar palabras)
map(String input_key, String input_value):
// input_key: document name
// input_value: document contents
for each word w in input_value:
EmitIntermediate(w, "1");

reduce(String output_key, Iterator intermediate_values):
// output_key: a word
// output_values: a list of counts
int result = 0;
for each v in intermediate_values:
result += ParseInt(v);
Emit(AsString(result));

@abxda
#sgvirtual

Herramientas
STANDALONE
MULTICORE

CLUSTER
BIG DATA

PARALLEL PROGRAMMING

PARALLEL PROGRAMMING

HADOOP
MAPREDUCE
SCALA,PYTHON,JAVA

SPARK
RDD, MAPREDUCE
SCALA,PYTHON,JAVA
• FAULT TOLERANCE
• LOAD BALANCING
• SYNCHRONISATION

R

http://hadoop.apache.org/
http://spark.incubator.apache.org/

PYTHON

JAVA

• FAULT TOLERANCE
• LOAD BALANCING
• SYNCHRONISATION
R

PYTHON

JAVA

@abxda
#sgvirtual

Spark una plataforma Big Data

https://amplab.cs.berkeley.edu/software/
http://strataconf.com/strata2013/public/schedule/detail/27438

@abxda
#sgvirtual

Ciencia de Datos en Acción

www.inegi.org.mx/est/contenidos/Proyectos/estratificador/

@abxda
#sgvirtual

Tecnologías Involucradas

@abxda
#sgvirtual

Big Data en el Laboratorio

@abxda
#sgvirtual

Tecnologías Involucradas

@abxda
#sgvirtual

Spark y MLBase

import org.apache.spark.mllib.clustering._
val manzanas = sc.textFile("/Users/abxda/…/datos.csv")
val subconjunto = manzanas.map(manzana => extractColumn(manzana))
points_nacional.cache
var modelo = KMeans.train(subconjunto, k=5, maxIterations=10)
val out = new PrintWriter("/Users/abxda/…/salida.csv")
subconjunto.collect.foreach(x => out.println(modelo.predict(x)))
out.close()

@abxda
#sgvirtual

Shark
select
estrato,
avg(p_autom),
avg(p_pc),
avg(p_cel),
avg(p_inter),
count(*)
from salida group by estrato;

estrato
4
3
2
1
0

p_autom
0.536577059
0.851219807
0.254049418
0.20981258
0.693759231

0.9

0.8

0.7

0.6
4
0.5

3
2

0.4

1
0

0.3

0.2

0.1

0
p_autom

p_pc
0.46087735
0.777557128
0.139711048
0.055136755
0.176546203

p_cel
0.76176366
0.833951292
0.683405158
0.160281722
0.788936165

p_inter
0.340057367
0.712273104
0.076031984
0.030043591
0.084017414

p_pc

p_cel

p_inter

count(*)
308206
192934
376060
169243
174737
1’221,180

@abxda
#sgvirtual

Promedios por variable

@abxda
#sgvirtual

Equipo Big Data
– Cientificos de Datos, expertos en integracion de soluciones Big
Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística).
– Estadisticos, expertos en modelado estadistico, enfoque en
aprendizaje estadístico (R).
– Desarrolladores de Software, expertos en desarrollo de software
(JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s
REST).
– Diseñadores Gráficos, expertos en presentación de información
(HTML5, CSS3, JavaScript, Twitter Bootstrap).
– Administradores de Sistemas, expertos en arquitecturas de
computo, infraestructura. Desde redes a clusters de computadoras
(Linux).
@abxda
#sgvirtual

La tarea
• Programación funcional
– Scala
– Akka

• Estadística
–
–
–
–

Probabilidad y Estadística
Muestreo
Machine Learning
R

• Almacenes de Datos NoSQL
–
–
–
–

Cassandra
MongoDB
Hbase
Neo4j

• Plataformas Big Data
– Hadoop
– Spark

• Visualización de Datos
– D3.js

@abxda
GRACIAS

Abel Alejandro Coronado Iruegas
Twitter : @abxda
http://abxda.wordpress.com/

Más contenido relacionado

La actualidad más candente

Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014Abel Alejandro Coronado Iruegas
 
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIEjemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIAbel Alejandro Coronado Iruegas
 
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...Abel Alejandro Coronado Iruegas
 
Introducción al BigData con Hadoop
Introducción al BigData con HadoopIntroducción al BigData con Hadoop
Introducción al BigData con HadoopSoftware Guru
 
Introducción a Data Science
Introducción a Data ScienceIntroducción a Data Science
Introducción a Data ScienceCarlos Fuentes
 
Visualización de datos: Comunicación para la era del big data
Visualización de datos: Comunicación para la era del big data Visualización de datos: Comunicación para la era del big data
Visualización de datos: Comunicación para la era del big data Software Guru
 
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky TheoryTaller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky TheoryMario Pérez Esteso
 
Estudios de caso e historias de éxito del uso efectivo de Big Data
Estudios de caso e historias de éxito del uso efectivo de Big DataEstudios de caso e historias de éxito del uso efectivo de Big Data
Estudios de caso e historias de éxito del uso efectivo de Big DataSebastián Ramírez Montaño
 
BDAS-2017 | Innovación con base en datos en Silicon Valley y Latino América
BDAS-2017 | Innovación con base en datos en Silicon Valley y Latino AméricaBDAS-2017 | Innovación con base en datos en Silicon Valley y Latino América
BDAS-2017 | Innovación con base en datos en Silicon Valley y Latino AméricaBig-Data-Summit
 
BDAS-2017 | Comprendiendo nuestras motivaciones a través de Big Data
BDAS-2017 | Comprendiendo nuestras motivaciones a través de Big DataBDAS-2017 | Comprendiendo nuestras motivaciones a través de Big Data
BDAS-2017 | Comprendiendo nuestras motivaciones a través de Big DataBig-Data-Summit
 
Apache Spark y Big Data
Apache Spark y Big DataApache Spark y Big Data
Apache Spark y Big DataSoftware Guru
 
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...Big-Data-Summit
 

La actualidad más candente (18)

Realidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en MéxicoRealidades y Sueños de Big Data en México
Realidades y Sueños de Big Data en México
 
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
Big Data, Revelando los secretos de twitter, CIMAT Zacatecas 2014
 
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGIEjemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
Ejemplos de Proyectos de Ciencia de Datos y Big Data en el INEGI
 
Big data taller inegi sedesol
Big data taller inegi sedesolBig data taller inegi sedesol
Big data taller inegi sedesol
 
Big data big opportunities
Big data big opportunitiesBig data big opportunities
Big data big opportunities
 
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
Revelando los secretos de las redes sociales, Universidad Autónoma de Aguasca...
 
PresentacionParaINFOTEC
PresentacionParaINFOTECPresentacionParaINFOTEC
PresentacionParaINFOTEC
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2Taller de Big Data y Ciencia de Datos en COLMEX dia 2
Taller de Big Data y Ciencia de Datos en COLMEX dia 2
 
Introducción al BigData con Hadoop
Introducción al BigData con HadoopIntroducción al BigData con Hadoop
Introducción al BigData con Hadoop
 
Introducción a Data Science
Introducción a Data ScienceIntroducción a Data Science
Introducción a Data Science
 
Visualización de datos: Comunicación para la era del big data
Visualización de datos: Comunicación para la era del big data Visualización de datos: Comunicación para la era del big data
Visualización de datos: Comunicación para la era del big data
 
Data Science
Data ScienceData Science
Data Science
 
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky TheoryTaller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
Taller Big Data, ciencia de datos y R - IEEE SB UMH y Geeky Theory
 
Estudios de caso e historias de éxito del uso efectivo de Big Data
Estudios de caso e historias de éxito del uso efectivo de Big DataEstudios de caso e historias de éxito del uso efectivo de Big Data
Estudios de caso e historias de éxito del uso efectivo de Big Data
 
BDAS-2017 | Innovación con base en datos en Silicon Valley y Latino América
BDAS-2017 | Innovación con base en datos en Silicon Valley y Latino AméricaBDAS-2017 | Innovación con base en datos en Silicon Valley y Latino América
BDAS-2017 | Innovación con base en datos en Silicon Valley y Latino América
 
BDAS-2017 | Comprendiendo nuestras motivaciones a través de Big Data
BDAS-2017 | Comprendiendo nuestras motivaciones a través de Big DataBDAS-2017 | Comprendiendo nuestras motivaciones a través de Big Data
BDAS-2017 | Comprendiendo nuestras motivaciones a través de Big Data
 
Apache Spark y Big Data
Apache Spark y Big DataApache Spark y Big Data
Apache Spark y Big Data
 
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
BDAS-2017 | Big Bilbao: Big Data e Internet of Things para la promoción econó...
 

Destacado

Estrategia Semanal de Cortal Consors
Estrategia Semanal de Cortal ConsorsEstrategia Semanal de Cortal Consors
Estrategia Semanal de Cortal ConsorsSalainversion
 
PRESENTACION T1
PRESENTACION T1PRESENTACION T1
PRESENTACION T1rubbo
 
2014session6 3
2014session6 32014session6 3
2014session6 3acvq
 
Nantes auto moto numéro 3 - Mars-Avril 2013
Nantes auto moto numéro 3 - Mars-Avril 2013Nantes auto moto numéro 3 - Mars-Avril 2013
Nantes auto moto numéro 3 - Mars-Avril 2013nantes-auto-moto
 
Présentation Cours de Méthodologie1 04 12 2014
Présentation Cours de Méthodologie1 04 12 2014Présentation Cours de Méthodologie1 04 12 2014
Présentation Cours de Méthodologie1 04 12 2014tairraz
 
3p 10cjm Desiyrosero Programacion Prectica04..
3p 10cjm  Desiyrosero Programacion Prectica04..3p 10cjm  Desiyrosero Programacion Prectica04..
3p 10cjm Desiyrosero Programacion Prectica04..guest063eec
 
Presentacion scrath
Presentacion scrathPresentacion scrath
Presentacion scrathAnny Ortegon
 
Informe semanal de análisis técnico de Cortal Consors 04 de mayo
Informe semanal de análisis técnico de Cortal Consors 04 de mayoInforme semanal de análisis técnico de Cortal Consors 04 de mayo
Informe semanal de análisis técnico de Cortal Consors 04 de mayoSalainversion
 
Diseño Instruccional
Diseño InstruccionalDiseño Instruccional
Diseño InstruccionalArturo Llaca
 

Destacado (16)

Anatomía de un proyecto de Big Data
Anatomía de un proyecto de Big DataAnatomía de un proyecto de Big Data
Anatomía de un proyecto de Big Data
 
Scala 1
Scala 1Scala 1
Scala 1
 
INEGI ESS big data workshop
INEGI ESS big data workshopINEGI ESS big data workshop
INEGI ESS big data workshop
 
Estrategia Semanal de Cortal Consors
Estrategia Semanal de Cortal ConsorsEstrategia Semanal de Cortal Consors
Estrategia Semanal de Cortal Consors
 
PRESENTACION T1
PRESENTACION T1PRESENTACION T1
PRESENTACION T1
 
Ene serpent blesse
Ene serpent blesseEne serpent blesse
Ene serpent blesse
 
2014session6 3
2014session6 32014session6 3
2014session6 3
 
Nantes auto moto numéro 3 - Mars-Avril 2013
Nantes auto moto numéro 3 - Mars-Avril 2013Nantes auto moto numéro 3 - Mars-Avril 2013
Nantes auto moto numéro 3 - Mars-Avril 2013
 
Présentation Cours de Méthodologie1 04 12 2014
Présentation Cours de Méthodologie1 04 12 2014Présentation Cours de Méthodologie1 04 12 2014
Présentation Cours de Méthodologie1 04 12 2014
 
3p 10cjm Desiyrosero Programacion Prectica04..
3p 10cjm  Desiyrosero Programacion Prectica04..3p 10cjm  Desiyrosero Programacion Prectica04..
3p 10cjm Desiyrosero Programacion Prectica04..
 
Memorama
MemoramaMemorama
Memorama
 
Presentacion scrath
Presentacion scrathPresentacion scrath
Presentacion scrath
 
Informe semanal de análisis técnico de Cortal Consors 04 de mayo
Informe semanal de análisis técnico de Cortal Consors 04 de mayoInforme semanal de análisis técnico de Cortal Consors 04 de mayo
Informe semanal de análisis técnico de Cortal Consors 04 de mayo
 
Diseño Instruccional
Diseño InstruccionalDiseño Instruccional
Diseño Instruccional
 
Cuaderno de repertorio folclórico
Cuaderno de repertorio folclóricoCuaderno de repertorio folclórico
Cuaderno de repertorio folclórico
 
Lcf13 complet
Lcf13 completLcf13 complet
Lcf13 complet
 

Similar a ¿Qué es big data?

Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAlberto Diaz Martin
 
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache SparkTaller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache SparkSoftware Guru
 
Big Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuroBig Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuroAntonio González Castro
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricksEduardo Castro
 
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)pmluque
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackEduardo Castro
 
Protocol Buffer Fantásticos y donde encontrarlos
Protocol Buffer Fantásticos y donde encontrarlosProtocol Buffer Fantásticos y donde encontrarlos
Protocol Buffer Fantásticos y donde encontrarlosKatia Aresti
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Dell EMC
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosOscar Corcho
 
GAB2018 Barcelona: Tooling de Azure para nuestros proyectos de data science
GAB2018 Barcelona: Tooling de Azure para nuestros proyectos de data scienceGAB2018 Barcelona: Tooling de Azure para nuestros proyectos de data science
GAB2018 Barcelona: Tooling de Azure para nuestros proyectos de data scienceAdrián Del Rincón López
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigDataKEEDIO
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfVernicaPaulinaChimbo
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
 
HTML5, CSS3 y móviles
HTML5, CSS3 y móvilesHTML5, CSS3 y móviles
HTML5, CSS3 y móvilesPideCurso
 
Smart Grid Big Data e IoT
Smart Grid Big Data e IoTSmart Grid Big Data e IoT
Smart Grid Big Data e IoTEduardo Castro
 
Big Data y el ERP en México
Big Data y el ERP en MéxicoBig Data y el ERP en México
Big Data y el ERP en MéxicoSoftware Guru
 

Similar a ¿Qué es big data? (20)

Big data
Big dataBig data
Big data
 
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BIAzure4Research - Big Data Analytics con Hadoop, Spark y Power BI
Azure4Research - Big Data Analytics con Hadoop, Spark y Power BI
 
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache SparkTaller: Limpieza y preparación de datos con Optimus y Apache Spark
Taller: Limpieza y preparación de datos con Optimus y Apache Spark
 
Big Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuroBig Data & Seguridad - Un matrimonio de futuro
Big Data & Seguridad - Un matrimonio de futuro
 
Introduccion a databricks
Introduccion a databricksIntroduccion a databricks
Introduccion a databricks
 
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
 
Log Management
Log ManagementLog Management
Log Management
 
Resumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data StackResumen del Microsoft Big Data Stack
Resumen del Microsoft Big Data Stack
 
Protocol Buffer Fantásticos y donde encontrarlos
Protocol Buffer Fantásticos y donde encontrarlosProtocol Buffer Fantásticos y donde encontrarlos
Protocol Buffer Fantásticos y donde encontrarlos
 
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
Data lake y virtualización. Ejes para una arquitectura abierta en big data v6
 
CASO PRACTICO 2.pptx
CASO PRACTICO 2.pptxCASO PRACTICO 2.pptx
CASO PRACTICO 2.pptx
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
GAB2018 Barcelona: Tooling de Azure para nuestros proyectos de data science
GAB2018 Barcelona: Tooling de Azure para nuestros proyectos de data scienceGAB2018 Barcelona: Tooling de Azure para nuestros proyectos de data science
GAB2018 Barcelona: Tooling de Azure para nuestros proyectos de data science
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdf
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
 
Arduino day
Arduino dayArduino day
Arduino day
 
HTML5, CSS3 y móviles
HTML5, CSS3 y móvilesHTML5, CSS3 y móviles
HTML5, CSS3 y móviles
 
Smart Grid Big Data e IoT
Smart Grid Big Data e IoTSmart Grid Big Data e IoT
Smart Grid Big Data e IoT
 
Big Data y el ERP en México
Big Data y el ERP en MéxicoBig Data y el ERP en México
Big Data y el ERP en México
 

Más de Abel Alejandro Coronado Iruegas (12)

Mobility Master Class.pdf
Mobility Master Class.pdfMobility Master Class.pdf
Mobility Master Class.pdf
 
Live UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de MexicoLive UAEMex Cubo de Datos Geoespaciales de Mexico
Live UAEMex Cubo de Datos Geoespaciales de Mexico
 
Cubo de datos uaemex
Cubo de datos uaemexCubo de datos uaemex
Cubo de datos uaemex
 
Geo Big Data 4 Datalab
Geo Big Data 4 DatalabGeo Big Data 4 Datalab
Geo Big Data 4 Datalab
 
Catedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBEROCatedra INEGI Big Data en IBERO
Catedra INEGI Big Data en IBERO
 
Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...Integrating eo with official statistics using machine learning in mexico geo ...
Integrating eo with official statistics using machine learning in mexico geo ...
 
Machine learning and Satellite Images
Machine learning and Satellite ImagesMachine learning and Satellite Images
Machine learning and Satellite Images
 
El Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de MexicoEl Cubo de Datos Geoespaciales de Mexico
El Cubo de Datos Geoespaciales de Mexico
 
No Sql
No SqlNo Sql
No Sql
 
Cubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de MexicoCubo de Datos Geoespaciales de Mexico
Cubo de Datos Geoespaciales de Mexico
 
Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0Congreso UAA 2018 Animo Tuitero 2 0
Congreso UAA 2018 Animo Tuitero 2 0
 
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en MexicoAnalisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
Analisis del Sentimiento en el Estado de Animo de los Tuiteros en Mexico
 

Último

LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptxLINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptxkimontey
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxtjcesar1
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptxHugoGutierrez99
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar24roberto21
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)JuanStevenTrujilloCh
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDAVIDROBERTOGALLEGOS
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxhasbleidit
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1ivanapaterninar
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosAlbanyMartinez7
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdfsharitcalderon04
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armadob7fwtwtfxf
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 

Último (20)

LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptxLINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
 
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptxModelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
Modelo de Presentacion Feria Robotica Educativa 2024 - Versión3.pptx
 
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptx
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
 
Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1Guía de Registro slideshare paso a paso 1
Guía de Registro slideshare paso a paso 1
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
Documentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos JuridicosDocumentacion Electrónica en Actos Juridicos
Documentacion Electrónica en Actos Juridicos
 
Análisis de Artefactos Tecnologicos (3) (1).pdf
Análisis de Artefactos Tecnologicos  (3) (1).pdfAnálisis de Artefactos Tecnologicos  (3) (1).pdf
Análisis de Artefactos Tecnologicos (3) (1).pdf
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armado
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 

¿Qué es big data?

  • 1.
  • 2.
  • 5. #sgvirtual Según Gartner: Big data is high-volume, high-velocity and highvariety information assets that demand costeffective, innovative forms of information processing for enhanced insight and decision making. http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf @abxda
  • 6. #sgvirtual Big Data y Ciencia de Datos ¿quién? ¿cuántos? ¿por qué? ¿qué? ¿dónde? Internet de las Cosas Internet de las Personas Volumen Internet de las Ideas Internet de todo … Datos Crudos Ciencia de Datos (Transforma =>) Información (Significado) Análisis de Datos Estadística Minería de Datos http://www.datascienceassn.org/ http://en.wikipedia.org/wiki/DIKW_Pyramid Machine Learning Análisis de Redes (Grafos) Muestreo Estratificaciones Mucho mas… Análisis de Regresión Tomar Decisiones Y Actuar @abxda
  • 8. #sgvirtual ¿Qué tanto es tantito? 8 Bits = 1Byte 1024 Bytes = 1 Kilobyte 1024 Kilobytes = 1 Megabyte 1024 Megabytes = 1 Gigabyte 1024 Gigabytes = 1 Terabyte 1024 Terabytes = 1 Petabyte 1024 Petabytes = 1 Exabyte @abxda
  • 9. #sgvirtual Era Multicore 35 años de Historia del Microprocesador Primavera 2005 Inicia la era multicore Diciembre 2004 -> MapReduce @abxda
  • 10. #sgvirtual Computo en Paralelo Difícil de Programar MapReduce (2004) Google, Inc. Fácil de Programar http://theory.stanford.edu/~sergei/papers/soda10-mrc.pdf http://www.sciencedirect.com/science/article/pii/S1877050912001470 http://research.google.com/archive/mapreduce.html @abxda
  • 11. #sgvirtual MapReduce Cientos o Miles De Computadoras Cientos o Miles De Computadoras http://research.google.com/archive/mapreduce.html @abxda
  • 12. #sgvirtual MapReduce (Pseudocódigo para contar palabras) map(String input_key, String input_value): // input_key: document name // input_value: document contents for each word w in input_value: EmitIntermediate(w, "1"); reduce(String output_key, Iterator intermediate_values): // output_key: a word // output_values: a list of counts int result = 0; for each v in intermediate_values: result += ParseInt(v); Emit(AsString(result)); @abxda
  • 13. #sgvirtual Herramientas STANDALONE MULTICORE CLUSTER BIG DATA PARALLEL PROGRAMMING PARALLEL PROGRAMMING HADOOP MAPREDUCE SCALA,PYTHON,JAVA SPARK RDD, MAPREDUCE SCALA,PYTHON,JAVA • FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION R http://hadoop.apache.org/ http://spark.incubator.apache.org/ PYTHON JAVA • FAULT TOLERANCE • LOAD BALANCING • SYNCHRONISATION R PYTHON JAVA @abxda
  • 14. #sgvirtual Spark una plataforma Big Data https://amplab.cs.berkeley.edu/software/ http://strataconf.com/strata2013/public/schedule/detail/27438 @abxda
  • 15. #sgvirtual Ciencia de Datos en Acción www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
  • 17. #sgvirtual Big Data en el Laboratorio @abxda
  • 19. #sgvirtual Spark y MLBase import org.apache.spark.mllib.clustering._ val manzanas = sc.textFile("/Users/abxda/…/datos.csv") val subconjunto = manzanas.map(manzana => extractColumn(manzana)) points_nacional.cache var modelo = KMeans.train(subconjunto, k=5, maxIterations=10) val out = new PrintWriter("/Users/abxda/…/salida.csv") subconjunto.collect.foreach(x => out.println(modelo.predict(x))) out.close() @abxda
  • 20. #sgvirtual Shark select estrato, avg(p_autom), avg(p_pc), avg(p_cel), avg(p_inter), count(*) from salida group by estrato; estrato 4 3 2 1 0 p_autom 0.536577059 0.851219807 0.254049418 0.20981258 0.693759231 0.9 0.8 0.7 0.6 4 0.5 3 2 0.4 1 0 0.3 0.2 0.1 0 p_autom p_pc 0.46087735 0.777557128 0.139711048 0.055136755 0.176546203 p_cel 0.76176366 0.833951292 0.683405158 0.160281722 0.788936165 p_inter 0.340057367 0.712273104 0.076031984 0.030043591 0.084017414 p_pc p_cel p_inter count(*) 308206 192934 376060 169243 174737 1’221,180 @abxda
  • 22. #sgvirtual Equipo Big Data – Cientificos de Datos, expertos en integracion de soluciones Big Data (MapReduce, Scala, Machine Learning, Spark, R, Estadística). – Estadisticos, expertos en modelado estadistico, enfoque en aprendizaje estadístico (R). – Desarrolladores de Software, expertos en desarrollo de software (JavaScript, Arquitecturas de Software, Patrones de Diseño, Api’s REST). – Diseñadores Gráficos, expertos en presentación de información (HTML5, CSS3, JavaScript, Twitter Bootstrap). – Administradores de Sistemas, expertos en arquitecturas de computo, infraestructura. Desde redes a clusters de computadoras (Linux). @abxda
  • 23. #sgvirtual La tarea • Programación funcional – Scala – Akka • Estadística – – – – Probabilidad y Estadística Muestreo Machine Learning R • Almacenes de Datos NoSQL – – – – Cassandra MongoDB Hbase Neo4j • Plataformas Big Data – Hadoop – Spark • Visualización de Datos – D3.js @abxda
  • 24. GRACIAS Abel Alejandro Coronado Iruegas Twitter : @abxda http://abxda.wordpress.com/