SlideShare una empresa de Scribd logo
1 de 44
Big data: a data scientist view 
Fernando Calle 
Data Scientist at ASPgems and Professor at UEX 
fcalle@aspgems.com 
www.aspgems.com 
twitter: @calle_f 
Machine Learning Spain 
http://www.meetup.com/MachineLearningSpain/ 
MADRID · NOV 21-22 · 2014
MADRID · NOV 21-22 · 2014
MADRID · NOV 21-22 · 2014
MADRID · NOV 21-22 · 2014 
Menú de hoy 
1er Plato 
● Data Hype 
● Big Data & Data Science 
2º Plato 
● Arquitectura 
● Lectura de Datos 
● Tratamiento de datos 
Postre 
● Visualización 
● Informe de resultados
MADRID · NOV 21-22 · 2014 
Menú de hoy 
1er Plato 
● Data Hype 
● Big Data & Data Science 
2º Plato 
● Arquitectura 
● Lectura de Datos 
● Tratamiento de datos (con R) 
Postre 
● Visualización 
● Informe de resultados
MADRID · NOV 21-22 · 2014 
Data Hype 
“Data is arguably the most importan natural resource of 
this century.” - Michael Dell, chairman and CEO at Dell. 
"Data really powers everything that we do." – Jeff 
Weiner, chief executive of LinkedIn. 
“I keep saying that the sexy job in the next 10 years will 
be statisticians, and I’m not kidding.” – Hal Varian, chief 
economist at Google 
"Data is the oil of the 21st century, and analytics is the 
combustion engine." - Peter Sondergaard, Gartner 
Group
MADRID · NOV 21-22 · 2014 
Data Hype 
● 90% de los datos mundiales se han 
creado en los dos últimos años. 
● 80% de la información hoy en día es no 
estructurada. 
● Se estima que existen 1 billón de 
dispositivos conectados, que producen 
2.5 trillones de bytes al día.
Los datos siempre han proporcionado 
información y resultados valiosos. Pero es 
ahora cuando se han dado cuenta las 
instituciones públicas y privadas. 
“De repente tiene sentido económico 
aprovechar todo el valor que tienen los datos” - 
Sean Owen, Director de Data Science en 
Cloudera. 
MADRID · NOV 21-22 · 2014 
Data Hype
MADRID · NOV 21-22 · 2014
MADRID · NOV 21-22 · 2014
MADRID · NOV 21-22 · 2014 
Big Data & Data Science 
Las tres V’s (Lo siento...otra vez) 
- Volumen: almacenamiento de datos. 
- Variedad: diferentes tipos de datos y de 
fuentes. 
- Velocidad: datos generados rápidamente y 
resultados en “tiempo real”. 
Las 4 V’s -> Veracidad 
Las 5 V’s -> Valor
MADRID · NOV 21-22 · 2014 
Big Data & Data Science 
● Todo el mundo habla de Big Data, pero casi 
nadie sabe realmente hacerlo. 
● Todo el mundo piensa que el resto hace Big 
Data, pero casi nadie lo está haciendo.
MADRID · NOV 21-22 · 2014 
Big Data & Data Science
MADRID · NOV 21-22 · 2014 
Big Data & Data Science 
“Data Scientist is the 
sexiest job in the 21st 
century” - Harvard 
Business review.
MADRID · NOV 21-22 · 2014 
Big Data & Data Science 
Data Science: El estudio científico que trata la 
creación, validación y transformación de los 
datos para darles significado y valor. 
Data Scientist: Profesional que utiliza modelos 
científicos para obtener información y 
significado de datos en bruto.
MADRID · NOV 21-22 · 2014 
Big Data & Data Science 
Data Science is OSEMN!! 
★ Obtaining 
★ Scrubbing 
★ Exploring 
★ Modeling 
★ iNterpreting
MADRID · NOV 21-22 · 2014 
Big Data & Data Science 
● Big Data es aún una idea un poco difusa. 
● Marcará una época en la que, apoyándose 
en la estadística (data science), tendrá un 
alto impacto en todos los negocios. 
● Las mejores decisiones se toman basadas 
en datos.
Retos del científico de datos 
con Big Data 
● Buscar las preguntas adecuadas. 
● Analizar la procedencia de los datos y su 
MADRID · NOV 21-22 · 2014 
calidad. 
● Tener en cuenta la privacidad, confidencialidad, 
transparencia e identidad. 
● Obtener relaciones coherentes y no por azar. 
● Visualización de resultados. 
● Replicabilidad de métodos y resultados.
MADRID · NOV 21-22 · 2014 
Menú de hoy 
1er Plato 
● Data Hype 
● Big Data & Data Science 
2º Plato 
● Arquitectura 
● Lectura de Datos 
● Tratamiento de datos 
Postre 
● Visualización 
● Informe de resultados
MADRID · NOV 21-22 · 2014 
Arquitectura 
● Hadoop 
● Spark 
● Cassandra 
● MongoDB 
● Storm 
● Flume 
● BigQuery 
● ...
MADRID · NOV 21-22 · 2014 
Carga/Lectura de datos 
● Sqoop 
● HBase, Hive 
● Pentaho 
● CSV 
● Rhive, bigRquery 
● ...
MADRID · NOV 21-22 · 2014 
Tratamiento de datos 
● Se pueden utilizar diferentes herramientas: 
R, Julia, Python, scikit-learn, Pandas, 
Mahout, Azure ML... 
● API’s, APPs: graphlab, dataiku, BigML, 
Indico,... 
● Hay que elegir cuidadosamente en cada 
caso.
MADRID · NOV 21-22 · 2014 
Tratamiento de datos 
● Mahout y MLbase: para hadoop y spark. 
● Google Prediction: caja negra de algoritmos. 
● Azure ML: incluye un entorno para R. 
● R y Python: los más usados por data 
scientists.
MADRID · NOV 21-22 · 2014 
Tratamiento de datos
MADRID · NOV 21-22 · 2014 
Tratamiento de datos 
¿En qué es especialmente bueno R? 
● Maneja cualquier conjunto de datos que quepa en memoria 
● Uso de dataframes optimizado 
● Puede trabajar con paralelización (mclapply) 
● Acepta librerías de C++ (Rcpp/Rcpp11) 
● Enlaza con H2O (sobre nuestros servidores) 
● Ventajas añadidas con dplyr y bigRquery 
● Visualización de resultados en general es insuperable 
● Resultados interactivos con Shiny, ggvis o R2d3 
● +2M de usuarios y contribuidores
MADRID · NOV 21-22 · 2014 
Tratamiento de datos 
¿En qué es especialmente bueno Python? 
● Análisis sencillo de conjuntos de datos medianos o 
pequeños con Pandas. 
● Sincronización de los clusters rápida usando elasticluster 
● Paralelización sencilla con ipython.parallel 
● El código es fácilmente legible 
● Para procesos poco costosos es muchísimo más rápido que 
R, por ejemplo con Numba (compilado con instrucciones 
nativas) 
● Librerías como iPython, NumPy, SciPy, Pandas.
TIOBE MADRID · NOV 21-22 · 2014 
INDEX
MADRID · NOV 21-22 · 2014
MADRID · NOV 21-22 · 2014 
Tratamiento de datos 
Carga de datos 
● foreign: carga de datos externos (SAS, SPSS, excel,...) 
● SQLdf, RODBC, RPostgresSQL, RSQLite: carga de datos y consultas 
parecidas a SQL. 
Manipulación 
● lubridate: contiene todas las funciones que se pueden aplicar sobre datos 
en formato fecha y se utilizan de forma sencillísima. 
● reshape2: transformación del formato de los datos. (o también tidyr) 
● stringR: manejo de cadenas de texto optimizado. 
● plyr: agregación de datos y aplicación de funciones por grupos. Funciones 
como ddply, daply, dlply, adply, ldply indispensables. ¡Mejorado con dplyr!
dplyr:filter, mutate, select, summarise, arrange, group by, *_join 
MADRID · NOV 21-22 · 2014
MADRID · NOV 21-22 · 2014 
magrittr: %>%
MADRID · NOV 21-22 · 2014 
Tratamiento de datos 
Modelización 
● caret: incluye sencillas herramientas para analizar la calidad de los datos, 
selección de características y construcción de modelos predictivos. Los 
resultados que proporciona son especialmente completos. 
● car: Entre otros beneficios permite realizar ANOVA tipo II y tipo III. 
● random forest: Este método de machine learning puede ser utilizado para 
el aprendizaje tanto supervisado como no supervisado. Es bastante 
popular por su sencillez y buenos resultados 
● qcc: Paquete para el control estadístico de calidad. Ofrece funciones 
fáciles de utilizar y gráficos muy intuitivos para observar procesos bajo 
control y sucesos que están fuera de control. 
● zoo y forecast: Realizan el formateo de datos y creación de modelos de 
predicción para series temporales.
MADRID · NOV 21-22 · 2014 
Menú de hoy 
1er Plato 
● Data Hype 
● Big Data & Data Science 
2º Plato 
● Arquitectura 
● Lectura de datos 
● Tratamiento de datos 
Postre 
● Visualización 
● Informe de resultados
MADRID · NOV 21-22 · 2014 
Visualización
MADRID · NOV 21-22 · 2014 
Visualización 
● ggplot2: Mejora las funciones habituales de R para gráficos 
pudiendo incluir más capas y especificaciones. Hay 
diferentes libros de gran utilidad para este paquete. 
● rgl: Gráficos interactivos en 3D usando OpenGL y escrito 
sobre C++. Presenta una navegación interactiva sobre el 
gráfico que permite hacer zoom con el propio ratón. 
● shiny y ggvis: utilizando el framework para aplicaciones 
web de shiny, se utiliza ggvis para construir gráficos 
interactivos que se visualizan en un navegador.
Visualización 
● Quieres conseguir un gráfico que sea 
efectivo para comunicar resultados de R. 
● Únicamente tienes una idea ligera de cómo 
MADRID · NOV 21-22 · 2014 
quieres que sea el gráfico. 
● Necesitas código inicial de apoyo para 
después poder personalizarlo. 
http://shinyapps.stat.ubc.ca/r-graph-catalog/
MADRID · NOV 21-22 · 2014
Diferentes formatos para resultados 
● xtable: para exportar tablas desde dataframes a HTML 
MADRID · NOV 21-22 · 2014 
o Latex en un simple paso. 
● R Markdown con knitr: permite elaborar informes en 
formato Markdown (por ejemplo en HTML). 
● pander: convierte documentos generados con 
markdown a otros formatos como PDF, doc, etc.
MADRID · NOV 21-22 · 2014 
R Markdown + Shiny 
title: "Codemotion" 
author: "Fernando" 
date: "Friday, November 21, 2014" 
output: html_document 
runtime: shiny 
--- 
Este documento de R Markdown se ha convertido en interactivo gracias a Shiny. 
## Inputs y Outputs 
Se pueden incluir inputs y outputs de Shiny directamente en el documento. Aquí se observa cómo un 
gráfico sencillo de R se puede hacer interactivo mediante la función de Shiny `renderPlot`. Las 
funciones `selectInput` y `sliderInput` crean los widgets que se utilizan en el gráfico.
MADRID · NOV 21-22 · 2014 
R Markdown + Shiny 
```{r, echo=FALSE} 
inputPanel( 
selectInput("n_breaks", label = "Number of bins:", 
choices = c(10, 20, 35, 50), selected = 20), 
sliderInput("bw_adjust", label = "Bandwidth adjustment:", 
min = 0.2, max = 2, value = 1, step = 0.2) 
) 
renderPlot({ 
hist(faithful$eruptions, probability = TRUE, breaks = as.numeric(input$n_breaks), 
xlab = "Duration (minutes)", main = "Geyser eruption duration") 
dens <- density(faithful$eruptions, adjust = input$bw_adjust) 
lines(dens, col = "blue") 
}) 
```
MADRID · NOV 21-22 · 2014 
R Markdown + Shiny 
## Aplicación 
También es posible cargar directamente una aplicación completa de Shiny en un documento R 
Markdown utilizando la función `shinyAppDir`. Este ejemplo carga una aplicación de Shiny que se 
encuentra en otro directorio: 
```{r, echo=FALSE} 
shinyAppDir( 
system.file("examples/06_tabsets", package="shiny"), 
options=list( 
width="100%", height=550 
) 
) 
``` 
Se puede apreciar que se ha definido `echo = FALSE` en todos los trozos de código R. Con esto se 
consigue que no se muestre el codigo en el documento html.
MADRID · NOV 21-22 · 2014 
R Markdown + Shiny
MADRID · NOV 21-22 · 2014 
Die Hard is © 20th Century Fox
MADRID · NOV 21-22 · 2014 
Thanks! 
Fernando Calle 
Data Scientist at ASPgems and Professor at UEX 
fcalle@aspgems.com 
www.aspgems.com 
twitter: @calle_f 
Machine Learning Spain 
http://www.meetup.com/MachineLearningSpain/

Más contenido relacionado

Similar a Big data: a data sicentist view

Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfVernicaPaulinaChimbo
 
Presentación de 2 proyectos reales en banca
Presentación de 2 proyectos reales en bancaPresentación de 2 proyectos reales en banca
Presentación de 2 proyectos reales en bancaNeo4j
 
Identificación de soluciones tecnológicas y aproximaciones a integrar en el S...
Identificación de soluciones tecnológicas y aproximaciones a integrar en el S...Identificación de soluciones tecnológicas y aproximaciones a integrar en el S...
Identificación de soluciones tecnológicas y aproximaciones a integrar en el S...David Tabernero Pérez
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataDMC Perú
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigDataKEEDIO
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big DataICEMD
 
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...SolidQ
 
Big Data in Smart Port
Big Data in Smart PortBig Data in Smart Port
Big Data in Smart PortGIS_ULPGC
 
Inmersión Laboral Analítica Digital.pdf
Inmersión Laboral Analítica Digital.pdfInmersión Laboral Analítica Digital.pdf
Inmersión Laboral Analítica Digital.pdfNatali Lujan Allende
 
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...Pepi Pedrero Rojo
 
Aplicando R al análisis de rendimiento de un servidor - SolidQ Summit 2017
Aplicando R al análisis de rendimiento de un servidor -  SolidQ Summit 2017Aplicando R al análisis de rendimiento de un servidor -  SolidQ Summit 2017
Aplicando R al análisis de rendimiento de un servidor - SolidQ Summit 2017SolidQ
 
Power BI on premise Vs Power BI on Cloud - SolidQ Summit 2017
Power BI on premise Vs Power BI on Cloud - SolidQ Summit 2017Power BI on premise Vs Power BI on Cloud - SolidQ Summit 2017
Power BI on premise Vs Power BI on Cloud - SolidQ Summit 2017SolidQ
 
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)pmluque
 

Similar a Big data: a data sicentist view (20)

Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdf
 
Presentación de 2 proyectos reales en banca
Presentación de 2 proyectos reales en bancaPresentación de 2 proyectos reales en banca
Presentación de 2 proyectos reales en banca
 
Microsoft machine learning
Microsoft machine learningMicrosoft machine learning
Microsoft machine learning
 
Big Data perspectiva DevOps
Big Data perspectiva DevOpsBig Data perspectiva DevOps
Big Data perspectiva DevOps
 
28 cityanalytics slide
28 cityanalytics slide28 cityanalytics slide
28 cityanalytics slide
 
Clase 4 periodismo de base de datos
Clase 4  periodismo de base de datosClase 4  periodismo de base de datos
Clase 4 periodismo de base de datos
 
Identificación de soluciones tecnológicas y aproximaciones a integrar en el S...
Identificación de soluciones tecnológicas y aproximaciones a integrar en el S...Identificación de soluciones tecnológicas y aproximaciones a integrar en el S...
Identificación de soluciones tecnológicas y aproximaciones a integrar en el S...
 
Drupal y rails. Nuestra experiencia
Drupal y rails. Nuestra experienciaDrupal y rails. Nuestra experiencia
Drupal y rails. Nuestra experiencia
 
Plataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big DataPlataformas Analíticas como Soporte en la Era del Big Data
Plataformas Analíticas como Soporte en la Era del Big Data
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData
 
Programa Superior en Big Data
Programa Superior en Big DataPrograma Superior en Big Data
Programa Superior en Big Data
 
Introducción a hadoop
Introducción a hadoopIntroducción a hadoop
Introducción a hadoop
 
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
Técnicas avanzadas para resolver tus problemas de sql server - SolidQ Summit ...
 
Big Data in Smart Port
Big Data in Smart PortBig Data in Smart Port
Big Data in Smart Port
 
Inmersión Laboral Analítica Digital.pdf
Inmersión Laboral Analítica Digital.pdfInmersión Laboral Analítica Digital.pdf
Inmersión Laboral Analítica Digital.pdf
 
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
Presentación programas de Inteligencia de negocio y Big data_UOCssió_setemb...
 
Aplicando R al análisis de rendimiento de un servidor - SolidQ Summit 2017
Aplicando R al análisis de rendimiento de un servidor -  SolidQ Summit 2017Aplicando R al análisis de rendimiento de un servidor -  SolidQ Summit 2017
Aplicando R al análisis de rendimiento de un servidor - SolidQ Summit 2017
 
Power BI on premise Vs Power BI on Cloud - SolidQ Summit 2017
Power BI on premise Vs Power BI on Cloud - SolidQ Summit 2017Power BI on premise Vs Power BI on Cloud - SolidQ Summit 2017
Power BI on premise Vs Power BI on Cloud - SolidQ Summit 2017
 
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
BIG DATA en CLOUD PaaS para Internet de las Cosas (IoT)
 

Último

La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptxKatherineFabianLoza1
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
DIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptxDIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptxKaterin yanac tello
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiatongailustraconcienc
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 

Último (20)

La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptx
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
DIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptxDIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptx
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologia
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 

Big data: a data sicentist view

  • 1. Big data: a data scientist view Fernando Calle Data Scientist at ASPgems and Professor at UEX fcalle@aspgems.com www.aspgems.com twitter: @calle_f Machine Learning Spain http://www.meetup.com/MachineLearningSpain/ MADRID · NOV 21-22 · 2014
  • 2. MADRID · NOV 21-22 · 2014
  • 3. MADRID · NOV 21-22 · 2014
  • 4. MADRID · NOV 21-22 · 2014 Menú de hoy 1er Plato ● Data Hype ● Big Data & Data Science 2º Plato ● Arquitectura ● Lectura de Datos ● Tratamiento de datos Postre ● Visualización ● Informe de resultados
  • 5. MADRID · NOV 21-22 · 2014 Menú de hoy 1er Plato ● Data Hype ● Big Data & Data Science 2º Plato ● Arquitectura ● Lectura de Datos ● Tratamiento de datos (con R) Postre ● Visualización ● Informe de resultados
  • 6. MADRID · NOV 21-22 · 2014 Data Hype “Data is arguably the most importan natural resource of this century.” - Michael Dell, chairman and CEO at Dell. "Data really powers everything that we do." – Jeff Weiner, chief executive of LinkedIn. “I keep saying that the sexy job in the next 10 years will be statisticians, and I’m not kidding.” – Hal Varian, chief economist at Google "Data is the oil of the 21st century, and analytics is the combustion engine." - Peter Sondergaard, Gartner Group
  • 7. MADRID · NOV 21-22 · 2014 Data Hype ● 90% de los datos mundiales se han creado en los dos últimos años. ● 80% de la información hoy en día es no estructurada. ● Se estima que existen 1 billón de dispositivos conectados, que producen 2.5 trillones de bytes al día.
  • 8. Los datos siempre han proporcionado información y resultados valiosos. Pero es ahora cuando se han dado cuenta las instituciones públicas y privadas. “De repente tiene sentido económico aprovechar todo el valor que tienen los datos” - Sean Owen, Director de Data Science en Cloudera. MADRID · NOV 21-22 · 2014 Data Hype
  • 9. MADRID · NOV 21-22 · 2014
  • 10. MADRID · NOV 21-22 · 2014
  • 11. MADRID · NOV 21-22 · 2014 Big Data & Data Science Las tres V’s (Lo siento...otra vez) - Volumen: almacenamiento de datos. - Variedad: diferentes tipos de datos y de fuentes. - Velocidad: datos generados rápidamente y resultados en “tiempo real”. Las 4 V’s -> Veracidad Las 5 V’s -> Valor
  • 12. MADRID · NOV 21-22 · 2014 Big Data & Data Science ● Todo el mundo habla de Big Data, pero casi nadie sabe realmente hacerlo. ● Todo el mundo piensa que el resto hace Big Data, pero casi nadie lo está haciendo.
  • 13. MADRID · NOV 21-22 · 2014 Big Data & Data Science
  • 14. MADRID · NOV 21-22 · 2014 Big Data & Data Science “Data Scientist is the sexiest job in the 21st century” - Harvard Business review.
  • 15. MADRID · NOV 21-22 · 2014 Big Data & Data Science Data Science: El estudio científico que trata la creación, validación y transformación de los datos para darles significado y valor. Data Scientist: Profesional que utiliza modelos científicos para obtener información y significado de datos en bruto.
  • 16. MADRID · NOV 21-22 · 2014 Big Data & Data Science Data Science is OSEMN!! ★ Obtaining ★ Scrubbing ★ Exploring ★ Modeling ★ iNterpreting
  • 17. MADRID · NOV 21-22 · 2014 Big Data & Data Science ● Big Data es aún una idea un poco difusa. ● Marcará una época en la que, apoyándose en la estadística (data science), tendrá un alto impacto en todos los negocios. ● Las mejores decisiones se toman basadas en datos.
  • 18. Retos del científico de datos con Big Data ● Buscar las preguntas adecuadas. ● Analizar la procedencia de los datos y su MADRID · NOV 21-22 · 2014 calidad. ● Tener en cuenta la privacidad, confidencialidad, transparencia e identidad. ● Obtener relaciones coherentes y no por azar. ● Visualización de resultados. ● Replicabilidad de métodos y resultados.
  • 19. MADRID · NOV 21-22 · 2014 Menú de hoy 1er Plato ● Data Hype ● Big Data & Data Science 2º Plato ● Arquitectura ● Lectura de Datos ● Tratamiento de datos Postre ● Visualización ● Informe de resultados
  • 20. MADRID · NOV 21-22 · 2014 Arquitectura ● Hadoop ● Spark ● Cassandra ● MongoDB ● Storm ● Flume ● BigQuery ● ...
  • 21. MADRID · NOV 21-22 · 2014 Carga/Lectura de datos ● Sqoop ● HBase, Hive ● Pentaho ● CSV ● Rhive, bigRquery ● ...
  • 22. MADRID · NOV 21-22 · 2014 Tratamiento de datos ● Se pueden utilizar diferentes herramientas: R, Julia, Python, scikit-learn, Pandas, Mahout, Azure ML... ● API’s, APPs: graphlab, dataiku, BigML, Indico,... ● Hay que elegir cuidadosamente en cada caso.
  • 23. MADRID · NOV 21-22 · 2014 Tratamiento de datos ● Mahout y MLbase: para hadoop y spark. ● Google Prediction: caja negra de algoritmos. ● Azure ML: incluye un entorno para R. ● R y Python: los más usados por data scientists.
  • 24. MADRID · NOV 21-22 · 2014 Tratamiento de datos
  • 25. MADRID · NOV 21-22 · 2014 Tratamiento de datos ¿En qué es especialmente bueno R? ● Maneja cualquier conjunto de datos que quepa en memoria ● Uso de dataframes optimizado ● Puede trabajar con paralelización (mclapply) ● Acepta librerías de C++ (Rcpp/Rcpp11) ● Enlaza con H2O (sobre nuestros servidores) ● Ventajas añadidas con dplyr y bigRquery ● Visualización de resultados en general es insuperable ● Resultados interactivos con Shiny, ggvis o R2d3 ● +2M de usuarios y contribuidores
  • 26. MADRID · NOV 21-22 · 2014 Tratamiento de datos ¿En qué es especialmente bueno Python? ● Análisis sencillo de conjuntos de datos medianos o pequeños con Pandas. ● Sincronización de los clusters rápida usando elasticluster ● Paralelización sencilla con ipython.parallel ● El código es fácilmente legible ● Para procesos poco costosos es muchísimo más rápido que R, por ejemplo con Numba (compilado con instrucciones nativas) ● Librerías como iPython, NumPy, SciPy, Pandas.
  • 27. TIOBE MADRID · NOV 21-22 · 2014 INDEX
  • 28. MADRID · NOV 21-22 · 2014
  • 29. MADRID · NOV 21-22 · 2014 Tratamiento de datos Carga de datos ● foreign: carga de datos externos (SAS, SPSS, excel,...) ● SQLdf, RODBC, RPostgresSQL, RSQLite: carga de datos y consultas parecidas a SQL. Manipulación ● lubridate: contiene todas las funciones que se pueden aplicar sobre datos en formato fecha y se utilizan de forma sencillísima. ● reshape2: transformación del formato de los datos. (o también tidyr) ● stringR: manejo de cadenas de texto optimizado. ● plyr: agregación de datos y aplicación de funciones por grupos. Funciones como ddply, daply, dlply, adply, ldply indispensables. ¡Mejorado con dplyr!
  • 30. dplyr:filter, mutate, select, summarise, arrange, group by, *_join MADRID · NOV 21-22 · 2014
  • 31. MADRID · NOV 21-22 · 2014 magrittr: %>%
  • 32. MADRID · NOV 21-22 · 2014 Tratamiento de datos Modelización ● caret: incluye sencillas herramientas para analizar la calidad de los datos, selección de características y construcción de modelos predictivos. Los resultados que proporciona son especialmente completos. ● car: Entre otros beneficios permite realizar ANOVA tipo II y tipo III. ● random forest: Este método de machine learning puede ser utilizado para el aprendizaje tanto supervisado como no supervisado. Es bastante popular por su sencillez y buenos resultados ● qcc: Paquete para el control estadístico de calidad. Ofrece funciones fáciles de utilizar y gráficos muy intuitivos para observar procesos bajo control y sucesos que están fuera de control. ● zoo y forecast: Realizan el formateo de datos y creación de modelos de predicción para series temporales.
  • 33. MADRID · NOV 21-22 · 2014 Menú de hoy 1er Plato ● Data Hype ● Big Data & Data Science 2º Plato ● Arquitectura ● Lectura de datos ● Tratamiento de datos Postre ● Visualización ● Informe de resultados
  • 34. MADRID · NOV 21-22 · 2014 Visualización
  • 35. MADRID · NOV 21-22 · 2014 Visualización ● ggplot2: Mejora las funciones habituales de R para gráficos pudiendo incluir más capas y especificaciones. Hay diferentes libros de gran utilidad para este paquete. ● rgl: Gráficos interactivos en 3D usando OpenGL y escrito sobre C++. Presenta una navegación interactiva sobre el gráfico que permite hacer zoom con el propio ratón. ● shiny y ggvis: utilizando el framework para aplicaciones web de shiny, se utiliza ggvis para construir gráficos interactivos que se visualizan en un navegador.
  • 36. Visualización ● Quieres conseguir un gráfico que sea efectivo para comunicar resultados de R. ● Únicamente tienes una idea ligera de cómo MADRID · NOV 21-22 · 2014 quieres que sea el gráfico. ● Necesitas código inicial de apoyo para después poder personalizarlo. http://shinyapps.stat.ubc.ca/r-graph-catalog/
  • 37. MADRID · NOV 21-22 · 2014
  • 38. Diferentes formatos para resultados ● xtable: para exportar tablas desde dataframes a HTML MADRID · NOV 21-22 · 2014 o Latex en un simple paso. ● R Markdown con knitr: permite elaborar informes en formato Markdown (por ejemplo en HTML). ● pander: convierte documentos generados con markdown a otros formatos como PDF, doc, etc.
  • 39. MADRID · NOV 21-22 · 2014 R Markdown + Shiny title: "Codemotion" author: "Fernando" date: "Friday, November 21, 2014" output: html_document runtime: shiny --- Este documento de R Markdown se ha convertido en interactivo gracias a Shiny. ## Inputs y Outputs Se pueden incluir inputs y outputs de Shiny directamente en el documento. Aquí se observa cómo un gráfico sencillo de R se puede hacer interactivo mediante la función de Shiny `renderPlot`. Las funciones `selectInput` y `sliderInput` crean los widgets que se utilizan en el gráfico.
  • 40. MADRID · NOV 21-22 · 2014 R Markdown + Shiny ```{r, echo=FALSE} inputPanel( selectInput("n_breaks", label = "Number of bins:", choices = c(10, 20, 35, 50), selected = 20), sliderInput("bw_adjust", label = "Bandwidth adjustment:", min = 0.2, max = 2, value = 1, step = 0.2) ) renderPlot({ hist(faithful$eruptions, probability = TRUE, breaks = as.numeric(input$n_breaks), xlab = "Duration (minutes)", main = "Geyser eruption duration") dens <- density(faithful$eruptions, adjust = input$bw_adjust) lines(dens, col = "blue") }) ```
  • 41. MADRID · NOV 21-22 · 2014 R Markdown + Shiny ## Aplicación También es posible cargar directamente una aplicación completa de Shiny en un documento R Markdown utilizando la función `shinyAppDir`. Este ejemplo carga una aplicación de Shiny que se encuentra en otro directorio: ```{r, echo=FALSE} shinyAppDir( system.file("examples/06_tabsets", package="shiny"), options=list( width="100%", height=550 ) ) ``` Se puede apreciar que se ha definido `echo = FALSE` en todos los trozos de código R. Con esto se consigue que no se muestre el codigo en el documento html.
  • 42. MADRID · NOV 21-22 · 2014 R Markdown + Shiny
  • 43. MADRID · NOV 21-22 · 2014 Die Hard is © 20th Century Fox
  • 44. MADRID · NOV 21-22 · 2014 Thanks! Fernando Calle Data Scientist at ASPgems and Professor at UEX fcalle@aspgems.com www.aspgems.com twitter: @calle_f Machine Learning Spain http://www.meetup.com/MachineLearningSpain/

Notas del editor

  1. Always reference your source and try to use authorized materials. In other words, don’t do this.