Big data: a data sicentist view

Big data: a data scientist view
Fernando Calle
Data Scientist at ASPgems and Professor at UEX
fcalle@aspgems.com
www.aspgems.com
twitter: @calle_f
Machine Learning Spain
http://www.meetup.com/MachineLearningSpain/
MADRID · NOV 21-22 · 2014

MADRID · NOV 21-22 · 2014
Menú de hoy
1er Plato
● Data Hype
● Big Data & Data Science
2º Plato
● Arquitectura
● Lectura de Datos
● Tratamiento de datos
Postre
● Visualización
● Informe de resultados

MADRID · NOV 21-22 · 2014
Menú de hoy
1er Plato
● Data Hype
2º Plato
● Arquitectura
● Lectura de Datos
● Tratamiento de datos (con R)
Postre
● Visualización

MADRID · NOV 21-22 · 2014
Data Hype
“Data is arguably the most importan natural resource of
this century.” - Michael Dell, chairman and CEO at Dell.
"Data really powers everything that we do." – Jeff
Weiner, chief executive of LinkedIn.
“I keep saying that the sexy job in the next 10 years will
be statisticians, and I’m not kidding.” – Hal Varian, chief
economist at Google
"Data is the oil of the 21st century, and analytics is the
combustion engine." - Peter Sondergaard, Gartner
Group

MADRID · NOV 21-22 · 2014
Data Hype
● 90% de los datos mundiales se han
creado en los dos últimos años.
● 80% de la información hoy en día es no
estructurada.
● Se estima que existen 1 billón de
dispositivos conectados, que producen
2.5 trillones de bytes al día.

Los datos siempre han proporcionado
información y resultados valiosos. Pero es
ahora cuando se han dado cuenta las
instituciones públicas y privadas.
“De repente tiene sentido económico
aprovechar todo el valor que tienen los datos” -
Sean Owen, Director de Data Science en
Cloudera.
MADRID · NOV 21-22 · 2014
Data Hype

MADRID · NOV 21-22 · 2014
Big Data & Data Science
Las tres V’s (Lo siento...otra vez)
- Volumen: almacenamiento de datos.
- Variedad: diferentes tipos de datos y de
fuentes.
- Velocidad: datos generados rápidamente y
resultados en “tiempo real”.
Las 4 V’s -> Veracidad
Las 5 V’s -> Valor

MADRID · NOV 21-22 · 2014
● Todo el mundo habla de Big Data, pero casi
nadie sabe realmente hacerlo.
● Todo el mundo piensa que el resto hace Big
Data, pero casi nadie lo está haciendo.

MADRID · NOV 21-22 · 2014

MADRID · NOV 21-22 · 2014
“Data Scientist is the
sexiest job in the 21st
century” - Harvard
Business review.

MADRID · NOV 21-22 · 2014
Data Science: El estudio científico que trata la
creación, validación y transformación de los
datos para darles significado y valor.
Data Scientist: Profesional que utiliza modelos
científicos para obtener información y
significado de datos en bruto.

MADRID · NOV 21-22 · 2014
Data Science is OSEMN!!
★ Obtaining
★ Scrubbing
★ Exploring
★ Modeling
★ iNterpreting

MADRID · NOV 21-22 · 2014
● Big Data es aún una idea un poco difusa.
● Marcará una época en la que, apoyándose
en la estadística (data science), tendrá un
alto impacto en todos los negocios.
● Las mejores decisiones se toman basadas
en datos.

Retos del científico de datos
con Big Data
● Buscar las preguntas adecuadas.
● Analizar la procedencia de los datos y su
MADRID · NOV 21-22 · 2014
calidad.
● Tener en cuenta la privacidad, confidencialidad,
transparencia e identidad.
● Obtener relaciones coherentes y no por azar.
● Visualización de resultados.
● Replicabilidad de métodos y resultados.

MADRID · NOV 21-22 · 2014
Arquitectura
● Hadoop
● Spark
● Cassandra
● MongoDB
● Storm
● Flume
● BigQuery
● ...

MADRID · NOV 21-22 · 2014
Carga/Lectura de datos
● Sqoop
● HBase, Hive
● Pentaho
● CSV
● Rhive, bigRquery
● ...

MADRID · NOV 21-22 · 2014
Tratamiento de datos
● Se pueden utilizar diferentes herramientas:
R, Julia, Python, scikit-learn, Pandas,
Mahout, Azure ML...
● API’s, APPs: graphlab, dataiku, BigML,
Indico,...
● Hay que elegir cuidadosamente en cada
caso.

MADRID · NOV 21-22 · 2014
● Mahout y MLbase: para hadoop y spark.
● Google Prediction: caja negra de algoritmos.
● Azure ML: incluye un entorno para R.
● R y Python: los más usados por data
scientists.

MADRID · NOV 21-22 · 2014

MADRID · NOV 21-22 · 2014
¿En qué es especialmente bueno R?
● Maneja cualquier conjunto de datos que quepa en memoria
● Uso de dataframes optimizado
● Puede trabajar con paralelización (mclapply)
● Acepta librerías de C++ (Rcpp/Rcpp11)
● Enlaza con H2O (sobre nuestros servidores)
● Ventajas añadidas con dplyr y bigRquery
● Visualización de resultados en general es insuperable
● Resultados interactivos con Shiny, ggvis o R2d3
● +2M de usuarios y contribuidores

MADRID · NOV 21-22 · 2014
¿En qué es especialmente bueno Python?
● Análisis sencillo de conjuntos de datos medianos o
pequeños con Pandas.
● Sincronización de los clusters rápida usando elasticluster
● Paralelización sencilla con ipython.parallel
● El código es fácilmente legible
● Para procesos poco costosos es muchísimo más rápido que
R, por ejemplo con Numba (compilado con instrucciones
nativas)
● Librerías como iPython, NumPy, SciPy, Pandas.

TIOBE MADRID · NOV 21-22 · 2014
INDEX

MADRID · NOV 21-22 · 2014
Carga de datos
● foreign: carga de datos externos (SAS, SPSS, excel,...)
● SQLdf, RODBC, RPostgresSQL, RSQLite: carga de datos y consultas
parecidas a SQL.
Manipulación
● lubridate: contiene todas las funciones que se pueden aplicar sobre datos
en formato fecha y se utilizan de forma sencillísima.
● reshape2: transformación del formato de los datos. (o también tidyr)
● stringR: manejo de cadenas de texto optimizado.
● plyr: agregación de datos y aplicación de funciones por grupos. Funciones
como ddply, daply, dlply, adply, ldply indispensables. ¡Mejorado con dplyr!

dplyr:filter, mutate, select, summarise, arrange, group by, *_join
MADRID · NOV 21-22 · 2014

MADRID · NOV 21-22 · 2014
magrittr: %>%

MADRID · NOV 21-22 · 2014
Modelización
● caret: incluye sencillas herramientas para analizar la calidad de los datos,
selección de características y construcción de modelos predictivos. Los
resultados que proporciona son especialmente completos.
● car: Entre otros beneficios permite realizar ANOVA tipo II y tipo III.
● random forest: Este método de machine learning puede ser utilizado para
el aprendizaje tanto supervisado como no supervisado. Es bastante
popular por su sencillez y buenos resultados
● qcc: Paquete para el control estadístico de calidad. Ofrece funciones
fáciles de utilizar y gráficos muy intuitivos para observar procesos bajo
control y sucesos que están fuera de control.
● zoo y forecast: Realizan el formateo de datos y creación de modelos de
predicción para series temporales.

MADRID · NOV 21-22 · 2014
Menú de hoy
1er Plato
● Data Hype
2º Plato
● Arquitectura
● Lectura de datos
● Tratamiento de datos
Postre
● Visualización

MADRID · NOV 21-22 · 2014
Visualización

MADRID · NOV 21-22 · 2014
Visualización
● ggplot2: Mejora las funciones habituales de R para gráficos
pudiendo incluir más capas y especificaciones. Hay
diferentes libros de gran utilidad para este paquete.
● rgl: Gráficos interactivos en 3D usando OpenGL y escrito
sobre C++. Presenta una navegación interactiva sobre el
gráfico que permite hacer zoom con el propio ratón.
● shiny y ggvis: utilizando el framework para aplicaciones
web de shiny, se utiliza ggvis para construir gráficos
interactivos que se visualizan en un navegador.

Visualización
● Quieres conseguir un gráfico que sea
efectivo para comunicar resultados de R.
● Únicamente tienes una idea ligera de cómo
MADRID · NOV 21-22 · 2014
quieres que sea el gráfico.
● Necesitas código inicial de apoyo para
después poder personalizarlo.
http://shinyapps.stat.ubc.ca/r-graph-catalog/

Diferentes formatos para resultados
● xtable: para exportar tablas desde dataframes a HTML
MADRID · NOV 21-22 · 2014
o Latex en un simple paso.
● R Markdown con knitr: permite elaborar informes en
formato Markdown (por ejemplo en HTML).
● pander: convierte documentos generados con
markdown a otros formatos como PDF, doc, etc.

MADRID · NOV 21-22 · 2014
R Markdown + Shiny
title: "Codemotion"
author: "Fernando"
date: "Friday, November 21, 2014"
output: html_document
runtime: shiny
---
Este documento de R Markdown se ha convertido en interactivo gracias a Shiny.
## Inputs y Outputs
Se pueden incluir inputs y outputs de Shiny directamente en el documento. Aquí se observa cómo un
gráfico sencillo de R se puede hacer interactivo mediante la función de Shiny `renderPlot`. Las
funciones `selectInput` y `sliderInput` crean los widgets que se utilizan en el gráfico.

MADRID · NOV 21-22 · 2014
R Markdown + Shiny
```{r, echo=FALSE}
inputPanel(
selectInput("n_breaks", label = "Number of bins:",
choices = c(10, 20, 35, 50), selected = 20),
sliderInput("bw_adjust", label = "Bandwidth adjustment:",
min = 0.2, max = 2, value = 1, step = 0.2)
)
renderPlot({
hist(faithful$eruptions, probability = TRUE, breaks = as.numeric(input$n_breaks),
xlab = "Duration (minutes)", main = "Geyser eruption duration")
dens <- density(faithful$eruptions, adjust = input$bw_adjust)
lines(dens, col = "blue")
})
```

MADRID · NOV 21-22 · 2014
R Markdown + Shiny
## Aplicación
También es posible cargar directamente una aplicación completa de Shiny en un documento R
Markdown utilizando la función `shinyAppDir`. Este ejemplo carga una aplicación de Shiny que se
encuentra en otro directorio:
```{r, echo=FALSE}
shinyAppDir(
system.file("examples/06_tabsets", package="shiny"),
options=list(
width="100%", height=550
)
)
```
Se puede apreciar que se ha definido `echo = FALSE` en todos los trozos de código R. Con esto se
consigue que no se muestre el codigo en el documento html.

MADRID · NOV 21-22 · 2014
R Markdown + Shiny

MADRID · NOV 21-22 · 2014
Thanks!
Fernando Calle
Data Scientist at ASPgems and Professor at UEX
fcalle@aspgems.com
www.aspgems.com
twitter: @calle_f
Machine Learning Spain
http://www.meetup.com/MachineLearningSpain/

Big data: a data sicentist view

Recomendados

Recomendados

Más contenido relacionado

Similar a Big data: a data sicentist view

Similar a Big data: a data sicentist view (20)

Último

Último (20)

Big data: a data sicentist view

Notas del editor