El arte de la Ciencia de Datos

El Arte de la
Ciencia de Datos
Campus Party 2016
#DatosALoGrande

Presentación
- Machine Learning
Stanford
- Mining Massive Datasets
Stanford
- Process Mining
Eindhoven
- Data Analysis
John Hopkins
- Data Lakes for Big Data
EMC
- Big Data with Spark
Berkeley
Héctor Neri Cano
neri.cano@gmail.com
Data Science Enthusiast

Beneficios
• Resultados más precisos.
• Mejores recomendaciones.
• Los periodistas pueden analizar y entender mejor.
• Soluciones para el problema de tráfico en las ciudades.
• Predecir las enfermedades que cada persona pueda padecer.
• Encontrar la mejor cura y tratamiento personalizados.

Acciones impulsadas por Datos
• Aprender de los datos
• Convertir los datos en algo valioso
• Tomar decisiones basadas en los datos
• Crear productos y servicios impulsados por los datos
El Trabajo en Equipo es fundamental.
El tratamiento de los datos para extraer conocimiento,
es un arte y una ciencia.

Data Vincis
El rol de científico de datos se ha descrito como “parte
analista, parte artista”. De acuerdo a Anjul Bhambhri,
vicepresidente de productos de Big Data en IBM, “un
científico de datos es alguien inquisitivo, que puede mirar
a los datos y encontrar patrones. Es casi como un
individuo del Renacimiento que realmente quiere aprender
y traer cambio a una organización”.

Las 7 Artes Liberales
de la Ciencia de Datos

Trivium 1 (Dialéctica)
Análisis
Estadístico

Trivium 2 (Gramática)
Estructura
de Datos

Trivium 3 (Retórica)
Data Visualization
+ Open Data

Quadrivium 1 (Aritmética)
Big Data

Quadrivium 2 (Geometría)
Distributed
FileSystem

Quadrivium 3 (Música)
MapReduce

Quadrivium 4 (Astronomía)
Data Mining

El Científico de Datos
Un científico de datos
debe reunir y aplicar
herramientas adecuadas
a los datos para
responder una pregunta
relevante.
Actividades Centrales
1. Definir (y refinar) la pregunta
2. Explorar los datos
3. Construir modelos
estadísticos formales
4. Interpretar los resultados
5. Comunicar los resultados

El Epiciclo
de Análisis Ajustar las
expectativas
Se necesitará repasar
este epiciclo
continuamente para
refinar las
actividades centrales.
Recolectar
información
(datos)
Comparar tu
información o
datos con tus
expectativas
Corregir tus
expectativas
o arreglar
los datos

Definir la Pregunta
Muchas de las trampas
mortales de un análisis
de datos pueden ser
evitados al gastar
energía mental para
hacer que la pregunta
quede bien formulada.
Tipos de Preguntas
1. Descriptiva
2. Exploratoria
3. Inferencial
4. Predictiva
5. Causal
6. Mecánica

Pregunta
Descriptiva
Pregunta
Exploratoria

Pregunta
Inferencial
Pregunta
Predictiva

Pregunta
Causal
Pregunta
Mecánica

Características de
una Buena Pregunta
Ejemplo de una
Buena Pregunta
¿Comer 5 porciones de
fruta y vegetales frescos
se relaciona con menos
infecciones de las vías
respiratorias?
Debe ser de interés para tu
audiencia
No debe haber sido ya
respondida
Debe provenir de un cuadro de
trabajo plausible
Debe poder ser respondida con
los datos adquiribles
Debe ser lo suficientemente
específica

Traducir una pregunta
en un problema de datos
Piensa cómo lucirían los
resultados del análisis
de datos y cómo pueden
ser interpretados.
Evita preguntas que usan
datos inapropiados y con
una infinidad de
interpretaciones.
Asegurate que los datos
disponibles pueden
proveer los factores
necesarios para obtener
la respuesta.

Evita las Variables
de Confusión
Se presenta cuando un factor que
no se consideró está relacionado.
Se refiere a aquellas variables que
aparentemente son significativas,
pero que en realidad no lo son
porque son dependientes de otras
que no han sido consideradas.
Conviene identificar si el
dataset incluye información
acerca de estas potenciales
variables de confusión.

Evita la Parcialidad
(Bias)
Una selección parcializada
ocurre cuando los datos
inflan la proporción de la
gente que tiene más ciertas
características que la
población general.
Si la forma en que los
datos son recolectados
lleva a un resultado
parcializado, el
resultado no puede ser
bien interpretado.
La parcialidad puede ser un
problema si estás más (o
menos) propenso de observar
individuos con ciertos
factores debido a cómo la
población fue seleccionada.

Revisa tus datos
primero
Los datos
usualmente vendrán
en un formato muy
desordenado y
necesitarás hacer
algo de limpieza.
Con algunas cuantas
maniobras, puedes identificar
problemas potenciales con el
conjunto de datos antes de
que te enfrasques en un
complicado análisis de datos.
Frecuentemente es útil mirar
al “inicio” y al “final” de
un conjunto de datos. Esto te
permite conocer si los datos
fueron leídos propiamente, si
las cosas están propiamente
formateadas y si todo está en
su sitio.

Valida con al menos
una fuente externa
En Machine Learning, el
dataset es mejor separarlo
en 3 subconjuntos
Testing
Asegurarse de que los
datos concuerdan con algo
fuera de tu conjunto de
datos es muy importante.
Permite que te asegures
de que las medidas están
firmemente en línea con
lo que debe ser y sirve
como una revisión sobre
qué otras cosas podrían
estar mal en tu conjunto
de datos.
Aprendizaje
Validación

Intenta lo más fácil,
pero siempre desafialo
La intención de intentar
primero la solución más
fácil es ver cómo podría
proveerse evidencia ‘a
primera vista’.
Si no encuentras
evidencia en los datos
usando solo un simple
plot o análisis, entonces
frecuentemente es poco
probable que encuentres
algo en un análisis más
sofisticado.
Se debe siempre pensar
en formas de desafiar
los resultados,
especialmente si esos
resultados se comportan
según tus expectativas
previas.

Utiliza un modelo
razonable y útil.
Tener todos los datos es
importante, pero no siempre
es muy útil. Esto es debido
a que el modelo trivial (no
tener ni un solo modelo) no
provee ninguna reducción de
los datos. El primer
elemento clave de un modelo
estadístico es la reducción
de los datos.
La pregunta es si el
modelo provee una
aproximación razonable
que pueda ser útil.
Un modelo
estadístico
permite una
aleatoriedad
al generar
los datos.
El modelo es
esencialmente
una expectativa
de la relación
entre varios
factores del
mundo real en
tu conjunto de
datos.

Analítica de Datos
vs Ciencia de Datos
Descubrir aquellas
cosas que no sabemos
que desconocemos
Más que un
interés en
conocer
aquellas
cosas que no
conocemos
Ciencia de
Datos: Más
que muchas
disciplinas
y diversas
herramientas
Fuente: DataScientistInsight.com

.Aspecto Análitica de Datos Ciencia de Datos
Filosofía Saber Entender
Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos
Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo
Resultados Operacionales y Tácticos Estratégicos y Generan Valor
Carga de Trabajo Repetitiva y Sistemática Experimental y Particular
Ámbito de Estudio Limitado y Específico Amplio y General
Variedad de Datos Datasets limitados y coherentes Ilimitados y formados flexibles
Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida

¿Dudas o Comentarios?
Héctor Neri Cano
neri.cano@gmail.com
www.datalab.mx

Muchas Gracias
por estar aquí

El arte de la Ciencia de Datos

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a El arte de la Ciencia de Datos

Similar a El arte de la Ciencia de Datos (20)

Más de DataLab Community

Más de DataLab Community (10)

Último

Último (20)

El arte de la Ciencia de Datos