Presentación realizada en Campus Party 2016 sobre el Arte de la Ciencia de Datos. La presentación se divide en dos, por un lado está el tema de la comparativa con las artes liberales y por el otro lado está el arte de analizar datos.
1. El Arte de la
Ciencia de Datos
Campus Party 2016
#DatosALoGrande
2. Presentación
- Machine Learning
Stanford
- Mining Massive Datasets
Stanford
- Process Mining
Eindhoven
- Data Analysis
John Hopkins
- Data Lakes for Big Data
EMC
- Big Data with Spark
Berkeley
Héctor Neri Cano
neri.cano@gmail.com
Data Science Enthusiast
5. Beneficios
• Resultados más precisos.
• Mejores recomendaciones.
• Los periodistas pueden analizar y entender mejor.
• Soluciones para el problema de tráfico en las ciudades.
• Predecir las enfermedades que cada persona pueda padecer.
• Encontrar la mejor cura y tratamiento personalizados.
6. Acciones impulsadas por Datos
• Aprender de los datos
• Convertir los datos en algo valioso
• Tomar decisiones basadas en los datos
• Crear productos y servicios impulsados por los datos
El Trabajo en Equipo es fundamental.
El tratamiento de los datos para extraer conocimiento,
es un arte y una ciencia.
7. Data Vincis
El rol de científico de datos se ha descrito como “parte
analista, parte artista”. De acuerdo a Anjul Bhambhri,
vicepresidente de productos de Big Data en IBM, “un
científico de datos es alguien inquisitivo, que puede mirar
a los datos y encontrar patrones. Es casi como un
individuo del Renacimiento que realmente quiere aprender
y traer cambio a una organización”.
18. El Científico de Datos
Un científico de datos
debe reunir y aplicar
herramientas adecuadas
a los datos para
responder una pregunta
relevante.
Actividades Centrales
1. Definir (y refinar) la pregunta
2. Explorar los datos
3. Construir modelos
estadísticos formales
4. Interpretar los resultados
5. Comunicar los resultados
19. El Epiciclo
de Análisis Ajustar las
expectativas
Se necesitará repasar
este epiciclo
continuamente para
refinar las
actividades centrales.
Recolectar
información
(datos)
Comparar tu
información o
datos con tus
expectativas
Corregir tus
expectativas
o arreglar
los datos
20. Definir la Pregunta
Muchas de las trampas
mortales de un análisis
de datos pueden ser
evitados al gastar
energía mental para
hacer que la pregunta
quede bien formulada.
Tipos de Preguntas
1. Descriptiva
2. Exploratoria
3. Inferencial
4. Predictiva
5. Causal
6. Mecánica
24. Características de
una Buena Pregunta
Ejemplo de una
Buena Pregunta
¿Comer 5 porciones de
fruta y vegetales frescos
se relaciona con menos
infecciones de las vías
respiratorias?
Debe ser de interés para tu
audiencia
No debe haber sido ya
respondida
Debe provenir de un cuadro de
trabajo plausible
Debe poder ser respondida con
los datos adquiribles
Debe ser lo suficientemente
específica
25. Traducir una pregunta
en un problema de datos
Piensa cómo lucirían los
resultados del análisis
de datos y cómo pueden
ser interpretados.
Evita preguntas que usan
datos inapropiados y con
una infinidad de
interpretaciones.
Asegurate que los datos
disponibles pueden
proveer los factores
necesarios para obtener
la respuesta.
26. Evita las Variables
de Confusión
Se presenta cuando un factor que
no se consideró está relacionado.
Se refiere a aquellas variables que
aparentemente son significativas,
pero que en realidad no lo son
porque son dependientes de otras
que no han sido consideradas.
Conviene identificar si el
dataset incluye información
acerca de estas potenciales
variables de confusión.
27. Evita la Parcialidad
(Bias)
Una selección parcializada
ocurre cuando los datos
inflan la proporción de la
gente que tiene más ciertas
características que la
población general.
Si la forma en que los
datos son recolectados
lleva a un resultado
parcializado, el
resultado no puede ser
bien interpretado.
La parcialidad puede ser un
problema si estás más (o
menos) propenso de observar
individuos con ciertos
factores debido a cómo la
población fue seleccionada.
28. Revisa tus datos
primero
Los datos
usualmente vendrán
en un formato muy
desordenado y
necesitarás hacer
algo de limpieza.
Con algunas cuantas
maniobras, puedes identificar
problemas potenciales con el
conjunto de datos antes de
que te enfrasques en un
complicado análisis de datos.
Frecuentemente es útil mirar
al “inicio” y al “final” de
un conjunto de datos. Esto te
permite conocer si los datos
fueron leídos propiamente, si
las cosas están propiamente
formateadas y si todo está en
su sitio.
29. Valida con al menos
una fuente externa
En Machine Learning, el
dataset es mejor separarlo
en 3 subconjuntos
Testing
Asegurarse de que los
datos concuerdan con algo
fuera de tu conjunto de
datos es muy importante.
Permite que te asegures
de que las medidas están
firmemente en línea con
lo que debe ser y sirve
como una revisión sobre
qué otras cosas podrían
estar mal en tu conjunto
de datos.
Aprendizaje
Validación
30. Intenta lo más fácil,
pero siempre desafialo
La intención de intentar
primero la solución más
fácil es ver cómo podría
proveerse evidencia ‘a
primera vista’.
Si no encuentras
evidencia en los datos
usando solo un simple
plot o análisis, entonces
frecuentemente es poco
probable que encuentres
algo en un análisis más
sofisticado.
Se debe siempre pensar
en formas de desafiar
los resultados,
especialmente si esos
resultados se comportan
según tus expectativas
previas.
31. Utiliza un modelo
razonable y útil.
Tener todos los datos es
importante, pero no siempre
es muy útil. Esto es debido
a que el modelo trivial (no
tener ni un solo modelo) no
provee ninguna reducción de
los datos. El primer
elemento clave de un modelo
estadístico es la reducción
de los datos.
La pregunta es si el
modelo provee una
aproximación razonable
que pueda ser útil.
Un modelo
estadístico
permite una
aleatoriedad
al generar
los datos.
El modelo es
esencialmente
una expectativa
de la relación
entre varios
factores del
mundo real en
tu conjunto de
datos.
34. Analítica de Datos
vs Ciencia de Datos
Descubrir aquellas
cosas que no sabemos
que desconocemos
Más que un
interés en
conocer
aquellas
cosas que no
conocemos
Ciencia de
Datos: Más
que muchas
disciplinas
y diversas
herramientas
Fuente: DataScientistInsight.com
35. .Aspecto Análitica de Datos Ciencia de Datos
Filosofía Saber Entender
Modelos Generados Descriptivos, Diagnósticos Predictivos, Prescriptivos
Nivel de Comprensión Aprendizaje Sencillo Aprendizaje Profundo
Resultados Operacionales y Tácticos Estratégicos y Generan Valor
Carga de Trabajo Repetitiva y Sistemática Experimental y Particular
Ámbito de Estudio Limitado y Específico Amplio y General
Variedad de Datos Datasets limitados y coherentes Ilimitados y formados flexibles
Veracidad de los Datos Calidad y Certeza Controlada Calidad y Certeza Desconocida