7. Al igual que al hacer un buen ceviche, cuanto mejor
sean los ingredientes con los que empiece, mejor
será el producto final.
Para hacer un buena ciencia de datos, tendremos
que darle materia prima de gran calidad con la que
trabajar.
8.
9. ¿Están sus datos preparados para la ciencia
de datos?
Puede sorprenderle, pero solo hay cinco preguntas a
las que responde la ciencia de datos:
• ¿Esto es A o B?
• ¿Es extraño?
• ¿Cuánto? o ¿cuántos?
• ¿Cómo está organizado?
• ¿Qué debo hacer a continuación?
10. • Relevantes
• Conectado
• Precisos
• Suficientes para trabajar con ellos
Criterios de los datos para la ciencia de datos
18. ¿Qué es la ciencia de datos?
Es el proceso de usar nombres (llamados también categorías o
etiquetas) y números para predecir una respuesta a una
pregunta
Pero no sirve cualquier pregunta; debe ser una
pregunta directa.
19. Imagine que encuentra una lámpara mágica con un genio que
responde de forma veraz a cualquier pregunta que formule
"¿Qué va a pasar con mis acciones?", el genio
podría responder: "El precio cambiará". Es una
respuesta veraz, pero no sirve de mucha ayuda..
20. Pero si tuviera que formular una pregunta directa, como "¿Cuál
será el precio de venta de mis acciones la próxima semana?", el
genio no podrá evitar darle una respuesta específica y predecir
un precio de venta.
"¿Qué automóvil de mi flota va a caer primero?",
21. Tenemos para asegurarnos de que nuestros datos incluyan el
historial de precios de cotización
Tenemos que asegurarnos de que nuestros datos
incluyan información de los errores anteriores
22. Preguntas acerca de características:
"¿Es este punto de datos A o B?" predice la categoría (o
nombre o etiqueta) de algo
algoritmo de clasificación.
La pregunta "¿Cuánto?" o "¿Cuántos?" predice una
cantidad. Para responderla, usamos un algoritmo de
regresión.
23. Caso Práctico
Supongamos que deseo comprar un diamante.
Tengo un anillo que pertenecía a mi abuela con un
engarce para un diamante de 1.35 quilates, y quiero
tener una idea de cuánto costará. Tomo un lápiz y un
cuaderno en la joyería y escribo el precio de todos
los diamantes de la vitrina y cuántos quilates tienen.
Empiezo por el primer diamante: tiene 1.01 quilates y
cuesta 7366 USD.
24.
25. Ahora platearemos nuestra pregunta de forma
directa:
"¿Cuánto costará comprar un diamante 1.35
quilates?"
Nuestra lista no contiene ningún diamante de 1.35
quilates, por lo que debemos utilizar el resto de
nuestros datos para obtener una respuesta a la
pregunta.
32. Abraham Cabangbang, Senior Data Scientist en LinkedIn:
“Trabajo en un equipo dedicado al reporting y a la calidad de
los datos. Si hay algún producto nuevo que debemos
incorporar en nuestros principales cuadros de mando,
debemos trabajar con los product managers para que nos
indiquen qué es importante para el producto, y con los
ingenieros para que nos digan cuáles son los datos relevantes.
A partir de ahí, colaboramos con el equipo de data services
para hacer las ETL (extracción, transformación y carga de
datos) y la posterior visualización”.
33. Peter Harrington, Chief Data Scientist en HG Data:
“Un proyecto típico es incorporar una nueva fuente de
datos en nuestra base de datos, que no siempre está en el
formato en el que podamos almacenarlo. Un estudiante
podría pensar: “bien, sólo hay que reformatearlo”, pero no
es tan sencillo, porque hay temas no determinísticas que
hacer y deben realizarse con gran precisión. Desde que
empezamos, posiblemente he pasado el 60% del tiempo
programando, 5% mirando los resultados y el 35%
restante analizando nuevas formas de mejorar mi análisis”.
34. John Yeung, Analista de Datos en Flurry:
“Los proyectos más interesantes en los que he trabajado son los
relacionados con las grandes compañías del mundo del
entretenimiento (juego). Generalmente tienen un buen porfolio de
productos, siempre están buscando expandir su base de usuarios y
están muy atentos a las tendencias de la industria. Muchas veces nos
piden ayuda para analizar cómo va el mercado. Un ejemplo es
cuando diferentes compañías con diferentes juegos, tienen los
usuarios muy concentrados. Entonces, si quieren captar más
jugadores, tienen que decidir qué inversión les generará el mejor
ROI.
35. Ben Bregman, Analista de Producto en Facebook:
“Mi día tipo varía dependiendo en qué parte del ciclo de
producto estamos. Si estamos poniendo en producción una
nueva funcionalidad, estaré monitorizando y buceando en las
métricas para entender cómo va el rendimiento. Si estamos
desarrollando funcionalidades nuevas, trabajo con los
ingenieros para asegurar una buena comunicación con los
servicios de backend involucrados. Si estamos dilucidando
sobre el futuro, estaré recogiendo datos y haciendo análisis
que nos ayuden en la conversación.
36. ¿Para qué sirve la ciencia de datos?
• Diseñar experimentos
• Modelos estadísticos y matemáticos (SPSS, R, Matlab,
modelos de predicción, inferencia bayesiana)
• Minería de datos (SQL, NoSQL, Hadoop / Hive / Pig,
API)
• Investigación de los datos (conectando puntos,
haciendo preguntas útiles)
• Cuenta cuentos (Interpretando, extrapolando,
explicando, visualizando resultados)
37. Un día típico para mí…
1. ¿Está funcionando bien el sistema? Verificar.
2. ¿Los procesos se están ejecutando bien? Verificar.
3. Mirar la lista de nuevos requerimientos y escribir
nuevos procesos. Añadirlos al planificador.
4. Mirar los procesos completados y enviar los
resultados al que los solicitó.
5. Repetir 3 y 4, hasta que la lista de requerimientos
esté vacía”.