SlideShare una empresa de Scribd logo
1 de 39
Un dia en la vida de un
científico de datos
Fabricio Quintanilla
Comenzamos….
¿Qué es esto?
Datos vs Información
CEVICHE
• Pescado
• Ají
• Camote
• Limón
• Lechuga
• Cebolla
• Choclo
• Chifle
Al igual que al hacer un buen ceviche, cuanto mejor
sean los ingredientes con los que empiece, mejor
será el producto final.
Para hacer un buena ciencia de datos, tendremos
que darle materia prima de gran calidad con la que
trabajar.
¿Están sus datos preparados para la ciencia
de datos?
Puede sorprenderle, pero solo hay cinco preguntas a
las que responde la ciencia de datos:
• ¿Esto es A o B?
• ¿Es extraño?
• ¿Cuánto? o ¿cuántos?
• ¿Cómo está organizado?
• ¿Qué debo hacer a continuación?
• Relevantes
• Conectado
• Precisos
• Suficientes para trabajar con ellos
Criterios de los datos para la ciencia de datos
Relevantes
Conectados
Precisos
Suficiente
Suficiente
Suficiente
¿Qué es la ciencia de datos?
Es el proceso de usar nombres (llamados también categorías o
etiquetas) y números para predecir una respuesta a una
pregunta
Pero no sirve cualquier pregunta; debe ser una
pregunta directa.
Imagine que encuentra una lámpara mágica con un genio que
responde de forma veraz a cualquier pregunta que formule
"¿Qué va a pasar con mis acciones?", el genio
podría responder: "El precio cambiará". Es una
respuesta veraz, pero no sirve de mucha ayuda..
Pero si tuviera que formular una pregunta directa, como "¿Cuál
será el precio de venta de mis acciones la próxima semana?", el
genio no podrá evitar darle una respuesta específica y predecir
un precio de venta.
"¿Qué automóvil de mi flota va a caer primero?",
Tenemos para asegurarnos de que nuestros datos incluyan el
historial de precios de cotización
Tenemos que asegurarnos de que nuestros datos
incluyan información de los errores anteriores
Preguntas acerca de características:
"¿Es este punto de datos A o B?" predice la categoría (o
nombre o etiqueta) de algo
algoritmo de clasificación.
La pregunta "¿Cuánto?" o "¿Cuántos?" predice una
cantidad. Para responderla, usamos un algoritmo de
regresión.
Caso Práctico
Supongamos que deseo comprar un diamante.
Tengo un anillo que pertenecía a mi abuela con un
engarce para un diamante de 1.35 quilates, y quiero
tener una idea de cuánto costará. Tomo un lápiz y un
cuaderno en la joyería y escribo el precio de todos
los diamantes de la vitrina y cuántos quilates tienen.
Empiezo por el primer diamante: tiene 1.01 quilates y
cuesta 7366 USD.
Ahora platearemos nuestra pregunta de forma
directa:
"¿Cuánto costará comprar un diamante 1.35
quilates?"
Nuestra lista no contiene ningún diamante de 1.35
quilates, por lo que debemos utilizar el resto de
nuestros datos para obtener una respuesta a la
pregunta.
¿En qué consiste el día a día de
un Científico de Datos?
Abraham Cabangbang, Senior Data Scientist en LinkedIn:
“Trabajo en un equipo dedicado al reporting y a la calidad de
los datos. Si hay algún producto nuevo que debemos
incorporar en nuestros principales cuadros de mando,
debemos trabajar con los product managers para que nos
indiquen qué es importante para el producto, y con los
ingenieros para que nos digan cuáles son los datos relevantes.
A partir de ahí, colaboramos con el equipo de data services
para hacer las ETL (extracción, transformación y carga de
datos) y la posterior visualización”.
Peter Harrington, Chief Data Scientist en HG Data:
“Un proyecto típico es incorporar una nueva fuente de
datos en nuestra base de datos, que no siempre está en el
formato en el que podamos almacenarlo. Un estudiante
podría pensar: “bien, sólo hay que reformatearlo”, pero no
es tan sencillo, porque hay temas no determinísticas que
hacer y deben realizarse con gran precisión. Desde que
empezamos, posiblemente he pasado el 60% del tiempo
programando, 5% mirando los resultados y el 35%
restante analizando nuevas formas de mejorar mi análisis”.
John Yeung, Analista de Datos en Flurry:
“Los proyectos más interesantes en los que he trabajado son los
relacionados con las grandes compañías del mundo del
entretenimiento (juego). Generalmente tienen un buen porfolio de
productos, siempre están buscando expandir su base de usuarios y
están muy atentos a las tendencias de la industria. Muchas veces nos
piden ayuda para analizar cómo va el mercado. Un ejemplo es
cuando diferentes compañías con diferentes juegos, tienen los
usuarios muy concentrados. Entonces, si quieren captar más
jugadores, tienen que decidir qué inversión les generará el mejor
ROI.
Ben Bregman, Analista de Producto en Facebook:
“Mi día tipo varía dependiendo en qué parte del ciclo de
producto estamos. Si estamos poniendo en producción una
nueva funcionalidad, estaré monitorizando y buceando en las
métricas para entender cómo va el rendimiento. Si estamos
desarrollando funcionalidades nuevas, trabajo con los
ingenieros para asegurar una buena comunicación con los
servicios de backend involucrados. Si estamos dilucidando
sobre el futuro, estaré recogiendo datos y haciendo análisis
que nos ayuden en la conversación.
¿Para qué sirve la ciencia de datos?
• Diseñar experimentos
• Modelos estadísticos y matemáticos (SPSS, R, Matlab,
modelos de predicción, inferencia bayesiana)
• Minería de datos (SQL, NoSQL, Hadoop / Hive / Pig,
API)
• Investigación de los datos (conectando puntos,
haciendo preguntas útiles)
• Cuenta cuentos (Interpretando, extrapolando,
explicando, visualizando resultados)
Un día típico para mí…
1. ¿Está funcionando bien el sistema? Verificar.
2. ¿Los procesos se están ejecutando bien? Verificar.
3. Mirar la lista de nuevos requerimientos y escribir
nuevos procesos. Añadirlos al planificador.
4. Mirar los procesos completados y enviar los
resultados al que los solicitó.
5. Repetir 3 y 4, hasta que la lista de requerimientos
esté vacía”.
Demo Azure Machine
Learning
Fabricio Quintanilla, MSc, PhD
fabricio.quintanilla@gmail.com
@fabrixq
/fquintanilla
http://www.inteligenciadenegocios.net
MCP, MCPD, MCTS

Más contenido relacionado

Similar a Un dia en la vida del cientifico de datos

slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
elianatorales
 

Similar a Un dia en la vida del cientifico de datos (20)

Analítica web & CRO webinar.pptx.pdf
Analítica web & CRO webinar.pptx.pdfAnalítica web & CRO webinar.pptx.pdf
Analítica web & CRO webinar.pptx.pdf
 
Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera Presentacion A10 Big Data_Alteryx_Cloudera
Presentacion A10 Big Data_Alteryx_Cloudera
 
Como pasar de la prediccion a la accion. Esther Morales
Como pasar de la prediccion a la accion. Esther MoralesComo pasar de la prediccion a la accion. Esther Morales
Como pasar de la prediccion a la accion. Esther Morales
 
Tendencias emergentes de e-learning: MOOCs, gamificación y datos masivos
Tendencias emergentes de  e-learning: MOOCs, gamificación y datos masivosTendencias emergentes de  e-learning: MOOCs, gamificación y datos masivos
Tendencias emergentes de e-learning: MOOCs, gamificación y datos masivos
 
Pablo Simon - eCommerce Day Uruguay Blended [Professional] Experience
Pablo Simon - eCommerce Day Uruguay Blended [Professional] ExperiencePablo Simon - eCommerce Day Uruguay Blended [Professional] Experience
Pablo Simon - eCommerce Day Uruguay Blended [Professional] Experience
 
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
 
La revolución del big data lewis & carroll
La revolución del big data   lewis & carrollLa revolución del big data   lewis & carroll
La revolución del big data lewis & carroll
 
¿De Idea a Producto en 30 días?
¿De Idea a Producto en 30 días? ¿De Idea a Producto en 30 días?
¿De Idea a Producto en 30 días?
 
Lean canvas, métricas y claves de éxito startup - Pablo Penades
Lean canvas, métricas y claves de éxito startup - Pablo PenadesLean canvas, métricas y claves de éxito startup - Pablo Penades
Lean canvas, métricas y claves de éxito startup - Pablo Penades
 
Investigación de mercados
Investigación de mercados Investigación de mercados
Investigación de mercados
 
10 secretos para triunfar con Analytics | QLIK | Colombia | Puerto Rico
10 secretos para triunfar con Analytics | QLIK | Colombia | Puerto Rico10 secretos para triunfar con Analytics | QLIK | Colombia | Puerto Rico
10 secretos para triunfar con Analytics | QLIK | Colombia | Puerto Rico
 
Proyecto Jaime Salinas
Proyecto Jaime SalinasProyecto Jaime Salinas
Proyecto Jaime Salinas
 
Hablemos de Big Data
Hablemos de Big DataHablemos de Big Data
Hablemos de Big Data
 
Empleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datosEmpleos con futuro. Perfil de un ingeniero de datos
Empleos con futuro. Perfil de un ingeniero de datos
 
Cro - consiguiendo webs más eficaces - jose roig torres
Cro - consiguiendo webs más eficaces - jose roig torresCro - consiguiendo webs más eficaces - jose roig torres
Cro - consiguiendo webs más eficaces - jose roig torres
 
Midiendo nuestra web y algo más - JUG Madrid - Meetup Feberero 2019
Midiendo nuestra web y algo más - JUG Madrid - Meetup Feberero 2019Midiendo nuestra web y algo más - JUG Madrid - Meetup Feberero 2019
Midiendo nuestra web y algo más - JUG Madrid - Meetup Feberero 2019
 
Data Strategy: Cómo convertirse en verdadera empresas Data Driven
Data Strategy: Cómo convertirse en verdadera empresas Data DrivenData Strategy: Cómo convertirse en verdadera empresas Data Driven
Data Strategy: Cómo convertirse en verdadera empresas Data Driven
 
No es business Intelligence todo lo que reluce
No es business Intelligence todo lo que reluceNo es business Intelligence todo lo que reluce
No es business Intelligence todo lo que reluce
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientist
 
A/B Testing - Cómo ganar más sin incrementar la inversión publicitaria
A/B Testing - Cómo ganar más sin incrementar la inversión publicitariaA/B Testing - Cómo ganar más sin incrementar la inversión publicitaria
A/B Testing - Cómo ganar más sin incrementar la inversión publicitaria
 

Último

My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
FeliGamarra1
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
JuanmanuelYapitamani
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
analiticaydatos
 

Último (15)

Pobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdfPobreza porcentual por etnia para el año (2024).pdf
Pobreza porcentual por etnia para el año (2024).pdf
 
Posición global del PIB per cápita Israelí (1948-2024).pdf
Posición global  del PIB per cápita  Israelí  (1948-2024).pdfPosición global  del PIB per cápita  Israelí  (1948-2024).pdf
Posición global del PIB per cápita Israelí (1948-2024).pdf
 
Paisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historiaPaisajismo Chino - Vegetacion y su historia
Paisajismo Chino - Vegetacion y su historia
 
CARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia PatrimonioCARTA DE ATENAS 1931 - Infografia Patrimonio
CARTA DE ATENAS 1931 - Infografia Patrimonio
 
Países con mayores líneas de trenes de alta velocidad (2021).pdf
Países con  mayores líneas de trenes de alta velocidad  (2021).pdfPaíses con  mayores líneas de trenes de alta velocidad  (2021).pdf
Países con mayores líneas de trenes de alta velocidad (2021).pdf
 
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
My loft y ciencia uso de My loft. Explica cómo usar My loft para la ucv.
 
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y PerúAnálisis comparativo del olivo en los mercados de Noruega, España y Perú
Análisis comparativo del olivo en los mercados de Noruega, España y Perú
 
La semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomasLa semiología se encarga de estudiar los síntomas
La semiología se encarga de estudiar los síntomas
 
Seguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoahSeguridad y privacidad (1).pptx OdayYoah
Seguridad y privacidad (1).pptx OdayYoah
 
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdkXNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
XNXX.pptxjsjssjsjsjjsjsjsjsjjsjejejejkdkdk
 
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdfLa Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
La Inteligencia Artificial -AnaliticayDatos-BeatrizGarcia-Abril2024-D.pdf
 
Estudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de IpsosEstudio Índice de Igualdad 2024 de Ipsos
Estudio Índice de Igualdad 2024 de Ipsos
 
Análisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdfAnálisis integral de puesto de trabajo AFRO.pdf
Análisis integral de puesto de trabajo AFRO.pdf
 
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...¿Qué es el texto científico? Presentación para la clase de comunicación escri...
¿Qué es el texto científico? Presentación para la clase de comunicación escri...
 
Guía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico JamoviGuía rápida del uso del paquete estadístico Jamovi
Guía rápida del uso del paquete estadístico Jamovi
 

Un dia en la vida del cientifico de datos

  • 1. Un dia en la vida de un científico de datos Fabricio Quintanilla
  • 2.
  • 6. CEVICHE • Pescado • Ají • Camote • Limón • Lechuga • Cebolla • Choclo • Chifle
  • 7. Al igual que al hacer un buen ceviche, cuanto mejor sean los ingredientes con los que empiece, mejor será el producto final. Para hacer un buena ciencia de datos, tendremos que darle materia prima de gran calidad con la que trabajar.
  • 8.
  • 9. ¿Están sus datos preparados para la ciencia de datos? Puede sorprenderle, pero solo hay cinco preguntas a las que responde la ciencia de datos: • ¿Esto es A o B? • ¿Es extraño? • ¿Cuánto? o ¿cuántos? • ¿Cómo está organizado? • ¿Qué debo hacer a continuación?
  • 10. • Relevantes • Conectado • Precisos • Suficientes para trabajar con ellos Criterios de los datos para la ciencia de datos
  • 12.
  • 18. ¿Qué es la ciencia de datos? Es el proceso de usar nombres (llamados también categorías o etiquetas) y números para predecir una respuesta a una pregunta Pero no sirve cualquier pregunta; debe ser una pregunta directa.
  • 19. Imagine que encuentra una lámpara mágica con un genio que responde de forma veraz a cualquier pregunta que formule "¿Qué va a pasar con mis acciones?", el genio podría responder: "El precio cambiará". Es una respuesta veraz, pero no sirve de mucha ayuda..
  • 20. Pero si tuviera que formular una pregunta directa, como "¿Cuál será el precio de venta de mis acciones la próxima semana?", el genio no podrá evitar darle una respuesta específica y predecir un precio de venta. "¿Qué automóvil de mi flota va a caer primero?",
  • 21. Tenemos para asegurarnos de que nuestros datos incluyan el historial de precios de cotización Tenemos que asegurarnos de que nuestros datos incluyan información de los errores anteriores
  • 22. Preguntas acerca de características: "¿Es este punto de datos A o B?" predice la categoría (o nombre o etiqueta) de algo algoritmo de clasificación. La pregunta "¿Cuánto?" o "¿Cuántos?" predice una cantidad. Para responderla, usamos un algoritmo de regresión.
  • 23. Caso Práctico Supongamos que deseo comprar un diamante. Tengo un anillo que pertenecía a mi abuela con un engarce para un diamante de 1.35 quilates, y quiero tener una idea de cuánto costará. Tomo un lápiz y un cuaderno en la joyería y escribo el precio de todos los diamantes de la vitrina y cuántos quilates tienen. Empiezo por el primer diamante: tiene 1.01 quilates y cuesta 7366 USD.
  • 24.
  • 25. Ahora platearemos nuestra pregunta de forma directa: "¿Cuánto costará comprar un diamante 1.35 quilates?" Nuestra lista no contiene ningún diamante de 1.35 quilates, por lo que debemos utilizar el resto de nuestros datos para obtener una respuesta a la pregunta.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31. ¿En qué consiste el día a día de un Científico de Datos?
  • 32. Abraham Cabangbang, Senior Data Scientist en LinkedIn: “Trabajo en un equipo dedicado al reporting y a la calidad de los datos. Si hay algún producto nuevo que debemos incorporar en nuestros principales cuadros de mando, debemos trabajar con los product managers para que nos indiquen qué es importante para el producto, y con los ingenieros para que nos digan cuáles son los datos relevantes. A partir de ahí, colaboramos con el equipo de data services para hacer las ETL (extracción, transformación y carga de datos) y la posterior visualización”.
  • 33. Peter Harrington, Chief Data Scientist en HG Data: “Un proyecto típico es incorporar una nueva fuente de datos en nuestra base de datos, que no siempre está en el formato en el que podamos almacenarlo. Un estudiante podría pensar: “bien, sólo hay que reformatearlo”, pero no es tan sencillo, porque hay temas no determinísticas que hacer y deben realizarse con gran precisión. Desde que empezamos, posiblemente he pasado el 60% del tiempo programando, 5% mirando los resultados y el 35% restante analizando nuevas formas de mejorar mi análisis”.
  • 34. John Yeung, Analista de Datos en Flurry: “Los proyectos más interesantes en los que he trabajado son los relacionados con las grandes compañías del mundo del entretenimiento (juego). Generalmente tienen un buen porfolio de productos, siempre están buscando expandir su base de usuarios y están muy atentos a las tendencias de la industria. Muchas veces nos piden ayuda para analizar cómo va el mercado. Un ejemplo es cuando diferentes compañías con diferentes juegos, tienen los usuarios muy concentrados. Entonces, si quieren captar más jugadores, tienen que decidir qué inversión les generará el mejor ROI.
  • 35. Ben Bregman, Analista de Producto en Facebook: “Mi día tipo varía dependiendo en qué parte del ciclo de producto estamos. Si estamos poniendo en producción una nueva funcionalidad, estaré monitorizando y buceando en las métricas para entender cómo va el rendimiento. Si estamos desarrollando funcionalidades nuevas, trabajo con los ingenieros para asegurar una buena comunicación con los servicios de backend involucrados. Si estamos dilucidando sobre el futuro, estaré recogiendo datos y haciendo análisis que nos ayuden en la conversación.
  • 36. ¿Para qué sirve la ciencia de datos? • Diseñar experimentos • Modelos estadísticos y matemáticos (SPSS, R, Matlab, modelos de predicción, inferencia bayesiana) • Minería de datos (SQL, NoSQL, Hadoop / Hive / Pig, API) • Investigación de los datos (conectando puntos, haciendo preguntas útiles) • Cuenta cuentos (Interpretando, extrapolando, explicando, visualizando resultados)
  • 37. Un día típico para mí… 1. ¿Está funcionando bien el sistema? Verificar. 2. ¿Los procesos se están ejecutando bien? Verificar. 3. Mirar la lista de nuevos requerimientos y escribir nuevos procesos. Añadirlos al planificador. 4. Mirar los procesos completados y enviar los resultados al que los solicitó. 5. Repetir 3 y 4, hasta que la lista de requerimientos esté vacía”.
  • 39. Fabricio Quintanilla, MSc, PhD fabricio.quintanilla@gmail.com @fabrixq /fquintanilla http://www.inteligenciadenegocios.net MCP, MCPD, MCTS