SlideShare una empresa de Scribd logo
1 de 31
Descargar para leer sin conexión
Las batallas del
Data Scientist:
aprendiendo desde
las trincheras
Soy Jesús Montes
Data Scientist y profesor universitario
¡Hola!
@IcantExplain0
¿De qué vamos a hablar?
1. Un poco de contexto...
2. Lo básico: Ciencia de datos y otras yerbas
3. Batallitas: Cosas que uno aprende haciendo Data
Science
4. Mención especial: Big Data
5. Despedida y cierre
DISCLAIMER:
La mayoría de lo que viene a
continuación son sólo opiniones,
y ya se sabe que las opiniones...
Un poco de
contexto...
para ubicarse
1
¿Por qué hablamos de ciencia
de datos en un meetup de IA?
◉ Una de las disciplinas más importantes dentro de
la inteligencia artificial es el aprendizaje automático
(machine learning).
◉ El aprendizaje automático es, a su
vez, una de las herramientas más
utilizadas por los científicos de
datos. DS
AI
Machine
learning
“Ningún Plan, por bueno que
sea, resiste su primer contacto
con el enemigo.”
- Moltke
“
Lo básico
Ciencia de datos y otras yerbas
2
¿Qué es un proyecto de
ciencia de datos?
Aplicamos el método científico al
estudio de un conjunto de datos:
◉ Observar
◉ Hacerse preguntas
◉ Formular hipótesis
◉ Realizar experimentos
◉ Comprobar resultados
(1637)
¿Qué buscamos en un proceso
de ciencia de datos?
Normalmente se busca:
◉ Conocer mejor los datos de nuestro
problema/negocio.
◉ Explicar eventos o situaciones interesantes.
◉ Crear modelos que nos permitan estimar/predecir
eventos o comportamientos futuros.
¿Cuáles son las fases de un
proyecto de ciencia de datos?
? Definición de
un problema
Preparación
de datos
Fuentes de
datos
Estudio de
los datos
Creación
del modelo
Validación y
pruebas
¡Se empieza
por aquí!
¿Cuál es la fase más
importante de todas?
? Definición de
un problema
Preparación
de datos
Validación y
pruebas
Creación
del modelo
Estudio de
los datos
Traducir el problema de
negocio.
Caracterizarlo
(clasificación, regresión,
clustering…).
Identificar fuentes de
datos.
Seleccionar la
técnica de
aprendizaje
automático.
Entrenar del modelo.
Analizar las variables
para entender su
comportamiento, y
las relaciones entre
ellas.
Limpieza, selección,
transformación...
Seleccionar datos
útiles.
Extraer los datos de
sus fuentes y
combinarlos.
Limpiar los datos.
Realizar validación
cruzada y ajustar
parámetros,
Evaluar el modelo.
¿Qué necesito saber para
hacer ciencia de datos?
1. Estadística y aprendizaje
automático
2. Nociones claras sobre
cómo se organizan y
procesan datos
○ PRO TIP: Júntate con alguien
que sea buen data engineer.
3. Programar
○ Algoritmos y estructuras de datos
Place your screenshot here
¡Hay que saber hablar
bien con la máquina!
¡También
importan!
Batallitas
Cosas que uno aprende haciendo Data Science
3
Definición del problema:
¿Cómo deberían ser las cosas?
◉ Debemos tener muy claro el problema que
queremos resolver.
○ ¿Cuál es nuestro objetivo principal?
○ ¿Por qué es relevante para el negocio/proyecto?
◉ Debemos poder caracterizar claramente el
problema.
○ Si es un problema supervisado, deberíamos saber
claramente cuál es la variable objetivo.
○ Si es no supervisado, deberíamos saber exáctamente
para qué se van a usar los resultados.
Definición del problema:
Principales peligros
◉ Definiciones ambiguas y/o problemas demasiado
amplios
“Vamos a estudiar los datos de nuestros clientes, a ver
si encontramos algún patrón interesante”
“Creemos que la información del customer journey nos
puede ayudar a mejorar nuestro negocio”
True Story
◉ Fuentes de datos no claras
“Seguro que cruzando A y B sacamos lo que nos falta”
Preparación de los datos:
Combinando varias fuentes
RealityExpectation
Preparación de los datos:
Calidad de los datos
◉ En BBDD suficientemente grandes,
se dan todas las combinaciones
imaginables:
○ Valores imposibles
○ Claves incorrectas
○ Formatos de fecha extraños
○ Caracteres raros
○ Incoherencias temporales
○ ...
“Si el sistema lo permite, está”.
Estudio de los datos:
Entender la información
◉ Comprender cómo se comportan las variables es
fundamental para construir un buen modelo:
“Si no entendemos los datos, el modelo no funcionará”
(y si es clustering, ya ni hablamos)
◉ Debemos dedicar tiempo a analizar y entender las
variables:
○ Estadística descriptiva
○ Análisis univariante y multivariante (correlación, PCA...)
◉ Evitar infromación redundante
“¡Fíjate! Quitando estas variables mi modelo mejora.”
Estudio de los datos:
Identificar lo relevante
◉ Vigilar valores extraños/atípicos
“No entiendo por qué mi modelo es tan sensible a cambios en esta variable...”
Algunas cosas que “suelen funcionar”...
◉ Filtrar por correlación
◉ Eliminar valores atípicos
◉ Normalizar
◉ Discretizar variables
continuas
◉ Seleccionar variables
No. This is
not optional.Usar sólo datos que aporten algo:
Creación del modelo:
¿Qué algoritmo uso?
No es necesario sacar siempre la
“artillería pesada”*
Depende mucho del problema:
◉ Supervisado/no supervisado
◉ Volumen de datos
◉ Número de variables
◉ Tipo de variable objetivo
◉ ...
El estudio previo nos da muchas pistas.
*: “Dicen” que el 80% de los modelos que se usan en la vida real son regresiones logísticas.
Creación del modelo:
La pregunta clave
“¿Tengo que entender lo que hace el algoritmo?”
¡Sí!
◉ Entender su funcionamiento es clave para poder utilizarlo correctamente.
◉ “¿Y detalles concretos de la implementación?” Pues depende.
Creación del modelo:
¿Y los hiper-parámetros?
◉ Hay que elegir muy bien los
hiper-parámetros.
○ Y es especialmente
importante en técnicas
complejas, cómo GBMs o
ANNs.
◉ Cuidado con el grid search.
Otras opciones:
○ ¿Random search?
○ ¿Optimización?
h1
h2
Óptimo
Validación y pruebas:
Escoger la métrica adecuada
◉ La métrica de evaluación
de un modelo debe
depender siempre de
nuestro objetivo final.
◉ Normalmente, el accuracy
es demasiado simple.
○ No tiene en cuenta falsos
positivos/negativos.
○ Es muy peligroso con clases
muy desbalanceadas.
“¿Qué puedo usar?”
◉ Clasificación: accuracy, matriz
de confusión, logloss, F1, ROC,
lift…
◉ Regresión: MAE, MSE, R², AIC…
◉ Clustering: Rand index...
Validación y pruebas:
Training-validation-test
◉ Tenemos que tener muy claro
para qué se usa cada
conjunto:
○ Training: Para entrenar.
○ Validation/development: Para
comparar alternativas y
optimizar hiper-parámetros.
○ Test: Para dar una medición
final.
◉ “¿Cómo hacemos la
división?”
Depende de los datos y el
problema.
○ Busquemos proporciones que
den estabilidad a los
resultados.
○ El muestreo aleatorio puede
no ser lo mejor.
“He probado varios modelos y éste es el que mejor resultado me da en test”
“No necesito conjunto de test porque estoy haciendo 10-fold cross-validation”
Big Data
Total War
4
Ciencia de datos y Big Data
◉ Big Data no es solo “muchos datos”.
○ Recordemos las tres Vs (o cuatro, o cinco…)
◉ El Big Data es un contexto distinto en el
que hacer ciencia de datos.
◉ Desde el punto de vista de un data
scientist, es fundamentalmente un reto
tecnológico.
○ Aprender nuevas técnicas.
○ Adaptarse al contexto.
Big Data como reto
tecnológico
◉ Tecnologías como Spark o (“antiguamente”)
MapReduce permiten enfrentarse a problemas
muy complejos, pero hay que entender cómo
funcionan para aprovecharlas.
◉ La separación entre data engineer y data scientist
se vuelve difusa.
Data scientistData engineer
Despedida y cierre5
Reflexiones finales
◉ Data science no es solo
hacer modelos.
◉ La máquina aprende, pero
tenemos que guiarla
durante todo el proceso.
◉ Si no entendemos lo que
estamos haciendo, no
llegaremos a buen puerto.
...y recordad que todo ésto son sólo opiniones
¿Preguntas?
¡Gracias!
@IcantExplain0
Plantilla de slides creada por SlidesCarnival (CC BY 4.0)

Más contenido relacionado

La actualidad más candente

El proceso de la investigación
El proceso de la investigaciónEl proceso de la investigación
El proceso de la investigaciónAxel Mérida
 
02 etapas proyecto_simulacion
02 etapas proyecto_simulacion02 etapas proyecto_simulacion
02 etapas proyecto_simulacionenecc7
 
Fases de diseño uft y ucml
Fases de diseño uft y ucmlFases de diseño uft y ucml
Fases de diseño uft y ucmlSair_Hernandez
 
El arte de la Ciencia de Datos
El arte de la Ciencia de DatosEl arte de la Ciencia de Datos
El arte de la Ciencia de DatosDataLab Community
 
Como Se Hace Una Simulación (Grupo 04)
Como Se Hace Una Simulación (Grupo 04)Como Se Hace Una Simulación (Grupo 04)
Como Se Hace Una Simulación (Grupo 04)simulando
 
Preparación de los datos
Preparación de los datosPreparación de los datos
Preparación de los datosu811955
 

La actualidad más candente (10)

El proceso de la investigación
El proceso de la investigaciónEl proceso de la investigación
El proceso de la investigación
 
Guia
GuiaGuia
Guia
 
02 etapas proyecto_simulacion
02 etapas proyecto_simulacion02 etapas proyecto_simulacion
02 etapas proyecto_simulacion
 
Fases de diseño uft y ucml
Fases de diseño uft y ucmlFases de diseño uft y ucml
Fases de diseño uft y ucml
 
El arte de la Ciencia de Datos
El arte de la Ciencia de DatosEl arte de la Ciencia de Datos
El arte de la Ciencia de Datos
 
Como Se Hace Una Simulación (Grupo 04)
Como Se Hace Una Simulación (Grupo 04)Como Se Hace Una Simulación (Grupo 04)
Como Se Hace Una Simulación (Grupo 04)
 
1 1
1 11 1
1 1
 
Preparación de los datos
Preparación de los datosPreparación de los datos
Preparación de los datos
 
Metodología unidad 2
Metodología unidad 2Metodología unidad 2
Metodología unidad 2
 
Wilmer rodriguez
Wilmer rodriguezWilmer rodriguez
Wilmer rodriguez
 

Similar a Las batallas del data scientist

slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...elianatorales
 
Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronalesVictor_lino
 
Laboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datosLaboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datosSoftware Guru
 
Introduccion-de-Machine-Learning-Con-Python (2).pptx
Introduccion-de-Machine-Learning-Con-Python (2).pptxIntroduccion-de-Machine-Learning-Con-Python (2).pptx
Introduccion-de-Machine-Learning-Con-Python (2).pptxJorge293
 
Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Eduardo Castro
 
Introducción al Machine Learning con BigML
Introducción al Machine Learning con BigMLIntroducción al Machine Learning con BigML
Introducción al Machine Learning con BigMLMSc Aldo Valdez Alvarado
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Facultad de Informática UCM
 
Profesiones de la ciencia de datos
Profesiones de la ciencia de datosProfesiones de la ciencia de datos
Profesiones de la ciencia de datosDataLab Community
 
Diseño de la investigación fase iii
Diseño de la investigación fase iiiDiseño de la investigación fase iii
Diseño de la investigación fase iiisaliradu
 
Un dia en la vida del cientifico de datos
Un dia en la vida del cientifico de datosUn dia en la vida del cientifico de datos
Un dia en la vida del cientifico de datosFabricio Quintanilla
 
Aprendizaje Automàtico - Introduccion a Machine Learning
Aprendizaje Automàtico - Introduccion a Machine LearningAprendizaje Automàtico - Introduccion a Machine Learning
Aprendizaje Automàtico - Introduccion a Machine LearningHugo Median Rivas
 
El aprendizaje automático es divertido
El aprendizaje automático es divertidoEl aprendizaje automático es divertido
El aprendizaje automático es divertidoCarlos Duarte
 

Similar a Las batallas del data scientist (20)

slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
slides-espanol-curso-introduccion-machine-learning-por-mindsdb_8c5ff985-0581-...
 
Investigación de Mercados
Investigación de MercadosInvestigación de Mercados
Investigación de Mercados
 
Redes neuronales
Redes neuronalesRedes neuronales
Redes neuronales
 
Laboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datosLaboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datos
 
Introducción al ML
Introducción al MLIntroducción al ML
Introducción al ML
 
aplicacion_de_la_investigacion_de_operaciones
aplicacion_de_la_investigacion_de_operacionesaplicacion_de_la_investigacion_de_operaciones
aplicacion_de_la_investigacion_de_operaciones
 
2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx2023-T4-Analisis_Datos.ppsx
2023-T4-Analisis_Datos.ppsx
 
Introduccion-de-Machine-Learning-Con-Python (2).pptx
Introduccion-de-Machine-Learning-Con-Python (2).pptxIntroduccion-de-Machine-Learning-Con-Python (2).pptx
Introduccion-de-Machine-Learning-Con-Python (2).pptx
 
Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015Que es Azure Machine Learning 2015
Que es Azure Machine Learning 2015
 
Introducción al Machine Learning con BigML
Introducción al Machine Learning con BigMLIntroducción al Machine Learning con BigML
Introducción al Machine Learning con BigML
 
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
Análisis de Sentimientos y otros retos del aprovechamiento inteligente de los...
 
Profesiones de la ciencia de datos
Profesiones de la ciencia de datosProfesiones de la ciencia de datos
Profesiones de la ciencia de datos
 
Diseño de la investigación fase iii
Diseño de la investigación fase iiiDiseño de la investigación fase iii
Diseño de la investigación fase iii
 
Matemática y Data Science
Matemática y Data ScienceMatemática y Data Science
Matemática y Data Science
 
Un dia en la vida del cientifico de datos
Un dia en la vida del cientifico de datosUn dia en la vida del cientifico de datos
Un dia en la vida del cientifico de datos
 
Aprendizaje Automàtico - Introduccion a Machine Learning
Aprendizaje Automàtico - Introduccion a Machine LearningAprendizaje Automàtico - Introduccion a Machine Learning
Aprendizaje Automàtico - Introduccion a Machine Learning
 
El aprendizaje automático es divertido
El aprendizaje automático es divertidoEl aprendizaje automático es divertido
El aprendizaje automático es divertido
 
investigacion-de-operaciones-1
investigacion-de-operaciones-1investigacion-de-operaciones-1
investigacion-de-operaciones-1
 
E01_Distribuciones_R01.ppt
E01_Distribuciones_R01.pptE01_Distribuciones_R01.ppt
E01_Distribuciones_R01.ppt
 
E01_Distribuciones_R01.ppt
E01_Distribuciones_R01.pptE01_Distribuciones_R01.ppt
E01_Distribuciones_R01.ppt
 

Último

Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Familias más ricas de AL por países (2024).pdf
Familias más ricas de AL por países (2024).pdfFamilias más ricas de AL por países (2024).pdf
Familias más ricas de AL por países (2024).pdfJC Díaz Herrera
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfJC Díaz Herrera
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfJC Díaz Herrera
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOJuan Carlos Fonseca Mata
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaRosaHurtado26
 

Último (20)

Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Familias más ricas de AL por países (2024).pdf
Familias más ricas de AL por países (2024).pdfFamilias más ricas de AL por países (2024).pdf
Familias más ricas de AL por países (2024).pdf
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
Premios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdfPremios_nobel_por_grupo_racial_ (2024).pdf
Premios_nobel_por_grupo_racial_ (2024).pdf
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 
PANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitecturaPANTEÓN DE Paris en historia de la arquitectura
PANTEÓN DE Paris en historia de la arquitectura
 

Las batallas del data scientist

  • 1. Las batallas del Data Scientist: aprendiendo desde las trincheras
  • 2. Soy Jesús Montes Data Scientist y profesor universitario ¡Hola! @IcantExplain0
  • 3. ¿De qué vamos a hablar? 1. Un poco de contexto... 2. Lo básico: Ciencia de datos y otras yerbas 3. Batallitas: Cosas que uno aprende haciendo Data Science 4. Mención especial: Big Data 5. Despedida y cierre
  • 4. DISCLAIMER: La mayoría de lo que viene a continuación son sólo opiniones, y ya se sabe que las opiniones...
  • 6. ¿Por qué hablamos de ciencia de datos en un meetup de IA? ◉ Una de las disciplinas más importantes dentro de la inteligencia artificial es el aprendizaje automático (machine learning). ◉ El aprendizaje automático es, a su vez, una de las herramientas más utilizadas por los científicos de datos. DS AI Machine learning
  • 7. “Ningún Plan, por bueno que sea, resiste su primer contacto con el enemigo.” - Moltke “
  • 8. Lo básico Ciencia de datos y otras yerbas 2
  • 9. ¿Qué es un proyecto de ciencia de datos? Aplicamos el método científico al estudio de un conjunto de datos: ◉ Observar ◉ Hacerse preguntas ◉ Formular hipótesis ◉ Realizar experimentos ◉ Comprobar resultados (1637)
  • 10. ¿Qué buscamos en un proceso de ciencia de datos? Normalmente se busca: ◉ Conocer mejor los datos de nuestro problema/negocio. ◉ Explicar eventos o situaciones interesantes. ◉ Crear modelos que nos permitan estimar/predecir eventos o comportamientos futuros.
  • 11. ¿Cuáles son las fases de un proyecto de ciencia de datos? ? Definición de un problema Preparación de datos Fuentes de datos Estudio de los datos Creación del modelo Validación y pruebas ¡Se empieza por aquí!
  • 12. ¿Cuál es la fase más importante de todas? ? Definición de un problema Preparación de datos Validación y pruebas Creación del modelo Estudio de los datos Traducir el problema de negocio. Caracterizarlo (clasificación, regresión, clustering…). Identificar fuentes de datos. Seleccionar la técnica de aprendizaje automático. Entrenar del modelo. Analizar las variables para entender su comportamiento, y las relaciones entre ellas. Limpieza, selección, transformación... Seleccionar datos útiles. Extraer los datos de sus fuentes y combinarlos. Limpiar los datos. Realizar validación cruzada y ajustar parámetros, Evaluar el modelo.
  • 13. ¿Qué necesito saber para hacer ciencia de datos? 1. Estadística y aprendizaje automático 2. Nociones claras sobre cómo se organizan y procesan datos ○ PRO TIP: Júntate con alguien que sea buen data engineer. 3. Programar ○ Algoritmos y estructuras de datos Place your screenshot here ¡Hay que saber hablar bien con la máquina! ¡También importan!
  • 14. Batallitas Cosas que uno aprende haciendo Data Science 3
  • 15. Definición del problema: ¿Cómo deberían ser las cosas? ◉ Debemos tener muy claro el problema que queremos resolver. ○ ¿Cuál es nuestro objetivo principal? ○ ¿Por qué es relevante para el negocio/proyecto? ◉ Debemos poder caracterizar claramente el problema. ○ Si es un problema supervisado, deberíamos saber claramente cuál es la variable objetivo. ○ Si es no supervisado, deberíamos saber exáctamente para qué se van a usar los resultados.
  • 16. Definición del problema: Principales peligros ◉ Definiciones ambiguas y/o problemas demasiado amplios “Vamos a estudiar los datos de nuestros clientes, a ver si encontramos algún patrón interesante” “Creemos que la información del customer journey nos puede ayudar a mejorar nuestro negocio” True Story ◉ Fuentes de datos no claras “Seguro que cruzando A y B sacamos lo que nos falta”
  • 17. Preparación de los datos: Combinando varias fuentes RealityExpectation
  • 18. Preparación de los datos: Calidad de los datos ◉ En BBDD suficientemente grandes, se dan todas las combinaciones imaginables: ○ Valores imposibles ○ Claves incorrectas ○ Formatos de fecha extraños ○ Caracteres raros ○ Incoherencias temporales ○ ... “Si el sistema lo permite, está”.
  • 19. Estudio de los datos: Entender la información ◉ Comprender cómo se comportan las variables es fundamental para construir un buen modelo: “Si no entendemos los datos, el modelo no funcionará” (y si es clustering, ya ni hablamos) ◉ Debemos dedicar tiempo a analizar y entender las variables: ○ Estadística descriptiva ○ Análisis univariante y multivariante (correlación, PCA...)
  • 20. ◉ Evitar infromación redundante “¡Fíjate! Quitando estas variables mi modelo mejora.” Estudio de los datos: Identificar lo relevante ◉ Vigilar valores extraños/atípicos “No entiendo por qué mi modelo es tan sensible a cambios en esta variable...” Algunas cosas que “suelen funcionar”... ◉ Filtrar por correlación ◉ Eliminar valores atípicos ◉ Normalizar ◉ Discretizar variables continuas ◉ Seleccionar variables No. This is not optional.Usar sólo datos que aporten algo:
  • 21. Creación del modelo: ¿Qué algoritmo uso? No es necesario sacar siempre la “artillería pesada”* Depende mucho del problema: ◉ Supervisado/no supervisado ◉ Volumen de datos ◉ Número de variables ◉ Tipo de variable objetivo ◉ ... El estudio previo nos da muchas pistas. *: “Dicen” que el 80% de los modelos que se usan en la vida real son regresiones logísticas.
  • 22. Creación del modelo: La pregunta clave “¿Tengo que entender lo que hace el algoritmo?” ¡Sí! ◉ Entender su funcionamiento es clave para poder utilizarlo correctamente. ◉ “¿Y detalles concretos de la implementación?” Pues depende.
  • 23. Creación del modelo: ¿Y los hiper-parámetros? ◉ Hay que elegir muy bien los hiper-parámetros. ○ Y es especialmente importante en técnicas complejas, cómo GBMs o ANNs. ◉ Cuidado con el grid search. Otras opciones: ○ ¿Random search? ○ ¿Optimización? h1 h2 Óptimo
  • 24. Validación y pruebas: Escoger la métrica adecuada ◉ La métrica de evaluación de un modelo debe depender siempre de nuestro objetivo final. ◉ Normalmente, el accuracy es demasiado simple. ○ No tiene en cuenta falsos positivos/negativos. ○ Es muy peligroso con clases muy desbalanceadas. “¿Qué puedo usar?” ◉ Clasificación: accuracy, matriz de confusión, logloss, F1, ROC, lift… ◉ Regresión: MAE, MSE, R², AIC… ◉ Clustering: Rand index...
  • 25. Validación y pruebas: Training-validation-test ◉ Tenemos que tener muy claro para qué se usa cada conjunto: ○ Training: Para entrenar. ○ Validation/development: Para comparar alternativas y optimizar hiper-parámetros. ○ Test: Para dar una medición final. ◉ “¿Cómo hacemos la división?” Depende de los datos y el problema. ○ Busquemos proporciones que den estabilidad a los resultados. ○ El muestreo aleatorio puede no ser lo mejor. “He probado varios modelos y éste es el que mejor resultado me da en test” “No necesito conjunto de test porque estoy haciendo 10-fold cross-validation”
  • 27. Ciencia de datos y Big Data ◉ Big Data no es solo “muchos datos”. ○ Recordemos las tres Vs (o cuatro, o cinco…) ◉ El Big Data es un contexto distinto en el que hacer ciencia de datos. ◉ Desde el punto de vista de un data scientist, es fundamentalmente un reto tecnológico. ○ Aprender nuevas técnicas. ○ Adaptarse al contexto.
  • 28. Big Data como reto tecnológico ◉ Tecnologías como Spark o (“antiguamente”) MapReduce permiten enfrentarse a problemas muy complejos, pero hay que entender cómo funcionan para aprovecharlas. ◉ La separación entre data engineer y data scientist se vuelve difusa. Data scientistData engineer
  • 30. Reflexiones finales ◉ Data science no es solo hacer modelos. ◉ La máquina aprende, pero tenemos que guiarla durante todo el proceso. ◉ Si no entendemos lo que estamos haciendo, no llegaremos a buen puerto. ...y recordad que todo ésto son sólo opiniones
  • 31. ¿Preguntas? ¡Gracias! @IcantExplain0 Plantilla de slides creada por SlidesCarnival (CC BY 4.0)