SlideShare una empresa de Scribd logo
1 de 36
La sazón del científico de datos
Marzo 2019
Data Day - Taller
● Introducción:
○ La ciencia de datos y su ciclo
○ El recetario de mi abuelita
● Objetivo
● Desarrollo de un primer modelo siguiendo la receta original.
● Desarrollo de un segundo modelo ya sazonado.
● Agregando un poquito de Lime para explicar el negocio.
● Cómo se despliega el modelo.
Agenda
https://bit.ly/2U0rh9x
Material
¿Qué es Ciencia de Datos?
¿Qué es Ciencia de Datos?
● La Ciencia de Datos es un campo interdisciplinario que se dedica a extraer conocimiento que
proviene de los datos.
● Es una disciplina que utiliza métodos estadísticos, de minería de datos, de aprendizaje de
máquina, de ingeniería y arquitectura de datos, así como el conocimiento del dominio al que
se esté aplicando.
TODO COMIENZA CON UNA PREGUNTA...
Preguntas de negocio:
● ¿Qué clientes están conformes
con mi servicio?
● ¿A qué equipo le debo dar
mantenimiento?
● ¿Que tratamiento es mejor para
cierta enfermedad?
● ¿Cuál es el perfil de mi cliente
más valioso?
Tipo de análisis:
● Algoritmos de Clasificación
● Detección de Anomalías
● Análisis de sobrevivencia
● Customer Value Analysis
Introducción
El proceso CRISP-DM
Introducción
ENTENDIMIENTO DEL NEGOCIO
Formulación de las preguntas de negocio.
Problemas a resolver.
Definición de requerimientos y plan a seguir.
PUESTA EN PRODUCCIÓN
Producción y automatización del modelo.
ENTENDIMIENTO DE LOS DATOS
Revisión y entendimiento de los datos disponibles.
Calidad de datos.
Análisis exploratorio de los datos (Discovery).
DESARROLLO DE MODELOS Y EVALUACIÓN
Elección de algoritmos.
Entrenamiento y evaluación de modelos.
Explicación del modelo al usuario final.
PREPARACIÓN DE LOS DATOS
Limpieza y transformación de datos.
Análisis exploratorio de los datos enfocado al desarrollo de modelos.
Feature Engineering (creación de nuevos atributos).
Ciclo de Ciencia
de Datos
CRISP-DM
¿Quién es el Científico de Datos?
El equipo de Ciencia de Datos y sus herramientas
Introducción
Matemáticos, físicos,
científicos,
especialistas en ML y
AI, así como cualquier
interesado en aprender
Arquitectos e
ingenieros de
Datos
Expertos en el
Dominio
Científicos de
decisiones
Software
Dev y UX
PENTAHO PLATFORM
Integración de datos
Adaptive Big Data Layer
Business Analytics
WEKA
Data Mining
PYTHON
Machine Learning
Deep Learning
R
Software Estadístico
El recetario de mi abuelita
Introducción
Objetivo y recordatorios
Nuestra meta es...
● Aprender a experimentar con los datos.
● Entender que la sazón en Ciencia de Datos se da con la experiencia, así como con el
conocimiento concreto de procesos y datos.
● Aceptar que no existe una receta, la creatividad y ganas de experimentar son fundamentales
para crear un buen modelo.
El camino será:
● Llevar a cabo un par de iteraciones del Ciclo de Ciencia de Datos para obtener un modelo
sabroso y no uno aguado.
● Sazonar más aún, usando LIME (Local Interpretable Model-Agnostic Explanations), para
explicar el modelo a nuestros usuarios finales.
● Tener una primicia de qué significa poner un modelo en producción.
Para seguir el curso es necesario tener:
● Jupyter Notebook (https://www.anaconda.com/distribution/)
● Weka (https://www.cs.waikato.ac.nz/ml/weka/)
¡A cocinar!
Contexto del experimento y preguntas
1 Entendimiento del negocio
En 2011 se realizó un experimento por parte del laboratorio de dinámica humana del MIT. El
objetivo era entender el comportamiento de las personas a través de sus interacciones vía teléfono
celular. Este experimento ha dado pie a que se escriban muchos artículos respondiendo a las
siguientes preguntas: ¿Cómo toman decisiones las personas? ¿Cómo se
puede ayudar a las personas a que tomen mejores decisiones?
Se registraron las interacciones de 129 individuos, llamadas telefónicas o
mensajes de texto. Estos individuos debían cargar una aplicación en su
teléfono para registrar ciertos indicadores de estas interacciones.
El experimento tuvo una duración de un año, y los participantes podían
entrar en cualquier semana.
La hipótesis que queremos probar es:
● ¿Se puede predecir el estrato socioeconómico de las personas a
partir de sus interacciones telefónicas?
¿Cómo se reciben los datos?
1.1 Entendimiento de los datos
Por cada usuario tenemos dos archivos con los siguientes datos:
Atributos
● Identificador del usuario
● Género (binario)
● Estrato socioeconómico (binario)
Registro por usuario
● Interacción
● Sentido de la interacción
● Identificador usuario con el que realizó
la interacción
● Día y hora de la interacción
● Duración de la llamada
● Identificador de antena
● Explicación de los identificadores
2.1 Feature Engineering
2 Preparación de los datos
Para comenzar con el análisis exploratorio de datos se generan indicadores estadísticos de las
interacciones.
Acercamiento Tradicional
● Se debe escribir mucho código.
● Requiere mucho tiempo y conocimiento
para mantenerse.
Generación automática de características
●
● Entendimiento de la librería que se
utiliza.
● Menor tiempo de desarrollo y
mantenimiento.
2.1 ¿Qué está haciendo Bandicoot?
2 Preparación de los datos
Bandicoot genera indicadores estadísticos para CDRs (Call Detail Records) y otros datos de
telecomunicaciones.
2.2 Análisis Exploratorio de Datos (EDA)
2 Preparación de los datos
En análisis exploratorio de datos es un paso crítico en cualquier proyecto de ciencia de datos,
principalmente por las siguientes razones:
● Detección de errores en los datos.
● Validación de supuestos.
● Guía en la selección de algoritmos adecuados.
● Determinar relaciones entre las variables explicativas.
● Evaluar la dirección y el tamaño (aproximadamente) de las relaciones entre las variables
predictoras o explicativas y de respuesta u objetivo.
764 atributos
129registros 129 X 764
2.2.2 Análisis básico
2 Preparación de los datos
El generar estadísticas descriptivas nos permite tener una idea de la distribución de los atributos y
comenzar a entender el comportamiento de los datos sin tener que visualizarlos.
active_days__weekend__day__callandtext__mean.describe()
count 122.000000
mean 1.437301
std 0.232737
min 1.000000
25% 1.254167
50% 1.449490
75% 1.621837
max 2.000000
Name: active_days__weekend__day__callandtext__mean, dtype:
float64
2.2.4 Visualización de datos
2 Preparación de los datos
La visualización de datos también es útil para entender el comportamiento de los mismos. En este
caso podemos descubrir si nuestros datos están balanceados o no.
2.2.4 Visualización de datos
2 Preparación de los datos
La visualización de datos permite que validemos hipótesis.
El promedio del promedio de todas
las semanas, de la duración de las
llamadas en todo el dia.
● Clase 0 tiene mayor duración
en las llamadas.
● Clase 1 tiene menor promedio
de duración.
2.2.4 Visualización de datos
2 Preparación de los datos
La visualización de datos permite que validemos hipótesis.
Promedio del número de contactos
sms en las noches de los fines de
semana.
● Clase 0 tiene menor promedio
de número de contactos.
● Clase 1 tiene mayor promedio
de número de contactos.
2.2.4 Visualización de datos
2 Preparación de los datos
La visualización de datos permite que validemos hipótesis.
Desviación estándar de tiempo entre
eventos de llamadas en la semana
de dia.
● Clase 0 tiene menor dispersión
entre eventos.
● Clase 1 tiene mayor dispersión
entre eventos.
2.3 Procesamiento de Datos
2 Preparación de los datos
Esta parte puede verse como un proceso de limpieza y calidad de datos para comenzar a entrenar
nuestro modelo.
Pasos a seguir:
● Eliminar registros nulos en la variable
objetivo.
● Convertir la variable género en una
variable binaria.
● Eliminar variables de reporteo
(governance) generadas por bandicoot.
● Sustituir valores nulos en los atributos
por el valor 0.
● Normalizar valores numéricos de los
atributos.
3.1 Elección del algoritmo
3 Desarrollo de modelos y evaluación
Para resolver el problema de clasificación, elegimos el algoritmo de Support Vector Machine
(SVM).
PROS
● Optimalidad asegurada.
● Mejor desempeño que regresión logística
● Mínimo riesgo estructural.
CONS
● La solución no siempre es rápida
● Problemas de desempeño con clases no
balanceadas.
3.1 Entrenamiento del modelo
3 Desarrollo de modelos y evaluación
La mejor práctica para entrenar un modelo consiste en dividir los datos en dos conjuntos: el de
entrenamiento y el de prueba. El objetivo principal es entrenar el modelo con el primer conjunto y
evaluarlo con el segundo. Un modelo efectivo es aquel que tiene buena precisión con datos no
vistos.
Conjunto de Entrenamiento:
Es la partición del dataset con el cual se
entrenará el algoritmo para obtener un
modelo.
Conjunto de Prueba:
Partición del dataset que no ha sido utilizada
para el entrenamiento del modelo y permite
evaluar el comportamiento del mismo.
DATASET
Total de los datos
TRAIN SET TEST SET
T = 0 T = 1
En tiempos diferentes
3.2 Validación Cruzada o Cross Validation
3 Desarrollo de modelos y evaluación
En Machine Learning, se utiliza la validación cruzada a k-iteraciones (folds) para maximizar el uso
de los datos disponibles para entrenamiento y evaluación del modelo. Permite describir el
desempeño del modelo.
Fold / capa / iteración:
Se utiliza cada iteración para
entrenar con un conjunto de
entrenamiento y de prueba
distintos.
DATASET
TRAIN SET
TEST SET
TEST SET
TEST SET
TRAIN SET TRAIN SET
TRAIN SET
k = 1
k = 2
k = 3
3.3 Evaluación del modelo
3 Desarrollo de modelos y evaluación
Analizando las métricas de evaluación y la curva ROC.
13 3
11 10
Real
Class 0 Class 1
Class 0
Class 1
Predicción
● Matriz de Confusión:
● Precision: 0.64
● 3-fold cross-validation Score:
0.62
● TPR = 13/(13+11) = 0.54
● TNR = 10/(10+3) = 0.76
¡Gracias!
Fin
¡Gracias!
No todavía… Be kind, rewind...
4.1 Procesamiento de Datos
4 Preparación de los datos - Revisited
Esta parte puede verse como un proceso de limpieza y calidad de datos para comenzar a entrenar
nuestro modelo.
Pasos a seguir:
● Eliminar registros nulos en la variable
objetivo.
● Convertir la variable género en una
variable binaria.
● Eliminar variables de reporteo
(governance) generadas por bandicoot.
● Eliminar los atributos con mínima
variabilidad y aquellos con valores
constantes.
● Sustituir valores nulos por el promedio.
● Normalizar valores numéricos de los
atributos.
● Matriz de Confusión:
● Precision: 0.74
● 3-fold cross-validation Score:
0.66
● TPR = 13/(13+5) = 0.72
● TNR = 16/(16+5) = 0.76
4.2 Evaluación del modelo
4 Desarrollo de modelos y evaluación
Analizando las métricas de evaluación y la curva ROC.
13 5
5 16
Real
Class 0 Class 1
Class 0
Class 1
Predicción
5 Local Interpretable Model-Agnostic Explanations
5 LIME
La salida de LIME es una lista de explicaciones, que refleja la contribución de cada característica a
la predicción de una muestra de datos. Esto proporciona una interpretación local, y también
permite determinar qué cambios en las características tendrán mayor impacto en la predicción.
¿Y entonces?
WEKA
Puesta en Producción de un modelo
WEKA es un programa desarrollado
en Java, el cual tiene una colección
de algoritmos de aprendizaje de
máquina para llevar a cabo minería
y ciencia de datos.
Contiene herramientas para las
etapas del ciclo CRISP-DM:
- Visualización de datos
- Preparación de datos
- Algoritmos de clasificación,
regresión, clustering, series de
tiempo, reglas de asociación, etc.
WEKA
Puesta en Producción de un modelo
PENTAHO
Puesta en Producción de un modelo
Pentaho es una plataforma de código
abierto, especializada en datos.
Reúne a los usuarios de negocio con
los equipos de IT, arquitectura y
ciencia de datos.
Es 100% java, por lo cual soporta
Windows, Linux y MacOS.
¡Gracias!
@nankyoku - Alexandra Lemus
@data_von - Roberto Sánchez
Ahora sí...

Más contenido relacionado

Similar a Laboratorio práctico: La sazón del científico de datos

datatons en Women Techmakers
datatons en Women Techmakersdatatons en Women Techmakers
datatons en Women TechmakersDatatons
 
380843037-Unidad-de-Aprendizaje-N-01-1-Grado-docx.docx
380843037-Unidad-de-Aprendizaje-N-01-1-Grado-docx.docx380843037-Unidad-de-Aprendizaje-N-01-1-Grado-docx.docx
380843037-Unidad-de-Aprendizaje-N-01-1-Grado-docx.docxrojasR3
 
Administracion de Proyecto de ti
Administracion de Proyecto de tiAdministracion de Proyecto de ti
Administracion de Proyecto de tiDarthuz Kilates
 
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1CARLOS MASSUH
 
Industrializacionde la IA Maria Borbones
Industrializacionde la IA Maria BorbonesIndustrializacionde la IA Maria Borbones
Industrializacionde la IA Maria BorbonesWiMLDS_Madrid
 
Seminario Almacenamiento Datos Hoy - 13/12/10
Seminario Almacenamiento Datos Hoy - 13/12/10Seminario Almacenamiento Datos Hoy - 13/12/10
Seminario Almacenamiento Datos Hoy - 13/12/10CAESCG.org
 
Universidad de oriente- Técnicas y herramientas de desarrollo de software
Universidad de oriente- Técnicas y herramientas de desarrollo de softwareUniversidad de oriente- Técnicas y herramientas de desarrollo de software
Universidad de oriente- Técnicas y herramientas de desarrollo de softwareRosmar Pinto
 
Silabo algoritmos uniandes_2015_2
Silabo algoritmos uniandes_2015_2Silabo algoritmos uniandes_2015_2
Silabo algoritmos uniandes_2015_2Fabricio Lozada
 
Guia de aprendizaje ofimatica
Guia de aprendizaje ofimaticaGuia de aprendizaje ofimatica
Guia de aprendizaje ofimaticajb6138
 
Temario software de aplicacion ejecutivo
Temario software de aplicacion ejecutivoTemario software de aplicacion ejecutivo
Temario software de aplicacion ejecutivoWilberth_Gongora
 
1. estructura curricular
1. estructura curricular1. estructura curricular
1. estructura curricularjhordanperilla
 
Tc programacion de_software
Tc programacion de_softwareTc programacion de_software
Tc programacion de_softwareingeniocreativo
 
Gestion de recursos humanos
Gestion de recursos humanosGestion de recursos humanos
Gestion de recursos humanosRuben Robles
 
Sistema de informacion
Sistema de informacionSistema de informacion
Sistema de informacionYhinmy Romero
 
Ciclo de Vida y Diseño de los Sistemas de Información
Ciclo de Vida y Diseño de los Sistemas de InformaciónCiclo de Vida y Diseño de los Sistemas de Información
Ciclo de Vida y Diseño de los Sistemas de Informaciónerwin portillo
 
Guia de aprendizaje Análisis
Guia de aprendizaje AnálisisGuia de aprendizaje Análisis
Guia de aprendizaje AnálisisAntonio Martínez
 
Sílabo de herramientas de desarrollo de software
Sílabo de herramientas de desarrollo de softwareSílabo de herramientas de desarrollo de software
Sílabo de herramientas de desarrollo de softwareWILDER VILCAHUAMAN
 

Similar a Laboratorio práctico: La sazón del científico de datos (20)

datatons en Women Techmakers
datatons en Women Techmakersdatatons en Women Techmakers
datatons en Women Techmakers
 
380843037-Unidad-de-Aprendizaje-N-01-1-Grado-docx.docx
380843037-Unidad-de-Aprendizaje-N-01-1-Grado-docx.docx380843037-Unidad-de-Aprendizaje-N-01-1-Grado-docx.docx
380843037-Unidad-de-Aprendizaje-N-01-1-Grado-docx.docx
 
Administracion de Proyecto de ti
Administracion de Proyecto de tiAdministracion de Proyecto de ti
Administracion de Proyecto de ti
 
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1
ANALÍTICA DE DATOS EN INSTITUCIONES EDUCATIVAS 1
 
Industrializacionde la IA Maria Borbones
Industrializacionde la IA Maria BorbonesIndustrializacionde la IA Maria Borbones
Industrializacionde la IA Maria Borbones
 
Seminario Almacenamiento Datos Hoy - 13/12/10
Seminario Almacenamiento Datos Hoy - 13/12/10Seminario Almacenamiento Datos Hoy - 13/12/10
Seminario Almacenamiento Datos Hoy - 13/12/10
 
Universidad de oriente- Técnicas y herramientas de desarrollo de software
Universidad de oriente- Técnicas y herramientas de desarrollo de softwareUniversidad de oriente- Técnicas y herramientas de desarrollo de software
Universidad de oriente- Técnicas y herramientas de desarrollo de software
 
Silabo algoritmos uniandes_2015_2
Silabo algoritmos uniandes_2015_2Silabo algoritmos uniandes_2015_2
Silabo algoritmos uniandes_2015_2
 
Guia de aprendizaje ofimatica
Guia de aprendizaje ofimaticaGuia de aprendizaje ofimatica
Guia de aprendizaje ofimatica
 
Silabo ads
Silabo adsSilabo ads
Silabo ads
 
Temario software de aplicacion ejecutivo
Temario software de aplicacion ejecutivoTemario software de aplicacion ejecutivo
Temario software de aplicacion ejecutivo
 
Pesi
PesiPesi
Pesi
 
1. estructura curricular
1. estructura curricular1. estructura curricular
1. estructura curricular
 
Tc programacion de_software
Tc programacion de_softwareTc programacion de_software
Tc programacion de_software
 
Gestion de recursos humanos
Gestion de recursos humanosGestion de recursos humanos
Gestion de recursos humanos
 
Sistema de informacion
Sistema de informacionSistema de informacion
Sistema de informacion
 
Sesión 1.pdf
Sesión 1.pdfSesión 1.pdf
Sesión 1.pdf
 
Ciclo de Vida y Diseño de los Sistemas de Información
Ciclo de Vida y Diseño de los Sistemas de InformaciónCiclo de Vida y Diseño de los Sistemas de Información
Ciclo de Vida y Diseño de los Sistemas de Información
 
Guia de aprendizaje Análisis
Guia de aprendizaje AnálisisGuia de aprendizaje Análisis
Guia de aprendizaje Análisis
 
Sílabo de herramientas de desarrollo de software
Sílabo de herramientas de desarrollo de softwareSílabo de herramientas de desarrollo de software
Sílabo de herramientas de desarrollo de software
 

Más de Software Guru

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasSoftware Guru
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesSoftware Guru
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environmentsSoftware Guru
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorSoftware Guru
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealSoftware Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowSoftware Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learningSoftware Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDiSoftware Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSSoftware Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsSoftware Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosSoftware Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressSoftware Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsSoftware Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoSoftware Guru
 

Más de Software Guru (20)

Hola Mundo del Internet de las Cosas
Hola Mundo del Internet de las CosasHola Mundo del Internet de las Cosas
Hola Mundo del Internet de las Cosas
 
Estructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso realesEstructuras de datos avanzadas: Casos de uso reales
Estructuras de datos avanzadas: Casos de uso reales
 
Building bias-aware environments
Building bias-aware environmentsBuilding bias-aware environments
Building bias-aware environments
 
El secreto para ser un desarrollador Senior
El secreto para ser un desarrollador SeniorEl secreto para ser un desarrollador Senior
El secreto para ser un desarrollador Senior
 
Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 

Último

El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...JaquelineJuarez15
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofJuancarlosHuertasNio1
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 

Último (20)

El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
El gusano informático Morris (1988) - Julio Ardita (1995) - Citizenfour (2014...
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
ejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sofejercicios pseint para aprogramacion sof
ejercicios pseint para aprogramacion sof
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 

Laboratorio práctico: La sazón del científico de datos

  • 1. La sazón del científico de datos Marzo 2019 Data Day - Taller
  • 2. ● Introducción: ○ La ciencia de datos y su ciclo ○ El recetario de mi abuelita ● Objetivo ● Desarrollo de un primer modelo siguiendo la receta original. ● Desarrollo de un segundo modelo ya sazonado. ● Agregando un poquito de Lime para explicar el negocio. ● Cómo se despliega el modelo. Agenda
  • 4. ¿Qué es Ciencia de Datos?
  • 5. ¿Qué es Ciencia de Datos? ● La Ciencia de Datos es un campo interdisciplinario que se dedica a extraer conocimiento que proviene de los datos. ● Es una disciplina que utiliza métodos estadísticos, de minería de datos, de aprendizaje de máquina, de ingeniería y arquitectura de datos, así como el conocimiento del dominio al que se esté aplicando. TODO COMIENZA CON UNA PREGUNTA... Preguntas de negocio: ● ¿Qué clientes están conformes con mi servicio? ● ¿A qué equipo le debo dar mantenimiento? ● ¿Que tratamiento es mejor para cierta enfermedad? ● ¿Cuál es el perfil de mi cliente más valioso? Tipo de análisis: ● Algoritmos de Clasificación ● Detección de Anomalías ● Análisis de sobrevivencia ● Customer Value Analysis Introducción
  • 6. El proceso CRISP-DM Introducción ENTENDIMIENTO DEL NEGOCIO Formulación de las preguntas de negocio. Problemas a resolver. Definición de requerimientos y plan a seguir. PUESTA EN PRODUCCIÓN Producción y automatización del modelo. ENTENDIMIENTO DE LOS DATOS Revisión y entendimiento de los datos disponibles. Calidad de datos. Análisis exploratorio de los datos (Discovery). DESARROLLO DE MODELOS Y EVALUACIÓN Elección de algoritmos. Entrenamiento y evaluación de modelos. Explicación del modelo al usuario final. PREPARACIÓN DE LOS DATOS Limpieza y transformación de datos. Análisis exploratorio de los datos enfocado al desarrollo de modelos. Feature Engineering (creación de nuevos atributos). Ciclo de Ciencia de Datos CRISP-DM
  • 7. ¿Quién es el Científico de Datos?
  • 8. El equipo de Ciencia de Datos y sus herramientas Introducción Matemáticos, físicos, científicos, especialistas en ML y AI, así como cualquier interesado en aprender Arquitectos e ingenieros de Datos Expertos en el Dominio Científicos de decisiones Software Dev y UX PENTAHO PLATFORM Integración de datos Adaptive Big Data Layer Business Analytics WEKA Data Mining PYTHON Machine Learning Deep Learning R Software Estadístico
  • 9. El recetario de mi abuelita Introducción
  • 10. Objetivo y recordatorios Nuestra meta es... ● Aprender a experimentar con los datos. ● Entender que la sazón en Ciencia de Datos se da con la experiencia, así como con el conocimiento concreto de procesos y datos. ● Aceptar que no existe una receta, la creatividad y ganas de experimentar son fundamentales para crear un buen modelo. El camino será: ● Llevar a cabo un par de iteraciones del Ciclo de Ciencia de Datos para obtener un modelo sabroso y no uno aguado. ● Sazonar más aún, usando LIME (Local Interpretable Model-Agnostic Explanations), para explicar el modelo a nuestros usuarios finales. ● Tener una primicia de qué significa poner un modelo en producción. Para seguir el curso es necesario tener: ● Jupyter Notebook (https://www.anaconda.com/distribution/) ● Weka (https://www.cs.waikato.ac.nz/ml/weka/)
  • 12. Contexto del experimento y preguntas 1 Entendimiento del negocio En 2011 se realizó un experimento por parte del laboratorio de dinámica humana del MIT. El objetivo era entender el comportamiento de las personas a través de sus interacciones vía teléfono celular. Este experimento ha dado pie a que se escriban muchos artículos respondiendo a las siguientes preguntas: ¿Cómo toman decisiones las personas? ¿Cómo se puede ayudar a las personas a que tomen mejores decisiones? Se registraron las interacciones de 129 individuos, llamadas telefónicas o mensajes de texto. Estos individuos debían cargar una aplicación en su teléfono para registrar ciertos indicadores de estas interacciones. El experimento tuvo una duración de un año, y los participantes podían entrar en cualquier semana. La hipótesis que queremos probar es: ● ¿Se puede predecir el estrato socioeconómico de las personas a partir de sus interacciones telefónicas?
  • 13. ¿Cómo se reciben los datos? 1.1 Entendimiento de los datos Por cada usuario tenemos dos archivos con los siguientes datos: Atributos ● Identificador del usuario ● Género (binario) ● Estrato socioeconómico (binario) Registro por usuario ● Interacción ● Sentido de la interacción ● Identificador usuario con el que realizó la interacción ● Día y hora de la interacción ● Duración de la llamada ● Identificador de antena ● Explicación de los identificadores
  • 14. 2.1 Feature Engineering 2 Preparación de los datos Para comenzar con el análisis exploratorio de datos se generan indicadores estadísticos de las interacciones. Acercamiento Tradicional ● Se debe escribir mucho código. ● Requiere mucho tiempo y conocimiento para mantenerse. Generación automática de características ● ● Entendimiento de la librería que se utiliza. ● Menor tiempo de desarrollo y mantenimiento.
  • 15. 2.1 ¿Qué está haciendo Bandicoot? 2 Preparación de los datos Bandicoot genera indicadores estadísticos para CDRs (Call Detail Records) y otros datos de telecomunicaciones.
  • 16. 2.2 Análisis Exploratorio de Datos (EDA) 2 Preparación de los datos En análisis exploratorio de datos es un paso crítico en cualquier proyecto de ciencia de datos, principalmente por las siguientes razones: ● Detección de errores en los datos. ● Validación de supuestos. ● Guía en la selección de algoritmos adecuados. ● Determinar relaciones entre las variables explicativas. ● Evaluar la dirección y el tamaño (aproximadamente) de las relaciones entre las variables predictoras o explicativas y de respuesta u objetivo. 764 atributos 129registros 129 X 764
  • 17. 2.2.2 Análisis básico 2 Preparación de los datos El generar estadísticas descriptivas nos permite tener una idea de la distribución de los atributos y comenzar a entender el comportamiento de los datos sin tener que visualizarlos. active_days__weekend__day__callandtext__mean.describe() count 122.000000 mean 1.437301 std 0.232737 min 1.000000 25% 1.254167 50% 1.449490 75% 1.621837 max 2.000000 Name: active_days__weekend__day__callandtext__mean, dtype: float64
  • 18. 2.2.4 Visualización de datos 2 Preparación de los datos La visualización de datos también es útil para entender el comportamiento de los mismos. En este caso podemos descubrir si nuestros datos están balanceados o no.
  • 19. 2.2.4 Visualización de datos 2 Preparación de los datos La visualización de datos permite que validemos hipótesis. El promedio del promedio de todas las semanas, de la duración de las llamadas en todo el dia. ● Clase 0 tiene mayor duración en las llamadas. ● Clase 1 tiene menor promedio de duración.
  • 20. 2.2.4 Visualización de datos 2 Preparación de los datos La visualización de datos permite que validemos hipótesis. Promedio del número de contactos sms en las noches de los fines de semana. ● Clase 0 tiene menor promedio de número de contactos. ● Clase 1 tiene mayor promedio de número de contactos.
  • 21. 2.2.4 Visualización de datos 2 Preparación de los datos La visualización de datos permite que validemos hipótesis. Desviación estándar de tiempo entre eventos de llamadas en la semana de dia. ● Clase 0 tiene menor dispersión entre eventos. ● Clase 1 tiene mayor dispersión entre eventos.
  • 22. 2.3 Procesamiento de Datos 2 Preparación de los datos Esta parte puede verse como un proceso de limpieza y calidad de datos para comenzar a entrenar nuestro modelo. Pasos a seguir: ● Eliminar registros nulos en la variable objetivo. ● Convertir la variable género en una variable binaria. ● Eliminar variables de reporteo (governance) generadas por bandicoot. ● Sustituir valores nulos en los atributos por el valor 0. ● Normalizar valores numéricos de los atributos.
  • 23. 3.1 Elección del algoritmo 3 Desarrollo de modelos y evaluación Para resolver el problema de clasificación, elegimos el algoritmo de Support Vector Machine (SVM). PROS ● Optimalidad asegurada. ● Mejor desempeño que regresión logística ● Mínimo riesgo estructural. CONS ● La solución no siempre es rápida ● Problemas de desempeño con clases no balanceadas.
  • 24. 3.1 Entrenamiento del modelo 3 Desarrollo de modelos y evaluación La mejor práctica para entrenar un modelo consiste en dividir los datos en dos conjuntos: el de entrenamiento y el de prueba. El objetivo principal es entrenar el modelo con el primer conjunto y evaluarlo con el segundo. Un modelo efectivo es aquel que tiene buena precisión con datos no vistos. Conjunto de Entrenamiento: Es la partición del dataset con el cual se entrenará el algoritmo para obtener un modelo. Conjunto de Prueba: Partición del dataset que no ha sido utilizada para el entrenamiento del modelo y permite evaluar el comportamiento del mismo. DATASET Total de los datos TRAIN SET TEST SET T = 0 T = 1 En tiempos diferentes
  • 25. 3.2 Validación Cruzada o Cross Validation 3 Desarrollo de modelos y evaluación En Machine Learning, se utiliza la validación cruzada a k-iteraciones (folds) para maximizar el uso de los datos disponibles para entrenamiento y evaluación del modelo. Permite describir el desempeño del modelo. Fold / capa / iteración: Se utiliza cada iteración para entrenar con un conjunto de entrenamiento y de prueba distintos. DATASET TRAIN SET TEST SET TEST SET TEST SET TRAIN SET TRAIN SET TRAIN SET k = 1 k = 2 k = 3
  • 26. 3.3 Evaluación del modelo 3 Desarrollo de modelos y evaluación Analizando las métricas de evaluación y la curva ROC. 13 3 11 10 Real Class 0 Class 1 Class 0 Class 1 Predicción ● Matriz de Confusión: ● Precision: 0.64 ● 3-fold cross-validation Score: 0.62 ● TPR = 13/(13+11) = 0.54 ● TNR = 10/(10+3) = 0.76
  • 28. ¡Gracias! No todavía… Be kind, rewind...
  • 29. 4.1 Procesamiento de Datos 4 Preparación de los datos - Revisited Esta parte puede verse como un proceso de limpieza y calidad de datos para comenzar a entrenar nuestro modelo. Pasos a seguir: ● Eliminar registros nulos en la variable objetivo. ● Convertir la variable género en una variable binaria. ● Eliminar variables de reporteo (governance) generadas por bandicoot. ● Eliminar los atributos con mínima variabilidad y aquellos con valores constantes. ● Sustituir valores nulos por el promedio. ● Normalizar valores numéricos de los atributos.
  • 30. ● Matriz de Confusión: ● Precision: 0.74 ● 3-fold cross-validation Score: 0.66 ● TPR = 13/(13+5) = 0.72 ● TNR = 16/(16+5) = 0.76 4.2 Evaluación del modelo 4 Desarrollo de modelos y evaluación Analizando las métricas de evaluación y la curva ROC. 13 5 5 16 Real Class 0 Class 1 Class 0 Class 1 Predicción
  • 31. 5 Local Interpretable Model-Agnostic Explanations 5 LIME La salida de LIME es una lista de explicaciones, que refleja la contribución de cada característica a la predicción de una muestra de datos. Esto proporciona una interpretación local, y también permite determinar qué cambios en las características tendrán mayor impacto en la predicción.
  • 33. WEKA Puesta en Producción de un modelo WEKA es un programa desarrollado en Java, el cual tiene una colección de algoritmos de aprendizaje de máquina para llevar a cabo minería y ciencia de datos. Contiene herramientas para las etapas del ciclo CRISP-DM: - Visualización de datos - Preparación de datos - Algoritmos de clasificación, regresión, clustering, series de tiempo, reglas de asociación, etc.
  • 35. PENTAHO Puesta en Producción de un modelo Pentaho es una plataforma de código abierto, especializada en datos. Reúne a los usuarios de negocio con los equipos de IT, arquitectura y ciencia de datos. Es 100% java, por lo cual soporta Windows, Linux y MacOS.
  • 36. ¡Gracias! @nankyoku - Alexandra Lemus @data_von - Roberto Sánchez Ahora sí...