SlideShare una empresa de Scribd logo
1 de 27
Machine Learning - introducción
Contenido
❖ Modelos populares de Machine Learning
❖ Conceptos de Clustering y Análisis Predictivo
❖ Detección de anomalías
❖ Decision Trees / Random Forest
❖ Preparación de datos
❖ Selección de variables
….
❖ La naturaleza de los datos
Varios mundos: Predictive Modeling
El objetivo se conoce, y puede ser:
● Continuo - ‘N’ valores posibles, ej, cantidad de visitas a un sitio web, a concentración de
glóbulos rojos en la sangre después de cierta medicación.
● Binario - 2 valores posibles, ej, comprará el producto cierto cliente? Tendrá un paciente un
ataque al corazón dada la historia clínica?
> Dadas ciertas variables de entrada, se mapea a una salida (ó variable a predecir).
Varios mundos: Predictive Modeling
Ejemplo variable binaria
Input Output/Target/Outcome
¿Cómo se necesitan los datos para modelar?
1 registro = 1 caso de estudio para aprender.
Cada variable representa una característica.
Ejemplo:
1 registro = 1 paciente ó 1 cliente ó 1 auto...
Varios mundos: Predictive Modeling
Ejemplo variable continua
Output/TargetInput
Empresa que vende estufas,
visitas a la página en función de
la temperatura
Varios mundos: Clustering
“Se deja que los datos hablen” →no se tiene una
variable a predecir.
Los datos se agrupan por similitud.
Normalmente se define la cantidad máxima de clusters (ej: 3).
Fraude/Anomalías:
1. Se define un comportamiento “normal” (clusters)
2. Se encuentran los elementos más alejados de
esta “normalidad”
La esencia en clustering:
- Máxima similitud entre los casos
dentro de un cluster
- Maxima disimilitud entre los clusters
Varios mundos: Time Series Forecasting
Ejemplo
A diferencia de los modelos anteriores
en time series se puede predecir sólo con el
valor de la propia serie.
Como se leería un ejemplo de modelo?:
“Las visitas del próximo viernes,
sera el promedio del martes, miercoles y jueves pasados”.
Cada caso de estudio está relacionado
con los anteriores (a diferencia de las
otras predicciones donde cada caso es
independiente)
Varios mundos: Time Series Forecasting
Son los modelos que involucran tiempo y variable continua como
predicción.
Conceptualmente está relacionado con predicción de variable continua.
El gráfico muestra los page view
del término “FIFA” en la wikipedia.
Los círculos son anomalías.
Post explicativo del análisis (y usar otros términos):
https://goo.gl/KhriHb
Excelente libro on line: https://www.otexts.org/fpp cubre todos los
aspectos de time series.
Resumen planetario
Estos 2 segmentos, abarcan la mayoría de modelos que son requeridos en ambientes laborales.
Predictive Modeling
Ordenando el caos con Decision Tree
Los árboles de decisión son buenos
para explicar un evento en reglas de
SI-ENTONCES.
Permiten análisis descriptivos y
predictivo.
La esencia: Encontrar las variables -
y sus valores- que más separen las
clases a predecir.
Conceptos: Teoría de la
información, reducción de entropía.
Information Gain.
Ordenando el caos con Decision Tree
PASO 1
No hay árbol.
La distribución de
has_heart_disease (variable a
predecir) es:
● 55% para “no”
● 45% para “yes”
Ordenando el caos con Decision Tree
PASO 2
● ¿Cuál es la variable, que
mayor separa las clases?
Ó bien...
● ¿Cual es la variable más
predictiva?
La segmentación está basada en
hechos. Se puede verificar haciendo un
filtro en SQL o excel.
Como se lee?
Rama de la izquierda: “Si thal=3 entonces la probabilidad de
tener un heart disease es de 22%”,
Rama de la derecha: “Si thal es distinto de 3, entonces la
probabilidad es del 76%”
thal=talasemia=tipo de anemia hereditaria
Ordenando el caos con Decision Tree
Y voila! Se crea
el resto del
árbol.
Cada nodo es una regla IF-THEN >>>
Ordenando el caos con Decision Tree
Composición de una regla
Antecedente:
If thal is not 3 and chest_pain is 1, 2 or 3
Consecuente:
Then the lilkelihod of having heart_disease is 92%
Métricas de calidad
Confianza/Precisión: Tasa de acierto, 92% en el caso anterior.
Soporte: Cuantos casos cubre el antecedente (independientemente de su resultado)
Ordenando el caos con Decision Tree
Excelente animacion explicando decision trees
interactivamente: http://www.r2d3.us/visual-intro-
to-machine-learning-part-1/?lang=en
Breve teoría de decision trees &
Information Gain:
https://goo.gl/snISWm
Libro para aprender R desde 0,
(entretenido):
http://nathanieldphillips.com/thepirates
guidetor/
Construcción y validación del modelo
Construcción y validación del modelo
"Bien! Contestaste casi todo
bien. Tenés un 4, podés
sentarte."
Lectura recomendada
Measuring Error:
http://scott.fortmann-
roe.com/docs/MeasuringErro
r.html
Construcción y validación del modelo
De acá se desprenden algunas
métricas de calidad, como la
matriz de confusión ó Accuracy.
>>>>>
El foco está en que el modelo devuelva
una probabilidad de que suceda un
evento, no una predicción “yes/no”. Mas
info:
http://livebook.datascienceheroes.com/scor
ing/scoring.html
Construcción y validación del modelo
Bueno pero … que es "un modelo"?
Ej. predicción variable binaria:
Ej. predicción variable continua (regresión lineal):
y=m*x+b (Si! más simple que el teorema de Green)
Visitas = 2 * inversion_en_publicidad + 4.51
Construcción y validación del modelo
Pero no todos los modelos pueden verse…
Redes neuronales artificiales:
- Cajas negras. Se tiene control sobre ellas en base a ver su
salida y comparar con lo esperado.
Random Forest
- Son un conjunto de árboles como los vistos
anteriormente
- Se modelan entre cientos y miles en un
mismo modelo
Random Forest
Modela la realidad como el
resultado de verdades parciales.
Si k1 dijo ‘yes’, k2 ‘no’ y k3 ‘yes’,
entonces el resultado final=‘yes’.
Es el algoritmo que mejor se desempeña en
escenarios reales; en términos generales, y casi
sin parametrización: Plug & Play.
… ¿Por qué?
Dos conceptos muy fuertes:
> Bootstrapping: Técnica de muestreo
> Bagging: Usar ‘N’ modelos predictivos, con
muestreo, para producir 1 resultado.
Preparación de Datos
Preparación de datos
90% del tiempo = limpieza y preparación de datos
10% restante = modelado
- Ruido
- Valores extremos
- Valores nulos
- Casos imposibles
- Alta cardinalidad en variables categóricas
- otros..
La selección de variables es importantísima,
siempre.
Los modelos deben tener la menor cantidad de
variables, que expliquen la mayor información posible.
Mas info desde un enfoque visual:
livebook.datascienceheroes.com/selecting_best_variables/introdu
ction.html
La naturaleza de los
datos
La naturaleza de los datos
Los datos de entrada son puntos en un espacio de
múltiples dimensiones, (una por cada variable de entrada).
Los modelos son aproximaciones (superficie violeta) a la
“verdadera” forma de los datos, que permanece oculta.
Ningún modelo tiene la verdad absoluta, pero sí algunos
puede aproximarse mejor que otros.
La preparación de datos facilita la obtención de una
superficie. Modelos mas simples.
Mas historias de datos…
livebook.datascienceheroes.com (libro on-line y open source)
blog.datascienceheroes.com

Más contenido relacionado

Similar a Machine Learning - Introducción a conceptos clave

Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientistJesús Montes
 
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoDMC Perú
 
Reto Slideshare
Reto SlideshareReto Slideshare
Reto SlideshareMaryliz95
 
teim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfteim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfngduyh1
 
Distribución exponencial y lognormal
Distribución exponencial y lognormalDistribución exponencial y lognormal
Distribución exponencial y lognormalHugo_Franco
 
Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16Luis Pons
 
Metodo Montecarlo
Metodo MontecarloMetodo Montecarlo
Metodo MontecarloJuan Velez
 
Sesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriSesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriDIrector del INNOVAE
 
Sesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriSesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriDIrector del INNOVAE
 

Similar a Machine Learning - Introducción a conceptos clave (20)

Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientist
 
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
 
Decisiones clase 1 2014 c3
Decisiones clase 1 2014 c3Decisiones clase 1 2014 c3
Decisiones clase 1 2014 c3
 
Reto Slideshare
Reto SlideshareReto Slideshare
Reto Slideshare
 
teim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfteim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdf
 
REDES NEURONALES.pptx
REDES NEURONALES.pptxREDES NEURONALES.pptx
REDES NEURONALES.pptx
 
[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)
[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)
[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineríade datos
Mineríade datosMineríade datos
Mineríade datos
 
EMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine LearningEMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine Learning
 
Simulacion uam
Simulacion uamSimulacion uam
Simulacion uam
 
Distribución exponencial y lognormal
Distribución exponencial y lognormalDistribución exponencial y lognormal
Distribución exponencial y lognormal
 
Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16
 
Metodo Montecarlo
Metodo MontecarloMetodo Montecarlo
Metodo Montecarlo
 
Sesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriSesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a priori
 
Sesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriSesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a priori
 
Datamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias BiológicasDatamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias Biológicas
 
Probabilidad
ProbabilidadProbabilidad
Probabilidad
 

Último

15-04-24-Dispositivos de Procesamiento.pptx
15-04-24-Dispositivos de Procesamiento.pptx15-04-24-Dispositivos de Procesamiento.pptx
15-04-24-Dispositivos de Procesamiento.pptxmgm & asociado
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docrobinsonsjuan
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdfCamilaArzate2
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Ivie
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfMartinRodriguezchave1
 
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxDEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxYamile Divina Acevedo
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfJC Díaz Herrera
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOReluniversocom
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSSQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSLuisDavidGarciaInga2
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdfJC Díaz Herrera
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOsecundariatecnica891
 
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptxceliajessicapinedava
 

Último (20)

15-04-24-Dispositivos de Procesamiento.pptx
15-04-24-Dispositivos de Procesamiento.pptx15-04-24-Dispositivos de Procesamiento.pptx
15-04-24-Dispositivos de Procesamiento.pptx
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.doc
 
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRILPREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA H DE CONSULTA POPULAR 21 DE ABRIL
 
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO    ..pdfMAPA DE RIESGOS DE UN ZOOLOGICO    ..pdf
MAPA DE RIESGOS DE UN ZOOLOGICO ..pdf
 
Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023Presentación del Mapa del Talento Cotec-Ivie 2023
Presentación del Mapa del Talento Cotec-Ivie 2023
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
 
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptxDEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
DEFINICION DE GLOBALIZACION Y SU IMPACTOI EN LA EN LA CULTURA.pptx
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdf
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOSSQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
SQL SERVER Y MYSQL - ADMINISTRACIÓN DE BASE DE DATOS
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRILPREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA G DE CONSULTA POPULAR 21 DE ABRIL
 
Países por velocidad de sus misiles hipersónicos (2024).pdf
Países por velocidad de sus misiles hipersónicos  (2024).pdfPaíses por velocidad de sus misiles hipersónicos  (2024).pdf
Países por velocidad de sus misiles hipersónicos (2024).pdf
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASO
 
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
 

Machine Learning - Introducción a conceptos clave

  • 1. Machine Learning - introducción
  • 2. Contenido ❖ Modelos populares de Machine Learning ❖ Conceptos de Clustering y Análisis Predictivo ❖ Detección de anomalías ❖ Decision Trees / Random Forest ❖ Preparación de datos ❖ Selección de variables …. ❖ La naturaleza de los datos
  • 3. Varios mundos: Predictive Modeling El objetivo se conoce, y puede ser: ● Continuo - ‘N’ valores posibles, ej, cantidad de visitas a un sitio web, a concentración de glóbulos rojos en la sangre después de cierta medicación. ● Binario - 2 valores posibles, ej, comprará el producto cierto cliente? Tendrá un paciente un ataque al corazón dada la historia clínica? > Dadas ciertas variables de entrada, se mapea a una salida (ó variable a predecir).
  • 4. Varios mundos: Predictive Modeling Ejemplo variable binaria Input Output/Target/Outcome ¿Cómo se necesitan los datos para modelar? 1 registro = 1 caso de estudio para aprender. Cada variable representa una característica. Ejemplo: 1 registro = 1 paciente ó 1 cliente ó 1 auto...
  • 5. Varios mundos: Predictive Modeling Ejemplo variable continua Output/TargetInput Empresa que vende estufas, visitas a la página en función de la temperatura
  • 6. Varios mundos: Clustering “Se deja que los datos hablen” →no se tiene una variable a predecir. Los datos se agrupan por similitud. Normalmente se define la cantidad máxima de clusters (ej: 3). Fraude/Anomalías: 1. Se define un comportamiento “normal” (clusters) 2. Se encuentran los elementos más alejados de esta “normalidad” La esencia en clustering: - Máxima similitud entre los casos dentro de un cluster - Maxima disimilitud entre los clusters
  • 7. Varios mundos: Time Series Forecasting Ejemplo A diferencia de los modelos anteriores en time series se puede predecir sólo con el valor de la propia serie. Como se leería un ejemplo de modelo?: “Las visitas del próximo viernes, sera el promedio del martes, miercoles y jueves pasados”. Cada caso de estudio está relacionado con los anteriores (a diferencia de las otras predicciones donde cada caso es independiente)
  • 8. Varios mundos: Time Series Forecasting Son los modelos que involucran tiempo y variable continua como predicción. Conceptualmente está relacionado con predicción de variable continua. El gráfico muestra los page view del término “FIFA” en la wikipedia. Los círculos son anomalías. Post explicativo del análisis (y usar otros términos): https://goo.gl/KhriHb Excelente libro on line: https://www.otexts.org/fpp cubre todos los aspectos de time series.
  • 9. Resumen planetario Estos 2 segmentos, abarcan la mayoría de modelos que son requeridos en ambientes laborales.
  • 11. Ordenando el caos con Decision Tree Los árboles de decisión son buenos para explicar un evento en reglas de SI-ENTONCES. Permiten análisis descriptivos y predictivo. La esencia: Encontrar las variables - y sus valores- que más separen las clases a predecir. Conceptos: Teoría de la información, reducción de entropía. Information Gain.
  • 12. Ordenando el caos con Decision Tree PASO 1 No hay árbol. La distribución de has_heart_disease (variable a predecir) es: ● 55% para “no” ● 45% para “yes”
  • 13. Ordenando el caos con Decision Tree PASO 2 ● ¿Cuál es la variable, que mayor separa las clases? Ó bien... ● ¿Cual es la variable más predictiva? La segmentación está basada en hechos. Se puede verificar haciendo un filtro en SQL o excel. Como se lee? Rama de la izquierda: “Si thal=3 entonces la probabilidad de tener un heart disease es de 22%”, Rama de la derecha: “Si thal es distinto de 3, entonces la probabilidad es del 76%” thal=talasemia=tipo de anemia hereditaria
  • 14. Ordenando el caos con Decision Tree Y voila! Se crea el resto del árbol. Cada nodo es una regla IF-THEN >>>
  • 15. Ordenando el caos con Decision Tree Composición de una regla Antecedente: If thal is not 3 and chest_pain is 1, 2 or 3 Consecuente: Then the lilkelihod of having heart_disease is 92% Métricas de calidad Confianza/Precisión: Tasa de acierto, 92% en el caso anterior. Soporte: Cuantos casos cubre el antecedente (independientemente de su resultado)
  • 16. Ordenando el caos con Decision Tree Excelente animacion explicando decision trees interactivamente: http://www.r2d3.us/visual-intro- to-machine-learning-part-1/?lang=en Breve teoría de decision trees & Information Gain: https://goo.gl/snISWm Libro para aprender R desde 0, (entretenido): http://nathanieldphillips.com/thepirates guidetor/
  • 18. Construcción y validación del modelo "Bien! Contestaste casi todo bien. Tenés un 4, podés sentarte." Lectura recomendada Measuring Error: http://scott.fortmann- roe.com/docs/MeasuringErro r.html
  • 19. Construcción y validación del modelo De acá se desprenden algunas métricas de calidad, como la matriz de confusión ó Accuracy. >>>>> El foco está en que el modelo devuelva una probabilidad de que suceda un evento, no una predicción “yes/no”. Mas info: http://livebook.datascienceheroes.com/scor ing/scoring.html
  • 20. Construcción y validación del modelo Bueno pero … que es "un modelo"? Ej. predicción variable binaria: Ej. predicción variable continua (regresión lineal): y=m*x+b (Si! más simple que el teorema de Green) Visitas = 2 * inversion_en_publicidad + 4.51
  • 21. Construcción y validación del modelo Pero no todos los modelos pueden verse… Redes neuronales artificiales: - Cajas negras. Se tiene control sobre ellas en base a ver su salida y comparar con lo esperado. Random Forest - Son un conjunto de árboles como los vistos anteriormente - Se modelan entre cientos y miles en un mismo modelo
  • 22. Random Forest Modela la realidad como el resultado de verdades parciales. Si k1 dijo ‘yes’, k2 ‘no’ y k3 ‘yes’, entonces el resultado final=‘yes’. Es el algoritmo que mejor se desempeña en escenarios reales; en términos generales, y casi sin parametrización: Plug & Play. … ¿Por qué? Dos conceptos muy fuertes: > Bootstrapping: Técnica de muestreo > Bagging: Usar ‘N’ modelos predictivos, con muestreo, para producir 1 resultado.
  • 24. Preparación de datos 90% del tiempo = limpieza y preparación de datos 10% restante = modelado - Ruido - Valores extremos - Valores nulos - Casos imposibles - Alta cardinalidad en variables categóricas - otros.. La selección de variables es importantísima, siempre. Los modelos deben tener la menor cantidad de variables, que expliquen la mayor información posible. Mas info desde un enfoque visual: livebook.datascienceheroes.com/selecting_best_variables/introdu ction.html
  • 25. La naturaleza de los datos
  • 26. La naturaleza de los datos Los datos de entrada son puntos en un espacio de múltiples dimensiones, (una por cada variable de entrada). Los modelos son aproximaciones (superficie violeta) a la “verdadera” forma de los datos, que permanece oculta. Ningún modelo tiene la verdad absoluta, pero sí algunos puede aproximarse mejor que otros. La preparación de datos facilita la obtención de una superficie. Modelos mas simples.
  • 27. Mas historias de datos… livebook.datascienceheroes.com (libro on-line y open source) blog.datascienceheroes.com