SlideShare una empresa de Scribd logo
Machine Learning - introducción
Contenido
❖ Modelos populares de Machine Learning
❖ Conceptos de Clustering y Análisis Predictivo
❖ Detección de anomalías
❖ Decision Trees / Random Forest
❖ Preparación de datos
❖ Selección de variables
….
❖ La naturaleza de los datos
Varios mundos: Predictive Modeling
El objetivo se conoce, y puede ser:
● Continuo - ‘N’ valores posibles, ej, cantidad de visitas a un sitio web, a concentración de
glóbulos rojos en la sangre después de cierta medicación.
● Binario - 2 valores posibles, ej, comprará el producto cierto cliente? Tendrá un paciente un
ataque al corazón dada la historia clínica?
> Dadas ciertas variables de entrada, se mapea a una salida (ó variable a predecir).
Varios mundos: Predictive Modeling
Ejemplo variable binaria
Input Output/Target/Outcome
¿Cómo se necesitan los datos para modelar?
1 registro = 1 caso de estudio para aprender.
Cada variable representa una característica.
Ejemplo:
1 registro = 1 paciente ó 1 cliente ó 1 auto...
Varios mundos: Predictive Modeling
Ejemplo variable continua
Output/TargetInput
Empresa que vende estufas,
visitas a la página en función de
la temperatura
Varios mundos: Clustering
“Se deja que los datos hablen” →no se tiene una
variable a predecir.
Los datos se agrupan por similitud.
Normalmente se define la cantidad máxima de clusters (ej: 3).
Fraude/Anomalías:
1. Se define un comportamiento “normal” (clusters)
2. Se encuentran los elementos más alejados de
esta “normalidad”
La esencia en clustering:
- Máxima similitud entre los casos
dentro de un cluster
- Maxima disimilitud entre los clusters
Varios mundos: Time Series Forecasting
Ejemplo
A diferencia de los modelos anteriores
en time series se puede predecir sólo con el
valor de la propia serie.
Como se leería un ejemplo de modelo?:
“Las visitas del próximo viernes,
sera el promedio del martes, miercoles y jueves pasados”.
Cada caso de estudio está relacionado
con los anteriores (a diferencia de las
otras predicciones donde cada caso es
independiente)
Varios mundos: Time Series Forecasting
Son los modelos que involucran tiempo y variable continua como
predicción.
Conceptualmente está relacionado con predicción de variable continua.
El gráfico muestra los page view
del término “FIFA” en la wikipedia.
Los círculos son anomalías.
Post explicativo del análisis (y usar otros términos):
https://goo.gl/KhriHb
Excelente libro on line: https://www.otexts.org/fpp cubre todos los
aspectos de time series.
Resumen planetario
Estos 2 segmentos, abarcan la mayoría de modelos que son requeridos en ambientes laborales.
Predictive Modeling
Ordenando el caos con Decision Tree
Los árboles de decisión son buenos
para explicar un evento en reglas de
SI-ENTONCES.
Permiten análisis descriptivos y
predictivo.
La esencia: Encontrar las variables -
y sus valores- que más separen las
clases a predecir.
Conceptos: Teoría de la
información, reducción de entropía.
Information Gain.
Ordenando el caos con Decision Tree
PASO 1
No hay árbol.
La distribución de
has_heart_disease (variable a
predecir) es:
● 55% para “no”
● 45% para “yes”
Ordenando el caos con Decision Tree
PASO 2
● ¿Cuál es la variable, que
mayor separa las clases?
Ó bien...
● ¿Cual es la variable más
predictiva?
La segmentación está basada en
hechos. Se puede verificar haciendo un
filtro en SQL o excel.
Como se lee?
Rama de la izquierda: “Si thal=3 entonces la probabilidad de
tener un heart disease es de 22%”,
Rama de la derecha: “Si thal es distinto de 3, entonces la
probabilidad es del 76%”
thal=talasemia=tipo de anemia hereditaria
Ordenando el caos con Decision Tree
Y voila! Se crea
el resto del
árbol.
Cada nodo es una regla IF-THEN >>>
Ordenando el caos con Decision Tree
Composición de una regla
Antecedente:
If thal is not 3 and chest_pain is 1, 2 or 3
Consecuente:
Then the lilkelihod of having heart_disease is 92%
Métricas de calidad
Confianza/Precisión: Tasa de acierto, 92% en el caso anterior.
Soporte: Cuantos casos cubre el antecedente (independientemente de su resultado)
Ordenando el caos con Decision Tree
Excelente animacion explicando decision trees
interactivamente: http://www.r2d3.us/visual-intro-
to-machine-learning-part-1/?lang=en
Breve teoría de decision trees &
Information Gain:
https://goo.gl/snISWm
Libro para aprender R desde 0,
(entretenido):
http://nathanieldphillips.com/thepirates
guidetor/
Construcción y validación del modelo
Construcción y validación del modelo
"Bien! Contestaste casi todo
bien. Tenés un 4, podés
sentarte."
Lectura recomendada
Measuring Error:
http://scott.fortmann-
roe.com/docs/MeasuringErro
r.html
Construcción y validación del modelo
De acá se desprenden algunas
métricas de calidad, como la
matriz de confusión ó Accuracy.
>>>>>
El foco está en que el modelo devuelva
una probabilidad de que suceda un
evento, no una predicción “yes/no”. Mas
info:
http://livebook.datascienceheroes.com/scor
ing/scoring.html
Construcción y validación del modelo
Bueno pero … que es "un modelo"?
Ej. predicción variable binaria:
Ej. predicción variable continua (regresión lineal):
y=m*x+b (Si! más simple que el teorema de Green)
Visitas = 2 * inversion_en_publicidad + 4.51
Construcción y validación del modelo
Pero no todos los modelos pueden verse…
Redes neuronales artificiales:
- Cajas negras. Se tiene control sobre ellas en base a ver su
salida y comparar con lo esperado.
Random Forest
- Son un conjunto de árboles como los vistos
anteriormente
- Se modelan entre cientos y miles en un
mismo modelo
Random Forest
Modela la realidad como el
resultado de verdades parciales.
Si k1 dijo ‘yes’, k2 ‘no’ y k3 ‘yes’,
entonces el resultado final=‘yes’.
Es el algoritmo que mejor se desempeña en
escenarios reales; en términos generales, y casi
sin parametrización: Plug & Play.
… ¿Por qué?
Dos conceptos muy fuertes:
> Bootstrapping: Técnica de muestreo
> Bagging: Usar ‘N’ modelos predictivos, con
muestreo, para producir 1 resultado.
Preparación de Datos
Preparación de datos
90% del tiempo = limpieza y preparación de datos
10% restante = modelado
- Ruido
- Valores extremos
- Valores nulos
- Casos imposibles
- Alta cardinalidad en variables categóricas
- otros..
La selección de variables es importantísima,
siempre.
Los modelos deben tener la menor cantidad de
variables, que expliquen la mayor información posible.
Mas info desde un enfoque visual:
livebook.datascienceheroes.com/selecting_best_variables/introdu
ction.html
La naturaleza de los
datos
La naturaleza de los datos
Los datos de entrada son puntos en un espacio de
múltiples dimensiones, (una por cada variable de entrada).
Los modelos son aproximaciones (superficie violeta) a la
“verdadera” forma de los datos, que permanece oculta.
Ningún modelo tiene la verdad absoluta, pero sí algunos
puede aproximarse mejor que otros.
La preparación de datos facilita la obtención de una
superficie. Modelos mas simples.
Mas historias de datos…
livebook.datascienceheroes.com (libro on-line y open source)
blog.datascienceheroes.com

Más contenido relacionado

Similar a Introducción a Machine Learning

Minería de datos
Minería de datosMinería de datos
Minería de datos
Software Guru
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientist
Jesús Montes
 
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
DMC Perú
 
Reto Slideshare
Reto SlideshareReto Slideshare
Reto Slideshare
Maryliz95
 
Decisiones clase 1 2014 c3
Decisiones clase 1 2014 c3Decisiones clase 1 2014 c3
Decisiones clase 1 2014 c3
Solange Rod Soler
 
teim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfteim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdf
ngduyh1
 
REDES NEURONALES.pptx
REDES NEURONALES.pptxREDES NEURONALES.pptx
REDES NEURONALES.pptx
AlexMollehuanca
 
[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)
[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)
[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)
Microsoft Argentina y Uruguay [Official Space]
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
Fiorella Aguilar Isuiza
 
Mineríade datos
Mineríade datosMineríade datos
Mineríade datos
Juan Carlos García Ojeda
 
EMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine LearningEMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine Learning
Laybor EMBdata Training & Consulting
 
Simulacion uam
Simulacion uamSimulacion uam
Distribución exponencial y lognormal
Distribución exponencial y lognormalDistribución exponencial y lognormal
Distribución exponencial y lognormalHugo_Franco
 
Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16Luis Pons
 
Metodo Montecarlo
Metodo MontecarloMetodo Montecarlo
Metodo Montecarlo
Juan Velez
 
Sesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriSesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a priori
DIrector del INNOVAE
 
Sesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriSesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a priori
DIrector del INNOVAE
 
Datamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias BiológicasDatamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias Biológicas
Carlos Manuel Estévez-Bretón Riveros
 
Probabilidad
ProbabilidadProbabilidad
Probabilidad
Maestros en Linea MX
 

Similar a Introducción a Machine Learning (20)

Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientist
 
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
TestingAR Meetup VIII - Luis Argerich - Una Breve Introducción a Machine Lear...
 
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De CréditoMétodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
 
Reto Slideshare
Reto SlideshareReto Slideshare
Reto Slideshare
 
Decisiones clase 1 2014 c3
Decisiones clase 1 2014 c3Decisiones clase 1 2014 c3
Decisiones clase 1 2014 c3
 
teim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdfteim_sesion_007_14_15.pdf
teim_sesion_007_14_15.pdf
 
REDES NEURONALES.pptx
REDES NEURONALES.pptxREDES NEURONALES.pptx
REDES NEURONALES.pptx
 
[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)
[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)
[Code Camp 2009] Aplicaciones de .NET en la medicina (Armando A. Meabe)
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mineríade datos
Mineríade datosMineríade datos
Mineríade datos
 
EMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine LearningEMBD2018 | Autotuning en modelos de Machine Learning
EMBD2018 | Autotuning en modelos de Machine Learning
 
Simulacion uam
Simulacion uamSimulacion uam
Simulacion uam
 
Distribución exponencial y lognormal
Distribución exponencial y lognormalDistribución exponencial y lognormal
Distribución exponencial y lognormal
 
Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16Introduction to R by David Lucy Cap 12-16
Introduction to R by David Lucy Cap 12-16
 
Metodo Montecarlo
Metodo MontecarloMetodo Montecarlo
Metodo Montecarlo
 
Sesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriSesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a priori
 
Sesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a prioriSesion iii arbol de decisiones prob a priori
Sesion iii arbol de decisiones prob a priori
 
Datamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias BiológicasDatamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias Biológicas
 
Probabilidad
ProbabilidadProbabilidad
Probabilidad
 

Último

Análisis Datos imprecisos con lógica difusa.pdf
Análisis Datos imprecisos con lógica difusa.pdfAnálisis Datos imprecisos con lógica difusa.pdf
Análisis Datos imprecisos con lógica difusa.pdf
ReAViILICo
 
El narcisismo actualmente en el mundo 2024
El narcisismo actualmente en el mundo 2024El narcisismo actualmente en el mundo 2024
El narcisismo actualmente en el mundo 2024
pepepinon408
 
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
EliseoLuisRamrez
 
REGIMEN MYPE TRIBUTARIO HECHO PARA APORTES PARA LA SUNAT
REGIMEN MYPE TRIBUTARIO HECHO PARA APORTES PARA LA SUNATREGIMEN MYPE TRIBUTARIO HECHO PARA APORTES PARA LA SUNAT
REGIMEN MYPE TRIBUTARIO HECHO PARA APORTES PARA LA SUNAT
yafethcarrillo
 
Primeros 70 países por IDH ajustado por desigualdad (2024).pdf
Primeros 70 países por IDH ajustado por desigualdad  (2024).pdfPrimeros 70 países por IDH ajustado por desigualdad  (2024).pdf
Primeros 70 países por IDH ajustado por desigualdad (2024).pdf
JC Díaz Herrera
 
Flujograma: Reserva de habitación en un hotel
Flujograma: Reserva de habitación en un hotelFlujograma: Reserva de habitación en un hotel
Flujograma: Reserva de habitación en un hotel
f4llenangel345
 
Presentación Cuenta Pública HLS 2023.pptx
Presentación Cuenta Pública HLS 2023.pptxPresentación Cuenta Pública HLS 2023.pptx
Presentación Cuenta Pública HLS 2023.pptx
hlscomunicaciones
 
Mapa-conceptual-del-Neoclasicismo-4.pptx
Mapa-conceptual-del-Neoclasicismo-4.pptxMapa-conceptual-del-Neoclasicismo-4.pptx
Mapa-conceptual-del-Neoclasicismo-4.pptx
diegoandrerodriguez2
 
Morfofisiopatologia Humana I________ UCS
Morfofisiopatologia Humana I________ UCSMorfofisiopatologia Humana I________ UCS
Morfofisiopatologia Humana I________ UCS
LisaCinnamoroll
 
Presentación diagrama de flujo del desarrollo aronautico.pptx
Presentación diagrama de flujo del desarrollo aronautico.pptxPresentación diagrama de flujo del desarrollo aronautico.pptx
Presentación diagrama de flujo del desarrollo aronautico.pptx
cmrodriguezortiz1103
 
RESPUESTAS A PREGUNTAS FRECUENTES SOBRE LA VITIVINICULTURA ARGENTINA.pdf
RESPUESTAS A PREGUNTAS FRECUENTES SOBRE LA VITIVINICULTURA ARGENTINA.pdfRESPUESTAS A PREGUNTAS FRECUENTES SOBRE LA VITIVINICULTURA ARGENTINA.pdf
RESPUESTAS A PREGUNTAS FRECUENTES SOBRE LA VITIVINICULTURA ARGENTINA.pdf
Observatorio Vitivinícola Argentino
 
Pobreza en el Perú en 2023.pdf practicag
Pobreza en el Perú en 2023.pdf practicagPobreza en el Perú en 2023.pdf practicag
Pobreza en el Perú en 2023.pdf practicag
jairoperezjpnazca
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
ManuelaReina3
 
Ojiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datosOjiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datos
JaimeYael
 
Licencias por enfermedad de hijo menor de 2 años chile
Licencias por enfermedad de hijo menor de 2 años chileLicencias por enfermedad de hijo menor de 2 años chile
Licencias por enfermedad de hijo menor de 2 años chile
franciscasalinaspobl
 
TABla de detracciones 123456 antonela tirado 653266666666666
TABla de detracciones 123456 antonela tirado 653266666666666TABla de detracciones 123456 antonela tirado 653266666666666
TABla de detracciones 123456 antonela tirado 653266666666666
LizetTiradoRodriguez
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
JosMuoz943377
 
Desarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento InformaticaDesarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento Informatica
floralbaortega88
 
CORFEINE_4587888920140526_2aSE_P04_2.pdf
CORFEINE_4587888920140526_2aSE_P04_2.pdfCORFEINE_4587888920140526_2aSE_P04_2.pdf
CORFEINE_4587888920140526_2aSE_P04_2.pdf
CarlosMJmzsifuentes
 
Diagnóstico Institucional en psicologia.docx
Diagnóstico  Institucional en psicologia.docxDiagnóstico  Institucional en psicologia.docx
Diagnóstico Institucional en psicologia.docx
cabreraelian69
 

Último (20)

Análisis Datos imprecisos con lógica difusa.pdf
Análisis Datos imprecisos con lógica difusa.pdfAnálisis Datos imprecisos con lógica difusa.pdf
Análisis Datos imprecisos con lógica difusa.pdf
 
El narcisismo actualmente en el mundo 2024
El narcisismo actualmente en el mundo 2024El narcisismo actualmente en el mundo 2024
El narcisismo actualmente en el mundo 2024
 
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
1- PRESENTACION DE ORIENTACIONES DE LA ORDENANZA 04-2023.11.04.24.pptx
 
REGIMEN MYPE TRIBUTARIO HECHO PARA APORTES PARA LA SUNAT
REGIMEN MYPE TRIBUTARIO HECHO PARA APORTES PARA LA SUNATREGIMEN MYPE TRIBUTARIO HECHO PARA APORTES PARA LA SUNAT
REGIMEN MYPE TRIBUTARIO HECHO PARA APORTES PARA LA SUNAT
 
Primeros 70 países por IDH ajustado por desigualdad (2024).pdf
Primeros 70 países por IDH ajustado por desigualdad  (2024).pdfPrimeros 70 países por IDH ajustado por desigualdad  (2024).pdf
Primeros 70 países por IDH ajustado por desigualdad (2024).pdf
 
Flujograma: Reserva de habitación en un hotel
Flujograma: Reserva de habitación en un hotelFlujograma: Reserva de habitación en un hotel
Flujograma: Reserva de habitación en un hotel
 
Presentación Cuenta Pública HLS 2023.pptx
Presentación Cuenta Pública HLS 2023.pptxPresentación Cuenta Pública HLS 2023.pptx
Presentación Cuenta Pública HLS 2023.pptx
 
Mapa-conceptual-del-Neoclasicismo-4.pptx
Mapa-conceptual-del-Neoclasicismo-4.pptxMapa-conceptual-del-Neoclasicismo-4.pptx
Mapa-conceptual-del-Neoclasicismo-4.pptx
 
Morfofisiopatologia Humana I________ UCS
Morfofisiopatologia Humana I________ UCSMorfofisiopatologia Humana I________ UCS
Morfofisiopatologia Humana I________ UCS
 
Presentación diagrama de flujo del desarrollo aronautico.pptx
Presentación diagrama de flujo del desarrollo aronautico.pptxPresentación diagrama de flujo del desarrollo aronautico.pptx
Presentación diagrama de flujo del desarrollo aronautico.pptx
 
RESPUESTAS A PREGUNTAS FRECUENTES SOBRE LA VITIVINICULTURA ARGENTINA.pdf
RESPUESTAS A PREGUNTAS FRECUENTES SOBRE LA VITIVINICULTURA ARGENTINA.pdfRESPUESTAS A PREGUNTAS FRECUENTES SOBRE LA VITIVINICULTURA ARGENTINA.pdf
RESPUESTAS A PREGUNTAS FRECUENTES SOBRE LA VITIVINICULTURA ARGENTINA.pdf
 
Pobreza en el Perú en 2023.pdf practicag
Pobreza en el Perú en 2023.pdf practicagPobreza en el Perú en 2023.pdf practicag
Pobreza en el Perú en 2023.pdf practicag
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
 
Ojiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datosOjiva porcentual para el análisis de datos
Ojiva porcentual para el análisis de datos
 
Licencias por enfermedad de hijo menor de 2 años chile
Licencias por enfermedad de hijo menor de 2 años chileLicencias por enfermedad de hijo menor de 2 años chile
Licencias por enfermedad de hijo menor de 2 años chile
 
TABla de detracciones 123456 antonela tirado 653266666666666
TABla de detracciones 123456 antonela tirado 653266666666666TABla de detracciones 123456 antonela tirado 653266666666666
TABla de detracciones 123456 antonela tirado 653266666666666
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
 
Desarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento InformaticaDesarrollo de Habilidades de Pensamiento Informatica
Desarrollo de Habilidades de Pensamiento Informatica
 
CORFEINE_4587888920140526_2aSE_P04_2.pdf
CORFEINE_4587888920140526_2aSE_P04_2.pdfCORFEINE_4587888920140526_2aSE_P04_2.pdf
CORFEINE_4587888920140526_2aSE_P04_2.pdf
 
Diagnóstico Institucional en psicologia.docx
Diagnóstico  Institucional en psicologia.docxDiagnóstico  Institucional en psicologia.docx
Diagnóstico Institucional en psicologia.docx
 

Introducción a Machine Learning

  • 1. Machine Learning - introducción
  • 2. Contenido ❖ Modelos populares de Machine Learning ❖ Conceptos de Clustering y Análisis Predictivo ❖ Detección de anomalías ❖ Decision Trees / Random Forest ❖ Preparación de datos ❖ Selección de variables …. ❖ La naturaleza de los datos
  • 3. Varios mundos: Predictive Modeling El objetivo se conoce, y puede ser: ● Continuo - ‘N’ valores posibles, ej, cantidad de visitas a un sitio web, a concentración de glóbulos rojos en la sangre después de cierta medicación. ● Binario - 2 valores posibles, ej, comprará el producto cierto cliente? Tendrá un paciente un ataque al corazón dada la historia clínica? > Dadas ciertas variables de entrada, se mapea a una salida (ó variable a predecir).
  • 4. Varios mundos: Predictive Modeling Ejemplo variable binaria Input Output/Target/Outcome ¿Cómo se necesitan los datos para modelar? 1 registro = 1 caso de estudio para aprender. Cada variable representa una característica. Ejemplo: 1 registro = 1 paciente ó 1 cliente ó 1 auto...
  • 5. Varios mundos: Predictive Modeling Ejemplo variable continua Output/TargetInput Empresa que vende estufas, visitas a la página en función de la temperatura
  • 6. Varios mundos: Clustering “Se deja que los datos hablen” →no se tiene una variable a predecir. Los datos se agrupan por similitud. Normalmente se define la cantidad máxima de clusters (ej: 3). Fraude/Anomalías: 1. Se define un comportamiento “normal” (clusters) 2. Se encuentran los elementos más alejados de esta “normalidad” La esencia en clustering: - Máxima similitud entre los casos dentro de un cluster - Maxima disimilitud entre los clusters
  • 7. Varios mundos: Time Series Forecasting Ejemplo A diferencia de los modelos anteriores en time series se puede predecir sólo con el valor de la propia serie. Como se leería un ejemplo de modelo?: “Las visitas del próximo viernes, sera el promedio del martes, miercoles y jueves pasados”. Cada caso de estudio está relacionado con los anteriores (a diferencia de las otras predicciones donde cada caso es independiente)
  • 8. Varios mundos: Time Series Forecasting Son los modelos que involucran tiempo y variable continua como predicción. Conceptualmente está relacionado con predicción de variable continua. El gráfico muestra los page view del término “FIFA” en la wikipedia. Los círculos son anomalías. Post explicativo del análisis (y usar otros términos): https://goo.gl/KhriHb Excelente libro on line: https://www.otexts.org/fpp cubre todos los aspectos de time series.
  • 9. Resumen planetario Estos 2 segmentos, abarcan la mayoría de modelos que son requeridos en ambientes laborales.
  • 11. Ordenando el caos con Decision Tree Los árboles de decisión son buenos para explicar un evento en reglas de SI-ENTONCES. Permiten análisis descriptivos y predictivo. La esencia: Encontrar las variables - y sus valores- que más separen las clases a predecir. Conceptos: Teoría de la información, reducción de entropía. Information Gain.
  • 12. Ordenando el caos con Decision Tree PASO 1 No hay árbol. La distribución de has_heart_disease (variable a predecir) es: ● 55% para “no” ● 45% para “yes”
  • 13. Ordenando el caos con Decision Tree PASO 2 ● ¿Cuál es la variable, que mayor separa las clases? Ó bien... ● ¿Cual es la variable más predictiva? La segmentación está basada en hechos. Se puede verificar haciendo un filtro en SQL o excel. Como se lee? Rama de la izquierda: “Si thal=3 entonces la probabilidad de tener un heart disease es de 22%”, Rama de la derecha: “Si thal es distinto de 3, entonces la probabilidad es del 76%” thal=talasemia=tipo de anemia hereditaria
  • 14. Ordenando el caos con Decision Tree Y voila! Se crea el resto del árbol. Cada nodo es una regla IF-THEN >>>
  • 15. Ordenando el caos con Decision Tree Composición de una regla Antecedente: If thal is not 3 and chest_pain is 1, 2 or 3 Consecuente: Then the lilkelihod of having heart_disease is 92% Métricas de calidad Confianza/Precisión: Tasa de acierto, 92% en el caso anterior. Soporte: Cuantos casos cubre el antecedente (independientemente de su resultado)
  • 16. Ordenando el caos con Decision Tree Excelente animacion explicando decision trees interactivamente: http://www.r2d3.us/visual-intro- to-machine-learning-part-1/?lang=en Breve teoría de decision trees & Information Gain: https://goo.gl/snISWm Libro para aprender R desde 0, (entretenido): http://nathanieldphillips.com/thepirates guidetor/
  • 18. Construcción y validación del modelo "Bien! Contestaste casi todo bien. Tenés un 4, podés sentarte." Lectura recomendada Measuring Error: http://scott.fortmann- roe.com/docs/MeasuringErro r.html
  • 19. Construcción y validación del modelo De acá se desprenden algunas métricas de calidad, como la matriz de confusión ó Accuracy. >>>>> El foco está en que el modelo devuelva una probabilidad de que suceda un evento, no una predicción “yes/no”. Mas info: http://livebook.datascienceheroes.com/scor ing/scoring.html
  • 20. Construcción y validación del modelo Bueno pero … que es "un modelo"? Ej. predicción variable binaria: Ej. predicción variable continua (regresión lineal): y=m*x+b (Si! más simple que el teorema de Green) Visitas = 2 * inversion_en_publicidad + 4.51
  • 21. Construcción y validación del modelo Pero no todos los modelos pueden verse… Redes neuronales artificiales: - Cajas negras. Se tiene control sobre ellas en base a ver su salida y comparar con lo esperado. Random Forest - Son un conjunto de árboles como los vistos anteriormente - Se modelan entre cientos y miles en un mismo modelo
  • 22. Random Forest Modela la realidad como el resultado de verdades parciales. Si k1 dijo ‘yes’, k2 ‘no’ y k3 ‘yes’, entonces el resultado final=‘yes’. Es el algoritmo que mejor se desempeña en escenarios reales; en términos generales, y casi sin parametrización: Plug & Play. … ¿Por qué? Dos conceptos muy fuertes: > Bootstrapping: Técnica de muestreo > Bagging: Usar ‘N’ modelos predictivos, con muestreo, para producir 1 resultado.
  • 24. Preparación de datos 90% del tiempo = limpieza y preparación de datos 10% restante = modelado - Ruido - Valores extremos - Valores nulos - Casos imposibles - Alta cardinalidad en variables categóricas - otros.. La selección de variables es importantísima, siempre. Los modelos deben tener la menor cantidad de variables, que expliquen la mayor información posible. Mas info desde un enfoque visual: livebook.datascienceheroes.com/selecting_best_variables/introdu ction.html
  • 25. La naturaleza de los datos
  • 26. La naturaleza de los datos Los datos de entrada son puntos en un espacio de múltiples dimensiones, (una por cada variable de entrada). Los modelos son aproximaciones (superficie violeta) a la “verdadera” forma de los datos, que permanece oculta. Ningún modelo tiene la verdad absoluta, pero sí algunos puede aproximarse mejor que otros. La preparación de datos facilita la obtención de una superficie. Modelos mas simples.
  • 27. Mas historias de datos… livebook.datascienceheroes.com (libro on-line y open source) blog.datascienceheroes.com