SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
Algoritmos de clasificación
Ing. Fabricio Quintanilla, PhD
Fabricio Quintanilla
www.fabricioquintanilla.com /fabricio-quintanilla
• Ingeniero de Sistemas con Maestria en Inteligencia de
Negocios
• Doctor en Economia en la Universidad del Sur de la Florida
• Data Analytics Manager en Banco Azul
• Co fundador de 3Corp Data Science
• Speaker internacional sobre procesamiento Avanzado de datos
en Centroamerica y Estados Unidos
• Miembro de PASS y Speaker en SQL Saturday
• Business Relationship Manager Professional
• Consultor con mas de 15 años de experiencia en
procesamiento de datos
• Tres certificaciones de Microsoft en Plataforma de datos
Qué es Ciencia de Datos?
“Es la extracción de patrones o información interesante
(no trivial, implícita, previamente desconocida y
potencialmente útil) de grandes bases de datos”
Esta definición tiene numerosas cosas a definir, que
quiere decir no-trivial, útiles para quién?
El Proceso de KDD
El proceso de descubrimiento de conocimiento en los datos,
KDD (Knowledge Discovery in Data), se representa de la
siguiente forma:
Selección de
Datos
Preproceso y
Transformación
Data Mining
Datos Patrones
Transformados
OLAP no está incluido
estrictamente en el
proceso de KDD pero
es un lugar apropiado
para describirlo.
Conocimiento
Useful
Adaptado de:
"The KDD Process for Extracting
Knowledge from Volumes of Data"
Usama Fayyad, Gregory Piatetsky-Shapiro & Padhraic
Smyth
Funcionalidades de CD (1)
Descripción de conceptos: Caracterización y discriminación
Generalizar,Resumir y contrastar las características de la
información (por ejemplo las regiones secas vs. Las regiones
húmedas)
Asociación (correlación y causalidad)
Multi-dimensionales vs. unica dimensión
age(X, “20..29”) ^ income(X, “20..29K”) → buys(X,
“PC”) [support = 2%, confidence = 60%]
contains(T, “computer”) → contains(T, “mouse”) [1%, 75%]
Funcionalidades de CD (2)
Classificación y Predicción
Encontrar modelos o funciones que describan y distingan clases
para futuras predicciones
Ej, Clasificar países de acuerdo a su clima, clientes de acuerdo a su comportamiento,
contenedores de acuerdo a su riesgo.
Presentación: árboles de decisión, reglas de clasificación, redes
neuronales
Predicción: Predecir valores numéricos desconocidos o faltantes.
Cluster analisis
No se sabe a que clase pertenecen los datos : se agrupan datos
para formar clases,
El Clustering se basa en el principio de maximizar la similitud dentro de la clase y
minimizar la misma entre clases
Funcionalidades de CD (3)
Análisis de Outliers
Outlier: un dato ( o un objeto) que no respeta el
comportamiento general.
Puede ser ruido o excepciones, pero son muy útiles en la detección
de fraudes o eventos raros.
Análisis de tendencias y evolución
Tendencia y Desvíos: análisis de regresión
Análisos de patrones secuenciales
Análisis de similitudes
Series de tiempo
Clasificación—Un proceso de dos pasos
Construcción del modelo: descripción de las clases existentes
Cada ejemplo pertenece a una clase determinada
El training set es el conjunto de ejemplos que se usa para entrenar el
modelo
El modelo se represente por medio de reglas de clasificación,
árboles o fórmulas matemáticas
Uso del modelo: para clasificar ejemplos futuros o desconocidos
Estimar la precisión del modelo
Para esto se aplica el modelo sobre un conjunto de test y se
compara el resultado del algoritmo con el real.
Precisión es el porcentaje de casos de prueba que son
correctamente clasificados por el modelo
El conjunto de entrenamiento debe ser independiente del de test para
evitar “overfitting”
Proceso de Clasificacion (1):
Construcción del Modelo
Training
Data
NAME RANK YEARS TENURED
Mike Assistan t Prof 3 no
Mary Assistan t Prof 7 yes
Bill Professo r 2 yes
Jim Associate Prof 7 yes
Dave Assistan t Prof 6 no
Anne Associate Prof 3 no
Classification
Algorithms
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
Classifier
(Model)
Proceso de Clasificacion (2):
Uso del modelo para predecir
Classifier
Testing
Data
NAME RANK YEARS TENURED
Tom Assistan t Prof 2 no
Merlisa Asso ciate Prof 7 no
George Professo r 5 yes
Joseph Assistan t Prof 7 yes
Unseen Data
(Jeff, Professor, 4)
Tenured?
Árbol de Decisión para ver quien
compra una computadora
Edad
overcast<=30 >4030 - 40
SiEstudiante Crédito
No Si
No Si No
excelente pobre
Si
Clasificación por medio de
Árboles de Decisión
Árboles de Decisión
Los nodos internos son preguntas sobre los atributos
Las hojas representan las etiquetas o clases resultantes
La generación del árbol tiene fundamentalmente dos pasos
Construcción
Al comienzo todos los ejemplos están en la raíz del árbol
Se dividen los ejemplos en forma recursiva basado en
atributos elegidos
Prunning
Identificar y remover ramas que representan outliers o
ruido
Uso de los árboles de decisión: clasificación de un ejemplo
desconocido
Se controlan los valores de los atributos del ejemplo para
asignarle la clase
Árbol de Decisión con Probabilidad
Edad
overcast<=30 >4030 - 40
SiEstudiante Crédito
No Si
No Si No
excelente pobre
Si
Si 90
NO 60
P 0.6
Si 20
NO 160
P 0.88
Si 190
NO 50
P 0.8
Si 30
NO 120
P 0.8
Si 70
NO 30
P 0.7
Extración de reglas de clasificación a
partir de los árboles
Representa el conocimiento en la forma de reglas de IF-
THEN
Se genera una regla para cada camino desde la raíz hasta
las hojas.
Cada par atributo – valor forma una conjunción
La hoja tiene la clase a predecir
Las reglas son fácilmente entendibles por los seres humanos
Ejemplos:
THEN compra_PC = “no”
THEN compra_PC = “si”
IF edad = “<=30” AND estudiante = “no”
IF edad = “<=30” AND estudiante = “yes”
IF edad = “31 - 40” THEN compra_PC = “si”
IF edad = “>40” AND credito = “excelente” THEN compra_PC =
“si”
IF edad = “>40” AND credito = “pobre” THEN compra_PC = “no”
Evitar el Overfitting en la clasificación
El árbol obtenido puede hacer overfitting sobre el conjunto de
entrenamiento
Si hay demasiadas ramas algunas pueden reflejar anomalías
Como consecuencia de esto se tiene una performance muy mala sobre
ejemplos nuevos
Dos aproximaciones para evitar el overfitting
Prepruning: Interrumpir la construcción del arbol en forma anticipada.
No partir un nodo si la mejora que esto podruce está por debajo de un
cierto umbral.
Es dificil encontrar el umbral adecuado
Postpruning: quitar ramas de un árbol ya contruido
Se puede usar un conjuntodiferentedel de entrenamiento para
hacer esto.
Matriz de confusión
Clase Predicha
Bueno Malo
Clase Real Bueno 15 5
Malo 10 115
Error de la predicción =(10 +5)/(15+5+10+115)
Falsos Positivos (FP) =10/145
Falsos Negativos (FN) =5/145
Demo
MIDE Y TRANSFORMA TU
ORGANIZACION
Y el resultado te sorprenderá!!
www.fabricioquintanilla.com /fabricio-quintanilla
fabricio.quintanilla@3corpds.com
fabricio.quintanilla@gmail.com
http://www.3corp.net
MCP, MCPD, MCTS

Más contenido relacionado

Similar a Pass - Algoritmos de clasificacion

C:\Users\Propietario\Documents\Control De Calidad
C:\Users\Propietario\Documents\Control De CalidadC:\Users\Propietario\Documents\Control De Calidad
C:\Users\Propietario\Documents\Control De CalidadLeticia De la Torre
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientistJesús Montes
 
ED Unidad 1: Introducción a las estructuras de datos (TDA) con objetos
ED Unidad 1: Introducción a las estructuras de datos (TDA) con objetosED Unidad 1: Introducción a las estructuras de datos (TDA) con objetos
ED Unidad 1: Introducción a las estructuras de datos (TDA) con objetosFranklin Parrales Bravo
 
Mi primer modelo de clasificación con Azure Machine Learning Studio
Mi primer modelo de clasificación con Azure Machine Learning StudioMi primer modelo de clasificación con Azure Machine Learning Studio
Mi primer modelo de clasificación con Azure Machine Learning StudioJOSE AHIAS LOPEZ PORTILLO
 
Análisis de-sistemas1
Análisis de-sistemas1Análisis de-sistemas1
Análisis de-sistemas1Berthat Bustos
 
BigData 101 / Cursillo (Parte3)
BigData 101 / Cursillo (Parte3)BigData 101 / Cursillo (Parte3)
BigData 101 / Cursillo (Parte3)andres hurtado
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas ClasificaciónAplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas ClasificaciónLuis Fernando Aguas Bucheli
 
LEARNINGANALYTICS: “VENTAJAS DE USAR UNA HERRAMIENTA DE GESTIÓN ACADÉMICA PAR...
LEARNINGANALYTICS: “VENTAJAS DE USAR UNA HERRAMIENTA DE GESTIÓN ACADÉMICA PAR...LEARNINGANALYTICS: “VENTAJAS DE USAR UNA HERRAMIENTA DE GESTIÓN ACADÉMICA PAR...
LEARNINGANALYTICS: “VENTAJAS DE USAR UNA HERRAMIENTA DE GESTIÓN ACADÉMICA PAR...CRISEL BY AEFOL
 
Medir para Entender y Mejorar: la Analítica del Aprendizaje como nuevo paradi...
Medir para Entender y Mejorar: la Analítica del Aprendizaje como nuevo paradi...Medir para Entender y Mejorar: la Analítica del Aprendizaje como nuevo paradi...
Medir para Entender y Mejorar: la Analítica del Aprendizaje como nuevo paradi...Xavier Ochoa
 
Introducción a ciencia de datos para ingenieros en software
Introducción a ciencia de datos para ingenieros en softwareIntroducción a ciencia de datos para ingenieros en software
Introducción a ciencia de datos para ingenieros en softwareSoftware Guru
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datosDavidAcurio2
 
Analitica del Aprendizaje
Analitica del AprendizajeAnalitica del Aprendizaje
Analitica del AprendizajeXavier Ochoa
 
Auditoria de-sistemas-Aldas-Sisalema-Mayorga
Auditoria de-sistemas-Aldas-Sisalema-MayorgaAuditoria de-sistemas-Aldas-Sisalema-Mayorga
Auditoria de-sistemas-Aldas-Sisalema-MayorgaPablo Mayorga
 

Similar a Pass - Algoritmos de clasificacion (20)

Mineríade datos
Mineríade datosMineríade datos
Mineríade datos
 
aplicaciones de minería de datos
aplicaciones de minería de datosaplicaciones de minería de datos
aplicaciones de minería de datos
 
C:\Users\Propietario\Documents\Control De Calidad
C:\Users\Propietario\Documents\Control De CalidadC:\Users\Propietario\Documents\Control De Calidad
C:\Users\Propietario\Documents\Control De Calidad
 
Las batallas del data scientist
Las batallas del data scientistLas batallas del data scientist
Las batallas del data scientist
 
ED Unidad 1: Introducción a las estructuras de datos (TDA) con objetos
ED Unidad 1: Introducción a las estructuras de datos (TDA) con objetosED Unidad 1: Introducción a las estructuras de datos (TDA) con objetos
ED Unidad 1: Introducción a las estructuras de datos (TDA) con objetos
 
Mi primer modelo de clasificación con Azure Machine Learning Studio
Mi primer modelo de clasificación con Azure Machine Learning StudioMi primer modelo de clasificación con Azure Machine Learning Studio
Mi primer modelo de clasificación con Azure Machine Learning Studio
 
Análisis de-sistemas1
Análisis de-sistemas1Análisis de-sistemas1
Análisis de-sistemas1
 
BigData 101 / Cursillo (Parte3)
BigData 101 / Cursillo (Parte3)BigData 101 / Cursillo (Parte3)
BigData 101 / Cursillo (Parte3)
 
mineria de datos
mineria de datosmineria de datos
mineria de datos
 
Desarrollando Equipos Autodirigidos
Desarrollando Equipos AutodirigidosDesarrollando Equipos Autodirigidos
Desarrollando Equipos Autodirigidos
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas ClasificaciónAplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
Aplicaciones Difusas: Aprendizaje Supervisado-Problemas Clasificación
 
LEARNINGANALYTICS: “VENTAJAS DE USAR UNA HERRAMIENTA DE GESTIÓN ACADÉMICA PAR...
LEARNINGANALYTICS: “VENTAJAS DE USAR UNA HERRAMIENTA DE GESTIÓN ACADÉMICA PAR...LEARNINGANALYTICS: “VENTAJAS DE USAR UNA HERRAMIENTA DE GESTIÓN ACADÉMICA PAR...
LEARNINGANALYTICS: “VENTAJAS DE USAR UNA HERRAMIENTA DE GESTIÓN ACADÉMICA PAR...
 
Medir para Entender y Mejorar: la Analítica del Aprendizaje como nuevo paradi...
Medir para Entender y Mejorar: la Analítica del Aprendizaje como nuevo paradi...Medir para Entender y Mejorar: la Analítica del Aprendizaje como nuevo paradi...
Medir para Entender y Mejorar: la Analítica del Aprendizaje como nuevo paradi...
 
T1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdfT1-AprendizajeAutomatico.pdf
T1-AprendizajeAutomatico.pdf
 
Introducción a ciencia de datos para ingenieros en software
Introducción a ciencia de datos para ingenieros en softwareIntroducción a ciencia de datos para ingenieros en software
Introducción a ciencia de datos para ingenieros en software
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
02 extraccion de conocimiento
02 extraccion de conocimiento02 extraccion de conocimiento
02 extraccion de conocimiento
 
Analitica del Aprendizaje
Analitica del AprendizajeAnalitica del Aprendizaje
Analitica del Aprendizaje
 
Auditoria de-sistemas-Aldas-Sisalema-Mayorga
Auditoria de-sistemas-Aldas-Sisalema-MayorgaAuditoria de-sistemas-Aldas-Sisalema-Mayorga
Auditoria de-sistemas-Aldas-Sisalema-Mayorga
 

Último

EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,
EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,
EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,LANZAPIANDAJOSEANDRE
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfJC Díaz Herrera
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILAsofiagomez288291
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptxJEFFERSONMEDRANOCHAV
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1alfredo130306
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointaria66611782972
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfJC Díaz Herrera
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Perú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineriaPerú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineriaItalo838444
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxHhJhv
 
Adultos Mayores más de 60 años como de la población total (2024).pdf
Adultos Mayores más de 60 años como  de la población total (2024).pdfAdultos Mayores más de 60 años como  de la población total (2024).pdf
Adultos Mayores más de 60 años como de la población total (2024).pdfJC Díaz Herrera
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfPOULANDERSONDELGADOA2
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdfJC Díaz Herrera
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfJC Díaz Herrera
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyraestudiantes2010
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacienteMedicinaInternaresid1
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiaveronicayarpaz
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...claudioluna1121
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoRaúl Figueroa
 

Último (20)

EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,
EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,
EXPOSICION. PROCEOS SAW SEMIATUMATIZADO,
 
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdfPorcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
Porcentaje de población blanca europea en Europa Occidental (1923-2024).pdf
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILASistema Nacional de Vigilancia en Salud Pública SIVIGILA
Sistema Nacional de Vigilancia en Salud Pública SIVIGILA
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
variables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpointvariables-estadisticas. Presentación powerpoint
variables-estadisticas. Presentación powerpoint
 
Las familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdfLas familias más ricas de África en el año (2024).pdf
Las familias más ricas de África en el año (2024).pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Perú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineriaPerú en el ranking mundial, segun datos mineria
Perú en el ranking mundial, segun datos mineria
 
diseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptxdiseño de una linea de produccion de jabon liquido.pptx
diseño de una linea de produccion de jabon liquido.pptx
 
Adultos Mayores más de 60 años como de la población total (2024).pdf
Adultos Mayores más de 60 años como  de la población total (2024).pdfAdultos Mayores más de 60 años como  de la población total (2024).pdf
Adultos Mayores más de 60 años como de la población total (2024).pdf
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
Los primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdfLos primeros 60 países por IDH en el año (2024).pdf
Los primeros 60 países por IDH en el año (2024).pdf
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
metodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un pacientemetodo SOAP utilizado para evaluar el estado de un paciente
metodo SOAP utilizado para evaluar el estado de un paciente
 
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombiadecreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
decreto 2090 de 2003.pdf actividades de alto riesgo en Colombia
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 

Pass - Algoritmos de clasificacion

  • 1.
  • 2. Algoritmos de clasificación Ing. Fabricio Quintanilla, PhD
  • 3. Fabricio Quintanilla www.fabricioquintanilla.com /fabricio-quintanilla • Ingeniero de Sistemas con Maestria en Inteligencia de Negocios • Doctor en Economia en la Universidad del Sur de la Florida • Data Analytics Manager en Banco Azul • Co fundador de 3Corp Data Science • Speaker internacional sobre procesamiento Avanzado de datos en Centroamerica y Estados Unidos • Miembro de PASS y Speaker en SQL Saturday • Business Relationship Manager Professional • Consultor con mas de 15 años de experiencia en procesamiento de datos • Tres certificaciones de Microsoft en Plataforma de datos
  • 4. Qué es Ciencia de Datos? “Es la extracción de patrones o información interesante (no trivial, implícita, previamente desconocida y potencialmente útil) de grandes bases de datos” Esta definición tiene numerosas cosas a definir, que quiere decir no-trivial, útiles para quién?
  • 5. El Proceso de KDD El proceso de descubrimiento de conocimiento en los datos, KDD (Knowledge Discovery in Data), se representa de la siguiente forma: Selección de Datos Preproceso y Transformación Data Mining Datos Patrones Transformados OLAP no está incluido estrictamente en el proceso de KDD pero es un lugar apropiado para describirlo. Conocimiento Useful Adaptado de: "The KDD Process for Extracting Knowledge from Volumes of Data" Usama Fayyad, Gregory Piatetsky-Shapiro & Padhraic Smyth
  • 6. Funcionalidades de CD (1) Descripción de conceptos: Caracterización y discriminación Generalizar,Resumir y contrastar las características de la información (por ejemplo las regiones secas vs. Las regiones húmedas) Asociación (correlación y causalidad) Multi-dimensionales vs. unica dimensión age(X, “20..29”) ^ income(X, “20..29K”) → buys(X, “PC”) [support = 2%, confidence = 60%] contains(T, “computer”) → contains(T, “mouse”) [1%, 75%]
  • 7. Funcionalidades de CD (2) Classificación y Predicción Encontrar modelos o funciones que describan y distingan clases para futuras predicciones Ej, Clasificar países de acuerdo a su clima, clientes de acuerdo a su comportamiento, contenedores de acuerdo a su riesgo. Presentación: árboles de decisión, reglas de clasificación, redes neuronales Predicción: Predecir valores numéricos desconocidos o faltantes. Cluster analisis No se sabe a que clase pertenecen los datos : se agrupan datos para formar clases, El Clustering se basa en el principio de maximizar la similitud dentro de la clase y minimizar la misma entre clases
  • 8. Funcionalidades de CD (3) Análisis de Outliers Outlier: un dato ( o un objeto) que no respeta el comportamiento general. Puede ser ruido o excepciones, pero son muy útiles en la detección de fraudes o eventos raros. Análisis de tendencias y evolución Tendencia y Desvíos: análisis de regresión Análisos de patrones secuenciales Análisis de similitudes Series de tiempo
  • 9. Clasificación—Un proceso de dos pasos Construcción del modelo: descripción de las clases existentes Cada ejemplo pertenece a una clase determinada El training set es el conjunto de ejemplos que se usa para entrenar el modelo El modelo se represente por medio de reglas de clasificación, árboles o fórmulas matemáticas Uso del modelo: para clasificar ejemplos futuros o desconocidos Estimar la precisión del modelo Para esto se aplica el modelo sobre un conjunto de test y se compara el resultado del algoritmo con el real. Precisión es el porcentaje de casos de prueba que son correctamente clasificados por el modelo El conjunto de entrenamiento debe ser independiente del de test para evitar “overfitting”
  • 10. Proceso de Clasificacion (1): Construcción del Modelo Training Data NAME RANK YEARS TENURED Mike Assistan t Prof 3 no Mary Assistan t Prof 7 yes Bill Professo r 2 yes Jim Associate Prof 7 yes Dave Assistan t Prof 6 no Anne Associate Prof 3 no Classification Algorithms IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ Classifier (Model)
  • 11. Proceso de Clasificacion (2): Uso del modelo para predecir Classifier Testing Data NAME RANK YEARS TENURED Tom Assistan t Prof 2 no Merlisa Asso ciate Prof 7 no George Professo r 5 yes Joseph Assistan t Prof 7 yes Unseen Data (Jeff, Professor, 4) Tenured?
  • 12. Árbol de Decisión para ver quien compra una computadora Edad overcast<=30 >4030 - 40 SiEstudiante Crédito No Si No Si No excelente pobre Si
  • 13. Clasificación por medio de Árboles de Decisión Árboles de Decisión Los nodos internos son preguntas sobre los atributos Las hojas representan las etiquetas o clases resultantes La generación del árbol tiene fundamentalmente dos pasos Construcción Al comienzo todos los ejemplos están en la raíz del árbol Se dividen los ejemplos en forma recursiva basado en atributos elegidos Prunning Identificar y remover ramas que representan outliers o ruido Uso de los árboles de decisión: clasificación de un ejemplo desconocido Se controlan los valores de los atributos del ejemplo para asignarle la clase
  • 14. Árbol de Decisión con Probabilidad Edad overcast<=30 >4030 - 40 SiEstudiante Crédito No Si No Si No excelente pobre Si Si 90 NO 60 P 0.6 Si 20 NO 160 P 0.88 Si 190 NO 50 P 0.8 Si 30 NO 120 P 0.8 Si 70 NO 30 P 0.7
  • 15. Extración de reglas de clasificación a partir de los árboles Representa el conocimiento en la forma de reglas de IF- THEN Se genera una regla para cada camino desde la raíz hasta las hojas. Cada par atributo – valor forma una conjunción La hoja tiene la clase a predecir Las reglas son fácilmente entendibles por los seres humanos Ejemplos: THEN compra_PC = “no” THEN compra_PC = “si” IF edad = “<=30” AND estudiante = “no” IF edad = “<=30” AND estudiante = “yes” IF edad = “31 - 40” THEN compra_PC = “si” IF edad = “>40” AND credito = “excelente” THEN compra_PC = “si” IF edad = “>40” AND credito = “pobre” THEN compra_PC = “no”
  • 16. Evitar el Overfitting en la clasificación El árbol obtenido puede hacer overfitting sobre el conjunto de entrenamiento Si hay demasiadas ramas algunas pueden reflejar anomalías Como consecuencia de esto se tiene una performance muy mala sobre ejemplos nuevos Dos aproximaciones para evitar el overfitting Prepruning: Interrumpir la construcción del arbol en forma anticipada. No partir un nodo si la mejora que esto podruce está por debajo de un cierto umbral. Es dificil encontrar el umbral adecuado Postpruning: quitar ramas de un árbol ya contruido Se puede usar un conjuntodiferentedel de entrenamiento para hacer esto.
  • 17. Matriz de confusión Clase Predicha Bueno Malo Clase Real Bueno 15 5 Malo 10 115 Error de la predicción =(10 +5)/(15+5+10+115) Falsos Positivos (FP) =10/145 Falsos Negativos (FN) =5/145
  • 18. Demo
  • 19. MIDE Y TRANSFORMA TU ORGANIZACION Y el resultado te sorprenderá!! www.fabricioquintanilla.com /fabricio-quintanilla fabricio.quintanilla@3corpds.com fabricio.quintanilla@gmail.com http://www.3corp.net MCP, MCPD, MCTS