SlideShare una empresa de Scribd logo
1 de 16
1LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
ESTUDIO COMPARATIVO DE TÉCNICAS DE BALANCEO
DE DATOS EN EL APRENDIZAJE DE MÚLTIPLES
INSTANCIAS
JOSE ARRIETA
CARLOS MERA
2LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
CONTENIDO
INTRODUCCIÓN
El Problema de Clases Desbalanceadas
El Aprendizaje de Múltiples Instancias (MIL)
Desbalanceo de Clases en MIL
EXPERIMENTOS Y DISCUSIÓN DE RESULTADOS
Conjuntos de Datos
Algoritmos usados
Estrategia de Comparación
Resultados y Discusión
CONCLUSIONES Y TRABAJO FUTURO
3LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
EL PROBLEMA DE CLASES DESBALANCEADAS
Se considera que un conjunto de datos de dos clases está desbalanceado cuando el
número de muestras de una de las clases (la clase mayoritaria) sobrepasa el número
de muestras de la otra (la clase minoritaria).
La regla de decisión produce fronteras de decisión sesgadas en favor de la clase
mayoritaria. [HG2009] H. He & E.A. Garcia. “Learning from Imbalanced Data”
Frontera Real
Frontera Sesgada
4LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
ALGORITMOS DE BALANCEO DE CLASES EN LA LITERATURA:
Métodos base
Sub-muestreo y Sobre-muestreo al azar.
Métodos de Sub-muestreo Informativos
Tomek Links
Condensed Nearest
Neighbor Rule One-Sided Selection
Neighborhood Cleaning Rule
Métodos de Sobre-muestreo Informativos
Smote
Borderline-Smote
Adasyn
Métodos Ensamblados
5LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL)
No siempre es posible proporcionar datos para entrenamiento completamente
etiquetados debido a que:
Requiere un esfuerzo humano considerable
Requiere pruebas costosas
Desacuerdo entre los expertos
Objetivo MIL: Aprender de datos débilmente etiquetados, donde cada objeto de
entrenamiento (o Bolsa Xi) es representado por un conjunto de vectores de
características (o Instancias Xi,j)
Concepto a aprender: “Playa” Objetos Segmentados
Xi,1
Xi,5
Xi,2
Xi,3
Xi,4
Bolsa Xi
6LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL)
Un conjunto de entrenamiento consiste de una colección de Bolsas
Una Bolsa es etiquetada positiva si existe al menos una Instancia positiva en ella
Bolsa Negativa (Bi
-) Bolsa Positiva (Bi
+)
Un conjunto de entrenamiento toma la forma B={(B1,y1),…,(Bn,yn)} donde
cada Bolsa Bi={xi1, . . . , xini } es un conjunto con ni instancias y con
etiqueta yi=+1, para la clase positiva, o yi=-1, para la clase negativa.
7LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
EL APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL)
Los algoritmos MIL pueden ser agrupados en: [Amores2013]
Instance Space (IS) (BUSCAR ESSTOO Y ALGORITMOSs)
Axis-Parallel Rectangle (APR) [DLL1997]
mi-SVM [ATH2003]
MIL-Boost [BYB2009]
Bag Space (BS)
Citation-kNN [WZ2000]
Embedded Space (ES)
Multiple-Instance Learning via Embedded Instance Selection (MILES) [CBW2006]
[Amores2013] J. Amores: “Multiple instance classification: Review, taxonomy and comparative study”
[ATH2003] S. Andrews et al.: “Support vector machines for multiple-instance learning”
[WZ2000] J. Wang and J. Zucker: “Solving the multiple-instance problem: A lazy learning approach”
[BYB2009] B. Babenko et al.: “Visual tracking with online multiple instance learning”
La mayoría de los métodos existentes NO consideran directamente
el problema de los conjuntos de datos desbalanceados , lo que
disminuye el rendimiento normalmente alcanzable por la mayoría de
los algoritmos de MIL
8LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
INTRODUCCIÓN
EL PROBLEMA DE CLASES DESBALANCEADAS EN MIL
A nivel de Instancias: Instancias negativas predominan el conjunto de datos
A nivel de Bolsas: Bolsas negativas superan a las positivas
En Ambos niveles
9LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
ESTRATEGIA DE COMPARACIÓN
MÉTODOS DE MUESTREO USADOS EN MIL
SOBRE-MUESTREO: Agregar a cada bolsa el número de instancias sintéticas
necesarias para que todas las bolsas tengan el número máximo de instancias
(SMOTE al azar)
SUB-MUESTREO:
1. Eliminar de cada bolsa tantas instancias al azar, como sea necesario para que
cada bolsa tenga el número mínimo de instancias.
2. OSS
MIXTO: Sobre-muestreo (SMOTE al azar) + Sub-muestreo (eliminación al azar).
10LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
ESTRATEGIA DE COMPARACIÓN
ALGORITMOS MIL USADOS EN LOS EXPERIMENTOS
APR con un umbral 𝑡 = 0,1.
Citation-kNN con k=3 (denominado C-kNN).
mi-SVM con un kernel de base radial y un parámetro de regularización 𝐶 = 10.
MILES con un kernel de base radial y un parámetro de regularización 𝐶 = 10.
Los resultados obtenidos se resumen en las Tabla 2 y 3, para las métricas AUC y F1,
respectivamente.
11LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
EXPERIMENTOS Y RESULTADOS
CONJUNTOS DE DATOS USADOS: En la siguiente tabla se detallan los conjuntos de
datos utilizados en los experimentos, resaltando el desbalance a nivel de bolsas e
instancias. Tabla 1. Conjuntos de Datos de Prueba
Conjunto de
datos
Bolsas + Bolsas - Inst + Inst - Pro Min Max
Musk1 47 45 207 269 5 2 40
Musk2 39 63 1017 5581 65 1 1044
Elephant 100 100 762 629 7 2 13
Fox 100 100 647 673 7 2 13
Tiger 100 100 544 676 6 1 13
Muta1 125 63 7790 2696 56 28 88
Muta2 13 29 660 1472 51 26 86
Bird WIWR 109 439 1824 8408 19 2 43
Bird BRCR 197 351 4759 5473 19 2 43
Web1 17 58 488 1724 29 4 131
Web2 18 57 499 1720 30 5 200
12LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
EXPERIMENTOS Y RESULTADOS
Conjuntos de datos
[Algoritmo]
Original
Sobre-
Muestreo
Sub-
Muestreo
OSS
Muestreo
Mixto
Musk1 [C-kNN] 87,86 43,06 83,47 85,19 70,14
Musk2 [mi-SVM] 73,69 * 75,36 72,39 72,77
Elephant [mi-SVM] 77,84 74,91 78,42 * 76,88
Fox [MILES] 67,56 40,64 64,99 65,69 62,24
Tiger [MILES] 80,02 48,85 73,92 78,88 78,93
Muta1 [mi-SVM] 84,20 79,74 79,98 * 81,64
Muta2 [mi-SVM] 53,28 45,72 51,52 52,97 48,31
Bird WIWR [MILBoost] 84,50 78,78 47,43 33,18 80,45
Bird BRCR [MILBoost] 80,13 71,37 59,40 52,93 79,07
Web1 [mi-SVM] 56,20 36,10 44,07 59,78 51,45
Web2 [mi-SVM] 61,09 30,14 46,50 57,74 56,52
Tabla 2. Resultados para la Métrica F1x100
13LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
EXPERIMENTOS Y RESULTADOS
Tabla 3. Resultados para la Métrica AUCx100
Conjuntos de datos
[Algoritmo]
Original
Sobre-
Muestreo
Sub-
Muestreo
OSS Muestre Mixto
Musk1 [C-kNN] 91,51 49,89 84,37 90,64 61,4
Musk2 [mi-SVM] 91,24 * 91,99 90,69 91,11
Elephant [mi-SVM] 91,76 91,03 90,55 * 91,11
Fox [MILES] 73,72 64,36 68,41 72,39 67,53
Tiger [MILES] 88,62 77,25 82,37 87,35 87,26
Muta1 [mi-SVM] 83,39 67,13 78,71 * 75,72
Muta2 [mi-SVM] 72,49 72,38 66,56 71,98 70,9
Bird WIWR [MILBoost] 92,14 89,70 96,39 41,77 90,09
Bird BRCR [MILBoost] 93,14 89,76 92,54 83,49 91,81
Web1 [mi-SVM] 83,27 80,27 78,49 82,17 82,97
Web2 [mi-SVM] 84,80 80,02 82,39 83,26 85,95
14LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
EXPERIMENTOS Y RESULTADOS
DISCUSIÓN DE RESULTADOS: Las siguientes observaciones pueden ser realizadas a
partir de los experimentos
El sobre-muestreo desempeña siempre inferior en las métricas usadas con
respecto al conjunto de datos original, debido a la mayor probabilidad de
seleccionar instancias negativas para crear instancias sintéticas , lo cual
aumenta la ambigüedad dentro de la bolsa y dificulta la clasificación.
Los resultados del sub-muestreo en términos generales no es mejor que la
muestra de datos original esto debido a la forma como la realizan los métodos de
sub-muestreo, conlleva a una pérdida de información importante para la
definición de las fronteras de decisión.
15LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
CONCLUSIONES Y TRABAJO FUTURO
Los métodos de muestreo para conjuntos de datos de una sola instancia no
pueden ser aplicados directamente a conjuntos de datos MIL ya que afecta
negativamente el desempeño del clasificador.
Es necesario tener en cuenta la naturaleza ambigua de las bolsas positivas,
duplicando las instancias realmente positivas y eliminando las instancias
negativas que causen ambigüedad.
El trabajo futuro en esta área de investigación, debe estar dirigido a desarrollar
métodos de balanceo que tengan en cuenta las particularidades de los
conjuntos de datos tipo MIL y los tres tipos de desbalanceo que se pueden
presentar en los mismos.
16LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA
PREGUNTAS
JOSE ARRIETA, CARLOS MERA
E-mail: jmarrietar@unal.edu.co
GRACIAS!!

Más contenido relacionado

La actualidad más candente

Medidas descriptivas datos agrupados
Medidas descriptivas datos agrupadosMedidas descriptivas datos agrupados
Medidas descriptivas datos agrupadosAdriana Sanchez
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptivaSandra
 
Tablas de frecuencias
Tablas de frecuenciasTablas de frecuencias
Tablas de frecuenciasgrahbio14
 
Estadidtica descriptiva graficos_exploratorios
Estadidtica descriptiva graficos_exploratoriosEstadidtica descriptiva graficos_exploratorios
Estadidtica descriptiva graficos_exploratoriosjennypao39
 
Medidas de Orden o Posición y Dispersión
Medidas de Orden o Posición y DispersiónMedidas de Orden o Posición y Dispersión
Medidas de Orden o Posición y Dispersióneradio2508
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia centralbillod
 
Distribución de frecuencias
Distribución de frecuenciasDistribución de frecuencias
Distribución de frecuenciasnatorabet
 
Tablas de distribucion de frecuencias
Tablas de distribucion de frecuenciasTablas de distribucion de frecuencias
Tablas de distribucion de frecuenciasElfego Lopez
 
Variable discreta
Variable discretaVariable discreta
Variable discretabillod
 
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...Alejandro Ruiz
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptivagrahbio14
 
2.distribucion de frecuencia
2.distribucion de frecuencia2.distribucion de frecuencia
2.distribucion de frecuenciaAlejandro Robayo
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia centralbillod
 
Elaboración de tablas de frecuencia, estadística
Elaboración de tablas de frecuencia, estadísticaElaboración de tablas de frecuencia, estadística
Elaboración de tablas de frecuencia, estadísticaGerardo Lagos
 
Estadistica descriptiva presentación (ito)
Estadistica descriptiva presentación (ito)Estadistica descriptiva presentación (ito)
Estadistica descriptiva presentación (ito)Benito Santiago
 
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOS
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOSTema 4,DESCRIPCION DE CONJUNTOS DE DATOS
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOSJORGE JIMENEZ
 

La actualidad más candente (20)

Medidas descriptivas datos agrupados
Medidas descriptivas datos agrupadosMedidas descriptivas datos agrupados
Medidas descriptivas datos agrupados
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
Tablas de frecuencias
Tablas de frecuenciasTablas de frecuencias
Tablas de frecuencias
 
Estadidtica descriptiva graficos_exploratorios
Estadidtica descriptiva graficos_exploratoriosEstadidtica descriptiva graficos_exploratorios
Estadidtica descriptiva graficos_exploratorios
 
Medidas de Orden o Posición y Dispersión
Medidas de Orden o Posición y DispersiónMedidas de Orden o Posición y Dispersión
Medidas de Orden o Posición y Dispersión
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Estadistica 3 er grado
Estadistica 3 er gradoEstadistica 3 er grado
Estadistica 3 er grado
 
Distribución de frecuencias
Distribución de frecuenciasDistribución de frecuencias
Distribución de frecuencias
 
Tablas de distribucion de frecuencias
Tablas de distribucion de frecuenciasTablas de distribucion de frecuencias
Tablas de distribucion de frecuencias
 
Estadística
EstadísticaEstadística
Estadística
 
Variable discreta
Variable discretaVariable discreta
Variable discreta
 
Mic sesión 11
Mic sesión 11Mic sesión 11
Mic sesión 11
 
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
Capítulo 02, Descripción de los datos, distribuciones de frecuencias y repres...
 
Estadística descriptiva
Estadística descriptivaEstadística descriptiva
Estadística descriptiva
 
2.distribucion de frecuencia
2.distribucion de frecuencia2.distribucion de frecuencia
2.distribucion de frecuencia
 
Ejercicios 1 iv m 2
Ejercicios 1 iv m 2Ejercicios 1 iv m 2
Ejercicios 1 iv m 2
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Elaboración de tablas de frecuencia, estadística
Elaboración de tablas de frecuencia, estadísticaElaboración de tablas de frecuencia, estadística
Elaboración de tablas de frecuencia, estadística
 
Estadistica descriptiva presentación (ito)
Estadistica descriptiva presentación (ito)Estadistica descriptiva presentación (ito)
Estadistica descriptiva presentación (ito)
 
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOS
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOSTema 4,DESCRIPCION DE CONJUNTOS DE DATOS
Tema 4,DESCRIPCION DE CONJUNTOS DE DATOS
 

Similar a Lacnem 2015

Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1vinod
 
Analisis de varianza diseño completo al azar
Analisis de varianza diseño completo al azarAnalisis de varianza diseño completo al azar
Analisis de varianza diseño completo al azarJennyfer Alvarado
 
Comunidad_Emagister_66885_66885.pdf
Comunidad_Emagister_66885_66885.pdfComunidad_Emagister_66885_66885.pdf
Comunidad_Emagister_66885_66885.pdfIdamithLeon1
 
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdfComunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdfCarlos Franco
 
Media Mediana y Moda.pdf
Media Mediana y Moda.pdfMedia Mediana y Moda.pdf
Media Mediana y Moda.pdfCarlos Franco
 
Medidas de tendencia central y dispersion cobach
Medidas de tendencia central y dispersion cobachMedidas de tendencia central y dispersion cobach
Medidas de tendencia central y dispersion cobachNoe Galea
 
Analisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptxAnalisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptxAntonioAlcoba1
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-centralCarlos Franco
 
Datos agrupados 2017
Datos agrupados 2017Datos agrupados 2017
Datos agrupados 2017sytaka
 
EXPOSICION DE ESTADISTICA EQUIPO#2.pptx
EXPOSICION DE ESTADISTICA EQUIPO#2.pptxEXPOSICION DE ESTADISTICA EQUIPO#2.pptx
EXPOSICION DE ESTADISTICA EQUIPO#2.pptxGuadalupe151785
 
Estad descriptiva-clases
Estad descriptiva-clasesEstad descriptiva-clases
Estad descriptiva-clasesGabriel Alzate
 
Matemática para Ingeniería - Determinantes
Matemática para Ingeniería - DeterminantesMatemática para Ingeniería - Determinantes
Matemática para Ingeniería - Determinantes100000281929144
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia centralWILSON VELASTEGUI
 
Diseño de bloques completamente aleatorio (dbca) 7
Diseño de bloques completamente aleatorio (dbca) 7Diseño de bloques completamente aleatorio (dbca) 7
Diseño de bloques completamente aleatorio (dbca) 7Carmelo Perez
 
Estadistica descriptiva UNID Cd Valles
Estadistica descriptiva UNID Cd VallesEstadistica descriptiva UNID Cd Valles
Estadistica descriptiva UNID Cd VallesOmar Baltierrez Mendez
 
Guía examen final matemáticas aplicadas. Documento desarrollado por el MTRO. ...
Guía examen final matemáticas aplicadas. Documento desarrollado por el MTRO. ...Guía examen final matemáticas aplicadas. Documento desarrollado por el MTRO. ...
Guía examen final matemáticas aplicadas. Documento desarrollado por el MTRO. ...JAVIER SOLIS NOYOLA
 

Similar a Lacnem 2015 (20)

Spss Tutorial 1
Spss Tutorial 1Spss Tutorial 1
Spss Tutorial 1
 
Analisis de varianza diseño completo al azar
Analisis de varianza diseño completo al azarAnalisis de varianza diseño completo al azar
Analisis de varianza diseño completo al azar
 
Comunidad_Emagister_66885_66885.pdf
Comunidad_Emagister_66885_66885.pdfComunidad_Emagister_66885_66885.pdf
Comunidad_Emagister_66885_66885.pdf
 
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdfComunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
Comunidad_Emagister_66885_66885. Medidas de Tendencia Central.pdf
 
Media Mediana y Moda.pdf
Media Mediana y Moda.pdfMedia Mediana y Moda.pdf
Media Mediana y Moda.pdf
 
Medidas de tendencia central y dispersion cobach
Medidas de tendencia central y dispersion cobachMedidas de tendencia central y dispersion cobach
Medidas de tendencia central y dispersion cobach
 
Analisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptxAnalisis Multivariado Analisis Multivariado.pptx
Analisis Multivariado Analisis Multivariado.pptx
 
Medidas tendencia-central
Medidas tendencia-centralMedidas tendencia-central
Medidas tendencia-central
 
Datos agrupados 2017
Datos agrupados 2017Datos agrupados 2017
Datos agrupados 2017
 
EXPOSICION DE ESTADISTICA EQUIPO#2.pptx
EXPOSICION DE ESTADISTICA EQUIPO#2.pptxEXPOSICION DE ESTADISTICA EQUIPO#2.pptx
EXPOSICION DE ESTADISTICA EQUIPO#2.pptx
 
Mic sesión 4
Mic sesión 4Mic sesión 4
Mic sesión 4
 
Estad descriptiva-clases
Estad descriptiva-clasesEstad descriptiva-clases
Estad descriptiva-clases
 
Matemática para Ingeniería - Determinantes
Matemática para Ingeniería - DeterminantesMatemática para Ingeniería - Determinantes
Matemática para Ingeniería - Determinantes
 
Medidas de tendencia central
Medidas de tendencia centralMedidas de tendencia central
Medidas de tendencia central
 
Diseño de bloques completamente aleatorio (dbca) 7
Diseño de bloques completamente aleatorio (dbca) 7Diseño de bloques completamente aleatorio (dbca) 7
Diseño de bloques completamente aleatorio (dbca) 7
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
3. estadistica descriptiva
3. estadistica descriptiva3. estadistica descriptiva
3. estadistica descriptiva
 
Estadistica descriptiva UNID Cd Valles
Estadistica descriptiva UNID Cd VallesEstadistica descriptiva UNID Cd Valles
Estadistica descriptiva UNID Cd Valles
 
6. distribucion de frecuencias
6.  distribucion de frecuencias 6.  distribucion de frecuencias
6. distribucion de frecuencias
 
Guía examen final matemáticas aplicadas. Documento desarrollado por el MTRO. ...
Guía examen final matemáticas aplicadas. Documento desarrollado por el MTRO. ...Guía examen final matemáticas aplicadas. Documento desarrollado por el MTRO. ...
Guía examen final matemáticas aplicadas. Documento desarrollado por el MTRO. ...
 

Último

Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 

Último (20)

Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 

Lacnem 2015

  • 1. 1LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA ESTUDIO COMPARATIVO DE TÉCNICAS DE BALANCEO DE DATOS EN EL APRENDIZAJE DE MÚLTIPLES INSTANCIAS JOSE ARRIETA CARLOS MERA
  • 2. 2LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA CONTENIDO INTRODUCCIÓN El Problema de Clases Desbalanceadas El Aprendizaje de Múltiples Instancias (MIL) Desbalanceo de Clases en MIL EXPERIMENTOS Y DISCUSIÓN DE RESULTADOS Conjuntos de Datos Algoritmos usados Estrategia de Comparación Resultados y Discusión CONCLUSIONES Y TRABAJO FUTURO
  • 3. 3LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN EL PROBLEMA DE CLASES DESBALANCEADAS Se considera que un conjunto de datos de dos clases está desbalanceado cuando el número de muestras de una de las clases (la clase mayoritaria) sobrepasa el número de muestras de la otra (la clase minoritaria). La regla de decisión produce fronteras de decisión sesgadas en favor de la clase mayoritaria. [HG2009] H. He & E.A. Garcia. “Learning from Imbalanced Data” Frontera Real Frontera Sesgada
  • 4. 4LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN ALGORITMOS DE BALANCEO DE CLASES EN LA LITERATURA: Métodos base Sub-muestreo y Sobre-muestreo al azar. Métodos de Sub-muestreo Informativos Tomek Links Condensed Nearest Neighbor Rule One-Sided Selection Neighborhood Cleaning Rule Métodos de Sobre-muestreo Informativos Smote Borderline-Smote Adasyn Métodos Ensamblados
  • 5. 5LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL) No siempre es posible proporcionar datos para entrenamiento completamente etiquetados debido a que: Requiere un esfuerzo humano considerable Requiere pruebas costosas Desacuerdo entre los expertos Objetivo MIL: Aprender de datos débilmente etiquetados, donde cada objeto de entrenamiento (o Bolsa Xi) es representado por un conjunto de vectores de características (o Instancias Xi,j) Concepto a aprender: “Playa” Objetos Segmentados Xi,1 Xi,5 Xi,2 Xi,3 Xi,4 Bolsa Xi
  • 6. 6LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL) Un conjunto de entrenamiento consiste de una colección de Bolsas Una Bolsa es etiquetada positiva si existe al menos una Instancia positiva en ella Bolsa Negativa (Bi -) Bolsa Positiva (Bi +) Un conjunto de entrenamiento toma la forma B={(B1,y1),…,(Bn,yn)} donde cada Bolsa Bi={xi1, . . . , xini } es un conjunto con ni instancias y con etiqueta yi=+1, para la clase positiva, o yi=-1, para la clase negativa.
  • 7. 7LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN EL APRENDIZAJE DE MÚLTIPLES INSTANCIAS (MIL) Los algoritmos MIL pueden ser agrupados en: [Amores2013] Instance Space (IS) (BUSCAR ESSTOO Y ALGORITMOSs) Axis-Parallel Rectangle (APR) [DLL1997] mi-SVM [ATH2003] MIL-Boost [BYB2009] Bag Space (BS) Citation-kNN [WZ2000] Embedded Space (ES) Multiple-Instance Learning via Embedded Instance Selection (MILES) [CBW2006] [Amores2013] J. Amores: “Multiple instance classification: Review, taxonomy and comparative study” [ATH2003] S. Andrews et al.: “Support vector machines for multiple-instance learning” [WZ2000] J. Wang and J. Zucker: “Solving the multiple-instance problem: A lazy learning approach” [BYB2009] B. Babenko et al.: “Visual tracking with online multiple instance learning” La mayoría de los métodos existentes NO consideran directamente el problema de los conjuntos de datos desbalanceados , lo que disminuye el rendimiento normalmente alcanzable por la mayoría de los algoritmos de MIL
  • 8. 8LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA INTRODUCCIÓN EL PROBLEMA DE CLASES DESBALANCEADAS EN MIL A nivel de Instancias: Instancias negativas predominan el conjunto de datos A nivel de Bolsas: Bolsas negativas superan a las positivas En Ambos niveles
  • 9. 9LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA ESTRATEGIA DE COMPARACIÓN MÉTODOS DE MUESTREO USADOS EN MIL SOBRE-MUESTREO: Agregar a cada bolsa el número de instancias sintéticas necesarias para que todas las bolsas tengan el número máximo de instancias (SMOTE al azar) SUB-MUESTREO: 1. Eliminar de cada bolsa tantas instancias al azar, como sea necesario para que cada bolsa tenga el número mínimo de instancias. 2. OSS MIXTO: Sobre-muestreo (SMOTE al azar) + Sub-muestreo (eliminación al azar).
  • 10. 10LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA ESTRATEGIA DE COMPARACIÓN ALGORITMOS MIL USADOS EN LOS EXPERIMENTOS APR con un umbral 𝑡 = 0,1. Citation-kNN con k=3 (denominado C-kNN). mi-SVM con un kernel de base radial y un parámetro de regularización 𝐶 = 10. MILES con un kernel de base radial y un parámetro de regularización 𝐶 = 10. Los resultados obtenidos se resumen en las Tabla 2 y 3, para las métricas AUC y F1, respectivamente.
  • 11. 11LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA EXPERIMENTOS Y RESULTADOS CONJUNTOS DE DATOS USADOS: En la siguiente tabla se detallan los conjuntos de datos utilizados en los experimentos, resaltando el desbalance a nivel de bolsas e instancias. Tabla 1. Conjuntos de Datos de Prueba Conjunto de datos Bolsas + Bolsas - Inst + Inst - Pro Min Max Musk1 47 45 207 269 5 2 40 Musk2 39 63 1017 5581 65 1 1044 Elephant 100 100 762 629 7 2 13 Fox 100 100 647 673 7 2 13 Tiger 100 100 544 676 6 1 13 Muta1 125 63 7790 2696 56 28 88 Muta2 13 29 660 1472 51 26 86 Bird WIWR 109 439 1824 8408 19 2 43 Bird BRCR 197 351 4759 5473 19 2 43 Web1 17 58 488 1724 29 4 131 Web2 18 57 499 1720 30 5 200
  • 12. 12LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA EXPERIMENTOS Y RESULTADOS Conjuntos de datos [Algoritmo] Original Sobre- Muestreo Sub- Muestreo OSS Muestreo Mixto Musk1 [C-kNN] 87,86 43,06 83,47 85,19 70,14 Musk2 [mi-SVM] 73,69 * 75,36 72,39 72,77 Elephant [mi-SVM] 77,84 74,91 78,42 * 76,88 Fox [MILES] 67,56 40,64 64,99 65,69 62,24 Tiger [MILES] 80,02 48,85 73,92 78,88 78,93 Muta1 [mi-SVM] 84,20 79,74 79,98 * 81,64 Muta2 [mi-SVM] 53,28 45,72 51,52 52,97 48,31 Bird WIWR [MILBoost] 84,50 78,78 47,43 33,18 80,45 Bird BRCR [MILBoost] 80,13 71,37 59,40 52,93 79,07 Web1 [mi-SVM] 56,20 36,10 44,07 59,78 51,45 Web2 [mi-SVM] 61,09 30,14 46,50 57,74 56,52 Tabla 2. Resultados para la Métrica F1x100
  • 13. 13LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA EXPERIMENTOS Y RESULTADOS Tabla 3. Resultados para la Métrica AUCx100 Conjuntos de datos [Algoritmo] Original Sobre- Muestreo Sub- Muestreo OSS Muestre Mixto Musk1 [C-kNN] 91,51 49,89 84,37 90,64 61,4 Musk2 [mi-SVM] 91,24 * 91,99 90,69 91,11 Elephant [mi-SVM] 91,76 91,03 90,55 * 91,11 Fox [MILES] 73,72 64,36 68,41 72,39 67,53 Tiger [MILES] 88,62 77,25 82,37 87,35 87,26 Muta1 [mi-SVM] 83,39 67,13 78,71 * 75,72 Muta2 [mi-SVM] 72,49 72,38 66,56 71,98 70,9 Bird WIWR [MILBoost] 92,14 89,70 96,39 41,77 90,09 Bird BRCR [MILBoost] 93,14 89,76 92,54 83,49 91,81 Web1 [mi-SVM] 83,27 80,27 78,49 82,17 82,97 Web2 [mi-SVM] 84,80 80,02 82,39 83,26 85,95
  • 14. 14LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA EXPERIMENTOS Y RESULTADOS DISCUSIÓN DE RESULTADOS: Las siguientes observaciones pueden ser realizadas a partir de los experimentos El sobre-muestreo desempeña siempre inferior en las métricas usadas con respecto al conjunto de datos original, debido a la mayor probabilidad de seleccionar instancias negativas para crear instancias sintéticas , lo cual aumenta la ambigüedad dentro de la bolsa y dificulta la clasificación. Los resultados del sub-muestreo en términos generales no es mejor que la muestra de datos original esto debido a la forma como la realizan los métodos de sub-muestreo, conlleva a una pérdida de información importante para la definición de las fronteras de decisión.
  • 15. 15LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA CONCLUSIONES Y TRABAJO FUTURO Los métodos de muestreo para conjuntos de datos de una sola instancia no pueden ser aplicados directamente a conjuntos de datos MIL ya que afecta negativamente el desempeño del clasificador. Es necesario tener en cuenta la naturaleza ambigua de las bolsas positivas, duplicando las instancias realmente positivas y eliminando las instancias negativas que causen ambigüedad. El trabajo futuro en esta área de investigación, debe estar dirigido a desarrollar métodos de balanceo que tengan en cuenta las particularidades de los conjuntos de datos tipo MIL y los tres tipos de desbalanceo que se pueden presentar en los mismos.
  • 16. 16LACNEM 2015 – JOSE ARRIETA Y CARLOS MERA PREGUNTAS JOSE ARRIETA, CARLOS MERA E-mail: jmarrietar@unal.edu.co GRACIAS!!