SlideShare una empresa de Scribd logo
1 de 10
Clasificación de Conjuntos
de Datos Desequilibrados
Alumna:
Carolina Bujaico
Año:
2024
Desequilibrio de Datos
El término no balanceado es un subjetivo , un
conjunto de datos se considera no balanceado
cuando un algoritmo de clasificación estándar ,
que es inherentemente sesgado a la clase
mayoritaria. En conceptos de aprendizaje , el
conjunto de datos se dice que presenta una
clases desbalanceada si contiene más ejemplos
de una de las clases , al contrario del otro.
Balanceado vs. No Balanceado
Fraude crediticio || Manejo de conjuntos de
datos desequilibrados
Con dicho ejemplo aplicamos varios modelos predictivos para ver qué tan precisos son para
detectar si una transacción es un pago normal o un fraude. Además de describir en el
conjunto de datos, las funciones.
Al momento de realizar nos centramos en varios puntos tales como:
❖ Creamos una proporción de datos de acuerdo a los tipos de transacciones: “Fraude” y “No
Fraude”
❖ Determinamos la clasificación a utilizar
❖ Analizamos y se realizó comparaciones para obtener la precisión.
❖ Comprender los errores comunes que se producen con conjuntos de datos desequilibrados.
Al realizar correcciones con los datos se observa lo desequilibrado que está
nuestro conjunto de datos original. La mayoría de las transacciones no son
fraudulentas. Pero no queríamos que nuestro modelo asuma, queremos que
nuestro modelo detecte patrones que den señales de fraude.
Al analizar las distribuciones se observa que se encuentran separadas por dichas
características. Aplicamos técnicas que nos ayudaron con las distribuciones sean
menos sesgadas.
En esta fase los datasets, se analizaron primero las columnas que componen el
tiempo y la cantidad. El tiempo y la cantidad se deben escalar como las otras
columnas. Creamos una submuestra para que de esa manera podamos tener la
misma cantidad de casos de fraude y no fraude.
Consideramos que el objetivo principal es ajustar el modelo con los marcos de
datos que fueron tomados como submuestreos y probarlo en el conjunto de
prueba original.
Al aplicar varios ajustes dentro de los datasets se consiguió distribuir y
correlacionar equitativamente. De esa manera se alcanzó que los datos estén
correctamente equilibrados.
Conclusión:
❖La implementación de SMOTE en nuestro conjunto de datos desequilibrado
nos ayudó con el desequilibrio de nuestras etiquetas “más nada de fraude que
transacciones fraudulentas”.
❖Además, en nuestros datos de muestra insuficiente, nuestro modelo es
incapaz de detectar correctamente en un gran número de casos las
transacciones que no son fraudulentas y, en cambio, clasifica erróneamente
esas transacciones que no son fraudulentas como casos de fraude.
❖Las predicciones y la precisión pueden estar sujetas a cambios desde que
implementé la mezcla de datos en ambos tipos de marcos de datos.
Analizamos por distintos tipos de desequilibrios de datos si nuestros
modelos era capaz de clasificar correctamente las transacciones sin fraude y
fraude.
Fuente de Consulta:
● https://www.aprendemachinelearning.com/clasificacion-con-datos-desbalanceados/
● https://machinelearningmastery.com/what-is-imbalanced-
classification/#:~:text=Imbalanced%20Classification%20Problems,-
The%20number%20of&text=Imbalanced%20classification%20refers%20to%20a,is%20instea
d%20biased%20or%20skewed.
● https://aprendeia.com/conjunto-de-datos-desbalanceado/

Más contenido relacionado

Similar a Clasificación de Conjuntos de Datos Desequilibrados.pptx

La potencia de las estrategias de Machine Learning en la lucha contra el fraude
La potencia de las estrategias de Machine Learning en la lucha contra el fraudeLa potencia de las estrategias de Machine Learning en la lucha contra el fraude
La potencia de las estrategias de Machine Learning en la lucha contra el fraudeAdigital
 
Paq estad757uptp grupop-estadistico
Paq estad757uptp grupop-estadisticoPaq estad757uptp grupop-estadistico
Paq estad757uptp grupop-estadisticoJoseMujica2015
 
Unidad 2 sim karla itzayana robles
Unidad 2 sim karla itzayana roblesUnidad 2 sim karla itzayana robles
Unidad 2 sim karla itzayana robleskire robles
 
Medición del valor de contabilidad y reformulaciones justas
Medición del valor de contabilidad y reformulaciones justasMedición del valor de contabilidad y reformulaciones justas
Medición del valor de contabilidad y reformulaciones justasfederico steven peterson armesto
 
The fisher assumptions and how to check them
The fisher assumptions and how to check themThe fisher assumptions and how to check them
The fisher assumptions and how to check themAlex
 
actividad 1 estadistica inferencial.docx
actividad 1 estadistica inferencial.docxactividad 1 estadistica inferencial.docx
actividad 1 estadistica inferencial.docxYisselUzquianoMolina
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgSnoop Consulting
 
S6 1 Intro Imput
S6  1 Intro ImputS6  1 Intro Imput
S6 1 Intro Imputtaecoep
 
Presentación Slideshare Organización de Datos
Presentación Slideshare Organización de DatosPresentación Slideshare Organización de Datos
Presentación Slideshare Organización de Datosdianacanache
 

Similar a Clasificación de Conjuntos de Datos Desequilibrados.pptx (20)

La potencia de las estrategias de Machine Learning en la lucha contra el fraude
La potencia de las estrategias de Machine Learning en la lucha contra el fraudeLa potencia de las estrategias de Machine Learning en la lucha contra el fraude
La potencia de las estrategias de Machine Learning en la lucha contra el fraude
 
Cuestiones Capitulo15
Cuestiones Capitulo15Cuestiones Capitulo15
Cuestiones Capitulo15
 
Analisis e interpretación de encuestas de clima
Analisis e interpretación de encuestas de climaAnalisis e interpretación de encuestas de clima
Analisis e interpretación de encuestas de clima
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Datalogía - Módulo 5 - Desde los Datos a la Planificación: Primeros Pasos
Datalogía - Módulo 5 - Desde los Datos a la Planificación: Primeros PasosDatalogía - Módulo 5 - Desde los Datos a la Planificación: Primeros Pasos
Datalogía - Módulo 5 - Desde los Datos a la Planificación: Primeros Pasos
 
Paq estad757uptp grupop-estadistico
Paq estad757uptp grupop-estadisticoPaq estad757uptp grupop-estadistico
Paq estad757uptp grupop-estadistico
 
Unidad 2 sim karla itzayana robles
Unidad 2 sim karla itzayana roblesUnidad 2 sim karla itzayana robles
Unidad 2 sim karla itzayana robles
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
Datalogía - Módulo 4 - Visualizacion de Datos y Estadisticas
Datalogía - Módulo 4 - Visualizacion de Datos y  EstadisticasDatalogía - Módulo 4 - Visualizacion de Datos y  Estadisticas
Datalogía - Módulo 4 - Visualizacion de Datos y Estadisticas
 
Medición del valor de contabilidad y reformulaciones justas
Medición del valor de contabilidad y reformulaciones justasMedición del valor de contabilidad y reformulaciones justas
Medición del valor de contabilidad y reformulaciones justas
 
Herramientas De Calidad
Herramientas De CalidadHerramientas De Calidad
Herramientas De Calidad
 
The fisher assumptions and how to check them
The fisher assumptions and how to check themThe fisher assumptions and how to check them
The fisher assumptions and how to check them
 
actividad 1 estadistica inferencial.docx
actividad 1 estadistica inferencial.docxactividad 1 estadistica inferencial.docx
actividad 1 estadistica inferencial.docx
 
DatawareHouse.pptx
DatawareHouse.pptxDatawareHouse.pptx
DatawareHouse.pptx
 
Data Mining Snoop Consulting Arg
Data Mining Snoop Consulting ArgData Mining Snoop Consulting Arg
Data Mining Snoop Consulting Arg
 
S6 1 Intro Imput
S6  1 Intro ImputS6  1 Intro Imput
S6 1 Intro Imput
 
Presentación Slideshare Organización de Datos
Presentación Slideshare Organización de DatosPresentación Slideshare Organización de Datos
Presentación Slideshare Organización de Datos
 
TRABAJO DE YARIMAR
TRABAJO DE YARIMAR TRABAJO DE YARIMAR
TRABAJO DE YARIMAR
 
Escala de medicion
Escala de medicionEscala de medicion
Escala de medicion
 
TESIS
TESISTESIS
TESIS
 

Último

Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónAntonia Yamilet Perez Palomares
 
manual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfmanual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfprofmartinsuarez
 
lenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometrialenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometriasofiasonder
 
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccnaTELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccnajrujel91
 
Introducción a la robótica con arduino..pptx
Introducción a la robótica con arduino..pptxIntroducción a la robótica con arduino..pptx
Introducción a la robótica con arduino..pptxJohanna4222
 
proyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesproyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesssuserbe0d1c
 
Gestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerGestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerRobertoCarrancioFern
 
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptxNIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptxjarniel1
 
Inteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialInteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialEducática
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).jcaballerosamayoa
 
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdfPons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdffrank0071
 
editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docxssusere34b451
 
Licencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareLicencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareAndres Avila
 
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Luis Fernando Uribe Villamil
 
¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf7adelosriosarangojua
 
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALJORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALGuadalinfoHuscarGuad
 
taller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundariataller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundariaandresingsiseo
 
De Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxDe Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxdoloresolmosantiago
 
Uso de las TIC en la vida cotidiana .
Uso de las TIC en la vida cotidiana       .Uso de las TIC en la vida cotidiana       .
Uso de las TIC en la vida cotidiana .itzyrivera61103
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC6dwwcgtpfx
 

Último (20)

Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la ComunicaciónNavegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
Navegadores de internet - Nuevas Tecnologías de la Información y la Comunicación
 
manual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdfmanual-de-oleohidraulica-industrial-vickers.pdf
manual-de-oleohidraulica-industrial-vickers.pdf
 
lenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometrialenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometria
 
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccnaTELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
TELECOMUNICACIONES- CAPITULO2: Modelo Osi ccna
 
Introducción a la robótica con arduino..pptx
Introducción a la robótica con arduino..pptxIntroducción a la robótica con arduino..pptx
Introducción a la robótica con arduino..pptx
 
proyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptualesproyectos_social_y_socioproductivos _mapas_conceptuales
proyectos_social_y_socioproductivos _mapas_conceptuales
 
Gestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL ServerGestión de concurrencia y bloqueos en SQL Server
Gestión de concurrencia y bloqueos en SQL Server
 
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptxNIVEL DE  MADUREZ TECNOLÓGICA (TRL).pptx
NIVEL DE MADUREZ TECNOLÓGICA (TRL).pptx
 
Inteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicialInteligencia Artificial para usuarios nivel inicial
Inteligencia Artificial para usuarios nivel inicial
 
BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).BUSCADORES DE INTERNET (Universidad de Sonora).
BUSCADORES DE INTERNET (Universidad de Sonora).
 
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdfPons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
Pons, A. - El desorden digital - guia para historiadores y humanistas [2013].pdf
 
editorial de informática de los sueños.docx
editorial de informática de los sueños.docxeditorial de informática de los sueños.docx
editorial de informática de los sueños.docx
 
Licencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareLicencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de Software
 
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
 
¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf¡Mira mi nuevo diseño hecho en Canva!.pdf
¡Mira mi nuevo diseño hecho en Canva!.pdf
 
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUALJORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
JORNADA INTELIGENCIA ARTIFICIAL Y REALIDAD VIRTUAL
 
taller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundariataller de tablas en word para estudiantes de secundaria
taller de tablas en word para estudiantes de secundaria
 
De Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptxDe Olmos Santiago_Dolores _ M1S3AI6.pptx
De Olmos Santiago_Dolores _ M1S3AI6.pptx
 
Uso de las TIC en la vida cotidiana .
Uso de las TIC en la vida cotidiana       .Uso de las TIC en la vida cotidiana       .
Uso de las TIC en la vida cotidiana .
 
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiCVelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
VelderrainPerez_Paola_M1C1G63-097.pptx. LAS TiC
 

Clasificación de Conjuntos de Datos Desequilibrados.pptx

  • 1. Clasificación de Conjuntos de Datos Desequilibrados Alumna: Carolina Bujaico Año: 2024
  • 2. Desequilibrio de Datos El término no balanceado es un subjetivo , un conjunto de datos se considera no balanceado cuando un algoritmo de clasificación estándar , que es inherentemente sesgado a la clase mayoritaria. En conceptos de aprendizaje , el conjunto de datos se dice que presenta una clases desbalanceada si contiene más ejemplos de una de las clases , al contrario del otro.
  • 3. Balanceado vs. No Balanceado
  • 4. Fraude crediticio || Manejo de conjuntos de datos desequilibrados Con dicho ejemplo aplicamos varios modelos predictivos para ver qué tan precisos son para detectar si una transacción es un pago normal o un fraude. Además de describir en el conjunto de datos, las funciones. Al momento de realizar nos centramos en varios puntos tales como: ❖ Creamos una proporción de datos de acuerdo a los tipos de transacciones: “Fraude” y “No Fraude” ❖ Determinamos la clasificación a utilizar ❖ Analizamos y se realizó comparaciones para obtener la precisión. ❖ Comprender los errores comunes que se producen con conjuntos de datos desequilibrados.
  • 5. Al realizar correcciones con los datos se observa lo desequilibrado que está nuestro conjunto de datos original. La mayoría de las transacciones no son fraudulentas. Pero no queríamos que nuestro modelo asuma, queremos que nuestro modelo detecte patrones que den señales de fraude.
  • 6. Al analizar las distribuciones se observa que se encuentran separadas por dichas características. Aplicamos técnicas que nos ayudaron con las distribuciones sean menos sesgadas.
  • 7. En esta fase los datasets, se analizaron primero las columnas que componen el tiempo y la cantidad. El tiempo y la cantidad se deben escalar como las otras columnas. Creamos una submuestra para que de esa manera podamos tener la misma cantidad de casos de fraude y no fraude. Consideramos que el objetivo principal es ajustar el modelo con los marcos de datos que fueron tomados como submuestreos y probarlo en el conjunto de prueba original.
  • 8. Al aplicar varios ajustes dentro de los datasets se consiguió distribuir y correlacionar equitativamente. De esa manera se alcanzó que los datos estén correctamente equilibrados.
  • 9. Conclusión: ❖La implementación de SMOTE en nuestro conjunto de datos desequilibrado nos ayudó con el desequilibrio de nuestras etiquetas “más nada de fraude que transacciones fraudulentas”. ❖Además, en nuestros datos de muestra insuficiente, nuestro modelo es incapaz de detectar correctamente en un gran número de casos las transacciones que no son fraudulentas y, en cambio, clasifica erróneamente esas transacciones que no son fraudulentas como casos de fraude. ❖Las predicciones y la precisión pueden estar sujetas a cambios desde que implementé la mezcla de datos en ambos tipos de marcos de datos. Analizamos por distintos tipos de desequilibrios de datos si nuestros modelos era capaz de clasificar correctamente las transacciones sin fraude y fraude.
  • 10. Fuente de Consulta: ● https://www.aprendemachinelearning.com/clasificacion-con-datos-desbalanceados/ ● https://machinelearningmastery.com/what-is-imbalanced- classification/#:~:text=Imbalanced%20Classification%20Problems,- The%20number%20of&text=Imbalanced%20classification%20refers%20to%20a,is%20instea d%20biased%20or%20skewed. ● https://aprendeia.com/conjunto-de-datos-desbalanceado/