SlideShare una empresa de Scribd logo
Unbalanced data: Same
algorithms different
techniques
ORGANIZATION
Thank you!
ermartin@plainconcepts.com
Software Development Engineer en Plain Concepts con experiencia en
multitud de campos relacionados con la analítica avanzada, Big Data,
modelos predictivos e Inteligencia Artificial. Apasionado del análisis de
datos y de los insights que se pueden obtener de ellos así como las
últimas tecnologías y algoritmos para explotarlos.
Eric Martín
Software Development Engineer
Datos desbalanceados
Datos Desbalanceados
• Datos desbalanceados: Una clase predomina sobre la otra
• Ejemplos de datos desbalanceados: Fraude, Anomalías…
¿Qué son los datos desbalanceados?
Datos Desbalanceados
• Kaggle Dataset
• The datasets contains transactions made by credit cards in September 2013 by european
cardholders. This dataset presents transactions that occurred in two days, where we have 492
frauds out of 284,807 transactions. The dataset is highly unbalanced, the positive class (frauds)
account for 0.172% of all transactions.
• Análisis exploratorio
Talk is cheap, show me the code
No lo cuento, lo hago
Notebook!!
Datos desbalanceados: Métricas
• Fraudes 0.172% por lo que si digo que todas están bien acierto 100 -0.172 = 99.828%
• Accuracy no dice nada!!
• ¿Qué métrica debemos usar en este problema?
1𝑀 50
250 250
1𝑀 1000
150 350
Datos desbalanceados: Métricas
• No lo sabemos!!!!
• Tenemos que ver el sentido de ‘negocio’:
• Encontrar un fraude evita perdidas de 1500$ de media
• Comprobar un fraude cuesta en promedio 30$
• Precisión
• Recall
• F-beta score
𝑆𝑐𝑜𝑟𝑒 = 𝑇𝑃 ∗ 1500 − (𝐹𝑃) ∗ 30
(Mas alto mejor)
Notebook!!
Técnicas
Estrategias: Over Sampling
• CLASS WEIGHT
• SMOTE: Synthetic Minority Over-Sampling Technique
• ADASYN: Adaptive Synthetic
Estrategias: Under Sampling
• DELETE ZEROS
• Condensed KNN
• Instance Hardness Threshold: Estimators
Notebook!!
Algoritmos
Algoritmos
• Algoritmos compuestos de algoritmos mas sencillos
• Típicamente mejoran score y ayudan a reducir la sobre-optimización
• Random Forest
• AdaBoost
Ensemble
Algoritmos
• Red simple con 3 capas densas activación = Relu
• Activación a la salida sigmoid (clasificación)
Redes Neuronales
Notebook!!
EForest
EForest – Recordatorio Random Forest
F1 F2 F3 … … … FN Y
1 1.2 25 True … 0.185 1
2 3.4 55 False … 0.211 1
3 2.2 58 True … 0.171 0
4 4.0 34 True … 0.132 1
5 1.1 63 True … 0.652 0
6 0.7 61 False … 0.153 0
7 3.3 12 False … 0.477 1
8 3.1 23 True … 0.311 1
9 1.2 29 False … 0.171 1
10 3.4 45 True … 0.132 0
11 2.1 55 True … 0.652 1
12 1.7 19 False … 0.189 0
13 3.3 12 False … 0.477 1
14 3.1 23 True … 0.311 1
15 1.2 29 False … 0.171 1
16 2.2 58 True … 0.171 0
17 4.0 34 True … 0.132 1
18 1.1 63 True … 0.652 0
EForest – Recordatorio Random Forest
F1 F2 F3 … … … FN Y
1.5 25 False … 0.185 ???
1
1
0
1
Majority Vote
EForest
F1 F2 F3 … … … FN Y
1 1.2 25 True … 0.185 1
2 3.4 55 False … 0.211 1
3 2.2 58 True … 0.171 0
4 4.0 34 True … 0.132 1
5 1.1 63 True … 0.652 0
6 0.7 61 False … 0.153 0
7 3.3 12 False … 0.477 1
8 3.1 23 True … 0.311 1
9 1.2 29 False … 0.171 1
10 3.4 45 True … 0.132 0
11 2.1 55 True … 0.652 1
12 1.7 19 False … 0.189 0
13 3.3 12 False … 0.477 1
14 3.1 23 True … 0.311 1
15 1.2 29 False … 0.171 1
16 2.2 58 True … 0.171 0
17 4.0 34 True … 0.132 1
18 1.1 63 True … 0.652 0
EForest
F1 F2 F3 … … … FN Y
1 1.2 25 True … 0.185 1
2 3.4 55 False … 0.211 1
3 2.2 58 True … 0.171 0
4 4.0 34 True … 0.132 1
5 1.1 63 True … 0.652 0
6 0.7 61 False … 0.153 0
7 3.3 12 False … 0.477 1
8 3.1 23 True … 0.311 1
9 1.2 29 False … 0.171 1
10 3.4 45 True … 0.132 0
11 2.1 55 True … 0.652 1
12 1.7 19 False … 0.189 0
13 3.3 12 False … 0.477 1
14 3.1 23 True … 0.311 1
15 1.2 29 False … 0.171 1
16 2.2 58 True … 0.171 0
17 4.0 34 True … 0.132 1
18 1.1 63 True … 0.652 0
Tree1 Tree2 Tree3 Y
1 1 1 0 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
EForest
Tree1 Tree2 Tree3 Y
1 1 1 0 1
2 1 0 1 1
3 1 1 1 0
4 0 1 0 1
5 0 0 0 0
6 1 0 1 0
7 0 1 0 1
8 0 1 0 1
9 1 0 1 1
10 1 1 0 0
11 0 1 0 1
12 0 0 1 0
13 1 0 1 1
14 1 1 0 1
15 1 1 0 1
16 0 0 1 0
17 0 1 0 1
18 1 0 0 0
EForest: Vector vs Agregado
Tree1 Tree2 Tree3 Y
1 1 1 0 1
2 1 0 1 1
3 1 1 1 0
4 0 1 0 1
5 0 0 0 0
6 1 0 1 0
7 0 1 0 1
8 0 1 0 1
Agg Y
1 2 1
2 2 1
3 3 0
4 0 1
5 1 0
6 2 0
7 1 1
8 1 1
EForest: Proyectos
• Detección autónomos vs particulares
• Usuarios propensos a usar tarjetas de crédito
Notebook!!
Conclusiones
Questions & Answers
Una cosa más:
Challenge
time!!!
Kahoot.it
¿Cuánto sabes de IA,
ML y Big Data?
https://play.kahoot.it/#/lobby?quizId=e5984d86-88fb-49cc-
aacc-4baaec119496
Thanks and …
See you soon!
Thanks also to the organization
Without whom this would not have been posible.

Más contenido relacionado

Más de Plain Concepts

R y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntosR y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntos
Plain Concepts
 
Video kills the radio star: e-mail is crap and needed disruption
 Video kills the radio star: e-mail is crap and needed disruption Video kills the radio star: e-mail is crap and needed disruption
Video kills the radio star: e-mail is crap and needed disruption
Plain Concepts
 
Cómo redefinir tu organización con IA
Cómo redefinir tu organización con IACómo redefinir tu organización con IA
Cómo redefinir tu organización con IA
Plain Concepts
 
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelines
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelinesDx29: assisting genetic disease diagnosis with physician-focused AI pipelines
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelines
Plain Concepts
 
¿Qué es real? Cuando la IA intenta engañar al ojo humano
¿Qué es real? Cuando la IA intenta engañar al ojo humano¿Qué es real? Cuando la IA intenta engañar al ojo humano
¿Qué es real? Cuando la IA intenta engañar al ojo humano
Plain Concepts
 
Inteligencia artificial para detectar el cáncer de mama
Inteligencia artificial para  detectar el cáncer de mamaInteligencia artificial para  detectar el cáncer de mama
Inteligencia artificial para detectar el cáncer de mama
Plain Concepts
 
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
Plain Concepts
 
Cognitive Services en acción
Cognitive Services en acciónCognitive Services en acción
Cognitive Services en acción
Plain Concepts
 
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
Plain Concepts
 
What if AI was your daughter?
What if AI was your daughter?What if AI was your daughter?
What if AI was your daughter?
Plain Concepts
 
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
Plain Concepts
 
Revolucionando la experiencia de cliente con Big Data e IA
Revolucionando la experiencia de cliente con Big Data e IARevolucionando la experiencia de cliente con Big Data e IA
Revolucionando la experiencia de cliente con Big Data e IA
Plain Concepts
 
IA Score en InfoJobs
IA Score en InfoJobsIA Score en InfoJobs
IA Score en InfoJobs
Plain Concepts
 
Recuperación de información para solicitantes de empleo
Recuperación de información para solicitantes de empleoRecuperación de información para solicitantes de empleo
Recuperación de información para solicitantes de empleo
Plain Concepts
 
La nueva revolución Industrial: Inteligencia Artificial & IoT Edge
La nueva revolución Industrial: Inteligencia Artificial & IoT EdgeLa nueva revolución Industrial: Inteligencia Artificial & IoT Edge
La nueva revolución Industrial: Inteligencia Artificial & IoT Edge
Plain Concepts
 
DotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
DotNet 2019 | Sherry List - Azure Cognitive Services with Native ScriptDotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
DotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
Plain Concepts
 
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
Plain Concepts
 
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
Plain Concepts
 
El camino a las Cloud Native Apps - Introduction
El camino a las Cloud Native Apps - IntroductionEl camino a las Cloud Native Apps - Introduction
El camino a las Cloud Native Apps - Introduction
Plain Concepts
 
El camino a las Cloud Native Apps - Azure AI
El camino a las Cloud Native Apps - Azure AIEl camino a las Cloud Native Apps - Azure AI
El camino a las Cloud Native Apps - Azure AI
Plain Concepts
 

Más de Plain Concepts (20)

R y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntosR y Python con Power BI, la ciencia y el análisis de datos, juntos
R y Python con Power BI, la ciencia y el análisis de datos, juntos
 
Video kills the radio star: e-mail is crap and needed disruption
 Video kills the radio star: e-mail is crap and needed disruption Video kills the radio star: e-mail is crap and needed disruption
Video kills the radio star: e-mail is crap and needed disruption
 
Cómo redefinir tu organización con IA
Cómo redefinir tu organización con IACómo redefinir tu organización con IA
Cómo redefinir tu organización con IA
 
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelines
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelinesDx29: assisting genetic disease diagnosis with physician-focused AI pipelines
Dx29: assisting genetic disease diagnosis with physician-focused AI pipelines
 
¿Qué es real? Cuando la IA intenta engañar al ojo humano
¿Qué es real? Cuando la IA intenta engañar al ojo humano¿Qué es real? Cuando la IA intenta engañar al ojo humano
¿Qué es real? Cuando la IA intenta engañar al ojo humano
 
Inteligencia artificial para detectar el cáncer de mama
Inteligencia artificial para  detectar el cáncer de mamaInteligencia artificial para  detectar el cáncer de mama
Inteligencia artificial para detectar el cáncer de mama
 
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
¿Está tu compañía preparada para el reto de la Inteligencia Artificial?
 
Cognitive Services en acción
Cognitive Services en acciónCognitive Services en acción
Cognitive Services en acción
 
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
El Hogar Inteligente. De los datos de IoT a los hábitos de una familia a trav...
 
What if AI was your daughter?
What if AI was your daughter?What if AI was your daughter?
What if AI was your daughter?
 
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
Recomendación Basada en Contenidos con Deep Learning: Qué queríamos hacer, Qu...
 
Revolucionando la experiencia de cliente con Big Data e IA
Revolucionando la experiencia de cliente con Big Data e IARevolucionando la experiencia de cliente con Big Data e IA
Revolucionando la experiencia de cliente con Big Data e IA
 
IA Score en InfoJobs
IA Score en InfoJobsIA Score en InfoJobs
IA Score en InfoJobs
 
Recuperación de información para solicitantes de empleo
Recuperación de información para solicitantes de empleoRecuperación de información para solicitantes de empleo
Recuperación de información para solicitantes de empleo
 
La nueva revolución Industrial: Inteligencia Artificial & IoT Edge
La nueva revolución Industrial: Inteligencia Artificial & IoT EdgeLa nueva revolución Industrial: Inteligencia Artificial & IoT Edge
La nueva revolución Industrial: Inteligencia Artificial & IoT Edge
 
DotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
DotNet 2019 | Sherry List - Azure Cognitive Services with Native ScriptDotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
DotNet 2019 | Sherry List - Azure Cognitive Services with Native Script
 
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
DotNet 2019 | Quique Fernández - Potenciando VUE con TypeScript, Inversify, V...
 
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
DotNet 2019 | Daniela Solís y Manuel Rodrigo Cabello - IoT, una Raspberry Pi ...
 
El camino a las Cloud Native Apps - Introduction
El camino a las Cloud Native Apps - IntroductionEl camino a las Cloud Native Apps - Introduction
El camino a las Cloud Native Apps - Introduction
 
El camino a las Cloud Native Apps - Azure AI
El camino a las Cloud Native Apps - Azure AIEl camino a las Cloud Native Apps - Azure AI
El camino a las Cloud Native Apps - Azure AI
 

Último

Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
MiguelAtencio10
 
Manual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputoManual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputo
doctorsoluciones34
 
Programming & Artificial Intelligence ebook.pdf
Programming & Artificial Intelligence ebook.pdfProgramming & Artificial Intelligence ebook.pdf
Programming & Artificial Intelligence ebook.pdf
Manuel Diaz
 
Refrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y ForzadoRefrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y Forzado
NicandroMartinez2
 
625204013-64-Camino-a-----La-Lectura.pdf
625204013-64-Camino-a-----La-Lectura.pdf625204013-64-Camino-a-----La-Lectura.pdf
625204013-64-Camino-a-----La-Lectura.pdf
yuberpalma
 
El uso de las TIC por Cecilia Pozos S..pptx
El uso de las TIC  por Cecilia Pozos S..pptxEl uso de las TIC  por Cecilia Pozos S..pptx
El uso de las TIC por Cecilia Pozos S..pptx
cecypozos703
 
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdfProjecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Festibity
 
PLAN DE MANTENMIENTO preventivo de un equipo de computo.pdf
PLAN DE MANTENMIENTO preventivo de un equipo de computo.pdfPLAN DE MANTENMIENTO preventivo de un equipo de computo.pdf
PLAN DE MANTENMIENTO preventivo de un equipo de computo.pdf
70244530
 
Manual Web soporte y mantenimiento de equipo de computo
Manual Web soporte y mantenimiento de equipo de computoManual Web soporte y mantenimiento de equipo de computo
Manual Web soporte y mantenimiento de equipo de computo
mantenimientocarbra6
 
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador ValenciaCatalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
AMADO SALVADOR
 
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdfPresentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
giampierdiaz5
 
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdfProjecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Festibity
 
Informació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdfInformació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdf
Festibity
 
Catalogo general tarifas 2024 Vaillant. Amado Salvador Distribuidor Oficial e...
Catalogo general tarifas 2024 Vaillant. Amado Salvador Distribuidor Oficial e...Catalogo general tarifas 2024 Vaillant. Amado Salvador Distribuidor Oficial e...
Catalogo general tarifas 2024 Vaillant. Amado Salvador Distribuidor Oficial e...
AMADO SALVADOR
 
Modo test refrigeradores y codigos de errores 2018 V2.pdf
Modo test refrigeradores y codigos de errores 2018 V2.pdfModo test refrigeradores y codigos de errores 2018 V2.pdf
Modo test refrigeradores y codigos de errores 2018 V2.pdf
ranierglez
 
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdfInformació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
Festibity
 
Projecte Iniciativa TIC 2024 HPE. inCV.pdf
Projecte Iniciativa TIC 2024 HPE. inCV.pdfProjecte Iniciativa TIC 2024 HPE. inCV.pdf
Projecte Iniciativa TIC 2024 HPE. inCV.pdf
Festibity
 
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
AbrahamCastillo42
 
mantenimiento de chasis y carroceria1.pptx
mantenimiento de chasis y carroceria1.pptxmantenimiento de chasis y carroceria1.pptx
mantenimiento de chasis y carroceria1.pptx
MiguelAtencio10
 
Manual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputosManual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputos
cbtechchihuahua
 

Último (20)

Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
Mantenimiento de sistemas eléctricos y electrónicosarticles-241712_recurso_6....
 
Manual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputoManual de soporte y mantenimiento de equipo de cómputo
Manual de soporte y mantenimiento de equipo de cómputo
 
Programming & Artificial Intelligence ebook.pdf
Programming & Artificial Intelligence ebook.pdfProgramming & Artificial Intelligence ebook.pdf
Programming & Artificial Intelligence ebook.pdf
 
Refrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y ForzadoRefrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y Forzado
 
625204013-64-Camino-a-----La-Lectura.pdf
625204013-64-Camino-a-----La-Lectura.pdf625204013-64-Camino-a-----La-Lectura.pdf
625204013-64-Camino-a-----La-Lectura.pdf
 
El uso de las TIC por Cecilia Pozos S..pptx
El uso de las TIC  por Cecilia Pozos S..pptxEl uso de las TIC  por Cecilia Pozos S..pptx
El uso de las TIC por Cecilia Pozos S..pptx
 
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdfProjecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
 
PLAN DE MANTENMIENTO preventivo de un equipo de computo.pdf
PLAN DE MANTENMIENTO preventivo de un equipo de computo.pdfPLAN DE MANTENMIENTO preventivo de un equipo de computo.pdf
PLAN DE MANTENMIENTO preventivo de un equipo de computo.pdf
 
Manual Web soporte y mantenimiento de equipo de computo
Manual Web soporte y mantenimiento de equipo de computoManual Web soporte y mantenimiento de equipo de computo
Manual Web soporte y mantenimiento de equipo de computo
 
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador ValenciaCatalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
Catalogo Refrigeracion Miele Distribuidor Oficial Amado Salvador Valencia
 
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdfPresentación Seguridad Digital Profesional Azul Oscuro (1).pdf
Presentación Seguridad Digital Profesional Azul Oscuro (1).pdf
 
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdfProjecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
Projecte Iniciativa TIC 2024 SOPRA STERIA. inCV.pdf
 
Informació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdfInformació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdf
 
Catalogo general tarifas 2024 Vaillant. Amado Salvador Distribuidor Oficial e...
Catalogo general tarifas 2024 Vaillant. Amado Salvador Distribuidor Oficial e...Catalogo general tarifas 2024 Vaillant. Amado Salvador Distribuidor Oficial e...
Catalogo general tarifas 2024 Vaillant. Amado Salvador Distribuidor Oficial e...
 
Modo test refrigeradores y codigos de errores 2018 V2.pdf
Modo test refrigeradores y codigos de errores 2018 V2.pdfModo test refrigeradores y codigos de errores 2018 V2.pdf
Modo test refrigeradores y codigos de errores 2018 V2.pdf
 
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdfInformació Projecte Iniciativa TIC SOPRA STERIA.pdf
Informació Projecte Iniciativa TIC SOPRA STERIA.pdf
 
Projecte Iniciativa TIC 2024 HPE. inCV.pdf
Projecte Iniciativa TIC 2024 HPE. inCV.pdfProjecte Iniciativa TIC 2024 HPE. inCV.pdf
Projecte Iniciativa TIC 2024 HPE. inCV.pdf
 
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
Todo sobre la tarjeta de video (Bienvenidos a mi blog personal)
 
mantenimiento de chasis y carroceria1.pptx
mantenimiento de chasis y carroceria1.pptxmantenimiento de chasis y carroceria1.pptx
mantenimiento de chasis y carroceria1.pptx
 
Manual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputosManual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputos
 

Unbalanced data: Same algorithms different techniques

  • 1. Unbalanced data: Same algorithms different techniques
  • 3. ermartin@plainconcepts.com Software Development Engineer en Plain Concepts con experiencia en multitud de campos relacionados con la analítica avanzada, Big Data, modelos predictivos e Inteligencia Artificial. Apasionado del análisis de datos y de los insights que se pueden obtener de ellos así como las últimas tecnologías y algoritmos para explotarlos. Eric Martín Software Development Engineer
  • 5. Datos Desbalanceados • Datos desbalanceados: Una clase predomina sobre la otra • Ejemplos de datos desbalanceados: Fraude, Anomalías… ¿Qué son los datos desbalanceados?
  • 6. Datos Desbalanceados • Kaggle Dataset • The datasets contains transactions made by credit cards in September 2013 by european cardholders. This dataset presents transactions that occurred in two days, where we have 492 frauds out of 284,807 transactions. The dataset is highly unbalanced, the positive class (frauds) account for 0.172% of all transactions. • Análisis exploratorio Talk is cheap, show me the code No lo cuento, lo hago
  • 8. Datos desbalanceados: Métricas • Fraudes 0.172% por lo que si digo que todas están bien acierto 100 -0.172 = 99.828% • Accuracy no dice nada!! • ¿Qué métrica debemos usar en este problema? 1𝑀 50 250 250 1𝑀 1000 150 350
  • 9. Datos desbalanceados: Métricas • No lo sabemos!!!! • Tenemos que ver el sentido de ‘negocio’: • Encontrar un fraude evita perdidas de 1500$ de media • Comprobar un fraude cuesta en promedio 30$ • Precisión • Recall • F-beta score 𝑆𝑐𝑜𝑟𝑒 = 𝑇𝑃 ∗ 1500 − (𝐹𝑃) ∗ 30 (Mas alto mejor)
  • 12. Estrategias: Over Sampling • CLASS WEIGHT • SMOTE: Synthetic Minority Over-Sampling Technique • ADASYN: Adaptive Synthetic
  • 13. Estrategias: Under Sampling • DELETE ZEROS • Condensed KNN • Instance Hardness Threshold: Estimators
  • 16. Algoritmos • Algoritmos compuestos de algoritmos mas sencillos • Típicamente mejoran score y ayudan a reducir la sobre-optimización • Random Forest • AdaBoost Ensemble
  • 17. Algoritmos • Red simple con 3 capas densas activación = Relu • Activación a la salida sigmoid (clasificación) Redes Neuronales
  • 20. EForest – Recordatorio Random Forest F1 F2 F3 … … … FN Y 1 1.2 25 True … 0.185 1 2 3.4 55 False … 0.211 1 3 2.2 58 True … 0.171 0 4 4.0 34 True … 0.132 1 5 1.1 63 True … 0.652 0 6 0.7 61 False … 0.153 0 7 3.3 12 False … 0.477 1 8 3.1 23 True … 0.311 1 9 1.2 29 False … 0.171 1 10 3.4 45 True … 0.132 0 11 2.1 55 True … 0.652 1 12 1.7 19 False … 0.189 0 13 3.3 12 False … 0.477 1 14 3.1 23 True … 0.311 1 15 1.2 29 False … 0.171 1 16 2.2 58 True … 0.171 0 17 4.0 34 True … 0.132 1 18 1.1 63 True … 0.652 0
  • 21. EForest – Recordatorio Random Forest F1 F2 F3 … … … FN Y 1.5 25 False … 0.185 ??? 1 1 0 1 Majority Vote
  • 22. EForest F1 F2 F3 … … … FN Y 1 1.2 25 True … 0.185 1 2 3.4 55 False … 0.211 1 3 2.2 58 True … 0.171 0 4 4.0 34 True … 0.132 1 5 1.1 63 True … 0.652 0 6 0.7 61 False … 0.153 0 7 3.3 12 False … 0.477 1 8 3.1 23 True … 0.311 1 9 1.2 29 False … 0.171 1 10 3.4 45 True … 0.132 0 11 2.1 55 True … 0.652 1 12 1.7 19 False … 0.189 0 13 3.3 12 False … 0.477 1 14 3.1 23 True … 0.311 1 15 1.2 29 False … 0.171 1 16 2.2 58 True … 0.171 0 17 4.0 34 True … 0.132 1 18 1.1 63 True … 0.652 0
  • 23. EForest F1 F2 F3 … … … FN Y 1 1.2 25 True … 0.185 1 2 3.4 55 False … 0.211 1 3 2.2 58 True … 0.171 0 4 4.0 34 True … 0.132 1 5 1.1 63 True … 0.652 0 6 0.7 61 False … 0.153 0 7 3.3 12 False … 0.477 1 8 3.1 23 True … 0.311 1 9 1.2 29 False … 0.171 1 10 3.4 45 True … 0.132 0 11 2.1 55 True … 0.652 1 12 1.7 19 False … 0.189 0 13 3.3 12 False … 0.477 1 14 3.1 23 True … 0.311 1 15 1.2 29 False … 0.171 1 16 2.2 58 True … 0.171 0 17 4.0 34 True … 0.132 1 18 1.1 63 True … 0.652 0 Tree1 Tree2 Tree3 Y 1 1 1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
  • 24. EForest Tree1 Tree2 Tree3 Y 1 1 1 0 1 2 1 0 1 1 3 1 1 1 0 4 0 1 0 1 5 0 0 0 0 6 1 0 1 0 7 0 1 0 1 8 0 1 0 1 9 1 0 1 1 10 1 1 0 0 11 0 1 0 1 12 0 0 1 0 13 1 0 1 1 14 1 1 0 1 15 1 1 0 1 16 0 0 1 0 17 0 1 0 1 18 1 0 0 0
  • 25. EForest: Vector vs Agregado Tree1 Tree2 Tree3 Y 1 1 1 0 1 2 1 0 1 1 3 1 1 1 0 4 0 1 0 1 5 0 0 0 0 6 1 0 1 0 7 0 1 0 1 8 0 1 0 1 Agg Y 1 2 1 2 2 1 3 3 0 4 0 1 5 1 0 6 2 0 7 1 1 8 1 1
  • 26. EForest: Proyectos • Detección autónomos vs particulares • Usuarios propensos a usar tarjetas de crédito
  • 30. Una cosa más: Challenge time!!! Kahoot.it ¿Cuánto sabes de IA, ML y Big Data? https://play.kahoot.it/#/lobby?quizId=e5984d86-88fb-49cc- aacc-4baaec119496
  • 31. Thanks and … See you soon! Thanks also to the organization Without whom this would not have been posible.