Unbalanced data: Same algorithms different techniques

Unbalanced data: Same
algorithms different
techniques

ermartin@plainconcepts.com
Software Development Engineer en Plain Concepts con experiencia en
multitud de campos relacionados con la analítica avanzada, Big Data,
modelos predictivos e Inteligencia Artificial. Apasionado del análisis de
datos y de los insights que se pueden obtener de ellos así como las
últimas tecnologías y algoritmos para explotarlos.
Eric Martín
Software Development Engineer

Datos Desbalanceados
• Datos desbalanceados: Una clase predomina sobre la otra
• Ejemplos de datos desbalanceados: Fraude, Anomalías…
¿Qué son los datos desbalanceados?

Datos Desbalanceados
• Kaggle Dataset
• The datasets contains transactions made by credit cards in September 2013 by european
cardholders. This dataset presents transactions that occurred in two days, where we have 492
frauds out of 284,807 transactions. The dataset is highly unbalanced, the positive class (frauds)
account for 0.172% of all transactions.
• Análisis exploratorio
Talk is cheap, show me the code
No lo cuento, lo hago

Datos desbalanceados: Métricas
• Fraudes 0.172% por lo que si digo que todas están bien acierto 100 -0.172 = 99.828%
• Accuracy no dice nada!!
• ¿Qué métrica debemos usar en este problema?
1𝑀 50
250 250
1𝑀 1000
150 350

Datos desbalanceados: Métricas
• No lo sabemos!!!!
• Tenemos que ver el sentido de ‘negocio’:
• Encontrar un fraude evita perdidas de 1500$ de media
• Comprobar un fraude cuesta en promedio 30$
• Precisión
• Recall
• F-beta score
𝑆𝑐𝑜𝑟𝑒 = 𝑇𝑃 ∗ 1500 − (𝐹𝑃) ∗ 30
(Mas alto mejor)

Estrategias: Over Sampling
• CLASS WEIGHT
• SMOTE: Synthetic Minority Over-Sampling Technique
• ADASYN: Adaptive Synthetic

Estrategias: Under Sampling
• DELETE ZEROS
• Condensed KNN
• Instance Hardness Threshold: Estimators

Algoritmos
• Algoritmos compuestos de algoritmos mas sencillos
• Típicamente mejoran score y ayudan a reducir la sobre-optimización
• Random Forest
• AdaBoost
Ensemble

Algoritmos
• Red simple con 3 capas densas activación = Relu
• Activación a la salida sigmoid (clasificación)
Redes Neuronales

EForest – Recordatorio Random Forest
F1 F2 F3 … … … FN Y
1 1.2 25 True … 0.185 1
2 3.4 55 False … 0.211 1
3 2.2 58 True … 0.171 0
4 4.0 34 True … 0.132 1
5 1.1 63 True … 0.652 0
6 0.7 61 False … 0.153 0
7 3.3 12 False … 0.477 1
8 3.1 23 True … 0.311 1
9 1.2 29 False … 0.171 1
10 3.4 45 True … 0.132 0
11 2.1 55 True … 0.652 1
12 1.7 19 False … 0.189 0
13 3.3 12 False … 0.477 1
14 3.1 23 True … 0.311 1
15 1.2 29 False … 0.171 1
16 2.2 58 True … 0.171 0
17 4.0 34 True … 0.132 1
18 1.1 63 True … 0.652 0

EForest – Recordatorio Random Forest
F1 F2 F3 … … … FN Y
1.5 25 False … 0.185 ???
1
1
0
1
Majority Vote

EForest
F1 F2 F3 … … … FN Y
1 1.2 25 True … 0.185 1
2 3.4 55 False … 0.211 1
3 2.2 58 True … 0.171 0
4 4.0 34 True … 0.132 1
5 1.1 63 True … 0.652 0
6 0.7 61 False … 0.153 0
7 3.3 12 False … 0.477 1
8 3.1 23 True … 0.311 1
9 1.2 29 False … 0.171 1
10 3.4 45 True … 0.132 0
11 2.1 55 True … 0.652 1
12 1.7 19 False … 0.189 0
13 3.3 12 False … 0.477 1
14 3.1 23 True … 0.311 1
15 1.2 29 False … 0.171 1
16 2.2 58 True … 0.171 0
17 4.0 34 True … 0.132 1
18 1.1 63 True … 0.652 0

EForest
F1 F2 F3 … … … FN Y
1 1.2 25 True … 0.185 1
2 3.4 55 False … 0.211 1
3 2.2 58 True … 0.171 0
4 4.0 34 True … 0.132 1
5 1.1 63 True … 0.652 0
6 0.7 61 False … 0.153 0
7 3.3 12 False … 0.477 1
8 3.1 23 True … 0.311 1
9 1.2 29 False … 0.171 1
10 3.4 45 True … 0.132 0
11 2.1 55 True … 0.652 1
12 1.7 19 False … 0.189 0
13 3.3 12 False … 0.477 1
14 3.1 23 True … 0.311 1
15 1.2 29 False … 0.171 1
16 2.2 58 True … 0.171 0
17 4.0 34 True … 0.132 1
18 1.1 63 True … 0.652 0
Tree1 Tree2 Tree3 Y
1 1 1 0 1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18

EForest
Tree1 Tree2 Tree3 Y
1 1 1 0 1
2 1 0 1 1
3 1 1 1 0
4 0 1 0 1
5 0 0 0 0
6 1 0 1 0
7 0 1 0 1
8 0 1 0 1
9 1 0 1 1
10 1 1 0 0
11 0 1 0 1
12 0 0 1 0
13 1 0 1 1
14 1 1 0 1
15 1 1 0 1
16 0 0 1 0
17 0 1 0 1
18 1 0 0 0

EForest: Vector vs Agregado
Tree1 Tree2 Tree3 Y
1 1 1 0 1
2 1 0 1 1
3 1 1 1 0
4 0 1 0 1
5 0 0 0 0
6 1 0 1 0
7 0 1 0 1
8 0 1 0 1
Agg Y
1 2 1
2 2 1
3 3 0
4 0 1
5 1 0
6 2 0
7 1 1
8 1 1

EForest: Proyectos
• Detección autónomos vs particulares
• Usuarios propensos a usar tarjetas de crédito

Una cosa más:
Challenge
time!!!
Kahoot.it
¿Cuánto sabes de IA,
ML y Big Data?
https://play.kahoot.it/#/lobby?quizId=e5984d86-88fb-49cc-
aacc-4baaec119496

Thanks and …
See you soon!
Thanks also to the organization
Without whom this would not have been posible.

Unbalanced data: Same algorithms different techniques

Recomendados

Recomendados

Más contenido relacionado

Más de Plain Concepts

Más de Plain Concepts (20)

Último

Último (20)

Unbalanced data: Same algorithms different techniques