Curse of dimensionality by MC Ivan Alejando Garcia

Curse of dimensionality
M.C. Ivan Alejandro García

2Contenido
• Introducción a Machine learning
• Cuando hacer uso de machine learning
• ARK, el bio-extraterrestre
• Proceso de aprendizaje
• Curse of dimensionality
• El problema de alta dimensionalidad
• Reducción de dimensionalidad
• Selección de características
• Extracción de características
• Casos de éxito de la reducción de dimensionalidad
• Conclusión

7Introducción a machine learning
¿Qué es machine learning?
Es un campo del área de inteligencia artificial, cuyo objetivo es desarrollar técnicas que
permitan a las computadoras aprender.

8Introducción a Machine Learning
¿Cuándo utilizar machine learning?
• Un patrón existe
• No podemos (sabemos) resolver el problema matemáticamente
• Tenemos información

11Supervisado (Clasificación)

14
Las tomografías fueron obtenidas de: https://www.kaggle.com/c/data-science-bowl-2017
Predecir si un paciente iba desarrollar cáncer de pulmón
en un año.

23
$$$ $$$ $$$$ $ $ $
Conectado Switch Lluvia Dinero Salida
1 0 1 0.2 0
1 1 0 0.5 1
1 1 1 0.3 1
0 1 1 0.4 0
1 1 1 0.2 0
1 1 1 1 1
1 1 0 0.9 1
1 1 0 0.95 0
Precisión
89%

27
CURSE OF DIMENSIONALITY
Continuara….

28
¿Qué método es más efectivo para dejar el cigarro?
Terapia y medicina
Simplemente querer
dejarlo
Ejemplo basado del curso: Regression Modeling in Practice Wesleyan University

29
¿Qué método es más efectivo para dejar el cigarro?
Variables explicatoria Variable de respuesta
Método Predicción
Los estudios
muestran que
el método de
terapia más
medicina es
más efectivos
¿Podemos concluir que el método de terapia y medicina tiene mayor
éxito para dejar el cigarro?

32
Inductivo
Modelo
(regla)
Sistema
Deductivo

33
Inductivo
Observaciones
adicionales
Explicación
Sistema
Abductivo

36Con fertilizante Sin fertilizante

37Ambiente controlado (variables)

38Clases equitativas en el muestreo

39
Inductivo
Observaciones
adicionales
Explicación
Sistema
Abductivo

40
Entrada (X) Salida (y)
2 5
7 15
4 9
5 11
2

41
2 5
7 15
4 9
5 11
2 5

42
2 5
7 15
4 9
5 11
2 5
10

43
2 5
7 15
4 9
5 11
2 5
10
0

44
2 5
7 15
4 9
5 11
2 5
10
0
20

45
2 5
7 15
4 9
5 11
2 5
10 21
0 1
20 41
y = 2x+1
Etapa de entrenamiento
Etapa de predicción
Inducción
Deducción

46
Entrada Salida
3 0
7 1
20 4
24 4
25 6
99 22
Si la entrada fuera 743, ¿cual sería la salida?

48
Problema
Computar: La cantidad de 0’s consecutivos que tiene un número factorial de lado derecho.
n! Computo de n! Resultado
6! 720 1
12! 479001600 2
20! 2432902008176640000 4
24! 620448401733239439360000 4
1000! 4.02872e+2567 ¿2567?
5000! Desbordamiento ¿nto?

51Curse of dimensionality
x1 x2 x3 x4 x5 x6 x7 x8 x9 Salida (y)
-1 -2 4.4 1.3 5 7 -1 5 -1 -1
4 5 1.3 -5.25 7 7 -2 4 -5 5
8 2.2 7.42 7.42 25 7 -3 3 -7 7
5.5 -6 -3.6 3.33 25 7 -4 4 2 3
0 5 4.2 11 8 7 -5 5 3 -11
9 3.3 7 5.6 9 7 -6 6 4 -5
Generar un modelo que describa el patrón de salida con respecto a la
entrada del sistema

52Curse of dimensionality
x4 Salida (y)
1.3 -1
-5.25 5
7.42 7
3.33 3
11 -11
5.6 -5
y = ˪x4˩

53
Curse of dimensionality
Entre más variables es más complejo alcanzar el optimo global, que minimice el error
entre el modelo y el fenómeno.

54
Reducción de dimensionalidad
F
F‘
F
F‘
11 .
{ ,..., ,..., } { ,..., ,..., }j mi n i i if selection
f f f f f f
1 1 1 1 1.
{ ,..., ,..., } { ( ,..., ),..., ( ,..., ),..., ( ,..., )}i n n j n m nf extraction
f f f g f f g f f g f f
F
Generación de
características
Selección de
características
Extracción de
características
Ingeniería de
características

55
Selección características

56
Selección de características
Relevancia
(Supervisado)
Redundancia
0,1
0-120V

57
Extracción de características

58
• Métodos de filtrado: Los métodos de selección de la característica de filtro
aplican una medida estadística para asignar una puntuación a cada
característica y con esta puntación se decide cuales son eliminadas.
0.9
0.98
0.95
0.2
0.3

59
0.9
0.98
0.95
0.2
0.3

60
0.9
0.98
0.95

61
• Métodos de envoltura: estos atacan la reducción de características como un
problema de búsqueda, en el que se preparan, evalúan y comparan
diferentes combinaciones con otras combinaciones.

62
70%

63
68%

64
70%

65
80%

66
75%

67
80%

68
98%

69
Extracción de características: Combina y (o) transforma características
para generar nuevas.

70
¿Por qué es importante la extracción de características?

71
x1 x2 x3 y
9 -1 0 -3
16 -1 0 -4
9 1 0 3
4 -1 0 -2
25 1 1 5
4 1 1 2
25 -1 1 -5

72
x1 x2 x3 y
9 -1 0 -3
16 -1 0 -4
9 1 0 3
4 -1 0 -2
25 1 1 5
4 1 1 2
25 -1 1 -5

73
x1 y
9 -3
16 -4
9 3
4 -2
25 5
4 2
25 -5

74
x1 x2 x3 y
9 -1 0 -3
16 -1 0 -4
9 1 0 3
4 -1 0 -2
25 1 1 5
4 1 1 2
25 -1 1 -5

75
x1 x2 x3 x4(x1*x3) y
9 -1 0 -9 -3
16 -1 0 -16 -4
9 1 0 3 3
4 -1 0 -4 -2
25 1 1 25 5
4 1 1 4 2
25 -1 1 -25 -5

76
x1 x2 x3 x4(x1*x3) y
9 -1 0 -9 -3
16 -1 0 -16 -4
9 1 0 3 3
4 -1 0 -4 -2
25 1 1 25 5
4 1 1 4 2
25 -1 1 -25 -5

77
x4(x1*x3) y
-9 -3
-16 -4
3 3
-4 -2
25 5
4 2
-25 -5

78
Al igual que los algoritmos de clasificación, en extracción de características
Existen algoritmos supervisados y otros no supervisados
Supervisado
LDA PCA
No Supervisado

79
LDA
El objetivo de LDA es realizar una reducción de dimensiones preservando lo
mejor posible la separación de clases en la información
Mala
proyección
Buena
proyección

81
Cómo lo ve LDA Cómo lo ve PCA

88
Caso 1
+20 variables de ruido +50 variables de ruido

89
Caso 1
+20 variables de ruido +50 variables de ruido

90
Datasets: http://archive.ics.uci.edu/ml/index.php

91
http://archive.ics.uci.edu/ml/index.php

92
Recomendaciones
• Si conoces bien el problema y es de baja dimensionalidad: Busca un
clasificador con parámetros adecuados e intenta hacer una extracción
manual de características.
• Si conoces el problema y es de alta dimensionalidad: Busca reducir la
dimensionalidad (fs yo fe) y posterior identifica un buen clasificador

93
Recomendaciones
• Si no conoces el problema (o no saber como atacarlo) y es de baja
dimensionalidad: Utiliza selector de características y busca un clasificador
con parámetros adecuados (graficar las variables puede ser de gran utilidad)
• Si no conoces el problema (o no saber como atacarlo) y es de alta
dimensionalidad: Utiliza selector de características y busca un clasificador
con parámetros adecuados

Curse of dimensionality by MC Ivan Alejando Garcia

Recomendados

Recomendados

Más contenido relacionado

Similar a Curse of dimensionality by MC Ivan Alejando Garcia

Similar a Curse of dimensionality by MC Ivan Alejando Garcia (20)

Más de DataLab Community

Más de DataLab Community (11)

Último

Último (20)

Curse of dimensionality by MC Ivan Alejando Garcia