Feature Selection

2
https://www.facebook.com/cristianqp
https://www.linkedin.com/in/jonaqp/
Jonathan Quiza

4
mate
no
ingen
iero
ingen
iero
no
Brasil Consultoria

6
Es el proceso de ordenar las
características por el valor de
alguna función de puntuación,
que generalmente mide la
relevancia de la característica.
midiendo algunos criterios de la
característica
Qué es Feature Selection?

7
Caracteristicas
Univariado
Bivariados
Multivariados

8
características Univariado
Este método examinan los efectos de la variable
independiente sobre una única variable dependiente
Pearson correlation coefficient
Quasi Constants
Fisher-score
Chi-square
Mutual Information

9
características Multvariado
Similares a los univariados, pero tienen más de una
variable dependiente.
Dimensionality reduction algorithms
Linear classifiers such as support vector machine(gbt)
Recursive feature elimination(hibridos)

10
características Multvariado
Métodos
Selección
Características
Envoltura Embebido
Filtro

11
Filtro
Se seleccionan sobre la base de sus puntuaciones en
varias pruebas estadísticas para su correlación
A menudo criticados (conjunto de características no
optimizado para el clasificador usado)
Pearson correlation
Variance threshold
Linear discriminant analysis
Anova
Chi-Square

12
Envoltura
Se basa inferencias que se extrae del modelo anterior,
decidimos agregar o eliminar características de su subconjunto.
El problema es considerar cada combinación posible esto
tomaría una gran cantidad de tiempo y cómputo.
reduce esencialmente a un problema de búsqueda. Estos
métodos suelen ser computacionalmente muy caros.
Forward Selection
Backward Selection
Recursive Features

13
Embebidos
Métodos integrados combinan las cualidades de los métodos de
filtro y envoltura.
Por lo tanto, esto no es ningún tipo de selección especial de
características o técnicas de extracción y también ayudan a
evitar el sobreajuste.
Lasso Regularization in Linear Regression
Select k-best in Random Forest
Gradient boosting machine (GBM) -> Xgboost, Lightgbm, Catboost

14
Embebidos
Métodos integrados combinan las cualidades de los métodos de
filtro y envoltura.
Por lo tanto, esto no es ningún tipo de selección especial de
características o técnicas de extracción y también ayudan a
evitar el sobreajuste.
Lasso Regularization in Linear Regression
Select k-best in Random Forest
Gradient boosting machine (GBM) -> Xgboost, Lightgbm, Catboost

16
¿Se pueden descartar
automáticamente las
variables con puntaje
pequeño?

17
La respuesta es NO!
Incluso las variables con puntaje
pequeño pueden mejorar la
separación de clases.

18
¿Puede una variable inútil
(osea con un puntaje
pequeño) ser útil junto
con otras?

19
La respuesta es SI!
La correlación entre las variables
y el objetivo no son suficientes
para evaluar la relevancia

20
Deep Learning librerias Apache Spark
Databricks - Plataforma para ejecutar aplicaciones Spark
BigDL: la biblioteca de Intel para un aprendizaje profundo de los marcos
de datos existentes.
TensorflowOnSpark - Aprendizaje profundo distribuido de Yahoo en
clusters de Big Data
El resto:
SparkNet: el marco de AMPLab para la capacitación de redes profundas
en Spark
DeepLearning4J - Utiliza el paralelismo de datos para entrenar en redes
neuronales separadas
DeepDist - Aprendizaje profundo a la velocidad de un rayo en Spark Vía
actualizaciones de gradiente estocástico paralelo

21
Referencias
 Feature selection for Classification (IDA’97).
 An Introduction to Variable and Feature Selection
(JMLR’03).
 Feature selection for text classification Based on
Gini Coefficient of Inequality (JMLR’03).
 A comparative study on feature selection in text
categorization (ICML’97).
 Scaling Up Machine Learning.

CREDITOS
Pydata Peru
Databricks
MLflow community
Pyspark community
22

THANKS!
Alguna Pregunta?
Jony327@gmail.com
https://www.linkedin.com/in/jonaqp/
23

Feature Selection

Recomendados

Recomendados

Más contenido relacionado

Similar a Feature Selection

Similar a Feature Selection (20)

Último

Último (17)

Feature Selection