6. 6
Es el proceso de ordenar las
características por el valor de
alguna función de puntuación,
que generalmente mide la
relevancia de la característica.
midiendo algunos criterios de la
característica
Qué es Feature Selection?
8. 8
características Univariado
Este método examinan los efectos de la variable
independiente sobre una única variable dependiente
Pearson correlation coefficient
Quasi Constants
Fisher-score
Chi-square
Mutual Information
9. 9
características Multvariado
Similares a los univariados, pero tienen más de una
variable dependiente.
Dimensionality reduction algorithms
Linear classifiers such as support vector machine(gbt)
Recursive feature elimination(hibridos)
11. 11
Filtro
Se seleccionan sobre la base de sus puntuaciones en
varias pruebas estadísticas para su correlación
A menudo criticados (conjunto de características no
optimizado para el clasificador usado)
Pearson correlation
Variance threshold
Linear discriminant analysis
Anova
Chi-Square
12. 12
Envoltura
Se basa inferencias que se extrae del modelo anterior,
decidimos agregar o eliminar características de su subconjunto.
El problema es considerar cada combinación posible esto
tomaría una gran cantidad de tiempo y cómputo.
reduce esencialmente a un problema de búsqueda. Estos
métodos suelen ser computacionalmente muy caros.
Forward Selection
Backward Selection
Recursive Features
13. 13
Embebidos
Métodos integrados combinan las cualidades de los métodos de
filtro y envoltura.
Por lo tanto, esto no es ningún tipo de selección especial de
características o técnicas de extracción y también ayudan a
evitar el sobreajuste.
Lasso Regularization in Linear Regression
Select k-best in Random Forest
Gradient boosting machine (GBM) -> Xgboost, Lightgbm, Catboost
14. 14
Embebidos
Métodos integrados combinan las cualidades de los métodos de
filtro y envoltura.
Por lo tanto, esto no es ningún tipo de selección especial de
características o técnicas de extracción y también ayudan a
evitar el sobreajuste.
Lasso Regularization in Linear Regression
Select k-best in Random Forest
Gradient boosting machine (GBM) -> Xgboost, Lightgbm, Catboost
19. 19
La respuesta es SI!
La correlación entre las variables
y el objetivo no son suficientes
para evaluar la relevancia
20. 20
Deep Learning librerias Apache Spark
Databricks - Plataforma para ejecutar aplicaciones Spark
BigDL: la biblioteca de Intel para un aprendizaje profundo de los marcos
de datos existentes.
TensorflowOnSpark - Aprendizaje profundo distribuido de Yahoo en
clusters de Big Data
El resto:
SparkNet: el marco de AMPLab para la capacitación de redes profundas
en Spark
DeepLearning4J - Utiliza el paralelismo de datos para entrenar en redes
neuronales separadas
DeepDist - Aprendizaje profundo a la velocidad de un rayo en Spark Vía
actualizaciones de gradiente estocástico paralelo
21. 21
Referencias
Feature selection for Classification (IDA’97).
An Introduction to Variable and Feature Selection
(JMLR’03).
Feature selection for text classification Based on
Gini Coefficient of Inequality (JMLR’03).
A comparative study on feature selection in text
categorization (ICML’97).
Scaling Up Machine Learning.