Después de discutir las ideas generales sobre clasificación
1. Después de discutir las ideas generales sobre clasificación, regularización
y el modelo de selección es importante subrayar que el
éxito final de una máquina de aprendizaje se basa normalmente en
un pretratamiento adecuado de los datos. Aquí el conocimiento previo,
por ejemplo sobre el contenido de frecuencia de la señal de interés,
se tienen en cuenta. Además y muy importante en
la práctica, se pueden descartar no informativos dimensiones de la
datos y así seleccionar las características de interés para la clasificación
(Véase por ejemplo [41]). Sencillo como este puede aparecer, es en
hecho una máquina de aprender el arte de su cuenta, ya que tenemos que decidir
en las características que no overfit las muestras de entrenamiento pero
más bien generalizar a los datos de prueba todavía desconocidos, incluso en presencia
de ruido. Además, es un reto para hacer función
selección y clasificación de una algorítmica intercalada e integrado
proceso. En esta luz se vuelve claro que, por ejemplo,
PCA basado en la selección de características se encuentra en la mayoría de los casos, una mala
elección,
ya que sólo se necesita la densidad total de todas las muestras en cuenta,
donde realmente debería considerar las etiquetas de clase, en
ordenar no descartar información valiosa para el clasificador.
A continuación revisaremos brevemente algunas características populares
técnicas de selección que han estado en uso en la
BBCI sistema. Tenga en cuenta sin embargo que no será exhaustiva
en nuestra exposición, para más referencias sobre la función de selección
en general, véase por ejemplo [41, 14] o en el contexto de BCI véase
[17, 42].
2. Supongamos que para cada época de señales cerebrales registradas un
tiene un vector x multi-dimensional. Cada dimensión de esa
vector se llama a una función, y el vector entero se llama característica
vector. Las muestras proceden de una medición controlada
tal que el estado mental subyacente se conoce,
y cada muestra, resp. el vector de características, xk (k = 1; :::; K),
yk tiene una etiqueta. Las características pueden ser elementos originales, primas,
es decir, valores, potencial en momentos específicos en los canales específicos
según lo medido por el dispositivo de EEG, o pueden ser el resultado
de algunas transformaciones de preprocesamiento, como espectral de potencia
valores en las bandas de frecuencias específicas. El problema de la característica
selección es la tarea de encontrar un pequeño subconjunto de todas las características que
es suficiente para representar la información de la característica de todo
vector. Los objetivos de este tipo de empresa puede ser varias veces.
(1) Cuando vectores de característica son muy alta dimensión
con respecto al número de ejemplos de entrenamiento disponibles,
la selección de un subconjunto adecuado más pequeño de características puede
hacer el entrenamiento del clasificador más robusto. Tenga en cuenta que
en algunas representaciones de la información pertinente se transmite
en todas las dimensiones de la característica tales que una selección útil de
características no es posible. En tal caso se tiene que transformar
los datos de una manera inteligente para concentrar la discriminativo
información. La elección de dicho tranformation es a menudo una
paso crucial en un solo ensayo de análisis de EEG. La transformación
puede estar basada en el conocimiento neurofisiológico sobre la
funciones cerebrales implicadas (frecuencia de filtrado, el filtrado espacial,
3. ...), O uno puede reclutar técnicas de proyección de la
teoría del aprendizaje supervisado, por ejemplo, un patrón espacial común
análisis ([16, 43, 44]), o de aprendizaje sin supervisión,
por ejemplo, análisis, componentes independientes ([45, 46, 47]). (2) Un
evaluación neurofisiológica de los componentes seleccionados pueden
conducir a una mejor comprensión de las funciones del cerebro involucradas,
y-como consecuencia-a nuevas mejoras de
los algoritmos. (3) Uno podría estar interesado en reducir el
número de características que tienen que ser medidos. En BCI investigación
un objetivo típico es el de reducir el número de canales
necesaria para hacer funcionar el BCI. Tenga en cuenta que cuando más de uno
característica se deriva de cada canal, la función de selección hace
no implica automáticamente una selección de canal útil, como la
características seleccionadas se puede propagar a través de muchos canales. Sin embargo
una selección de canales se puede obtener de característica
selección en una manera directa: definir la puntuación de un
canal como la norma del vector de las puntuaciones de las características
perteneciente a dicho canal.
La mayoría de los métodos de selección de características se discute más adelante
determinar una puntuación (es decir, un número real> 0) para cada característica.
La selección de características sobre la base de este resultado puede ser
obtenido por diferentes estrategias. Cuando el objetivo es
elegir las características K más informativos, se podría elegir
las características con las puntuaciones de K superiores. Tal criterio no se
tener en cuenta lo que la pérdida de uno tiene que tolerar cuando lo deseche
algunas características. Otra estrategia podría ser la de seleccionar
4. características en orden decreciente de su puntuación hasta su común
cantidades puntuación a un determinado porcentaje del total
puntuación de todas las funciones.