2. 0.En clase
• Los datos objeto de análisis se corresponden con resultados de las pruebas de
selectividad. Los datos que describen cada alumno contienen la siguiente información:
año, convocatoria, localidad del centro, opción cursada (de 5 posibles), calificaciones
parciales obtenidas en lengua, historia, idioma y las tres asignaturas opcionales, así como
la designación de las asignaturas de idioma y las 3 opcionales cursadas, calificación en el
bachillerato, calificación final y si el alumno se presentó o no a la prueba.
• Con el fichero de datos, "selectividad.arff", el objetivo es relacionar los resultados
obtenidos en las pruebas y determinar si pueden establecerse relaciones claras entre los
atributos numéricos, utilizando algoritmos de modelos de relaciones numéricas:
• 1. ¿Qué características tienen los datos y como se distribuyen? Visualizar histogramas de
cada uno de los atributos y realizar operaciones de filtrado
• 2. ¿qué relaciones entre variables son las más significativas? (utilizar opciones de filtrado
y visualización para analizar dependencias entre atributos)
• 3. ¿se puede predecir la calificación del alumno con alguna variable conocida? Explorar
métodos de aprendizaje de predicción numérica sobre las variables disponibles
3. 1. Utilización de filtros con WEKA.
En este ejercicio se utilizarán facilidades de filtrado de atributos con WEKA. Cargar el
fichero de datos “mushroom.arff”. Consiste en 8124 instancias de tipos de hongos, con 22
atributos nominales y la clase: ‘e’, comestible , ‘p’, venenosa. Lo que haremos es :
• 1. Comparar el error de clasificación con validación cruzada utilizando los clasificadores
“naive bayes” y “C4.5”.
• 2. Con los atributos seleccionados por el clasificador C4.5 (parámetros por defecto),
incluir un filtro de atributos en el cuadro “Preprocess”. Es un filtro de tipo “no
supervisado” de selección de índices (“Remove”), donde se indicarán los índices de los
atributos seleccionados. Comparar el error alcanzado por el clasificador “naive bayes” en
este caso.
• 3. Utilizar ahora un filtro de tipo “supervisado”. Para ello, desactivando cualquier filtro de
“Preprocess”, utilizar un clasificador con filtro “FilteredClassifier”, donde el clasificador
será el “naive bayes”, y el filtro de tipo supervisado con selección de atributos.
4. 2. Comparación de clasificadores con WEKA
• Los ficheros datosSiC1000.arff, datosNoC1000.arff contienen 1000
instancias, y los ficheros datosSiC200.arff y datosNoC200.arff 200. Los
calificadores “SiC”, “NoC” significan, respectivamente, sin correlación y con
correlación. Se van a evaluar los clasificadores de tipo “naive bayes”, “C4.5”
y clasificación mediante regresión lineal. Se ejecutarán 10 validaciones
cruzadas (con 10 partes cada una), y se promediarán los resultados,
determinándose qué técnica es mejor para un cierto nivel de confianza,
con un test de tipo t-student pareado. Para ello:
• • Entrar en WEKA, y seleccionar “Experimenter”.
• • Dentro de SETUP la opción “Advance” dentro de Experiment
Configuration Mode.
• • Crear un nuevo experimento (Botón “NEW").
5. • Seleccionar el destino del experimento.
• • Seleccionar InstantesResultListener.
• • Seleccionar el fichero de salida (output file) “experimento01”.
• • Seleccionar el generador de resultados.
• • CrossValidationResultProducer..
• • Seleccionar el número de ejecuciones (RUNS)( 1 to10).
• En el panel de Generador de Propiedades seleccionar “ENABLE” -> Select Property ->
SplitEvaluator -> Classifier y botón “SELECT”.
• • Seleccionar los tres clasificadores a analizar. (Para clasificación mediante regresión,
seleccionar el metaclasificador “ClassificacionViaRegression”, utilizando la función
“LinearRegression” como función de predicción).
• • En el panel de Datasets seleccionar los cuatro ficheros a analizar.
•
6. • • Seleccionar pestaña de “RUN".
• • Seleccionar botón “START".
• • Seleccionar botón “SAVE” para guardar la definición del experimento.
Guardarlo como “experimento01.exp”.
• • Cuando finalice el experimento, seleccionar la pestaña “ANALYZE"
• • Seleccionar botón “EXPERIMENT"
• • Seleccionar botón “PERFORM TEST". Variar el clasificador usado como base y el
intervalo de confianza.
• • Esta misma técnica puede utilizarse para analizar diferentes parámetros de un
clasificador para determinar el conjunto más adecuado. Por ejemplo, 3
clasificadores de tipo C4.5, variando el intervalo de confianza para podar con los
valores {0.25, 0.1, 0.01}.
7. Análisis de datos de imágenes con Weka
Tenemos datos de segmentación de imágenes. Cada instancia de los datos proporciona información de una
región de 3x3 píxeles (parche). Por cada instancia, tenemos los siguientes atributos:
• 1. TIPO_IMAGEN: Clase a la que pertenece el parche (brickface, sky, foliage,
cement, window, path, grass).
• 2. REGION-CENTROID-COL: Número de la columna que ocupa el píxel central
del parche en la imagen original.
• 3. REGION-CENTROID-ROW: Número de la fila que ocupa el píxel central del
parche en la imagen original.
• 4. SHORT-LINE-DENSITY-5: Los resultados de un algoritmo de extracción que
cuenta cuantas líneas de longitud 5 (en cualquier orientación) con poco
contraste (menos o igual que 5) van en la región.
• 5. SHORT-LINE-DENSITY-2: Igual que el anterior pero cuenta líneas con un
contraste mayor que 5
• 6. VEDGE-MEAN: Media de la medida del contraste de los píxeles verticales
adyacentes de la región (existen 6).
• 7. VEDGE-SD: Desviación de la medida del contraste de los píxeles verticales
adyacentes de la región (existen 6).
• 8. HEDGE-MEAN: Media de la medida del contraste de los píxeles
horizontales adyacentes de la región (existen 6).
• 9. HEDGE-SD: Desviación de la medida del contraste de los píxeles
horizontales adyacentes de la región (existen 6).
• 10. INTENSITY-MEAN: Media de la intensidad de la región (R+G+B)/3
• 11. RAWRED-MEAN: La media de color rojo en la región
• 12. RAWBLUE-MEAN: La media de color azul en la región
• 13. RAWGREEN-MEAN: La media de color verde en la región
• 14. EXRED-MEAN: Medida de exceso de rojo. (2R – (G+B))
• 15. EXBLUE-MEAN: Medida de exceso de azul. (2B – (G+R))
• 16. EXGREEN-MEAN: Medida de exceso de verde.(2G – (B+R))
• 17. VALUE-MEAN: Valor “v” medio del modelo hsv de la región
• 18. SATURATION-MEAN: Saturación “s” media del modelo hsv de la región
• 19. HUE-MEAN: Tonalidad “h” media del modelo hsv de la región.
8. Se pide:
• 1.Eliminar las colunas REGION-CENTROID-COL, REGION-CENTROID-ROW y REGION-PIXEL-COUNT usando los
filtros de Weka.
• 2. Generar árbol C4.5 (J48 en Weka) para determinar el atributo TYPE a partir del resto usando un 70% de los
datos para construir el árbol y un 30% para validar los resultados. ¿Qué resultados obtiene?
• 3. Generar reglas usando los algoritmos PRISM y PART usando la misma metodología que en el inciso
anterior y comparar con las generadas anteriormente.
• Parte de filtrado:
• 4. Usar el tab “Select Atributes” para determinar que columnas del conjunto de datos son más relevantes
para clasificar correctamente el TYPE. Usar para evaluar los atributos un clasificador que aplique el J48 y
como método de búsqueda un algoritmo genético.
• 5. ¿Qué variables son más significativas para predecir el TYPE?
• 6. Compare los resultados de aplicar un J48 con la metodología del ejercicio anterior pero que use sólo las
variables que encontró como importantes en el inciso anterior.