Ejercicio weka

Gestiń y Tecnolog´
o ıa
del Conocimiento
Miner´ de Datos
ıa
junio 2010
´
Departamento de Informatica
Universidad Carlos III de Madrid

Ejercicios de Weka

Comentarios generales sobre los ejercicios
• Asumiendo que se conocen los contenidos te´ricos, el tiempo estimado
o
para realizar los ejercicios es de 2 horas
• Describir las soluciones a los ejercicios de una manera lo m´s formal
a
posible

1. An´lisis de los datos
a
El objetivo de este ejercicio es familiarizarse con el entorno de Weka, y estudiar algunas de las funcionalidades
de an´lisis de datos. Estas funcionalidades incluyen an´lisis estad´
a a ıstico, visualizaciń, etc. Recordad que el manual
o
de Weka est´ disponible en http://www.cs.waikato.ac.nz/ml/weka/index documentation.html
a

1.1. Obtenciń de los datos
o
Descargar el siguiente conjunto de datos:
iris data set: iris.arff
Abrir el fichero de datos con un editor, y estudiar su contenido:
1. ¿Cuńtos atributos caracterizan los datos de esta tabla de datos?
a

2. Si suponemos que queremos predecir el ultimo atributo a partir de los anteriores, ¿estar´
´ ıamos ante un problema
de clasificaciń o de regresiń?
o o

1.2. Estudio estad´
ıstico de los datos
Lanzar la herramienta weka
Lanzar el Explorer
Abrir el fichero iris.arff

Una vez cargado el conjunto de datos, en la secciń attributes se puede pinchar sobre cada atributo para obtener
o
informaciń estad´
o ıstica de ellos. Contestad a las siguientes preguntas:
1. ¿Cu´l es el rango de valores del atributo petalwitdth?
a

2. Con la informaciń que puedes obtener visualmente, ¿qu´ atributo/s crees que son los que mejor permitirń
o e a
predecir el atributo class?

1.3. Aplicaciń de filtros
o
1. Aplicar el filtro filters/unsupervised/attribute/normalize sobre el conjunto de datos. ¿Qu´ efecto tiene este
e
filtro?
2. Aplicar el filtro filters/unsupervised/instance/RemovePercentage sobre el conjunto de datos. ¿Qu´ efecto tiene
e
este filtro?
3. Grabar el conjunto de datos como iris2.arff.
4. Aplicar el filtro filters/unsupervised/attribute/Discretize sobre el conjunto de datos. ¿Qu´ efecto tiene este
e
filtro?
5. (Avanzado)Cargar nuevamente el fichero iris.arff original, y ejecutar una selecciń de caracter´
o ısticas basada
en an´lisis de componente principal. ¿Qu´ atributos se generan?
a e

1.4. Visualizaciń
o
Volver a cargar el conjunto de datos iris2.arff Pulsar la pestaã Visualize. Aumentar Point Size a 5 para
n
visualizarlos datos mejor.

1. Aumentar el valor de Jitter: ¿qu´ efecto tiene?
e

2. Clasificaciń
o
El objetivo de este ejercicio es familiarizarse con las primeras tćnicas de an´lisis de datos. En concreto, con los
e a
a
´rboles de decisiń.
o

2.1. Clasificador ZeroR
Cargar el conjunto de datos iris.arff. En la pestaã Classify, seleccionar el clasificador ZeroR. En las Test
n
Options seleccionar Use trainning set, y pulsar el botń de Start para que genere el clasificador. En un instante, en
o
la ventana de salida aparecerń los datos de la clasificaciń realizada. Analizar esta salida.
a o

1. ¿Qu´ modelo genera el clasificador ZeroR?
e
2. ¿Cuńtas instancias del conjunto de entrenamiento clasifica bien?
a
3. ¿Qu´ porcentaje de instancias clasifica bien?
e
4. ¿Qu´ crees que indica la matriz de confusiń?
e o

2.2. Clasificador J48
Cargar el conjunto de datos iris.arff. En la pestaã Classify, seleccionar el clasificador trees/j48. En las Test
n
Options seleccionar Use trainning set, y pulsar el botń de Start para que genere el clasificador.
o

1. ¿Cuńtas hojas tiene el ´rbol generado con J48?
a a
2. ¿Cuńtas instancias del conjunto de entrenamiento clasifica bien?
a
3. ¿Qu´ porcentaje de instancias clasifica bien?
e
4. Analizar la matriz de confusiń: ¿qu´ ha clasificado mal?
o e
5. Pulsar el botń de More Options y seleccionar la opciń de Output predictions. ¿En qu´ instancias se ha
o o e
equivocado?
6. (Avanzado) Elegir una instancia que J48 haya clasificado errńeamente y a analizar por qu´
o e

Adem´s, utiliza alguna de las herramientas de visualizaciń de Weka:
a o
En la ventana de Result list, pulsa en el botń derecho sobre el modelo generado con J48 para desplegar las
o
opciones. Pulsa sobre Visualize Tree

En la ventana de Result list, pulsa en el botń derecho sobre el modelo generado con J48 para desplegar las
o
opciones. Pulsa sobre Visualize Errors

(Avanzado) Por ultimo, vamos a estudiar en Weka c´mo se podr´ hacer una selecciń de atributos mediante
´ o ıa o
J48. Para ello:
¿Podr´ utilizar el ´rbol generado anteriormente para hacer selecciń de caracter´
ıas a o ısticas?
Identificar un filtro capaz de ejecutar una selecciń de caracter´
o ısticas basada en wrappers, que realice una
b´squeda mejor-primero Best First, y que utilice como m´todo de evaluaciń en el proceso de b´squeda un
u e o u
a
´rbol de decisiń
o

2.3. Clasificador ID3
Cargar el conjunto de datos iris.arff. Seleccionar el clasificador ID3 y utilizarlo para generar un ´rbol de decisiń.
a o
1. ¿Has podido ejecutar el algoritmo ID3 sobre el conjunto de datos directamente? ¿Por qu´?
e
2. ¿Qu´ acciones has llevado a cabo para poder ejecutarlo?
e
3. ¿Qu´ porcentaje de ´xito sobre el conjunto de entrenamiento has obtenido?
e e

4. ¿Qu´ porcentaje de ´xito obtienes si utilizas como mecanismo de evaluaciń la validaciń cruzada?
e e o o
5. ¿Qu´ porcentaje de ´xito estimas que obtendr´s en el futuro sobre nuevos datos con el ´rbol generado con
e e a a
ID3?

3. ´
Regresiń y Arboles de Regresiń
o o
Cargar el conjunto de datos cpu.arff. Entre los algoritmos ID3, J48 y M5P, elegir uno de ellos para aproximar
el atributo class sin que sea necesario tratar los datos de entrada de ninguna forma.

1. ¿Qu´ algoritmo has elegido? ¿por qu´?
e e
2. ¿Qu´ porcentaje de error obtienes si utilizas como mecanismo de evaluaciń la validaciń cruzada?
e o o
3. ¿Por qu´ no disponemos ahora de una matriz de confusiń?
e o

4. Intentar mejorar los resultado obtenidos mediante la aplicaciń de filtros o el uso de otros algoritmos.
o

4. El Experimenter
El objetivo de este ejercicio es familiarizarse con una herramienta avanzada de an´lisis de datos integrada
a
en Weka, denominada Experimenter. Esta herramienta permite ejecutar distintos algoritmos de miner´ de datos
ıa
sobre distintos conjuntos de datos, de forma que su ejecuciń secuencial hace m´s r´pida su ejecuciń, as´ como la
o a a o ı
evaluaciń de los resultados.
o

4.1. An´lisis Manual de experimentos
a
Para ello, seguir los siguientes pasos:

Generaciń del experimento:
o
1. Pulsar el botń New para generar un nuevo experimento
o
2. Seleccionar los conjuntos de datos: iris.arff, soybean.arff y labor.arff
3. Seleccionar los clasificadores: J48,IBK con K = 1, IBK con K = 3, IBK con K = 5, y SMO
4. En el apartado Results Destination seleccionar CSV file y utilizar el botń de Browse para elegir el
o
fichero
5. Seleccionar las opciones adecuadas para que ejecute primero sobre conjuntos de datos, y que s´lo ejecute
o
una vez el experimento

6. Pulsar el botń de save para grabar la configuraciń del experimento
o o
7. Pulsar la pestaã Run y pulsar el botń de Start
n o

An´lisis manual del experimento
a
1. Una vez finalizado el proceso, abrir una hoja de c´lculo, y cargar el fichero CSV
a
2. En ese fichero, se muestra en cada fila los datos de cada ejecuciń, incluyendo el conjunto de datos, el
o
clasificador utilizado con sus par´metros, as´ como datos sobre sus resultados
a ı
3. Localizar la columna que mide el porcentaje de ´xito
e
4. Obtener la media del porcentaje de ´xito para cada clasificador y conjunto de datos
e

Una vez realizados los pasos anteriores, responder a las siguientes preguntas:

¿Qu´ resultados ha obtenido cada clasificador en cada conjunto de datos?
e
¿Qu´ algoritmo ha obtenido mejores resultados en cada conjunto de datos?
e
¿Son los resultados del mejor algoritmo mucho mejores que los del resto?

4.2. (Avanzado) El Analizer de Weka
1. Pulsar la pestaã Analyse para analizar los resultados del experimento.
n
2. Pulsar el botń Experiment para seleccionar los resultados del experimento realizado en el apartado anterior
o
3. Seleccionar Percent Correct en el Comparison field

4. Seleccionar el t-test pareado como m´todo de evaluaciń
e o
5. Seleccionar la opciń adecuada para que muestre las desviaciones estńdar
o a
6. Los caract´res v y * indican si el resultado es estad´
e ısticamente mejor (v) o peor (*) que el esquema base, con
el nivel de significaciń especificado (por defecto 0.05).
o

7. Los n´meros entre parńtesis (v/ /*) que aparecen debajo de cada esquema indican el número de veces que
u e u
el esquema es mejor (v), igual y peor (*) que el esquema base.

En funciń de estos nuevos resultados, ¿puedes aãdir algo a lo que has respondido en el apartado anterior?
o n

5. Agrupaciń
o
El objetivo de este ejercicio es familiarizarse con algunas tćnicas de agrupaciń. Para ello, vamos a utilizar
e o
tambiń el conjunto de datos iris.arff.
e

Cargar el conjunto de datos iris.arff.

Eliminar el atributo class
Ejecutar el algoritmo SimpleKMeans para generar 3 grupos. ¿Qu´ medida de rendimiento genera Weka?
e
¿Qu´ valor proporciona?
e
Ejecutar el algoritmo SimpleKMeans para generar 5 grupos. ¿C´mo mejora la medida de rendimiento?
o

Utilizar la herramienta de visualizaciń de grupos para comparar los dos resultados. ¿Puedes obtener alguna
o
conclusiń?
o
(Avanzado) Ejecutar el algoritmo EM con los par´metros por defecto. ¿Cuńtas distribuciones genera? ¿Hay
a a
alguna relaciń con alguno de los resultados generados con SimpleKMeans?
o

Ejercicio weka

Recomendados

Recomendados

Más contenido relacionado

Similar a Ejercicio weka

Similar a Ejercicio weka (20)

Más de eveliad

Más de eveliad (20)

Último

Último (20)

Ejercicio weka