C-6- El explorador de Weka. maestria en tecnologia educativa uce
1. ASIGNATURA: La Gestión de la información
y el conocimiento
“Introducción al uso del Explorer
en WEKA”
Dr. Juan Pedro Febles, jfebles808@gmail.com
Dra. Vivian Estrada, vivianestrada4@yahoo.es 1
2. TEMA:
• Generalidades sobre la herramienta Weka
• Bases de datos en Weka
• Ejemplo de trabajo con Weka. El explorador
COMPETENCIAS:
• Identifica los elementos fundamentales para
hacer su primer análisis de datos con WEKA.
• Comprende la urgencia de trascender los
métodos tradicionales para estudiar los datos
2
6. El Explorer de WEKA
desplegado (se activa la
pestaña preprocess)
6
7. A continuación vamos a abrir la BD que
queremos analizar (esto será dando clic en
“Open file”). Su ubicación se muestra en la
siguiente lámina.
Abriremos dos BD simples:
1) Sobre las posibilidades de jugar
tenis según el estado del tiempo
(la trae de ejemplo la aplicación)
2) Sobre el uso de medicina
tradicional (la creamos para la clase)
7
9. Desplegando Open file localizas el
fichero con extensión .arff, que creaste
para la actividad.
Si no sale inmediatamente lo localizas
en la carpeta donde lo almacenaste
9
10. Cuando hacemos clic en Open file se abre una carpeta donde están
las BD de ejemplo que brinda la herramienta. En caso de que desee
abrir una BD creada por Ud. entonces esa debe buscar en la carpeta
donde la guardó. Ahora abriremos la BD llamada Weather.nominal.arff
10
11. Esta es la BD que hemos abierto (weather.nominal.arff o
weather.symbolic.arff). Esto lo vemos dando clic en la
ventanita que dice Edit…. Esta BD se refiere a las
condiciones en que se jugó tenis
11
12. En la siguiente lámina se muestra abierta la
BD con el Explorador:
weather.nominal.arff
En ella aparece la información principal
sobre esa BD. Esto es fundamental en el
análisis de cualquier BD
Es importante que sepan apreciar toda
la información que brinda el Explorer
12
14. 1. En la ventana indicada por 1: Se encuentra una información
general sobre la BD. En este ejemplo se muestra:
• El nombre de la BD
• La cantidad de Instancias ( o también llamados Casos), que
en este ejemplo son 14
• La cantidad ve Atributos (o también llamadas Variables),
que en este ejemplo son 5
2. En la ventada indicada con el 2: se encuentran todos los
Atributos o también llamadas Variables. En este momento la
variable Play es la que está activada (que en este caso lo que
queremos es que el sistema nos ayuda a buscar información
sobre ella, es decir las diferentes situaciones en que se pudo
jugar tenis y también para predecir si en una nueva situación
es aconsejable jugar tenis o no. Para ello se requiere que la
BD esté bien clasificada, sobre lo cual el propio sistema
ofrece información, tal como veremos más adelante)
Algunas de las informaciones que brinda el
Explorador de WEKA son:
14
15. 3. En la ventana indicada por 3: Se encuentra una información general
sobre la cantidad de días en que se jugó tenis (que fueron 9) y la
cantidad de días en que no se jugó (que fueron 5). Esto es porque
tenemos marcado la variable Play en la ventana 2.
Si tuviéramos marcada la variable Outlook en la ventana 2, entonces en
la ventana 3 nos brinda información sobre
Los días que fueron soleados (sunny)= 5, nublados (oveercast)= 4 o
lluviosos (rainy)= 5
15
16. Y así sucesivamente podemos ir cambiando la variable en la
ventana 2, entonces obtendremos en la ventana 3 la
información correspondiente.
En la ventana 4 ( de los gráficos), se nos va brindando la
información de la Clase (class) seleccionada en dependencia
de la variable indicada en la ventana 2.
En la lámina 13, con la Variable Play indicada en la ventana 2
se muestra en la ventana 4 el siguiente gráfico, lo que indica lo
siguiente:
El azul indica que
se jugó tenis y el
rojo que no se jugó
Por eso el azul
tiene un 9 encima y
el rojo tiene un 5
encima
16
17. Si tuviéramos marcada la variable Outlook en la ventana 2,
entonces en la ventana 3 la información que nos brinda el gráfico
es la siguiente:
Lo que significa que, de las 14 instancias o caso:
• De los soleados (sunny)= 5 días, nublados (overcast)= 4 días y
lluviosos (rainy)= 5 días, la situación fue la siguiente:
En los 5 días soleados se jugó 2 días y no se jugó 3 días
En los 4 días nublados se jugaron los 4 días
En los 5 días lluviosos se jugaron 3 días y no se jugaron 2 días17
18. RESUMIENDO:
En el cuadrante inferior derecho aparece una
representación gráfica del atributo
seleccionado. Encima de ésta hay un menú
desplegable que permite variar el atributo de
referencia que se representará en color para
contrastar ambos atributos. Pulsando en
Visualize all se abre una ventana desplegable
mostrando todas las gráficas pertenecientes a
todos los atributos.
Ahora corresponde dar clic en el clasificador
(que es la siguiente pestaña después de
preporcesos) para seleccionar el algoritmo a
aplicar (en este caso el J48). 18
19. Modo clasificación
Pulsando en la segunda pestaña (zona superior) del explorador
entramos en el modo clasificación. En este modo podremos
clasificar por varias técnicas y algoritmos los datos ya cargados.
La siguiente figura muestra cómo es el modo clasificación
dentro del explorador.
19
20. Si queremos realizar una clasificación lo primero será elegir un
clasificador y configurarlo a nuestro gusto, para ello pulsaremos
sobre el botón Choose dentro del área Classifier.
Una vez pulsado se desplegará un árbol que nos permitirá
seleccionar el clasificador deseado. Una vez seleccionado
aparecerá, en la etiqueta contigua al botón Choose, el filtro
seleccionado y los argumentos con los que se ejecutará.
20
21. DESTACAMOS QUE:
En la siguiente lámina se muestra que estamos
seleccionando el algoritmo J48.
En realidad se puede seleccionar otras técnicas
de clasificación y otros algoritmos.
En este ejemplo hemos seleccionado la técnica de
árboles (Trees) y el algoritmos de clasificación J48
(que ha tenido mucho éxito en la clasificación).
Uds. Pueden probar con otros y ver los
resultados.
21
23. Usamos el conjunto de entrenamiento
(Use Training set)
Ahora seleccionamos Play, porque es el
atributos que necesitamos comprobar su
clasificación. (En nuestro ejemplo)
Dar click sobre Start, para comenzar el
proceso
Filtro seleccionado para la clasificación
23
24. Una vez elegido el clasificador y sus características el
próximo paso es la configuración del modo de
entrenamiento ( aparece en la herramienta como Test
Options).
Weka proporciona 4 modos de prueba que aparecen
desplegados en la herramienta. En nuestro caso
usaremos el modo de prueba: Use Training set
Se pulsa el botón START para comenzar un método
de clasificación (el que seleccionamos).
Como resultado aparecerá la información referente al
estado del experimento, brindando información
importante sobre los datos, algunas de ellas las
mostramos a continuación.
24
25. resultados, en
a las opciones
Estos son
respuesta
solicitadas
Esta es una información interesante
que permite tener una visión de la
relación entre las variables. A partir
de aquí se puede editar un árbol
que favorece la visibilidad y el
análisis
Primera pantalla con los resultados
25
26. Segunda pantalla con los resultados
Este es el resultado, en
respuesta a las opciones
que se solicitó.
Como se aprecia el 100 %
fue clasificado
correctamente
La matriz de confusión es mejor en la
medida que los datos se agrupen en la
diagonal principal. Esto significa que se puede
tomar mejores decisiones a partir de esa
clasificación
26
27. Presentación del árbol. Este puede ayudar a tomar decisiones, porque
revela informaciones de utilidad en base al conocimiento acumulado
27
28. RESUMEN PARCIAL
Hasta aquí hemos realizado un recorrido didáctico por
una de las tantas posibilidades que ofrece esta
herramienta de análisis de datos, pero limitaciones de
tiempo nos permitieron analizar una parte (la más
importante, pero seguramente Uds. Que en su
mayoría tienen una base informática pueden seguir
profundizando y estamos a su disposición para aclarar
cualquier duda y apoyarlos en ampliar sus
conocimientos.
A continuación se muestra otro ejemplo con una BD
sobre planta medicinales que formó parte de una
investigación sobre ese tema.
Ya aquí no haremos todas las aclaraciones que
hicimos en el ejemplo anterior, porque las cuestiones
generales son las mismas. 28
29. En la siguiente lámina se muestra abierta
la BD que creamos sobre medicina
tradicional.
En ella aparece la información principal
sobre esa BD.
29
31. Esta es la BD de plantas medicinales editada
31
32. Aquí hemos cargado la
BD de plantas
medicinales, para
clasificar el atributo uso.
Vean que tiene 7 atributos
32
33. Se puede apreciar un conjunto de informaciones sobre la
BD que fue cargada:
• La relación (nombre de la BD): Plantas medicinales
• La Instancias (son los casos de la BD): en este caso son 20
• Como en la ventana izquierda de abajo está marcado
efectos secundarios (efectos_sec) y en la tabla de la
derecha algo más arriba se aprecia que: 12 no tienen
efectos secundarios y 8 no lo tienen.
• Y así se puede ir analizando los mismos aspectos que
vimos en el ejemplo anterior
33
34. Primera pantalla con los resultados
resultados, en
a las opciones
Estos son
respuesta
solicitadas
34
35. La matriz de confusión
Como se
aprecia el 80 %
fue clasificado
correctamente
Segunda pantalla con los resultados
35