2. El objetivo es poder determinar que
personas sobrevivieron en el hundimiento
del titanic para ello nos basaremos en las
siguientes variables predictorias:
◦ Clase (0 = tripulación, 1 = primera, 2 =
segunda, 3 = tercera)
◦ Edad (1 = adulto, 0 = niño)
◦ Sexo (1 = hombre, 0 = mujer)
◦ Sobrevivió (1 = sí, 0 = no)
Los datos se encuentran guardados en un
archivo de tipo artf: titanic.arff
4. Primeramente nos centraremos en el entorno Explorer, ya
que nos permite tener acceso a varias funcionalidades de
weka, la pantalla inicial de weka es la siguiente:
5. Para empezar a correr nuestro problema presentado inicialmente
primeramente Abrimos el Weka y lanzamos el Explorer. Luego
tenemos que cargar los datos en el área de trabajo. Para ello,
hacemos clic en el botón “Open file” de la pestaña “preprocess”.
Seleccionamos el fichero “titanicarff” en donde se encuentran los
datos antes vistos y veremos la siguiente pantalla.
6. Desde la ventana que nos presenta luego que hemos
cargado los datos podemos conocer bastantes
detalles del dataset que acabamos de cargar.
Por ejemplo, el sistema nos indica que tenemos 2201
registros con 4 atributos. Al seleccionar cada uno de
los atributos en la sección de atribute veremos al
frente los diferentes datos que existen en cada uno de
ellos con sus respectivo histograma, y finalmente un
histograma con información sobre la distribución de
los ejemplos para cada atributo usando colores para
diferenciar las clases.
Por ejemplo, si observamos en la siguiente figura
tenemos señalado en la parte de atributos el atributo
clase que tiene 4 valores diferentes (0 tripulación, 1
primera ,2 segunda, 3 tercera) que se observa en la
parte selected atribute siendo la distribución de
[885,325,285,706].según el histograma el color azul
sustenta la variable si (1)y el rojo la NO(0)
7.
8. Una vez cargado el fichero, seleccionamos en la
pestaña Classify.
Pulsando en el botón choose de Classifier
podemos configurar el método de clasificación a
utilizar, Para nuestro ejemplo utilizaremos el
algoritmo clásico de árboles de decisión C4.5
(J48 es el nombre que se le da en Weka).
Pulsamos Choose, seleccionamos J48 en Trees
9.
10. Para finalizar seleccionamos como opción
de evaluación en la sección de test
options la opción Use training set, y luego
ejecutamos pulsando el botón Start que
realiza el aprendizaje del modelo
predictivo, en este caso un árbol de
decisión, al presionar start nos presentara
una serie de datos
11.
12. RESULTADO GRAFICOS
Weka también tiene una opción para visualizar el
árbol de una manera más atractiva para ello
pulsamos el botón derecho sobre el texto
trees.J48 de la caja Result-list, Seleccionamos la
opción Visualize Tree, y obtendremos el árbol de
decisión que presentamos al final
13.
14.
15. CONCLUSION
Las personas que sobrevivieron al titanic
son aquellas que:
Sean de sexo femenino y que estuvieron
en la clase tripulación, primera, y
segunda.
Sean de sexo masculino, estén en la
primera y segunda clase y que sean niños