SlideShare una empresa de Scribd logo
1 de 8
Practicar con weka
Práctica, Práctica, Práctica, Práctica,
Práctica,
Práctica,
Práctica,
Práctica,
Práctica,
Práctica,
0.En clase
• Los datos objeto de análisis se corresponden con resultados de las pruebas de
selectividad. Los datos que describen cada alumno contienen la siguiente información:
año, convocatoria, localidad del centro, opción cursada (de 5 posibles), calificaciones
parciales obtenidas en lengua, historia, idioma y las tres asignaturas opcionales, así como
la designación de las asignaturas de idioma y las 3 opcionales cursadas, calificación en el
bachillerato, calificación final y si el alumno se presentó o no a la prueba.
• Con el fichero de datos, "selectividad.arff", el objetivo es relacionar los resultados
obtenidos en las pruebas y determinar si pueden establecerse relaciones claras entre los
atributos numéricos, utilizando algoritmos de modelos de relaciones numéricas:
• 1. ¿Qué características tienen los datos y como se distribuyen? Visualizar histogramas de
cada uno de los atributos y realizar operaciones de filtrado
• 2. ¿qué relaciones entre variables son las más significativas? (utilizar opciones de filtrado
y visualización para analizar dependencias entre atributos)
• 3. ¿se puede predecir la calificación del alumno con alguna variable conocida? Explorar
métodos de aprendizaje de predicción numérica sobre las variables disponibles
1. Utilización de filtros con WEKA.
En este ejercicio se utilizarán facilidades de filtrado de atributos con WEKA. Cargar el
fichero de datos “mushroom.arff”. Consiste en 8124 instancias de tipos de hongos, con 22
atributos nominales y la clase: ‘e’, comestible , ‘p’, venenosa. Lo que haremos es :
• 1. Comparar el error de clasificación con validación cruzada utilizando los clasificadores
“naive bayes” y “C4.5”.
• 2. Con los atributos seleccionados por el clasificador C4.5 (parámetros por defecto),
incluir un filtro de atributos en el cuadro “Preprocess”. Es un filtro de tipo “no
supervisado” de selección de índices (“Remove”), donde se indicarán los índices de los
atributos seleccionados. Comparar el error alcanzado por el clasificador “naive bayes” en
este caso.
• 3. Utilizar ahora un filtro de tipo “supervisado”. Para ello, desactivando cualquier filtro de
“Preprocess”, utilizar un clasificador con filtro “FilteredClassifier”, donde el clasificador
será el “naive bayes”, y el filtro de tipo supervisado con selección de atributos.
2. Comparación de clasificadores con WEKA
• Los ficheros datosSiC1000.arff, datosNoC1000.arff contienen 1000
instancias, y los ficheros datosSiC200.arff y datosNoC200.arff 200. Los
calificadores “SiC”, “NoC” significan, respectivamente, sin correlación y con
correlación. Se van a evaluar los clasificadores de tipo “naive bayes”, “C4.5”
y clasificación mediante regresión lineal. Se ejecutarán 10 validaciones
cruzadas (con 10 partes cada una), y se promediarán los resultados,
determinándose qué técnica es mejor para un cierto nivel de confianza,
con un test de tipo t-student pareado. Para ello:
• • Entrar en WEKA, y seleccionar “Experimenter”.
• • Dentro de SETUP la opción “Advance” dentro de Experiment
Configuration Mode.
• • Crear un nuevo experimento (Botón “NEW").
• Seleccionar el destino del experimento.
• • Seleccionar InstantesResultListener.
• • Seleccionar el fichero de salida (output file) “experimento01”.
• • Seleccionar el generador de resultados.
• • CrossValidationResultProducer..
• • Seleccionar el número de ejecuciones (RUNS)( 1 to10).
• En el panel de Generador de Propiedades seleccionar “ENABLE” -> Select Property ->
SplitEvaluator -> Classifier y botón “SELECT”.
• • Seleccionar los tres clasificadores a analizar. (Para clasificación mediante regresión,
seleccionar el metaclasificador “ClassificacionViaRegression”, utilizando la función
“LinearRegression” como función de predicción).
• • En el panel de Datasets seleccionar los cuatro ficheros a analizar.
•
• • Seleccionar pestaña de “RUN".
• • Seleccionar botón “START".
• • Seleccionar botón “SAVE” para guardar la definición del experimento.
Guardarlo como “experimento01.exp”.
• • Cuando finalice el experimento, seleccionar la pestaña “ANALYZE"
• • Seleccionar botón “EXPERIMENT"
• • Seleccionar botón “PERFORM TEST". Variar el clasificador usado como base y el
intervalo de confianza.
• • Esta misma técnica puede utilizarse para analizar diferentes parámetros de un
clasificador para determinar el conjunto más adecuado. Por ejemplo, 3
clasificadores de tipo C4.5, variando el intervalo de confianza para podar con los
valores {0.25, 0.1, 0.01}.
Análisis de datos de imágenes con Weka
Tenemos datos de segmentación de imágenes. Cada instancia de los datos proporciona información de una
región de 3x3 píxeles (parche). Por cada instancia, tenemos los siguientes atributos:
• 1. TIPO_IMAGEN: Clase a la que pertenece el parche (brickface, sky, foliage,
cement, window, path, grass).
• 2. REGION-CENTROID-COL: Número de la columna que ocupa el píxel central
del parche en la imagen original.
• 3. REGION-CENTROID-ROW: Número de la fila que ocupa el píxel central del
parche en la imagen original.
• 4. SHORT-LINE-DENSITY-5: Los resultados de un algoritmo de extracción que
cuenta cuantas líneas de longitud 5 (en cualquier orientación) con poco
contraste (menos o igual que 5) van en la región.
• 5. SHORT-LINE-DENSITY-2: Igual que el anterior pero cuenta líneas con un
contraste mayor que 5
• 6. VEDGE-MEAN: Media de la medida del contraste de los píxeles verticales
adyacentes de la región (existen 6).
• 7. VEDGE-SD: Desviación de la medida del contraste de los píxeles verticales
adyacentes de la región (existen 6).
• 8. HEDGE-MEAN: Media de la medida del contraste de los píxeles
horizontales adyacentes de la región (existen 6).
• 9. HEDGE-SD: Desviación de la medida del contraste de los píxeles
horizontales adyacentes de la región (existen 6).
• 10. INTENSITY-MEAN: Media de la intensidad de la región (R+G+B)/3
• 11. RAWRED-MEAN: La media de color rojo en la región
• 12. RAWBLUE-MEAN: La media de color azul en la región
• 13. RAWGREEN-MEAN: La media de color verde en la región
• 14. EXRED-MEAN: Medida de exceso de rojo. (2R – (G+B))
• 15. EXBLUE-MEAN: Medida de exceso de azul. (2B – (G+R))
• 16. EXGREEN-MEAN: Medida de exceso de verde.(2G – (B+R))
• 17. VALUE-MEAN: Valor “v” medio del modelo hsv de la región
• 18. SATURATION-MEAN: Saturación “s” media del modelo hsv de la región
• 19. HUE-MEAN: Tonalidad “h” media del modelo hsv de la región.
Se pide:
• 1.Eliminar las colunas REGION-CENTROID-COL, REGION-CENTROID-ROW y REGION-PIXEL-COUNT usando los
filtros de Weka.
• 2. Generar árbol C4.5 (J48 en Weka) para determinar el atributo TYPE a partir del resto usando un 70% de los
datos para construir el árbol y un 30% para validar los resultados. ¿Qué resultados obtiene?
• 3. Generar reglas usando los algoritmos PRISM y PART usando la misma metodología que en el inciso
anterior y comparar con las generadas anteriormente.
• Parte de filtrado:
• 4. Usar el tab “Select Atributes” para determinar que columnas del conjunto de datos son más relevantes
para clasificar correctamente el TYPE. Usar para evaluar los atributos un clasificador que aplique el J48 y
como método de búsqueda un algoritmo genético.
• 5. ¿Qué variables son más significativas para predecir el TYPE?
• 6. Compare los resultados de aplicar un J48 con la metodología del ejercicio anterior pero que use sólo las
variables que encontró como importantes en el inciso anterior.

Más contenido relacionado

Similar a Análisis de datos de segmentación de imágenes

Similar a Análisis de datos de segmentación de imágenes (20)

Raptor
RaptorRaptor
Raptor
 
raptor manual
raptor manualraptor manual
raptor manual
 
Raptor
RaptorRaptor
Raptor
 
Raptor
RaptorRaptor
Raptor
 
Machine learning: evaluación de hipótesis
Machine learning: evaluación de hipótesisMachine learning: evaluación de hipótesis
Machine learning: evaluación de hipótesis
 
15_pruebaSW.ppt
15_pruebaSW.ppt15_pruebaSW.ppt
15_pruebaSW.ppt
 
CEC.pdf
CEC.pdfCEC.pdf
CEC.pdf
 
Software testing 1
Software testing 1Software testing 1
Software testing 1
 
Busqueda
BusquedaBusqueda
Busqueda
 
Solucion de problemas por medio de computadoras
Solucion de problemas por medio de computadorasSolucion de problemas por medio de computadoras
Solucion de problemas por medio de computadoras
 
Curse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando GarciaCurse of dimensionality by MC Ivan Alejando Garcia
Curse of dimensionality by MC Ivan Alejando Garcia
 
Tutorial de Raptor
Tutorial de RaptorTutorial de Raptor
Tutorial de Raptor
 
Raptor
RaptorRaptor
Raptor
 
Tecnica de Prueba de Software
Tecnica de Prueba de SoftwareTecnica de Prueba de Software
Tecnica de Prueba de Software
 
SPSS versión 22 para ingenieros
SPSS versión 22 para ingenierosSPSS versión 22 para ingenieros
SPSS versión 22 para ingenieros
 
Software testing 2
Software testing 2Software testing 2
Software testing 2
 
Simulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria IngenieríaSimulación de Sistemas - Maestria Ingeniería
Simulación de Sistemas - Maestria Ingeniería
 
Capacidad del proceso
Capacidad del procesoCapacidad del proceso
Capacidad del proceso
 
Tutorial weka
Tutorial wekaTutorial weka
Tutorial weka
 
oTema6 pruebas del software
oTema6 pruebas del softwareoTema6 pruebas del software
oTema6 pruebas del software
 

Último

PPT Empresas IANSA Sobre Recursos Humanos.pdf
PPT Empresas IANSA Sobre Recursos Humanos.pdfPPT Empresas IANSA Sobre Recursos Humanos.pdf
PPT Empresas IANSA Sobre Recursos Humanos.pdfihmorales
 
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptxT.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptxLizCarolAmasifuenIba
 
Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosFundación YOD YOD
 
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfAFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfOdallizLucanaJalja1
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...antonellamujica
 
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?Michael Rada
 
estadistica funcion distribucion normal.ppt
estadistica funcion distribucion normal.pptestadistica funcion distribucion normal.ppt
estadistica funcion distribucion normal.pptMiguelAngel653470
 
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASAPLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASAAlexandraSalgado28
 
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdfCODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdfmelissafelipe28
 
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...ssuser2887fd1
 
15. NORMATIVA DE SST - LA LEY 29783.pptx
15. NORMATIVA DE SST - LA LEY 29783.pptx15. NORMATIVA DE SST - LA LEY 29783.pptx
15. NORMATIVA DE SST - LA LEY 29783.pptxAndreaAlessandraBoli
 
Pensamiento Lógico - Matemático USB Empresas
Pensamiento Lógico - Matemático USB EmpresasPensamiento Lógico - Matemático USB Empresas
Pensamiento Lógico - Matemático USB Empresasanglunal456
 
Presentación La mujer en la Esperanza AC.pptx
Presentación La mujer en la Esperanza AC.pptxPresentación La mujer en la Esperanza AC.pptx
Presentación La mujer en la Esperanza AC.pptxDanielFerreiraDuran1
 
Rendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de CondominiosRendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de CondominiosCondor Tuyuyo
 
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-ComunicacionesIMSA
 
PROCESO PRESUPUESTARIO - .administracion
PROCESO PRESUPUESTARIO - .administracionPROCESO PRESUPUESTARIO - .administracion
PROCESO PRESUPUESTARIO - .administracionDayraCastaedababilon
 
La electrónica y electricidad finall.pdf
La electrónica y electricidad finall.pdfLa electrónica y electricidad finall.pdf
La electrónica y electricidad finall.pdfDiegomauricioMedinam
 
Coca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptxCoca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptxJesDavidZeta
 
PRINCIPIOS DE CONDUCCION Y LIDERAZGO SGTO 1.pdf
PRINCIPIOS DE CONDUCCION Y LIDERAZGO SGTO 1.pdfPRINCIPIOS DE CONDUCCION Y LIDERAZGO SGTO 1.pdf
PRINCIPIOS DE CONDUCCION Y LIDERAZGO SGTO 1.pdfCarolinaMaguio
 
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdfRamon Costa i Pujol
 

Último (20)

PPT Empresas IANSA Sobre Recursos Humanos.pdf
PPT Empresas IANSA Sobre Recursos Humanos.pdfPPT Empresas IANSA Sobre Recursos Humanos.pdf
PPT Empresas IANSA Sobre Recursos Humanos.pdf
 
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptxT.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
T.A CONSTRUCCION DEL PUERTO DE CHANCAY.pptx
 
Continex para educación, Portafolio de servicios
Continex para educación, Portafolio de serviciosContinex para educación, Portafolio de servicios
Continex para educación, Portafolio de servicios
 
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdfAFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
AFILIACION CAJA NACIONAL DE SALUD WOM 1 .pdf
 
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
Mapa Conceptual relacionado con la Gerencia Industrial, su ámbito de aplicaci...
 
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
¿ESTÁ PREPARADA LA LOGÍSTICA PARA EL DECRECIMIENTO?
 
estadistica funcion distribucion normal.ppt
estadistica funcion distribucion normal.pptestadistica funcion distribucion normal.ppt
estadistica funcion distribucion normal.ppt
 
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASAPLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
PLANILLA DE CONTROL LIMPIEZA TRAMPA DE GRASA
 
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdfCODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
CODIGO DE ETICA PARA EL PROFESIONAL DE LA CONTABILIDAD IFAC (4).pdf
 
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...DO_FCE_310_PO_.pdf.  La contabilidad gubernamental SOS de suma importancia fu...
DO_FCE_310_PO_.pdf. La contabilidad gubernamental SOS de suma importancia fu...
 
15. NORMATIVA DE SST - LA LEY 29783.pptx
15. NORMATIVA DE SST - LA LEY 29783.pptx15. NORMATIVA DE SST - LA LEY 29783.pptx
15. NORMATIVA DE SST - LA LEY 29783.pptx
 
Pensamiento Lógico - Matemático USB Empresas
Pensamiento Lógico - Matemático USB EmpresasPensamiento Lógico - Matemático USB Empresas
Pensamiento Lógico - Matemático USB Empresas
 
Presentación La mujer en la Esperanza AC.pptx
Presentación La mujer en la Esperanza AC.pptxPresentación La mujer en la Esperanza AC.pptx
Presentación La mujer en la Esperanza AC.pptx
 
Rendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de CondominiosRendicion de cuentas del Administrador de Condominios
Rendicion de cuentas del Administrador de Condominios
 
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
Teleconferencia Accionistas Q1 2024 . Primer Trimestre-
 
PROCESO PRESUPUESTARIO - .administracion
PROCESO PRESUPUESTARIO - .administracionPROCESO PRESUPUESTARIO - .administracion
PROCESO PRESUPUESTARIO - .administracion
 
La electrónica y electricidad finall.pdf
La electrónica y electricidad finall.pdfLa electrónica y electricidad finall.pdf
La electrónica y electricidad finall.pdf
 
Coca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptxCoca cola organigrama de proceso empresariales.pptx
Coca cola organigrama de proceso empresariales.pptx
 
PRINCIPIOS DE CONDUCCION Y LIDERAZGO SGTO 1.pdf
PRINCIPIOS DE CONDUCCION Y LIDERAZGO SGTO 1.pdfPRINCIPIOS DE CONDUCCION Y LIDERAZGO SGTO 1.pdf
PRINCIPIOS DE CONDUCCION Y LIDERAZGO SGTO 1.pdf
 
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
20240418-CambraSabadell-SesInf-AdopTecnologica-CasoPractico.pdf
 

Análisis de datos de segmentación de imágenes

  • 1. Practicar con weka Práctica, Práctica, Práctica, Práctica, Práctica, Práctica, Práctica, Práctica, Práctica, Práctica,
  • 2. 0.En clase • Los datos objeto de análisis se corresponden con resultados de las pruebas de selectividad. Los datos que describen cada alumno contienen la siguiente información: año, convocatoria, localidad del centro, opción cursada (de 5 posibles), calificaciones parciales obtenidas en lengua, historia, idioma y las tres asignaturas opcionales, así como la designación de las asignaturas de idioma y las 3 opcionales cursadas, calificación en el bachillerato, calificación final y si el alumno se presentó o no a la prueba. • Con el fichero de datos, "selectividad.arff", el objetivo es relacionar los resultados obtenidos en las pruebas y determinar si pueden establecerse relaciones claras entre los atributos numéricos, utilizando algoritmos de modelos de relaciones numéricas: • 1. ¿Qué características tienen los datos y como se distribuyen? Visualizar histogramas de cada uno de los atributos y realizar operaciones de filtrado • 2. ¿qué relaciones entre variables son las más significativas? (utilizar opciones de filtrado y visualización para analizar dependencias entre atributos) • 3. ¿se puede predecir la calificación del alumno con alguna variable conocida? Explorar métodos de aprendizaje de predicción numérica sobre las variables disponibles
  • 3. 1. Utilización de filtros con WEKA. En este ejercicio se utilizarán facilidades de filtrado de atributos con WEKA. Cargar el fichero de datos “mushroom.arff”. Consiste en 8124 instancias de tipos de hongos, con 22 atributos nominales y la clase: ‘e’, comestible , ‘p’, venenosa. Lo que haremos es : • 1. Comparar el error de clasificación con validación cruzada utilizando los clasificadores “naive bayes” y “C4.5”. • 2. Con los atributos seleccionados por el clasificador C4.5 (parámetros por defecto), incluir un filtro de atributos en el cuadro “Preprocess”. Es un filtro de tipo “no supervisado” de selección de índices (“Remove”), donde se indicarán los índices de los atributos seleccionados. Comparar el error alcanzado por el clasificador “naive bayes” en este caso. • 3. Utilizar ahora un filtro de tipo “supervisado”. Para ello, desactivando cualquier filtro de “Preprocess”, utilizar un clasificador con filtro “FilteredClassifier”, donde el clasificador será el “naive bayes”, y el filtro de tipo supervisado con selección de atributos.
  • 4. 2. Comparación de clasificadores con WEKA • Los ficheros datosSiC1000.arff, datosNoC1000.arff contienen 1000 instancias, y los ficheros datosSiC200.arff y datosNoC200.arff 200. Los calificadores “SiC”, “NoC” significan, respectivamente, sin correlación y con correlación. Se van a evaluar los clasificadores de tipo “naive bayes”, “C4.5” y clasificación mediante regresión lineal. Se ejecutarán 10 validaciones cruzadas (con 10 partes cada una), y se promediarán los resultados, determinándose qué técnica es mejor para un cierto nivel de confianza, con un test de tipo t-student pareado. Para ello: • • Entrar en WEKA, y seleccionar “Experimenter”. • • Dentro de SETUP la opción “Advance” dentro de Experiment Configuration Mode. • • Crear un nuevo experimento (Botón “NEW").
  • 5. • Seleccionar el destino del experimento. • • Seleccionar InstantesResultListener. • • Seleccionar el fichero de salida (output file) “experimento01”. • • Seleccionar el generador de resultados. • • CrossValidationResultProducer.. • • Seleccionar el número de ejecuciones (RUNS)( 1 to10). • En el panel de Generador de Propiedades seleccionar “ENABLE” -> Select Property -> SplitEvaluator -> Classifier y botón “SELECT”. • • Seleccionar los tres clasificadores a analizar. (Para clasificación mediante regresión, seleccionar el metaclasificador “ClassificacionViaRegression”, utilizando la función “LinearRegression” como función de predicción). • • En el panel de Datasets seleccionar los cuatro ficheros a analizar. •
  • 6. • • Seleccionar pestaña de “RUN". • • Seleccionar botón “START". • • Seleccionar botón “SAVE” para guardar la definición del experimento. Guardarlo como “experimento01.exp”. • • Cuando finalice el experimento, seleccionar la pestaña “ANALYZE" • • Seleccionar botón “EXPERIMENT" • • Seleccionar botón “PERFORM TEST". Variar el clasificador usado como base y el intervalo de confianza. • • Esta misma técnica puede utilizarse para analizar diferentes parámetros de un clasificador para determinar el conjunto más adecuado. Por ejemplo, 3 clasificadores de tipo C4.5, variando el intervalo de confianza para podar con los valores {0.25, 0.1, 0.01}.
  • 7. Análisis de datos de imágenes con Weka Tenemos datos de segmentación de imágenes. Cada instancia de los datos proporciona información de una región de 3x3 píxeles (parche). Por cada instancia, tenemos los siguientes atributos: • 1. TIPO_IMAGEN: Clase a la que pertenece el parche (brickface, sky, foliage, cement, window, path, grass). • 2. REGION-CENTROID-COL: Número de la columna que ocupa el píxel central del parche en la imagen original. • 3. REGION-CENTROID-ROW: Número de la fila que ocupa el píxel central del parche en la imagen original. • 4. SHORT-LINE-DENSITY-5: Los resultados de un algoritmo de extracción que cuenta cuantas líneas de longitud 5 (en cualquier orientación) con poco contraste (menos o igual que 5) van en la región. • 5. SHORT-LINE-DENSITY-2: Igual que el anterior pero cuenta líneas con un contraste mayor que 5 • 6. VEDGE-MEAN: Media de la medida del contraste de los píxeles verticales adyacentes de la región (existen 6). • 7. VEDGE-SD: Desviación de la medida del contraste de los píxeles verticales adyacentes de la región (existen 6). • 8. HEDGE-MEAN: Media de la medida del contraste de los píxeles horizontales adyacentes de la región (existen 6). • 9. HEDGE-SD: Desviación de la medida del contraste de los píxeles horizontales adyacentes de la región (existen 6). • 10. INTENSITY-MEAN: Media de la intensidad de la región (R+G+B)/3 • 11. RAWRED-MEAN: La media de color rojo en la región • 12. RAWBLUE-MEAN: La media de color azul en la región • 13. RAWGREEN-MEAN: La media de color verde en la región • 14. EXRED-MEAN: Medida de exceso de rojo. (2R – (G+B)) • 15. EXBLUE-MEAN: Medida de exceso de azul. (2B – (G+R)) • 16. EXGREEN-MEAN: Medida de exceso de verde.(2G – (B+R)) • 17. VALUE-MEAN: Valor “v” medio del modelo hsv de la región • 18. SATURATION-MEAN: Saturación “s” media del modelo hsv de la región • 19. HUE-MEAN: Tonalidad “h” media del modelo hsv de la región.
  • 8. Se pide: • 1.Eliminar las colunas REGION-CENTROID-COL, REGION-CENTROID-ROW y REGION-PIXEL-COUNT usando los filtros de Weka. • 2. Generar árbol C4.5 (J48 en Weka) para determinar el atributo TYPE a partir del resto usando un 70% de los datos para construir el árbol y un 30% para validar los resultados. ¿Qué resultados obtiene? • 3. Generar reglas usando los algoritmos PRISM y PART usando la misma metodología que en el inciso anterior y comparar con las generadas anteriormente. • Parte de filtrado: • 4. Usar el tab “Select Atributes” para determinar que columnas del conjunto de datos son más relevantes para clasificar correctamente el TYPE. Usar para evaluar los atributos un clasificador que aplique el J48 y como método de búsqueda un algoritmo genético. • 5. ¿Qué variables son más significativas para predecir el TYPE? • 6. Compare los resultados de aplicar un J48 con la metodología del ejercicio anterior pero que use sólo las variables que encontró como importantes en el inciso anterior.