1. Raymundo Maximino Saldaña Xicohtencatl N° de lista 22
Herramienta de minería de datos KEEL
Link de descarga http://www.keel.es/
KEEL es una herramienta software para la preparación de algoritmos de minería de datos. Es
una herramienta de software de Java que se puede utilizar para una gran cantidad de
conocimiento en diferentes tareas de descubrimiento de datos.
La versión actual de KEEL está compuesta por los siguientes módulos:
Tratamiento de datos (Data Management): Este módulo contiene una serie de
herramientas de tratamiento de datos: Importación, exportación, edición y visualización de
datos, aplicación de transformaciones.
Experimentos (Experiments): La sección de experimentos está diseñado para ayudar a un
usuario para crear un experimento de minería de datos utilizando una interfaz gráfica. Este
módulo está dedicado al diseño de experimentos, proporcionando numerosas opciones: Tipo
de validación, tipo de aprendizaje (clasificación, regresión, aprendizaje no supervisado). Esta
sección es la sección más potente incluida en la herramienta, ya que permite que el usuario
aplique la aplicación de más de 500 algoritmos para cualquier determinado conjunto de datos
y cumplir un experimento de minería de datos.
Educativo (Educational): La sección educativa pretende ser una herramienta útil en un
entorno de enseñanza. Para lograr este objetivo, la sección educativa ofrece una visión en
tiempo real de la evolución de los algoritmos, lo que permite a los estudiantes a utilizar esta
información con el fin de aprender. Este módulo permite realizar experimentos interactivos.
Con una estructura similar al módulo anterior, permite diseñar experimentos con propósitos
2. Raymundo Maximino Saldaña Xicohtencatl N° de lista 22
educativos.
Módulos (Modules): Esta parte incluye nuevos módulos que se extienden las
funcionalidades del software KEEL, incluye un módulo para datos no-balanceados, un
módulo de análisis estadístico no paramétrico, y un módulo de aprendizaje multi-instancia.
Aprendizaje desequilibrado: Este módulo cuenta con varios algoritmos diseñados
específicamente para la Clasificación desequilibrada. La interfaz gráfica permite al
usuario acceder a un conjunto específico de problemas, algoritmos y procedimientos
de evaluación que abarcan el estado de la técnica en la Clasificación desequilibrada
manteniendo la misma estructura y los mismos objetivos que la sección de
experimentos.
Análisis estadístico no paramétrico: Este módulo proporciona al usuario varios
procedimientos estadísticos no paramétricos para parejas (prueba de Wilcoxon) y
comparaciones múltiples (Friedman, Friedman alligned, Quade y contraste de
estimación), junto con varios procedimientos post-hoc para la verificación avanzada de
resultados, dados en formato CSV prima. Además, este módulo da salida a todos los
resultados de los análisis en formato de látex, facilitando la inclusión de los informes
obtenidos en cualquier informe experimental.
Aprendizaje Semi-supervisada: Este módulo, similar al módulo de aprendizaje
desequilibrado, se dedica a la creación y diseño de experimentos relacionados con el
aprendizaje semi-supervisado. Cuenta con una interfaz similar a la sección de
experimentos con conjuntos de datos y métodos que son útiles en este escenario
relacionado.
Múltiple Instancia de aprendizaje: El módulo de instancias de aprendizaje múltiple, que
sigue el mismo esquema que los módulos de aprendizaje desequilibradas y semi-
supervisado, permite al usuario crear y preparar experimentos para múltiples
instancias de aprendizaje. Cuenta con una interfaz gráfica similar a la sección de
experimentos que da acceso a los conjuntos de datos de varias instancias específicas
y algoritmos diseñados para hacer frente a este problema.
3. Raymundo Maximino Saldaña Xicohtencatl N° de lista 22
Ayuda (Help): Contiene ayuda del software.
Las principales características de KEEL son las siguientes:
Contiene una gran colección de algoritmos evolutivos para la predicción de los
modelos, Presenta muchos métodos del estado de la técnica para las diferentes áreas
de la minería de datos, tales como árboles de decisión, los sistemas basados en
reglas difusas o aprendizaje de reglas crujiente.
Incluye alrededor de 100 algoritmos de pre procesamiento de datos propuestos en la
literatura especializada: transformación de datos, discretizacion, de instancia y de la
función de selección, filtrado de ruido y así sucesivamente.
Incorpora una biblioteca de estadística para analizar los resultados de los algoritmos.
Se compone de un conjunto de pruebas estadísticas para analizar los resultados y
para realizar comparaciones entre los algoritmos. Proporciona una interfaz fácil de
usar, orientado al análisis de algoritmos.
El software está destinado a crear las experimentaciones que contienen múltiples
conjuntos de datos y algoritmos para obtener resultados. Los experimentos son
independientemente script generado a partir de la interfaz de usuario para una línea
de ejecución en cualquier máquina que soporta una máquina virtual de Java.