El documento describe los pasos para aplicar diferentes métodos de clustering (K-medias, K-mediods y aglomerativo) a una matriz de datos de jugadores de fútbol en RapidMiner. Inicialmente, la matriz de Excel se importa a RapidMiner y luego se aplica cada método, obteniendo grupos de jugadores y visualizando los centroides. Adicionalmente, se explica cómo enlazar una base de datos de Access a RapidMiner para visualizar tablas.
2. MATRIZ DE DATOS EN
EXCEL
Se tiene una matriz de datos en Excel,
con la información de 50 jugadores de la
liga española, con las siguientes
características:
X1 =número de goles marcados,
X2 =edad (años),
X3 =altura (m),
X4 =peso (kg),
X5 =pierna buena del jugador,
X6 =nacionalidad,
X7 =tipo de estudios.
A la cual se le desea aplicar varios tipos
de clustering.
4. PASO 1
La hoja de calculo de Excel se
guardará con extensión CSV
(delimitado por comas).
5. PASO 2
Vamos a RapidMiner, y se necesita
importar la información a este,
para lo cual buscamos en el menú
Operators el comando Read CSV
y lo arrastramos hacia la ventana
de procesos.
6. PASO 3
Se procede a importar la matriz
de datos dando clic en Import
Configuration Wizard, una vez
dentro de este se busca la
ubicación del archivo y se lo
selecciona y de clic en Next, en las
dos ventanas posteriores se da
clic en Next sin modificar nada.
En la cuarta y ultima ventana se
debe dar clic en el botón Guess
Value Types, luego se define la
variable que identifica en Finish.
1 2
3 4
7. PASO 4
Nuevamente en el menú
Operators, se procede a
seleccionar el método de
clustering deseado, en este caso
se busca K-Means (K-Medias) y
se arrastra el comando de
aplicación hacia la ventana de
procesos. Ahora en el menú
Parameters, en la opción k se
escribe el número de clusters o
grupos que se desean obtener, en
la opción measure types se
selecciona MixedMeasures,
puesto que la matriz de datos con
la que se trabaja tiene variables
cualitativas y cuantitativas, y por
último se procede a unir los
procesos:
Read CSV Clustering res
8. PASO 5
Para ejecutar el análisis resta dar
clic en Run or resumme the
current process (el botón play) o
teclear F11.
Se obtienen los resultados de la
izquierda.
9. RESULTADOS:
Definiendo 3 clusters se observa
en la imagen (1) que el primer
grupo está conformado por 9
jugadores, el segundo por 17 y el
tercero por 24 jugadores, lo que
se comprueba gráficamente en la
imagen (2),con el plus de que al
seleccionar el cluster a la derecha
se observarán los individuos
pertenecientes a este.
En la imagen (3) se puede
observar los centroides de los
clústeres, cada de los cuales
representa un vector que se ubica
en los puntos medios de cada
cluster (En el proceso de K-
Medias el cálculo resulta ser el
vector de medias del cluster).
1
2
3
11. PASO 4
En el menú Operators, se procede
a buscar y seleccionar el método
K-Mediods (K-Mediodes) y se lo
arrastra hacia la ventana de
procesos.
Al igual que para el método de K-
Medias, en el menú Parameters,
en la opción k se escribe el
número de clusters que se desean
obtener y en la opción measure
types se selecciona
MixedMeasures.
Finalmente se debe unir los
procesos:
Read CSV Clustering res
12. PASO 5
Para ejecutar el análisis se da clic
en Run or resumme the current
process (el botón play) o teclear
F11.
Se obtienen los resultados de la
izquierda.
13. RESULTADOS
Si bien los resultados parecen ser
los mismo, no lo son, debido a que
el método de K-Mediodes trabaja
con las medianas de cada cluster
para el cáluclo de los centroides
<<como se observa en la imagen
(3)>> y por ende, para el criterio
de inclusión de los individuos en
cada cluster.
En la imagen (1) se define que el
primer cluster se tiene 14
jugadores, el segundo 8
individuos y en el tercer cluster
están 28 jugadores, lo que se
comprueba gráficamente en la
imagen (2).
1
2
3
15. PASO 4
En el menú Operators, se procede a
buscar el método Agglomerative
Clustering (Agrupación
aglomerativa) y se lo arrastra hacia
la ventana de procesos.
Este método no define un número
de clusters pre-establecido, sino
que el número de clusters se define
por la cercanía de los individuos
según el tipo de distancia con el que
se aplique, por lo cual en el menú
Parameters, se debe observar que
en la opción measure types esté
seleccionado MixedMeasures.
Finalmente se debe unir los
procesos:
Read CSV Clustering res
16. PASO 5
Al igual que para los métodos
anteriores, para realizar el
análisis se debe dar clic en Run or
resumme the current process (el
botón play) o teclear F11.,
obteniéndose los siguientes
resultados.
…
17. RESULTADOS
Se observan 99 posibles
divisiones de conglomerados (98
sin contar el que agrupa todas las
observaciones), según las
similaridades de cada uno de los
jugadores, lo que se muestra
gráficamente en los diagramas de
las imágenes (1a) y (1b),
mientras que en la imagen (2) se
observan las mismas 99
subdivisiones en forma de
dendograma.
…
1a
2
1b
19. BASE DE DATOS DE
ACCESS
Se tiene una base de datos en
Access con las siguientes tablas:
• tblDatos
• tblReceta
• tblRecetaOrigen
• tblRecetaPaises
• tblRecetaTipoPlato
• tblRecetaValoracion
Cada tabla con datos sobre
características y preparación de
diferentes recetas de todo el
mundo.
Se desea visualizar la tabla Recetas
en RapidMiner.
20. PASO 1
En el menú Operators, buscamos
la opción Read Acces y lo
arrastramos hacia la ventana de
procesos.
21. PASO 2
En el menú Parameters a la
derecha de la ventana de procesos
vamos a la opción database file y
procedemos a buscar el archivo
de Access que se desea enlazar.
Una vez seleccionado el archivo,
clic en Open
22. PASO 3
Nuevamente en el menú
Parameters, pero esta ocasión en
la opción table name se despliega
una lista con las tablas que posee
la base de datos conectada a
RapidMiner, se selecciona la que
se desea visualizar y por último se
debe terminar el proceso:
Read Access res
Se da clic en Run or resumme the
current process (el botón play) o
se teclea F11.
23. RESULTADO
Se observa un total de 4625
recetas de cocina pertenencientes
a la tabla Receta , correspondiente
a la base de datos de Access
enlazada al programa RapidMiner