SlideShare una empresa de Scribd logo
1 de 24
CLUSTERING EN RAPIDMINER
Por: Alexander Andrade
Bryan Barragán
MATRIZ DE DATOS EN
EXCEL
Se tiene una matriz de datos en Excel,
con la información de 50 jugadores de la
liga española, con las siguientes
características:
X1 =número de goles marcados,
X2 =edad (años),
X3 =altura (m),
X4 =peso (kg),
X5 =pierna buena del jugador,
X6 =nacionalidad,
X7 =tipo de estudios.
A la cual se le desea aplicar varios tipos
de clustering.
MÉTODO DE K-MEDIAS
PASO 1
La hoja de calculo de Excel se
guardará con extensión CSV
(delimitado por comas).
PASO 2
Vamos a RapidMiner, y se necesita
importar la información a este,
para lo cual buscamos en el menú
Operators el comando Read CSV
y lo arrastramos hacia la ventana
de procesos.
PASO 3
Se procede a importar la matriz
de datos dando clic en Import
Configuration Wizard, una vez
dentro de este se busca la
ubicación del archivo y se lo
selecciona y de clic en Next, en las
dos ventanas posteriores se da
clic en Next sin modificar nada.
En la cuarta y ultima ventana se
debe dar clic en el botón Guess
Value Types, luego se define la
variable que identifica en Finish.
1 2
3 4
PASO 4
Nuevamente en el menú
Operators, se procede a
seleccionar el método de
clustering deseado, en este caso
se busca K-Means (K-Medias) y
se arrastra el comando de
aplicación hacia la ventana de
procesos. Ahora en el menú
Parameters, en la opción k se
escribe el número de clusters o
grupos que se desean obtener, en
la opción measure types se
selecciona MixedMeasures,
puesto que la matriz de datos con
la que se trabaja tiene variables
cualitativas y cuantitativas, y por
último se procede a unir los
procesos:
Read CSV  Clustering  res
PASO 5
Para ejecutar el análisis resta dar
clic en Run or resumme the
current process (el botón play) o
teclear F11.
Se obtienen los resultados de la
izquierda.
RESULTADOS:
Definiendo 3 clusters se observa
en la imagen (1) que el primer
grupo está conformado por 9
jugadores, el segundo por 17 y el
tercero por 24 jugadores, lo que
se comprueba gráficamente en la
imagen (2),con el plus de que al
seleccionar el cluster a la derecha
se observarán los individuos
pertenecientes a este.
En la imagen (3) se puede
observar los centroides de los
clústeres, cada de los cuales
representa un vector que se ubica
en los puntos medios de cada
cluster (En el proceso de K-
Medias el cálculo resulta ser el
vector de medias del cluster).
1
2
3
MÉTODO DE K-MEDIOIDES
Para realizar este análisis se repite el mismo procedimiento
hasta el PASO 3
PASO 4
En el menú Operators, se procede
a buscar y seleccionar el método
K-Mediods (K-Mediodes) y se lo
arrastra hacia la ventana de
procesos.
Al igual que para el método de K-
Medias, en el menú Parameters,
en la opción k se escribe el
número de clusters que se desean
obtener y en la opción measure
types se selecciona
MixedMeasures.
Finalmente se debe unir los
procesos:
Read CSV  Clustering  res
PASO 5
Para ejecutar el análisis se da clic
en Run or resumme the current
process (el botón play) o teclear
F11.
Se obtienen los resultados de la
izquierda.
RESULTADOS
Si bien los resultados parecen ser
los mismo, no lo son, debido a que
el método de K-Mediodes trabaja
con las medianas de cada cluster
para el cáluclo de los centroides
<<como se observa en la imagen
(3)>> y por ende, para el criterio
de inclusión de los individuos en
cada cluster.
En la imagen (1) se define que el
primer cluster se tiene 14
jugadores, el segundo 8
individuos y en el tercer cluster
están 28 jugadores, lo que se
comprueba gráficamente en la
imagen (2).
1
2
3
MÉTODO AGLOMERATIVO
Para realizar este análisis se repite el mismo procedimiento
hasta el PASO 3
PASO 4
En el menú Operators, se procede a
buscar el método Agglomerative
Clustering (Agrupación
aglomerativa) y se lo arrastra hacia
la ventana de procesos.
Este método no define un número
de clusters pre-establecido, sino
que el número de clusters se define
por la cercanía de los individuos
según el tipo de distancia con el que
se aplique, por lo cual en el menú
Parameters, se debe observar que
en la opción measure types esté
seleccionado MixedMeasures.
Finalmente se debe unir los
procesos:
Read CSV  Clustering  res
PASO 5
Al igual que para los métodos
anteriores, para realizar el
análisis se debe dar clic en Run or
resumme the current process (el
botón play) o teclear F11.,
obteniéndose los siguientes
resultados.
…
RESULTADOS
Se observan 99 posibles
divisiones de conglomerados (98
sin contar el que agrupa todas las
observaciones), según las
similaridades de cada uno de los
jugadores, lo que se muestra
gráficamente en los diagramas de
las imágenes (1a) y (1b),
mientras que en la imagen (2) se
observan las mismas 99
subdivisiones en forma de
dendograma.
…
1a
2
1b
CONEXIÓN DE BASES DE DATOS
DE ACCESS CON RAPIDMINER
(Trabajo Extra)
BASE DE DATOS DE
ACCESS
Se tiene una base de datos en
Access con las siguientes tablas:
• tblDatos
• tblReceta
• tblRecetaOrigen
• tblRecetaPaises
• tblRecetaTipoPlato
• tblRecetaValoracion
Cada tabla con datos sobre
características y preparación de
diferentes recetas de todo el
mundo.
Se desea visualizar la tabla Recetas
en RapidMiner.
PASO 1
En el menú Operators, buscamos
la opción Read Acces y lo
arrastramos hacia la ventana de
procesos.
PASO 2
En el menú Parameters a la
derecha de la ventana de procesos
vamos a la opción database file y
procedemos a buscar el archivo
de Access que se desea enlazar.
Una vez seleccionado el archivo,
clic en Open
PASO 3
Nuevamente en el menú
Parameters, pero esta ocasión en
la opción table name se despliega
una lista con las tablas que posee
la base de datos conectada a
RapidMiner, se selecciona la que
se desea visualizar y por último se
debe terminar el proceso:
Read Access  res
Se da clic en Run or resumme the
current process (el botón play) o
se teclea F11.
RESULTADO
Se observa un total de 4625
recetas de cocina pertenencientes
a la tabla Receta , correspondiente
a la base de datos de Access
enlazada al programa RapidMiner
GRACIAS POR SU
ATENCIÓN

Más contenido relacionado

Similar a Clustering en rapid miner

Guion controlpor variables
Guion controlpor variablesGuion controlpor variables
Guion controlpor variables
leswil
 
Universidad_Autonoma_de_Queretaro_IMPLEM.pdf
Universidad_Autonoma_de_Queretaro_IMPLEM.pdfUniversidad_Autonoma_de_Queretaro_IMPLEM.pdf
Universidad_Autonoma_de_Queretaro_IMPLEM.pdf
arturoruizlopez1
 
Minimanual r commander
Minimanual r commanderMinimanual r commander
Minimanual r commander
Javito Ramirez
 
Minimanual de r
Minimanual de rMinimanual de r
Minimanual de r
erick_s22
 

Similar a Clustering en rapid miner (20)

Guion controlpor variables
Guion controlpor variablesGuion controlpor variables
Guion controlpor variables
 
Universidad_Autonoma_de_Queretaro_IMPLEM.pdf
Universidad_Autonoma_de_Queretaro_IMPLEM.pdfUniversidad_Autonoma_de_Queretaro_IMPLEM.pdf
Universidad_Autonoma_de_Queretaro_IMPLEM.pdf
 
algoritmos en R Studio
algoritmos en R Studioalgoritmos en R Studio
algoritmos en R Studio
 
Computadoras y mecanica de fluidos
Computadoras y mecanica de fluidosComputadoras y mecanica de fluidos
Computadoras y mecanica de fluidos
 
Examen parcial 2
Examen parcial 2Examen parcial 2
Examen parcial 2
 
Reporte del DATA SET "Balance scale" con WEKA
Reporte del DATA SET "Balance scale" con WEKAReporte del DATA SET "Balance scale" con WEKA
Reporte del DATA SET "Balance scale" con WEKA
 
Examen Parcial 2
Examen Parcial 2Examen Parcial 2
Examen Parcial 2
 
CEC.pdf
CEC.pdfCEC.pdf
CEC.pdf
 
Trabajo Final
Trabajo FinalTrabajo Final
Trabajo Final
 
analisis de conglomerados prctica en spss
analisis de conglomerados prctica en spssanalisis de conglomerados prctica en spss
analisis de conglomerados prctica en spss
 
Minimanual r commander
Minimanual r commanderMinimanual r commander
Minimanual r commander
 
diseño_contro_PID_discreto conv.docx
diseño_contro_PID_discreto conv.docxdiseño_contro_PID_discreto conv.docx
diseño_contro_PID_discreto conv.docx
 
excel
excelexcel
excel
 
Matrices en excel1
Matrices en excel1Matrices en excel1
Matrices en excel1
 
Clase redes neuronales 3
Clase redes neuronales 3Clase redes neuronales 3
Clase redes neuronales 3
 
Introduccion al programa_amos_5
Introduccion al programa_amos_5Introduccion al programa_amos_5
Introduccion al programa_amos_5
 
Minimanual de r
Minimanual de rMinimanual de r
Minimanual de r
 
Enunc tp350-2017-1
Enunc tp350-2017-1Enunc tp350-2017-1
Enunc tp350-2017-1
 
03 uni1-estructuras de datos-arreglos 2 d
03 uni1-estructuras de datos-arreglos 2 d03 uni1-estructuras de datos-arreglos 2 d
03 uni1-estructuras de datos-arreglos 2 d
 
algoritmos 7 4p.pptx
algoritmos 7 4p.pptxalgoritmos 7 4p.pptx
algoritmos 7 4p.pptx
 

Último

EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
FagnerLisboa3
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
AnnimoUno1
 

Último (15)

Presentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmerilPresentación de elementos de afilado con esmeril
Presentación de elementos de afilado con esmeril
 
Avances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estosAvances tecnológicos del siglo XXI y ejemplos de estos
Avances tecnológicos del siglo XXI y ejemplos de estos
 
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdfRefrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
Refrigerador_Inverter_Samsung_Curso_y_Manual_de_Servicio_Español.pdf
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Modulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdfModulo-Mini Cargador.................pdf
Modulo-Mini Cargador.................pdf
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Avances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvanaAvances tecnológicos del siglo XXI 10-07 eyvana
Avances tecnológicos del siglo XXI 10-07 eyvana
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptxPROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
PROYECTO FINAL. Tutorial para publicar en SlideShare.pptx
 
presentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptxpresentacion de PowerPoint de la fuente de poder.pptx
presentacion de PowerPoint de la fuente de poder.pptx
 
Desarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdfDesarrollo Web Moderno con Svelte 2024.pdf
Desarrollo Web Moderno con Svelte 2024.pdf
 
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptxEL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
EL CICLO PRÁCTICO DE UN MOTOR DE CUATRO TIEMPOS.pptx
 

Clustering en rapid miner

  • 1. CLUSTERING EN RAPIDMINER Por: Alexander Andrade Bryan Barragán
  • 2. MATRIZ DE DATOS EN EXCEL Se tiene una matriz de datos en Excel, con la información de 50 jugadores de la liga española, con las siguientes características: X1 =número de goles marcados, X2 =edad (años), X3 =altura (m), X4 =peso (kg), X5 =pierna buena del jugador, X6 =nacionalidad, X7 =tipo de estudios. A la cual se le desea aplicar varios tipos de clustering.
  • 4. PASO 1 La hoja de calculo de Excel se guardará con extensión CSV (delimitado por comas).
  • 5. PASO 2 Vamos a RapidMiner, y se necesita importar la información a este, para lo cual buscamos en el menú Operators el comando Read CSV y lo arrastramos hacia la ventana de procesos.
  • 6. PASO 3 Se procede a importar la matriz de datos dando clic en Import Configuration Wizard, una vez dentro de este se busca la ubicación del archivo y se lo selecciona y de clic en Next, en las dos ventanas posteriores se da clic en Next sin modificar nada. En la cuarta y ultima ventana se debe dar clic en el botón Guess Value Types, luego se define la variable que identifica en Finish. 1 2 3 4
  • 7. PASO 4 Nuevamente en el menú Operators, se procede a seleccionar el método de clustering deseado, en este caso se busca K-Means (K-Medias) y se arrastra el comando de aplicación hacia la ventana de procesos. Ahora en el menú Parameters, en la opción k se escribe el número de clusters o grupos que se desean obtener, en la opción measure types se selecciona MixedMeasures, puesto que la matriz de datos con la que se trabaja tiene variables cualitativas y cuantitativas, y por último se procede a unir los procesos: Read CSV  Clustering  res
  • 8. PASO 5 Para ejecutar el análisis resta dar clic en Run or resumme the current process (el botón play) o teclear F11. Se obtienen los resultados de la izquierda.
  • 9. RESULTADOS: Definiendo 3 clusters se observa en la imagen (1) que el primer grupo está conformado por 9 jugadores, el segundo por 17 y el tercero por 24 jugadores, lo que se comprueba gráficamente en la imagen (2),con el plus de que al seleccionar el cluster a la derecha se observarán los individuos pertenecientes a este. En la imagen (3) se puede observar los centroides de los clústeres, cada de los cuales representa un vector que se ubica en los puntos medios de cada cluster (En el proceso de K- Medias el cálculo resulta ser el vector de medias del cluster). 1 2 3
  • 10. MÉTODO DE K-MEDIOIDES Para realizar este análisis se repite el mismo procedimiento hasta el PASO 3
  • 11. PASO 4 En el menú Operators, se procede a buscar y seleccionar el método K-Mediods (K-Mediodes) y se lo arrastra hacia la ventana de procesos. Al igual que para el método de K- Medias, en el menú Parameters, en la opción k se escribe el número de clusters que se desean obtener y en la opción measure types se selecciona MixedMeasures. Finalmente se debe unir los procesos: Read CSV  Clustering  res
  • 12. PASO 5 Para ejecutar el análisis se da clic en Run or resumme the current process (el botón play) o teclear F11. Se obtienen los resultados de la izquierda.
  • 13. RESULTADOS Si bien los resultados parecen ser los mismo, no lo son, debido a que el método de K-Mediodes trabaja con las medianas de cada cluster para el cáluclo de los centroides <<como se observa en la imagen (3)>> y por ende, para el criterio de inclusión de los individuos en cada cluster. En la imagen (1) se define que el primer cluster se tiene 14 jugadores, el segundo 8 individuos y en el tercer cluster están 28 jugadores, lo que se comprueba gráficamente en la imagen (2). 1 2 3
  • 14. MÉTODO AGLOMERATIVO Para realizar este análisis se repite el mismo procedimiento hasta el PASO 3
  • 15. PASO 4 En el menú Operators, se procede a buscar el método Agglomerative Clustering (Agrupación aglomerativa) y se lo arrastra hacia la ventana de procesos. Este método no define un número de clusters pre-establecido, sino que el número de clusters se define por la cercanía de los individuos según el tipo de distancia con el que se aplique, por lo cual en el menú Parameters, se debe observar que en la opción measure types esté seleccionado MixedMeasures. Finalmente se debe unir los procesos: Read CSV  Clustering  res
  • 16. PASO 5 Al igual que para los métodos anteriores, para realizar el análisis se debe dar clic en Run or resumme the current process (el botón play) o teclear F11., obteniéndose los siguientes resultados. …
  • 17. RESULTADOS Se observan 99 posibles divisiones de conglomerados (98 sin contar el que agrupa todas las observaciones), según las similaridades de cada uno de los jugadores, lo que se muestra gráficamente en los diagramas de las imágenes (1a) y (1b), mientras que en la imagen (2) se observan las mismas 99 subdivisiones en forma de dendograma. … 1a 2 1b
  • 18. CONEXIÓN DE BASES DE DATOS DE ACCESS CON RAPIDMINER (Trabajo Extra)
  • 19. BASE DE DATOS DE ACCESS Se tiene una base de datos en Access con las siguientes tablas: • tblDatos • tblReceta • tblRecetaOrigen • tblRecetaPaises • tblRecetaTipoPlato • tblRecetaValoracion Cada tabla con datos sobre características y preparación de diferentes recetas de todo el mundo. Se desea visualizar la tabla Recetas en RapidMiner.
  • 20. PASO 1 En el menú Operators, buscamos la opción Read Acces y lo arrastramos hacia la ventana de procesos.
  • 21. PASO 2 En el menú Parameters a la derecha de la ventana de procesos vamos a la opción database file y procedemos a buscar el archivo de Access que se desea enlazar. Una vez seleccionado el archivo, clic en Open
  • 22. PASO 3 Nuevamente en el menú Parameters, pero esta ocasión en la opción table name se despliega una lista con las tablas que posee la base de datos conectada a RapidMiner, se selecciona la que se desea visualizar y por último se debe terminar el proceso: Read Access  res Se da clic en Run or resumme the current process (el botón play) o se teclea F11.
  • 23. RESULTADO Se observa un total de 4625 recetas de cocina pertenencientes a la tabla Receta , correspondiente a la base de datos de Access enlazada al programa RapidMiner