SlideShare una empresa de Scribd logo
Clusters con R
1. Planteamiento general
Como es sabido, de cualquier dataset se pueden extraer un número k de clusters, número que en el
caso de cluster no jerárquico hay que elegir de antemano. Además, el procedimiento habitualmente
utilizado se basa en el cálculo de las similaridades o disimilaridades de los objetos, cosa que se
puede realizar de diversas formas (distancias euclideanas o de otro tipo). En fin, el algoritmo
utilizado para la agrupación de objetos parte de una elección aleatoria de puntos de partida, que
varía en cada intento, lo que quiere decir que la repetición de un mismo procedimiento puede
arrojar resultados (algo) diferentes.
Por todo ello es aconsejable incluir en la estrategia de análisis tres elementos:
• Analizar previamente si el dataset contiene o no objetos “clusterables” y en caso afirmativo
realizar una estimación del número más probable de clusters, probando entonces el resultado
a obtener según el número k de cluster elegido
• Realizar el cluster no una vez sino varias, utilizando -si no hay un criterio objetivo previo
que lo indique- un abanico de medidas de similaridad/disimilaridad y de procedimientos de
cluster diferentes, asignando en cada caso a cada objeto el cluster al que pertenecería y ver si
el resultado tiene sentido para la finalidad del análisis
• Evaluar a posteriori la calidad del cluster obtenido y comparar resultados
2. Procedimientos
2.1. Exploración del dataset
Si las variables de nuestro dataset son todas numéricas es aconsejable estimar las correlaciones
entre las mismas ya que es posible que un grupo de ellas en realidad sean reflejo de uno o varios
factores subyacentes. En este caso habría que realizar un Análisis de Componentes Principales
(PCA) y utilizar en el cluster los factores obtenidos. No obstante, en R existen funciones que
realizan esta doble operación “de una vez”.
Además si se detectan objetos con datos extremos (“outliers”) es mejor utilizar el método
Partitioning Around Medoids (PAM), en vez de k-means, ya que es menos sensible a dichos
“outliers”.
Los objetos con ausencia de valores para algunas variables deben ser eliminados del análisis o
poner en marcha procedimientos de “relleno” de esos valores “faltantes” (NAs en R).
Hay que evitar el impacto de diferentes magnitudes de las variables estandarizando dichas
variables: función scale() en R.
2.2. ¿Son nuestros datos “clusterables”?
En estadística se denomina “Assessing Clustering Tendency” al procedimiento para averiguar si un
dataset está uniformemente o aleatoriamente distribuido o si, al contrario, los objetos que muestran
una tendencia a agruparse en “clusters”. Se utiliza para ello el estadístico de Hopkins (H), que mide
la probabilidad de que un dataset está generado por una distribución uniforme de datos, es decir la
distribución espacial aleatoria de los datos. La hipótesis nula es que los datos están uniformemente
distribuidos, es decir no hay clusters significativos y la hipótesis alternativa es que los datos no
están uniformemente distribuidos, es decir existen clusters significativos.
En R dos funciones realizan este cálculo con idénticos resultados: la función get_clust_tendency()
del paquete {factoextra} y la función hopkins() del paquete {clustertend}. Un valor de H cercano
a 0.5 o por encima significa que los datos están aleatoria o uniformemente distribuidos. Si H es
cercano a cero, podemos rechazar la hipótesis nula y concluir que sí existen clusters significativos.
2.3. Estimación a priori del número de k clusters
En R se puede utilizar el método “elbow” para estimar el número óptimo de clusters, con la función
fviz_nbclust() del paquete {factoextra}. Otra alternativa se obtiene con la función NbClust() del
paquete del mismo nombre que calcula 30 índices para elegir el mejor número de clusters, tomando
entonces el número más frecuente.
2.4. Ponderación en el cluster
Cuando se quiere dar más importancia a unas variables que a otras, creo que la mejor forma es
reducir las “menos” importantes a sus posibles factores subyacentes y después utilizar estos factores
como variables para el cluster.
Si pensamos que hay algunas variables que tienen una fuerte relación entre sí, a diferencia del resto
del dataset, se puede combinar el PCA con el cluster k-means por medio de la función cluspca() del
paquete {clustrd}.
Si lo que queremos es ponderar los casos (objetos) el paquete {WeightedCluster} ofrece distintos
procedimientos.

Más contenido relacionado

Similar a Clusters con r

Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariadoLB: El Palmar
 
20 algoritmos
20 algoritmos20 algoritmos
20 algoritmosdiego
 
Vectores - Informática
Vectores - InformáticaVectores - Informática
Vectores - Informática
compumet sac
 
analisis de conglomerados prctica en spss
analisis de conglomerados prctica en spssanalisis de conglomerados prctica en spss
analisis de conglomerados prctica en spss
josephcruz74484
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
anag catal
 
Algoritmo, Ordenacion y Búsqueda
Algoritmo, Ordenacion y BúsquedaAlgoritmo, Ordenacion y Búsqueda
Algoritmo, Ordenacion y BúsquedaJavier Alvarez
 
Dialnet la relacionunidaddeanalisis
Dialnet la relacionunidaddeanalisisDialnet la relacionunidaddeanalisis
Dialnet la relacionunidaddeanalisis
Julyana Rojas
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
Jairo Acosta Solano
 
Acp educacion
Acp educacionAcp educacion
Acp educacion
fundacion ebenezer
 
Técnicas de análisis: Clustering
Técnicas de análisis: ClusteringTécnicas de análisis: Clustering
Técnicas de análisis: Clustering
Rafael Morales
 
QAP Correlación
QAP CorrelaciónQAP Correlación
QAP Correlación
Luis Alan Navarro
 
Aprendizaje bayesiano
Aprendizaje bayesianoAprendizaje bayesiano
Lectura unidad 9
Lectura unidad 9Lectura unidad 9
Lectura unidad 9
Jose Navarro
 
Spss
SpssSpss
Spss
edwinalb
 
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...Jorge Pacheco
 
Algoritmos de Clasificación
Algoritmos de ClasificaciónAlgoritmos de Clasificación
Algoritmos de Clasificación
UTPL
 
Examen Parcial 2
Examen Parcial 2Examen Parcial 2
Examen Parcial 2
Alexander Ulloa
 
Estadisticas de la investigación
Estadisticas de la investigaciónEstadisticas de la investigación
Estadisticas de la investigaciónDanelix Cordero
 
Busqueda
BusquedaBusqueda
Busqueda
Albert Diaz
 

Similar a Clusters con r (20)

Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
20 algoritmos
20 algoritmos20 algoritmos
20 algoritmos
 
Vectores - Informática
Vectores - InformáticaVectores - Informática
Vectores - Informática
 
analisis de conglomerados prctica en spss
analisis de conglomerados prctica en spssanalisis de conglomerados prctica en spss
analisis de conglomerados prctica en spss
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Algoritmo, Ordenacion y Búsqueda
Algoritmo, Ordenacion y BúsquedaAlgoritmo, Ordenacion y Búsqueda
Algoritmo, Ordenacion y Búsqueda
 
Dialnet la relacionunidaddeanalisis
Dialnet la relacionunidaddeanalisisDialnet la relacionunidaddeanalisis
Dialnet la relacionunidaddeanalisis
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Acp educacion
Acp educacionAcp educacion
Acp educacion
 
Técnicas de análisis: Clustering
Técnicas de análisis: ClusteringTécnicas de análisis: Clustering
Técnicas de análisis: Clustering
 
QAP Correlación
QAP CorrelaciónQAP Correlación
QAP Correlación
 
Aprendizaje bayesiano
Aprendizaje bayesianoAprendizaje bayesiano
Aprendizaje bayesiano
 
Lectura unidad 9
Lectura unidad 9Lectura unidad 9
Lectura unidad 9
 
Spss
SpssSpss
Spss
 
Principios de estadística
Principios de estadísticaPrincipios de estadística
Principios de estadística
 
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
 
Algoritmos de Clasificación
Algoritmos de ClasificaciónAlgoritmos de Clasificación
Algoritmos de Clasificación
 
Examen Parcial 2
Examen Parcial 2Examen Parcial 2
Examen Parcial 2
 
Estadisticas de la investigación
Estadisticas de la investigaciónEstadisticas de la investigación
Estadisticas de la investigación
 
Busqueda
BusquedaBusqueda
Busqueda
 

Último

LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
ManuelaReina3
 
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdfPaíses_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
JC Díaz Herrera
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
IrapuatoCmovamos
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
SantiagoMejia99
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
diegozuniga768
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
nahumrondanurbano
 
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdfMINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
RicardoNacevilla1
 
Instituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdfInstituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdf
JC Díaz Herrera
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
mvargasleveau
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
MelanieYuksselleCarr
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
brayansangar73
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
DieguinhoSalazar
 
mapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundariamapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundaria
ManuelAlbertoHeredia1
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Emisor Digital
 
Claves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdfClaves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdf
Emisor Digital
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
JosMuoz943377
 
PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.
MELANYANELKACRUZLEON
 

Último (19)

LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
Desarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamientoDesarrollo de habilidades de pensamiento
Desarrollo de habilidades de pensamiento
 
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdfPaíses_por_participacion_porcentual_en_el PNB global (2024) .pdf
Países_por_participacion_porcentual_en_el PNB global (2024) .pdf
 
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdfREPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
REPORTE DE HOMICIDIO DOLOSO-MAYO 2024.pdf
 
10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 
sistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbssistema paralingüística fhdjsjsbsnnssnnsbs
sistema paralingüística fhdjsjsbsnnssnnsbs
 
e learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhote learning^.pptxdieguearmandozuñiga. Comhot
e learning^.pptxdieguearmandozuñiga. Comhot
 
3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt3-Modelamiento de Procesos usando BPMN.ppt
3-Modelamiento de Procesos usando BPMN.ppt
 
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdfMINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
MINEDUC-MINEDUC-2023-00075-A Comité de Padres y Representantes.pdf
 
Instituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdfInstituciones financieras globales por efectivo disponible (2024).pdf
Instituciones financieras globales por efectivo disponible (2024).pdf
 
DEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entenderDEFENSA NACIONAL.ppt muy fácil de entender
DEFENSA NACIONAL.ppt muy fácil de entender
 
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptxACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
ACOMPAÑAMIENTO INTEGRAL DE VALORES .pptx
 
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje  o educativas E-LEARNING.pdfComunidades virtuales de aprendizaje  o educativas E-LEARNING.pdf
Comunidades virtuales de aprendizaje o educativas E-LEARNING.pdf
 
contraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadascontraguerrilla.pdf sobre anti emboscadas
contraguerrilla.pdf sobre anti emboscadas
 
mapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundariamapa conceptual y mental para niños de primaria y secundaria
mapa conceptual y mental para niños de primaria y secundaria
 
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdfInforme de violencia mayo 2024 - Multigremial Mayo.pdf
Informe de violencia mayo 2024 - Multigremial Mayo.pdf
 
Claves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdfClaves Ipsos numero 29 --- Mayo 2024.pdf
Claves Ipsos numero 29 --- Mayo 2024.pdf
 
Presentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramasPresentación sobre la geometría, aplicaciones y ramas
Presentación sobre la geometría, aplicaciones y ramas
 
PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.PPT Interes-Simple-pptx.pptx-ejercicios.
PPT Interes-Simple-pptx.pptx-ejercicios.
 

Clusters con r

  • 1. Clusters con R 1. Planteamiento general Como es sabido, de cualquier dataset se pueden extraer un número k de clusters, número que en el caso de cluster no jerárquico hay que elegir de antemano. Además, el procedimiento habitualmente utilizado se basa en el cálculo de las similaridades o disimilaridades de los objetos, cosa que se puede realizar de diversas formas (distancias euclideanas o de otro tipo). En fin, el algoritmo utilizado para la agrupación de objetos parte de una elección aleatoria de puntos de partida, que varía en cada intento, lo que quiere decir que la repetición de un mismo procedimiento puede arrojar resultados (algo) diferentes. Por todo ello es aconsejable incluir en la estrategia de análisis tres elementos: • Analizar previamente si el dataset contiene o no objetos “clusterables” y en caso afirmativo realizar una estimación del número más probable de clusters, probando entonces el resultado a obtener según el número k de cluster elegido • Realizar el cluster no una vez sino varias, utilizando -si no hay un criterio objetivo previo que lo indique- un abanico de medidas de similaridad/disimilaridad y de procedimientos de cluster diferentes, asignando en cada caso a cada objeto el cluster al que pertenecería y ver si el resultado tiene sentido para la finalidad del análisis • Evaluar a posteriori la calidad del cluster obtenido y comparar resultados 2. Procedimientos 2.1. Exploración del dataset Si las variables de nuestro dataset son todas numéricas es aconsejable estimar las correlaciones entre las mismas ya que es posible que un grupo de ellas en realidad sean reflejo de uno o varios factores subyacentes. En este caso habría que realizar un Análisis de Componentes Principales (PCA) y utilizar en el cluster los factores obtenidos. No obstante, en R existen funciones que realizan esta doble operación “de una vez”. Además si se detectan objetos con datos extremos (“outliers”) es mejor utilizar el método Partitioning Around Medoids (PAM), en vez de k-means, ya que es menos sensible a dichos “outliers”. Los objetos con ausencia de valores para algunas variables deben ser eliminados del análisis o poner en marcha procedimientos de “relleno” de esos valores “faltantes” (NAs en R). Hay que evitar el impacto de diferentes magnitudes de las variables estandarizando dichas variables: función scale() en R. 2.2. ¿Son nuestros datos “clusterables”? En estadística se denomina “Assessing Clustering Tendency” al procedimiento para averiguar si un dataset está uniformemente o aleatoriamente distribuido o si, al contrario, los objetos que muestran una tendencia a agruparse en “clusters”. Se utiliza para ello el estadístico de Hopkins (H), que mide la probabilidad de que un dataset está generado por una distribución uniforme de datos, es decir la
  • 2. distribución espacial aleatoria de los datos. La hipótesis nula es que los datos están uniformemente distribuidos, es decir no hay clusters significativos y la hipótesis alternativa es que los datos no están uniformemente distribuidos, es decir existen clusters significativos. En R dos funciones realizan este cálculo con idénticos resultados: la función get_clust_tendency() del paquete {factoextra} y la función hopkins() del paquete {clustertend}. Un valor de H cercano a 0.5 o por encima significa que los datos están aleatoria o uniformemente distribuidos. Si H es cercano a cero, podemos rechazar la hipótesis nula y concluir que sí existen clusters significativos. 2.3. Estimación a priori del número de k clusters En R se puede utilizar el método “elbow” para estimar el número óptimo de clusters, con la función fviz_nbclust() del paquete {factoextra}. Otra alternativa se obtiene con la función NbClust() del paquete del mismo nombre que calcula 30 índices para elegir el mejor número de clusters, tomando entonces el número más frecuente. 2.4. Ponderación en el cluster Cuando se quiere dar más importancia a unas variables que a otras, creo que la mejor forma es reducir las “menos” importantes a sus posibles factores subyacentes y después utilizar estos factores como variables para el cluster. Si pensamos que hay algunas variables que tienen una fuerte relación entre sí, a diferencia del resto del dataset, se puede combinar el PCA con el cluster k-means por medio de la función cluspca() del paquete {clustrd}. Si lo que queremos es ponderar los casos (objetos) el paquete {WeightedCluster} ofrece distintos procedimientos.