SlideShare una empresa de Scribd logo
1 de 2
Clusters con R
1. Planteamiento general
Como es sabido, de cualquier dataset se pueden extraer un número k de clusters, número que en el
caso de cluster no jerárquico hay que elegir de antemano. Además, el procedimiento habitualmente
utilizado se basa en el cálculo de las similaridades o disimilaridades de los objetos, cosa que se
puede realizar de diversas formas (distancias euclideanas o de otro tipo). En fin, el algoritmo
utilizado para la agrupación de objetos parte de una elección aleatoria de puntos de partida, que
varía en cada intento, lo que quiere decir que la repetición de un mismo procedimiento puede
arrojar resultados (algo) diferentes.
Por todo ello es aconsejable incluir en la estrategia de análisis tres elementos:
• Analizar previamente si el dataset contiene o no objetos “clusterables” y en caso afirmativo
realizar una estimación del número más probable de clusters, probando entonces el resultado
a obtener según el número k de cluster elegido
• Realizar el cluster no una vez sino varias, utilizando -si no hay un criterio objetivo previo
que lo indique- un abanico de medidas de similaridad/disimilaridad y de procedimientos de
cluster diferentes, asignando en cada caso a cada objeto el cluster al que pertenecería y ver si
el resultado tiene sentido para la finalidad del análisis
• Evaluar a posteriori la calidad del cluster obtenido y comparar resultados
2. Procedimientos
2.1. Exploración del dataset
Si las variables de nuestro dataset son todas numéricas es aconsejable estimar las correlaciones
entre las mismas ya que es posible que un grupo de ellas en realidad sean reflejo de uno o varios
factores subyacentes. En este caso habría que realizar un Análisis de Componentes Principales
(PCA) y utilizar en el cluster los factores obtenidos. No obstante, en R existen funciones que
realizan esta doble operación “de una vez”.
Además si se detectan objetos con datos extremos (“outliers”) es mejor utilizar el método
Partitioning Around Medoids (PAM), en vez de k-means, ya que es menos sensible a dichos
“outliers”.
Los objetos con ausencia de valores para algunas variables deben ser eliminados del análisis o
poner en marcha procedimientos de “relleno” de esos valores “faltantes” (NAs en R).
Hay que evitar el impacto de diferentes magnitudes de las variables estandarizando dichas
variables: función scale() en R.
2.2. ¿Son nuestros datos “clusterables”?
En estadística se denomina “Assessing Clustering Tendency” al procedimiento para averiguar si un
dataset está uniformemente o aleatoriamente distribuido o si, al contrario, los objetos que muestran
una tendencia a agruparse en “clusters”. Se utiliza para ello el estadístico de Hopkins (H), que mide
la probabilidad de que un dataset está generado por una distribución uniforme de datos, es decir la
distribución espacial aleatoria de los datos. La hipótesis nula es que los datos están uniformemente
distribuidos, es decir no hay clusters significativos y la hipótesis alternativa es que los datos no
están uniformemente distribuidos, es decir existen clusters significativos.
En R dos funciones realizan este cálculo con idénticos resultados: la función get_clust_tendency()
del paquete {factoextra} y la función hopkins() del paquete {clustertend}. Un valor de H cercano
a 0.5 o por encima significa que los datos están aleatoria o uniformemente distribuidos. Si H es
cercano a cero, podemos rechazar la hipótesis nula y concluir que sí existen clusters significativos.
2.3. Estimación a priori del número de k clusters
En R se puede utilizar el método “elbow” para estimar el número óptimo de clusters, con la función
fviz_nbclust() del paquete {factoextra}. Otra alternativa se obtiene con la función NbClust() del
paquete del mismo nombre que calcula 30 índices para elegir el mejor número de clusters, tomando
entonces el número más frecuente.
2.4. Ponderación en el cluster
Cuando se quiere dar más importancia a unas variables que a otras, creo que la mejor forma es
reducir las “menos” importantes a sus posibles factores subyacentes y después utilizar estos factores
como variables para el cluster.
Si pensamos que hay algunas variables que tienen una fuerte relación entre sí, a diferencia del resto
del dataset, se puede combinar el PCA con el cluster k-means por medio de la función cluspca() del
paquete {clustrd}.
Si lo que queremos es ponderar los casos (objetos) el paquete {WeightedCluster} ofrece distintos
procedimientos.

Más contenido relacionado

Similar a Clusters con r

Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariadoLB: El Palmar
 
20 algoritmos
20 algoritmos20 algoritmos
20 algoritmosdiego
 
Vectores - Informática
Vectores - InformáticaVectores - Informática
Vectores - Informáticacompumet sac
 
analisis de conglomerados prctica en spss
analisis de conglomerados prctica en spssanalisis de conglomerados prctica en spss
analisis de conglomerados prctica en spssjosephcruz74484
 
Minería de datos
Minería de datosMinería de datos
Minería de datosanag catal
 
Algoritmo, Ordenacion y Búsqueda
Algoritmo, Ordenacion y BúsquedaAlgoritmo, Ordenacion y Búsqueda
Algoritmo, Ordenacion y BúsquedaJavier Alvarez
 
Dialnet la relacionunidaddeanalisis
Dialnet la relacionunidaddeanalisisDialnet la relacionunidaddeanalisis
Dialnet la relacionunidaddeanalisisJulyana Rojas
 
Técnicas de análisis: Clustering
Técnicas de análisis: ClusteringTécnicas de análisis: Clustering
Técnicas de análisis: ClusteringRafael Morales
 
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...Jorge Pacheco
 
Algoritmos de Clasificación
Algoritmos de ClasificaciónAlgoritmos de Clasificación
Algoritmos de ClasificaciónUTPL
 
Estadisticas de la investigación
Estadisticas de la investigaciónEstadisticas de la investigación
Estadisticas de la investigaciónDanelix Cordero
 

Similar a Clusters con r (20)

Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
20 algoritmos
20 algoritmos20 algoritmos
20 algoritmos
 
Vectores - Informática
Vectores - InformáticaVectores - Informática
Vectores - Informática
 
analisis de conglomerados prctica en spss
analisis de conglomerados prctica en spssanalisis de conglomerados prctica en spss
analisis de conglomerados prctica en spss
 
Minería de datos
Minería de datosMinería de datos
Minería de datos
 
Algoritmo, Ordenacion y Búsqueda
Algoritmo, Ordenacion y BúsquedaAlgoritmo, Ordenacion y Búsqueda
Algoritmo, Ordenacion y Búsqueda
 
Dialnet la relacionunidaddeanalisis
Dialnet la relacionunidaddeanalisisDialnet la relacionunidaddeanalisis
Dialnet la relacionunidaddeanalisis
 
Aprendizaje no supervisado
Aprendizaje no supervisadoAprendizaje no supervisado
Aprendizaje no supervisado
 
Acp educacion
Acp educacionAcp educacion
Acp educacion
 
Técnicas de análisis: Clustering
Técnicas de análisis: ClusteringTécnicas de análisis: Clustering
Técnicas de análisis: Clustering
 
QAP Correlación
QAP CorrelaciónQAP Correlación
QAP Correlación
 
Aprendizaje bayesiano
Aprendizaje bayesianoAprendizaje bayesiano
Aprendizaje bayesiano
 
Lectura unidad 9
Lectura unidad 9Lectura unidad 9
Lectura unidad 9
 
Spss
SpssSpss
Spss
 
Principios de estadística
Principios de estadísticaPrincipios de estadística
Principios de estadística
 
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
La relación Unidad de Análisis-Unidad de Observación- Unidad de Información: ...
 
Algoritmos de Clasificación
Algoritmos de ClasificaciónAlgoritmos de Clasificación
Algoritmos de Clasificación
 
Examen Parcial 2
Examen Parcial 2Examen Parcial 2
Examen Parcial 2
 
Estadisticas de la investigación
Estadisticas de la investigaciónEstadisticas de la investigación
Estadisticas de la investigación
 
Busqueda
BusquedaBusqueda
Busqueda
 

Último

CONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionCONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionJosueVallejo10
 
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaDiarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaraymaris1914
 
4958documentodeaptitud_PUENTE PIEDRA.pdf
4958documentodeaptitud_PUENTE PIEDRA.pdf4958documentodeaptitud_PUENTE PIEDRA.pdf
4958documentodeaptitud_PUENTE PIEDRA.pdfcristianojedac11
 
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptxceliajessicapinedava
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 
Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.gpoiquicuellar
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOReluniversocom
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfhees071224mmcrpna1
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docrobinsonsjuan
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 
la-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesla-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesalvarojosephyucracol
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfMartinRodriguezchave1
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOsecundariatecnica891
 
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfDaniloAstoVeliz
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfJC Díaz Herrera
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoSantiagoRodriguezLoz
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 

Último (20)

CONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacionCONTROLES Y EXPERIMENTACION presentacion
CONTROLES Y EXPERIMENTACION presentacion
 
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conductaDiarrea aguda en pacientes Pediatricos tratamiento y conducta
Diarrea aguda en pacientes Pediatricos tratamiento y conducta
 
4958documentodeaptitud_PUENTE PIEDRA.pdf
4958documentodeaptitud_PUENTE PIEDRA.pdf4958documentodeaptitud_PUENTE PIEDRA.pdf
4958documentodeaptitud_PUENTE PIEDRA.pdf
 
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
2.8 CRONOGRAMA TALLER DE INVESTIGACION 1 .pptx
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 
Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.Civilizacióne Precolonbinas Resumen pdf.
Civilizacióne Precolonbinas Resumen pdf.
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADORPREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
PREGUNTA E REFÉRENDUM 21 DE ABRIL ECUADOR
 
Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
Mapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdfMapa de riesgos de un cine, equipo 4.pdf
Mapa de riesgos de un cine, equipo 4.pdf
 
SESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.docSESIONES ABRIL para sexto grado de nivel primario.doc
SESIONES ABRIL para sexto grado de nivel primario.doc
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 
la-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantesla-antigua-Grecia, datos y curiosidades mas relevantes
la-antigua-Grecia, datos y curiosidades mas relevantes
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdfTABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
TABLERO-DE-CONTROL-SOFOMES-ENR_08012024.pdf
 
FORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASOFORMATO INVENTARIO MOBILIARIO PASO A PASO
FORMATO INVENTARIO MOBILIARIO PASO A PASO
 
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdfANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
ANÁLISIS DE LA ÉTICA UTILIRALISTA DE JEREMY BENTHAM.pdf
 
Las familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdfLas familias más ricas dentro del sionismo (2024).pdf
Las familias más ricas dentro del sionismo (2024).pdf
 
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf SantiagoAREA TECNOLOGIA E INFORMATICA.pdf Santiago
AREA TECNOLOGIA E INFORMATICA.pdf Santiago
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 

Clusters con r

  • 1. Clusters con R 1. Planteamiento general Como es sabido, de cualquier dataset se pueden extraer un número k de clusters, número que en el caso de cluster no jerárquico hay que elegir de antemano. Además, el procedimiento habitualmente utilizado se basa en el cálculo de las similaridades o disimilaridades de los objetos, cosa que se puede realizar de diversas formas (distancias euclideanas o de otro tipo). En fin, el algoritmo utilizado para la agrupación de objetos parte de una elección aleatoria de puntos de partida, que varía en cada intento, lo que quiere decir que la repetición de un mismo procedimiento puede arrojar resultados (algo) diferentes. Por todo ello es aconsejable incluir en la estrategia de análisis tres elementos: • Analizar previamente si el dataset contiene o no objetos “clusterables” y en caso afirmativo realizar una estimación del número más probable de clusters, probando entonces el resultado a obtener según el número k de cluster elegido • Realizar el cluster no una vez sino varias, utilizando -si no hay un criterio objetivo previo que lo indique- un abanico de medidas de similaridad/disimilaridad y de procedimientos de cluster diferentes, asignando en cada caso a cada objeto el cluster al que pertenecería y ver si el resultado tiene sentido para la finalidad del análisis • Evaluar a posteriori la calidad del cluster obtenido y comparar resultados 2. Procedimientos 2.1. Exploración del dataset Si las variables de nuestro dataset son todas numéricas es aconsejable estimar las correlaciones entre las mismas ya que es posible que un grupo de ellas en realidad sean reflejo de uno o varios factores subyacentes. En este caso habría que realizar un Análisis de Componentes Principales (PCA) y utilizar en el cluster los factores obtenidos. No obstante, en R existen funciones que realizan esta doble operación “de una vez”. Además si se detectan objetos con datos extremos (“outliers”) es mejor utilizar el método Partitioning Around Medoids (PAM), en vez de k-means, ya que es menos sensible a dichos “outliers”. Los objetos con ausencia de valores para algunas variables deben ser eliminados del análisis o poner en marcha procedimientos de “relleno” de esos valores “faltantes” (NAs en R). Hay que evitar el impacto de diferentes magnitudes de las variables estandarizando dichas variables: función scale() en R. 2.2. ¿Son nuestros datos “clusterables”? En estadística se denomina “Assessing Clustering Tendency” al procedimiento para averiguar si un dataset está uniformemente o aleatoriamente distribuido o si, al contrario, los objetos que muestran una tendencia a agruparse en “clusters”. Se utiliza para ello el estadístico de Hopkins (H), que mide la probabilidad de que un dataset está generado por una distribución uniforme de datos, es decir la
  • 2. distribución espacial aleatoria de los datos. La hipótesis nula es que los datos están uniformemente distribuidos, es decir no hay clusters significativos y la hipótesis alternativa es que los datos no están uniformemente distribuidos, es decir existen clusters significativos. En R dos funciones realizan este cálculo con idénticos resultados: la función get_clust_tendency() del paquete {factoextra} y la función hopkins() del paquete {clustertend}. Un valor de H cercano a 0.5 o por encima significa que los datos están aleatoria o uniformemente distribuidos. Si H es cercano a cero, podemos rechazar la hipótesis nula y concluir que sí existen clusters significativos. 2.3. Estimación a priori del número de k clusters En R se puede utilizar el método “elbow” para estimar el número óptimo de clusters, con la función fviz_nbclust() del paquete {factoextra}. Otra alternativa se obtiene con la función NbClust() del paquete del mismo nombre que calcula 30 índices para elegir el mejor número de clusters, tomando entonces el número más frecuente. 2.4. Ponderación en el cluster Cuando se quiere dar más importancia a unas variables que a otras, creo que la mejor forma es reducir las “menos” importantes a sus posibles factores subyacentes y después utilizar estos factores como variables para el cluster. Si pensamos que hay algunas variables que tienen una fuerte relación entre sí, a diferencia del resto del dataset, se puede combinar el PCA con el cluster k-means por medio de la función cluspca() del paquete {clustrd}. Si lo que queremos es ponderar los casos (objetos) el paquete {WeightedCluster} ofrece distintos procedimientos.