El documento describe varios métodos para realizar agrupamiento de clústeres (clustering) con R. Recomienda 1) analizar previamente si los datos son "clusterables" y estimar el número de clústeres, 2) realizar múltiples análisis variando los parámetros, y 3) evaluar la calidad de los resultados. Explica métodos como PAM, PCA, estandarización de variables, y funciones como hopkins(), elbow() y NbClust() para estimar la tendencia a formar clústeres y el número óptimo de ellos.
El análisis de agrupaciones en un conjunto de datos, o clustering, es una de las técnicas exploratorias de mayor utilidad en la comprensión y caracterización de los problemas.
Esta técnica tiene una gran utilidad en determinar el número óptimo de subconjuntos y sus intervalos dentro de grandes volúmenes de información, lo que a su vez tiene aplicación en áreas como el marketing, la astrofísica o la investigación farmacéutica.
En esta presentación, correspondiente al seminario impartido en Mayo de 2016, aprenderás los conceptos básicos de las técnicas de agrupación y el algoritmo más popular: el cálculo de k-means.
Describe brevemente la metodología para estimar la asociación o correlación entre dos matrices y la prueba de significancia estadística a través del procedimiento de asignación cuadrática (QAP).
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
El análisis de agrupaciones en un conjunto de datos, o clustering, es una de las técnicas exploratorias de mayor utilidad en la comprensión y caracterización de los problemas.
Esta técnica tiene una gran utilidad en determinar el número óptimo de subconjuntos y sus intervalos dentro de grandes volúmenes de información, lo que a su vez tiene aplicación en áreas como el marketing, la astrofísica o la investigación farmacéutica.
En esta presentación, correspondiente al seminario impartido en Mayo de 2016, aprenderás los conceptos básicos de las técnicas de agrupación y el algoritmo más popular: el cálculo de k-means.
Describe brevemente la metodología para estimar la asociación o correlación entre dos matrices y la prueba de significancia estadística a través del procedimiento de asignación cuadrática (QAP).
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
Este documento ha sido elaborado por el Observatorio Ciudadano de Seguridad Justicia y Legalidad de Irapuato siendo nuestro propósito conocer datos sociodemográficos en conjunto con información de incidencia delictiva de las 10 colonias y/o comunidades que del año 2020 a la fecha han tenido mayor incidencia.
Existen muchas más colonias que presentan cifras y datos en materia de seguridad, sin embargo, en este primer acercamiento lo que se prevées darle al lector una idea de como se encuentran las colonias analizadas, tomando como referencia los datos del INEGI 2020, datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública del 2020 al 2023 y las bases de datos propias que desde el 2017 el Observatorio Ciudadano ha recopilado de manera puntual con datos de las vıć timas de homicidio doloso, accidentes de tránsito, personas lesionadas por arma de fuego, entre otros indicadores.
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
1. Clusters con R
1. Planteamiento general
Como es sabido, de cualquier dataset se pueden extraer un número k de clusters, número que en el
caso de cluster no jerárquico hay que elegir de antemano. Además, el procedimiento habitualmente
utilizado se basa en el cálculo de las similaridades o disimilaridades de los objetos, cosa que se
puede realizar de diversas formas (distancias euclideanas o de otro tipo). En fin, el algoritmo
utilizado para la agrupación de objetos parte de una elección aleatoria de puntos de partida, que
varía en cada intento, lo que quiere decir que la repetición de un mismo procedimiento puede
arrojar resultados (algo) diferentes.
Por todo ello es aconsejable incluir en la estrategia de análisis tres elementos:
• Analizar previamente si el dataset contiene o no objetos “clusterables” y en caso afirmativo
realizar una estimación del número más probable de clusters, probando entonces el resultado
a obtener según el número k de cluster elegido
• Realizar el cluster no una vez sino varias, utilizando -si no hay un criterio objetivo previo
que lo indique- un abanico de medidas de similaridad/disimilaridad y de procedimientos de
cluster diferentes, asignando en cada caso a cada objeto el cluster al que pertenecería y ver si
el resultado tiene sentido para la finalidad del análisis
• Evaluar a posteriori la calidad del cluster obtenido y comparar resultados
2. Procedimientos
2.1. Exploración del dataset
Si las variables de nuestro dataset son todas numéricas es aconsejable estimar las correlaciones
entre las mismas ya que es posible que un grupo de ellas en realidad sean reflejo de uno o varios
factores subyacentes. En este caso habría que realizar un Análisis de Componentes Principales
(PCA) y utilizar en el cluster los factores obtenidos. No obstante, en R existen funciones que
realizan esta doble operación “de una vez”.
Además si se detectan objetos con datos extremos (“outliers”) es mejor utilizar el método
Partitioning Around Medoids (PAM), en vez de k-means, ya que es menos sensible a dichos
“outliers”.
Los objetos con ausencia de valores para algunas variables deben ser eliminados del análisis o
poner en marcha procedimientos de “relleno” de esos valores “faltantes” (NAs en R).
Hay que evitar el impacto de diferentes magnitudes de las variables estandarizando dichas
variables: función scale() en R.
2.2. ¿Son nuestros datos “clusterables”?
En estadística se denomina “Assessing Clustering Tendency” al procedimiento para averiguar si un
dataset está uniformemente o aleatoriamente distribuido o si, al contrario, los objetos que muestran
una tendencia a agruparse en “clusters”. Se utiliza para ello el estadístico de Hopkins (H), que mide
la probabilidad de que un dataset está generado por una distribución uniforme de datos, es decir la
2. distribución espacial aleatoria de los datos. La hipótesis nula es que los datos están uniformemente
distribuidos, es decir no hay clusters significativos y la hipótesis alternativa es que los datos no
están uniformemente distribuidos, es decir existen clusters significativos.
En R dos funciones realizan este cálculo con idénticos resultados: la función get_clust_tendency()
del paquete {factoextra} y la función hopkins() del paquete {clustertend}. Un valor de H cercano
a 0.5 o por encima significa que los datos están aleatoria o uniformemente distribuidos. Si H es
cercano a cero, podemos rechazar la hipótesis nula y concluir que sí existen clusters significativos.
2.3. Estimación a priori del número de k clusters
En R se puede utilizar el método “elbow” para estimar el número óptimo de clusters, con la función
fviz_nbclust() del paquete {factoextra}. Otra alternativa se obtiene con la función NbClust() del
paquete del mismo nombre que calcula 30 índices para elegir el mejor número de clusters, tomando
entonces el número más frecuente.
2.4. Ponderación en el cluster
Cuando se quiere dar más importancia a unas variables que a otras, creo que la mejor forma es
reducir las “menos” importantes a sus posibles factores subyacentes y después utilizar estos factores
como variables para el cluster.
Si pensamos que hay algunas variables que tienen una fuerte relación entre sí, a diferencia del resto
del dataset, se puede combinar el PCA con el cluster k-means por medio de la función cluspca() del
paquete {clustrd}.
Si lo que queremos es ponderar los casos (objetos) el paquete {WeightedCluster} ofrece distintos
procedimientos.