Este documento describe un análisis de clustering realizado sobre datos de uso de redes sociales y estadísticas socioeconómicas de 50 ciudades españolas. El análisis identificó 3 clusters. El cluster 2 incluye ciudades con altos niveles de uso de Facebook y mayores tasas de desempleo y sedentarismo. Las ciudades en este cluster son las principales ciudades de España.
3. Objetivo:
Mostrar el uso de un modelo de no supervisado, a través del proceso de Clustering, haciendo uso del algoritmo K-Means.
Para esta finalidad, vamos a analizar la existencia de patrones mezclando datos de un estudio de uso de redes sociales
(https://thesocialmediafamily.com/informe-redes-sociales/#mc_embed_signup_scroll) , con medidas como la tasa de desempleo,
Población sedentaria, Salario medio por hora, Parques m2 por habitante, en 50 ciudades españolas (https://www.ine.es/).
A partir de las fuentes antes mencionadas, se ha elaborado un dataset con 50 observaciones, el cual tiene las siguientes variables:
• Variables obteniedas del estudio de uso de redes sociales ‘Comunidad’, 'Ciudad', 'Cantidad de perfiles facebook’, 'Usuarios
jóvenes (18-39)’, 'Usuarios adultos (40-64)', 'Usuarios mayores (+ 65)', 'Hombres’, 'Mujeres', 'Población’.
• Variables obtenidas del INE: 'Tasa desempleo ciudad', '% Población sedentaria’, 'Salario medio por hora', 'Parques m2/hab’. Están
expresados porcentualmente.
Para que los datos de todas las variables, tengan una escala similar, se indican valores porcentuales en función de la población. Por
ejemplo el campo 'Cantidad de perfiles facebook’ indica el porcentaje de usuarios, respecto a la población, para cada ciudad.
Es importante comentar que los datos del primer grupo son datos del 2020, y los datos obtenidos del INE son datos, que en su
momento reflejaban la realidad del 2017, no obstante nos servirán para mostrar el potencial del proceso de Clustering.
4. Análisis de las medidas estadísticas:
• La media de la cantidad de perfiles de facebook ronda alrededor del 70%.
• Podemos observar que la desviación de cantidad de perfiles de facebook que tienen las ciudades, es de 24.14 puntos de media. Esto nos indica
una alta variabilidad, a diferencia de las otras variables.
• El valor mínimo y máximo están bastante alejados.
• Podemos destacar también, en base a los cuartiles, que 25 ciudades analizadas tienen un porcentaje de usuarios de facebook inferior al 69,78%
y las otras 25 ciudades tienen un porcentaje de usuarios superior al 69,78%. Además 12 ciudades (25%), tienen un porcentaje de usuarios de
facebook superior al 89%.
• Hay ciudades donde existen personas que tienen más de una cuenta facebook ( > 100% de la población).
5. Distribución de los datos:
Se puede observar que, salvo las
variables “Usuarios adultos (40-64)” y
“Usuarios mayores (+65)”, las variables
son más menos uniformes.
6. Análisis de Correlación.
Se puede observar que las variables
'Cantidad de perfiles facebook’,
'Usuarios jóvenes (18-39)’, 'Usuarios
adultos (40-64)', 'Usuarios mayores (+
65)', 'Hombres’, 'Mujeres’ están
altamente correlacionados. Y era de
esperarse, el cálculo de todas ellas,
exceptuando la primera, está en
función de de la variable ‘'Cantidad
de perfiles facebook’.
Dada esta correlación, podríamos
obviar esta variables en el análisis
(exceptuando ‘Cantidad de perfiles
facebook’ desde luego). No obstante,
como indicaremos más adelante, tanto
considerándolas como no, se obtienen
resultados muy parecidos.
7. Identificación Nº Clusters
Utilizando la Curva Elbow, el número
de clusters recomendado es 3.
En el gráfico de la derecha,
confirmamos ese número con análisis
silhouette. Para el caso de 3 Clusters,
el score de cada cluster es superior al
score promedio, del mismo modo la
proporción de los datos es más
uniforme.
8. Clusters
Se muestra gráficamente los clusters
creados para las variables ‘Cantidad
de perfiles facebook’, ‘Tasa
desempleo ciudad’ , ‘% Población
sedentaria’, y ‘Salario medio por
hora’
9. Conclusiones:
• Se han agrupado las 50 ciudades españolas en 3 grupos o clusters.
• Los grupos obedecen a ciudades que tienen altas cantidades de perfiles facebook (96,23%), ciudades con niveles medios (66,42%), y
ciudades con cantidades de usuarios inferiores al 50% de su población (42,68%)
• De los 3 grupos, destacamos el Cluster 2.
• Existe un alto porcentaje de perfiles facebook (96,23%).
• En este grupo hay 18 ciudades donde además se observa un alto porcentaje de mujeres que usan facebook, respecto a los hombres
(comparado con los demás grupos).
• Presenta un porcentaje de usuarios entre 18 y 39 años, así como usuarios entre 40 y 64 años, bastante mayor comparado con los otros
grupos.
• La tasa de Población sedentaria y tasa de desempleo es superior a los otros Clusters.
• Podemos observar además que de las variables obtenidas del INE, la variable ‘% Población sedentaria’ es más significativa que las otras, por
tanto podríamos pensar que el nivel de sedentarismo en una ciudad, influye de alguna manera en el uso de la red social facebook.
Las ciudades del grupo 2 son: Alicante, Almería, Barcelona, Bilbao, Castellón de la plana, Granada, Huelva, La Coruña, Las Palmas de G.C.,
Madrid, Málaga, Murcia, Palma, Santa Cruz de Tenerife, Santander, Sevilla, Tarragona y Valencia