La caracterización de los usuarios mediante atributos sociodemográficos es un paso necesario previo a la realización de estudios de opinión a partir de información publicada por dichos usuarios en los medios sociales. En este trabajo se presentan, comparan y evalúan diversas técnicas para la identificación de los atributos “género” y “lugar de residencia”, a partir de los metadatos asociados a dichos usuarios, as ́ı como el contenido publicado y compartido por los mismos, y sus redes de amistad. Los resultados obtenidos demuestran que la información proporcionada por la red social es muy útil para identificar dichos atributos.
Social TV, más allá de la audiencia. Participación y relaciones
Extracción de atributos sociodemográficos de usuarios de redes sociales
1. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Caracterización de los
usuarios de medios
sociales mediante lugar
de residencia y género
Óscar Muñoz-García
Havas Media Group
oscar.munoz@havasmg.com
Madrid, 18 de Septiembre de 2013
Jesús Lanchas
Acceso
jlanchas@acceso.com
David Prieto
Acceso
dprieto@acceso.com
2. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
3. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Introducción
Atributos sociodemográficos extraídos
• Lugar de residencia
• Género
Fuentes de información
• Metadatos asociados a los usuarios
• Contenido publicado por los usuarios
• Redes de amistad
Valor
• Extrapolación de métricas. De usuarios
virtuales al mundo real.
• Definición de targets en campañas de
comunicación o publicidad.
Reto: información no formalizada. Por
ejemplo usuarios de Twitter.
4. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia
5. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia
Donde el usuario vive habitualmente
Metadatos de
localización del
usuario
Redes de
contactos
Descripción del
usuario
Contenido
generado por el
usuario
Híbrido
6. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: metadatos de localización
Normalización del atributo location:
Google Maps Geocoding API.
Inconvenientes
• Ambigüedades: “Santiago” (¿de Chile o
de Compostela?)
• Esta técnica necesita que el usuario
especifique el atributo location.
http://maps.googleapis.com/maps/api/geocode/json?address=Madrid&sensor=false
7. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: redes de contactos
Explota el principio de homofilia en
redes sociales.
Pasos:
1. Obtenemos la lista de lugares de residencia
de los contactos del usuario, con la técnica
anterior.
2. Filtro iterativo por frecuencia, empezando
por el país.
Leganés, Madrid, España
Moraleja, Cáceres, España
La Moraleja, Madrid, España
Cadaqués, Girona, España
Roses, Girona, España
Alcalá de Henares, Madrid, España
Dubái, Emiratos Árabes Unidos
París, Francia
Leganés, Madrid, España
Moraleja, Cáceres, España
La Moraleja, Madrid, España
Cadaqués, Girona, España
Roses, Girona, España
Alcalá de Henares, Madrid, España
Leganés, Madrid, España
La Moraleja, Madrid, España
Alcalá de Henares, Madrid, España
Leganés, Madrid, España
España
Madrid
Resultado
8. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: descripción del usuario
Pasos:
1. Identificación del idioma de la descripción,
con Freeling.
2. Clasificación de entidades nombradas, con
Freeling (castellano, inglés, gallego y
portugués).
3. Normalización (Geocoding API) de las
entidades de tipo LOCATION.
4. Filtro iterativo por frecuencia, empezando
por el país.
9. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: en base al contenido
Pasos:
1. Identificación del idioma del contenido con
Freeling.
2. Normalización sintáctica para tweets.
3. Clasificación de entidades nombradas, con
Freeling (castellano, inglés, gallego y
portugués).
4. Normalización (Geocoding API) de las
entidades de tipo LOCATION.
5. Filtro iterativo por frecuencia, empezando
por el país.
10. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: técnica híbrida
Pasos:
1. En base al contenido generado por el
usuario analizado.
2. Si no tenemos lugares de residencia
candidatos:
• Para cada contacto: lugar de residencia en
base al contenido que haya generado.
• Filtro iterativo por frecuencia, empezando
por el país.
Análisis del contenido
generado por el usuario
Análisis del contenido
generado por la red
11. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Género
12. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Género
Masculino - Femenino
Nombre de usuario Menciones al usuario
13. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Género: nombre de usuario
Explotación de metadata pública del
usuario relacionada con el nombre de
usuario, por ejemplo name en Twitter.
Listas de nombres propios
• Fuente: INE, nombres de ciudadanos españoles.
• Nombres unisex eliminados (por ejemplo Pau,
Loreto, Reyes)
• Previamente clasificadas por género
• 18.391 nombres masculinos
• 19.511 nombres femeninos
• Comparados contra un histórico de names y
screen names de cada usuario.
14. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Género: menciones al usuario
Explotación de la información contenida en
las menciones.
Buscamos el género de los términos que
acompañan al nombre de usuario.
Pasos:
1. Intentamos la técnica anterior, en base al nombre.
2. Recuperación de contenido que mencione a nuestro
usuario y construcción del árbol de dependencia
sintáctica.
3. Buscamos información de género en el árbol:
A.En el nodo padre del nombre de usuario mencionado
(“Mi tío Daureos”).
B.En los nodos hijos del nombre de usuario mencionado
(“Vio a Daureos enfermo y triste”).
C.En oraciones atributivas buscamos el género del
atributo (“Daureos es trabajador”)
15. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Evaluación
16. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Evaluación: lugar de residencia
Corpus de evaluación: 1.080 usuarios de Twitter.
11 países: Argentina, Chile, Colombia, España, USA,
Japón, México, Sudáfrica, Suiza, Uruguay y Venezuela.
Contenido generado en varios idiomas, destacando
español e inglés.
Técnica de red de contactos limitada a 20 usuarios: 10
followers + 10 friends, por restricciones de la API.
Técnica basada en el análisis de contenido limitada a 20
tweets, por las mismas restricciones de la API.
Accuracy
81%
Técnica basada en la red
de contactos
86%
17. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Evaluación: aplicación método basado en menciones
Corpus de evaluación: 69.261 usuarios
• Autores que han escrito algún tweet en castellano (Lingpipe) entre 29/Mayo/2012 y 27/Marzo/2012.
• Tweets que mencionan a estos usuarios.
Femenino
9,284
13%
Masculino
36,746
53%
No
identificado
23,231
34%
Técnica basada en
nombre de usuario
Femenino
9,386
14%
Masculino
37,010
53%
No
identificado
22,865
33%
Técnica basada en
menciones
Aplicación
Femenino: + 102
Masculino: + 264
+1%
18. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Evaluación: precisión y cobertura de género
Corpus de evaluación: 1.509 usuarios anotados (558 femeninos, 621 masculinos, 330 neutros).
0.97 0.98
0.78 0.8
0
0.2
0.4
0.6
0.8
1
Femenino Masculino
Usernames Menciones
0.87
0.8
0.95
0.85
0
0.2
0.4
0.6
0.8
1
Femenino Masculino
Usernames Menciones
Precisión Cobertura
19. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Conclusiones
20. • Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Conclusiones
Identificación del lugar de residencia
• Mejor con la información de la red de contactos que en base al contenido generado por el usuario.
• Los lugares citados no tienen que estar relacionados con el lugar de residencia.
Identificación del género
• Resultados buenos (sobre todo en términos de precisión) con la técnica simple de las listas de nombres.
• Implementable en un sistema de producción con elevada carga de ingesta.
• La técnica basada en menciones amplía la cobertura, gracias parcialmente a las peculiaridades del castellano.
Trabajos futuros
Continuar con la identificación de otros atributos sociodemográficos: edad, orientación política e intereses.