SlideShare una empresa de Scribd logo
1 de 21
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Caracterización de los
usuarios de medios
sociales mediante lugar
de residencia y género
Óscar Muñoz-García
Havas Media Group
oscar.munoz@havasmg.com
Madrid, 18 de Septiembre de 2013
Jesús Lanchas
Acceso
jlanchas@acceso.com
David Prieto
Acceso
dprieto@acceso.com
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Introducción
Atributos sociodemográficos extraídos
• Lugar de residencia
• Género
Fuentes de información
• Metadatos asociados a los usuarios
• Contenido publicado por los usuarios
• Redes de amistad
Valor
• Extrapolación de métricas. De usuarios
virtuales al mundo real.
• Definición de targets en campañas de
comunicación o publicidad.
Reto: información no formalizada. Por
ejemplo usuarios de Twitter.
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia
Donde el usuario vive habitualmente
Metadatos de
localización del
usuario
Redes de
contactos
Descripción del
usuario
Contenido
generado por el
usuario
Híbrido
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: metadatos de localización
Normalización del atributo location:
Google Maps Geocoding API.
Inconvenientes
• Ambigüedades: “Santiago” (¿de Chile o
de Compostela?)
• Esta técnica necesita que el usuario
especifique el atributo location.
http://maps.googleapis.com/maps/api/geocode/json?address=Madrid&sensor=false
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: redes de contactos
Explota el principio de homofilia en
redes sociales.
Pasos:
1. Obtenemos la lista de lugares de residencia
de los contactos del usuario, con la técnica
anterior.
2. Filtro iterativo por frecuencia, empezando
por el país.
Leganés, Madrid, España
Moraleja, Cáceres, España
La Moraleja, Madrid, España
Cadaqués, Girona, España
Roses, Girona, España
Alcalá de Henares, Madrid, España
Dubái, Emiratos Árabes Unidos
París, Francia
Leganés, Madrid, España
Moraleja, Cáceres, España
La Moraleja, Madrid, España
Cadaqués, Girona, España
Roses, Girona, España
Alcalá de Henares, Madrid, España
Leganés, Madrid, España
La Moraleja, Madrid, España
Alcalá de Henares, Madrid, España
Leganés, Madrid, España
España
Madrid
Resultado
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: descripción del usuario
Pasos:
1. Identificación del idioma de la descripción,
con Freeling.
2. Clasificación de entidades nombradas, con
Freeling (castellano, inglés, gallego y
portugués).
3. Normalización (Geocoding API) de las
entidades de tipo LOCATION.
4. Filtro iterativo por frecuencia, empezando
por el país.
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: en base al contenido
Pasos:
1. Identificación del idioma del contenido con
Freeling.
2. Normalización sintáctica para tweets.
3. Clasificación de entidades nombradas, con
Freeling (castellano, inglés, gallego y
portugués).
4. Normalización (Geocoding API) de las
entidades de tipo LOCATION.
5. Filtro iterativo por frecuencia, empezando
por el país.
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Lugar de residencia: técnica híbrida
Pasos:
1. En base al contenido generado por el
usuario analizado.
2. Si no tenemos lugares de residencia
candidatos:
• Para cada contacto: lugar de residencia en
base al contenido que haya generado.
• Filtro iterativo por frecuencia, empezando
por el país.
Análisis del contenido
generado por el usuario
Análisis del contenido
generado por la red
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Género
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Género
Masculino - Femenino
Nombre de usuario Menciones al usuario
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Género: nombre de usuario
Explotación de metadata pública del
usuario relacionada con el nombre de
usuario, por ejemplo name en Twitter.
Listas de nombres propios
• Fuente: INE, nombres de ciudadanos españoles.
• Nombres unisex eliminados (por ejemplo Pau,
Loreto, Reyes)
• Previamente clasificadas por género
• 18.391 nombres masculinos
• 19.511 nombres femeninos
• Comparados contra un histórico de names y
screen names de cada usuario.
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Género: menciones al usuario
Explotación de la información contenida en
las menciones.
Buscamos el género de los términos que
acompañan al nombre de usuario.
Pasos:
1. Intentamos la técnica anterior, en base al nombre.
2. Recuperación de contenido que mencione a nuestro
usuario y construcción del árbol de dependencia
sintáctica.
3. Buscamos información de género en el árbol:
A.En el nodo padre del nombre de usuario mencionado
(“Mi tío Daureos”).
B.En los nodos hijos del nombre de usuario mencionado
(“Vio a Daureos enfermo y triste”).
C.En oraciones atributivas buscamos el género del
atributo (“Daureos es trabajador”)
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Evaluación
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Evaluación: lugar de residencia
Corpus de evaluación: 1.080 usuarios de Twitter.
11 países: Argentina, Chile, Colombia, España, USA,
Japón, México, Sudáfrica, Suiza, Uruguay y Venezuela.
Contenido generado en varios idiomas, destacando
español e inglés.
Técnica de red de contactos limitada a 20 usuarios: 10
followers + 10 friends, por restricciones de la API.
Técnica basada en el análisis de contenido limitada a 20
tweets, por las mismas restricciones de la API.
Accuracy
81%
Técnica basada en la red
de contactos
86%
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Evaluación: aplicación método basado en menciones
Corpus de evaluación: 69.261 usuarios
• Autores que han escrito algún tweet en castellano (Lingpipe) entre 29/Mayo/2012 y 27/Marzo/2012.
• Tweets que mencionan a estos usuarios.
Femenino
9,284
13%
Masculino
36,746
53%
No
identificado
23,231
34%
Técnica basada en
nombre de usuario
Femenino
9,386
14%
Masculino
37,010
53%
No
identificado
22,865
33%
Técnica basada en
menciones
Aplicación
Femenino: + 102
Masculino: + 264
+1%
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Evaluación: precisión y cobertura de género
Corpus de evaluación: 1.509 usuarios anotados (558 femeninos, 621 masculinos, 330 neutros).
0.97 0.98
0.78 0.8
0
0.2
0.4
0.6
0.8
1
Femenino Masculino
Usernames Menciones
0.87
0.8
0.95
0.85
0
0.2
0.4
0.6
0.8
1
Femenino Masculino
Usernames Menciones
Precisión Cobertura
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Conclusiones
• Introducción
• Lugar de residencia
I. Metadatos de localización
II.Redes de contacto
III.Descripción del usuario
IV.Contenido generado por el
usuario
V.Híbrido
• Género
I. Listas de nombres propios
II.Análisis sintáctico
• Evaluación
I.Lugar de residencia
II.Género
• Conclusiones
• Preguntas
Conclusiones
Identificación del lugar de residencia
• Mejor con la información de la red de contactos que en base al contenido generado por el usuario.
• Los lugares citados no tienen que estar relacionados con el lugar de residencia.
Identificación del género
• Resultados buenos (sobre todo en términos de precisión) con la técnica simple de las listas de nombres.
• Implementable en un sistema de producción con elevada carga de ingesta.
• La técnica basada en menciones amplía la cobertura, gracias parcialmente a las peculiaridades del castellano.
Trabajos futuros
Continuar con la identificación de otros atributos sociodemográficos: edad, orientación política e intereses.
scribd.com/accesogroup linkedin.com/company/acceso@accesogroup

Más contenido relacionado

Destacado (20)

Manual Combinacion de correspondecia
Manual Combinacion de correspondeciaManual Combinacion de correspondecia
Manual Combinacion de correspondecia
 
Tutorial wordpress
Tutorial wordpressTutorial wordpress
Tutorial wordpress
 
Reseña
ReseñaReseña
Reseña
 
Estreñimiento intratable
Estreñimiento intratableEstreñimiento intratable
Estreñimiento intratable
 
Sist tornos
Sist tornosSist tornos
Sist tornos
 
Alternativas Goolge Reader
Alternativas Goolge ReaderAlternativas Goolge Reader
Alternativas Goolge Reader
 
7 sabares
7 sabares7 sabares
7 sabares
 
Practica power point
Practica power pointPractica power point
Practica power point
 
Setmana cultural
Setmana culturalSetmana cultural
Setmana cultural
 
Cuestionario
CuestionarioCuestionario
Cuestionario
 
Excom office Empresas Denia
Excom office Empresas DeniaExcom office Empresas Denia
Excom office Empresas Denia
 
Yugoslavia
YugoslaviaYugoslavia
Yugoslavia
 
LA WEB
LA WEBLA WEB
LA WEB
 
Finlandia
FinlandiaFinlandia
Finlandia
 
Quim2unidad1
Quim2unidad1Quim2unidad1
Quim2unidad1
 
Feyce en Castilla y León Económica
Feyce en Castilla y León EconómicaFeyce en Castilla y León Económica
Feyce en Castilla y León Económica
 
Microfisica del poder
Microfisica del poderMicrofisica del poder
Microfisica del poder
 
Alvaro
AlvaroAlvaro
Alvaro
 
Emprendimiento 2 periodo 2
Emprendimiento 2 periodo 2Emprendimiento 2 periodo 2
Emprendimiento 2 periodo 2
 
Probabilidad y estadistica
Probabilidad y estadisticaProbabilidad y estadistica
Probabilidad y estadistica
 

Similar a Extracción de atributos sociodemográficos de usuarios de redes sociales

Buscar y seleccionar informacion ....(1)33
Buscar y seleccionar informacion ....(1)33Buscar y seleccionar informacion ....(1)33
Buscar y seleccionar informacion ....(1)33marabunta12
 
Criterios para valorar la informacion localizada en internet
Criterios para valorar la informacion localizada en internet Criterios para valorar la informacion localizada en internet
Criterios para valorar la informacion localizada en internet angelng7
 
Identidad digital 201016
Identidad digital 201016Identidad digital 201016
Identidad digital 201016Pedro Mendez
 
Sesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internetSesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internetWilly Figueroa
 
Redes sociales david olivas
Redes sociales david olivasRedes sociales david olivas
Redes sociales david olivaselchivy
 
Datos vinculados bibliotecarios la web 3.0 en las bibliotecas
Datos vinculados bibliotecarios   la web 3.0 en las bibliotecasDatos vinculados bibliotecarios   la web 3.0 en las bibliotecas
Datos vinculados bibliotecarios la web 3.0 en las bibliotecasWilmer Arturo Moyano Grimaldo
 
Herramientas para el análisis de redes temáticas en la web
Herramientas para el análisis de redes temáticas en la webHerramientas para el análisis de redes temáticas en la web
Herramientas para el análisis de redes temáticas en la webMiguel Castillejo
 
Búsqueda en la Web
Búsqueda en la WebBúsqueda en la Web
Búsqueda en la Webbmctcpr
 
¿Cómo buscar información científica?
¿Cómo buscar información científica?¿Cómo buscar información científica?
¿Cómo buscar información científica?Ivonne Lujano
 
Estrategias de busqueda y manejo de información por internet
Estrategias de busqueda y manejo de información por internetEstrategias de busqueda y manejo de información por internet
Estrategias de busqueda y manejo de información por internetAdis Corona
 

Similar a Extracción de atributos sociodemográficos de usuarios de redes sociales (20)

Buscar y seleccionar informacion ....(1)33
Buscar y seleccionar informacion ....(1)33Buscar y seleccionar informacion ....(1)33
Buscar y seleccionar informacion ....(1)33
 
Web 2.5 - parte 1
Web 2.5 - parte 1Web 2.5 - parte 1
Web 2.5 - parte 1
 
Criterios para valorar la informacion localizada en internet
Criterios para valorar la informacion localizada en internet Criterios para valorar la informacion localizada en internet
Criterios para valorar la informacion localizada en internet
 
Busquedas por internet
Busquedas por internetBusquedas por internet
Busquedas por internet
 
Tic para Humanidades
Tic para HumanidadesTic para Humanidades
Tic para Humanidades
 
Identidad digital 201016
Identidad digital 201016Identidad digital 201016
Identidad digital 201016
 
Sesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internetSesion 15 busquedas recursos internet
Sesion 15 busquedas recursos internet
 
Validacion de sitios Web
Validacion de sitios WebValidacion de sitios Web
Validacion de sitios Web
 
Redes sociales david olivas
Redes sociales david olivasRedes sociales david olivas
Redes sociales david olivas
 
Scoop.it
Scoop.itScoop.it
Scoop.it
 
Datos vinculados bibliotecarios la web 3.0 en las bibliotecas
Datos vinculados bibliotecarios   la web 3.0 en las bibliotecasDatos vinculados bibliotecarios   la web 3.0 en las bibliotecas
Datos vinculados bibliotecarios la web 3.0 en las bibliotecas
 
Competencias digitales
Competencias digitalesCompetencias digitales
Competencias digitales
 
Herramientas para el análisis de redes temáticas en la web
Herramientas para el análisis de redes temáticas en la webHerramientas para el análisis de redes temáticas en la web
Herramientas para el análisis de redes temáticas en la web
 
Búsqueda en la Web
Búsqueda en la WebBúsqueda en la Web
Búsqueda en la Web
 
Estrategias busqueda info_web
Estrategias busqueda info_webEstrategias busqueda info_web
Estrategias busqueda info_web
 
Gabriela Ortúzar – Directora del Sistema de Servicios de Información y Biblio...
Gabriela Ortúzar – Directora del Sistema de Servicios de Información y Biblio...Gabriela Ortúzar – Directora del Sistema de Servicios de Información y Biblio...
Gabriela Ortúzar – Directora del Sistema de Servicios de Información y Biblio...
 
Presentacion buc junio
Presentacion buc junioPresentacion buc junio
Presentacion buc junio
 
Cultura digital
Cultura digitalCultura digital
Cultura digital
 
¿Cómo buscar información científica?
¿Cómo buscar información científica?¿Cómo buscar información científica?
¿Cómo buscar información científica?
 
Estrategias de busqueda y manejo de información por internet
Estrategias de busqueda y manejo de información por internetEstrategias de busqueda y manejo de información por internet
Estrategias de busqueda y manejo de información por internet
 

Más de Óscar Muñoz García

Methods and Techniques for Segmentation of Consumers in Social Media
Methods and Techniques for Segmentation of Consumers in Social MediaMethods and Techniques for Segmentation of Consumers in Social Media
Methods and Techniques for Segmentation of Consumers in Social MediaÓscar Muñoz García
 
Content Analytics for Media Agencies
Content Analytics for Media AgenciesContent Analytics for Media Agencies
Content Analytics for Media AgenciesÓscar Muñoz García
 
¿Cómo puede ayudar el Big Data a dirigir las campañas de comunicación?
¿Cómo puede ayudar el Big Data a dirigir las campañas de comunicación?¿Cómo puede ayudar el Big Data a dirigir las campañas de comunicación?
¿Cómo puede ayudar el Big Data a dirigir las campañas de comunicación?Óscar Muñoz García
 
Identifying Topics in Social Media Posts using DBpedia
Identifying Topics in Social Media Posts using DBpediaIdentifying Topics in Social Media Posts using DBpedia
Identifying Topics in Social Media Posts using DBpediaÓscar Muñoz García
 
Comparing user generated content published in different social media sources
Comparing user generated content published in different social media sourcesComparing user generated content published in different social media sources
Comparing user generated content published in different social media sourcesÓscar Muñoz García
 
Social TV, más allá de la audiencia. Participación y relaciones
Social TV, más allá de la audiencia. Participación y relacionesSocial TV, más allá de la audiencia. Participación y relaciones
Social TV, más allá de la audiencia. Participación y relacionesÓscar Muñoz García
 

Más de Óscar Muñoz García (7)

Methods and Techniques for Segmentation of Consumers in Social Media
Methods and Techniques for Segmentation of Consumers in Social MediaMethods and Techniques for Segmentation of Consumers in Social Media
Methods and Techniques for Segmentation of Consumers in Social Media
 
Content Analytics for Media Agencies
Content Analytics for Media AgenciesContent Analytics for Media Agencies
Content Analytics for Media Agencies
 
¿Cómo puede ayudar el Big Data a dirigir las campañas de comunicación?
¿Cómo puede ayudar el Big Data a dirigir las campañas de comunicación?¿Cómo puede ayudar el Big Data a dirigir las campañas de comunicación?
¿Cómo puede ayudar el Big Data a dirigir las campañas de comunicación?
 
Identifying Topics in Social Media Posts using DBpedia
Identifying Topics in Social Media Posts using DBpediaIdentifying Topics in Social Media Posts using DBpedia
Identifying Topics in Social Media Posts using DBpedia
 
Big Data and Marketing Technology
Big Data and Marketing TechnologyBig Data and Marketing Technology
Big Data and Marketing Technology
 
Comparing user generated content published in different social media sources
Comparing user generated content published in different social media sourcesComparing user generated content published in different social media sources
Comparing user generated content published in different social media sources
 
Social TV, más allá de la audiencia. Participación y relaciones
Social TV, más allá de la audiencia. Participación y relacionesSocial TV, más allá de la audiencia. Participación y relaciones
Social TV, más allá de la audiencia. Participación y relaciones
 

Extracción de atributos sociodemográficos de usuarios de redes sociales

  • 1. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Caracterización de los usuarios de medios sociales mediante lugar de residencia y género Óscar Muñoz-García Havas Media Group oscar.munoz@havasmg.com Madrid, 18 de Septiembre de 2013 Jesús Lanchas Acceso jlanchas@acceso.com David Prieto Acceso dprieto@acceso.com
  • 2. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas
  • 3. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Introducción Atributos sociodemográficos extraídos • Lugar de residencia • Género Fuentes de información • Metadatos asociados a los usuarios • Contenido publicado por los usuarios • Redes de amistad Valor • Extrapolación de métricas. De usuarios virtuales al mundo real. • Definición de targets en campañas de comunicación o publicidad. Reto: información no formalizada. Por ejemplo usuarios de Twitter.
  • 4. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Lugar de residencia
  • 5. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Lugar de residencia Donde el usuario vive habitualmente Metadatos de localización del usuario Redes de contactos Descripción del usuario Contenido generado por el usuario Híbrido
  • 6. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Lugar de residencia: metadatos de localización Normalización del atributo location: Google Maps Geocoding API. Inconvenientes • Ambigüedades: “Santiago” (¿de Chile o de Compostela?) • Esta técnica necesita que el usuario especifique el atributo location. http://maps.googleapis.com/maps/api/geocode/json?address=Madrid&sensor=false
  • 7. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Lugar de residencia: redes de contactos Explota el principio de homofilia en redes sociales. Pasos: 1. Obtenemos la lista de lugares de residencia de los contactos del usuario, con la técnica anterior. 2. Filtro iterativo por frecuencia, empezando por el país. Leganés, Madrid, España Moraleja, Cáceres, España La Moraleja, Madrid, España Cadaqués, Girona, España Roses, Girona, España Alcalá de Henares, Madrid, España Dubái, Emiratos Árabes Unidos París, Francia Leganés, Madrid, España Moraleja, Cáceres, España La Moraleja, Madrid, España Cadaqués, Girona, España Roses, Girona, España Alcalá de Henares, Madrid, España Leganés, Madrid, España La Moraleja, Madrid, España Alcalá de Henares, Madrid, España Leganés, Madrid, España España Madrid Resultado
  • 8. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Lugar de residencia: descripción del usuario Pasos: 1. Identificación del idioma de la descripción, con Freeling. 2. Clasificación de entidades nombradas, con Freeling (castellano, inglés, gallego y portugués). 3. Normalización (Geocoding API) de las entidades de tipo LOCATION. 4. Filtro iterativo por frecuencia, empezando por el país.
  • 9. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Lugar de residencia: en base al contenido Pasos: 1. Identificación del idioma del contenido con Freeling. 2. Normalización sintáctica para tweets. 3. Clasificación de entidades nombradas, con Freeling (castellano, inglés, gallego y portugués). 4. Normalización (Geocoding API) de las entidades de tipo LOCATION. 5. Filtro iterativo por frecuencia, empezando por el país.
  • 10. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Lugar de residencia: técnica híbrida Pasos: 1. En base al contenido generado por el usuario analizado. 2. Si no tenemos lugares de residencia candidatos: • Para cada contacto: lugar de residencia en base al contenido que haya generado. • Filtro iterativo por frecuencia, empezando por el país. Análisis del contenido generado por el usuario Análisis del contenido generado por la red
  • 11. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Género
  • 12. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Género Masculino - Femenino Nombre de usuario Menciones al usuario
  • 13. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Género: nombre de usuario Explotación de metadata pública del usuario relacionada con el nombre de usuario, por ejemplo name en Twitter. Listas de nombres propios • Fuente: INE, nombres de ciudadanos españoles. • Nombres unisex eliminados (por ejemplo Pau, Loreto, Reyes) • Previamente clasificadas por género • 18.391 nombres masculinos • 19.511 nombres femeninos • Comparados contra un histórico de names y screen names de cada usuario.
  • 14. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Género: menciones al usuario Explotación de la información contenida en las menciones. Buscamos el género de los términos que acompañan al nombre de usuario. Pasos: 1. Intentamos la técnica anterior, en base al nombre. 2. Recuperación de contenido que mencione a nuestro usuario y construcción del árbol de dependencia sintáctica. 3. Buscamos información de género en el árbol: A.En el nodo padre del nombre de usuario mencionado (“Mi tío Daureos”). B.En los nodos hijos del nombre de usuario mencionado (“Vio a Daureos enfermo y triste”). C.En oraciones atributivas buscamos el género del atributo (“Daureos es trabajador”)
  • 15. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Evaluación
  • 16. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Evaluación: lugar de residencia Corpus de evaluación: 1.080 usuarios de Twitter. 11 países: Argentina, Chile, Colombia, España, USA, Japón, México, Sudáfrica, Suiza, Uruguay y Venezuela. Contenido generado en varios idiomas, destacando español e inglés. Técnica de red de contactos limitada a 20 usuarios: 10 followers + 10 friends, por restricciones de la API. Técnica basada en el análisis de contenido limitada a 20 tweets, por las mismas restricciones de la API. Accuracy 81% Técnica basada en la red de contactos 86%
  • 17. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Evaluación: aplicación método basado en menciones Corpus de evaluación: 69.261 usuarios • Autores que han escrito algún tweet en castellano (Lingpipe) entre 29/Mayo/2012 y 27/Marzo/2012. • Tweets que mencionan a estos usuarios. Femenino 9,284 13% Masculino 36,746 53% No identificado 23,231 34% Técnica basada en nombre de usuario Femenino 9,386 14% Masculino 37,010 53% No identificado 22,865 33% Técnica basada en menciones Aplicación Femenino: + 102 Masculino: + 264 +1%
  • 18. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Evaluación: precisión y cobertura de género Corpus de evaluación: 1.509 usuarios anotados (558 femeninos, 621 masculinos, 330 neutros). 0.97 0.98 0.78 0.8 0 0.2 0.4 0.6 0.8 1 Femenino Masculino Usernames Menciones 0.87 0.8 0.95 0.85 0 0.2 0.4 0.6 0.8 1 Femenino Masculino Usernames Menciones Precisión Cobertura
  • 19. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Conclusiones
  • 20. • Introducción • Lugar de residencia I. Metadatos de localización II.Redes de contacto III.Descripción del usuario IV.Contenido generado por el usuario V.Híbrido • Género I. Listas de nombres propios II.Análisis sintáctico • Evaluación I.Lugar de residencia II.Género • Conclusiones • Preguntas Conclusiones Identificación del lugar de residencia • Mejor con la información de la red de contactos que en base al contenido generado por el usuario. • Los lugares citados no tienen que estar relacionados con el lugar de residencia. Identificación del género • Resultados buenos (sobre todo en términos de precisión) con la técnica simple de las listas de nombres. • Implementable en un sistema de producción con elevada carga de ingesta. • La técnica basada en menciones amplía la cobertura, gracias parcialmente a las peculiaridades del castellano. Trabajos futuros Continuar con la identificación de otros atributos sociodemográficos: edad, orientación política e intereses.