Dime qué tuiteas y te diré quién eres. DataFest 2013

Dime qué tuiteas y te diré quién eres
Ernesto Mislej - @fetnelio
ernesto@7puentes.com

Buenos Aires, 1 de Noviembre de 2013

Dime qué tuiteas y te diré quién eres
Abstract
Nuestra actividad en las redes sociales dice mucho más de lo que somos de lo que creemos.
Qué tuiteamos, a qué hora, a quién seguimos y quién nos sigue, cuál es el programa de TV que
ocurre mientras tuiteamos, usamos o no hashtags, le respondemos a otros usuarios famosos,
entre otras; son acciones objetivas y medibles, que alimentan modelos de inferencia para
construir perfiles de usuario y de comunidades. Qué cosas decimos, qué dicen de nosotros.
Cómo mantener la privacidad en el mundo virtual actual.

1

Un astrónomo, un físico y
un matemático estaban
viajando en tren por
Escocia cuando uno dice
“una oveja negra…”

2

El caso del submarinista
calcinado
Se cuenta que alguien, tras un gran incendio forestal,
encuentra un cuerpo quemado y, al acercarse, descubre
que tiene puesto un equipo de buceo, traje de neopreno,
mascarilla y botellas de oxígeno y pies de rana…

3

El razonamiento lógico:
El esquema deductivo
Regla general: "Todos las monedas de la bolsa negra son falsas".
Caso: "Estas monedas provienden de la bolsa negra".
Resultado: "Estas monedas son falsas".
La deducción mantiene la verdad.

7

El esquema inductivo
Regla general: "Estas monedas provienen de la bolsa negra".
Caso: "Estas monedas son falsas".
Resultado: "Todas las monedas de la bolsa negra son falsas".
A partir de unas observaciones
se construyen reglas más generales
que pueden llevar a resultados falsos

8

El esquema abductivo
Regla general: "Todas las monedas de la bolsa negra son falsas".
Caso: "Estas monedas son falsas".
Resultado: "Estas monedas provienen de la bolsa negra".
Un razonamiento abductivo ofrece
una hipótesis que lo explica.
Esa conjetura busca ser, a primera vista,
la mejor explicación, o la más probable.

9

¿Es posible inducir características de usuario a partir de
su comportamiento en las redes sociales?

10

You Are Where You Tweet: A Content-Based Approach to
Geo-locating Twitter Users
Yi Zhu, 2010

Un modelo para estimar la ubicación de los usuarios de Twitter utilizando el contenido de los
tweets. Se utilizan palabras clave que identifican las ciudades. 100 tweets son suficientes
para validar la ubicación.
11

Palabras clave locales en los Tweets

12

Inferring gender of movie reviewers: exploiting writing
style, content and metadata
Otterbacher, 2010
El trabajo utilizó los comentarios realizados por usuarios de IMDb.
El modelo de detección de género se basa en métricas de estilo
del lenguaje y feedback social; y es independiente de la longitud
de la crítica.
En contraposición de otros dominios, como la literatura o textos
científicos, el modelo de discriminación de género del aficionado
de películas alcanzó un 73.7% de certeza.
13

An Exploration of Observable Features
Related to Blogger Age
Burger & Henderson, 2006
El modelo predictor de edad utilizó, además del texto de los
posts, indicadores cuantitativos como:
1.
2.
3.
4.
5.

La hora y día de la semana de publicación
La cantidad de Links e imágenes
La cantidad de seguidores
La cantidad y tipo de comentarios
Los intereses

14

“How Old Do You Think I Am?”: A Study of Language and
Age in Twitter
Nguyen, Gravel, Trieschnigg, Meder, 2013
Las variables que cambian según la edad:
1. TODO EN MAYUSCULAS: HAHA, LOL
2. Prolongación alfabética: niiiiiice vs. nice
3. Intensificadores: so, really & awful
4. Referencias personales: I, me, mine, my, myself
5. Conversaciones, RE,
6. RT, likes, #hashtags

15

Democrats, Republicans and Starbucks Afficionados:
User Classification in Twitter + A Machine Learning
Approach to Twitter User Classiffication
Pennacchiotti, Popescu, 2011
El modelo general de profile toma en cuenta:
1. perfil del usuario,
2. comportamiento en mensajes,
3. contenido de los mensajes,
4. estructura de la red social (seguidores/
seguidos)

Los resultados del trabajo:
1. Political Affiliation. precision (0.989) &
recall (~0.872)
2. Starbucks precision (0.763) & recall
(0.759)
3. Etnia: precision (0.878) & recall (0.799)

16

Our Twitter Profiles, Our Selves: Predicting Personality
with Twitter
Quercia, Kosinski, Stillwell, Crowcroft, 2011
The Big Five Personality Test – OCEAN

17

¿Qué define a una red social?
Las características escenciales de una red social son:
1. Las entidades que participan de la red son típicamente personas.
2. Las relaciones entre esas entidades toman referencia a una relación de la vida real como
amigos, familiares, colegas.
3. Existe la noción de nonrandomness or locality
Esa condición es compleja de formalizar, pero la idea intuitiva es que los nodos tienden a
formar clusters o comunidades; esto es si la entidad A está relacionada con B y con C,
luego la probabilidad que B y C estén relacionados es mayor que el promedio.

18

Detección de comunidades en grafos
Fortunato, 2010
Los grafos sociales no son regulares como las
lattices. Tampoco son random, donde la distribución
de ejes es uniforme en todos los nodos.
Los grafos sociales están estructurados en
comunidades revelando un alto nivel de orden y
organización.
El grado nodal tiene una distribución de power law,
esto es muchos nodos con pocos ejes conviven con
muy pocos con alto grado..
19

Detecting communities by label propagation
Raghavan et al, 2007
Cada nodo está asociado con una etiqueta con un número entero.
1. Al inicio cada vértice tiene una etiqueta distinta.
2. Luego, se itera, cada vértice x actualiza su etiqueta reemplazándola por la etiqueta más
popular entre sus vecinos. Si hay más de una etiqueta con el mismo número de vecinos, se
escoje alguna aleatoriamente.
Luego de varias iteraciones, la misma etiqueta tiende a ser asociada a todos los
miembros de la comunidad.
3. Todos los vértices con la misma etiqueta pertenecen a la misma comunidad.
Para asegurar que la fase de propagación termine, Raghavan et al propone el uso de una
actualización “asincrónica”.
20

Modelos de propagación de mensajes y comunidades
Leskovec, 2006
Existen numerosos modelos de propagación de mensajes en redes sociales.
Los siguientes 2 son los más populares:
1. Basado en saturación. Cada nodo tiene un umbral definido. Un nodo cambia su estado
cuando la suma de sus vecinos supera el umbral.
2. Modelo de Cascada. En cada ocasión que un vecino cambia su estado, el nodo puede
cambiar su estado bajo una probabilidad dada.

21

Dios los cría y
el viento los amontona…
22

The Gaydar Project
MIT, 2009
El estudio demostró que es posible determinar –de manera
muy precisa- la orientación sexual del usuario, analizando la
información expuesta por su red de contactos.
El modelo observa sólo la información pública de los vínculos
(no la información del usuario, sino el de tus vínculos).
Y eso funciona aunque seas muy reservado que no publicás
nada, ni fotos, ni likes a fotos de Lady Gaga, ni nada.

23

Romantic Partnerships and the Dispersion of Social Ties:
A Network Analysis of Relationship Status on Facebook
Backstrom, Kleinberg, 2013

¿Es posible reconocer el amor sólo viendo la estructura del grafo social?
¿Cuánto dura el amor?

24

Private traits and attributes are predictable from digital
records of human behavior
Kosinskia, Stillwella, Graepel, 2013
El modelo usa los likes de los usuarios para alimentar un
modelo de inferencia. Se trabajó con 58000 voluntarios que
proveyeron sus likes y datos demográficos e intereses.
Para categorías dicotómicas tiene los siguientes resultados:
• African Americans vs. Caucasian 95%
• Género 93%
• Hombres homo/heterosexual 88%
• Demócratas vs. republicanos 85%
• Cristianos vs. Islam 82%
25

No Country for Old Members: User Lifecycle and
Linguistic Change in Online Communities
Leskovec, 2013

26

7puentes.com
+54 11 4202 5487
Alem 1303 - Banfield, Buenos Aires, Argentina

Ernesto Mislej - @fetnelio
ernesto@7puentes.com

Dime qué tuiteas y te diré quién eres. DataFest 2013

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (10)

Similar a Dime qué tuiteas y te diré quién eres. DataFest 2013

Similar a Dime qué tuiteas y te diré quién eres. DataFest 2013 (20)

Último

Último (20)

Dime qué tuiteas y te diré quién eres. DataFest 2013

Notas del editor