Este documento describe la herramienta Twiana, la cual recopila y analiza datos de Twitter. Twiana puede obtener datos de usuarios mediante el uso de hashtags, geolocalización y relaciones de seguidores. El documento discute cómo Twiana podría usarse para obtener datos de miles de usuarios en Sevilla, España en un solo día, y analizar tendencias políticas y de aficionados al fútbol en la región.
6. 5/05/2016 6
Trianeros en #Cruzcampo
● Con Twiana comprobamos que
más del 25% del hashtag
“Cruzcampo” es de Triana.
● Con Twiana comprobamos que
más del 25% del hashtag
“Cruzcampo” es de Triana.
8. 5/05/2016 8
Conceptos:
● Triana: palabra utilizada por los trianeros para referirse a su
hogar que es infinito. Representa al mundo entero a veces y otras
parcialmente pero nunca menos que el territorio que comprende
las 2 orillas.
● Cruzcampo: seguramente la mejor cerveza del mundo.
● Python: lenguaje de programación.
● Doxing: técnica de hacking utilizado para identificar una cuenta
digital a una persona física. También consiste en obtener los
datos públicos que se exponen en la red sobre un usuario.
● Twitter: red social con más de 500 millones de usuarios.
● Triana: palabra utilizada por los trianeros para referirse a su
hogar que es infinito. Representa al mundo entero a veces y otras
parcialmente pero nunca menos que el territorio que comprende
las 2 orillas.
● Cruzcampo: seguramente la mejor cerveza del mundo.
● Python: lenguaje de programación.
● Doxing: técnica de hacking utilizado para identificar una cuenta
digital a una persona física. También consiste en obtener los
datos públicos que se exponen en la red sobre un usuario.
● Twitter: red social con más de 500 millones de usuarios.
9. 5/05/2016 9
¿Por qué Twitter?
1. Es usada por millones de usuarios.
2. Usada por 4,5 millones de españoles.
3. Aunque existe una configuración privada, es una red
social que exponer mucha información abiertamente por
el usuario.
10. 5/05/2016 10
¿Cómo nace Twiana?
● Nace con el objetivo de usarse para los diferentes proyectos que
tiene QuantiKa14 en Big Data.
● Tener una única herramienta que facilite la recogida,
almacenamiento, control y análisis de los datos.
● Se utilizo por primare vez en las elecciones de 20D en varios
periódicos y cadenas de televisión.
12. 5/05/2016 12
Funcionalidades
● Recogida de usuarios:
● Por Hashtag.
● Por Geolocalización.
● Por Followers y Followings
● Análisis
● Palabras que repiten en un time line.
● Hashtag en un time line.
● Comparar Followers y Followings entre cuentas.
● Buscar palabras.
15. 5/05/2016 15
Demografía de Sevilla
● Edad: 15 a 50 años.
● 25,8 % de la población Sevillana.
Másculina
● 25,99 % de la población Femenina.
● Total: 51,79%
● Si el 100% es 703.000 mil censados en
Sevilla.
● El 51,79% es 364083.
16. 5/05/2016 16
Twitter en Sevilla
● Twitter tiene más de 500 millones de
usuarios en 2015 y 4,5 millones en
España.
● Andalucia es la comunidad que mayor
selfies al día se hacen.
● Mucha población en pueblos que no
tienen Internet o la tecnología.
17. 5/05/2016 17
Datos:
● Nombre de la cuenta.
● Localización puesta en la cuenta.
● Localización expuesta en Tweets.
● Descripción.
● Nº de followers y followings.
● Lista de cuentas de followers y followings
18. 5/05/2016 18
Limitaciones:
● Mechanize: librería de Python que nos permite
navegar como un navegador gráfico. Su velocidad
es bastante lenta.
● BeautifulSoup: librería que nos permite parsear
facilmente. Muchas veces no podemos.
● Tweepy: librería para usar la API de Twitter. Twitter
nos limita las peticiones.
● Googlepy: librería para hacer bisquedas con
Google sin autentificación y token. Nos banea
rapidamente.
19. 5/05/2016 19
Obtener datos:
● Monitorizar hashtag con mucho tráfico diario
(#SevillaHoy)
● Usar los followings y followers de cuentas con
reputación.
● Usar hashtag de la ciudad (#SevillaIsDiferent,
#SevillaFC, #Betis, #PoliciaSevilla, etc)
● Uso de las coodenadas geográficas por calles
conocidas.
20. 5/05/2016 20
Puntos a saber:
1. No todos los usuarios de Sevilla lo tendrán puesto
en su biografía
2. No todos los usuarios de Sevilla han tenido que
Twittear con las localización activada.
3. Algunos tendrán puesto la localización pero no
serán de Sevilla.
4. Algunas cuentas están inactivas o son bots.
24. 5/05/2016 24
Oposiciones Policia...
1. Buscamos en un usuario de
oposiciones de la CNP que
hashtag ha usado. (menu 4)
2. Extraemos todos los
usuarios y datos que hayan
tuiteado.(menu 2)
3. Filtramos por Sevilla.
28. 5/05/2016 28
Conclusión...
1. No solo debemos concienciarnos
nosotros también a la gente que nos
rodea. Amigos, familiares, empresas y
entidades públicas de que tengan
cuidado con la información que
publican.
2. El Big Data es el nuevo petroleo y
ahora no es un medio para transportarte
ahora eres tu el medio que tendrán otros
para comprarse sus Yates!
3. Las aplicaciones de obtención de
datos masivos existen.
4. Obtener (casi)todos los usuarios con
localización en Sevilla llevaría 1 día.