Presentación del taller de captura, procesado, análisis y visualización de datos de Twitter para conseguir exprimir toda la información que contiene la red de ‘microblogging’.
El taller fue realizado realizado en las I Jornadas de Periodismo de Datos y Open Data.
3. Presentacion
David Martín-Borregón
– @davidMartinB
– david@datanpress.com
– Ingeniero técnico en sonido e imagen
– Ingeniero superior en telecomunicaciones
– Master en Inteligencía Artificial y Machine Learning
– Ingenierio en Data'n'Press
– Data Scientific / Data Engineer
– Intership en Yahoo
– Participante en Big Dive 2013
7. Presentación
● El público:
– Cúantos de los presentes tuvieron estudios
matématicos/estadísticos fuera de la escuela
secundaria?
– Cúantos de los presentes saben que es una
variable y una condición en programación?
8. Presentación
● Extracción
– Cómo va la api de twitter y que datos proporciona
● Procesado
– Cómo procesar los datos que da twitter.
(IR+SignalP+GraphTheory+NLP+Geo)
● Volumen
● Estructura social
● Geolocalización
● Anális de texto
● Visualización
– Anális de casos aplicados
10. Extracción
● Que es una API
Application programming interfaceGraphical user interface
11. Extracción
● ¿Cómo interactuar con a la api?
– Documentación: https://dev.twitter.com/docs
● Bastard Book of Ruby, python,
– Liberería:
https://dev.twitter.com/docs/twitter-libraries + ….
– Oauth:
https://dev.twitter.com/apps
12. Ejemplo de oAuth
import tweepy
# == OAuth Authentication ==
# This mode of authentication is the new preferred way of authenticating with Twitter.
# The consumer keys can be found on your application's Details page located at https://dev.twitter.com/apps (under "OAuth settings")
consumer_key="T1z6Xp__________MuTF6g"
consumer_secret="IAsYxMOa_________________hqltPGM"
# The access tokens can be found on your applications's Details page located at https://dev.twitter.com/apps (located under "Your access token")
access_token="161268291-osNQotjA7R0_______________1vQYwFlL7ec793"
access_token_secret="sxAcnU3_________________________U8nRkFXis8Po"
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tweepy.API(auth)
# If the authentication was successful, you should see the name of the account print out
print api.me().name
# If the application settings are set for "Read and Write" then this line should tweet out the message to your account's
# timeline. The "Read and Write" setting is on https://dev.twitter.com/apps
api.update_status('Updating using OAuth authentication via Tweepy!')
13. Tipos de API
● Search API
– Buscar en twitter.
● Streaming API
– Abrir una grifo de tweets a una busqueda.
– Importante para data-mining!!
● REST API
– Interacción total para un usuario.
● Twitter for websites
– Twitter cards, widgets, ...
14. Twitter Platform Objects
● Users - Objeto que hace tweets.
● Tweets - Objeto básico.
● Entities - Hashtags, media, urls, mentions
● Places – Coordinates o nombres.
16. PROCESADO
● Dataset de pruebas:
– 2738 tweets
– Recogidos días no consequtivos de la semana
pasada
– #dataviz, #periodismodatos, #jpd13
17. PROCESADO
CANTIDAD / TIEMPO
● En que moment se ha tuiteado más/menos
con un hastag?
● Hoy habla más gente sobre este tema que
ayer?
● Ahora mismo cuanto gente hay hablando del
tema?
● De cúal de estos dos temas se habla más?
18. PROCESSADO
VOLUMEN
● Más básico, acumulación de tweets
En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
41. TOPIC DETECTION
● TF-IDF:
Muy dicha por
todos
Poco dicha por
todos
Muy dicha por un
usuario
STOP - WORD TOPIC
Poco Dicha por
un usuario
UN-TOPIC Error