SlideShare una empresa de Scribd logo
Bájate miles de
tuits y cuenta
una historia
PRESENTACION
Presentacion
David Martín-Borregón
– @davidMartinB
– david@datanpress.com
– Ingeniero técnico en sonido e imagen
– Ingeniero superior en telecomunicaciones
– Master en Inteligencía Artificial y Machine Learning
– Ingenierio en Data'n'Press
– Data Scientific / Data Engineer
– Intership en Yahoo
– Participante en Big Dive 2013
Presentación
Presentación
Presentación
Presentación
● El público:
– Cúantos de los presentes tuvieron estudios
matématicos/estadísticos fuera de la escuela
secundaria?
– Cúantos de los presentes saben que es una
variable y una condición en programación?
Presentación
● Extracción
– Cómo va la api de twitter y que datos proporciona
● Procesado
– Cómo procesar los datos que da twitter.
(IR+SignalP+GraphTheory+NLP+Geo)
● Volumen
● Estructura social
● Geolocalización
● Anális de texto
● Visualización
– Anális de casos aplicados
Extracción
Extracción
● Que es una API
Application programming interfaceGraphical user interface
Extracción
● ¿Cómo interactuar con a la api?
– Documentación: https://dev.twitter.com/docs
● Bastard Book of Ruby, python,
– Liberería:
https://dev.twitter.com/docs/twitter-libraries + ….
– Oauth:
https://dev.twitter.com/apps
Ejemplo de oAuth
import tweepy
# == OAuth Authentication ==
# This mode of authentication is the new preferred way of authenticating with Twitter.
# The consumer keys can be found on your application's Details page located at https://dev.twitter.com/apps (under "OAuth settings")
consumer_key="T1z6Xp__________MuTF6g"
consumer_secret="IAsYxMOa_________________hqltPGM"
# The access tokens can be found on your applications's Details page located at https://dev.twitter.com/apps (located under "Your access token")
access_token="161268291-osNQotjA7R0_______________1vQYwFlL7ec793"
access_token_secret="sxAcnU3_________________________U8nRkFXis8Po"
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_token_secret)
api = tweepy.API(auth)
# If the authentication was successful, you should see the name of the account print out
print api.me().name
# If the application settings are set for "Read and Write" then this line should tweet out the message to your account's
# timeline. The "Read and Write" setting is on https://dev.twitter.com/apps
api.update_status('Updating using OAuth authentication via Tweepy!')
Tipos de API
● Search API
– Buscar en twitter.
● Streaming API
– Abrir una grifo de tweets a una busqueda.
– Importante para data-mining!!
● REST API
– Interacción total para un usuario.
● Twitter for websites
– Twitter cards, widgets, ...
Twitter Platform Objects
● Users - Objeto que hace tweets.
● Tweets - Objeto básico.
● Entities - Hashtags, media, urls, mentions
● Places – Coordinates o nombres.
PROCESADO
PROCESADO
● Dataset de pruebas:
– 2738 tweets
– Recogidos días no consequtivos de la semana
pasada
– #dataviz, #periodismodatos, #jpd13
PROCESADO
CANTIDAD / TIEMPO
● En que moment se ha tuiteado más/menos
con un hastag?
● Hoy habla más gente sobre este tema que
ayer?
● Ahora mismo cuanto gente hay hablando del
tema?
● De cúal de estos dos temas se habla más?
PROCESSADO
VOLUMEN
● Más básico, acumulación de tweets
En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
PROCESADO
VOLUMEN
En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
PROCESADO
VOLUMEN
En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
PROCESADO
VOLUMEN
En que momento se ha tuiteado más? Ahora mismo cuanta gente ha habla del tema?
PROCESADO
VOLUMEN
De que tema se habla más?
SOCIOGRAMA
SOCIOGRAMA
Basado en teoría de graphs
SOCIOGRAMA
Problema de los siete puentes de Köninsberg
- EULER
¿Es posible pasar por los siete puentes sin repetir puente?
SOCIOGRAMA
Euler crea los “graphs” - 1763
¿Es posible pasar por los siete puentes sin repetir puente?
SOCIOGRAMA
Node - Nodo
Edge - arista
Node: User Edge: follow
Node: User Edge: Hashtags
Node: Hashtags Edge: Users
…
Algunos tipos:
(un)Directed Graph
Weighted Graph
…
SOCIOGRAMA
Twitter
#Periodismodatos Users: 43 tweets: 68
#JPD13 Users: 131 tweets: 270
TOTAL: Users: 162 tweets: 338
1186 Vertices
SOCIOGRAMA
PAGERANK
@facemar
@NoticiaCiencia
@Ciberado
@merinoticias
@strausmaceta
SOCIOGRAMA
BETWEENNESS
@ciberado
@facemar
@robertodiaz
@edipotrebol
@deustoKomunika
SOCIOGRAMA
HITS
@facemar
@NoticiaCiencia
@merinoticias
@strausmaceta
@desutoKomunika
@robertodiaz
@inaki_agirre
@enricbach
@sApellaniz
@facemar
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
GEOLOCALIZACIÓN
LENGUAJE NATURAL
Análisi sintáctico y semántico
TOPIC DETECTION
MODELOS ESTADÍSTICOS
● Palabras más dichas (dataviz)
– BI_Dashboards ['dataviz', 'data', 'analytics', 'the', 'for']
– jenstirrup ['dataviz', 'news', 'latest', 'roundup', 'of']
– HlthAnalysis ['dataviz', 'the', 'in', 'of', 'tableau']
– ddjournalism ['ddj', 'dataviz', 'bigdata', 'to', 'data']
– DashingD3js ['gtgt', 'dataviz', 'data', 'visualization', 'the']
– albertocairo ['dataviz', 'infographics', 'mt', 'to', 'of']
– CraigMilroy ['dataviz', 'bigdata', 'analytics', 'via', 'the']
– SASUK_VAnalytic ['dataviz', 'sas', 'to', 'data', 'analytics']
TOPIC DETECTION
● TF-IDF:
Muy dicha por
todos
Poco dicha por
todos
Muy dicha por un
usuario
STOP - WORD TOPIC
Poco Dicha por
un usuario
UN-TOPIC Error
TOPIC DETECTION
● TF-IDF:
TOPIC DETECTION
● TF-IDF (dataviz)
– jenstirrup ['news', 'latest', 'httptconoq8ichxkd', 'summary', 'httptcokkmpu9c9fi']
– HlthAnalysis ['death', 'vizoftheday', 'causes', 'tableau', 'world']
– CraigMilroy ['bigdata', 'analytics', 'datascientist', 'via', 'cmo']
– ddjournalism ['ddj', 'journalism', 'bigdata', 'opendata', 'nicolaskb']
– BI_Dashboards ['businessintelligence', 'dundasdata', 'analytics', 'dashboards', 'do']
– DashingD3js ['gtgt', 'visualization', 'data', 'job', 'visualizations']
– SASUK_VAnalytic ['sas', 'httptcojxn0tevr2w', 'analytics', 'demo', 'visual']
– albertocairo ['infographics', 'mt', 'good', 'art', 'summary']]
TOPIC DETECION
● TF-IDF es limitado para tweets
● TrendingTopics es una alternativa (que esta
subiendo)
● Comparación con la red aleatoria vecina
SENTIMENT ANALISIS
● Encuesta
● Bag of words
● Bitex: http://svc8.bitext.com/api-demo/
Variables independientes:
EJEMPLOS
EJEMPLOS
● Geolocalitzación + volumen + natural
language: http://trendsmap.com/.
● Natural Language + volumen +
geolocalización + sociograma: Trending
topics de twitter
EJEMPLOS
● Sociograma + volumen:
http://www.vilaweb.cat/tuitometre
● Volumen(user) + sociograma:
http://twitterencatala.org/
● Geolocalització + volumen(media):
http://merce2012.elperiodico.com/Espectacle_multime
EJEMPLOS
● Volumen + Natural Language
http://deustosarelab.deusto.es/eleccionesvascas2012
● Sociograma + narual language + volumen:
http://www.guardian.co.uk/uk/interactive/2011/dec/07/
● Geolocalitzaicón + volumen:
http://engineering.twitter.com/2012/06/studying-rapidly
●
MUCHAS GRACIAS
David Martín-Borregón
@davidMartinB
datanpress
@datanpress

Más contenido relacionado

Similar a Bájate miles de tuits y cuenta una historia

Uso de Redes Sociales en la Administración
Uso de Redes Sociales en la AdministraciónUso de Redes Sociales en la Administración
Uso de Redes Sociales en la Administración
Cristina Juesas
 

Similar a Bájate miles de tuits y cuenta una historia (20)

Big data lead colmex
Big data lead colmexBig data lead colmex
Big data lead colmex
 
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1 Taller de Big Data y Ciencia de Datos en COLMEX dia 1
Taller de Big Data y Ciencia de Datos en COLMEX dia 1
 
El futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de uso
El futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de usoEl futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de uso
El futuro de Big Data: La calidad del análisis. Modelos efectivos y casos de uso
 
Sesión 2: Activamos el entorno digital de #socialovtt
Sesión 2: Activamos el entorno digital de #socialovttSesión 2: Activamos el entorno digital de #socialovtt
Sesión 2: Activamos el entorno digital de #socialovtt
 
Productividad tolosaldea
Productividad tolosaldeaProductividad tolosaldea
Productividad tolosaldea
 
Big data taller inegi sedesol
Big data taller inegi sedesolBig data taller inegi sedesol
Big data taller inegi sedesol
 
Text Mining con R en PowerBI - Global Spanish
Text Mining con R en PowerBI -  Global Spanish Text Mining con R en PowerBI -  Global Spanish
Text Mining con R en PowerBI - Global Spanish
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
Big data big opportunities
Big data big opportunitiesBig data big opportunities
Big data big opportunities
 
Situación de las iniciativas de Open Data internacionales (y algunas recomen...
Situación de las iniciativas de Open Data internacionales (y algunas recomen...Situación de las iniciativas de Open Data internacionales (y algunas recomen...
Situación de las iniciativas de Open Data internacionales (y algunas recomen...
 
SocialBro: Cómo sacar el máximo partido a tus contactos de Twitter
SocialBro: Cómo sacar el máximo partido a tus contactos de TwitterSocialBro: Cómo sacar el máximo partido a tus contactos de Twitter
SocialBro: Cómo sacar el máximo partido a tus contactos de Twitter
 
Cybercamp 2014. Tinfoleak: Analizando nuestras pautas y comportamientos a tr...
Cybercamp 2014. Tinfoleak:  Analizando nuestras pautas y comportamientos a tr...Cybercamp 2014. Tinfoleak:  Analizando nuestras pautas y comportamientos a tr...
Cybercamp 2014. Tinfoleak: Analizando nuestras pautas y comportamientos a tr...
 
Uso de Redes Sociales en la Administración
Uso de Redes Sociales en la AdministraciónUso de Redes Sociales en la Administración
Uso de Redes Sociales en la Administración
 
Cartajoven tiquismiquis
Cartajoven tiquismiquisCartajoven tiquismiquis
Cartajoven tiquismiquis
 
Otra forma de escuchar a través de Internet (BiMe), Gonzalo Ruiz
Otra forma de escuchar a través de Internet (BiMe), Gonzalo RuizOtra forma de escuchar a través de Internet (BiMe), Gonzalo Ruiz
Otra forma de escuchar a través de Internet (BiMe), Gonzalo Ruiz
 
OSINT OSANT... CADA DÍA TE QUIERO MÁS
OSINT OSANT... CADA DÍA TE QUIERO MÁSOSINT OSANT... CADA DÍA TE QUIERO MÁS
OSINT OSANT... CADA DÍA TE QUIERO MÁS
 
El profesional en red - Audit Meeting Madrid 2013
El profesional en red - Audit Meeting Madrid 2013El profesional en red - Audit Meeting Madrid 2013
El profesional en red - Audit Meeting Madrid 2013
 
Big Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patronesBig Data - Conceptos, herramientas y patrones
Big Data - Conceptos, herramientas y patrones
 
HTML5, CSS3 y móviles
HTML5, CSS3 y móvilesHTML5, CSS3 y móviles
HTML5, CSS3 y móviles
 
Introducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdfIntroducción a arquitecturas y herramientas de Big Data.pdf
Introducción a arquitecturas y herramientas de Big Data.pdf
 

Último

proyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmusproyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmus
raquelariza02
 
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docxPRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
encinasm992
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
vazquezgarciajesusma
 

Último (20)

Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
Sistemas distribuidos de redes de computadores en un entorno virtual de apren...
 
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptxleidy fuentes - power point -expocccion -unidad 4 (1).pptx
leidy fuentes - power point -expocccion -unidad 4 (1).pptx
 
lenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometrialenguaje algebraico.pptx álgebra, trigonometria
lenguaje algebraico.pptx álgebra, trigonometria
 
Diagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestreDiagrama de flujo - ingenieria de sistemas 5to semestre
Diagrama de flujo - ingenieria de sistemas 5to semestre
 
proyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmusproyecto invernadero desde el departamento de tecnología para Erasmus
proyecto invernadero desde el departamento de tecnología para Erasmus
 
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
ACTIVIDAD DE TECNOLOGÍA AÑO LECTIVO 2024
 
Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.Desarrollo de Habilidades de Pensamiento.
Desarrollo de Habilidades de Pensamiento.
 
Alan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentaciónAlan Turing Vida o biografía resumida como presentación
Alan Turing Vida o biografía resumida como presentación
 
Posnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativaPosnarrativas en la era de la IA generativa
Posnarrativas en la era de la IA generativa
 
Diagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestreDiagrama de flujo soporte técnico 5to semestre
Diagrama de flujo soporte técnico 5to semestre
 
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docxPRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
PRÁCTICAS DEL MÓDULO I Y II DE EDUCACIÓN Y SOCIEDAD.docx
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
 
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
Índice del libro "Big Data: Tecnologías para arquitecturas Data-Centric" de 0...
 
Robótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptxRobótica educativa para la eduacion primaria .pptx
Robótica educativa para la eduacion primaria .pptx
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
 
HIGADO Y TRAUMA HEPATICO UDABOL 2024 (3).pdf
HIGADO  Y TRAUMA HEPATICO UDABOL 2024 (3).pdfHIGADO  Y TRAUMA HEPATICO UDABOL 2024 (3).pdf
HIGADO Y TRAUMA HEPATICO UDABOL 2024 (3).pdf
 
Inteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdfInteligencia Artificial y Ciberseguridad.pdf
Inteligencia Artificial y Ciberseguridad.pdf
 
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
(PROYECTO) Límites entre el Arte, los Medios de Comunicación y la Informática
 
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdfTrabajo Coding For kids 1 y 2 grado 9-4.pdf
Trabajo Coding For kids 1 y 2 grado 9-4.pdf
 
Licencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de SoftwareLicencias para el Uso y el Desarrollo de Software
Licencias para el Uso y el Desarrollo de Software
 

Bájate miles de tuits y cuenta una historia