Obtención de datos de redes sociales

Obtención de datos de
redes sociales
Gonzalo Ruiz – gruiz@kampal.com
10 de marzo de 2016

Índice
• Introducción
• Técnicas y herramientas de extracción
de datos
• Ruido, técnicas de filtrado de datos
• Qué hemos hecho en Aragón Open
Social Data
• Qué ofrecemos al público
• Detección de tendencias
10 de marzo de 2016 2

Introducción
• Internet -> gran base de datos
• Desestructurada -> Redes sociales,
foros, medios de prensa, blogs, etc.
• Propuesta DGA
– Descargar todo lo relacionado con Aragón
– Ponerlo a disposición
• Ciudadanos
• Empresas
• Desarrolladores

Para qué
• Marketing
• Prensa
• Ocio y turismo
• Imagen de marca
• Toma de decisiones estratégicas
• Tendencias
• Estudios de movilidad
• …

Lo que vemos

Lo que hay detrás

El problema
• Lenguaje HTML (HyperText Markup
Language - lenguaje de marcas de
hipertexto)
• No hay un estándar de cómo estructurar
la información -> heterogeneidad
• Complicaciones -> AJAX, JavaScript

Protocolo HTTP
• Sistema de cliente-servidor
• Petición y respuesta
• GET y POST

URL
• http://www.nombre_del_sitio.com/funcio
n?parametro1=valor1&parametro2=valo
r2
• Ejemplo de una tienda
– Protocolo: HTTP/HTTPS
– Nombre de sitio: máquina a la que nos vamos a
conectar (DNS – Domain Name Service)
– Función: lo que queremos hacer en esa web ->
login, listar, comprar…
– Parámetros: artículo X, fecha Y…

Otros elementos
• Cabeceras -> datos de las peticiones y
respuestas
• Autenticación (sesión)
• Códigos de respuesta
– 1XX: informativas
– 2XX: correctas
– 3XX: redirecciones
– 4XX: errores de cliente
– 5XX: errores de servidor

Error 404

Ejemplo de diálogo
• http://www.mitienda.com/index.html
Petición
Respuesta

Índice
• Introducción
• Técnicas y herramientas de
extracción de datos
• Qué hemos hecho en Aragon Open
Social Data

Técnicas y herramientas de
extracción de datos
• Descargar toda la información –> BD
– Herramientas que las propias páginas web
proveen
• APIs (Application Programming Interface)
• Volcados en ficheros en diferentes formatos
(CSV, XLS, JSON, XML…)
– Si no queda más remedio -> scraping
• Tratar de extraer la información del HTML

Opción 1 - API
• Interfaz de programación de
aplicaciones
• Lenguaje intermedio -> mecanismo de
pregunta y respuesta
• La información está estructurada ->
JSON, XML…

• http://www.mitienda.com/api/productos
Ejemplo
JSON XML

API
• Ejemplos
– Twitter
– Facebook
– Youtube
– Instagram
– …
• Problemas
– Límites técnicos
– Límites legales
– Oscurantismo (empresas, malfuncionamiento…)

Tipos de API
• Tradicional
– Pregunta respuesta
– La mayoría
• Streaming
– Conexión permanente
– Algunas como Twitter

Opción 2 - Ficheros
• Muy comunes en la administración
• Suelen estar bien estructurados -> XLS,
CSV…
• Generalmente, para información estática
– Tráfico
– Padrón
– Turismo
– INEM
– …
• Descargar y procesar

Ficheros

Opción 3 - scraping
• Cuando no hay otra alternativa
• Técnica para extraer datos de sitios web a
través de programas
– Ingeniería inversa
• Qué parámetros envía
• Estudiar cómo se estructura la información
• Secuencia de peticiones y reusar datos de las
respuestas
• Estudiar el comportamiento dinámico de la web
• Visitar muchas páginas para conseguir todos los
datos

Ejemplo

Comportamiento dinámico

Parseo
• Convertir HTML en algo manejable ->
errores

Diferencias
• Si lo hiciéramos manuealmente
– API: www.mitienda.com/productos
– Volcado:
www.mitienda.com/descargar_productos
– Scraping:
1. www.mitienda.com/listado -> parseo -> buscar y
extraer identificadores de productos
2. www.mitienda.com/productos?id1 -> parseo ->
buscar y extraer datos
www.mitienda.com/productos?id=2 -> parseo ->
www.mitienda.com/productos?id=3 -> parseo ->
…

WEB scrapers/crawlers
• Programas que simulan las visitas que
muchos usuarios harían
• “Engañan” a los servidores haciéndoles
creer que son usuarios
• Pero no son tontos
– Cuestiones legales
– Límites
• Número de páginas vistas
• Por tiempo
• …

Tecnologías
• Existen multitud de herramientas en
distintos lenguajes de programación (Java,
Python, Ruby, …)
• Necesitamos esencialmente
– Herramienta para la conexión (urllib,
requests…)
– Herramienta para parseo y extracción de datos
• HTML y XML (Beautifulsoup, lxml…)
• JSON (json, simplejson)
– Almacenamiento de datos en ficheros, bases de
datos, … -> Con la estructura que nosotros
queramos

Dificultades
• Mecanismos de “defensa”
– Autenticación – cookies de sesión
– Formularios y parámetros especiales
– Enviar cabeceras especiales
– Límites
– Captchas
– Contenido dinámico
• A veces no es posible (o es muy difícil)
emular el navegador (contenido dinámico,
actualizaciones) -> utilizar un webdriver

Webdriver - Selenium
• Abre y controla una ventana de navegador
como si fuera un usuario
• Simula clicks, eventos del ratón,
pulsaciones de teclas, etc.
• Podemos especificarle una secuencia:
1. Conéctate a www.mitienda.com
2. Rellena y envía el formulario de login
3. Ve al listado de productos
4. Entra en todos los productos y descárgame
sus datos

Curiosidad
• Buenas prácticas
– Mira el robots.txt de los sitios que vayas a scrapear
• Honestamente, habría que mirar también las cabeceras x-
robots en HTTP y las tag robots en el HTML
– Controla la velocidad. Si el sitio va lento, baja la
presión
– Y al revés, para más velocidad usa múltiples IPs,
varios scrapers, lanza proxies en la nube…
– No mientas en el UserAgent e indica al sysadmin
una forma de contactarte: email, web…

Para qué se usa

Índice
• Introducción
• Técnicas y herramientas de extracción de
datos
• Qué hemos hecho en Aragón Open Social
Data

El ruido
• El mismo concepto que con el sonido
• Sabemos cómo descargar, pero
– ¿qué descargamos?
– ¿cómo sabemos lo que realmente nos interesa
y lo que no?
• Definir unos buenos criterios de búsqueda
– Palabras clave
– Fechas
– Geoposición
– …

Ejemplos

Prevenir
• Mayor parte -> Búsqueda por palabras
– No seleccionar muchas palabras
• Cuantas más palabras, peor
• Atención a los límites
• Directamente relacionadas -> exclusividad
– Combinar palabras
• Ej: “corte” vs. “corte de luz”
– Que estén directamente relacionadas con lo
que queremos encontrar
• Ej: apagón
– Que no sean demasiado cortas
• Evitar confusiones

Curar
• Técnicas de filtrado -> a posteriori
(imposible hacerlo a mano)
– Identificación del idioma
– Evitar ciertas palabras
• Si aparece junto con otra palabra -> Eliminar
– Blacklists and whitelists dinámicas ->
palabras y/o usuarios
– Cuidado con los spammers

Spammers
• Aprovechan los trending topics para
hacer publicidad

Índice
• Introducción
de datos
• Qué hemos hecho en Aragon
Open Social Data

Qué hemos hecho en Aragón
Open Social Data
• ¿De qué se habla en Aragón?
• ¿Qué es importante para los
aragoneses?
• ¿Qué puede resultar interesante para los
aragoneses?
• ¿En qué se diferencian los
aragoneses del resto de
España?

Qué fuentes capturamos
• Eventos: Facebook Events, Spain-info
• Texto: Twitter, Facebook, Google+, Blogger,
Blogia, Wordpress
• Wiki: Wikipedia
• Video: Youtube, Vimeo
• Imágenes: Instagram, Flickr, Pinterest
• Lugares: Foursquare
• Código: Github
• Prensa: Heraldo de Aragón, El Periódico de
Aragón, Diario del Alto Aragón, Diario de Teruel

Qué datos capturamos
• Siempre datos públicos
• Que cualquier usuario puede encontrar
por sus propios medios
• Se puede controlar el contenido:
– por la URL
– por el autor
• Un usuario puede solicitar dejar de ser
escuchado

Criterios de captura
• Geoposición
– Dentro de Aragón
– Zonas colindantes
– Nombres de municipios
• Palabras/usuarios clave
– Temas de interés
– Usuarios relevantes para Aragón
– Se realimentan y actualizan con los datos
geoposicionados

Temas de interés

Cómo se captura
• Normalmente el usuario ve la
información a través de un navegador
• Necesitamos capturar grandes
volúmenes de información constante
• Filtrado por diferentes criterios
• Herramientas que las redes sociales y
otras webs proveen y scraping
• Límites de las fuentes

Cómo se captura
• Robots, arañas, web crawlers,
scrapers…
• Simulan las visitas que muchos
usuarios harían
• Cada uno se ocupa de una tarea
– Una red social
– Sólo cierta información
• Centralizan la información
– Filtran y “uniformizan”

Cómo se filtra
• Se solicitan sólo los campos que nos interesan,
se eliminan el resto
• 2 tipos: streaming o periódicas
• Las arañas no saben qué contenido es bueno o
malo
– Se captura mucho ruido, especialmenteal buscar
por palabra clave
– No se deben de usar palabras demasiado cortas o
sin significado (preposiciones, artículos…)
– Hay que tener cuidado con otros idiomas. Ej: CAI,
USJ

Cómo se almacena
• Todos los datos son guardados en una
base de datos distribuida
• La cantidad de información capturada
es importante
• En torno a 30 GB al mes, que se reducen
a unos 3 GBs al filtrar
• Alrededor de 1.000.000 de entradas al
mes entre vídeos, fotos, mensajes, etc.

Procesamiento
• Detección de idioma
• Se almacena el criterio que ha hecho que
cierto contenido se capture
• Se calculan ciertos parámetros en base a
los datos capturados:
– Apariciones por cada 1000 palabras de dentro
y fuera de Aragón:
• Temas de interés dentro de Aragón
• Diferenciales
• Acumulados por 30, 60 y 90 días

Cómo se accede a la
información
• Creamos una API

Cómo funciona

Arquitectura
31 de octubre de 2014 55

Panel de control

Monitorización

Qué ofrecemos al público
• LO QUE NOS GUSTARÍA TENER
• Una API que permite acceder a los
datos recogidos y filtrados
• Totalmente pública, sin necesidad de
registro (aunque con algún límite)
• Se pueden acceder a los datos antiguos
hasta 12 meses (por el momento
disponemos desde diciembre de 2013)

Cómo usar nuestra API
• Peticiones HTTP como las que hace
cualquier navegador
• El usuario sólo tiene que indicar qué datos
desea obtener y cómo los quiere filtrar
– Dirección (/trendings o /data)
– Parámetros (?source=twitter)
• Librerías en distintos lenguajes que hacen
muy sencillo su uso

Qué formato tienen los resultados
• Actualmente en formato JSON
• Los resultados aparecen paginados
• Ordenados cronológicamente

Tendencias
• http://opendata.aragon.es/socialdata/trendings
– {"status": "OK", "results": [result_1, result_2,
result_3...]}
– Results: {"name": name, "url": url}
• /socialdata/trendings?type=aragon
• /socialdata/trendings?type=spain
• /socialdata/trendings?type=30days
• /socialdata/trendings?type=diff

Contenido
• http://opendata.aragon.es/socialdata/data?
parameters
– {"status": "NOK", "error_message": message}
– {"status": "OK", "on_this_page": on_this_page,
"results":[result_1, result_2, result_3...]}
– {"id": id,"description": description, "ends_on":
ends_on, "lat": latitude, "lng": longitude,
"published_on": published_on, "title": title, "url":
url, "author": author,"starts_on": starts_on,
"source": source, "type": type,
"thumbnail":thumbnail}

Contenido
• id: entero identificativo del elemento.
• type: cadena que indica el tipo de contenido.
• source: cadena de texto que indica a qué fuente pertenece el resultado.
• title: cadena con el título del contenido en el caso de que lo tenga.
• description: contenido del elemento (texto del tweet, descripción del
evento, descripción del vídeo, etc.)
• url: dirección url directa al contenido.
• author: cadena de texto con el nombre del autor en caso de que lo haya.
• starts_on: para los eventos, si la tuvieran, fecha de comienzo.
• ends_on: para los eventos, si la tuvieran, fecha de final.
• published_on: fecha de publicación del contenido.
• lat: latitud del contenido en formato real.
• lng: longitud del contenido en formato real.
• thumbnail: dirección url del thumbnail asociado si lo hubiera.

Contenido
• Dos tipos de paginación:
– Estándar (máx. 1000)
– since_id & max_id
• Todas las fechas tienen el formato: 16/01/14
13:03
• Se puede especificar que la API devuelva los
datos en crudo con el parámetro raw_mode
– /socialdata/data?source=twitter&raw_mode=true
– Nuevo campo en los resultados llamado raw_data

Cómo podemos filtrarla
• Por tipo de contenido
• Por fuente
• Por conversación
• Por geoposición
• Por período
• Por palabra clave

Filtro por tipo de contenido
• /socialdata/data?type=content_type
– event (Facebook Events, Spain-info)
– text (Twitter, Facebook, Google+, Blogger, Blogia,
Wordpress)
– wiki (Wikipedia)
– video (Youtube, Vimeo)
– picture (Instagram, Flickr, Pinterest)
– venue (Foursquare)
– code (Github)
– media (Heraldo de Aragón, El Periódico de Aragón,
Diario del Alto Aragón, Diario de Teruel)

Filtro por fuente
• /socialdata/data?source=source_name
– spain_info
– facebook_events
– twitter
– youtube
– instagram
– facebook
– wikipedia
– blogger
– wordpress
– blogia
– vimeo
– flickr
– foursquare
– pinterest
– google_plus
– github
– heraldodearagon
– periodicodearagon
– diariodelaltoaragon
– diariodeteruel

Filtro por conversación
• /socialdata/data?conversat
ion=conversation_type
– geo: conversación sobre lo
que se habla dentro de
Aragón
– rel: conversación de temas y
usuarios relevantes para
Aragón

Filtro por geoposición
• Filtrado por centro y radio
– /socialdata/data?center=coordinates&distance=distance_in_k
m
– /socialdata/data?center=41.35678,-0.8148576&distance=5
• Filtrado por cuadrado geográfico
– /socialdata/data?bbox=min_lng,min_lat,man_lng,max_lat
– /socialdata/data?bbox=-0.8148576,41.35678,-
0.667584,41.78553
• Filtrado por municipio y radio
– /socialdata/data?locality=locality&distance=distance_in_km
– /socialdata/data?locality=Zaragoza&distance=5
• Sólo datos geolocalizados:
– /socialdata/data?source=twitter&geolocated=true

Otros filtros
• Por período:
– /socialdata/data?start_date=start_date&end
_date=end_date
• Por palabra clave:
– /socialdata/data?query=query
• Combinaciones!

Ejemplo de uso
https://github.com/albertoalcolea/charla-scraping

Ejemplo de resultados

Qué puedo hacer con estos datos

Jacathon

Índice
• Introducción
de datos
• Qué hemos hecho en Aragon Open
Social Data

Detección de tendencias
• Volumen de tráfico en redes sociales
(twitter, facebook, youtube…)
• Volumen de descargas y compras
(iTunes, Amazon, Spotify, Google Play…)
• Valoraciones
• Charts, top lists (Emisoras de radio,
foros…)
• Volumen de búsquedas (Google)

Qué es un trending topic
• Tendencia o tema del
momento
• Palabras o frases más
repetidas en un
momento concreto en
Twitter
• Origen en los hashtag ->
#etiqueta
• 2 objetivos principales:
– Promoción
– Movilización

Cómo se detecta
• Algoritmo que pesa los términos
– Apariciones
– Novedad de los términos
• Hay temas de los que siempre se habla mucho -
> no son trending topics. Ej: Justin Bieber
• Algunos de los más importantes:
– Wikileaks
– Primavera Árabe
– AcampadaSol
– Muerte de Michael Jackson
– Muerte de Steve Jobs

Diferencia

Robots y spam
• Aprovechan estas tendencias para hacer
publicidad
• Tienen robots similares a los nuestros
– Calculan sus propias tendencias
– Utilizan las de las redes sociales
• Incluyen sus propios hashtags, enlaces,
etc.
• No tienen interacción con otros usuarios

Spammers

Bola de nieve
• Hacemos detección de tendencias
– Muy costoso -> guardar mucha información,
hacer muchos cálculos periódicamente…
– Lista fija inicial -> perderíamos mucha
información
• Además de las palabras clave iniciales -
> retroalimentación
– Coge nuevas palabras
– Elimina algunas viejas

Enlaces
• http://opendata.aragon.es/
• http://opendata.aragon.es/portal/social-
data
• http://opendata.aragon.es/portal/desarrol
ladores/resumen

Obtención de datos de redes sociales

Recomendados

Recomendados

Más contenido relacionado

Similar a Obtención de datos de redes sociales

Similar a Obtención de datos de redes sociales (20)

Último

Último (20)

Obtención de datos de redes sociales