Este documento presenta una introducción a los conceptos de datos, internet y análisis de redes sociales. Explica brevemente cómo los datos pueden ser estructurados o no estructurados y cómo las APIs permiten el acceso a datos. También explora cómo analizar sentimientos, flujos de personas y redes sociales. Finalmente, proporciona algunos ejemplos como el análisis de Flickr y Twitter para comprender mejor estos temas.
1. Datos e Internet
Fernando Tricas
Inform´tica y periodismo en la sociedad electr´nica. Curso avanzado de nuevas
a o
tecnolog´ y comunicaci´n
ıas o
Walqa, Huesca. 26 y 27 de julio de 2010
2. ¿Y Usted que opina?
http://www.flickr.com/photos/sugarpond/3060011206/
4. ´
Indice
1. La gente
2. Datos no estructurados
3. Datos estructurados
4. APIs
5. Sentimiento
6. An´lisis de redes sociales
a
7. Mundo f´
ısico
5. Colaboraci´n
o
¿Puede tener sentido resolver algunos problemas usando
procesadores de la gente?
SETI@home
P´blico el 17 de mayo de 1999
u
An´lisis de se˜ales recibidas en el radiotelecopio de Arecibo
a n
Berkeley Open Infrastructure for Network Computing
Supercomputador voluntario de prop´sito ‘general’
o
435,000 computadores, 521 TFlops (12 marzo de 2007)
Un mont´n de proyectos . . .
o
Supercomputador ciudadano ibercivis
Confinamiento de part´
ıculas en un campo magn´tico
e
Unos 18,000 ordenadores
6. La gente est´ dispuesta . . .
a
Bit´coras (blogs), wikis, fotos, v´
a ıdeos . . . web 2.0 . . . compartir
Incluso hay iniciativas que tratan de sacar partido de ello
http://www.mturk.com/mturk/welcome
7. La gente est´ dispuesta . . .
a
http://answers.yahoo.com/
8. Y otras mas voluntariosas
Por unos motivos . . .
http://stardustathome.ssl.berkeley.edu/
9. Y otras mas voluntariosas
O por otros:
http://www.texasborderwatch.com/
11. Soluciones de baja tecnolog´
ıa
Web Scraping
Bajar las p´ginas web y buscar lo que hay dentro
a
No todos los sitios lo permiten/ lo ven bien
Herramientas:
Descargar: wget, HTTrack, ...
Procesar: expresiones regulares, sed, Perl, Python ...
13. Ejemplo. ¿C´mo son los blogueros ’populares’ ?
o
El nombre de las cosas
Premios Blogoteca Tops Premios
20 Minutos 20 Minutos Wikio Bitacoras Blogia
** de (231) ** de (226) ** de (256) ** de (279) ** de (8380)
blog (47) blog (74) blog (129) blog (112) blog (2075)
** un (37) ** un (26) cine (34) ** un (36) ** un (982)
** mi (21) ** mi (22) linux (23) ** del (29) ** mi (942)
** una (21) mundo (19) ** un (23) podcast (24) ** una (544)
mundo (20) ** una (18) moda (21) viajes (20) vida (525)
vida (16) vida (14) cocina (16) recetas (17) mundo (521)
twitter (13) diario (13) ciencia (15) ** mi (16) diario (292)
diario (12) cosas (9) mundo (14) mundo (16) bienvenidos (270)
madrid (10) digital (7) salud (13) fotos (13) web (250)
cine (10) madrid (6) motor (13) vida (13) club (199)
rinc´n (7)
o rinc´n (5)
o viajes (10) digital (12) juan (189)
digital (6) cocina (5) futbol (10) cocina (12) san (182)
...
ies (113 + 24)
1000 1000 1546 1381 131112
25. Un calendario
http://elmcity.cloudapp.net/services/a2cal/html
http://elmcity.cloudapp.net/
26. ¿Qu´ se puede hacer con ellos?
e
http://pipes.yahoo.com/
27. APIs. Application Programming Interface
[Bill Joy, Cofundador de Sun Microsystems] ”Most of the
smart people in the world don’t work for you”
[Ley de Joel Spolsky] ”Most customers use 20 % of the
features. This leads many naive startups to think they
can deliver a product with 20 % of the features and still
capture the market. Then they crash and burn when they
discover that actually everybody is using a different
20 % subset of the features of the market leader.”
[Dan Gillmor] ”My readers know more than I do”
28. APIs. Dejar que otros programen nuestros sistemas
Permitir el acceso a los datos de nuestro sistema
Utilizaci´n bienvenida
o
Condiciones controladas
Resultados predecibles y estructurados
30. Ejemplo. API Flickr
Estudio sobre los turistas en las Islas Canarias (con V´
ıctor R. Ru´
ız
http://linotipo.es).
Flickr es un sitio (de Yahoo!) para publicar fotograf´
ıas
Alojaba en 2008 m´s de 3 mil millones de im´genes.
a a
Usuarios
40 % de usuarios entre 25 y 44 a˜os
n
40 % de usuarios m´s de 44 a˜os
a n
35. Ejemplo. Flickr
API de Flickr
Descargar meta-informaci´n de las fotograf´ realizadas
o ıas
entre 2004 y 2008
Y los datos del perfil de los usuarios
36. Ejemplo. Flickr
Resultados:
150.000 im´genes
a
4.000 fot´grafos
o
Y sus datos (en algunos casos, geolocalizados)
217.000 etiquetas
34.000 diferentes
media 14 etiquetas por foto
mediana 8 etiquetas por foto
38. Ejemplo. Flickr
Sabemos m´s:
a
La hora. (Hora punta: las 12.00)
Vistas
Pa´ de or´
ıs ıgen de los fot´grafos (incluso a nivel de regi´n,
o o
comunidad, ciudad, en algunos casos).
A lo largo del tiempo.
40. Ejemplo. Flickr
Sabemos:
A d´nde van los visitantes brit´nicos
o a
Los holandeses prefieren Lanzarote
Los madrile˜os tambi´n. Y La Palma.
n e
41. Ejemplo. Flickr
Sabemos:
A d´nde van los visitantes brit´nicos
o a
Los holandeses prefieren Lanzarote
Los madrile˜os tambi´n. Y La Palma.
n e
No sabemos:
¿Los visitantes repiten?
¿A qu´ otros sitios viajan?
e
¿Sus amigos vienen despu´s?e
¿Y en otros destinos?
http://rvr.linotipo.es/2009/10/
redes-sociales-y-turismo-flickr-y-canarias.html
—————-
Hay m´s gente mirando estas cosas...
a
D. Crandall, L. Backstrom, D. Huttenlocher, J. Kleingerg,
‘Mapping the World’s Photos’
42. Ejemplo. Inter´s tur´
e ıstico
http://www.bluemoon.ee/~ahti/touristiness-map/
(fotos de Panoramio)
46. Menciones (Facebook – New York Times)
Durante la final ...
Iniesta: 0,9 % de las menciones en Facebook
Villa: 0.47 %
Casillas: 0.45 %
Torres: 0.36 %
Robben: 0.27 %
Forl´n: 0.19 %
a
Sneijder: 0.16 %
http://www.nytimes.com/interactive/2010/07/02/sports/soccer/facebook-worldcup.html
49. ¿C´mo es la gente?
o
[Consulta en Google (y sugerencias)] “Tengo 20 a˜os”
n
20 30 40 50 60 70 80 Total
Nunca he tenido novio X 1
Nunca he besado X 1
Nunca he tenido novia X X 2
No tengo amigos X X 2
Mi novia 15 X 1
No s´ qu´ hacer con mi vida
e e X 1
Se me cae el pelo X 1
Estoy embarazada X X 2
Nunca he trabajado X X 2
Tengo acn´ e X 1
Vivo con mis padres X 1
Me siento vieja X 1
Quiero estudiar X 1
No s´ qu´ hacer con mi vida
e e X 1
No puedo bajar de peso o quiero bajar de peso X X 2
Quiero embarazarme X 1
Estoy sola X 1
Busco trabajo X 1
¿Qu´?
e X 1
Me puedo jubilar X 1
Me estoy muriendo X 1
http://elaragon.wordpress.com/2010/05/12/sugerencias-de-google-por-espectro-de-edad/
50. Datos que no son p´blicos. Telefon´
u ıa
Datos O2 en UK, volumen de SMSs
http://flowingdata.com/2010/06/29/
texting-volume-during-world-cup-matches/
62. Datos privados. Google tambi´n lo sabe
e
25 de junio. Partido Espa˜a – Chile.
n
http://googleblog.blogspot.com/2010/07/
most-world-cup-crazy-countries.html
64. M´s deporte
a
http://blogpulse.com/trend?query1=casillas&label1=
&query2=contador&label2=&query3=alonso&label3=&days=
90&x=31&y=14 (2010-07-21)
65. Lo m´s
a
Lo m´s visto
a
Lo m´s comentado
a
Lo m´s ...
a
66. Lo m´s e internet
a
¡Enlaces!
http://www.nytimes.com/gst/mostblogged.html
67. No es bueno que el hombre est´ solo
e
[An´lisis de redes sociales] Estudio de la estructura social
a
de las personas (organizaciones, cosas, ...) conectadas
mediante relaciones (amistad, parentesco, inter´s, ...).
e
Las relaciones, los contactos influyen en nosotros.
No confundir con el grafo social (representaci´n visual de las
o
relaciones)
No confundir con los sitios sociales (Facebook, Tuenti)
68. Relaciones en internet
Blogs
http://atalaya.blogalia.com/historias/8149
(Con JJ. Merelo)
69. Relaciones en internet
http://www.deugarte.com/la-topologia-de-la-blogsfera-segun-feevy
(David de Ugarte)
70. Relaciones en el ‘mundo real’
http://arxiv.org/abs/physics/0610104
Structure and tie strengths in mobile communication networks. Authors: J.-P.
Onnela, J. Saramaki, J. Hyvonen, G. Szabo, D. Lazer, K. Kaski, J. Kertesz,
A.-L. Barabasi
http://www.flickr.com/photos/pietermorlion/2127296477/
http://www.flickr.com/photos/anaypacosancho/2357581936/
73. Por ejemplo, en Twitter
Lo que dicen de s´ mismas las personas (Bio) ‘Tuiteros’
ı
geolocalizados (A. Rivero) + Zaragozanos (J.A. Biel)
74. ¿C´mo te sientes?
o
Pulse of the Nation: U.S. Mood Throughout the Day inferred from
Twitter. (Verde feliz)
http://www.ccs.neu.edu/home/amislove/twittermood/
76. Propagaci´n de Informaci´n. El meme de enjut@
o o
mojamut@
El objetivo del meme es conocer los usos y costumbres de
los blogosferianos y ver c´mo es la relaci´n de los
o o
hombres y las mujeres en Internet.
Pregunta: ¿Cu´ntas horas al d´ de media pasas conectad@ a Internet?
a ıa
Pregunta: ¿Cu´ntas cuentas de correo tienes?
a
Pregunta: ¿De cuantas redes sociales eres?
Pregunta: ¿Qu´ te gusta m´s para expresarte el blog, el wiki, Flickr o
e a
Twiter?
Pregunta: ¿A cu´ntas mujeres blogueras conoces personalmente?
a
Pregunta: ¿A cu´ntas mujeres blogueras lees habitualmente?
a
Pregunta: ¿A qui´n le paso el meme?
e
77. Propagaci´n de Informaci´n. El meme de enjut@
o o
mojamut@
http://seccionfemenina.blogspot.com/2008/05/
informe-del-meme-de-enjut-mojamut.html
79. Propagaci´n de Informaci´n. El meme de enjut@
o o
mojamut@
http://vimeo.com/9532646
http://www.barriblog.com/wiki/index.php/Resultados_enjuta_mojamuta
83. Las cosas y la red
http://www.dailymail.co.uk/sciencetech/article-1036931/
Bluetooth-Big-Brother-uses-mobiles-laptops-track-thousands-Britons.
html
http:
//www.technovelgy.com/ct/Science-Fiction-News.asp?NewsNum=1781
84. Las cosas y la red y nosotros
Mezclando informaci´n
o
Vassilis Kostakos y Panos A. Kostakos, “Intelligence gathering by capturing the
social processes within prisons”
“How Bluetooth Surveillance Works”
http://electronics.howstuffworks.com/bluetooth-surveillance.htm/
printable
85. Las cosas y la red y nosotros
Pronto, en su tienda m´s cercana
a
http://p10.hostingprod.com/@spyblog.org.uk/blog/2008/05/
path-intelligence-phorm-for-shopping-centres.html
“Shops track customers via mobile phone”
http://technology.timesonline.co.uk/tol/news/tech_and_web/
article3945496.ece
Path Intelligence FootPath(TM) // http://www.pathintelligence.com/
87. Pachube en Walqa
http://www.pachube.com/feeds/6289
http://www.flickr.com/photos/min0n/4389892262
88. Los programas
J.M. Gonz´lez-Barahona, G. Robles, M. Mirchlmayr, JJ. Amor,
a
D.M German, “Macro-level software evolution: a case study of a
large software compilation”
89. La Wikipedia
Felipe Ortega “Wikipedia: A quantitative analysis.Evoluci´n del
o
n´mero de autores en las 10 Wikipedias mayores. N´mero de
u u
autores en el ‘core’ (10 % m´s activos).
a
90. Software libre
La libertad de usar el programa, con cualquier prop´sito
o
(libertad 0).
La libertad de estudiar c´mo funciona el programa, y
o
adaptarlo a tus necesidades (libertad 1). El acceso al c´digo
o
fuente es una condici´n previa para esto.
o
La libertad de distribuir copias, con lo que puedes ayudar a tu
vecino (libertad 2).
La libertad de mejorar el programa y hacer p´blicas las
u
mejoras a los dem´s, de modo que toda la comunidad se
a
beneficie. (libertad 3). El acceso al c´digo fuente es un
o
requisito previo para esto.
91. Software libre
La libertad de usar el programa, con cualquier prop´sito
o
(libertad 0).
La libertad de estudiar c´mo funciona el programa, y
o
adaptarlo a tus necesidades (libertad 1). El acceso al c´digo
o
fuente es una condici´n previa para esto.
o
La libertad de distribuir copias, con lo que puedes ayudar a tu
vecino (libertad 2).
La libertad de mejorar el programa y hacer p´blicas las
u
mejoras a los dem´s, de modo que toda la comunidad se
a
beneficie. (libertad 3). El acceso al c´digo fuente es un
o
requisito previo para esto.
¿Y los datos?
92. Datos y gente
http://www.dndzgz.com/
http://www.zaragoza.es/ciudad/servicios/conjuntodatos.htm
96. Sobre los datos
Si es posible, en formatos adecudos
Si no lo es, al menos en forma y formatos predecibles (URLs,
no cambiar las cosas de sitio, ...)
Invitar a reutilizar
Si hay restricciones, que est´n claras
e