Etiquetando la sociedad a través de la red: Análisis de redes sociales de etiquetado sobre la globalización agrícola
1. Etiquetando la sociedad a través de la web y
rastreando grandes conjuntos de datos para
usos sociales: Método e implicaciones en la red
de la globalización de la agricultura
JUAN DIEGO BORRERO, jdiego@uhu.es
ESTRELLA GUALDA, estrella@uhu.es
Universidad de Huelva
VI Congreso Andaluz de Sociología - Cádiz, 30 de noviembre 2012
1
2. Tabla de contenidos
1. Introducción y objetivos 4. Resultados
2. Perspectiva teórica – Centralización
– Globalización de la – Cohesión y subestructuras:
agricultura Autoridad
– Etiquetando la Sociedad a – Etiquetas para recomendar
través de la Web 2.0 y compartir Webs
3. Métodos y técnicas para 5. Discusión,
la recuperación de la conclusiones, e
información investigaciones futuras
– Procedimiento de
recolección de datos
2
3. 1. Introducción y objetivos
Desafíos
¡La era de los grandes conjuntos de datos y de
la Web Social ha llegado!
p.e., Twitter, Facebook, Tumbrl, Delicious, Youtube, Flickr, Wikipedia…
1. ¿Van a transformar la forma en que estudiamos los fenómenos
de comunicación y las relaciones sociales?
2. ¿Van a cambiar el modo de hacer "investigación“ en las ciencias
sociales?
Debido a ello, es crucial comenzar a preguntarse
sobre los supuestos analíticos, los marcos
metodológicos y los sesgos implícitos en el
fenómeno de los grandes datos y su implicación
para la investigación en las ciencias sociales. 3
4. 1. Introducción y objetivos
La importancia de la Web Social
1.El acceso a grandes conjuntos de
datos no es tan importante por su
tamaño, sino por su relación con otros
datos. Estos datos conforman una red
(de datos, de personas).
2.La Web Social maneja grandes datos
y goza de un alto interés en la
academia así como una alta
popularidad.
4
5. 1. Introducción y objetivos
Sistemas de etiquetado social
Las nuevas tecnologías han hecho posible para la
sociedad, compartir e interactuar colaborativamente.
Muchos usuarios incorporan
metadatos en forma de
ETIQUETAS
Fuente: http://bvdt.tuxic.nl/index.php/the-wisdom-of-
the-crowds-in-the-audiovisual-archive-domain/
Que dan como resultado una
estructura de etiquetas
colectiva
Fuente: http://blog.hubspot.com/blog/tabid/6307/bid/7372/9-Reasons-Why-
Your-Social-Media-Strategy-Isn-t-Working.aspx/
5
Fuente: http://www.idonato.com/2009/05/27/fun-with-tag-clouds/
6. 1. Introducción y objetivos
Nuestros objetivos
1. Usar grandes conjuntos de datos provenientes
de la Web 2.0, concretamente de Delicious,
para descubrir cómo se estructura el tema
“globalización de la agricultura”.
2. Mediante el análisis de redes sociales, conocer
1. qué Webs han sido recomendadas a través del
etiquetado social, qué tipos de usuarios son
centrales en la red, y qué tipo de estructura y
subestructuras conforman la red estudiada;
2. qué clases de etiquetas se están usando para
marcar las Webs y cómo se estructuran.
6
7. 2. Perspectiva teórica
Web 2.0… y etiquetado colaborativo
Web 2.0 es la revolución de los negocios
en la industria de la computación, originada
por el paso hacia internet como plataforma
(O’Reilly, 2007)
Etiquetado social o colaborativo es la
actividad en la Web 2.0 consistente en
etiquetar recursos digitales mediante
palabras clave - tags (Golder y Huberman,
2006; Trant, 2009). Páginas webs,
fotos, videos,
posts…
Fuente: http://www.laurenwood.org/anyway/2007/11/web-20-buzzwords/
Un sistema de etiquetado social está compuesto Puede haber un cuarto elemento: Momento/
principalmente por tres elementos interrelacionados tiempo en el que se hace la anotación
usuarios, etiquetas y recursos 7
(Smith, 2008)
8. 2. Perspectiva teórica
… etiquetado colaborativo y folksonomía
Los sistemas de
etiquetado
social agregan
las etiquetas de
todos los
usuarios,
resultando una
indexación
social o
clasificación
colaborativa
denominada
folksonomy o
clasificación
Fuente: http://scot-project.net//
popular (Vander problemas
Wal, 2004) Sinónimos global warming = climate change
Variaciones globalization = globalisation
poor=poors 8
9. 2. Perspectiva teórica
… folksonomía y conocimiento
colectivo
En un proceso de abajo hacia …las etiquetas de numerosos y
arriba… diferentes usuarios son agregadas
resultando una estructura
de etiquetas
colaborativa – como una
nube de etiquetas – que
representaría el conocimiento
colectivo de los usuarios de la
Web (Cress et al., 2012)
Fuente: http://scot-project.net//
9
Fuente: http://blog.cimmyt.org/?p=6052
10. 2. Perspectiva teórica
Etiquetado y redes sociales
La estructura de los sitios de etiquetado social puede ser vista
como una red con tres tipos diferentes de nodos: los U usuarios,
los R recursos (páginas webs) y los T (tags, etiquetas) que los U
usuarios usan para etiquetar sus R páginas web favoritas.
Figura 1. Red bipartita compuesta por tres usuarios U=(u,u’,u’’), tres
Un tipo particular de red es la etiquetas T=(t,t’,t’’) y dos clases de vínculos: entre usuarios RU
(línea continua), y entre usuarios y etiquetas RT (línea discontinua).
red bipartita, cuyos nodos
representan dos conjuntos –
p.e. usuarios y etiquetas.
Una red de opinión (Maslov
and Zhang, 2001; Blattner et
al., 2007), es una red en la que
los usuarios se conectan con
los objetos que ellos producen
10
o recogen. Fuente: Autores
11. 2. Globalización de la agricultura
Globalización
implica la ampliación del mercado como resultado de la reducción de
los costes de transacción del comercio internacional
implicaciones para
Globalización de la agricultura
- comercio (de alimentos, inputs)
- precios (de los alimentos, inputs)
- consumo alimentos (productos básicos vs elaborados)
- investigación
- políticas (subsidios, WTO, relacionadas con la reducción del hambre y la pobreza)
efectos
Asimetrías
espacio de discusión/
11
difusión (Web 2.0)
12. 3. Metodología
• Datos tomados de: Delicious – www.delicious.com –.
• Delicious = sistema de marcadores sociales cuyo
– Contenido es creado, anotado y visto por sus usuarios.
– Sistema de clasificación no jerárquico: los usuarios pueden
etiquetar cada marcador en la página web de Delicious, y dar
información sobre la web que se marca
– Naturaleza colectiva:
• Ver los marcadores añadidos y anotados por otros usuarios
• Organizar las etiquetas existentes en grupos
• Nos concentramos en la co-occurrencia de usuarios, recursos y
etiquetas (usuario, recurso, etiqueta).
Conjunto de datos recogido:
U (usuarios)= {u1; u2; : : : ; uK},
R (recursos: webs) = {r1; r2; : : ; rM},
y T (etiquetas) = {t1; t2; : : ; tN}
Tiempo: en ulteriores explotaciones 12
13. 3. Metodología
Etiquetado en Delicious
Las personas pueden producir y clasificar la gran cantidad de
información que tienen a su disposición mediante tags.
Keywords elegidas
libremente por los
usuarios y
empleadas para dar
significado a diversos
contenidos digitales,
como websites, fotos,
videos, posts…
Delicious es una
herramienta Web
2.0 gratuita,
denominada sitio de
marcadores sociales
donde se puede
guardar, compartir y
descubrir favoritos de 13
internet Source: www.delicious.com
14. 3. Metodología
Proceso para recuperar los datos
(A) Punto de arranque. Identificar los atributos de Tabla 1. Procedimiento para la recuperación de datos
búsqueda. Mediante una combinación de técnicas de
búsqueda (Rogers y Zelman, 2002). Fuente de autoridad (A) 26 sitios de wikipedia
como base para encontrar las palabras clave conectadas a la
idea de ‘globalización de la agricultura’ extracción manual
– Wikipedia: definición de los “críticos de la globalización” (web
popular, de alta reputación) 9 keywords
(B)
– Otros puntos de partida (futuro)
– Conceptos principales seleccionados de las webs, nubes web-crawling
de etiquetas o temas (manualmente= experiencia del (programa en Perl)
investigador)
– Se identificaron 9 keywords para que sirvieran de semillas (C) 61,043 taggings
de búsqueda (globalization + agriculture, development,
activism, trade, poverty, food, organic, GMO) 3.668 usuarios; 4.913 webs; 5.724 etiquetas
– No se tienen en cuenta otros conceptos
Filtrado y acortado
(B) La muestra de usuarios, webs y etiquetas se reunió con un (manualmente y programa en
programa hecho con Perl para explorar webs (web-crawling) Haskell)
- Para (D) 60,722 taggings
globalization+agriculture;globalization+development;
3.668 usuarios; 2.148 webs; 4.776 etiquetas
globalization+activism; globalization+poverty;
globalization+food; globalization+organic; Fuente: Autores.
globalization+GMO
- 22 de abril de 2011 a 21 de mayo de 2011 (mes
completo)
- Resultados: 61.043 registros etiquetados, 3.668 (D) Conjunto de
usuarios, 4.913 webs y 5.724 etiquetas
(C) Programa en Haskell para reducir la cantidad de datos
datos para el
cortando las webs y usando palabras claves, incluyendo la análisis
identificación de sinónimos, la eliminación de palabras con
mayúsculas y palabras derivadas como las que van en plural. 14
16. 4. RESULTADOS
Tabla 2. Principales etiquetas de las palabras clave usadas en el tema
“Globalización de la agricultura”
Atributos de búsqueda Nº de Principales etiquetas: 5 etiquetas más frecuentes
usados etiquetas
resultante
s (I+II)
Globalization (I) + 10.684 economics (916), politics (503), business (245), poverty
development (II) (232), international (203)
Globalization (I) + activism 13.296 politics (1.203), economics (695), news (381),
(II) environment (367), research (290)
Globalization (I) + trade (II) 8.378 economics (888), politics (343), china (311), business
(144), free (141)
Globalization (I) + poverty (II) 4.956 economics (422), politics (216), development (140),
world (84), inequality (80)
Globalization (I) + food (II) 3.547 economics (251), environment (123), sustainability (84),
politics (81), culture (67)
Globalization (I) + agriculture 3.481 food (268), economics (238), environment (147), politics
(II) (123), trade (83)
Globalization (I) + organic (II) 62 fairtrade (5), business (3), activism, economics,
environment, politics, sustainability, trade (2)
Globalization (I) + GMO (II) 198 food (13), agriculture (12), politics (6), environment,
sustainability, health (5)
Fuente: Autores.
16
17. 4. RESULTADOS
Tabla 3. Principales páginas web en la red de hipervínculos
(usuarioweb)
Grado de entrada (indegree) Grado de salida (outdegree)
1 1203 http://www.nytimes.com/ 433 /mritiunjoy
2 674 http://news.bbc.co.uk/ 195 /laura208
3 365 http://www.guardian.co.uk/ 127 /rd108
4 186 http://www.washingtonpost.com/ 112 /amaah
5 158 http://www.ft.com/ 111 /thepouncer
6 154 http://www.reason.com/ 100 /anilius
7 147 http://www.thenation.com/ 100 /emmarlyb
8 137 http://www.spiegel.de/ 87 /adorngeography
9 136 http://www.foodfirst.org/ 86 /pagolnari
10 130 http://www.economist.com/ 85 /freemanlc
Fuente: Autores.
17
18. 4. RESULTADOS
Tabla 4. Descripción de las redes y subredes y principales datos estadísticos
Redes Tipo Relación Nº de Nº de Densidad Grado
nodos enlaces medio
Usuario Bipartita Dirigida 5.816 7.200 0,09% 2.476
Web
Usuario - Unipartita No dirigida 3.668 134.833 1,97% 73.5187
Usuario
Web - Web Unipartita No dirigida 2.148 20.558 0,84% 19.141
Etiqueta Unipartita No dirigida 4.776 539.105 47,06% 225.756
-Etiqueta
Fuente: Autores.
Red bipartita con una relación dirigida = Se crea a través de dos tipos diferentes de nodos (ej.
usuarios y webs) que están directamente conectados por una relación (usuario recomienda Webs, o
usuario etiqueta Webs) (red 2-mode).
Red unipartita con una relación no dirigida = Es una red que se crea después de la transformación
de la matriz original en una matriz usuario-usuario, etiqueta-etiqueta, o web-web.
En estos casos hay una relación no directa a través de un nodo que los conecta (red 1-mode).
Por ejemplo, una matriz usuario-usuario es creada a través de las webs que conectan a los
usuarios porque gente diferente puede etiquetar o recomendar la misma web.
18
19. 4. RESULTADOS
Figura 2. Centralización de la red. 2.148 webs ordenadas según los lazos
entrantes y 3.668 usuarios ordenados por el número de lazos salientes
Webs ordenadas según los lazos entrantes Usuarios ordenados según los lazos salientes
Fuente: Autores.
¿qué hace que algunos sitios/usuarios estén mucho
mejor conectados que la mayoría?
Se observa un alto grado de centralización de la red. Esta es una
propiedad característica de las redes a gran escala, como la web.
Nuestra red cumple con la propiedad de las redes libres de escala (o de
cola larga), donde una minoría de los nodos concentra la mayoría de los
enlaces (Barabási and Albert, 1999) 19
20. 4. RESULTADOS
Tabla 5. Centralización de la red. Webs y usuarios más centrales
Grado de entrada - Indegree Grado de salida - Outdegree
Valor Web Descripción Valor Usuario Descripción
Periódico on http://www.garrygolden.net/
1 259 www.nytimes.com line 71 /garrygolden Professional futurist
Mritiunjoy Mohanty
Periódico on Professor, Economics
2 170 www.independent.co.uk line 51 /mritiunjoy Indian Institute of Management Calcutta
Sitio web
3 155 www.naomiklein.org activista 44 /emmarlyb
Periódico on http://www.worldpublicopinion.org/
4 144 www.news.bbc.co.uk/ line 42 /woldpublicopinion Activist media site
Sitio web Nicholas Brown
5 124 www.globalresearch.ca activista 33 /criticalspatialpractice Artist
Dr. Kathy Ward pagol Nari
Professor, Carbondale, EEUU
Periódico on Feminist blogger
6 95 www.spiegel.de/ line 30 /pagolnari http://pagolnari.blogspot.com.es/
Bryan Finoki
http://subtopia.blogspot.com.es/
Author Subtopia (Blog), Senior Editor,
Periódico on Archinect, and Adjunct, Woodbury University
7 94 www.guardian.co.uk/ line 28 /bfunk School of Architecture, San Diego
Periódico on
8 94 www.economist.com/ line 28 /chris.h.p
Sitio web
9 87 www.corpwatch.org activista 27 /maitreya11 Carlos Puentes
Matthew Elliot
10 172 www.theatlantic.com Revista on line 24 /matttbastard http://bastardlogic.wordpress.com/
Fuente: Autores. 20
Predominio de periódicos on-line, y sitios de activistas
21. 4. RESULTADOS
Tabla 6. Cohesión y subestructuras. Red de la globalización de la agricultura
(K-cores, núcleos de grado K)
Núcleos Nº de Nodos Porcentaje Frecuencia Frecuencia
de grado (%) acumulada acumulada
K=1..5 (nº nodos) (%)
(subred)
1 4.445 76,43% 4.445 76,43%
2 792 13,62% 5.237 90,04%
3 387 6,65% 5.624 96,70%
4 147 2,53% 5.771 99,23%
5 45 0,77% 5.816 100,00%
Suma 5.816 100,00%
Fuente: Autores.
k-core: Un núcleo de grado k es una subred en la que cada nodo tiene grado k en esa subred, o
sea es la máxima red en la cual todos los nodos son adyacentes al menos otros k nodos, a
diferencia de los cliques donde todos los pares de puntos están conectados directamente a
través de al menos un enlace.
En las redes libre escala, como la nuestra, el núcleo con el grado más alto (grado 5) es el
núcleo central de la red, detectando el conjunto de nodos de la red (45 nodos) que componen 21
ese núcleo y su posición.
22. 4. RESULTADOS
Figura 3. Red UsuariosWebs. 5.816 nodos. Color. Núcleos
Representación Energy-Frutcherman (Pajek)
Fuente: Autores a partir de datos de Delicious.
22
23. 4. RESULTADOS
Figura 4. Red UsuariosWebs (Núcleos 2 a 5) 1.371 nodos. Color. Núcleos
Representación Energy-Frutcherman (Pajek)
Fuente: Autores a partir de datos de Delicious.
23
24. Gráfico 6. Red UsuarioWeb (3-core, 387
Gráfico 5. Red UsuarioWeb (2-core, 792 nodos)
nodos)
Representación Kamada-Kawai
Representación Kamada-Kawai
Gráfico 7. Red UsuarioWeb (4-core, 147
Gráfico 8. Red UsuarioWeb (5-core, 45 nodos)
nodos)
Representación Kamada-Kawai
Representación Kamada-Kawai
24
Fuente: Autores a partir de datos de Delicious.
25. 4. RESULTADOS
Etiquetado, recomendando y compartiendo Webs
Tabla 7. Etiquetas en la red de la globalización de la agricultura (K-cores, núcleos)
Selección de los 3 conglomerados más importantes
Red unipartita de etiquetas, conectadas entre sí porque se han usado para
etiquetar las mismas webs
Conglomerado Nº de Porcentaje Densidad Grado
nº Nodos (%) (%) medio
294 90 1,88% 97,75% 165.22
344 168 3,52% 100,00% 692.00
692 691 14,47%
Fuente: Autores, a partir de datos de Delicious.
25
26. 4. RESULTADOS
Figura 9. TagCloud. Red ”globalization of agriculture”
50 etiquetas. Tamaño según grado de centralidad
Gráfico 9. Nube de etiquetas para la Red de
Globalización de la Agricultura identificada en
Delicious (Principales etiquetas de la red)
temas principales
26
27. 4. RESULTADOS
Figura 10. TagCloud. Red ”globalization of agriculture”
Red userweb. Núcleo 294 (90 etiquetas de 4.476)
Representación de 50 etiquetas. Tamaño según grado de centralidad
Más importancia a asuntos
políticos y activismo relacionado
con la globalización 27
28. 4. RESULTADOS
Figura 11. TagCloud. Red ”globalization of agriculture”
Red userweb. Núcleo 344 (168 etiquetas de 4.476)
Representación de 50 etiquetas. Tamaño según grado de centralidad
Menor prominencia de temas políticos y
activistas, aunque se repiten asuntos, pero se
gira hacia aspectos económicos y algunos
países menos desarrollados 28
29. 4. RESULTADOS
Figura 12. TagCloud. Red ”globalization of agriculture”
Red userweb. Núcleo 692 (691 etiquetas de 4.476)
Representación de 50 etiquetas. Tamaño según grado de centralidad
Prevalencia de cuestiones socioeconómicas, sociológicas,
tecnológicas orientadas hacia aspectos como la energía, seguridad,
comida y aspectos medioambientales
29
30. 5. Discusión, conclusiones e investigaciones futuras
Discusión
• Campo de gran interés para la Sociología, que obliga en cierta
medida a trabajar interdisciplinarmente
• Hemos encontrado algún tipo de estructuración en la red de la
agricultura
• Se identifican subgrupos al recomendar webs y etiquetarlas en
torno a la globalización de la agricultura:
– Periódicos (sesgo americano, anglosajón: Delicious)
– Activismo
• Constitución “desde abajo” al etiquetar colaborativamente
• ¿Qué empieza primero: micro-macro, acción-estructura?
• Pensar y re-pensar en términos teóricos
– Teoría de la estructuración, estructura y agencia (Giddens, 1984)
– Habitus (Bourdieu, 1984)
– Relación dialéctica entre estructura y agencia (Berger y Luckman, 1966)
– La “bañera” de Coleman (1990)
– La colonización del mundo de la vida (Habermas, 1984)
– Paradigma sociológico integrado (Ritzer, 2000)
30
– etc
31. 5. Discusión, conclusiones e investigaciones futuras
Discusión
• Sociedades actuales estructuradas por las redes sociales, basadas en
tecnologías de la microelectrónica (Castells,1996)
• ¿Se pueden trasladar estas preguntas clásicas a la comprensión de la
sociedad que está viviendo alrededor de la Web 2.0 a través del
etiquetado colaborativo?
• ¿Emergencia de comunidades? En nuestro caso tras la práctica de
recomendar y compartir Webs vía Delicious, pero hay otros escenarios de
comunidades virtuales en la Web 2.0
Hemos encontrado:
• Un proceso colaborativo muy importante bottom-up
• Pero desde arriba están elementos macro como la tecnología o el
lenguaje, e incluso cierta limitación cuando la propia web propone etiquetas,
aparte de otras vías de estructuración que proporciona la web semántica
• Aunque es el usuario el que finalmente recomienda webs y las etiqueta.
• En la red de la globalización de la agricultura intuimos que parecen
mezclarse estos procesos top-down, como ocurre en otras esferas
sociales
31
32. 5. Discusión, conclusiones e investigaciones futuras
Conclusiones
Distribución muy desigual del poder de las webs citadas por los
usuarios, y también etiquetas usadas para describir las webs en el
sistema de marcadores de Delicious fueron mayoritariamente
concrentrados alrededor de algunas de las principales temáticas.
Etiquetas y páginas webs se encuentran estructuradas en subgrupos.
Algunos vacíos informativos respecto a los usuarios
Red con centralización y segmentación en Delicious:
- Actores muy prominentes en ella (especialmente medios de
comunicación y activistas, no sólo: universidades)
- Importancia potencial en el proceso de difusión de noticias,
eventos, agenda, trending topics, ideología, cultura, y etcétera.
- La identificación y profundización en la influencia de los actores
clave: mejor comprensión de fenómenos de liderazgo, procesos de
influencia o estructuras de poder.
- Buena vía para identificar informantes clave (intervención social).
32
33. 5. Discusión, conclusiones e investigaciones futuras
Investigaciones futuras
Futuro:
- Estudio de esta red a través del tiempo, y el rol de los actores más
poderosos con el tiempo (configuración y reconfiguración de la red).
y las webs más referenciadas
- Comparación con otros sistemas de marcadores sociales
- Profundizar en el conocimiento de las webs más recomendadas y
los usuarios y etiquetas más importantes alrededor de la red de la
globalización de la agricultura a nivel internacional
Comentarios para terminar:
• Estamos en los comienzos de examinar grandes conjuntos de
datos extraídos de la Web 2.0
• Largo camino desde aquí.
• Camino interdisciplinar parece más productivo, como viene siendo
en los últimos años en el campo del ARS – Análisis de Redes
Sociales
33
34. Etiquetando la sociedad a través de la web y
rastreando grandes conjuntos de datos para
usos sociales: Método e implicaciones en la red
de la globalización de la agricultura
JUAN DIEGO BORRERO, jdiego@uhu.es
ESTRELLA GUALDA, estrella@uhu.es
Universidad de Huelva
VI Congreso Andaluz de Sociología - Cádiz, 30 de diciembre 2012
34
36. Procedimiento de análisis: ARS
Análisis de redes
• Centralidad: identificación de los nodos que son más centrales que otros.
Propiedad de la red = idea del poder social del nodo basado en cómo se
conecte a la red.
• Grado de un nodo = Número de conexiones individuales directas que tiene
con otros en el grupo
Grados elevado = Ejerce influencia (o autoridad).
In-degree = número de lazos entrantes que reflejan la popularidad de una web.
Como resultado, los miembros de la red bien conectados, prominentes son
líderes de opinión (esos con un alto grado de centralidad).
Out-degree = número de lazos salientes que determiman si un usuario particular es
un participante activo o pasivo dentro de la red.
Software Pajek (para grandes series de datos)
36
37. RESULTADOS
Tabla 1. Meta-palabras clave usadas en Delicious
respecto a la “Globalización de la Agricultura”
Aspectos Palabras clave
Socioeconómicos globalization: 8,082; development: 2,344; activism:
2,118; trade: 2,066; poverty: 1,434
Agrarios globalization: 8,082; food: 1,220; agriculture: 642;
organic: 54; GMO: 29
(*) El número corresponde a la frecuencia de ocurrencia (22 de abril a 21 de mayo de 2011).
Fuente: Autores.
Presencia diferente en Delicious, algunas de
ellas arrojan más resultados
37