Redes sociales

1.421 visualizaciones

Publicado el

Presentación sobre análisis de redes sociales.

Publicado en: Ciencias
0 comentarios
7 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

Sin descargas
Visualizaciones
Visualizaciones totales
1.421
En SlideShare
0
De insertados
0
Número de insertados
401
Acciones
Compartido
0
Descargas
6
Comentarios
0
Recomendaciones
7
Insertados 0
No insertados

No hay notas en la diapositiva.

Redes sociales

  1. 1. MÓDULO 1. Asignatura 3. Asignatura Técnicas de análisis de datos y explotación de datos MASTER IN BIG DATA & BUSINESS INTELLIGENCE TEMA. Análisis de Redes Sociales (Fernando Tricas García. Universidad de Zaragoza)
  2. 2. An´alisis de redes sociales y anal´ıtica web. Fernando Tricas Garc´ıa Departamento de Inform´atica e Ingenier´ıa de Sistemas Universidad de Zaragoza http://webdiis.unizar.es/~ftricas/ http://campusvirtual.nextibs.com/ ftricas@unizar.es
  3. 3. An´alisis de Redes Sociales Fernando Tricas Garc´ıa Departamento de Inform´atica e Ingenier´ıa de Sistemas Universidad de Zaragoza http://webdiis.unizar.es/~ftricas/ http://campusvirtual.nextibs.com/ ftricas@unizar.es
  4. 4. Un ´ındice Redes sociales Comunidades Algunos ejemplos Procesos Resistencia y robustez
  5. 5. Grafos
  6. 6. Grafos
  7. 7. Entonces, ¿de qu´e estamos hablando? Relaciones Consecuencias de estas relaciones Medidas ¿Qu´e podemos aprender?
  8. 8. Grafos Los arcos pueden tener direcci´on (una flecha →)
  9. 9. Grafos
  10. 10. Grafos 0 1 0 1 1 1 1 1 0 0 1 0 0 0 1 0 0 1 1 0 1 0 1 0 1 1 0 0 0 0 1 1 1 0 0 1 0 0 1 0 0 1 0 0 0 1 0 0 0
  11. 11. Con m´as informaci´on
  12. 12. Con m´as informaci´on 0 7 0 2 1 1 2 1 0 0 3 0 0 0 1 0 0 1 3 0 1 0 1 0 1 1 0 0 0 0 1 3 1 0 0 5 0 0 1 0 0 4 0 0 0 2 0 0 0
  13. 13. Algunas definiciones Grafo simple 1. Como mucho un arco para cada par de nodos. 2. No arcos de un v´ertice a s´ı mismo. V´ertices adyacentes si est´an unidos por un arco. Grado de un v´ertice N´umero de arcos incidentes.
  14. 14. Tipos de grafos con ‘nombre’ Grafos Eulerianos Se pueden dibujar sin levantar el l´apiz del papel y sin pasar dos veces por el mismo v´ertice. Grafos Hamiltonianos Se pueden dibujar sin levantar el l´apiz del papel y sin pasar dos veces por el mismo arco.
  15. 15. Redes Sociales Investigar estructuras sociales mediante la teor´ıa de redes y de grafos. Estructuras en red caracterizadas mediante nodos (actores, personas, cosas,...) y arcos (relaciones o interacciones). Ejemplos Redes sociales en internet, amistad y/o relaciones, parentesco, propagaci´on de enfermedades, relaciones sexuales...
  16. 16. With a little help of my friends http://www.flickr.com/photos/pietermorlion/2127296477/ http://www.flickr.com/photos/anaypacosancho/2357581936/
  17. 17. Relaciones en el ‘mundo real’. Con tecnolog´ıa http://arxiv.org/abs/physics/0610104 Structure and tie strengths in mobile communication networks. Authors: J.-P. Onnela, J. Saramaki, J. Hyvonen, G. Szabo, D. Lazer, K. Kaski, J. Kertesz, A.-L. Barabasi http://www.dailymotion.com/video/xm6vlq_ france-region-mobile_tech http://www.paristechreview.com/2011/11/15/ voice-border-cellphones-redraw-maps/
  18. 18. ¿Es Facebook el mundo real? http://www.facebook.com/notes/facebook-engineering/ visualizing-friendships/469716398919
  19. 19. Blogs 2003. F. Tricas, JJ. Merelo, V.R. Ru´ız, “Do we live in a Small World? Measuring the Spanish-speaking blogosphere”
  20. 20. Una red social En Twitter
  21. 21. Relaciones http://www.journals.uchicago.edu/doi/abs/10.1086/386272 Peter S. Bearman, James Moody, Katherine Stovel, “Chains of Affection: The Structure of Adolescent Romantic and Sexual Networks”
  22. 22. ¿C´omo estudiarlas?
  23. 23. Modelos
  24. 24. Pero . . . ¿c´omo se generan las redes? Modelos ‘Se pintan unos cuantos nodos, se a˜naden enlaces entre ellos y . . . ’ (redes aleatorias) 1. Cada nodo puede enlazarse con cualquier otro con la misma probabilidad (el mundo no es as´ı casi nunca) 2. Enlazado preferencial (los ricos ser´an mas ricos)
  25. 25. Modelo Erd¨os-R´eny Todos los grafos con n v´ertices y M ejes tienen la misma probabilidad G(n, M) Cada arco se incluye con una cierta probabilidad G(n, p) p=0.01 Imagen: Wikipedia. https://upload.wikimedia.org/wikipedia/commons/thumb/1/13/Erdos_generated_network-p0.01.jpg/ 800px-Erdos_generated_network-p0.01.jpg
  26. 26. Modelo Erd¨os-R´eny Suele haber una componente grande que agrupa a la mayor´ıa (cuando se alcanza un n´umero suficiente de enlaces) Di´ametro peque˜no (logN) Di´ametro: m´axima distancia entre pares de nodos. Relaciones adecuadas entre n y p definen ciertas propiedades estructurales (existencia o no de componentes conexas, componentes especiales, fen´omenos de aislamiento, conexi´on, ...) Fen´omenos de percolaci´on (componentes peque˜nos se van sumando a la mayor, como en el paso lento de fluidos a trav´es de materiales porosos). No muy adecuado para representar fen´omenos sociales Demo https://www.cs.purdue.edu/homes/dgleich/demos/erdos_renyi/
  27. 27. Modelo Watts-Strogatz Algunos lazos lejanos (Watts, Strogatz) Normalmente nos relacionamos con nuestros vecinos pr´oximos (alto acoplamiento). Adem´as, tenemos unos pocos lazos ‘lejanos’, que hacen reducir mucho el di´ametro de la red total.
  28. 28. Modelo Watts-Strogatz Algunos lazos lejanos (Watts, Strogatz) Normalmente nos relacionamos con nuestros vecinos pr´oximos (alto acoplamiento). Adem´as, tenemos unos pocos lazos ‘lejanos’, que hacen reducir mucho el di´ametro de la red total.
  29. 29. Modelo Watts-Strogatz. Propiedades Siempre que no haya demasiados arcos.. Agrupamiento alto (disminuir´a despacio) El camino m´as corto es, en media, peque˜no (disminuir´a r´apido) Agrupamiento N´umero de arcos / N´umero de posibles arcos http://www.ladamic.com/netlearn/NetLogo4/SmallWorldWS.html
  30. 30. Modelo Barabasi-Albert Enlazado preferencial: Se empieza con un conjunto de nodos conectados aleatoriamente Los nuevos nodos se a˜naden de uno en uno. Cada nodo se conecta a cierto n´umero de nodos con una probabilidad proporcional (preferencia) al n´umero de enlaces. https://commons.wikimedia.org/wiki/File:Barabasi_Albert_model.gif Palabras clave: notoriedad, antig¨uedad, ...
  31. 31. Modelo Barabasi-Albert Algunos defectos ‘Rich get Richer’ ¿Sin l´ımite? ¿Siempre igual a lo largo del tiempo?
  32. 32. Modelo Barabasi-Albert Propiedades Distribuci´on de grados Libre de escala. Sigue la distribuci´on P(k) = k−α Distribuci´on de grados en internet Bit´acoras Suscriptores Yahoo! Amigos en LiveJournal Clay Shirky. ‘Power Laws, Weblogs, and Inequality’. 2003 http://www.shirky.com/writings/herecomeseverybody/powerlaw_weblog.html
  33. 33. ¿C´omo? Hay unos pocos que tienen mucho Pero, a veces, si se juntan los que tienen menos, tienen m´as
  34. 34. ¿C´omo? Hay unos pocos que tienen mucho Pero, a veces, si se juntan los que tienen menos, tienen m´as Pero estamos acostumbrados a ver el mundo as´ı . . .
  35. 35. ¿Qu´e indica la media aqu´ı? F. Tricas, Juan J. Merelo-Guerv´os. ‘The Spanish-speaking Blogosphere: towards the powerlaw?’. Web Based Communities 2004
  36. 36. La cola larga Aviso . . . A veces, muchos pocos valen mas que pocos muchos. ¿De qu´e depende? Exponente de la ley de potencias: y = C · x−α α < 1 →: los primeros nodos acumulan s´olo un porcentaje peque˜no del valor En los dem´as casos, la cola larga existe, pero no tiene ‘peso’
  37. 37. M´as propiedades. Lobby index l-index: ‘The l -index or lobby index of a node x is the largest integer k such that x has at least k neighbors with a degree of at least k .’ P(l(x) ≥ k) = k−α(α+1)) Centralidad (el dilema del diplom´atico, alguien tiene capacidad de influencia si tiene ‘buenos’ contactos) Buenos contactos → bien conectados.
  38. 38. h–index. Recordatorio The original Hirsch index is based on a richer model: author – paper and paper – citing paper links. Let x be a randomly chosen author of the scientific community under scrutiny and n = n(x) is the number of his/her papers (either in general or within a defined perio d). Let y i denote the individual papers (where i = 1 , ...n ,) and c(yi ) their citation score (in decreasing order), so that c(y1) ≥ c(y2) ≥ ... ≥ c(yn). h(x) = max{k : c(yk ) ≥ k} . P(h(x) ≥ k) = k−α(β+1))
  39. 39. M´as propiedades Longitud media de los caminos lnN/lnlnN Crece ‘aproximadamente’ de manera logar´ıtmica. Asortatividad (preferencia de los nodos por unirse a otros de grado similar). Correlaciones entre nodos de grado similar. Coeficiente de agrupamiento (clustering) alto. Tendencia a agruparse los nodos con sus vecinos (mayor que en redes aleatorias). Normalmente, m´as alto de lo que se podr´ıa esperar (empaquetamiento, comunidades, . . . )
  40. 40. Medidas interesantes Hemos hablado de la distancia y de coeficiente de agrupamiento (‘clustering’) Tambi´en son interesantes: Centralidad (‘betweenness’, inevitabilidad) Es la proporci´on de geod´esicas (caminos m´as cortos) que pasan por un nodo En personas, a veces se asocia con popularidad En transportes, con flujo e inevitabilidad Centralizaci´on Diferencia de centralidad entre el punto m´as central y el resto (ratio of the actual sum of differences to the maximum possible sum of differences). Centralidad de vector propio (‘eigenvector centrality’) de la matriz de incidencia del grafo, relacionado con el PageRank
  41. 41. Pero . . . ¿Qu´e necesito? Estar cerca de la ‘mayor´ıa’ de la red Cercan´ıa (‘closeness centrality’), distancia media de un nodo a todos los dem´as de la red.
  42. 42. Pero . . . ¿Qu´e necesito? Estar cerca de la ‘mayor´ıa’ de la red Cercan´ıa (‘closeness centrality’), distancia media de un nodo a todos los dem´as de la red. Hay otras . . . ‘Degree centrality’ (el que tiene m´as cercanos)
  43. 43. Hay otras formas de verlo En grafos dirigidos: Hubs, de los que salen muchas conexiones ‘todo lo que debes conocer’ Autoridades, que reciben muchas conexiones ‘¿D´onde va Vicente . . . ?’ Naturalmente, pueden coincidir, y entonces hablamos de conectores (influyentes, influenciadores, . . . )
  44. 44. Ejemplos Transporte
  45. 45. Ejemplos Transporte
  46. 46. M´as ejemplos
  47. 47. Las enfermedades
  48. 48. No todas las redes se distribuyen siguiendo leyes de potencia Comunicaci´on rec´ıproca y frecuente Red el´ectrica Directores de empresas
  49. 49. Detecci´on de comunidades Si dos nodos interact´uan, probablemente es porque tienen alg´un tipo de relaci´on Las relaciones no siempre son transitivas, pero ayudan a entender mejor lo que vemos (modas, tendencias, estados de opini´on, . . . ). Tambi´en nos pueden dar pistas de por d´onde ir.
  50. 50. ¿Qu´e es una comunidad? S´olo los recursos t´ecnicos no hacen una comunidad. Presencia. Organizaci´on de actividades. Organizaci´on de los contenidos que se produzcan. Organizaci´on interna. Flexibilidad.
  51. 51. En todo caso . . . ¿qu´e es una comunidad? Comunidad de vecinos Comunidad de hispanohablantes Comunidad de los miembros del curso
  52. 52. En todo caso . . . ¿qu´e es una comunidad? Comunidad de vecinos Comunidad de hispanohablantes Comunidad de los miembros del curso ¿Y en internet?
  53. 53. En todo caso . . . ¿qu´e es una comunidad? Comunidad de vecinos Comunidad de hispanohablantes Comunidad de los miembros del curso ¿Y en internet? Lo mismo, claro
  54. 54. En todo caso . . . ¿qu´e es una comunidad? Comunidad de vecinos Comunidad de hispanohablantes Comunidad de los miembros del curso ¿Y en internet? Lo mismo, claro Y adem´as. . .
  55. 55. Comunidades. Algunas formas de verlo Relaciones m´utuas (todos se conocen) Abundancia de relaciones (al menos hay relaci´on con un cierto n´umero de miembros) Cercan´ıa o alcanzabilidad de un subgrupo (distancia de como mucho ...) Abundancia relativa de relaciones Redes de afiliaci´on (relacionados porque pertenecen a...)
  56. 56. Relaciones m´utuas. Cliques cada miembro est´a relacionado con todos los dem´as Puede haber solapamiento http://www.ladamic.com/netlearn/nw/Cliques.html
  57. 57. Relaciones m´utuas. Cliques cada miembro est´a relacionado con todos los dem´as Puede haber solapamiento http://www.ladamic.com/netlearn/nw/Cliques.html No robustos Poco interesantes ¿Todos conectados? Centro–periferia Pueden ser m´as interesantes los solapamientos que los cliques en s´ı mismos
  58. 58. Abundancia de relaciones. k-cores Cada nodo est´a relacionado con al menos otros k A´un as´ı puede ser restrictivo
  59. 59. Cercan´ıa. n-cliques M´axima distancia entre nodos de n Problemas Di´ametro mayor que n el n-clique puede estar desconectado (enlaces externos) Remedio: n-club. subgrafo m´aximo de di´ametro n
  60. 60. Abundancia relativa. p-cliques Grupos donde al menos una proporci´on p (0..1) de vecinos est´an en el grupo.
  61. 61. Cohesi´on Componentes conexas Mantener s´olo algunos enlaces antes de buscar componentes conexas Relaciones rec´ıprocas Peso de la relaci´on
  62. 62. Comunidades impl´ıcitas Principalmente basadas en enlaces Cliques grupos de nodos que se enlazan m´as entre si que con el resto Comunidades de Newman–Girvan Definidas por lo que las separa (nodos de centralidad alta). Co–citas Si tu citas a X y ´el cita a X, probablemente los dos querais conoceros
  63. 63. Ejemplo. Comunidades de alimentos Chun-Yuen Teng, Yu-Ru Lin, Lada A. Adamic. ‘Recipe recommendation using ingredient networks’
  64. 64. Ejemplo. Comunidades de alimentos Dos comunidades grandes (dulce/salado) Y una tercera de combinados (mixed–drinks). Se pueden encontrar comunidades de ingredientes de ‘sustituci´on’ Pueden predecir las calificaciones de las recetas Preferencias locales (en este caso de EEUU)
  65. 65. Ejemplo. Red en LinkedIn LinkedIn inMap http://socilab.com/
  66. 66. El experimento de Stanley Milgram Podemos alcanzar a cualquier persona en el mundo mediante contactos cercanos. En USA, en 1967, la separaci´on era de seis.
  67. 67. El experimento de Milgram Las cartas Enviadas por personas elegidas aleatoriamente, residentes en Wichita y Omaha. La carta conten´ıa un resumen del estudio, una foto y el nombre y la direcci´on de la persona a la que iba destinada. 1. A˜nada su nombre a la lista de abajo 2. Separe una postal. Rell´enela y enviela a la Universidad de Harvard 3. Si conoce a la persona (personalmente) env´ıele la postal. 4. Si no la conoce personalmente, env´ıesela a alg´un conocido personal suyo que ud. crea que puede hacer que le llegue.
  68. 68. Los resultados S´olo llegaron el 29 % de las cartas enviadas (42 de 169) De las que llegaron: la mediana de personas intermedias era 5.5 (la media 6.5)
  69. 69. Los resultados S´olo llegaron el 29 % de las cartas enviadas (42 de 169) De las que llegaron: la mediana de personas intermedias era 5.5 (la media 6.5) ¿En internet? En la web se hicieron estudios en el 1999, llegando a la conclusi´on de que entre cualquier par de documentos en la red habr´ıa un di´ametro de 18.59 (19 grados de separaci´on). Albert, Barabasi.
  70. 70. Bastante popularidad El n´umero de Bacon refleja distancia entre actores, basados en pel´ıculas en las que ambos han participado Kevin Bacon Number # of People 0 1 1 1913 2 162819 3 460113 4 110419 5 7994 6 777 7 78 8 14
  71. 71. M´as estrellas que en el cielo Alfredo Landa, 3
  72. 72. M´as estrellas que en el cielo Alfredo Landa, 3 Antonio Banderas, 2 Pen´elope Cruz, 2
  73. 73. M´as estrellas que en el cielo Alfredo Landa, 3 Antonio Banderas, 2 Pen´elope Cruz, 2 En todo caso . . . (April 2015) Hay 410 actores mejor conectados que Kevin Bacon La media del n´umero de Bacon es de 3.009 (2.946 en 2006) El actor mejor conectado es Eric Roberts (2.83285), el segundo Michael Madsen (2.85125), el tercero es Harvey Keitel (2.85789)
  74. 74. M´as estrellas que en el cielo Alfredo Landa, 3 Antonio Banderas, 2 Pen´elope Cruz, 2 En todo caso . . . (April 2015) Hay 410 actores mejor conectados que Kevin Bacon La media del n´umero de Bacon es de 3.009 (2.946 en 2006) El actor mejor conectado es Eric Roberts (2.83285), el segundo Michael Madsen (2.85125), el tercero es Harvey Keitel (2.85789)
  75. 75. ¿Qu´e significan estas medidas en los tiempos de las redes sociales?
  76. 76. El mundo es un pa˜nuelo (Small World) El experimento de Milgram Estructura local Coeficiente de agrupamiento Motifs (tama˜no k) Modelos Watts-Strogatz (agrupamiento y caminos cortos) http: //www.ladamic.com/netlearn/NetLogo4/SmallWorldWS.html Kleinberg (basadas en proximidad geogr´afica) ...
  77. 77. Navegabilidad y encontrabilidad Experimento Small World en Columbia. Cadenas exitosas utilizaban mucho m´as: Lazos d´ebiles (Granovetter) Relaciones profesionales (34 % vs 13 %) Relaciones originadas en el trabajo/estudios Trabajo del objetivo (65 % vs 40 %) Y evitaban: Hubs (8 % vs 1 %) Familia/amistades (60 % vs 83 %) Estrategia; geograf´ıa → trabajo
  78. 78. Procesos en redes Difusi´on Erd¨os-Renyi: http://www.ladamic.com/netlearn/NetLogo501/ERDiffusion.html Watts-Strogatz: http://www.ladamic.com/netlearn/NetLogo4/ SmallWorldDiffusionSIS.html Barabasi-Albert: http://www.ladamic.com/netlearn/NetLogo501/BADiffusion.html
  79. 79. Procesos en redes Contagio (umbrales?) Simple vs Complejo (difusi´on con umbrales, creaci´on de grupos resistentes, diferentes zonas tienen diferentes opininones) http://www.ladamic.com/netlearn/NetLogo4/ DiffusionCompetition.html Coordinaci´on Innovaci´on Resoluci´on de problemas
  80. 80. Resistencia y robustez Quitar nodos o arcos, ¿qu´e sucede? Arcos no es un gran problema Nodos aleatorios, no es un problema (muchos humildes). Puede ser un problema si quitamos nodos con alto grado (eliminamos muchos arcos)
  81. 81. Ataques Problema cuando nos dirigimos a los hubs La asortatividad es importante (topolog´ıa) ¿Qu´e sucede con un nodo cuando falla? (red el´ectrica vs criminales)
  82. 82. La vista es la que trabaja Existen programas para ayudarnos: Pajek (Windows) http://pajek.imfm.si/ Netdraw (Windows) https://sites.google.com/site/netdrawsoftware/home Visone (Java) http://www.visone.info/ SocNetV (Linux) http://socnetv.sourceforge.net/ Gephi http://gephi.github.io/
  83. 83. References L´aszl´o Barabasi. ‘Linked’ http://barabasilab.com/LinkedBook/ Lada Adamic http://www.ladamic.com/

×