Este documento presenta una introducción al análisis de redes sociales utilizando la herramienta Gephi. Explica conceptos básicos como nodos, aristas y comunidades. Describe cómo Gephi puede usarse para calcular medidas de centralidad y detectar subcomunidades en una red. El objetivo final es que los estudiantes aprendan los fundamentos del análisis de redes sociales y cómo utilizar Gephi para procesar datos de redes y extraer información relevante.
- Personas (propietarios, diseñadores, desarrolladores, usuarios)
- Datos, información, conocimiento
- Actividades, procesos y diagramas de flujo
- Recursos tecnológicos y de comunicación
Diapositiva con una muy buena introduccion al manejo de bases de datos a través del lenguaje de Programación Java. Contiene además una introducción a Mysql, y además expica muy bien qué es el driver JDBC
Seguridad Base de Datos sql injection v1.0José Moreno
Método de infiltración de código intruso que se vale de una vulnerabilidad informática presente en una aplicación a nivel de validación de entradas para realizar operaciones sobre una base de datos.
- Personas (propietarios, diseñadores, desarrolladores, usuarios)
- Datos, información, conocimiento
- Actividades, procesos y diagramas de flujo
- Recursos tecnológicos y de comunicación
Diapositiva con una muy buena introduccion al manejo de bases de datos a través del lenguaje de Programación Java. Contiene además una introducción a Mysql, y además expica muy bien qué es el driver JDBC
Seguridad Base de Datos sql injection v1.0José Moreno
Método de infiltración de código intruso que se vale de una vulnerabilidad informática presente en una aplicación a nivel de validación de entradas para realizar operaciones sobre una base de datos.
Esta presentación contiene información acerca de las diferentes áreas de la auditoría en informática: de explotación, de sistemas, de comunicaciones, de desarrollo, de proyectos, de seguridad.
Modelado funcional casos de uso, Modelado funcional casos de uso, Modelado funcional casos de uso, Modelado funcional casos de uso,Modelado funcional casos de uso
Explicación del paso de un modelo lógico a un modelo físico de datos. El documento que da soporte a la presentación puede ser solicitado a luiseduardo.pelaez@gmail.com
Esta presentación contiene información acerca de las diferentes áreas de la auditoría en informática: de explotación, de sistemas, de comunicaciones, de desarrollo, de proyectos, de seguridad.
Modelado funcional casos de uso, Modelado funcional casos de uso, Modelado funcional casos de uso, Modelado funcional casos de uso,Modelado funcional casos de uso
Explicación del paso de un modelo lógico a un modelo físico de datos. El documento que da soporte a la presentación puede ser solicitado a luiseduardo.pelaez@gmail.com
Análisis y procesamiento de datos para descubrir conocimientoAlex Rayón Jerez
Taller práctico "Análisis y procesamiento de datos para descubrir conocimiento" como segundo paso a la capacitación de una organización para la explotación de los datos para aumentar la inteligencia de negocios.
Python - Lenguaje de programación para Ciencia de DatosRoman Herrera
Uso de Python para procesamiento de Datos
* Python como lenguaje de programación para Data Science
* Herramientas para trabajar con Python (Jupyter Notebooks, Google Colab)
* Librerías para extender la funcionalidad de Python (Pandas, NumPy, Scipy, etc)
* Uso de Pandas para análisis de datos, ejercicios
Descripcion de la metodologia de trabajo en Desarrollo de Portales Web con Administrador de contenidos (CMS). Utilizando PLONE. Trabajos realizados. Caracteristicas.
Desarrollo práctico de aplicaciones Linked Data: metodología y herramientasGuillermo Álvaro Rey
Lección "Desarrollo práctico de aplicaciones Linked Data: metodología y herramientas" del Curso de Verano 2010 de la UPM: "Linked Data: ¿Una oportunidad o un riesgo?"
Projecte de formació en dades obertes per a dones als barris. Aquest projecte vol millorar les capacitats digitals de dones en les tecnologies de dades per millorar les seves oportunitats professionals i de trobar feina, amb l’edició del Certificat Professional Open Data Social Visual que compta amb reconeixement internacional del Open Data Institute.
Projecte de formació en dades obertes per a dones als barris. Aquest projecte vol millorar les capacitats digitals de dones en les tecnologies de dades per millorar les seves oportunitats professionals i de trobar feina, amb l’edició del Certificat Professional Open Data Social Visual que compta amb reconeixement internacional del Open Data Institute.
“Para implantar una aplicación de inteligencia artificial necesitamos que el nivel de digitalización de la empresa sea elevado porque debe ser conscientes de la importancia de su implicación”.
Isadora, ens ha parlat de les dades obertes i com es fan servir en l’àmbit del canvi climàtic dins el workshop online que es va portar a terme el dia 7 d'abril de 2020
Workshop Open Data X social. Iniciativa Barcelona Open Data Marzo 2020
Proyecto Citizenlab de Piperlab por Alejandro Llorente
Crónica + todos materiales del evento: http://iniciativabarcelonaopendata.cat/es/2020/03/cronica-26-03-workshop-sobre-open-data-y-proyectos-sociales/
Ponencia de l'Alberto Abella, co-fundador d'Iniciativa Barcelona Open Data, dins el cicle Estiu Open Data al Cibernarium. L'eix de la jornada és com les empreses poden aprofitar les dades obertes per generar valor econòmic.
Este documento ha sido elaborado por el Observatorio Ciudadano de Seguridad Justicia y Legalidad de Irapuato siendo nuestro propósito conocer datos sociodemográficos en conjunto con información de incidencia delictiva de las 10 colonias y/o comunidades que del año 2020 a la fecha han tenido mayor incidencia.
Existen muchas más colonias que presentan cifras y datos en materia de seguridad, sin embargo, en este primer acercamiento lo que se prevées darle al lector una idea de como se encuentran las colonias analizadas, tomando como referencia los datos del INEGI 2020, datos del Secretariado Ejecutivo del Sistema Nacional de Seguridad Pública del 2020 al 2023 y las bases de datos propias que desde el 2017 el Observatorio Ciudadano ha recopilado de manera puntual con datos de las vıć timas de homicidio doloso, accidentes de tránsito, personas lesionadas por arma de fuego, entre otros indicadores.
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOAaronPleitez
linea de tiempo del antiguo testamento donde se detalla la cronología de todos los eventos, personas, sucesos, etc. Además se incluye una parte del periodo intertestamentario en orden cronológico donde se detalla todo lo que sucede en los 400 años del periodo del silencio. Basicamente es un resumen de todos los sucesos desde Abraham hasta Cristo
Ipsos, empresa de investigación de mercados y opinión pública, divulgó su informe N°29 “Claves Ipsos” correspondiente al mes de abril, que encuestó a 800 personas con el fin de identificar las principales opiniones y comportamientos de las y los ciudadanos respecto de temas de interés para el país. En esta edición se abordó la a Carabineros de Chile, su evaluación, legitimidad en su actuar y el asesinato de tres funcionarios en Cañete. Además, se consultó sobre el Ejército y la opinión respecto de la marcha en Putre.
Reporte homicidio doloso descripción
Reporte que contiene información de las víctimas de homicidio doloso registradas en el municipio de Irapuato Guanajuato durante el periodo señalado, comprende información cualitativa y cuantitativa que hace referencia a las características principales de cada uno de los homicidios.
La información proviene tanto de medios de comunicación digitales e impresos como de los boletines que la propia Fiscalía del Estado de Guanajuato emite de manera diaria a los medios de comunicación quienes publican estas incidencias en sus distintos canales.
Podemos observar cantidad de personas fallecidas, lugar donde se registraron los eventos, colonia y calle así como un comparativo con el mismo periodo pero del año anterior.
Edades y género de las víctimas es parte de la información que incluye el reporte.
2. Análisis de datos de Redes Sociales
● Obtención de datos a través de API (Twitter,
Facebook)
● Procesamiento de datos 1
● Procesamiento de datos 2
● Análisis de redes sociales
Extracción, procesamiento y visualización
3. Todos los contenidos del presente módulo
se pueden encontrar en Github.
https://github.com/carlosguadian/Analisis-Da
tos-Redes-Sociales-IBOD
4. La ciencia de los datos y el científico
El porqué del análisis de datos
La Ciencia de datos es un campo
interdisciplinario que involucra métodos
científicos, procesos y sistemas para
extraer conocimiento o un mejor
entendimiento de datos en sus diferentes
formas, ya sea estructurados o no
estructurados, lo cual es una continuación
de algunos campos de análisis de datos
como la estadística, la minería de datos, el
aprendizaje automático y la analítica
predictiva.
“El Científico de Datos
es un profesional que
combinando conocimientos de
matemáticas, estadística y
programación, se encarga de
analizar los grandes
volúmenes de datos.”
5. Objetivo
Al término de esta sesión debéis de:
● Tener conocimiento de cómo acceder y
extraer información de las API de TW y FB
● Utilizar herramientas para la consolidación
de datos como Open Refine
● Saber utilizar una hoja de cálculo para
calcular indicadores y generar archivos de
análisis
● Realizar un análisis de redes con Gephi
detectando usuarios relevantes y
sub-comunidades.
6. Obtención de datos de la API
Twitter y Facebook
● Extraer datos de la API de Twitter
○ Definir una app
○ Uso de R
○ Extracción de datos
● Extraer datos de la API de Facebook
○ Uso de Netvizz
○ Extracción de datos
Materiales disponibles en:
https://github.com/carlosguadian/Analisis-Datos-Redes-Sociales-IBOD/tr
ee/master/01-datos-api
7. Objetivo
Al finalizar este módulo deberéis tener un
conocimiento básico del uso de R y RStudio para
poder extraer datos de perfiles de la API de
Twitter
9. Obtención de datos de la API
Twitter
Métodos de acceso a la API
A la API de Twitter se puede acceder
de diferentes maneras. La opción más
habitual es mediante una aplicación,
o mediante un lenguaje de
programación como R, Python, Java...
En nuestro caso lo haremos utilizando
R y RStudio junto con el paquete
TwitteR
10. Obtención de datos de la API
Twitter
R
R es un lenguaje y un entorno para la informática estadística y
los gráficos.
R proporciona una amplia variedad de modelos estadísticos y
técnicas gráficas, y es muy extensible mediante paquetes.
R está disponible como Software Libre bajo los términos de la
GNU General Public License de la Fundación de Software Libre
en forma de código fuente.
11. Obtención de datos de la API
Twitter
RStudio
RStudio es un entorno de desarrollo integrado (IDE) para R
(lenguaje de programación) . Incluye una consola, editor de
sintaxis que apoya la ejecución de código, así como
herramientas para el trazado, la depuración y la gestión del
espacio de trabajo.
RStudio está disponible para Windows, Mac y Linux o para
navegadores conectados a RStudio Server o RStudio Server
Pro (Debian / Ubuntu, RedHat / CentOS, y SUSE Linux).
12. Obtención de datos de la API
Twitter
Paquete TwitteR
TwitteR es un paquete R que proporciona acceso a la API de
Twitter. La mayoría de la funcionalidad de la API se admiten,
con un sesgo hacia las llamadas API que son más útiles en el
análisis de datos en lugar de la interacción diaria.
13. Ejercicio
Se compone de las siguientes partes:
● Definir una app en Twitter
● Descargar e instalar R y RStudio
● Descargar el archivo twitter-info-perfiles.R
● Completar con los datos de la API
● Seleccionar un usuario con pocos
seguidores y ejecutar el script de
seguidores
● Exportar los datos a un fichero csv
14. Obtención de datos de la API
Facebook
Netvizz
Es una aplicación que se encuentra en Facebook.
Netvizz es una herramienta que extrae datos de diferentes
secciones de Facebook, en particular grupos y páginas. Las
salidas de archivos se pueden analizar fácilmente en el
software estándar.
15. Obtención de datos de la API
Facebook
Módulo de datos de página
Este módulo obtiene mensajes (especifique el último n o un
intervalo de fechas) en una página y crea una serie de archivos:
● Un archivo tabular (tsv) que lista una serie de métricas para cada publicación.
● Un archivo tabular (tsv) que lista las estadísticas básicas por día para el período cubierto
por las publicaciones seleccionadas.
● Un archivo tabular (tsv) que enumera el número de usuarios de página por país (sólo para
los 45 principales países).
● Un archivo tabular (tsv) que contiene el texto de los comentarios de los usuarios (usuarios
anónimos).
● Un archivo de gráfico bipartito (gdf) que muestra mensajes, usuarios (anónimos) y
conexiones entre los dos. Un usuario está conectado a un puesto si ha comentado o
reaccionado en él.
16. Ejercicio
● Seleccionaremos una página, buscaremos
su ID y la introducimos en el formulario
● Recuperar los post publicados entre el 1 y
el 7 de marzo.
● Pedir todos los datos, no sólo los de la
página, también los de los usuarios.
● Comprobar qué tipos de archivo ha
generado.
17. Procesamiento de datos 1
Open Refine
● Procesamiento de datos
● Instalación de Open Refine
● Uso de GREL para extracción de:
○ Hashtags
○ Url
○ Menciones
Materiales disponibles en:
https://github.com/carlosguadian/Analisis-Datos-Redes-Sociales-IBOD/tr
ee/master/02-procesamiento-datos%201
18. Objetivo
Al finalizar este módulo deberéis tener un
conocimiento básico del uso de Open Refine para
consolidar extracción de datos.
20. Procesamiento de datos 1
Open Refine
OpenRefine (antes Google Refine) es una poderosa herramienta
para trabajar con datos desordenados: limpiarlo;
Transformándolo de un formato a otro; Y ampliarlo con
servicios web y datos externos.
Desde el 2 de octubre de 2012, Google no está apoyando
activamente este proyecto, que ahora se ha renombrado a
OpenRefine. El desarrollo de proyectos, la documentación y la
promoción están ahora plenamente apoyados por voluntarios.
url: http://openrefine.org/
21. Procesamiento de datos 1
Open Refine
En nuestro caso tenemos un dataset de tweets, con el que vamos a hacer lo
siguiente:
● Extraer url utilizadas
● Extraer hashtags utilizados
● Extraer menciones utilizadas
Con estos datos adicionales vamos a poder calcular determinar lo más
popular:
● Lo más compartido
● De lo que más se ha hablado
● A quién se ha mencionado más
El fichero resultante nos servirá para calcular diferentes archivos
relacionales para utilizarlos en Gephi
22. Procesamiento de datos 1
Open Refine
Instalación
Nos bajaremos e instalaremos Open Refine
url: http://openrefine.org/download.html
Ejecución
Al ejecutar Open Refine se abre una pestaña en el navegador,
que es dónde se trabaja.
Datos: Descargar y abrir
Utilizaremos el fichero tweets-opendata.csv
23. Procesamiento de datos 1
Open Refine
Extracción de URLs
1. Abrir Open Refine
2. Crear un nuevo proyecto importando el csv con los tweets
3. Crear una nueva columna basada en “text” llamada “links”
4. Edit column
5. Add column based on this column
6. Introducir el nombre de la nueva columna
7. Seleccionar como lenguaje GREL
8. En expression introducir lo siguiente:
filter(split(value, " "),v,startsWith(v,"http")).join("||")
24. Ejercicio
● Repetir la misma operación para extraer
menciones y hashtags del dataset
● Exportar a csv el archivo resultante.
Antes de proceder con los pasos del punto anterior para la
extracción de usuarios (del 3 al 8 adaptando nombres de
columnas), hay que homogeneizar el texto. Es decir, convertir todo
el texto a minúsculas.
25. Procesamiento de datos 2
Google Sheets
● Cálculo de indicadores de comunidad
○ Ratio de comunidad
○ Actividad media diaria
● Generación de archivos de grafo
○ Menciones, quién ha usado qué hashtags y quién ha
compartido qué urls
Materiales disponibles en:
https://github.com/carlosguadian/Analisis-Datos-Redes-Sociales-IB
OD/tree/master/03%20procesamiento-datos%202
26. Objetivo
Al finalizar este módulo deberéis tener un
conocimiento básico del uso de Google Sheets
generando indicadores básicos de comunidad
para Twitter y generar archivos relacionales para
Gephi.
28. Procesamiento de datos 2
Google Sheets
● Antes de proceder al análisis de datos comprobar la
localización de la página archivo > configuración hoja de
cálculo > locale
● Es importante que la hoja de cálculo tenga la localización
de Estados Unidos.
● Hay diferencia en el carácter que define el decimal en los
números.
● En EEUU es un ., mientras que en el sistema no anglosajón
el decimal es una ,.
● La mayoría de aplicaciones / apis trabajan por defecto con
el . para definir los decimales.
29. Procesamiento de datos 2
Google Sheets
Ratio de comunidad = seguidos / seguidores
Nos va a servir para poder tener un primer criterio para
determinar la calidad de un usuario.
● Ratio > 1 Si la ratio es superior a uno significa que sigue a
más usuarios que le siguen a él.
● Ratio < 1 Si la ratio es inferior a uno, significa que le siguen
más usuarios que los que él sigue.
30. Procesamiento de datos 2
Google Sheets
Para la actividad diaria calcularemos la media de tweets por
día para determinar:
● Si es un bot: Un usuario con una media de tweets diaria muy
elevada (por encima de 25 tweets diarios de media hay que
empezar a desconfiar) es muy probable que sea una cuenta
automatizada.
● Si es un usuario que sólo utiliza twitter para informarse, para
leer. No para participar. Estos usuarios tendrán una media
muy baja. Podemos empezar a considerarlos como tales
cuando la media es inferior a 1
31. Ejercicio
● Para realizar estos cálculos utilizaremos el
archivo de seguidores generado en el primer
módulo con los seguidores de un perfil de
Twitter.
● Abrirlo en un archivo nuevo de Google Sheets
● Generar una columna llamada Ratio
Comunidad y generar la fórmula para dividir
los usuarios seguidos entre los seguidores.
32. Ejercicio
Para calcular la actividad media diaria de los
usuarios:
1. Convetir la columna “created” en “fecha” y
“hora” mediante un split.
2. Generar una columna nueva con la fecha
actual.
3. Obtener en una nueva columna el total de
días que hace que está activo.
4. Calcular la actividad media diaria.
33. Procesamiento de datos 2
Google Sheets
Generación de archivos relacionales
Utilizaremos Google Sheets para generar archivos relacionales
para poder utilizarlos en Gephi:
● Archivo de grafo de menciones para poder determinar a los
usuarios clave y determinar sub-comunidades.
● Archivo de grafo de url para ver qué usuarios las han
compartido
● Archivo de grafo de hashtags para determinar cómo se han
utilizado, y cuales han tenido más relevancia.
34.
35. Ejercicio
1. Importar el archivo resultante del proceso con
Open Refine en un archivo nuevo de Google
Sheets
2. Generar los siguientes archivos de grafo:
a. Menciones entre usuarios
b. Usuarios > hashtags
c. Usuarios > url
3. Exportar los archivos de grafo cada uno a un
archivo .csv
Antes de exportar, recordar borrar las cabeceras de
las columnas, sino al abrirlo en **Gephi**, éste
considerará que los nombres de las columnas
también son nodos relacionados.
36. Análisis de Redes Sociales
Gephi
Análisis de Redes Sociales
● Conceptos Básicos sobre Teoría de Grafos y el
análisis de Redes
● Uso de Gephi para el cálculo de medidas de
centralidad y detección de subcomunidades
Materiales disponibles en:
https://github.com/carlosguadian/Analisis-Datos-Redes-Sociales-IB
OD/tree/master/04%20analisis-redes-sociales
37. Objetivo
El objetivo de este módulo es tener el
conocimiento básico de uso de Gephi para
procesar un archivo de grafo, poder determinar
los nodos relevantes en base a medidas de
centralidad y el cálculo de subcomunidades.
39. Procesamiento de datos 2
Conceptos básicos análisis de redes
Análisis de Redes
● Es el área encargada de analizar las redes mediante la
teoría de redes
● Las redes pueden ser de diversos tipos: social, transporte,
biológica, internet, información, etc.
● El estudio se centra en la asociación y medida de las
relaciones y flujos entre las personas, grupos,
organizaciones, computadoras, sitios web...
● Los nodos en la red, en este caso, son personas y grupos
mientras que los enlaces muestran relaciones o flujos entre
los nodos.
40. Procesamiento de datos 2
Conceptos básicos análisis de redes
Nodos y Aristas
● Nodo: Representa cada uno de los
elementos relacionados que vamos a
analizar. Si analizamos una conversación
de Twitter, los nodos son los usuarios.
● Arista: Representa la relación entre dos
nodos. Por ejemplo en la conversación de
Twitter, esta puede ser representada por
RT o menciones entre usuarios. El grosor
de las aristas nos mostrará la intensidad
con la que se ha producido.
41. Procesamiento de datos 2
Conceptos básicos análisis de redes
Comunidades
● Saber cómo se han relacionado los nodos
en el grafo analizado, nos puede aportar
una visión clara de lo que ha sucedido.
● En función de la intensidad de las
relaciones y de la cercanía con otros
nodos se puede determinar que
sub-comunidades se han generado.
● Mediante la visualización se puede
determinar si una conversación ha estado
muy polarizada.
42. Procesamiento de datos 2
Conceptos básicos análisis de redes
Tipos de grafo
● Por el tipo de relación: Encontramos dos tipos de grafo
en función de si las relaciones son direccionales o no.
Por lo tanto hay dirigidos y no dirigidos.
● Si hay uno o más tipos de nodos: En el caso de analizar
sólo las menciones entre usuarios, tenemos un sólo tipo
de nodos. En el caso de analizar cómo han utilizado los
hashtags los usuarios, nos encontramos ante un grafo
bipartito.
43. Procesamiento de datos 2
Conceptos básicos análisis de redes
Medidas de centralidad
Hay cuatro medidas de centralidad ampliamente utilizadas:
● La centralidad de grado («degree centrality»): Tiene en
cuenta el número de relaciones entre los nodos.
● La cercanía («closeness») Tiene en cuenta la distancia de un
nodo respecto del resto de los componentes del grafo.
● La intermediación («betweenness») Determina qué usuarios
son esenciales en la unión entre diferentes grupos del grafo.
● La centralidad de vector propio («eigenvector centrality»)
Nos muestra qué nodos son los más relevantes.
44. Procesamiento de datos 2
Gephi
● Es software open-source de análisis de redes y
visualización Permite analizar y visualizar archivos
de grafo.
● Permite trabajar con diferentes tipos de archivos
de grafo; .graphml, .gexf, .gdf, .gephi... E importar
datos desde archivos .csv tanto para la generación
de nodos, como la de aristas.
● Gephi ha sido utilizado en proyectos de
académicos de investigación, periodismo y en otro
lugares,
● Gephi es la herramienta que utilizaremos para
realizar el análisis de redes.
45. ● Descargar Gephi e instalarlo
● Abrir Gephi y el csv generado en el módulo
anterior con las menciones Archivo > Abrir
● Aplicar el layout Force Atlas 2
● En Estadísticas calcular la centralidad de vector
propio y la modularidad
● Aplicar formato a los nodos. Para el tamaño
utilizaremos la medida de centralidad
Eigenvector. Para el color utilizaremos el valor
Modularity Class
● Ir a previsualización
● Exportar archivo
Ejercicio