SlideShare una empresa de Scribd logo
1 de 59
PROGRAMA DE BIG DATA Y
BUSINESS INTELLIGENCE
Análisis de Redes Sociales (SNA) y Text Mining
Alex Rayón Jerez
alex.rayon@deusto.es
@alrayon
Febrero, 2016. Madrid.
2
Índice de contenidos
●Text mining
●Análisis de Redes Sociales
3
Índice de contenidos
●Text mining
●Análisis de Redes Sociales
4
Text mining
Introducción
●Estudios recientes indican que, de media, el 80%
de la información de una empresa está
almacenada en forma de documentos
o Sin duda, este campo de estudio es muy amplio, por lo
que técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y
recuperación de la información o el aprendizaje
automática, entre otras, apoyan el text mining (o
minería de texto)
5
● En ocasiones se confunde el text mining con la
recuperación de la información (Information
Retrieval, IR) [Hearst, 1999]
o Esta última, no obstante, consiste en la reacuperación
automática de documentos relevantes mediante
indexaciones de textos, clasificación, categorización, etc.
o Generalmente se utilizan palabras clave para encontrar
una página relevante
o En cambio, el text mining se refiere a una examinar uan
colección de documentos y descubrir información no
contenida en ningún documento individual [Nasukawa,
2001]
Text mining
Introducción (II)
6
● Hay una enorme cantidad de información en
texto
o Aparte de los libros, periódicos y enciclopedias en
Internet, se generan enormes cantidades de información
textual
Text mining
¿Por qué?
Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html
7
Text mining
Pasos
1) Obtención y
agrupación Texto
2) Pre
procesamiento
3) Generación de
atributos
4) Selección de
atributos
5) Minería de
datos
6) Interpretación
y evaluación
8
Text mining
Pasos: 1) Obtención y agrupación del texto
●Los textos se encuentran en documentos
dispersos como páginas web, informes,
actualizaciones de status, etc.
●El primer paso, así, consiste en la obtención de
estos datos y su agrupamiento para comenzar a
trabajar
9
Text mining
Pasos: 2) Pre-procesamiento
●Eliminar el ruido
o Texto deliberadamente equivocado (SPAM)
o Textos ambiguos
o Texto erróneo
o Palabras que no tienen poder discriminatorio (STOP
WORDS)
o Ruido en el formato (tags, links)
o Multiplicidad de idiomas
o Sinónimos, palabras con varios significados
o Frases típicas
10
Text mining
Pasos: 2) Pre-procesamiento (II)
11
Text mining
Pasos: 2) Pre-procesamiento (III)
●Convertir el documento en un vector de
palabras: tokenization
Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/
12
Text mining
Pasos: 2) Pre-procesamiento (IV)
● Con WEKA:
o Se puede importar los datos en CSV
o Hay que eliminar los caracteres: , ; : “ ‘ % ()
o Aplicar primero el filtro NominalToString
o Aplicar el filtro StringToWordDetector
13
Text mining
Pasos: 3) Generación de atributos
●Representación del texto
o Bag of Words
Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification
14
Text mining
Pasos: 3) Generación de atributos (II)
●Representación del texto
o Bag of Words
Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model
15
Text mining
Pasos: 4) Selección de atributos
●¿Qué palabras tienen la mejor capacidad
discriminatoria?
●Se puede usar un clasificador
o Latent Semantic Analysis
§ Es una teoría y un método para extraer y representar
el significado de las palabras dentro de un contexto
utilizando técnicas estadísticas sobre un cuerpo de
texto grande
16
Text mining
Pasos: 4) Selección de atributos (II)
● En WEKA
o Ir a “Select attributes”
o Seleccionar “Latent Semantic Analysis”
o Start
o Guardar el nuevo dataset
17
Text mining
Pasos: 5) Minería de datos
●Se puede usar cualquiera de las técnicas vistas
en el apartado de descubrimiento de
conocimiento
o Clasificación
o Descubrimiento estructuras
o Reglas de asociación
18
Text mining
Pasos: 6)Interpretación y evaluación
● Interpretar
o Descubrimiento estructuras
●Evaluar los resultados
o Clasificación
o Reglas de asociación
●Sacar conclusiones o iterar sobre los pasos
anteriores
19
Text mining
Herramientas
20
Text mining
Herramientas (II)
21
Text mining
Aplicaciones prácticas
22
Índice de contenidos
●Text mining
●Análisis de Redes Sociales
23
Análisis Redes Sociales
¿Qué es?
●NO es solo Análisis de Social Media
o Puede ser parte
●Sociología + Matemáticas
o Actores que interactúan
o Teoría de Grafos
●Estudio numérico y representación gráfica
24
Análisis Redes Sociales
¿Qué es? (II)
Fuente: http://www.soc.duke.edu/~jmoody77/chains.pdf
25
Análisis Redes Sociales
¿Qué se estudia?
●Redes egocéntricas
o Actor principal con sus relaciones, hasta el grado n
(“amigos de amigos de amigos”)
●Redes completas
o Número de nodos determinado por una característica
concreta: son los que son (UE)
●Grandes redes
o Redes con muchos nodos en las que en general el
investigador corta el límite
26
Análisis Redes Sociales
Elementos
● Actores
o Los nodos de la red no tienen por qué ser
necesariamente personas, pueden ser países, o incluso
actividades
o Depende de lo que se esté investigando
●Vínculos
o Los vínculos que unen a los actores se definen por sus
propiedades o características de la relación
27
Análisis Redes Sociales
Elementos (II)
Fuente: http://www.economiapersonal.com.ar/2014/06/14/red-social/
28
Análisis Redes Sociales
Características
●Basado en relaciones y vínculos entre actores
●Recogida sistemática de datos empíricos del tipo
de relación estudiada entre cada par de actores
o Representado por gráficos
●Se apoya en el uso de las matemáticas,
principalmente la teoría matemática de grafos
y/o en modelos informáticos
29
Análisis Redes Sociales
Teoría de Grafos
●Surge en el siglo XVIII con Euler (1707-1803)
o El problema de los puentes de Konigsberg
●Resolución de problemas que pueden ser
modelados mediante un grafo y resueltos
mediante algoritmos específicamente
desarrollados para un grafo
Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo
30
Análisis Redes Sociales
Teoría de Grafos (II)
● La historia del metro de Londres tiene mucha relación
con la Teoría de Grafos
o Más concretamente, con la Inmersión de Grafos
(Graph Drawing)
o Permite explicar de forma sencilla la representación
(inmersión) de un grafo
● Para un mismo conjunto de vértices y una misma lista
de conexiones entre ellos, puede haber trazados con o
sin cruces entre las líneas.
● Depende del dibujo que se haga del grafo, de la
inmersión que se elija, se pueden destacar, y por lo
tanto aprovechar, una característica u otra del grafo
31
Análisis Redes Sociales
Teoría de Grafos (III)
● Los primeros mapas del metro de Londres
eran geográficos
o Dibujar sobre un plano de la ciudad los
recorridos de las distintas líneas
● Harry Beck, ingeniero electrónico
empleado en el metro de Londres, se
percató en 1931 de que al usuario no le
interesaba conocer el recorrido del metro
bajo tierra
o Simplemente le interesaba conocer la
posición relativa de las líneas y
estaciones para realizar los trasbordos
que necesitase
Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry-
beck.html
31
32
Análisis Redes Sociales
Teoría de Grafos (IV)
● Más que un diseño geográfico, resultaría más útil un
diseño topológico
o Menos curvas y direcciones en las líneas
o De broma, hizo su primer diseño basado en los
utilizados en circuitos eléctricos
● En 1936, entre otros cambios, eliminó curvas y sólo
permitió ángulos de 45º y 90º
● En 1940, se incorporaron ángulos de 60º también, idea
que se desechó por enturbiar la claridad del plano
33
Análisis Redes Sociales
Teoría de Grafos (V)
Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html
34
Análisis Redes Sociales
Teoría de Grafos (VI)
●¿Por qué?
o Proporciona vocabulario preciso
o Herramientas cuantitativas
●Grafo
o “Un grafo (G) es un conjunto de vértices o nodos (N) y
líneas (L) que unen pares de nodos.”
o Nodos: actores
§ Pueden poseer atributos (sexo, grupo étnico, etc.)
o Líneas: vínculos
§ Puede haber diferentes tipos/características
(amistad, influencia)
35
Análisis Redes Sociales
Teoría de Grafos (VII)
Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/
36
Análisis Redes Sociales
Teoría de Grafos (VIII)
●Mediciones: Nodos
o Adyacencia / Incidencia
§ Dos nodos son adyacentes si están relacionados
§ Una línea y un nodo son incidentes entre sí si el nodo
es uno de los que definen la línea
o Grado
§ El grado de un nodo, designado d(n) es el número de
líneas que son incidentes con él (nodos adyacentes)
37
Análisis Redes Sociales
Teoría de Grafos (IX)
●Mediciones: Nodos (cont.)
o Centralidad
§ La centralidad de un nodo ayuda a dilucidar su
“importancia” en la red, aunque no la representa por
completo
§ El grado es una medida de centralidad
§ Distancia media geodésica al resto de nodos:
cercanía
§ Intermediación: medida de las veces que un nodo se
interpone entre la distancia geodésica de otros
38
Análisis Redes Sociales
Teoría de Grafos (X)
●Mediciones: Nodos (cont.)
o Centralidad
Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/
39
Análisis Redes Sociales
Teoría de Grafos (XI)
●Mediciones: Nodos (cont.)
o Centralidad
40
Análisis Redes Sociales
Teoría de Grafos (XII)
●Mediciones: Nodos (cont.)
o Centralidad
41
Análisis Redes Sociales
Teoría de Grafos (XIII)
●Mediciones: Nodos (cont.)
o Centralidad
Fuente: http://slideplayer.es/slide/19335/
42
Análisis Redes Sociales
Teoría de Grafos (XIV)
●Mediciones: Nodos (cont.)
43
Análisis Redes Sociales
Teoría de Grafos (XV)
●Mediciones: Nodos (cont.)
o Caminos
§ Un camino es una ruta que une dos nodos pasando
por otros.
§ Hay diferentes tipos de caminos
● walk
● trail: walk en el que todas las líneas son distintas
● path: trail que no repite nodos
● semipath: en un grafo dirigido, path que ignora el sentido de las
uniones
44
Análisis Redes Sociales
Teoría de Grafos (XVI)
●Mediciones: Nodos (cont.)
o Caminos
Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/
45
Análisis Redes Sociales
Teoría de Grafos (XVII)
● GPS Data on Beijing Cabs Reveals
the Cause of Traffic Jams
o Investigadores de la Microsoft Research
Asia han dividido la ciudad en regiones
(figura contigua), analizando cómo los
taxis se mueven a través de ellas
o Si se puede tomar un camino directo
entrea A y B, y un taxista toma un
camino alternativa... ¿qué pasa?
o Algoritmo aplicable a ciudades con
mucha densidad de taxis (Mexico City,
Bangkok, Tokyo, New York, Buenos Aires
y Moscow)
46
Análisis Redes Sociales
Teoría de Grafos (XVIII)
●Mediciones: Nodos (cont.)
o Conexión
§ Débilmente conectados: semicamino
§ Unilateralmente conectados
● Path de a a b pero no a la inversa
§ Fuertemente conectados: unilateralmente
conectados en ambos sentidos
§ Recursivamente conectados: orden de nodos idéntico
pero inverso
47
Análisis Redes Sociales
Teoría de Grafos (XIX)
●Mediciones: Nodos (cont.)
o Distancia geodésica
§ Longitud del path más corto entre dos nodos
§ Si no son alcanzables entre sí, infinita o indefinida
Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL
48
Análisis Redes Sociales
Teoría de Grafos (XX)
●Mediciones: Grafo
o Densidad
§ Proporción entre líneas existentes y líneas posibles
§ Líneas posibles
● Grafo no orientado: g (g-1) / 2
● Grafo orientado: g (g-1)
o Subgrafo
§ Un grafo G2 es subgrafo de G1 si G1 contiene G2
49
Análisis Redes Sociales
Teoría de Grafos (XXI)
●Mediciones: Grafo
o Densidad
50
Análisis Redes Sociales
Teoría de Grafos (XXII)
●Mediciones: Grafo
o Diámetro
§ Distancia geodésica más alta entre dos nodos
o Punto de corte
§ Nodo que, al eliminarlo rompe el grafo
51
Análisis Redes Sociales
Teoría de Grafos (XXIII)
●Representación de los datos
o Matriz de adyacencia
o Lista de aristas
o Lista de adyacencia
52
Análisis Redes Sociales
Teoría de Grafos (XXIV)
● Matriz de adyacencia
52
53
Análisis Redes Sociales
Teoría de Grafos (XXV)
● Lista de aristas
o 2, 3
o 2, 4
o 3, 2
o 3, 4
o 4, 5
o 5, 2
o 5, 1
54
Análisis Redes Sociales
Teoría de Grafos (XXVI)
● Lista de adyacencia
o Más útiles para redes poco densas
o grandes
o Lista:
§ 1:
§ 2: 3 4
§ 3: 2 4
§ 4: 5
§ 5: 1 2
55
Análisis Redes Sociales
Teoría de Grafos (XXVII)
● Software
o NodeXL
o Gephi
o R / Python
56
Análisis Redes Sociales
Aplicaciones prácticas
57
Análisis Redes Sociales
Aplicaciones prácticas (II)
57
Copyright (c) 2016 University of Deusto
This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative
Commons “Attribution-ShareAlike” License. To view a copy of this license, visit
http://creativecommons.org/licenses/by-sa/3.0/
Alex Rayón Jerez
Febrero 2016
PROGRAMA DE BIG DATA Y
BUSINESS INTELLIGENCE
Análisis de Redes Sociales (SNA) y Text Mining
Alex Rayón Jerez
alex.rayon@deusto.es
@alrayon
Febrero, 2016. Madrid.

Más contenido relacionado

Destacado

Destacado (16)

Customer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big DataCustomer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big Data
 
Cómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big DataCómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big Data
 
Big Data: the Management Revolution
Big Data: the Management RevolutionBig Data: the Management Revolution
Big Data: the Management Revolution
 
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
 
La economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidadesLa economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidades
 
Enterprise Reporting with MongoDB and JasperSoft
Enterprise Reporting with MongoDB and JasperSoftEnterprise Reporting with MongoDB and JasperSoft
Enterprise Reporting with MongoDB and JasperSoft
 
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
 
Introducción al software libre y open source
Introducción al software libre y open sourceIntroducción al software libre y open source
Introducción al software libre y open source
 
Fomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas socialesFomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas sociales
 
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
El Big Data y Business Intelligence en mi empresa: ¿de qué me sirve?
 
Marketing intelligence con estrategia omnicanal y Customer Journey
Marketing intelligence con estrategia omnicanal y Customer JourneyMarketing intelligence con estrategia omnicanal y Customer Journey
Marketing intelligence con estrategia omnicanal y Customer Journey
 
Las competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricasLas competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricas
 
Aplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresaAplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresa
 
El Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceEl Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligence
 
Herramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructuradosHerramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructurados
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big Data
 

Similar a Análisis de Redes Sociales (Social Network Analysis) y Text Mining

La belleza de las redes grafos y ejemplos por medio link
La belleza de las redes grafos y ejemplos por medio linkLa belleza de las redes grafos y ejemplos por medio link
La belleza de las redes grafos y ejemplos por medio link
Miguel Andrés Jaramillo López
 
La belleza de las redes grafos y ejemplos por medio link
La belleza de las redes grafos y ejemplos por medio linkLa belleza de las redes grafos y ejemplos por medio link
La belleza de las redes grafos y ejemplos por medio link
Miguel Andrés Jaramillo López
 
Ciencia redes analisis de redes sociales_para master
Ciencia redes analisis de redes sociales_para masterCiencia redes analisis de redes sociales_para master
Ciencia redes analisis de redes sociales_para master
Fernando Santamaría
 
Tyr tema 1_introduccion_a_las_redes
Tyr tema 1_introduccion_a_las_redesTyr tema 1_introduccion_a_las_redes
Tyr tema 1_introduccion_a_las_redes
oskr555
 
Tyr tema 1_introduccion_a_las_redes
Tyr tema 1_introduccion_a_las_redesTyr tema 1_introduccion_a_las_redes
Tyr tema 1_introduccion_a_las_redes
oskr555
 
Red Semantica
Red SemanticaRed Semantica
Red Semantica
cebaronva
 

Similar a Análisis de Redes Sociales (Social Network Analysis) y Text Mining (20)

ARS
ARSARS
ARS
 
Identificación de comunidades a partir de los metadatos a nivel de autor
Identificación de comunidades a partir de los metadatos a nivel de autorIdentificación de comunidades a partir de los metadatos a nivel de autor
Identificación de comunidades a partir de los metadatos a nivel de autor
 
Curso trabajar en red en asociaciones
Curso trabajar en red en asociacionesCurso trabajar en red en asociaciones
Curso trabajar en red en asociaciones
 
1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...
1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...
1 big data y redes sociales semana 10 erdos renyi albert barabási ultimo actu...
 
Análisis y procesamiento de datos para descubrir conocimiento
Análisis y procesamiento de datos para descubrir conocimientoAnálisis y procesamiento de datos para descubrir conocimiento
Análisis y procesamiento de datos para descubrir conocimiento
 
Investigación de Operaciones 041 Análisis de Redes Terminología Básica Teoría...
Investigación de Operaciones 041 Análisis de Redes Terminología Básica Teoría...Investigación de Operaciones 041 Análisis de Redes Terminología Básica Teoría...
Investigación de Operaciones 041 Análisis de Redes Terminología Básica Teoría...
 
La belleza de las redes grafos y ejemplos por medio link
La belleza de las redes grafos y ejemplos por medio linkLa belleza de las redes grafos y ejemplos por medio link
La belleza de las redes grafos y ejemplos por medio link
 
La belleza de las redes grafos y ejemplos por medio link
La belleza de las redes grafos y ejemplos por medio linkLa belleza de las redes grafos y ejemplos por medio link
La belleza de las redes grafos y ejemplos por medio link
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
El análisis de redes sociales en la era de los datos masivos
El análisis de redes sociales en la era de los datos masivosEl análisis de redes sociales en la era de los datos masivos
El análisis de redes sociales en la era de los datos masivos
 
De la categorización a la teorización - Codificación selectiva
De la categorización a la teorización - Codificación selectivaDe la categorización a la teorización - Codificación selectiva
De la categorización a la teorización - Codificación selectiva
 
Ciencia de redes con R: Una introducción al universo de paquetes para ciencia...
Ciencia de redes con R: Una introducción al universo de paquetes para ciencia...Ciencia de redes con R: Una introducción al universo de paquetes para ciencia...
Ciencia de redes con R: Una introducción al universo de paquetes para ciencia...
 
Taller n2 gmail
Taller n2 gmailTaller n2 gmail
Taller n2 gmail
 
Multi,
Multi,Multi,
Multi,
 
Red semántica
Red semánticaRed semántica
Red semántica
 
Ciencia redes analisis de redes sociales_para master
Ciencia redes analisis de redes sociales_para masterCiencia redes analisis de redes sociales_para master
Ciencia redes analisis de redes sociales_para master
 
Redes sociales
Redes socialesRedes sociales
Redes sociales
 
Tyr tema 1_introduccion_a_las_redes
Tyr tema 1_introduccion_a_las_redesTyr tema 1_introduccion_a_las_redes
Tyr tema 1_introduccion_a_las_redes
 
Tyr tema 1_introduccion_a_las_redes
Tyr tema 1_introduccion_a_las_redesTyr tema 1_introduccion_a_las_redes
Tyr tema 1_introduccion_a_las_redes
 
Red Semantica
Red SemanticaRed Semantica
Red Semantica
 

Más de Alex Rayón Jerez

Más de Alex Rayón Jerez (12)

El poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero éticaEl poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero ética
 
Marketing intelligence: Optimizando la estrategia a través del Big Data
Marketing intelligence: Optimizando la estrategia a través del Big DataMarketing intelligence: Optimizando la estrategia a través del Big Data
Marketing intelligence: Optimizando la estrategia a través del Big Data
 
Profesiones de mañana para trabajar hoy
Profesiones de mañana para trabajar hoyProfesiones de mañana para trabajar hoy
Profesiones de mañana para trabajar hoy
 
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
 
Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...
Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...
Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...
 
Visual analytics: poniendo en valor el dato a través de la visualización
Visual analytics: poniendo en valor el dato a través de la visualizaciónVisual analytics: poniendo en valor el dato a través de la visualización
Visual analytics: poniendo en valor el dato a través de la visualización
 
Yo como persona emprendedora
Yo como persona emprendedoraYo como persona emprendedora
Yo como persona emprendedora
 
Smart Data para la mejora de la educación y sus procesos de enseñanza aprendi...
Smart Data para la mejora de la educación y sus procesos de enseñanza aprendi...Smart Data para la mejora de la educación y sus procesos de enseñanza aprendi...
Smart Data para la mejora de la educación y sus procesos de enseñanza aprendi...
 
La transformación digital del sector financiero
La transformación digital del sector financieroLa transformación digital del sector financiero
La transformación digital del sector financiero
 
Marketing digital para la captación de más clientes
Marketing digital para la captación de más clientesMarketing digital para la captación de más clientes
Marketing digital para la captación de más clientes
 
Las competencias digitales en mi empresa: ¿en qué me pueden ayudar?
Las competencias digitales en mi empresa: ¿en qué me pueden ayudar?Las competencias digitales en mi empresa: ¿en qué me pueden ayudar?
Las competencias digitales en mi empresa: ¿en qué me pueden ayudar?
 
Mejorando la experiencia de cliente a través del Big Data
Mejorando la experiencia de cliente a través del Big DataMejorando la experiencia de cliente a través del Big Data
Mejorando la experiencia de cliente a través del Big Data
 

Último

Presentación de medicina Enfermedades Fotográfico Moderno Morado (1).pdf
Presentación de medicina Enfermedades Fotográfico Moderno Morado (1).pdfPresentación de medicina Enfermedades Fotográfico Moderno Morado (1).pdf
Presentación de medicina Enfermedades Fotográfico Moderno Morado (1).pdf
juancmendez1405
 

Último (20)

DESCRIPCIÓN-LOS-DILEMAS-DEL-CONOCIMIENTO.pptx
DESCRIPCIÓN-LOS-DILEMAS-DEL-CONOCIMIENTO.pptxDESCRIPCIÓN-LOS-DILEMAS-DEL-CONOCIMIENTO.pptx
DESCRIPCIÓN-LOS-DILEMAS-DEL-CONOCIMIENTO.pptx
 
1 CARTILLA DE CATEQUESIS año biblico 2023-2024.pdf
1 CARTILLA DE CATEQUESIS año biblico 2023-2024.pdf1 CARTILLA DE CATEQUESIS año biblico 2023-2024.pdf
1 CARTILLA DE CATEQUESIS año biblico 2023-2024.pdf
 
ACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLAACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLA
ACERTIJO SOPA DE LETRAS OLÍMPICA. Por JAVIER SOLIS NOYOLA
 
mapa mental sobre el sistema político...
mapa mental sobre el sistema político...mapa mental sobre el sistema político...
mapa mental sobre el sistema político...
 
Evaluación de los Factores Internos de la Organización
Evaluación de los Factores Internos de la OrganizaciónEvaluación de los Factores Internos de la Organización
Evaluación de los Factores Internos de la Organización
 
Resumen Acuerdo 05 04 24.pdf por el que se rigen los Consejos Técnicos Escolares
Resumen Acuerdo 05 04 24.pdf por el que se rigen los Consejos Técnicos EscolaresResumen Acuerdo 05 04 24.pdf por el que se rigen los Consejos Técnicos Escolares
Resumen Acuerdo 05 04 24.pdf por el que se rigen los Consejos Técnicos Escolares
 
Presentación de medicina Enfermedades Fotográfico Moderno Morado (1).pdf
Presentación de medicina Enfermedades Fotográfico Moderno Morado (1).pdfPresentación de medicina Enfermedades Fotográfico Moderno Morado (1).pdf
Presentación de medicina Enfermedades Fotográfico Moderno Morado (1).pdf
 
Luz desde el santuario. Escuela Sabática
Luz desde el santuario. Escuela SabáticaLuz desde el santuario. Escuela Sabática
Luz desde el santuario. Escuela Sabática
 
Seguridad y virus informáticos 12°B 2024
Seguridad y virus informáticos 12°B 2024Seguridad y virus informáticos 12°B 2024
Seguridad y virus informáticos 12°B 2024
 
Cerebelo Anatomía y fisiología Clase presencial
Cerebelo Anatomía y fisiología Clase presencialCerebelo Anatomía y fisiología Clase presencial
Cerebelo Anatomía y fisiología Clase presencial
 
LA ILIADA Y LA ODISEA.LITERATURA UNIVERSAL
LA ILIADA Y LA ODISEA.LITERATURA UNIVERSALLA ILIADA Y LA ODISEA.LITERATURA UNIVERSAL
LA ILIADA Y LA ODISEA.LITERATURA UNIVERSAL
 
METODOS DE EXTRACCIÓN E IDENTIFICACIÓN - 2024.pdf
METODOS DE EXTRACCIÓN E IDENTIFICACIÓN - 2024.pdfMETODOS DE EXTRACCIÓN E IDENTIFICACIÓN - 2024.pdf
METODOS DE EXTRACCIÓN E IDENTIFICACIÓN - 2024.pdf
 
RubénSaaRamos_PrácticasPedagogía_Educación y Sociedad
RubénSaaRamos_PrácticasPedagogía_Educación y SociedadRubénSaaRamos_PrácticasPedagogía_Educación y Sociedad
RubénSaaRamos_PrácticasPedagogía_Educación y Sociedad
 
Lec. 08 Esc. Sab. Luz desde el santuario
Lec. 08 Esc. Sab. Luz desde el santuarioLec. 08 Esc. Sab. Luz desde el santuario
Lec. 08 Esc. Sab. Luz desde el santuario
 
La historia de la vida estudiantil a 102 años de la fundación de las Normales...
La historia de la vida estudiantil a 102 años de la fundación de las Normales...La historia de la vida estudiantil a 102 años de la fundación de las Normales...
La historia de la vida estudiantil a 102 años de la fundación de las Normales...
 
PROPIEDADES DE LA LUZ. TIPLER. FÍSICA. PROBLEMAS
PROPIEDADES DE LA LUZ. TIPLER. FÍSICA. PROBLEMASPROPIEDADES DE LA LUZ. TIPLER. FÍSICA. PROBLEMAS
PROPIEDADES DE LA LUZ. TIPLER. FÍSICA. PROBLEMAS
 
CONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocx
CONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocxCONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocx
CONCLUSIONES DESCRIPTIVAS TIC que ayudaran a tus registrosdocx
 
Lección 1: Los complementos del Verbo ...
Lección 1: Los complementos del Verbo ...Lección 1: Los complementos del Verbo ...
Lección 1: Los complementos del Verbo ...
 
ENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docx
ENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docxENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docx
ENUNCIADOS CUESTIONARIO S9 GEOLOGIA Y MINERALOGIA - GENERAL.docx
 
ACERTIJO LA RUTA DE LAS ADIVINANZAS OLÍMPICAS. Por JAVIER SOLIS NOYOLA
ACERTIJO LA RUTA DE LAS ADIVINANZAS OLÍMPICAS. Por JAVIER SOLIS NOYOLAACERTIJO LA RUTA DE LAS ADIVINANZAS OLÍMPICAS. Por JAVIER SOLIS NOYOLA
ACERTIJO LA RUTA DE LAS ADIVINANZAS OLÍMPICAS. Por JAVIER SOLIS NOYOLA
 

Análisis de Redes Sociales (Social Network Analysis) y Text Mining

  • 1. PROGRAMA DE BIG DATA Y BUSINESS INTELLIGENCE Análisis de Redes Sociales (SNA) y Text Mining Alex Rayón Jerez alex.rayon@deusto.es @alrayon Febrero, 2016. Madrid.
  • 2. 2 Índice de contenidos ●Text mining ●Análisis de Redes Sociales
  • 3. 3 Índice de contenidos ●Text mining ●Análisis de Redes Sociales
  • 4. 4 Text mining Introducción ●Estudios recientes indican que, de media, el 80% de la información de una empresa está almacenada en forma de documentos o Sin duda, este campo de estudio es muy amplio, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automática, entre otras, apoyan el text mining (o minería de texto)
  • 5. 5 ● En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval, IR) [Hearst, 1999] o Esta última, no obstante, consiste en la reacuperación automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc. o Generalmente se utilizan palabras clave para encontrar una página relevante o En cambio, el text mining se refiere a una examinar uan colección de documentos y descubrir información no contenida en ningún documento individual [Nasukawa, 2001] Text mining Introducción (II)
  • 6. 6 ● Hay una enorme cantidad de información en texto o Aparte de los libros, periódicos y enciclopedias en Internet, se generan enormes cantidades de información textual Text mining ¿Por qué? Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html
  • 7. 7 Text mining Pasos 1) Obtención y agrupación Texto 2) Pre procesamiento 3) Generación de atributos 4) Selección de atributos 5) Minería de datos 6) Interpretación y evaluación
  • 8. 8 Text mining Pasos: 1) Obtención y agrupación del texto ●Los textos se encuentran en documentos dispersos como páginas web, informes, actualizaciones de status, etc. ●El primer paso, así, consiste en la obtención de estos datos y su agrupamiento para comenzar a trabajar
  • 9. 9 Text mining Pasos: 2) Pre-procesamiento ●Eliminar el ruido o Texto deliberadamente equivocado (SPAM) o Textos ambiguos o Texto erróneo o Palabras que no tienen poder discriminatorio (STOP WORDS) o Ruido en el formato (tags, links) o Multiplicidad de idiomas o Sinónimos, palabras con varios significados o Frases típicas
  • 10. 10 Text mining Pasos: 2) Pre-procesamiento (II)
  • 11. 11 Text mining Pasos: 2) Pre-procesamiento (III) ●Convertir el documento en un vector de palabras: tokenization Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/
  • 12. 12 Text mining Pasos: 2) Pre-procesamiento (IV) ● Con WEKA: o Se puede importar los datos en CSV o Hay que eliminar los caracteres: , ; : “ ‘ % () o Aplicar primero el filtro NominalToString o Aplicar el filtro StringToWordDetector
  • 13. 13 Text mining Pasos: 3) Generación de atributos ●Representación del texto o Bag of Words Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification
  • 14. 14 Text mining Pasos: 3) Generación de atributos (II) ●Representación del texto o Bag of Words Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model
  • 15. 15 Text mining Pasos: 4) Selección de atributos ●¿Qué palabras tienen la mejor capacidad discriminatoria? ●Se puede usar un clasificador o Latent Semantic Analysis § Es una teoría y un método para extraer y representar el significado de las palabras dentro de un contexto utilizando técnicas estadísticas sobre un cuerpo de texto grande
  • 16. 16 Text mining Pasos: 4) Selección de atributos (II) ● En WEKA o Ir a “Select attributes” o Seleccionar “Latent Semantic Analysis” o Start o Guardar el nuevo dataset
  • 17. 17 Text mining Pasos: 5) Minería de datos ●Se puede usar cualquiera de las técnicas vistas en el apartado de descubrimiento de conocimiento o Clasificación o Descubrimiento estructuras o Reglas de asociación
  • 18. 18 Text mining Pasos: 6)Interpretación y evaluación ● Interpretar o Descubrimiento estructuras ●Evaluar los resultados o Clasificación o Reglas de asociación ●Sacar conclusiones o iterar sobre los pasos anteriores
  • 22. 22 Índice de contenidos ●Text mining ●Análisis de Redes Sociales
  • 23. 23 Análisis Redes Sociales ¿Qué es? ●NO es solo Análisis de Social Media o Puede ser parte ●Sociología + Matemáticas o Actores que interactúan o Teoría de Grafos ●Estudio numérico y representación gráfica
  • 24. 24 Análisis Redes Sociales ¿Qué es? (II) Fuente: http://www.soc.duke.edu/~jmoody77/chains.pdf
  • 25. 25 Análisis Redes Sociales ¿Qué se estudia? ●Redes egocéntricas o Actor principal con sus relaciones, hasta el grado n (“amigos de amigos de amigos”) ●Redes completas o Número de nodos determinado por una característica concreta: son los que son (UE) ●Grandes redes o Redes con muchos nodos en las que en general el investigador corta el límite
  • 26. 26 Análisis Redes Sociales Elementos ● Actores o Los nodos de la red no tienen por qué ser necesariamente personas, pueden ser países, o incluso actividades o Depende de lo que se esté investigando ●Vínculos o Los vínculos que unen a los actores se definen por sus propiedades o características de la relación
  • 27. 27 Análisis Redes Sociales Elementos (II) Fuente: http://www.economiapersonal.com.ar/2014/06/14/red-social/
  • 28. 28 Análisis Redes Sociales Características ●Basado en relaciones y vínculos entre actores ●Recogida sistemática de datos empíricos del tipo de relación estudiada entre cada par de actores o Representado por gráficos ●Se apoya en el uso de las matemáticas, principalmente la teoría matemática de grafos y/o en modelos informáticos
  • 29. 29 Análisis Redes Sociales Teoría de Grafos ●Surge en el siglo XVIII con Euler (1707-1803) o El problema de los puentes de Konigsberg ●Resolución de problemas que pueden ser modelados mediante un grafo y resueltos mediante algoritmos específicamente desarrollados para un grafo Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo
  • 30. 30 Análisis Redes Sociales Teoría de Grafos (II) ● La historia del metro de Londres tiene mucha relación con la Teoría de Grafos o Más concretamente, con la Inmersión de Grafos (Graph Drawing) o Permite explicar de forma sencilla la representación (inmersión) de un grafo ● Para un mismo conjunto de vértices y una misma lista de conexiones entre ellos, puede haber trazados con o sin cruces entre las líneas. ● Depende del dibujo que se haga del grafo, de la inmersión que se elija, se pueden destacar, y por lo tanto aprovechar, una característica u otra del grafo
  • 31. 31 Análisis Redes Sociales Teoría de Grafos (III) ● Los primeros mapas del metro de Londres eran geográficos o Dibujar sobre un plano de la ciudad los recorridos de las distintas líneas ● Harry Beck, ingeniero electrónico empleado en el metro de Londres, se percató en 1931 de que al usuario no le interesaba conocer el recorrido del metro bajo tierra o Simplemente le interesaba conocer la posición relativa de las líneas y estaciones para realizar los trasbordos que necesitase Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry- beck.html 31
  • 32. 32 Análisis Redes Sociales Teoría de Grafos (IV) ● Más que un diseño geográfico, resultaría más útil un diseño topológico o Menos curvas y direcciones en las líneas o De broma, hizo su primer diseño basado en los utilizados en circuitos eléctricos ● En 1936, entre otros cambios, eliminó curvas y sólo permitió ángulos de 45º y 90º ● En 1940, se incorporaron ángulos de 60º también, idea que se desechó por enturbiar la claridad del plano
  • 33. 33 Análisis Redes Sociales Teoría de Grafos (V) Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html
  • 34. 34 Análisis Redes Sociales Teoría de Grafos (VI) ●¿Por qué? o Proporciona vocabulario preciso o Herramientas cuantitativas ●Grafo o “Un grafo (G) es un conjunto de vértices o nodos (N) y líneas (L) que unen pares de nodos.” o Nodos: actores § Pueden poseer atributos (sexo, grupo étnico, etc.) o Líneas: vínculos § Puede haber diferentes tipos/características (amistad, influencia)
  • 35. 35 Análisis Redes Sociales Teoría de Grafos (VII) Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/
  • 36. 36 Análisis Redes Sociales Teoría de Grafos (VIII) ●Mediciones: Nodos o Adyacencia / Incidencia § Dos nodos son adyacentes si están relacionados § Una línea y un nodo son incidentes entre sí si el nodo es uno de los que definen la línea o Grado § El grado de un nodo, designado d(n) es el número de líneas que son incidentes con él (nodos adyacentes)
  • 37. 37 Análisis Redes Sociales Teoría de Grafos (IX) ●Mediciones: Nodos (cont.) o Centralidad § La centralidad de un nodo ayuda a dilucidar su “importancia” en la red, aunque no la representa por completo § El grado es una medida de centralidad § Distancia media geodésica al resto de nodos: cercanía § Intermediación: medida de las veces que un nodo se interpone entre la distancia geodésica de otros
  • 38. 38 Análisis Redes Sociales Teoría de Grafos (X) ●Mediciones: Nodos (cont.) o Centralidad Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/
  • 39. 39 Análisis Redes Sociales Teoría de Grafos (XI) ●Mediciones: Nodos (cont.) o Centralidad
  • 40. 40 Análisis Redes Sociales Teoría de Grafos (XII) ●Mediciones: Nodos (cont.) o Centralidad
  • 41. 41 Análisis Redes Sociales Teoría de Grafos (XIII) ●Mediciones: Nodos (cont.) o Centralidad Fuente: http://slideplayer.es/slide/19335/
  • 42. 42 Análisis Redes Sociales Teoría de Grafos (XIV) ●Mediciones: Nodos (cont.)
  • 43. 43 Análisis Redes Sociales Teoría de Grafos (XV) ●Mediciones: Nodos (cont.) o Caminos § Un camino es una ruta que une dos nodos pasando por otros. § Hay diferentes tipos de caminos ● walk ● trail: walk en el que todas las líneas son distintas ● path: trail que no repite nodos ● semipath: en un grafo dirigido, path que ignora el sentido de las uniones
  • 44. 44 Análisis Redes Sociales Teoría de Grafos (XVI) ●Mediciones: Nodos (cont.) o Caminos Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/
  • 45. 45 Análisis Redes Sociales Teoría de Grafos (XVII) ● GPS Data on Beijing Cabs Reveals the Cause of Traffic Jams o Investigadores de la Microsoft Research Asia han dividido la ciudad en regiones (figura contigua), analizando cómo los taxis se mueven a través de ellas o Si se puede tomar un camino directo entrea A y B, y un taxista toma un camino alternativa... ¿qué pasa? o Algoritmo aplicable a ciudades con mucha densidad de taxis (Mexico City, Bangkok, Tokyo, New York, Buenos Aires y Moscow)
  • 46. 46 Análisis Redes Sociales Teoría de Grafos (XVIII) ●Mediciones: Nodos (cont.) o Conexión § Débilmente conectados: semicamino § Unilateralmente conectados ● Path de a a b pero no a la inversa § Fuertemente conectados: unilateralmente conectados en ambos sentidos § Recursivamente conectados: orden de nodos idéntico pero inverso
  • 47. 47 Análisis Redes Sociales Teoría de Grafos (XIX) ●Mediciones: Nodos (cont.) o Distancia geodésica § Longitud del path más corto entre dos nodos § Si no son alcanzables entre sí, infinita o indefinida Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL
  • 48. 48 Análisis Redes Sociales Teoría de Grafos (XX) ●Mediciones: Grafo o Densidad § Proporción entre líneas existentes y líneas posibles § Líneas posibles ● Grafo no orientado: g (g-1) / 2 ● Grafo orientado: g (g-1) o Subgrafo § Un grafo G2 es subgrafo de G1 si G1 contiene G2
  • 49. 49 Análisis Redes Sociales Teoría de Grafos (XXI) ●Mediciones: Grafo o Densidad
  • 50. 50 Análisis Redes Sociales Teoría de Grafos (XXII) ●Mediciones: Grafo o Diámetro § Distancia geodésica más alta entre dos nodos o Punto de corte § Nodo que, al eliminarlo rompe el grafo
  • 51. 51 Análisis Redes Sociales Teoría de Grafos (XXIII) ●Representación de los datos o Matriz de adyacencia o Lista de aristas o Lista de adyacencia
  • 52. 52 Análisis Redes Sociales Teoría de Grafos (XXIV) ● Matriz de adyacencia 52
  • 53. 53 Análisis Redes Sociales Teoría de Grafos (XXV) ● Lista de aristas o 2, 3 o 2, 4 o 3, 2 o 3, 4 o 4, 5 o 5, 2 o 5, 1
  • 54. 54 Análisis Redes Sociales Teoría de Grafos (XXVI) ● Lista de adyacencia o Más útiles para redes poco densas o grandes o Lista: § 1: § 2: 3 4 § 3: 2 4 § 4: 5 § 5: 1 2
  • 55. 55 Análisis Redes Sociales Teoría de Grafos (XXVII) ● Software o NodeXL o Gephi o R / Python
  • 58. Copyright (c) 2016 University of Deusto This work (but the quoted images, whose rights are reserved to their owners*) is licensed under the Creative Commons “Attribution-ShareAlike” License. To view a copy of this license, visit http://creativecommons.org/licenses/by-sa/3.0/ Alex Rayón Jerez Febrero 2016
  • 59. PROGRAMA DE BIG DATA Y BUSINESS INTELLIGENCE Análisis de Redes Sociales (SNA) y Text Mining Alex Rayón Jerez alex.rayon@deusto.es @alrayon Febrero, 2016. Madrid.