SlideShare una empresa de Scribd logo
1 de 169
El proceso de análisis y 
explotación de datos en 
proyectos de Business 
Intelligence 
Módulo 02: Análisis y procesamiento de datos para 
descubrir conocimiento 
Alex Rayón Jerez 
alex.rayon@urbegi.com 
Octubre, 2014
¿Que hemos visto hasta ahora?
Índice de contenidos 
● Modelo de datos 
● Dimensiones de datos 
● Procesamiento de datos en un ETL 
● Técnicas de descubrimiento de conocimiento 
● Text mining 
● Análisis de Rdes Sociales
Índice de contenidos 
● Modelo de datos 
● Dimensiones de datos 
● Procesamiento de datos en un ETL 
● Técnicas de descubrimiento de conocimiento 
● Text mining 
● Análisis de Redes Sociales
Modelo de datos 
Introducción 
1 2 3 
Proceso Modelo 
Plataforma 
explotación 
Datos 
Ciclo de 
análisis 
de datos 
Representación 
para explotación 
Información y 
conocimiento 
Día 2
Modelo de datos 
Introducción (II) 
● Representación de los datos para ponerlos 
en explotación 
o Hay que considerar todo lo que vimos en el primer día 
→ especialmente los datos capturados que han sido 
normalizados 
● No se puede hacer Data mining sin más 
o Se necesita un marco teórico → una representación 
conceptual del dominio o contexto en el que se está 
trabajando
Modelo de datos 
Introducción (III)
Modelo de datos 
Usos de datos 
● Desde una perspectiva de Teoría del 
Conocimiento, tres usos de datos: 
o Deducción 
 Preguntas a resolver con la Base de Datos que se 
dispone (enfoque estadístico tradicional) 
o Inducción 
 Analizar los datos con la esperanza de encontrar 
algo (Data Mining) 
o Abducción 
 Deducción + Inducción
Modelo de datos 
Usos de datos (II) 
Fuente: http://matedisyalgeline.blogspot.com.es/p/la-induccion-se-refiere-al-movimiento.html
Modelo de datos 
Mapa conceptual 
Concepto 1 
Conceptos/Entidades 
(elemento abstracto de 
Concepto 2 
Concepto 3 
información) 
Concepto n 
Relaciones entre conceptos
Modelo de datos 
Mapa conceptual (II) 
Nos ayuda a entender el dominio/contexto y a 
facilitar el entendimiento mutuo entre todas las 
personas que están implicados en el proyecto 
Source: http://www.economist.com/blogs/economist-explains/2013/05/economist-explains-14 
Source: http://www.economist.com/news/finance-and-economics/21578041-containers-have-been-more-important-globalisation-freer-trade-humble
Modelo de datos 
Mapa conceptual (III) 
● El modelo de datos, el mapa conceptual, 
describe los conceptos y las relaciones que 
se emplean para el proyecto BI en el día a 
día 
o Expresadas en su propio lenguaje 
o Permite que toda la organización participe en el 
mantenimiento del mismo 
Fuente: http://en.wikipedia.org/wiki/Esperanto_orthography
Índice de contenidos 
● Modelo de datos 
● Dimensiones de datos 
● Procesamiento de datos en un ETL 
● Técnicas de descubrimiento de conocimiento 
● Text mining 
● Análisis de Redes Sociales
Dimensiones de datos 
Introducción 
● Una dimensión de base de 
datos es una colección de 
objetos relacionados, 
denominados atributos, que se 
pueden usar para 
proporcionar información 
sobre los datos 
o Atributos típicos de una dimensión 
de producto pueden ser el nombre, 
la categoría, la línea, el tamaño y el 
precio del producto 
Fuente: http://datawarehouse.es.tl/Funcionalidad.htm
Dimensiones de datos 
Introducción (II) 
● Estos objetos están enlazados a una o varias 
columnas de una o varias tablas de una vista 
del origen de datos 
o De manera predeterminada, estos atributos están 
visibles como jerarquías de atributo y se pueden 
utilizar para comprender los datos de hechos en un 
cubo 
o Los atributos se pueden organizar en jerarquías 
definidas por el usuario que proporcionan rutas de 
navegación para ayudar a los usuarios al examinar los 
datos
Dimensiones de datos 
¿Nuestro objetivo? 
¿Cuál es nuestro objetivo 
en todo proyecto de 
Business Intelligence?
Dimensiones de datos 
¿Nuestro objetivo? Dar respuestas :-) 
● Por cada pregunta → una respuesta 
o Una respuesta → una dimensión de datos 
● Se recomienda preparar cada dimensión de 
datos en una rama de Pentaho Kettle 
diferente 
o De esta manera, se podrá ir modificando cada 
respuesta según las necesidades cambiantes sin 
afectar al resto de preguntas - respuestas
Índice de contenidos 
● Modelo de datos 
● Dimensiones de datos 
● Procesamiento de datos en un ETL 
● Técnicas de descubrimiento de conocimiento 
● Text mining 
● Análisis de Redes Sociales
Procesamiento datos ETL 
Definición y características 
● Una herramienta ETL 
o Extrae datos desde varias fuentes de datos 
(normalmente datos heredados) 
o Transforma los datos 
 Desde → estar optimizados a transacciones 
 A → estar optimizados para el análisis y el 
reporting 
 Sincronizar los datos que provienen de diferentes 
fuentes de datos 
 Normaliza y limpia los datos 
o Carga los datos en un aplicación de destino 
(normalmente una Base de Datos)
Procesamiento datos ETL 
¿Por qué necesito esta herramienta? 
● Ahorran tiempo y dinero evitando tener que 
desarrollar código manual de integración de 
datos 
● Es difícil para los administradores de Base de 
Datos conectar fuentes de diferentes 
fabricantes sin tener que emplear una 
herramienta externa 
● Si tuviera que eventualmente integrarse una 
nueva Base de Datos, habría que rehacer el 
código de integración de manera manual
Procesamiento datos ETL 
Pentaho Kettle 
Kettle 
Una herramienta de Extracción, Transformación 
y Carga (ETL) cuyas capacidades son 
aprovechadas a través de un enfoque de 
metadatos
Procesamiento datos ETL 
Pentaho Kettle (II) 
● Tiene una interfaz de usuario (GUI) muy 
sencilla de utilizar 
● Tiene una comunidad de desarrolladores con 
más de 13.500 personas registradas 
● Utiliza un motor Java que procesa las tareas 
para mover datos entre las diferentes fuentes 
de datos y archivos
Procesamiento datos ETL 
Pentaho Kettle (III)
Procesamiento datos ETL 
Pentaho Kettle (IV) 
Source: http://download.101com.com/tdwi/research_report/2003ETLReport.pdf
Procesamiento datos ETL 
Pentaho Kettle (V) 
Source: Pentaho Corporation
Procesamiento datos ETL 
Pentaho Kettle (VI) 
● Tareas que puede ejecutar 
o Integración de datos 
o Limpieza de datos 
o Normalización de datos 
o Migración de datos 
o Exportación de datos 
o etc.
Procesamiento datos ETL 
Transformaciones 
● Manipulación de fechas y strings 
● Validación de datos / Reglas de negocio 
● Join 
● Cálculos matemáticos 
● Cálculo estadístico 
● Criptografía 
● Control del fujo 
● Scripting 
● etc.
Procesamiento datos ETL 
¿Para qué me puede servir? 
● Espejar los datos entre maestro y esclavo 
● Sincronizar dos fuentes de datos 
● Procesar datos de múltiples fuentes y llevarlas 
hasta múltiples destinos 
● Cargar los datos en un Sistema de Gestión de 
Base de Datos 
● Manipulación gráfica de los datos 
● Datamart / Datawarehouse
Procesamiento datos ETL 
¿Para qué me puede servir? (II) 
Actividad BI.02.1. Dimensiones + Modelo de 
datos 
● Entidades + relaciones entre entidades 
● Sustentación teórica 
● Dimensiones 
● Definir las diferentes ramas en Pentaho Kettle 
● Orientar las transformaciones hacia las 
dimensiones y el modelo de datos para 
explotación final
Índice de contenidos 
● Modelo de datos 
● Dimensiones de datos 
● Procesamiento de datos en un ETL 
● Técnicas de descubrimiento de conocimiento 
● Text mining 
● Análisis de Redes Sociales
Descubriendo conocimiento 
Métodos 
Fuente: https://interestingittips.wordpress.com/2011/10/
Descubriendo conocimiento 
Métodos 
1.Métodos predictivos 
1.Descubrimiento estructuras 
1.Minería de relaciones
Descubriendo conocimiento 
1) Métodos predictivos 
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
Descubriendo conocimiento 
1) Métodos predictivos (II) 
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
Descubriendo conocimiento 
1) Métodos predictivos (III) 
● La clasificación es una de las tareas más 
importantes en minería de datos 
● Obtener un modelo, patrón o función que 
discrimine entre dos o más clases excluyentes 
● Medida tradicional para evaluar: 
o Error (también inversamente accuracy): % de 
instancias mal clasificadas (respecto al conjunto de 
test o utilizando validación cruzada / bootstrapping)
Descubriendo conocimiento 
1) Métodos predictivos (IV) 
● Un clasificador 
permite asistir en la 
toma de decisiones 
(entre diferentes 
acciones) 
o Swets, J.A., Dawes, R.M., 
& Monahan, J. (2000). 
“Better decisions 
through science” 
Scientific American, 
283, 82-87.
Descubriendo conocimiento 
1) Métodos predictivos (V) 
Árboles de decisión 
● Plantea el problema desde distintas perspectivas de 
acción 
● Permite analizar de manera completa todas las posibles 
soluciones 
● Provee de un esquema para cuantificar el coste del 
resultado y su probabilidad de uso 
● Ayuda a realizar las mejores decisiones con base a la 
información existente y a las mejores suposiciones 
● Su estructura permite analizar las alternativas, los 
eventos, las probabilidades y los resultados
Descubriendo conocimiento 
1) Métodos predictivos (VI)
Descubriendo conocimiento 
1) Métodos predictivos (VII) 
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
Descubriendo conocimiento 
1) Métodos predictivos (VIII) 
Regresión lineal 
● Puede definirse como un esquema de relación entre una 
variable Y (EXÓGENA O A EXPLICAR) y otra(s) variable(s) X 
(X1X2 ... Xk ) (endógena(s) o explicativa(s), tal que: 
Y = FUNCIÓN LINEAL (X) + PERTURBACIÓN ALEATORIA 
(Modelo Lineal Simple) 
Y = FUNCIÓN LINEAL (X1, X2, ... Xk ) + PERTURBACIÓN ALEATORIA 
(Modelo Lineal General)
Descubriendo conocimiento 
1) Métodos predictivos (IX) 
Regresión lineal 
(cont.) ● Las hipótesis (básicas) que se asuman sobre la 
perturbación aleatoria permitirán realizar el análisis 
estadístico inferencial 
● Las razones para la introducción de una perturbación 
aleatoria, son fundamentalmente: 
o Efecto de variables no consideradas 
o Efectos imprevistos (catástrofes, modas, etc.) 
o Errores de observación o medición
Descubriendo conocimiento 
1) Métodos predictivos (X) 
Regresión lineal 
(cont.) ● Utilidades del modelo lineal: 
o Verificar la existencia de la relación lineal 
o Estimar (contrastar) la (una) relación lineal 
concreta (estructural) 
 Supone actuar sobre los coeficientes de la 
relación lineal 
o Predecir la variable y en función de x o (x1, x2, … 
xk)
Descubriendo conocimiento 
1) Métodos predictivos (XI) 
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
Descubriendo conocimiento 
1) Métodos predictivos (XII) 
Regresión lineal 
(cont.) ● Una vez ajustada la recta de regresión a la nube de 
observaciones, es importante disponer de una 
medida que mida la bondad del ajuste realizado 
● Permitirá decidir si el ajuste lineal es suficiente o se 
deben buscar modelos alternativos
Descubriendo conocimiento 
1) Métodos predictivos (XIII) 
Existe una dependencia funcional lineal, las observaciones están sobre la 
recta de regresión. r = R2 = 1, recta de regresión: y = x. 
Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
Descubriendo conocimiento 
1) Métodos predictivos (XIV) 
La relación lineal entre las variables es muy pequeña y no parece que exista otro tipo de relación 
entre ellas, la nube de puntos indica que las variables son casi independientes 
r = 0'192, R2 = 0'037, recta de regresión: y = 6'317 + 0'086x 
Contraste de regresión: FR = 0'687 ∈ F1,18 → p - valor = 0'418. Se acepta la no influencia de la 
variable regresora en Y. 
Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
Descubriendo conocimiento 
1) Métodos predictivos (XV) 
Existe una dependencia funcional entre las observaciones pero no de tipo lineal, por tanto la 
correlación es muy pequeña 
r = 0'391, R2 = 0'153, recta de regresión: y = 32'534 - 1'889x. 
Contraste de regresión: FR = 3'252 ∈ F1,18 → p - valor = 0'088. Se acepta que no existe relación 
lineal con α = 0'05. Se debe de hacer un ajuste del tipo parabólico Y = α0 + α1x + α2x2 
Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
Descubriendo conocimiento 
1) Métodos predictivos (XVI) 
Usando Clasificadores en WEKA
Procesamiento datos ETL 
Aplicaciones para Tenzing 
Actividad BI.02.2. Predicción 
● Pensar 2 o 3 casos de uso 
● Implementar sobre WEKA a partir de los datos 
normalizados de Pentaho 
● Interpretar las conclusiones 
● Pensar representación 
● Presentar conclusiones
Descubriendo conocimiento 
2) Descubrimiento de estructuras 
Clustering 
Source: http://inside-bigdata.com/2013/12/18/tech-tip-power-pitfalls-clustering/ 
Source: http://www.cs.bilkent.edu.tr/~saksoy/research.html
Descubriendo conocimiento 
2) Descubrimiento de estructuras (II) 
Clustering 
● Identifica de forma automática agrupaciones 
o clústeres de elementos de acuerdo a una 
medida de similitud entre ellos 
o El objetivo fundamental de las técnicas de clustering 
consiste en identificar grupos o clústeres de elementos 
tal que: 
 La similitud media entre elementos del mismo 
clúster sea alta: similitud intra-clúster alta 
 La similitud media entre elementos de distintos 
clústeres sea baja: similitud inter-clúster baja
Descubriendo conocimiento 
2) Descubrimiento de estructuras (III) 
Clustering 
Existen principalmente dos tipos diferentes de técnicas de clustering:
Descubriendo conocimiento 
2) Descubrimiento de estructuras (IV) 
Clustering 
● Clustering jerárquico 
o Construye un dendograma o árbol que representa las 
relaciones de similitud entre los distintos elementos 
 Clustering jerárquico aglomerativo: se comienza 
con tantos clústeres como individuos y consiste en 
ir formando (aglomerando) grupos según su 
similitud 
 Clustering jerárquico de división: se comienza 
con un único clúster y consiste en ir dividiendo 
clústeres según la disimilitud entre sus 
componentes.
Descubriendo conocimiento 
2) Descubrimiento de estructuras (V) 
Clustering 
● Clustering de partición 
o Clustering de partición entorno a centroides (PAM) realiza 
una distribución de los elementos entre un número 
prefijado de clústeres o grupos 
 Recibe como dato de entrada el número de clústers a 
formar además de los elementos a clasificar y la matriz 
de similitudes 
o Explorar todas las posibles particiones es 
computacionalmente intratable 
 Por lo tanto, suelen seguirse algoritmos aproximados 
guiados por determinadas heurísticas
Descubriendo conocimiento 
2) Descubrimiento de estructuras (VI) 
Clustering 
● Clustering de partición 
o En lugar de construir un árbol el objetivo en PAM consiste 
en agrupar los elementos entorno a elementos centrales 
llamados centroides a cada clúster 
 mC=argmin m∈CΣ mj∈Cdist(m,mj)
Descubriendo conocimiento 
2) Descubrimiento de estructuras (VII) 
Clustering 
● Clustering de partición 
Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
Descubriendo conocimiento 
2) Descubrimiento de estructuras (VIII) 
Clustering 
● Durante el flujo de trabajo de clustering 
existen tres puntos claves donde se toman 
decisiones que determinan la identificación 
final de grupos o clústeres de genes: 
o Elección de la medida de similitud o distancia 
o Elección del algoritmo de clustering 
o Elección del número de clústers a identificar
Descubriendo conocimiento 
2) Descubrimiento de estructuras (IX) 
Clustering 
● Para determinar la mejor elección posible es 
necesario fijar un criterio para mediar la 
calidad del resultado proporcionado por un 
flujo de trabajo de clustering 
o El objetivo general perseguido por las técnicas de 
clustering consiste en identificar grupos o clústeres 
compactos 
o Es decir, clusteres con una similitud intra-clúster alta y 
una similitud inter-clúster baja → esta idea intuitiva se 
formaliza en el concepto de silueta de un cluster
Descubriendo conocimiento 
2) Descubrimiento de estructuras (X) 
Clustering 
Como medida de la distancia intracluster de un elemento del clúster si se toma: 
a(si)= Σ sj∈Cd(sj,si) |C|-1 
Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XI) 
Clustering 
Como medida de la distancia intercluster se toma: 
b(si)=mink Σ sj∈Ckd(si,sj) |Ck| 
Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XII) 
Análisis factorial 
Source: http://www.mathworks.es/machine-learning/examples.html?file=/products/demos/machine-learning/cluster_genes/cluster_genes.html
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XIII) 
Análisis factorial 
● Reducir una matriz de datos a dimensiones 
estructurales más pequeñas 
● Permite apreciar hasta dónde existe algún 
patrón subyacente de relaciones en los 
datos de la matriz 
● Reduce las medidas a un conjunto más 
pequeño de factores 
o Los factores pueden ser tomados como variables 
originarias que explican las interrelaciones 
observadas en los datos
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XIV) 
Análisis factorial 
● Fue creado por Spearman (1904) 
● Su propósito era el de probar su Teoría de la 
Inteligencia 
● Él sostenía que en todas las habilidades 
mentales subyacía un factor general (común) 
que denominó g y factores específicos 
independientes
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XV) 
Análisis factorial
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XVI) 
Análisis factorial 
● El Análisis de Factores (AF) parte del supuesto 
de que en un conjunto de variables 
intercorrelacionadas, dichas relaciones 
recíprocas podrían deberse a la presencia de 
una o más variables (factores subyacentes) 
relacionadas en grados diversos con aquellas 
o El propósito, así, del AF es identificar esos factores o 
variables comunes, más generales, que los datos 
mismos
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XVII) 
Análisis factorial 
● Desde el punto de vista matemático, un factor 
puede ser definido como cualquier 
combinación lineal de variables en la matriz 
de datos 
o Ejemplo: Sea el factor A, formado por las variables a, b, 
c … k, y sus ponderaciones, fueran pa, pb, pc … pk, su 
expresión algebraica sería: 
A = pa*a + pb*b + pc*c + … + pk*k
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XVIII) 
Análisis factorial 
● Interpretación sobre los factores 
o Como indicadores de efectos 
 Las variables observadas son consideradas como el 
resultado de una variable subyacente latente 
o Como componente 
 Las variables son transformadas en otras variables 
por conveniencia 
o Como indicadores causales 
 La variable latente es considerada como el 
resultado de las observables
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XIX) 
Análisis factorial 
● Métodos de factorización 
o Método Clásico 
 Se basa en la creencia de que las correlaciones 
observadas en la matriz son principalmente el 
resultado de alguna regularidad subyacente a los 
datos 
o Componentes Principales 
 Es un método de transformación directa de un 
conjunto dado de variables dentro de un nuevo 
conjunto de variables compuestas o componentes 
principales
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XX) 
Análisis factorial 
● Tipos de factores 
o General: variables cargan en un mismo factor 
o Grupo: solo algunas variables son salientes 
o Común: variables que miden el mismo factor 
o Unipolar: variables con un mismo signo 
o Bipolar: variables con signo + y - 
o Singular: una sola saliente 
o Nulo: no tiene saliente
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XXI) 
Análisis factorial 
● Aplicaciones 
o Como técnica exploratoria 
 Examinar estructura subyacente a una Base de 
Datos 
o Como técnica confirmatoria 
 Probar la hipótesis acerca de la estructura 
subyacente en la Base de Datos 
o Como técnica de medición 
 Construcción de índices a partir de los coeficientes 
de las cargas factoriales
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XXII) 
Análisis factorial 
Etapas Opciones Referencias 
Matriz de datos Única (sujetos por medidas) Martiz tipo - X 
Matriz de correlación Correlación entre las medidas Matriz tipo - R 
Correlación entre unidades Matriz tipo - Q 
Extracción de factores iniciales Factores definidos Análisis Componentes Principales 
Factores inferidos Análisis Factorial Correspondencia 
Rotación hasta la solución final Factores no-correlacionados Rotación ortogonal 
Factores correlacionados Rotación oblicua
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XXIII) 
Análisis factorial
Descubriendo conocimiento 
2) Descubrimiento de estructuras (XXIII) 
Social Network Analysis 
Más tarde lo veremos ;) 
Source: http://rs.resalliance.org/2010/11/03/reading-list-using-social-network-analysis-sna-in-social-ecological-studies/
Procesamiento datos ETL 
Aplicaciones para Tenzing 
Actividad BI.02.3. Descubrimiento 
estructuras 
● Pensar 2 o 3 casos de uso 
● Implementar sobre WEKA a partir de los datos 
normalizados de Pentaho 
● Interpretar las conclusiones 
● Pensar representación 
● Presentar conclusiones
Descubriendo conocimiento 
3) Minería de relaciones 
Association rule mining 
Source: http://aimotion.blogspot.com.es/2013/01/machine-learning-and-data-mining.html
Descubriendo conocimiento 
3) Minería de relaciones (II) 
Reglas de asociación 
● Las reglas de asociación en la minería de datos 
se utilizan para encontrar hechos que 
ocurren en común dentro de un conjunto de 
datos 
o Dicho de otra manera que debe ocurrir ciertas 
condiciones para que se produzca cierta condición
Descubriendo conocimiento 
3) Minería de relaciones (III) 
Reglas de asociación 
● Para encontrar estas reglas de debe 
considerar cada posible combinación de 
condiciones para que halla una consecuencia 
o Al hablar de reglas de asociación también cumple un 
rol importante: 
 Cobertura o soporte: número de instancias 
predichas correctamente 
 Precisión o confianza: proporción de número de 
instancias que es aplicada la regla
Descubriendo conocimiento 
3) Minería de relaciones (IV) 
Reglas de asociación 
● Basándose en el concepto de reglas fuertes, 
Agrawal et al., presentaron las reglas de 
asociación para descubrir regularidades en 
transacciones registradas en grandes 
repositorios de datos de sistemas de punto 
de ventas en supermercados 
{pan, jamón} ⇒ {queso}
Descubriendo conocimiento 
3) Minería de relaciones (V) 
Reglas de asociación
Descubriendo conocimiento 
3) Minería de relaciones (VI) 
Reglas de asociación 
● Aplicaciones: Product placement → colocación de 
productos en las estanterías de un supermercado 
o Objetivo 
 Identificar artículos que muchos clientes 
compran conjuntamente 
o Solución 
 Procesar los datos de los terminales de punto 
de venta proporcionados por los escáneres de 
códigos de barras
Descubriendo conocimiento 
3) Minería de relaciones (VII) 
Reglas de asociación 
● Aplicaciones: Promociones y ofertas → si se 
identificar una regla del tipo {impresora} → {tóner} 
o Tóner es el consecuente 
 Puede determinarse cómo incrementar sus ventas 
o Impresora es el antecedente 
 Puede determinarse qué productos se verían afectados 
si dejamos de vender impresoras 
o Impresora es el antecedente y tóner el consecuente 
 Puede utilizarse para ver qué productos deberían 
venderse con impresoras para promocionar las ventas 
de tóner
Descubriendo conocimiento 
3) Minería de relaciones (VIII) 
Reglas de asociación 
● Aplicaciones: Gestión de inventarios 
o Problema 
 Una empresa de reparación de electrodomésticos 
quiere anticipar la naturaleza de las reparaciones que 
tendrá que realizar y mantener a sus vehículos 
equipados con las piezas que permitan reducir el 
número de visitas a casa de sus clientes 
o Solución 
 Procesar los datos sobre herramientas y piezas 
utilizadas en reparaciones previas para descubrir 
patrones de co-ocurrencia
Descubriendo conocimiento 
3) Minería de relaciones (IX) 
Reglas de asociación 
Expresión de la forma 
X → Y 
donde X e Y son itemsets 
{pañales} → {cerveza} 
{cerveza} → {pañales} 
{pan, leche} → {huevos} 
{pan} → {leche, huevos}
Descubriendo conocimiento 
3) Minería de relaciones (X) 
Análisis correlacional 
Source: http://www.bain.com/publications/articles/Growing-brands-by-understanding-what-Chinese-shoppers-really-do.aspx
Descubriendo conocimiento 
3) Minería de relaciones (XI) 
Análisis correlacional 
● Conceptualizaciones generales 
o “Grado de relación o asociación entre dos variables” 
(Hopkins, et al., 1997) 
o “Las propiedades, cálculos y uso de la medida de 
relación entre dos variables” (Young, R. y Veldman, 
D., 1977) 
o El grado y forma de relación entre dos variables
Descubriendo conocimiento 
3) Minería de relaciones (XII) 
Análisis correlacional 
● Tipos de correlación 
o Correlación bivariada 
 Grado de relación o asociación entre dos 
variables 
o Correlación múltiple 
 Grado de relación entre dos o más variables
Descubriendo conocimiento 
3) Minería de relaciones (XIII) 
Análisis correlacional 
● Medición de correlación 
o Gráfica 
 Dispersión, dispersigrama o nube de puntos 
o Analítica 
 Ecuación matemática de Karl Pearson 
 Al final el “producto de Pearson” r 
● r = muestras 
● p = poblaciones
Descubriendo conocimiento 
3) Minería de relaciones (XIV) 
Análisis correlacional 
Fuente: http://bradanovic.blogspot.com.es/2011/12/no-le-creo-mucho-las-estadisticas-de.html 
Fuente: http://rt.uits.iu.edu/visualization/analytics/stats/spss-getting-started-guide-macos.php
Descubriendo conocimiento 
3) Minería de relaciones (XV) 
Análisis correlacional
Descubriendo conocimiento 
3) Minería de relaciones (XIV) 
Patrones secuenciales 
Source: http://www.mdpi.com/1424-8220/10/8/7496
Descubriendo conocimiento 
3) Minería de relaciones (XV) 
Patrones secuenciales 
● Minería de patrones que ocurren frecuentemente 
relacionados al tiempo o a otras secuencias 
● Un ejemplo de patrón secuencial es: 
o “Un cliente que compra un iPad, dos días después 
probablemente comprará la funda y las 
aplicaciones de ofimática” 
● Es similar a la minería de itemset frecuentes (reglas 
de asociación), pero con una consideración de orden
Descubriendo conocimiento 
3) Minería de relaciones (XVI) 
Patrones secuenciales 
● Aplicaciones 
o Secuencias de compra del cliente 
o Tratamientos médicos, desastres naturales, 
procesos de la ingeniería y las ciencias, mercados 
y valores, etc. 
o Patrones de llamadas telefónicas, flujos de 
navegación en la web, etc. 
o Estructuras de ADN y genes 
o ...
Descubriendo conocimiento 
3) Minería de relaciones (XVII) 
Patrones secuenciales 
● Algoritmos 
o Enfoques basados en Apriori 
 GSP (Generalized Sequential Patterns) 
 SPADe 
o Enfoques basados en crecimiento de patrones 
 FreeSpan 
 PrefixSpain
Descubriendo conocimiento 
3) Minería de relaciones (XVII) 
Patrones secuenciales 
● GSP 
Fuente: 
http://bsolano.com/ecci/claroline/backends/download.php/UHJlc2VudGFjaW9uZXMvNy5fVGFyZWFzX2RlX2xhX21pbmVy7WFfZGVfZGF0b3MsX3JlZ2 
xhc19kZV9hc29jaWFjafNuLnBkZg%3D%3D?cidReset=true&cidReq=CI2352
Descubriendo conocimiento 
3) Minería de relaciones (XVIII) 
Patrones secuenciales 
● GSP
Descubriendo conocimiento 
3) Minería de relaciones (XIX) 
Patrones secuenciales 
● GSP
Descubriendo conocimiento 
3) Minería de relaciones (XX) 
Análisis de causalidad 
● Muchas preguntas en la vida diaria requiere la 
identificación y medida de efectos causales 
o ¿El tabaco provoca cáncer? 
o ¿La aspirina reduce el riesgo de infarto? 
o ¿Los cursos de formación para desempleados 
ayudan a encontrar empleo? 
o ¿Cuál es el impacto del salario mínimo sobre el 
empleo? 
o ¿Afectan los subsidios salariales o los impuestos a 
la oferta de trabajo de los individuos?
Descubriendo conocimiento 
3) Minería de relaciones (XXI) 
Análisis de causalidad 
Fuente: http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html 
Fuente: http://avances.idict.cu/avances/article/view/26/46
Descubriendo conocimiento 
3) Minería de relaciones (XXII) 
Análisis de causalidad 
● Podemos medir la correlación estadística, pero esta 
no implica que exista causalidad 
● Para ello, se utiliza el análisis experimental 
o Nos permite estudiar la existencia de causalidad 
Fuente: http://www.datuopinion.com/estudio-experimental
Descubriendo conocimiento 
3) Minería de relaciones (XXIII) 
Análisis de causalidad 
● Se evalúa el efecto de un factor experimental (X) 
sobre un fenómeno (Y) 
o Se evalúa la relación: Y = f(x) 
● El método incluye por necesidad la observación, pero 
no es una observación simple o directa 
o Puede o no utilizar técnicas estadísticas para 
aleatorizar o poder hacer pruebas de hipótesis 
● La metodología experimental a nivel social ha sido 
criticada por razones de factibilidad y/o por razones 
éticas
Descubriendo conocimiento 
3) Minería de relaciones (XXIV) 
Análisis de causalidad 
● El modelo científico para el estudio de las relaciones 
de causa y efecto es el experimento controlado 
o Se comparan las respuestas de un grupo 
experimental expuesto al estímulo crucial con los 
de un grupo de control equivalente que no es 
sometido al estímulo
Descubriendo conocimiento 
3) Minería de relaciones (XXV) 
Análisis de causalidad 
Grupo 
experimental 
Grupo de control 
Momento 1 X1 W1 
Exposición al 
estímulo E 
Sin exposición al 
estímulo E 
Momento 2 X2 W2
Descubriendo conocimiento 
3) Minería de relaciones (XXVI) 
Análisis de causalidad 
● Efecto del Estímulo = (X1 -W1) - (X2 -W2) 
● Si los dos grupos fueron adecuadamente igualados 
antes de la aplicación del estímulo, la medida del 
efecto se simplifica: X1 = W1 
● Y el efecto del estímulo se reduce a: X2 = W2
Descubriendo conocimiento 
3) Minería de relaciones (XXVII) 
Análisis de causalidad
Procesamiento datos ETL 
Aplicaciones para Tenzing 
Actividad BI.02.4. Minería de relaciones 
● Pensar 2 o 3 casos de uso 
● Implementar sobre WEKA a partir de los datos 
normalizados de Pentaho 
● Interpretar las conclusiones 
● Pensar representación 
● Presentar conclusiones
Descubriendo conocimiento 
Marketing Analytics 
Source: https://media.licdn.com/mpr/mpr/p/2/000/268/1b5/21f35eb.jpg
Descubriendo conocimiento 
Marketing Analytics (II) 
● MROI: Marketing Return on Investment 
o McKinsey review: an integrated analytics approach 
could save up to 15-20% total budget 
 That’s $ 200.000.000.000 worlwide 
Source: http://www.thecmosite.com/author.asp?section_id=1137&doc_id=234474
Descubriendo conocimiento 
Marketing Analytics (III) 
Source: http://www.marketingsherpa.com/charts/roi020409-1.gif
Descubriendo conocimiento 
Marketing Analytics (IV) 
1)Marketing-Mix Modeling (MMM) 
● Big Data to determine the effectiveness of spending by 
channel 
Marketing 
investments 
● Include external variables such as seasonality, and 
competitor and promotional activities to uncover 
o Longitudinal effects: changes individuals and 
segments over time 
o Interaction effects: differences among offline, online 
and Social Media activities 
Marketing 
investments 
Statistical 
links
Descubriendo conocimiento 
Marketing Analytics (V) 
2) Heuristich RCQ (Reach; Cost; Quality) 
● Disaggregate touchpoints into its component paths 
o target consumer Reached 
o Cost per unique touch 
o Quality of engagement 
● More limited; but the best one when limited 
data is available
Descubriendo conocimiento 
Marketing Analytics (VI) 
3) Attribution modeling 
● Set of rules or algorithms that govern how credit for 
converting traffic to sales is assigned to online 
touchpoints 
o Email campaign 
o Online ad 
o Social-networking feed 
o Website 
● Statistical modeling regression techniques
Índice de contenidos 
● Modelo de datos 
● Dimensiones de datos 
● Procesamiento de datos en un ETL 
● Técnicas de descubrimiento de conocimiento 
● Text mining 
● Análisis de Redes Sociales
Text mining 
Introducción 
● Estudios recientes indican que, de media, el 
80% de la información de una empresa está 
almacenada en forma de documentos 
o Sin duda, este campo de estudio es muy amplio, por lo 
que técnicas como la categorización de texto, el 
procesamiento de lenguaje natural, la extracción y 
recuperación de la información o el aprendizaje 
automática, entre otras, apoyan el text mining (o 
minería de texto)
Text mining 
Introducción (II) 
● En ocasiones se confunde el text mining con la 
recuperación de la información (Information 
Retrieval, IR) [Hearst, 1999] 
o Esta última, no obstante, consiste en la reacuperación 
automática de documentos relevantes mediante 
indexaciones de textos, clasificación, categorización, 
etc. 
o Generalmente se utilizan palabras clave para 
encontrar una página relevante 
o En cambio, el text mining se refiere a una examinar 
uan colección de documentos y descubrir información 
no contenida en ningún documento individual 
[Nasukawa, 2001]
Text mining 
¿Por qué? 
● Hay una enorme cantidad de información en 
texto 
o Aparte de los libros, periódicos y enciclopedias en 
Internet, se generan enormes cantidades de 
información textual 
Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html
Text mining 
Pasos 
1) Obtención y 
agrupación Texto 
2) Pre 
procesamiento 
3) Generación de 
atributos 
4) Selección de 
atributos 
5) Minería de 
datos 
6) Interpretación 
y evaluación
Text mining 
Pasos: 1) Obtención y agrupación del texto 
● Los textos se encuentran en documentos 
dispersos como páginas web, informes, 
actualizaciones de status, etc. 
● El primer paso, así, consiste en la obtención de 
estos datos y su agrupamiento para comenzar 
a trabajar
Text mining 
Pasos: 2) Pre-procesamiento 
● Eliminar el ruido 
o Texto deliberadamente equivocado (SPAM) 
o Textos ambiguos 
o Texto erróneo 
o Palabras que no tienen poder discriminatorio (STOP 
WORDS) 
o Ruido en el formato (tags, links) 
o Multiplicidad de idiomas 
o Sinónimos, palabras con varios significados 
o Frases típicas
Text mining 
Pasos: 2) Pre-procesamiento (II)
Text mining 
Pasos: 2) Pre-procesamiento (III) 
● Convertir el documento en un vector de 
palabras: tokenization 
Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/
Text mining 
Pasos: 2) Pre-procesamiento (IV) 
● Con WEKA: 
o Se puede importar los datos en CSV 
o Hay que eliminar los caracteres: , ; : “ ‘ % () 
o Aplicar primero el filtro NominalToString 
o Aplicar el filtro StringToWordDetector
Text mining 
Pasos: 3) Generación de atributos 
● Representación del texto 
o Bag of Words 
Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification
Text mining 
Pasos: 3) Generación de atributos (II) 
● Representación del texto 
o Bag of Words 
Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model
Text mining 
Pasos: 4) Selección de atributos 
● ¿Qué palabras tienen la mejor capacidad 
discriminatoria? 
● Se puede usar un clasificador 
o Latent Semantic Analysis 
 Es una teoría y un método para extraer y 
representar el significado de las palabras dentro de 
un contexto utilizando técnicas estadísticas sobre 
un cuerpo de texto grande
Text mining 
Pasos: 4) Selección de atributos (II) 
● En WEKA 
o Ir a “Select attributes” 
o Seleccionar “Latent Semantic Analysis” 
o Start 
o Guardar el nuevo dataset
Text mining 
Pasos: 5) Minería de datos 
● Se puede usar cualquiera de las técnicas vistas 
en el apartado de descubrimiento de 
conocimiento 
o Clasificación 
o Descubrimiento estructuras 
o Reglas de asociación
Text mining 
Pasos: 6)Interpretación y evaluación 
● Interpretar 
o Descubrimiento estructuras 
● Evaluar los resultados 
o Clasificación 
o Reglas de asociación 
● Sacar conclusiones o iterar sobre los pasos 
anteriores
Text mining 
Herramientas
Text mining 
Herramientas (II)
Text mining 
Aplicaciones para Tenzing
Procesamiento datos ETL 
Aplicaciones para Tenzing 
Actividad BI.02.5. Text Mining 
● Pensar 2 o 3 casos de uso 
● Implementar sobre Pentaho + Alchemy + 
OpenCalais a partir de los datos normalizados 
de Pentaho 
● Interpretar las conclusiones 
● Pensar representación 
● Presentar conclusiones
Índice de contenidos 
● Dimensiones de datos 
● Modelo de datos 
● Procesamiento de datos en un ETL 
● Técnicas de descubrimiento de conocimiento 
● Text mining 
● Análisis Redes Sociales
Análisis Redes Sociales 
¿Qué es? 
● NO es solo Análisis de Social Media 
o Puede ser parte 
● Sociología + Matemáticas 
o Actores que interactúan 
o Teoría de Grafos 
● Estudio numérico y representación gráfica
Análisis Redes Sociales 
¿Qué es? (II) 
Fuente: http://www.soc.duke.edu/~jmoody77/chains.pdf
Análisis Redes Sociales 
¿Qué se estudia? 
● Redes egocéntricas 
o Actor principal con sus relaciones, hasta el grado n 
(“amigos de amigos de amigos”) 
● Redes completas 
o Número de nodos determinado por una característica 
concreta: son los que son (UE) 
● Grandes redes 
o Redes con muchos nodos en las que en general el 
investigador corta el límite
Análisis Redes Sociales 
Elementos 
● Actores 
o Los nodos de la red no tienen por qué ser 
necesariamente personas, pueden ser países, o incluso 
actividades 
o Depende de lo que se esté investigando 
● Vínculos 
o Los vínculos que unen a los actores se definen por sus 
propiedades o características de la relación
Análisis Redes Sociales 
Elementos (II) 
Fuente: http://www.economiapersonal.com.ar/2014/06/14/red-social/
Análisis Redes Sociales 
Características 
● Basado en relaciones y vínculos entre 
actores 
● Recogida sistemática de datos empíricos del 
tipo de relación estudiada entre cada par de 
actores 
o Representado por gráficos 
● Se apoya en el uso de las matemáticas, 
principalmente la teoría matemática de grafos 
y/o en modelos informáticos
Análisis Redes Sociales 
Teoría de Grafos 
● Surge en el siglo XVIII con Euler (1707-1803) 
o El problema de los puentes de Konigsberg 
● Resolución de problemas que pueden ser 
modelados mediante un grafo y resueltos 
mediante algoritmos específicamente 
desarrollados para un grafo 
Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo
Análisis Redes Sociales 
Teoría de Grafos (II) 
● La historia del metro de Londres tiene mucha 
relación con la Teoría de Grafos 
o Más concretamente, con la Inmersión de Grafos 
(Graph Drawing) 
o Permite explicar de forma sencilla la 
representación (inmersión) de un grafo 
● Para un mismo conjunto de vértices y una misma 
lista de conexiones entre ellos, puede haber 
trazados con o sin cruces entre las líneas. 
● Depende del dibujo que se haga del grafo, de la 
inmersión que se elija, se pueden destacar, y por lo 
tanto aprovechar, una característica u otra del grafo
Análisis Redes Sociales 
Teoría de Grafos (III) 
● Los primeros mapas del metro de 
Londres eran geográficos 
o Dibujar sobre un plano de la ciudad 
los recorridos de las distintas líneas 
● Harry Beck, ingeniero electrónico 
empleado en el metro de Londres, se 
percató en 1931 de que al usuario no le 
interesaba conocer el recorrido del 
metro bajo tierra 
o Simplemente le interesaba conocer 
la posición relativa de las líneas y 
estaciones para realizar los 
trasbordos que necesitase 
Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry-beck. 
html
Análisis Redes Sociales 
Teoría de Grafos (IV) 
● Más que un diseño geográfico, resultaría más útil un 
diseño topológico 
o Menos curvas y direcciones en las líneas 
o De broma, hizo su primer diseño basado en los 
utilizados en circuitos eléctricos 
● En 1936, entre otros cambios, eliminó curvas y sólo 
permitió ángulos de 45º y 90º 
● En 1940, se incorporaron ángulos de 60º también, 
idea que se desechó por enturbiar la claridad del 
plano
Análisis Redes Sociales 
Teoría de Grafos (V) 
Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html
Análisis Redes Sociales 
Teoría de Grafos (VI) 
● ¿Por qué? 
o Proporciona vocabulario preciso 
o Herramientas cuantitativas 
● Grafo 
o “Un grafo (G) es un conjunto de vértices o nodos (N) y 
líneas (L) que unen pares de nodos.” 
o Nodos: actores 
 Pueden poseer atributos (sexo, grupo étnico, etc.) 
o Líneas: vínculos 
 Puede haber diferentes tipos/características 
(amistad, influencia) 
 A → B
Análisis Redes Sociales 
Teoría de Grafos (VII) 
Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/
Análisis Redes Sociales 
Teoría de Grafos (VIII) 
● Mediciones: Nodos 
o Adyacencia / Incidencia 
 Dos nodos son adyacentes si están relacionados 
 Una línea y un nodo son incidentes entre sí si el 
nodo es uno de los que definen la línea 
o Grado 
 El grado de un nodo, designado d(n) es el número 
de líneas que son incidentes con él (nodos 
adyacentes)
Análisis Redes Sociales 
Teoría de Grafos (IX) 
● Mediciones: Nodos (cont.) 
o Centralidad 
 La centralidad de un nodo ayuda a dilucidar su 
“importancia” en la red, aunque no la representa 
por completo 
 El grado es una medida de centralidad 
 Distancia media geodésica al resto de nodos: 
cercanía 
 Intermediación: medida de las veces que un nodo 
se interpone entre la distancia geodésica de otros
Análisis Redes Sociales 
Teoría de Grafos (X) 
● Mediciones: Nodos (cont.) 
o Centralidad 
Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/
Análisis Redes Sociales 
Teoría de Grafos (XI) 
● Mediciones: Nodos (cont.) 
o Centralidad
Análisis Redes Sociales 
Teoría de Grafos (XII) 
● Mediciones: Nodos (cont.) 
o Centralidad
Análisis Redes Sociales 
Teoría de Grafos (XIII) 
● Mediciones: Nodos (cont.) 
o Centralidad 
Fuente: http://slideplayer.es/slide/19335/
Análisis Redes Sociales 
Teoría de Grafos (XIV) 
● Mediciones: Nodos (cont.)
Análisis Redes Sociales 
Teoría de Grafos (XV) 
● Mediciones: Nodos (cont.) 
o Caminos 
 Un camino es una ruta que une dos nodos pasando 
por otros. 
 Hay diferentes tipos de caminos 
● walk 
● trail: walk en el que todas las líneas son distintas 
● path: trail que no repite nodos 
● semipath: en un grafo dirigido, path que ignora el sentido de 
las uniones
Análisis Redes Sociales 
Teoría de Grafos (XVI) 
● Mediciones: Nodos (cont.) 
o Caminos 
Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/
Análisis Redes Sociales 
Teoría de Grafos (XVII) 
● GPS Data on Beijing Cabs Reveals 
the Cause of Traffic Jams 
o Investigadores de la Microsoft 
Research Asia han dividido la ciudad 
en regiones (figura contigua), 
analizando cómo los taxis se mueven a 
través de ellas 
o Si se puede tomar un camino directo 
entrea A y B, y un taxista toma un 
camino alternativa... ¿qué pasa? 
o Algoritmo aplicable a ciudades con 
mucha densidad de taxis (Mexico City, 
Bangkok, Tokyo, New York, Buenos 
Aires y Moscow)
Análisis Redes Sociales 
Teoría de Grafos (XVIII) 
● Mediciones: Nodos (cont.) 
o Conexión 
 Débilmente conectados: semicamino 
 Unilateralmente conectados 
● Path de a a b pero no a la inversa 
 Fuertemente conectados: unilateralmente 
conectados en ambos sentidos 
 Recursivamente conectados: orden de nodos 
idéntico pero inverso
Análisis Redes Sociales 
Teoría de Grafos (XIX) 
● Mediciones: Nodos (cont.) 
o Distancia geodésica 
 Longitud del path más corto entre dos nodos 
 Si no son alcanzables entre sí, infinita o idefinida 
Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL
Análisis Redes Sociales 
Teoría de Grafos (XX) 
● Mediciones: Grafo 
o Densidad 
 Proporción entre líneas existentes y líneas posibles 
 Líneas posibles 
● Grafo no orientado: g (g-1) / 2 
● Grafo orientado: g (g-1) 
o Subgrafo 
 Un grafo G2 es subgrafo de G1 si G1 contiene G2
Análisis Redes Sociales 
Teoría de Grafos (XXI) 
● Mediciones: Grafo 
o Densidad
Análisis Redes Sociales 
Teoría de Grafos (XXII) 
● Mediciones: Grafo 
o Diámetro 
 Distancia geodésica más alta entre dos nodos 
o Punto de corte 
 Nodo que, al eliminarlo rompe el grafo
Análisis Redes Sociales 
Teoría de Grafos (XXIII) 
● Representación de los datos 
o Matriz de adyacencia 
o Lista de aristas 
o Lista de adyacencia
Análisis Redes Sociales 
Teoría de Grafos (XXIV) 
● Matriz de adyacencia
Análisis Redes Sociales 
Teoría de Grafos (XXV) 
● Lista de aristas 
o 2, 3 
o 2, 4 
o 3, 2 
o 3, 4 
o 4, 5 
o 5, 2 
o 5, 1
Análisis Redes Sociales 
Teoría de Grafos (XXVI) 
● Lista de adyacencia 
o Más útiles para redes poco 
densas o grandes 
o Lista: 
 1: 
 2: 3 4 
 3: 2 4 
 4: 5 
 5: 1 2
Análisis Redes Sociales 
Teoría de Grafos (XXVII) 
● Software 
o NodeXL 
o Gephi 
o R / Python
Análisis Redes Sociales 
Aplicaciones para Tenzing 
Actividad BI.02.6. Análisis Redes Sociales 
● Pensar 2 o 3 casos de uso 
● Implementar sobre Gephi a partir de los datos 
normalizados de Pentaho 
● Interpretar las conclusiones 
● Pensar representación 
● Presentar conclusiones
Análisis Redes Sociales 
Aplicaciones para Tenzing
Análisis Redes Sociales 
Aplicaciones para Tenzing (II)
El proceso de análisis y 
explotación de datos en 
proyectos de Business 
Intelligence 
Módulo 02: Análisis y procesamiento de datos para 
descubrir conocimiento 
Alex Rayón Jerez 
alex.rayon@urbegi.com 
Octubre, 2014

Más contenido relacionado

Destacado

Tema 13 conocimiento del medio irene power
Tema 13 conocimiento del medio irene powerTema 13 conocimiento del medio irene power
Tema 13 conocimiento del medio irene power2003judo
 
Inteligencia de negocios Mapa conceptual unidad_ii chaparro
Inteligencia de negocios Mapa conceptual unidad_ii chaparroInteligencia de negocios Mapa conceptual unidad_ii chaparro
Inteligencia de negocios Mapa conceptual unidad_ii chaparromarisolzavalaflores
 
Romanticismo
RomanticismoRomanticismo
Romanticismomcruz
 
Teorias Educativas
Teorias EducativasTeorias Educativas
Teorias Educativasguest21e113
 
Origen De La Informatica
Origen De La InformaticaOrigen De La Informatica
Origen De La Informaticaerika castro
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datosSaulen Taicho
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datoslady
 
Encuesta tecnologias de la educación
Encuesta tecnologias de la educaciónEncuesta tecnologias de la educación
Encuesta tecnologias de la educaciónluisita23
 
Las Tres Teorias Educativas
Las Tres Teorias EducativasLas Tres Teorias Educativas
Las Tres Teorias Educativasguestb227cf
 
Breve resumen de la historia de la informática
Breve resumen de la historia de la informáticaBreve resumen de la historia de la informática
Breve resumen de la historia de la informáticamaamaa
 
Pedagogía humanística, pensamienro de carl rogers
Pedagogía humanística, pensamienro de carl rogersPedagogía humanística, pensamienro de carl rogers
Pedagogía humanística, pensamienro de carl rogersricardow111
 
Solucionario Montgomery Probabilidad y Estadistica Seguna Edicion 2da
Solucionario Montgomery Probabilidad y Estadistica Seguna Edicion 2daSolucionario Montgomery Probabilidad y Estadistica Seguna Edicion 2da
Solucionario Montgomery Probabilidad y Estadistica Seguna Edicion 2daCésar Alejandro
 
Historia de la computadora
Historia de la computadoraHistoria de la computadora
Historia de la computadoramarodi
 
Teoria De La Educacion
Teoria De La EducacionTeoria De La Educacion
Teoria De La Educacionprojv
 
Historia De La Computadora
Historia De La ComputadoraHistoria De La Computadora
Historia De La ComputadoraElizabeth Díaz
 
Presentacion Conductismo Psicologia Skinner
Presentacion Conductismo Psicologia SkinnerPresentacion Conductismo Psicologia Skinner
Presentacion Conductismo Psicologia Skinnerleyaflor
 
Modelo de educación personalizada de Carl Rogers
Modelo de educación personalizada de Carl RogersModelo de educación personalizada de Carl Rogers
Modelo de educación personalizada de Carl RogersCarlos Sanchez
 

Destacado (20)

Tema 13 conocimiento del medio irene power
Tema 13 conocimiento del medio irene powerTema 13 conocimiento del medio irene power
Tema 13 conocimiento del medio irene power
 
Inteligencia de negocios Mapa conceptual unidad_ii chaparro
Inteligencia de negocios Mapa conceptual unidad_ii chaparroInteligencia de negocios Mapa conceptual unidad_ii chaparro
Inteligencia de negocios Mapa conceptual unidad_ii chaparro
 
Romanticismo
RomanticismoRomanticismo
Romanticismo
 
Teorias Educativas
Teorias EducativasTeorias Educativas
Teorias Educativas
 
Origen De La Informatica
Origen De La InformaticaOrigen De La Informatica
Origen De La Informatica
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datos
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datos
 
Encuesta tecnologias de la educación
Encuesta tecnologias de la educaciónEncuesta tecnologias de la educación
Encuesta tecnologias de la educación
 
Las Tres Teorias Educativas
Las Tres Teorias EducativasLas Tres Teorias Educativas
Las Tres Teorias Educativas
 
Teoria de la educación
Teoria de la educaciónTeoria de la educación
Teoria de la educación
 
Breve resumen de la historia de la informática
Breve resumen de la historia de la informáticaBreve resumen de la historia de la informática
Breve resumen de la historia de la informática
 
Pedagogía humanística, pensamienro de carl rogers
Pedagogía humanística, pensamienro de carl rogersPedagogía humanística, pensamienro de carl rogers
Pedagogía humanística, pensamienro de carl rogers
 
Solucionario Montgomery Probabilidad y Estadistica Seguna Edicion 2da
Solucionario Montgomery Probabilidad y Estadistica Seguna Edicion 2daSolucionario Montgomery Probabilidad y Estadistica Seguna Edicion 2da
Solucionario Montgomery Probabilidad y Estadistica Seguna Edicion 2da
 
Teorías educativas
Teorías educativasTeorías educativas
Teorías educativas
 
Historia de la computadora
Historia de la computadoraHistoria de la computadora
Historia de la computadora
 
Teoria De La Educacion
Teoria De La EducacionTeoria De La Educacion
Teoria De La Educacion
 
Historia De La Computadora
Historia De La ComputadoraHistoria De La Computadora
Historia De La Computadora
 
Procesamiento de datos
Procesamiento de datosProcesamiento de datos
Procesamiento de datos
 
Presentacion Conductismo Psicologia Skinner
Presentacion Conductismo Psicologia SkinnerPresentacion Conductismo Psicologia Skinner
Presentacion Conductismo Psicologia Skinner
 
Modelo de educación personalizada de Carl Rogers
Modelo de educación personalizada de Carl RogersModelo de educación personalizada de Carl Rogers
Modelo de educación personalizada de Carl Rogers
 

Similar a Análisis y procesamiento de datos para descubrir conocimiento

Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. GustavoMartin46
 
Laboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datosLaboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datosSoftware Guru
 
Modelos para la gestión de datos
Modelos para la gestión de datosModelos para la gestión de datos
Modelos para la gestión de datosMaria Garcia
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Pedro Contreras Flores
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistCarlos Toxtli
 
La integración de información en las herramientas de Business Intelligence
La integración de información en las herramientas de Business IntelligenceLa integración de información en las herramientas de Business Intelligence
La integración de información en las herramientas de Business IntelligenceJesús Tramullas
 
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosAlex Rayón Jerez
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big DataStratebi
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesDeysi Hdz
 
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosDeustoTech Learning
 
Seminario sobre Business Intelligence
Seminario sobre Business IntelligenceSeminario sobre Business Intelligence
Seminario sobre Business IntelligenceKatalina Ms
 
Gestión de datos: 5 tendencias para lograr el cambio
Gestión de datos: 5 tendencias para lograr el cambioGestión de datos: 5 tendencias para lograr el cambio
Gestión de datos: 5 tendencias para lograr el cambioDenodo
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------RubnGarcs2
 
Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011EDUTIC
 
Analisis services
Analisis servicesAnalisis services
Analisis servicesIrene Lorza
 

Similar a Análisis y procesamiento de datos para descubrir conocimiento (20)

Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero. Cómo construir tu propia data platform. From zero to hero.
Cómo construir tu propia data platform. From zero to hero.
 
Laboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datosLaboratorio práctico: La sazón del científico de datos
Laboratorio práctico: La sazón del científico de datos
 
Modelos para la gestión de datos
Modelos para la gestión de datosModelos para la gestión de datos
Modelos para la gestión de datos
 
Business intelligence (bi) y big data0
Business intelligence (bi) y big data0Business intelligence (bi) y big data0
Business intelligence (bi) y big data0
 
Introducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientistIntroducción a data science, la guía práctica para volverse data scientist
Introducción a data science, la guía práctica para volverse data scientist
 
La integración de información en las herramientas de Business Intelligence
La integración de información en las herramientas de Business IntelligenceLa integración de información en las herramientas de Business Intelligence
La integración de información en las herramientas de Business Intelligence
 
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
 
Almacenes de datos
Almacenes de datosAlmacenes de datos
Almacenes de datos
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Unidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De DesicionesUnidad2 Bases De Datos Para L Toma De Desiciones
Unidad2 Bases De Datos Para L Toma De Desiciones
 
Mineria de datos
Mineria de datosMineria de datos
Mineria de datos
 
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativosMejorando la calidad y el ciclo de vida de los datos en proyectos educativos
Mejorando la calidad y el ciclo de vida de los datos en proyectos educativos
 
Seminario sobre Business Intelligence
Seminario sobre Business IntelligenceSeminario sobre Business Intelligence
Seminario sobre Business Intelligence
 
Gestión de datos: 5 tendencias para lograr el cambio
Gestión de datos: 5 tendencias para lograr el cambioGestión de datos: 5 tendencias para lograr el cambio
Gestión de datos: 5 tendencias para lograr el cambio
 
introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------introduccion-al-analisis-de-datos--------
introduccion-al-analisis-de-datos--------
 
PlataformasIA
PlataformasIAPlataformasIA
PlataformasIA
 
Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011Universidad de Concepción - EDUTIC 2011
Universidad de Concepción - EDUTIC 2011
 
Analisis services
Analisis servicesAnalisis services
Analisis services
 
Cuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utplCuestiones de repaso_cap_31_utpl
Cuestiones de repaso_cap_31_utpl
 

Más de Alex Rayón Jerez

El Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceEl Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceAlex Rayón Jerez
 
Herramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructuradosHerramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructuradosAlex Rayón Jerez
 
Las competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricasLas competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricasAlex Rayón Jerez
 
El Big Data en mi empresa ¿de qué me sirve?
El Big Data en mi empresa  ¿de qué me sirve?El Big Data en mi empresa  ¿de qué me sirve?
El Big Data en mi empresa ¿de qué me sirve?Alex Rayón Jerez
 
Aplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresaAplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresaAlex Rayón Jerez
 
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text MiningAnálisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text MiningAlex Rayón Jerez
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataAlex Rayón Jerez
 
Customer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big DataCustomer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big DataAlex Rayón Jerez
 
La economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidadesLa economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidadesAlex Rayón Jerez
 
Cómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big DataCómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big DataAlex Rayón Jerez
 
El poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero éticaEl poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero éticaAlex Rayón Jerez
 
Búsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizajeBúsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizajeAlex Rayón Jerez
 
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...Alex Rayón Jerez
 
Fomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas socialesFomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas socialesAlex Rayón Jerez
 
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...Alex Rayón Jerez
 
Marketing intelligence: Optimizando la estrategia a través del Big Data
Marketing intelligence: Optimizando la estrategia a través del Big DataMarketing intelligence: Optimizando la estrategia a través del Big Data
Marketing intelligence: Optimizando la estrategia a través del Big DataAlex Rayón Jerez
 
Profesiones de mañana para trabajar hoy
Profesiones de mañana para trabajar hoyProfesiones de mañana para trabajar hoy
Profesiones de mañana para trabajar hoyAlex Rayón Jerez
 
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Alex Rayón Jerez
 
Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...
Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...
Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...Alex Rayón Jerez
 
Yo como persona emprendedora
Yo como persona emprendedoraYo como persona emprendedora
Yo como persona emprendedoraAlex Rayón Jerez
 

Más de Alex Rayón Jerez (20)

El Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceEl Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligence
 
Herramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructuradosHerramientas y metodologías Big Data para acceder a datos no estructurados
Herramientas y metodologías Big Data para acceder a datos no estructurados
 
Las competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricasLas competencias digitales como método de observación de competencias genéricas
Las competencias digitales como método de observación de competencias genéricas
 
El Big Data en mi empresa ¿de qué me sirve?
El Big Data en mi empresa  ¿de qué me sirve?El Big Data en mi empresa  ¿de qué me sirve?
El Big Data en mi empresa ¿de qué me sirve?
 
Aplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresaAplicación del Big Data a la mejora de la competitividad de la empresa
Aplicación del Big Data a la mejora de la competitividad de la empresa
 
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text MiningAnálisis de Redes Sociales (Social Network Analysis) y Text Mining
Análisis de Redes Sociales (Social Network Analysis) y Text Mining
 
Modelos de propensión en la era del Big Data
Modelos de propensión en la era del Big DataModelos de propensión en la era del Big Data
Modelos de propensión en la era del Big Data
 
Customer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big DataCustomer Lifetime Value Management con Big Data
Customer Lifetime Value Management con Big Data
 
La economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidadesLa economía del dato: transformando sectores, generando oportunidades
La economía del dato: transformando sectores, generando oportunidades
 
Cómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big DataCómo crecer, ser más eficiente y competitivo a través del Big Data
Cómo crecer, ser más eficiente y competitivo a través del Big Data
 
El poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero éticaEl poder de los datos: hacia una sociedad inteligente, pero ética
El poder de los datos: hacia una sociedad inteligente, pero ética
 
Búsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizajeBúsqueda, organización y presentación de recursos de aprendizaje
Búsqueda, organización y presentación de recursos de aprendizaje
 
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
Deusto Knowledge Hub como herramienta de publicación y descubrimiento de cono...
 
Fomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas socialesFomentando la colaboración en el aula a través de herramientas sociales
Fomentando la colaboración en el aula a través de herramientas sociales
 
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
Utilizando Google Drive y Google Docs en el aula para trabajar con mis estudi...
 
Marketing intelligence: Optimizando la estrategia a través del Big Data
Marketing intelligence: Optimizando la estrategia a través del Big DataMarketing intelligence: Optimizando la estrategia a través del Big Data
Marketing intelligence: Optimizando la estrategia a través del Big Data
 
Profesiones de mañana para trabajar hoy
Profesiones de mañana para trabajar hoyProfesiones de mañana para trabajar hoy
Profesiones de mañana para trabajar hoy
 
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
Pentaho Data Integration: Extrayendo, integrando, normalizando y preparando m...
 
Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...
Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...
Métricas de marketing intelligence: midiendo y evaluando para mejorar el mark...
 
Yo como persona emprendedora
Yo como persona emprendedoraYo como persona emprendedora
Yo como persona emprendedora
 

Último

Buenas Practicas de Almacenamiento en droguerias
Buenas Practicas de Almacenamiento en drogueriasBuenas Practicas de Almacenamiento en droguerias
Buenas Practicas de Almacenamiento en drogueriasmaicholfc
 
ISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarizaciónISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarizaciónjesuscub33
 
Presentacion III ACTIVIDADES DE CONTROL. IV UNIDAD..pdf
Presentacion III ACTIVIDADES DE CONTROL. IV UNIDAD..pdfPresentacion III ACTIVIDADES DE CONTROL. IV UNIDAD..pdf
Presentacion III ACTIVIDADES DE CONTROL. IV UNIDAD..pdfLuisAlbertoAlvaradoF2
 
MARKETING SENSORIAL CONTENIDO, KARLA JANETH
MARKETING SENSORIAL CONTENIDO, KARLA JANETHMARKETING SENSORIAL CONTENIDO, KARLA JANETH
MARKETING SENSORIAL CONTENIDO, KARLA JANETHkarlinda198328
 
Efectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptxEfectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptxCONSTRUCTORAEINVERSI3
 
LIC-ZIEGLER-Planificación y Control de Gestión
LIC-ZIEGLER-Planificación y Control de GestiónLIC-ZIEGLER-Planificación y Control de Gestión
LIC-ZIEGLER-Planificación y Control de GestiónBahamondesOscar
 
gua de docente para el curso de finanzas
gua de docente para el curso de finanzasgua de docente para el curso de finanzas
gua de docente para el curso de finanzassuperamigo2014
 
Ejemplo Caso: El Juego de la negociación
Ejemplo Caso: El Juego de la negociaciónEjemplo Caso: El Juego de la negociación
Ejemplo Caso: El Juego de la negociaciónlicmarinaglez
 
Nota de clase 72 aspectos sobre salario, nomina y parafiscales.pdf
Nota de clase 72 aspectos sobre salario, nomina y parafiscales.pdfNota de clase 72 aspectos sobre salario, nomina y parafiscales.pdf
Nota de clase 72 aspectos sobre salario, nomina y parafiscales.pdfJUANMANUELLOPEZPEREZ
 
Presentación Final Riesgo de Crédito.pptx
Presentación Final Riesgo de Crédito.pptxPresentación Final Riesgo de Crédito.pptx
Presentación Final Riesgo de Crédito.pptxIvnAndres5
 
cuadro sinoptico tipos de organizaci.pdf
cuadro sinoptico tipos de organizaci.pdfcuadro sinoptico tipos de organizaci.pdf
cuadro sinoptico tipos de organizaci.pdfjesuseleazarcenuh
 
Gestion de rendicion de cuentas viaticos.pptx
Gestion de rendicion de cuentas viaticos.pptxGestion de rendicion de cuentas viaticos.pptx
Gestion de rendicion de cuentas viaticos.pptxignaciomiguel162
 
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfClima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfConstructiva
 
EGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptxEGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptxDr. Edwin Hernandez
 
Plan General de Contabilidad Y PYMES pdf
Plan General de Contabilidad Y PYMES pdfPlan General de Contabilidad Y PYMES pdf
Plan General de Contabilidad Y PYMES pdfdanilojaviersantiago
 
instrumentos de mercados financieros para estudiantes
instrumentos de mercados financieros  para estudiantesinstrumentos de mercados financieros  para estudiantes
instrumentos de mercados financieros para estudiantessuperamigo2014
 
diseño de redes en la cadena de suministro.pptx
diseño de redes en la cadena de suministro.pptxdiseño de redes en la cadena de suministro.pptx
diseño de redes en la cadena de suministro.pptxjuanleivagdf
 
ANÁLISIS CAME, DIAGNOSTICO PUERTO DEL CALLAO
ANÁLISIS CAME, DIAGNOSTICO  PUERTO DEL CALLAOANÁLISIS CAME, DIAGNOSTICO  PUERTO DEL CALLAO
ANÁLISIS CAME, DIAGNOSTICO PUERTO DEL CALLAOCarlosAlbertoVillafu3
 
CULTURA EN LA NEGOCIACIÓN CONCEPTOS Y DEFINICIONES
CULTURA EN LA NEGOCIACIÓN CONCEPTOS Y DEFINICIONESCULTURA EN LA NEGOCIACIÓN CONCEPTOS Y DEFINICIONES
CULTURA EN LA NEGOCIACIÓN CONCEPTOS Y DEFINICIONESMarielaAldanaMoscoso
 
INTERESES Y MULTAS DEL IMPUESTO A LA RENTA POWER POINT.pptx
INTERESES Y MULTAS DEL IMPUESTO A LA RENTA POWER POINT.pptxINTERESES Y MULTAS DEL IMPUESTO A LA RENTA POWER POINT.pptx
INTERESES Y MULTAS DEL IMPUESTO A LA RENTA POWER POINT.pptxRENANRODRIGORAMIREZR
 

Último (20)

Buenas Practicas de Almacenamiento en droguerias
Buenas Practicas de Almacenamiento en drogueriasBuenas Practicas de Almacenamiento en droguerias
Buenas Practicas de Almacenamiento en droguerias
 
ISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarizaciónISO 45001-2018.pdf norma internacional para la estandarización
ISO 45001-2018.pdf norma internacional para la estandarización
 
Presentacion III ACTIVIDADES DE CONTROL. IV UNIDAD..pdf
Presentacion III ACTIVIDADES DE CONTROL. IV UNIDAD..pdfPresentacion III ACTIVIDADES DE CONTROL. IV UNIDAD..pdf
Presentacion III ACTIVIDADES DE CONTROL. IV UNIDAD..pdf
 
MARKETING SENSORIAL CONTENIDO, KARLA JANETH
MARKETING SENSORIAL CONTENIDO, KARLA JANETHMARKETING SENSORIAL CONTENIDO, KARLA JANETH
MARKETING SENSORIAL CONTENIDO, KARLA JANETH
 
Efectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptxEfectos del cambio climatico en huanuco.pptx
Efectos del cambio climatico en huanuco.pptx
 
LIC-ZIEGLER-Planificación y Control de Gestión
LIC-ZIEGLER-Planificación y Control de GestiónLIC-ZIEGLER-Planificación y Control de Gestión
LIC-ZIEGLER-Planificación y Control de Gestión
 
gua de docente para el curso de finanzas
gua de docente para el curso de finanzasgua de docente para el curso de finanzas
gua de docente para el curso de finanzas
 
Ejemplo Caso: El Juego de la negociación
Ejemplo Caso: El Juego de la negociaciónEjemplo Caso: El Juego de la negociación
Ejemplo Caso: El Juego de la negociación
 
Nota de clase 72 aspectos sobre salario, nomina y parafiscales.pdf
Nota de clase 72 aspectos sobre salario, nomina y parafiscales.pdfNota de clase 72 aspectos sobre salario, nomina y parafiscales.pdf
Nota de clase 72 aspectos sobre salario, nomina y parafiscales.pdf
 
Presentación Final Riesgo de Crédito.pptx
Presentación Final Riesgo de Crédito.pptxPresentación Final Riesgo de Crédito.pptx
Presentación Final Riesgo de Crédito.pptx
 
cuadro sinoptico tipos de organizaci.pdf
cuadro sinoptico tipos de organizaci.pdfcuadro sinoptico tipos de organizaci.pdf
cuadro sinoptico tipos de organizaci.pdf
 
Gestion de rendicion de cuentas viaticos.pptx
Gestion de rendicion de cuentas viaticos.pptxGestion de rendicion de cuentas viaticos.pptx
Gestion de rendicion de cuentas viaticos.pptx
 
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdfClima-laboral-estrategias-de-medicion-e-book-1.pdf
Clima-laboral-estrategias-de-medicion-e-book-1.pdf
 
EGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptxEGLA CORP - Honduras Abril 27 , 2024.pptx
EGLA CORP - Honduras Abril 27 , 2024.pptx
 
Plan General de Contabilidad Y PYMES pdf
Plan General de Contabilidad Y PYMES pdfPlan General de Contabilidad Y PYMES pdf
Plan General de Contabilidad Y PYMES pdf
 
instrumentos de mercados financieros para estudiantes
instrumentos de mercados financieros  para estudiantesinstrumentos de mercados financieros  para estudiantes
instrumentos de mercados financieros para estudiantes
 
diseño de redes en la cadena de suministro.pptx
diseño de redes en la cadena de suministro.pptxdiseño de redes en la cadena de suministro.pptx
diseño de redes en la cadena de suministro.pptx
 
ANÁLISIS CAME, DIAGNOSTICO PUERTO DEL CALLAO
ANÁLISIS CAME, DIAGNOSTICO  PUERTO DEL CALLAOANÁLISIS CAME, DIAGNOSTICO  PUERTO DEL CALLAO
ANÁLISIS CAME, DIAGNOSTICO PUERTO DEL CALLAO
 
CULTURA EN LA NEGOCIACIÓN CONCEPTOS Y DEFINICIONES
CULTURA EN LA NEGOCIACIÓN CONCEPTOS Y DEFINICIONESCULTURA EN LA NEGOCIACIÓN CONCEPTOS Y DEFINICIONES
CULTURA EN LA NEGOCIACIÓN CONCEPTOS Y DEFINICIONES
 
INTERESES Y MULTAS DEL IMPUESTO A LA RENTA POWER POINT.pptx
INTERESES Y MULTAS DEL IMPUESTO A LA RENTA POWER POINT.pptxINTERESES Y MULTAS DEL IMPUESTO A LA RENTA POWER POINT.pptx
INTERESES Y MULTAS DEL IMPUESTO A LA RENTA POWER POINT.pptx
 

Análisis y procesamiento de datos para descubrir conocimiento

  • 1. El proceso de análisis y explotación de datos en proyectos de Business Intelligence Módulo 02: Análisis y procesamiento de datos para descubrir conocimiento Alex Rayón Jerez alex.rayon@urbegi.com Octubre, 2014
  • 2. ¿Que hemos visto hasta ahora?
  • 3. Índice de contenidos ● Modelo de datos ● Dimensiones de datos ● Procesamiento de datos en un ETL ● Técnicas de descubrimiento de conocimiento ● Text mining ● Análisis de Rdes Sociales
  • 4. Índice de contenidos ● Modelo de datos ● Dimensiones de datos ● Procesamiento de datos en un ETL ● Técnicas de descubrimiento de conocimiento ● Text mining ● Análisis de Redes Sociales
  • 5. Modelo de datos Introducción 1 2 3 Proceso Modelo Plataforma explotación Datos Ciclo de análisis de datos Representación para explotación Información y conocimiento Día 2
  • 6. Modelo de datos Introducción (II) ● Representación de los datos para ponerlos en explotación o Hay que considerar todo lo que vimos en el primer día → especialmente los datos capturados que han sido normalizados ● No se puede hacer Data mining sin más o Se necesita un marco teórico → una representación conceptual del dominio o contexto en el que se está trabajando
  • 7. Modelo de datos Introducción (III)
  • 8. Modelo de datos Usos de datos ● Desde una perspectiva de Teoría del Conocimiento, tres usos de datos: o Deducción  Preguntas a resolver con la Base de Datos que se dispone (enfoque estadístico tradicional) o Inducción  Analizar los datos con la esperanza de encontrar algo (Data Mining) o Abducción  Deducción + Inducción
  • 9. Modelo de datos Usos de datos (II) Fuente: http://matedisyalgeline.blogspot.com.es/p/la-induccion-se-refiere-al-movimiento.html
  • 10. Modelo de datos Mapa conceptual Concepto 1 Conceptos/Entidades (elemento abstracto de Concepto 2 Concepto 3 información) Concepto n Relaciones entre conceptos
  • 11. Modelo de datos Mapa conceptual (II) Nos ayuda a entender el dominio/contexto y a facilitar el entendimiento mutuo entre todas las personas que están implicados en el proyecto Source: http://www.economist.com/blogs/economist-explains/2013/05/economist-explains-14 Source: http://www.economist.com/news/finance-and-economics/21578041-containers-have-been-more-important-globalisation-freer-trade-humble
  • 12. Modelo de datos Mapa conceptual (III) ● El modelo de datos, el mapa conceptual, describe los conceptos y las relaciones que se emplean para el proyecto BI en el día a día o Expresadas en su propio lenguaje o Permite que toda la organización participe en el mantenimiento del mismo Fuente: http://en.wikipedia.org/wiki/Esperanto_orthography
  • 13. Índice de contenidos ● Modelo de datos ● Dimensiones de datos ● Procesamiento de datos en un ETL ● Técnicas de descubrimiento de conocimiento ● Text mining ● Análisis de Redes Sociales
  • 14. Dimensiones de datos Introducción ● Una dimensión de base de datos es una colección de objetos relacionados, denominados atributos, que se pueden usar para proporcionar información sobre los datos o Atributos típicos de una dimensión de producto pueden ser el nombre, la categoría, la línea, el tamaño y el precio del producto Fuente: http://datawarehouse.es.tl/Funcionalidad.htm
  • 15. Dimensiones de datos Introducción (II) ● Estos objetos están enlazados a una o varias columnas de una o varias tablas de una vista del origen de datos o De manera predeterminada, estos atributos están visibles como jerarquías de atributo y se pueden utilizar para comprender los datos de hechos en un cubo o Los atributos se pueden organizar en jerarquías definidas por el usuario que proporcionan rutas de navegación para ayudar a los usuarios al examinar los datos
  • 16. Dimensiones de datos ¿Nuestro objetivo? ¿Cuál es nuestro objetivo en todo proyecto de Business Intelligence?
  • 17. Dimensiones de datos ¿Nuestro objetivo? Dar respuestas :-) ● Por cada pregunta → una respuesta o Una respuesta → una dimensión de datos ● Se recomienda preparar cada dimensión de datos en una rama de Pentaho Kettle diferente o De esta manera, se podrá ir modificando cada respuesta según las necesidades cambiantes sin afectar al resto de preguntas - respuestas
  • 18. Índice de contenidos ● Modelo de datos ● Dimensiones de datos ● Procesamiento de datos en un ETL ● Técnicas de descubrimiento de conocimiento ● Text mining ● Análisis de Redes Sociales
  • 19. Procesamiento datos ETL Definición y características ● Una herramienta ETL o Extrae datos desde varias fuentes de datos (normalmente datos heredados) o Transforma los datos  Desde → estar optimizados a transacciones  A → estar optimizados para el análisis y el reporting  Sincronizar los datos que provienen de diferentes fuentes de datos  Normaliza y limpia los datos o Carga los datos en un aplicación de destino (normalmente una Base de Datos)
  • 20. Procesamiento datos ETL ¿Por qué necesito esta herramienta? ● Ahorran tiempo y dinero evitando tener que desarrollar código manual de integración de datos ● Es difícil para los administradores de Base de Datos conectar fuentes de diferentes fabricantes sin tener que emplear una herramienta externa ● Si tuviera que eventualmente integrarse una nueva Base de Datos, habría que rehacer el código de integración de manera manual
  • 21. Procesamiento datos ETL Pentaho Kettle Kettle Una herramienta de Extracción, Transformación y Carga (ETL) cuyas capacidades son aprovechadas a través de un enfoque de metadatos
  • 22. Procesamiento datos ETL Pentaho Kettle (II) ● Tiene una interfaz de usuario (GUI) muy sencilla de utilizar ● Tiene una comunidad de desarrolladores con más de 13.500 personas registradas ● Utiliza un motor Java que procesa las tareas para mover datos entre las diferentes fuentes de datos y archivos
  • 23. Procesamiento datos ETL Pentaho Kettle (III)
  • 24. Procesamiento datos ETL Pentaho Kettle (IV) Source: http://download.101com.com/tdwi/research_report/2003ETLReport.pdf
  • 25. Procesamiento datos ETL Pentaho Kettle (V) Source: Pentaho Corporation
  • 26. Procesamiento datos ETL Pentaho Kettle (VI) ● Tareas que puede ejecutar o Integración de datos o Limpieza de datos o Normalización de datos o Migración de datos o Exportación de datos o etc.
  • 27. Procesamiento datos ETL Transformaciones ● Manipulación de fechas y strings ● Validación de datos / Reglas de negocio ● Join ● Cálculos matemáticos ● Cálculo estadístico ● Criptografía ● Control del fujo ● Scripting ● etc.
  • 28. Procesamiento datos ETL ¿Para qué me puede servir? ● Espejar los datos entre maestro y esclavo ● Sincronizar dos fuentes de datos ● Procesar datos de múltiples fuentes y llevarlas hasta múltiples destinos ● Cargar los datos en un Sistema de Gestión de Base de Datos ● Manipulación gráfica de los datos ● Datamart / Datawarehouse
  • 29. Procesamiento datos ETL ¿Para qué me puede servir? (II) Actividad BI.02.1. Dimensiones + Modelo de datos ● Entidades + relaciones entre entidades ● Sustentación teórica ● Dimensiones ● Definir las diferentes ramas en Pentaho Kettle ● Orientar las transformaciones hacia las dimensiones y el modelo de datos para explotación final
  • 30. Índice de contenidos ● Modelo de datos ● Dimensiones de datos ● Procesamiento de datos en un ETL ● Técnicas de descubrimiento de conocimiento ● Text mining ● Análisis de Redes Sociales
  • 31. Descubriendo conocimiento Métodos Fuente: https://interestingittips.wordpress.com/2011/10/
  • 32. Descubriendo conocimiento Métodos 1.Métodos predictivos 1.Descubrimiento estructuras 1.Minería de relaciones
  • 33. Descubriendo conocimiento 1) Métodos predictivos Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
  • 34. Descubriendo conocimiento 1) Métodos predictivos (II) Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
  • 35. Descubriendo conocimiento 1) Métodos predictivos (III) ● La clasificación es una de las tareas más importantes en minería de datos ● Obtener un modelo, patrón o función que discrimine entre dos o más clases excluyentes ● Medida tradicional para evaluar: o Error (también inversamente accuracy): % de instancias mal clasificadas (respecto al conjunto de test o utilizando validación cruzada / bootstrapping)
  • 36. Descubriendo conocimiento 1) Métodos predictivos (IV) ● Un clasificador permite asistir en la toma de decisiones (entre diferentes acciones) o Swets, J.A., Dawes, R.M., & Monahan, J. (2000). “Better decisions through science” Scientific American, 283, 82-87.
  • 37. Descubriendo conocimiento 1) Métodos predictivos (V) Árboles de decisión ● Plantea el problema desde distintas perspectivas de acción ● Permite analizar de manera completa todas las posibles soluciones ● Provee de un esquema para cuantificar el coste del resultado y su probabilidad de uso ● Ayuda a realizar las mejores decisiones con base a la información existente y a las mejores suposiciones ● Su estructura permite analizar las alternativas, los eventos, las probabilidades y los resultados
  • 38. Descubriendo conocimiento 1) Métodos predictivos (VI)
  • 39. Descubriendo conocimiento 1) Métodos predictivos (VII) Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
  • 40. Descubriendo conocimiento 1) Métodos predictivos (VIII) Regresión lineal ● Puede definirse como un esquema de relación entre una variable Y (EXÓGENA O A EXPLICAR) y otra(s) variable(s) X (X1X2 ... Xk ) (endógena(s) o explicativa(s), tal que: Y = FUNCIÓN LINEAL (X) + PERTURBACIÓN ALEATORIA (Modelo Lineal Simple) Y = FUNCIÓN LINEAL (X1, X2, ... Xk ) + PERTURBACIÓN ALEATORIA (Modelo Lineal General)
  • 41. Descubriendo conocimiento 1) Métodos predictivos (IX) Regresión lineal (cont.) ● Las hipótesis (básicas) que se asuman sobre la perturbación aleatoria permitirán realizar el análisis estadístico inferencial ● Las razones para la introducción de una perturbación aleatoria, son fundamentalmente: o Efecto de variables no consideradas o Efectos imprevistos (catástrofes, modas, etc.) o Errores de observación o medición
  • 42. Descubriendo conocimiento 1) Métodos predictivos (X) Regresión lineal (cont.) ● Utilidades del modelo lineal: o Verificar la existencia de la relación lineal o Estimar (contrastar) la (una) relación lineal concreta (estructural)  Supone actuar sobre los coeficientes de la relación lineal o Predecir la variable y en función de x o (x1, x2, … xk)
  • 43. Descubriendo conocimiento 1) Métodos predictivos (XI) Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
  • 44. Descubriendo conocimiento 1) Métodos predictivos (XII) Regresión lineal (cont.) ● Una vez ajustada la recta de regresión a la nube de observaciones, es importante disponer de una medida que mida la bondad del ajuste realizado ● Permitirá decidir si el ajuste lineal es suficiente o se deben buscar modelos alternativos
  • 45. Descubriendo conocimiento 1) Métodos predictivos (XIII) Existe una dependencia funcional lineal, las observaciones están sobre la recta de regresión. r = R2 = 1, recta de regresión: y = x. Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
  • 46. Descubriendo conocimiento 1) Métodos predictivos (XIV) La relación lineal entre las variables es muy pequeña y no parece que exista otro tipo de relación entre ellas, la nube de puntos indica que las variables son casi independientes r = 0'192, R2 = 0'037, recta de regresión: y = 6'317 + 0'086x Contraste de regresión: FR = 0'687 ∈ F1,18 → p - valor = 0'418. Se acepta la no influencia de la variable regresora en Y. Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
  • 47. Descubriendo conocimiento 1) Métodos predictivos (XV) Existe una dependencia funcional entre las observaciones pero no de tipo lineal, por tanto la correlación es muy pequeña r = 0'391, R2 = 0'153, recta de regresión: y = 32'534 - 1'889x. Contraste de regresión: FR = 3'252 ∈ F1,18 → p - valor = 0'088. Se acepta que no existe relación lineal con α = 0'05. Se debe de hacer un ajuste del tipo parabólico Y = α0 + α1x + α2x2 Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
  • 48. Descubriendo conocimiento 1) Métodos predictivos (XVI) Usando Clasificadores en WEKA
  • 49. Procesamiento datos ETL Aplicaciones para Tenzing Actividad BI.02.2. Predicción ● Pensar 2 o 3 casos de uso ● Implementar sobre WEKA a partir de los datos normalizados de Pentaho ● Interpretar las conclusiones ● Pensar representación ● Presentar conclusiones
  • 50. Descubriendo conocimiento 2) Descubrimiento de estructuras Clustering Source: http://inside-bigdata.com/2013/12/18/tech-tip-power-pitfalls-clustering/ Source: http://www.cs.bilkent.edu.tr/~saksoy/research.html
  • 51. Descubriendo conocimiento 2) Descubrimiento de estructuras (II) Clustering ● Identifica de forma automática agrupaciones o clústeres de elementos de acuerdo a una medida de similitud entre ellos o El objetivo fundamental de las técnicas de clustering consiste en identificar grupos o clústeres de elementos tal que:  La similitud media entre elementos del mismo clúster sea alta: similitud intra-clúster alta  La similitud media entre elementos de distintos clústeres sea baja: similitud inter-clúster baja
  • 52. Descubriendo conocimiento 2) Descubrimiento de estructuras (III) Clustering Existen principalmente dos tipos diferentes de técnicas de clustering:
  • 53. Descubriendo conocimiento 2) Descubrimiento de estructuras (IV) Clustering ● Clustering jerárquico o Construye un dendograma o árbol que representa las relaciones de similitud entre los distintos elementos  Clustering jerárquico aglomerativo: se comienza con tantos clústeres como individuos y consiste en ir formando (aglomerando) grupos según su similitud  Clustering jerárquico de división: se comienza con un único clúster y consiste en ir dividiendo clústeres según la disimilitud entre sus componentes.
  • 54. Descubriendo conocimiento 2) Descubrimiento de estructuras (V) Clustering ● Clustering de partición o Clustering de partición entorno a centroides (PAM) realiza una distribución de los elementos entre un número prefijado de clústeres o grupos  Recibe como dato de entrada el número de clústers a formar además de los elementos a clasificar y la matriz de similitudes o Explorar todas las posibles particiones es computacionalmente intratable  Por lo tanto, suelen seguirse algoritmos aproximados guiados por determinadas heurísticas
  • 55. Descubriendo conocimiento 2) Descubrimiento de estructuras (VI) Clustering ● Clustering de partición o En lugar de construir un árbol el objetivo en PAM consiste en agrupar los elementos entorno a elementos centrales llamados centroides a cada clúster  mC=argmin m∈CΣ mj∈Cdist(m,mj)
  • 56. Descubriendo conocimiento 2) Descubrimiento de estructuras (VII) Clustering ● Clustering de partición Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
  • 57. Descubriendo conocimiento 2) Descubrimiento de estructuras (VIII) Clustering ● Durante el flujo de trabajo de clustering existen tres puntos claves donde se toman decisiones que determinan la identificación final de grupos o clústeres de genes: o Elección de la medida de similitud o distancia o Elección del algoritmo de clustering o Elección del número de clústers a identificar
  • 58. Descubriendo conocimiento 2) Descubrimiento de estructuras (IX) Clustering ● Para determinar la mejor elección posible es necesario fijar un criterio para mediar la calidad del resultado proporcionado por un flujo de trabajo de clustering o El objetivo general perseguido por las técnicas de clustering consiste en identificar grupos o clústeres compactos o Es decir, clusteres con una similitud intra-clúster alta y una similitud inter-clúster baja → esta idea intuitiva se formaliza en el concepto de silueta de un cluster
  • 59. Descubriendo conocimiento 2) Descubrimiento de estructuras (X) Clustering Como medida de la distancia intracluster de un elemento del clúster si se toma: a(si)= Σ sj∈Cd(sj,si) |C|-1 Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
  • 60. Descubriendo conocimiento 2) Descubrimiento de estructuras (XI) Clustering Como medida de la distancia intercluster se toma: b(si)=mink Σ sj∈Ckd(si,sj) |Ck| Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
  • 61. Descubriendo conocimiento 2) Descubrimiento de estructuras (XII) Análisis factorial Source: http://www.mathworks.es/machine-learning/examples.html?file=/products/demos/machine-learning/cluster_genes/cluster_genes.html
  • 62. Descubriendo conocimiento 2) Descubrimiento de estructuras (XIII) Análisis factorial ● Reducir una matriz de datos a dimensiones estructurales más pequeñas ● Permite apreciar hasta dónde existe algún patrón subyacente de relaciones en los datos de la matriz ● Reduce las medidas a un conjunto más pequeño de factores o Los factores pueden ser tomados como variables originarias que explican las interrelaciones observadas en los datos
  • 63. Descubriendo conocimiento 2) Descubrimiento de estructuras (XIV) Análisis factorial ● Fue creado por Spearman (1904) ● Su propósito era el de probar su Teoría de la Inteligencia ● Él sostenía que en todas las habilidades mentales subyacía un factor general (común) que denominó g y factores específicos independientes
  • 64. Descubriendo conocimiento 2) Descubrimiento de estructuras (XV) Análisis factorial
  • 65. Descubriendo conocimiento 2) Descubrimiento de estructuras (XVI) Análisis factorial ● El Análisis de Factores (AF) parte del supuesto de que en un conjunto de variables intercorrelacionadas, dichas relaciones recíprocas podrían deberse a la presencia de una o más variables (factores subyacentes) relacionadas en grados diversos con aquellas o El propósito, así, del AF es identificar esos factores o variables comunes, más generales, que los datos mismos
  • 66. Descubriendo conocimiento 2) Descubrimiento de estructuras (XVII) Análisis factorial ● Desde el punto de vista matemático, un factor puede ser definido como cualquier combinación lineal de variables en la matriz de datos o Ejemplo: Sea el factor A, formado por las variables a, b, c … k, y sus ponderaciones, fueran pa, pb, pc … pk, su expresión algebraica sería: A = pa*a + pb*b + pc*c + … + pk*k
  • 67. Descubriendo conocimiento 2) Descubrimiento de estructuras (XVIII) Análisis factorial ● Interpretación sobre los factores o Como indicadores de efectos  Las variables observadas son consideradas como el resultado de una variable subyacente latente o Como componente  Las variables son transformadas en otras variables por conveniencia o Como indicadores causales  La variable latente es considerada como el resultado de las observables
  • 68. Descubriendo conocimiento 2) Descubrimiento de estructuras (XIX) Análisis factorial ● Métodos de factorización o Método Clásico  Se basa en la creencia de que las correlaciones observadas en la matriz son principalmente el resultado de alguna regularidad subyacente a los datos o Componentes Principales  Es un método de transformación directa de un conjunto dado de variables dentro de un nuevo conjunto de variables compuestas o componentes principales
  • 69. Descubriendo conocimiento 2) Descubrimiento de estructuras (XX) Análisis factorial ● Tipos de factores o General: variables cargan en un mismo factor o Grupo: solo algunas variables son salientes o Común: variables que miden el mismo factor o Unipolar: variables con un mismo signo o Bipolar: variables con signo + y - o Singular: una sola saliente o Nulo: no tiene saliente
  • 70. Descubriendo conocimiento 2) Descubrimiento de estructuras (XXI) Análisis factorial ● Aplicaciones o Como técnica exploratoria  Examinar estructura subyacente a una Base de Datos o Como técnica confirmatoria  Probar la hipótesis acerca de la estructura subyacente en la Base de Datos o Como técnica de medición  Construcción de índices a partir de los coeficientes de las cargas factoriales
  • 71. Descubriendo conocimiento 2) Descubrimiento de estructuras (XXII) Análisis factorial Etapas Opciones Referencias Matriz de datos Única (sujetos por medidas) Martiz tipo - X Matriz de correlación Correlación entre las medidas Matriz tipo - R Correlación entre unidades Matriz tipo - Q Extracción de factores iniciales Factores definidos Análisis Componentes Principales Factores inferidos Análisis Factorial Correspondencia Rotación hasta la solución final Factores no-correlacionados Rotación ortogonal Factores correlacionados Rotación oblicua
  • 72. Descubriendo conocimiento 2) Descubrimiento de estructuras (XXIII) Análisis factorial
  • 73. Descubriendo conocimiento 2) Descubrimiento de estructuras (XXIII) Social Network Analysis Más tarde lo veremos ;) Source: http://rs.resalliance.org/2010/11/03/reading-list-using-social-network-analysis-sna-in-social-ecological-studies/
  • 74. Procesamiento datos ETL Aplicaciones para Tenzing Actividad BI.02.3. Descubrimiento estructuras ● Pensar 2 o 3 casos de uso ● Implementar sobre WEKA a partir de los datos normalizados de Pentaho ● Interpretar las conclusiones ● Pensar representación ● Presentar conclusiones
  • 75. Descubriendo conocimiento 3) Minería de relaciones Association rule mining Source: http://aimotion.blogspot.com.es/2013/01/machine-learning-and-data-mining.html
  • 76. Descubriendo conocimiento 3) Minería de relaciones (II) Reglas de asociación ● Las reglas de asociación en la minería de datos se utilizan para encontrar hechos que ocurren en común dentro de un conjunto de datos o Dicho de otra manera que debe ocurrir ciertas condiciones para que se produzca cierta condición
  • 77. Descubriendo conocimiento 3) Minería de relaciones (III) Reglas de asociación ● Para encontrar estas reglas de debe considerar cada posible combinación de condiciones para que halla una consecuencia o Al hablar de reglas de asociación también cumple un rol importante:  Cobertura o soporte: número de instancias predichas correctamente  Precisión o confianza: proporción de número de instancias que es aplicada la regla
  • 78. Descubriendo conocimiento 3) Minería de relaciones (IV) Reglas de asociación ● Basándose en el concepto de reglas fuertes, Agrawal et al., presentaron las reglas de asociación para descubrir regularidades en transacciones registradas en grandes repositorios de datos de sistemas de punto de ventas en supermercados {pan, jamón} ⇒ {queso}
  • 79. Descubriendo conocimiento 3) Minería de relaciones (V) Reglas de asociación
  • 80. Descubriendo conocimiento 3) Minería de relaciones (VI) Reglas de asociación ● Aplicaciones: Product placement → colocación de productos en las estanterías de un supermercado o Objetivo  Identificar artículos que muchos clientes compran conjuntamente o Solución  Procesar los datos de los terminales de punto de venta proporcionados por los escáneres de códigos de barras
  • 81. Descubriendo conocimiento 3) Minería de relaciones (VII) Reglas de asociación ● Aplicaciones: Promociones y ofertas → si se identificar una regla del tipo {impresora} → {tóner} o Tóner es el consecuente  Puede determinarse cómo incrementar sus ventas o Impresora es el antecedente  Puede determinarse qué productos se verían afectados si dejamos de vender impresoras o Impresora es el antecedente y tóner el consecuente  Puede utilizarse para ver qué productos deberían venderse con impresoras para promocionar las ventas de tóner
  • 82. Descubriendo conocimiento 3) Minería de relaciones (VIII) Reglas de asociación ● Aplicaciones: Gestión de inventarios o Problema  Una empresa de reparación de electrodomésticos quiere anticipar la naturaleza de las reparaciones que tendrá que realizar y mantener a sus vehículos equipados con las piezas que permitan reducir el número de visitas a casa de sus clientes o Solución  Procesar los datos sobre herramientas y piezas utilizadas en reparaciones previas para descubrir patrones de co-ocurrencia
  • 83. Descubriendo conocimiento 3) Minería de relaciones (IX) Reglas de asociación Expresión de la forma X → Y donde X e Y son itemsets {pañales} → {cerveza} {cerveza} → {pañales} {pan, leche} → {huevos} {pan} → {leche, huevos}
  • 84. Descubriendo conocimiento 3) Minería de relaciones (X) Análisis correlacional Source: http://www.bain.com/publications/articles/Growing-brands-by-understanding-what-Chinese-shoppers-really-do.aspx
  • 85. Descubriendo conocimiento 3) Minería de relaciones (XI) Análisis correlacional ● Conceptualizaciones generales o “Grado de relación o asociación entre dos variables” (Hopkins, et al., 1997) o “Las propiedades, cálculos y uso de la medida de relación entre dos variables” (Young, R. y Veldman, D., 1977) o El grado y forma de relación entre dos variables
  • 86. Descubriendo conocimiento 3) Minería de relaciones (XII) Análisis correlacional ● Tipos de correlación o Correlación bivariada  Grado de relación o asociación entre dos variables o Correlación múltiple  Grado de relación entre dos o más variables
  • 87. Descubriendo conocimiento 3) Minería de relaciones (XIII) Análisis correlacional ● Medición de correlación o Gráfica  Dispersión, dispersigrama o nube de puntos o Analítica  Ecuación matemática de Karl Pearson  Al final el “producto de Pearson” r ● r = muestras ● p = poblaciones
  • 88. Descubriendo conocimiento 3) Minería de relaciones (XIV) Análisis correlacional Fuente: http://bradanovic.blogspot.com.es/2011/12/no-le-creo-mucho-las-estadisticas-de.html Fuente: http://rt.uits.iu.edu/visualization/analytics/stats/spss-getting-started-guide-macos.php
  • 89. Descubriendo conocimiento 3) Minería de relaciones (XV) Análisis correlacional
  • 90. Descubriendo conocimiento 3) Minería de relaciones (XIV) Patrones secuenciales Source: http://www.mdpi.com/1424-8220/10/8/7496
  • 91. Descubriendo conocimiento 3) Minería de relaciones (XV) Patrones secuenciales ● Minería de patrones que ocurren frecuentemente relacionados al tiempo o a otras secuencias ● Un ejemplo de patrón secuencial es: o “Un cliente que compra un iPad, dos días después probablemente comprará la funda y las aplicaciones de ofimática” ● Es similar a la minería de itemset frecuentes (reglas de asociación), pero con una consideración de orden
  • 92. Descubriendo conocimiento 3) Minería de relaciones (XVI) Patrones secuenciales ● Aplicaciones o Secuencias de compra del cliente o Tratamientos médicos, desastres naturales, procesos de la ingeniería y las ciencias, mercados y valores, etc. o Patrones de llamadas telefónicas, flujos de navegación en la web, etc. o Estructuras de ADN y genes o ...
  • 93. Descubriendo conocimiento 3) Minería de relaciones (XVII) Patrones secuenciales ● Algoritmos o Enfoques basados en Apriori  GSP (Generalized Sequential Patterns)  SPADe o Enfoques basados en crecimiento de patrones  FreeSpan  PrefixSpain
  • 94. Descubriendo conocimiento 3) Minería de relaciones (XVII) Patrones secuenciales ● GSP Fuente: http://bsolano.com/ecci/claroline/backends/download.php/UHJlc2VudGFjaW9uZXMvNy5fVGFyZWFzX2RlX2xhX21pbmVy7WFfZGVfZGF0b3MsX3JlZ2 xhc19kZV9hc29jaWFjafNuLnBkZg%3D%3D?cidReset=true&cidReq=CI2352
  • 95. Descubriendo conocimiento 3) Minería de relaciones (XVIII) Patrones secuenciales ● GSP
  • 96. Descubriendo conocimiento 3) Minería de relaciones (XIX) Patrones secuenciales ● GSP
  • 97. Descubriendo conocimiento 3) Minería de relaciones (XX) Análisis de causalidad ● Muchas preguntas en la vida diaria requiere la identificación y medida de efectos causales o ¿El tabaco provoca cáncer? o ¿La aspirina reduce el riesgo de infarto? o ¿Los cursos de formación para desempleados ayudan a encontrar empleo? o ¿Cuál es el impacto del salario mínimo sobre el empleo? o ¿Afectan los subsidios salariales o los impuestos a la oferta de trabajo de los individuos?
  • 98. Descubriendo conocimiento 3) Minería de relaciones (XXI) Análisis de causalidad Fuente: http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html Fuente: http://avances.idict.cu/avances/article/view/26/46
  • 99. Descubriendo conocimiento 3) Minería de relaciones (XXII) Análisis de causalidad ● Podemos medir la correlación estadística, pero esta no implica que exista causalidad ● Para ello, se utiliza el análisis experimental o Nos permite estudiar la existencia de causalidad Fuente: http://www.datuopinion.com/estudio-experimental
  • 100. Descubriendo conocimiento 3) Minería de relaciones (XXIII) Análisis de causalidad ● Se evalúa el efecto de un factor experimental (X) sobre un fenómeno (Y) o Se evalúa la relación: Y = f(x) ● El método incluye por necesidad la observación, pero no es una observación simple o directa o Puede o no utilizar técnicas estadísticas para aleatorizar o poder hacer pruebas de hipótesis ● La metodología experimental a nivel social ha sido criticada por razones de factibilidad y/o por razones éticas
  • 101. Descubriendo conocimiento 3) Minería de relaciones (XXIV) Análisis de causalidad ● El modelo científico para el estudio de las relaciones de causa y efecto es el experimento controlado o Se comparan las respuestas de un grupo experimental expuesto al estímulo crucial con los de un grupo de control equivalente que no es sometido al estímulo
  • 102. Descubriendo conocimiento 3) Minería de relaciones (XXV) Análisis de causalidad Grupo experimental Grupo de control Momento 1 X1 W1 Exposición al estímulo E Sin exposición al estímulo E Momento 2 X2 W2
  • 103. Descubriendo conocimiento 3) Minería de relaciones (XXVI) Análisis de causalidad ● Efecto del Estímulo = (X1 -W1) - (X2 -W2) ● Si los dos grupos fueron adecuadamente igualados antes de la aplicación del estímulo, la medida del efecto se simplifica: X1 = W1 ● Y el efecto del estímulo se reduce a: X2 = W2
  • 104. Descubriendo conocimiento 3) Minería de relaciones (XXVII) Análisis de causalidad
  • 105. Procesamiento datos ETL Aplicaciones para Tenzing Actividad BI.02.4. Minería de relaciones ● Pensar 2 o 3 casos de uso ● Implementar sobre WEKA a partir de los datos normalizados de Pentaho ● Interpretar las conclusiones ● Pensar representación ● Presentar conclusiones
  • 106. Descubriendo conocimiento Marketing Analytics Source: https://media.licdn.com/mpr/mpr/p/2/000/268/1b5/21f35eb.jpg
  • 107. Descubriendo conocimiento Marketing Analytics (II) ● MROI: Marketing Return on Investment o McKinsey review: an integrated analytics approach could save up to 15-20% total budget  That’s $ 200.000.000.000 worlwide Source: http://www.thecmosite.com/author.asp?section_id=1137&doc_id=234474
  • 108. Descubriendo conocimiento Marketing Analytics (III) Source: http://www.marketingsherpa.com/charts/roi020409-1.gif
  • 109. Descubriendo conocimiento Marketing Analytics (IV) 1)Marketing-Mix Modeling (MMM) ● Big Data to determine the effectiveness of spending by channel Marketing investments ● Include external variables such as seasonality, and competitor and promotional activities to uncover o Longitudinal effects: changes individuals and segments over time o Interaction effects: differences among offline, online and Social Media activities Marketing investments Statistical links
  • 110. Descubriendo conocimiento Marketing Analytics (V) 2) Heuristich RCQ (Reach; Cost; Quality) ● Disaggregate touchpoints into its component paths o target consumer Reached o Cost per unique touch o Quality of engagement ● More limited; but the best one when limited data is available
  • 111. Descubriendo conocimiento Marketing Analytics (VI) 3) Attribution modeling ● Set of rules or algorithms that govern how credit for converting traffic to sales is assigned to online touchpoints o Email campaign o Online ad o Social-networking feed o Website ● Statistical modeling regression techniques
  • 112. Índice de contenidos ● Modelo de datos ● Dimensiones de datos ● Procesamiento de datos en un ETL ● Técnicas de descubrimiento de conocimiento ● Text mining ● Análisis de Redes Sociales
  • 113. Text mining Introducción ● Estudios recientes indican que, de media, el 80% de la información de una empresa está almacenada en forma de documentos o Sin duda, este campo de estudio es muy amplio, por lo que técnicas como la categorización de texto, el procesamiento de lenguaje natural, la extracción y recuperación de la información o el aprendizaje automática, entre otras, apoyan el text mining (o minería de texto)
  • 114. Text mining Introducción (II) ● En ocasiones se confunde el text mining con la recuperación de la información (Information Retrieval, IR) [Hearst, 1999] o Esta última, no obstante, consiste en la reacuperación automática de documentos relevantes mediante indexaciones de textos, clasificación, categorización, etc. o Generalmente se utilizan palabras clave para encontrar una página relevante o En cambio, el text mining se refiere a una examinar uan colección de documentos y descubrir información no contenida en ningún documento individual [Nasukawa, 2001]
  • 115. Text mining ¿Por qué? ● Hay una enorme cantidad de información en texto o Aparte de los libros, periódicos y enciclopedias en Internet, se generan enormes cantidades de información textual Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html
  • 116. Text mining Pasos 1) Obtención y agrupación Texto 2) Pre procesamiento 3) Generación de atributos 4) Selección de atributos 5) Minería de datos 6) Interpretación y evaluación
  • 117. Text mining Pasos: 1) Obtención y agrupación del texto ● Los textos se encuentran en documentos dispersos como páginas web, informes, actualizaciones de status, etc. ● El primer paso, así, consiste en la obtención de estos datos y su agrupamiento para comenzar a trabajar
  • 118. Text mining Pasos: 2) Pre-procesamiento ● Eliminar el ruido o Texto deliberadamente equivocado (SPAM) o Textos ambiguos o Texto erróneo o Palabras que no tienen poder discriminatorio (STOP WORDS) o Ruido en el formato (tags, links) o Multiplicidad de idiomas o Sinónimos, palabras con varios significados o Frases típicas
  • 119. Text mining Pasos: 2) Pre-procesamiento (II)
  • 120. Text mining Pasos: 2) Pre-procesamiento (III) ● Convertir el documento en un vector de palabras: tokenization Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/
  • 121. Text mining Pasos: 2) Pre-procesamiento (IV) ● Con WEKA: o Se puede importar los datos en CSV o Hay que eliminar los caracteres: , ; : “ ‘ % () o Aplicar primero el filtro NominalToString o Aplicar el filtro StringToWordDetector
  • 122. Text mining Pasos: 3) Generación de atributos ● Representación del texto o Bag of Words Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification
  • 123. Text mining Pasos: 3) Generación de atributos (II) ● Representación del texto o Bag of Words Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model
  • 124. Text mining Pasos: 4) Selección de atributos ● ¿Qué palabras tienen la mejor capacidad discriminatoria? ● Se puede usar un clasificador o Latent Semantic Analysis  Es una teoría y un método para extraer y representar el significado de las palabras dentro de un contexto utilizando técnicas estadísticas sobre un cuerpo de texto grande
  • 125. Text mining Pasos: 4) Selección de atributos (II) ● En WEKA o Ir a “Select attributes” o Seleccionar “Latent Semantic Analysis” o Start o Guardar el nuevo dataset
  • 126. Text mining Pasos: 5) Minería de datos ● Se puede usar cualquiera de las técnicas vistas en el apartado de descubrimiento de conocimiento o Clasificación o Descubrimiento estructuras o Reglas de asociación
  • 127. Text mining Pasos: 6)Interpretación y evaluación ● Interpretar o Descubrimiento estructuras ● Evaluar los resultados o Clasificación o Reglas de asociación ● Sacar conclusiones o iterar sobre los pasos anteriores
  • 130. Text mining Aplicaciones para Tenzing
  • 131. Procesamiento datos ETL Aplicaciones para Tenzing Actividad BI.02.5. Text Mining ● Pensar 2 o 3 casos de uso ● Implementar sobre Pentaho + Alchemy + OpenCalais a partir de los datos normalizados de Pentaho ● Interpretar las conclusiones ● Pensar representación ● Presentar conclusiones
  • 132. Índice de contenidos ● Dimensiones de datos ● Modelo de datos ● Procesamiento de datos en un ETL ● Técnicas de descubrimiento de conocimiento ● Text mining ● Análisis Redes Sociales
  • 133. Análisis Redes Sociales ¿Qué es? ● NO es solo Análisis de Social Media o Puede ser parte ● Sociología + Matemáticas o Actores que interactúan o Teoría de Grafos ● Estudio numérico y representación gráfica
  • 134. Análisis Redes Sociales ¿Qué es? (II) Fuente: http://www.soc.duke.edu/~jmoody77/chains.pdf
  • 135. Análisis Redes Sociales ¿Qué se estudia? ● Redes egocéntricas o Actor principal con sus relaciones, hasta el grado n (“amigos de amigos de amigos”) ● Redes completas o Número de nodos determinado por una característica concreta: son los que son (UE) ● Grandes redes o Redes con muchos nodos en las que en general el investigador corta el límite
  • 136. Análisis Redes Sociales Elementos ● Actores o Los nodos de la red no tienen por qué ser necesariamente personas, pueden ser países, o incluso actividades o Depende de lo que se esté investigando ● Vínculos o Los vínculos que unen a los actores se definen por sus propiedades o características de la relación
  • 137. Análisis Redes Sociales Elementos (II) Fuente: http://www.economiapersonal.com.ar/2014/06/14/red-social/
  • 138. Análisis Redes Sociales Características ● Basado en relaciones y vínculos entre actores ● Recogida sistemática de datos empíricos del tipo de relación estudiada entre cada par de actores o Representado por gráficos ● Se apoya en el uso de las matemáticas, principalmente la teoría matemática de grafos y/o en modelos informáticos
  • 139. Análisis Redes Sociales Teoría de Grafos ● Surge en el siglo XVIII con Euler (1707-1803) o El problema de los puentes de Konigsberg ● Resolución de problemas que pueden ser modelados mediante un grafo y resueltos mediante algoritmos específicamente desarrollados para un grafo Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo
  • 140. Análisis Redes Sociales Teoría de Grafos (II) ● La historia del metro de Londres tiene mucha relación con la Teoría de Grafos o Más concretamente, con la Inmersión de Grafos (Graph Drawing) o Permite explicar de forma sencilla la representación (inmersión) de un grafo ● Para un mismo conjunto de vértices y una misma lista de conexiones entre ellos, puede haber trazados con o sin cruces entre las líneas. ● Depende del dibujo que se haga del grafo, de la inmersión que se elija, se pueden destacar, y por lo tanto aprovechar, una característica u otra del grafo
  • 141. Análisis Redes Sociales Teoría de Grafos (III) ● Los primeros mapas del metro de Londres eran geográficos o Dibujar sobre un plano de la ciudad los recorridos de las distintas líneas ● Harry Beck, ingeniero electrónico empleado en el metro de Londres, se percató en 1931 de que al usuario no le interesaba conocer el recorrido del metro bajo tierra o Simplemente le interesaba conocer la posición relativa de las líneas y estaciones para realizar los trasbordos que necesitase Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry-beck. html
  • 142. Análisis Redes Sociales Teoría de Grafos (IV) ● Más que un diseño geográfico, resultaría más útil un diseño topológico o Menos curvas y direcciones en las líneas o De broma, hizo su primer diseño basado en los utilizados en circuitos eléctricos ● En 1936, entre otros cambios, eliminó curvas y sólo permitió ángulos de 45º y 90º ● En 1940, se incorporaron ángulos de 60º también, idea que se desechó por enturbiar la claridad del plano
  • 143. Análisis Redes Sociales Teoría de Grafos (V) Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html
  • 144. Análisis Redes Sociales Teoría de Grafos (VI) ● ¿Por qué? o Proporciona vocabulario preciso o Herramientas cuantitativas ● Grafo o “Un grafo (G) es un conjunto de vértices o nodos (N) y líneas (L) que unen pares de nodos.” o Nodos: actores  Pueden poseer atributos (sexo, grupo étnico, etc.) o Líneas: vínculos  Puede haber diferentes tipos/características (amistad, influencia)  A → B
  • 145. Análisis Redes Sociales Teoría de Grafos (VII) Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/
  • 146. Análisis Redes Sociales Teoría de Grafos (VIII) ● Mediciones: Nodos o Adyacencia / Incidencia  Dos nodos son adyacentes si están relacionados  Una línea y un nodo son incidentes entre sí si el nodo es uno de los que definen la línea o Grado  El grado de un nodo, designado d(n) es el número de líneas que son incidentes con él (nodos adyacentes)
  • 147. Análisis Redes Sociales Teoría de Grafos (IX) ● Mediciones: Nodos (cont.) o Centralidad  La centralidad de un nodo ayuda a dilucidar su “importancia” en la red, aunque no la representa por completo  El grado es una medida de centralidad  Distancia media geodésica al resto de nodos: cercanía  Intermediación: medida de las veces que un nodo se interpone entre la distancia geodésica de otros
  • 148. Análisis Redes Sociales Teoría de Grafos (X) ● Mediciones: Nodos (cont.) o Centralidad Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/
  • 149. Análisis Redes Sociales Teoría de Grafos (XI) ● Mediciones: Nodos (cont.) o Centralidad
  • 150. Análisis Redes Sociales Teoría de Grafos (XII) ● Mediciones: Nodos (cont.) o Centralidad
  • 151. Análisis Redes Sociales Teoría de Grafos (XIII) ● Mediciones: Nodos (cont.) o Centralidad Fuente: http://slideplayer.es/slide/19335/
  • 152. Análisis Redes Sociales Teoría de Grafos (XIV) ● Mediciones: Nodos (cont.)
  • 153. Análisis Redes Sociales Teoría de Grafos (XV) ● Mediciones: Nodos (cont.) o Caminos  Un camino es una ruta que une dos nodos pasando por otros.  Hay diferentes tipos de caminos ● walk ● trail: walk en el que todas las líneas son distintas ● path: trail que no repite nodos ● semipath: en un grafo dirigido, path que ignora el sentido de las uniones
  • 154. Análisis Redes Sociales Teoría de Grafos (XVI) ● Mediciones: Nodos (cont.) o Caminos Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/
  • 155. Análisis Redes Sociales Teoría de Grafos (XVII) ● GPS Data on Beijing Cabs Reveals the Cause of Traffic Jams o Investigadores de la Microsoft Research Asia han dividido la ciudad en regiones (figura contigua), analizando cómo los taxis se mueven a través de ellas o Si se puede tomar un camino directo entrea A y B, y un taxista toma un camino alternativa... ¿qué pasa? o Algoritmo aplicable a ciudades con mucha densidad de taxis (Mexico City, Bangkok, Tokyo, New York, Buenos Aires y Moscow)
  • 156. Análisis Redes Sociales Teoría de Grafos (XVIII) ● Mediciones: Nodos (cont.) o Conexión  Débilmente conectados: semicamino  Unilateralmente conectados ● Path de a a b pero no a la inversa  Fuertemente conectados: unilateralmente conectados en ambos sentidos  Recursivamente conectados: orden de nodos idéntico pero inverso
  • 157. Análisis Redes Sociales Teoría de Grafos (XIX) ● Mediciones: Nodos (cont.) o Distancia geodésica  Longitud del path más corto entre dos nodos  Si no son alcanzables entre sí, infinita o idefinida Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL
  • 158. Análisis Redes Sociales Teoría de Grafos (XX) ● Mediciones: Grafo o Densidad  Proporción entre líneas existentes y líneas posibles  Líneas posibles ● Grafo no orientado: g (g-1) / 2 ● Grafo orientado: g (g-1) o Subgrafo  Un grafo G2 es subgrafo de G1 si G1 contiene G2
  • 159. Análisis Redes Sociales Teoría de Grafos (XXI) ● Mediciones: Grafo o Densidad
  • 160. Análisis Redes Sociales Teoría de Grafos (XXII) ● Mediciones: Grafo o Diámetro  Distancia geodésica más alta entre dos nodos o Punto de corte  Nodo que, al eliminarlo rompe el grafo
  • 161. Análisis Redes Sociales Teoría de Grafos (XXIII) ● Representación de los datos o Matriz de adyacencia o Lista de aristas o Lista de adyacencia
  • 162. Análisis Redes Sociales Teoría de Grafos (XXIV) ● Matriz de adyacencia
  • 163. Análisis Redes Sociales Teoría de Grafos (XXV) ● Lista de aristas o 2, 3 o 2, 4 o 3, 2 o 3, 4 o 4, 5 o 5, 2 o 5, 1
  • 164. Análisis Redes Sociales Teoría de Grafos (XXVI) ● Lista de adyacencia o Más útiles para redes poco densas o grandes o Lista:  1:  2: 3 4  3: 2 4  4: 5  5: 1 2
  • 165. Análisis Redes Sociales Teoría de Grafos (XXVII) ● Software o NodeXL o Gephi o R / Python
  • 166. Análisis Redes Sociales Aplicaciones para Tenzing Actividad BI.02.6. Análisis Redes Sociales ● Pensar 2 o 3 casos de uso ● Implementar sobre Gephi a partir de los datos normalizados de Pentaho ● Interpretar las conclusiones ● Pensar representación ● Presentar conclusiones
  • 167. Análisis Redes Sociales Aplicaciones para Tenzing
  • 168. Análisis Redes Sociales Aplicaciones para Tenzing (II)
  • 169. El proceso de análisis y explotación de datos en proyectos de Business Intelligence Módulo 02: Análisis y procesamiento de datos para descubrir conocimiento Alex Rayón Jerez alex.rayon@urbegi.com Octubre, 2014