Taller práctico "Análisis y procesamiento de datos para descubrir conocimiento" como segundo paso a la capacitación de una organización para la explotación de los datos para aumentar la inteligencia de negocios.
INTERESES Y MULTAS DEL IMPUESTO A LA RENTA POWER POINT.pptx
Análisis y procesamiento de datos para descubrir conocimiento
1. El proceso de análisis y
explotación de datos en
proyectos de Business
Intelligence
Módulo 02: Análisis y procesamiento de datos para
descubrir conocimiento
Alex Rayón Jerez
alex.rayon@urbegi.com
Octubre, 2014
3. Índice de contenidos
● Modelo de datos
● Dimensiones de datos
● Procesamiento de datos en un ETL
● Técnicas de descubrimiento de conocimiento
● Text mining
● Análisis de Rdes Sociales
4. Índice de contenidos
● Modelo de datos
● Dimensiones de datos
● Procesamiento de datos en un ETL
● Técnicas de descubrimiento de conocimiento
● Text mining
● Análisis de Redes Sociales
5. Modelo de datos
Introducción
1 2 3
Proceso Modelo
Plataforma
explotación
Datos
Ciclo de
análisis
de datos
Representación
para explotación
Información y
conocimiento
Día 2
6. Modelo de datos
Introducción (II)
● Representación de los datos para ponerlos
en explotación
o Hay que considerar todo lo que vimos en el primer día
→ especialmente los datos capturados que han sido
normalizados
● No se puede hacer Data mining sin más
o Se necesita un marco teórico → una representación
conceptual del dominio o contexto en el que se está
trabajando
8. Modelo de datos
Usos de datos
● Desde una perspectiva de Teoría del
Conocimiento, tres usos de datos:
o Deducción
Preguntas a resolver con la Base de Datos que se
dispone (enfoque estadístico tradicional)
o Inducción
Analizar los datos con la esperanza de encontrar
algo (Data Mining)
o Abducción
Deducción + Inducción
9. Modelo de datos
Usos de datos (II)
Fuente: http://matedisyalgeline.blogspot.com.es/p/la-induccion-se-refiere-al-movimiento.html
10. Modelo de datos
Mapa conceptual
Concepto 1
Conceptos/Entidades
(elemento abstracto de
Concepto 2
Concepto 3
información)
Concepto n
Relaciones entre conceptos
11. Modelo de datos
Mapa conceptual (II)
Nos ayuda a entender el dominio/contexto y a
facilitar el entendimiento mutuo entre todas las
personas que están implicados en el proyecto
Source: http://www.economist.com/blogs/economist-explains/2013/05/economist-explains-14
Source: http://www.economist.com/news/finance-and-economics/21578041-containers-have-been-more-important-globalisation-freer-trade-humble
12. Modelo de datos
Mapa conceptual (III)
● El modelo de datos, el mapa conceptual,
describe los conceptos y las relaciones que
se emplean para el proyecto BI en el día a
día
o Expresadas en su propio lenguaje
o Permite que toda la organización participe en el
mantenimiento del mismo
Fuente: http://en.wikipedia.org/wiki/Esperanto_orthography
13. Índice de contenidos
● Modelo de datos
● Dimensiones de datos
● Procesamiento de datos en un ETL
● Técnicas de descubrimiento de conocimiento
● Text mining
● Análisis de Redes Sociales
14. Dimensiones de datos
Introducción
● Una dimensión de base de
datos es una colección de
objetos relacionados,
denominados atributos, que se
pueden usar para
proporcionar información
sobre los datos
o Atributos típicos de una dimensión
de producto pueden ser el nombre,
la categoría, la línea, el tamaño y el
precio del producto
Fuente: http://datawarehouse.es.tl/Funcionalidad.htm
15. Dimensiones de datos
Introducción (II)
● Estos objetos están enlazados a una o varias
columnas de una o varias tablas de una vista
del origen de datos
o De manera predeterminada, estos atributos están
visibles como jerarquías de atributo y se pueden
utilizar para comprender los datos de hechos en un
cubo
o Los atributos se pueden organizar en jerarquías
definidas por el usuario que proporcionan rutas de
navegación para ayudar a los usuarios al examinar los
datos
16. Dimensiones de datos
¿Nuestro objetivo?
¿Cuál es nuestro objetivo
en todo proyecto de
Business Intelligence?
17. Dimensiones de datos
¿Nuestro objetivo? Dar respuestas :-)
● Por cada pregunta → una respuesta
o Una respuesta → una dimensión de datos
● Se recomienda preparar cada dimensión de
datos en una rama de Pentaho Kettle
diferente
o De esta manera, se podrá ir modificando cada
respuesta según las necesidades cambiantes sin
afectar al resto de preguntas - respuestas
18. Índice de contenidos
● Modelo de datos
● Dimensiones de datos
● Procesamiento de datos en un ETL
● Técnicas de descubrimiento de conocimiento
● Text mining
● Análisis de Redes Sociales
19. Procesamiento datos ETL
Definición y características
● Una herramienta ETL
o Extrae datos desde varias fuentes de datos
(normalmente datos heredados)
o Transforma los datos
Desde → estar optimizados a transacciones
A → estar optimizados para el análisis y el
reporting
Sincronizar los datos que provienen de diferentes
fuentes de datos
Normaliza y limpia los datos
o Carga los datos en un aplicación de destino
(normalmente una Base de Datos)
20. Procesamiento datos ETL
¿Por qué necesito esta herramienta?
● Ahorran tiempo y dinero evitando tener que
desarrollar código manual de integración de
datos
● Es difícil para los administradores de Base de
Datos conectar fuentes de diferentes
fabricantes sin tener que emplear una
herramienta externa
● Si tuviera que eventualmente integrarse una
nueva Base de Datos, habría que rehacer el
código de integración de manera manual
21. Procesamiento datos ETL
Pentaho Kettle
Kettle
Una herramienta de Extracción, Transformación
y Carga (ETL) cuyas capacidades son
aprovechadas a través de un enfoque de
metadatos
22. Procesamiento datos ETL
Pentaho Kettle (II)
● Tiene una interfaz de usuario (GUI) muy
sencilla de utilizar
● Tiene una comunidad de desarrolladores con
más de 13.500 personas registradas
● Utiliza un motor Java que procesa las tareas
para mover datos entre las diferentes fuentes
de datos y archivos
26. Procesamiento datos ETL
Pentaho Kettle (VI)
● Tareas que puede ejecutar
o Integración de datos
o Limpieza de datos
o Normalización de datos
o Migración de datos
o Exportación de datos
o etc.
27. Procesamiento datos ETL
Transformaciones
● Manipulación de fechas y strings
● Validación de datos / Reglas de negocio
● Join
● Cálculos matemáticos
● Cálculo estadístico
● Criptografía
● Control del fujo
● Scripting
● etc.
28. Procesamiento datos ETL
¿Para qué me puede servir?
● Espejar los datos entre maestro y esclavo
● Sincronizar dos fuentes de datos
● Procesar datos de múltiples fuentes y llevarlas
hasta múltiples destinos
● Cargar los datos en un Sistema de Gestión de
Base de Datos
● Manipulación gráfica de los datos
● Datamart / Datawarehouse
29. Procesamiento datos ETL
¿Para qué me puede servir? (II)
Actividad BI.02.1. Dimensiones + Modelo de
datos
● Entidades + relaciones entre entidades
● Sustentación teórica
● Dimensiones
● Definir las diferentes ramas en Pentaho Kettle
● Orientar las transformaciones hacia las
dimensiones y el modelo de datos para
explotación final
30. Índice de contenidos
● Modelo de datos
● Dimensiones de datos
● Procesamiento de datos en un ETL
● Técnicas de descubrimiento de conocimiento
● Text mining
● Análisis de Redes Sociales
33. Descubriendo conocimiento
1) Métodos predictivos
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
34. Descubriendo conocimiento
1) Métodos predictivos (II)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
35. Descubriendo conocimiento
1) Métodos predictivos (III)
● La clasificación es una de las tareas más
importantes en minería de datos
● Obtener un modelo, patrón o función que
discrimine entre dos o más clases excluyentes
● Medida tradicional para evaluar:
o Error (también inversamente accuracy): % de
instancias mal clasificadas (respecto al conjunto de
test o utilizando validación cruzada / bootstrapping)
36. Descubriendo conocimiento
1) Métodos predictivos (IV)
● Un clasificador
permite asistir en la
toma de decisiones
(entre diferentes
acciones)
o Swets, J.A., Dawes, R.M.,
& Monahan, J. (2000).
“Better decisions
through science”
Scientific American,
283, 82-87.
37. Descubriendo conocimiento
1) Métodos predictivos (V)
Árboles de decisión
● Plantea el problema desde distintas perspectivas de
acción
● Permite analizar de manera completa todas las posibles
soluciones
● Provee de un esquema para cuantificar el coste del
resultado y su probabilidad de uso
● Ayuda a realizar las mejores decisiones con base a la
información existente y a las mejores suposiciones
● Su estructura permite analizar las alternativas, los
eventos, las probabilidades y los resultados
39. Descubriendo conocimiento
1) Métodos predictivos (VII)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
40. Descubriendo conocimiento
1) Métodos predictivos (VIII)
Regresión lineal
● Puede definirse como un esquema de relación entre una
variable Y (EXÓGENA O A EXPLICAR) y otra(s) variable(s) X
(X1X2 ... Xk ) (endógena(s) o explicativa(s), tal que:
Y = FUNCIÓN LINEAL (X) + PERTURBACIÓN ALEATORIA
(Modelo Lineal Simple)
Y = FUNCIÓN LINEAL (X1, X2, ... Xk ) + PERTURBACIÓN ALEATORIA
(Modelo Lineal General)
41. Descubriendo conocimiento
1) Métodos predictivos (IX)
Regresión lineal
(cont.) ● Las hipótesis (básicas) que se asuman sobre la
perturbación aleatoria permitirán realizar el análisis
estadístico inferencial
● Las razones para la introducción de una perturbación
aleatoria, son fundamentalmente:
o Efecto de variables no consideradas
o Efectos imprevistos (catástrofes, modas, etc.)
o Errores de observación o medición
42. Descubriendo conocimiento
1) Métodos predictivos (X)
Regresión lineal
(cont.) ● Utilidades del modelo lineal:
o Verificar la existencia de la relación lineal
o Estimar (contrastar) la (una) relación lineal
concreta (estructural)
Supone actuar sobre los coeficientes de la
relación lineal
o Predecir la variable y en función de x o (x1, x2, …
xk)
43. Descubriendo conocimiento
1) Métodos predictivos (XI)
Source: Data Mining with WEKA MOOC (http://www.cs.waikato.ac.nz/ml/weka/mooc/dataminingwithweka/)
44. Descubriendo conocimiento
1) Métodos predictivos (XII)
Regresión lineal
(cont.) ● Una vez ajustada la recta de regresión a la nube de
observaciones, es importante disponer de una
medida que mida la bondad del ajuste realizado
● Permitirá decidir si el ajuste lineal es suficiente o se
deben buscar modelos alternativos
45. Descubriendo conocimiento
1) Métodos predictivos (XIII)
Existe una dependencia funcional lineal, las observaciones están sobre la
recta de regresión. r = R2 = 1, recta de regresión: y = x.
Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
46. Descubriendo conocimiento
1) Métodos predictivos (XIV)
La relación lineal entre las variables es muy pequeña y no parece que exista otro tipo de relación
entre ellas, la nube de puntos indica que las variables son casi independientes
r = 0'192, R2 = 0'037, recta de regresión: y = 6'317 + 0'086x
Contraste de regresión: FR = 0'687 ∈ F1,18 → p - valor = 0'418. Se acepta la no influencia de la
variable regresora en Y.
Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
47. Descubriendo conocimiento
1) Métodos predictivos (XV)
Existe una dependencia funcional entre las observaciones pero no de tipo lineal, por tanto la
correlación es muy pequeña
r = 0'391, R2 = 0'153, recta de regresión: y = 32'534 - 1'889x.
Contraste de regresión: FR = 3'252 ∈ F1,18 → p - valor = 0'088. Se acepta que no existe relación
lineal con α = 0'05. Se debe de hacer un ajuste del tipo parabólico Y = α0 + α1x + α2x2
Fuente: http://dm.udc.es/asignaturas/estadistica2/sec6_8.html
49. Procesamiento datos ETL
Aplicaciones para Tenzing
Actividad BI.02.2. Predicción
● Pensar 2 o 3 casos de uso
● Implementar sobre WEKA a partir de los datos
normalizados de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
51. Descubriendo conocimiento
2) Descubrimiento de estructuras (II)
Clustering
● Identifica de forma automática agrupaciones
o clústeres de elementos de acuerdo a una
medida de similitud entre ellos
o El objetivo fundamental de las técnicas de clustering
consiste en identificar grupos o clústeres de elementos
tal que:
La similitud media entre elementos del mismo
clúster sea alta: similitud intra-clúster alta
La similitud media entre elementos de distintos
clústeres sea baja: similitud inter-clúster baja
52. Descubriendo conocimiento
2) Descubrimiento de estructuras (III)
Clustering
Existen principalmente dos tipos diferentes de técnicas de clustering:
53. Descubriendo conocimiento
2) Descubrimiento de estructuras (IV)
Clustering
● Clustering jerárquico
o Construye un dendograma o árbol que representa las
relaciones de similitud entre los distintos elementos
Clustering jerárquico aglomerativo: se comienza
con tantos clústeres como individuos y consiste en
ir formando (aglomerando) grupos según su
similitud
Clustering jerárquico de división: se comienza
con un único clúster y consiste en ir dividiendo
clústeres según la disimilitud entre sus
componentes.
54. Descubriendo conocimiento
2) Descubrimiento de estructuras (V)
Clustering
● Clustering de partición
o Clustering de partición entorno a centroides (PAM) realiza
una distribución de los elementos entre un número
prefijado de clústeres o grupos
Recibe como dato de entrada el número de clústers a
formar además de los elementos a clasificar y la matriz
de similitudes
o Explorar todas las posibles particiones es
computacionalmente intratable
Por lo tanto, suelen seguirse algoritmos aproximados
guiados por determinadas heurísticas
55. Descubriendo conocimiento
2) Descubrimiento de estructuras (VI)
Clustering
● Clustering de partición
o En lugar de construir un árbol el objetivo en PAM consiste
en agrupar los elementos entorno a elementos centrales
llamados centroides a cada clúster
mC=argmin m∈CΣ mj∈Cdist(m,mj)
56. Descubriendo conocimiento
2) Descubrimiento de estructuras (VII)
Clustering
● Clustering de partición
Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
57. Descubriendo conocimiento
2) Descubrimiento de estructuras (VIII)
Clustering
● Durante el flujo de trabajo de clustering
existen tres puntos claves donde se toman
decisiones que determinan la identificación
final de grupos o clústeres de genes:
o Elección de la medida de similitud o distancia
o Elección del algoritmo de clustering
o Elección del número de clústers a identificar
58. Descubriendo conocimiento
2) Descubrimiento de estructuras (IX)
Clustering
● Para determinar la mejor elección posible es
necesario fijar un criterio para mediar la
calidad del resultado proporcionado por un
flujo de trabajo de clustering
o El objetivo general perseguido por las técnicas de
clustering consiste en identificar grupos o clústeres
compactos
o Es decir, clusteres con una similitud intra-clúster alta y
una similitud inter-clúster baja → esta idea intuitiva se
formaliza en el concepto de silueta de un cluster
59. Descubriendo conocimiento
2) Descubrimiento de estructuras (X)
Clustering
Como medida de la distancia intracluster de un elemento del clúster si se toma:
a(si)= Σ sj∈Cd(sj,si) |C|-1
Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
60. Descubriendo conocimiento
2) Descubrimiento de estructuras (XI)
Clustering
Como medida de la distancia intercluster se toma:
b(si)=mink Σ sj∈Ckd(si,sj) |Ck|
Fuente: http://www.cs.us.es/~fran/curso_unia/clustering.html
62. Descubriendo conocimiento
2) Descubrimiento de estructuras (XIII)
Análisis factorial
● Reducir una matriz de datos a dimensiones
estructurales más pequeñas
● Permite apreciar hasta dónde existe algún
patrón subyacente de relaciones en los
datos de la matriz
● Reduce las medidas a un conjunto más
pequeño de factores
o Los factores pueden ser tomados como variables
originarias que explican las interrelaciones
observadas en los datos
63. Descubriendo conocimiento
2) Descubrimiento de estructuras (XIV)
Análisis factorial
● Fue creado por Spearman (1904)
● Su propósito era el de probar su Teoría de la
Inteligencia
● Él sostenía que en todas las habilidades
mentales subyacía un factor general (común)
que denominó g y factores específicos
independientes
65. Descubriendo conocimiento
2) Descubrimiento de estructuras (XVI)
Análisis factorial
● El Análisis de Factores (AF) parte del supuesto
de que en un conjunto de variables
intercorrelacionadas, dichas relaciones
recíprocas podrían deberse a la presencia de
una o más variables (factores subyacentes)
relacionadas en grados diversos con aquellas
o El propósito, así, del AF es identificar esos factores o
variables comunes, más generales, que los datos
mismos
66. Descubriendo conocimiento
2) Descubrimiento de estructuras (XVII)
Análisis factorial
● Desde el punto de vista matemático, un factor
puede ser definido como cualquier
combinación lineal de variables en la matriz
de datos
o Ejemplo: Sea el factor A, formado por las variables a, b,
c … k, y sus ponderaciones, fueran pa, pb, pc … pk, su
expresión algebraica sería:
A = pa*a + pb*b + pc*c + … + pk*k
67. Descubriendo conocimiento
2) Descubrimiento de estructuras (XVIII)
Análisis factorial
● Interpretación sobre los factores
o Como indicadores de efectos
Las variables observadas son consideradas como el
resultado de una variable subyacente latente
o Como componente
Las variables son transformadas en otras variables
por conveniencia
o Como indicadores causales
La variable latente es considerada como el
resultado de las observables
68. Descubriendo conocimiento
2) Descubrimiento de estructuras (XIX)
Análisis factorial
● Métodos de factorización
o Método Clásico
Se basa en la creencia de que las correlaciones
observadas en la matriz son principalmente el
resultado de alguna regularidad subyacente a los
datos
o Componentes Principales
Es un método de transformación directa de un
conjunto dado de variables dentro de un nuevo
conjunto de variables compuestas o componentes
principales
69. Descubriendo conocimiento
2) Descubrimiento de estructuras (XX)
Análisis factorial
● Tipos de factores
o General: variables cargan en un mismo factor
o Grupo: solo algunas variables son salientes
o Común: variables que miden el mismo factor
o Unipolar: variables con un mismo signo
o Bipolar: variables con signo + y -
o Singular: una sola saliente
o Nulo: no tiene saliente
70. Descubriendo conocimiento
2) Descubrimiento de estructuras (XXI)
Análisis factorial
● Aplicaciones
o Como técnica exploratoria
Examinar estructura subyacente a una Base de
Datos
o Como técnica confirmatoria
Probar la hipótesis acerca de la estructura
subyacente en la Base de Datos
o Como técnica de medición
Construcción de índices a partir de los coeficientes
de las cargas factoriales
71. Descubriendo conocimiento
2) Descubrimiento de estructuras (XXII)
Análisis factorial
Etapas Opciones Referencias
Matriz de datos Única (sujetos por medidas) Martiz tipo - X
Matriz de correlación Correlación entre las medidas Matriz tipo - R
Correlación entre unidades Matriz tipo - Q
Extracción de factores iniciales Factores definidos Análisis Componentes Principales
Factores inferidos Análisis Factorial Correspondencia
Rotación hasta la solución final Factores no-correlacionados Rotación ortogonal
Factores correlacionados Rotación oblicua
73. Descubriendo conocimiento
2) Descubrimiento de estructuras (XXIII)
Social Network Analysis
Más tarde lo veremos ;)
Source: http://rs.resalliance.org/2010/11/03/reading-list-using-social-network-analysis-sna-in-social-ecological-studies/
74. Procesamiento datos ETL
Aplicaciones para Tenzing
Actividad BI.02.3. Descubrimiento
estructuras
● Pensar 2 o 3 casos de uso
● Implementar sobre WEKA a partir de los datos
normalizados de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
75. Descubriendo conocimiento
3) Minería de relaciones
Association rule mining
Source: http://aimotion.blogspot.com.es/2013/01/machine-learning-and-data-mining.html
76. Descubriendo conocimiento
3) Minería de relaciones (II)
Reglas de asociación
● Las reglas de asociación en la minería de datos
se utilizan para encontrar hechos que
ocurren en común dentro de un conjunto de
datos
o Dicho de otra manera que debe ocurrir ciertas
condiciones para que se produzca cierta condición
77. Descubriendo conocimiento
3) Minería de relaciones (III)
Reglas de asociación
● Para encontrar estas reglas de debe
considerar cada posible combinación de
condiciones para que halla una consecuencia
o Al hablar de reglas de asociación también cumple un
rol importante:
Cobertura o soporte: número de instancias
predichas correctamente
Precisión o confianza: proporción de número de
instancias que es aplicada la regla
78. Descubriendo conocimiento
3) Minería de relaciones (IV)
Reglas de asociación
● Basándose en el concepto de reglas fuertes,
Agrawal et al., presentaron las reglas de
asociación para descubrir regularidades en
transacciones registradas en grandes
repositorios de datos de sistemas de punto
de ventas en supermercados
{pan, jamón} ⇒ {queso}
80. Descubriendo conocimiento
3) Minería de relaciones (VI)
Reglas de asociación
● Aplicaciones: Product placement → colocación de
productos en las estanterías de un supermercado
o Objetivo
Identificar artículos que muchos clientes
compran conjuntamente
o Solución
Procesar los datos de los terminales de punto
de venta proporcionados por los escáneres de
códigos de barras
81. Descubriendo conocimiento
3) Minería de relaciones (VII)
Reglas de asociación
● Aplicaciones: Promociones y ofertas → si se
identificar una regla del tipo {impresora} → {tóner}
o Tóner es el consecuente
Puede determinarse cómo incrementar sus ventas
o Impresora es el antecedente
Puede determinarse qué productos se verían afectados
si dejamos de vender impresoras
o Impresora es el antecedente y tóner el consecuente
Puede utilizarse para ver qué productos deberían
venderse con impresoras para promocionar las ventas
de tóner
82. Descubriendo conocimiento
3) Minería de relaciones (VIII)
Reglas de asociación
● Aplicaciones: Gestión de inventarios
o Problema
Una empresa de reparación de electrodomésticos
quiere anticipar la naturaleza de las reparaciones que
tendrá que realizar y mantener a sus vehículos
equipados con las piezas que permitan reducir el
número de visitas a casa de sus clientes
o Solución
Procesar los datos sobre herramientas y piezas
utilizadas en reparaciones previas para descubrir
patrones de co-ocurrencia
83. Descubriendo conocimiento
3) Minería de relaciones (IX)
Reglas de asociación
Expresión de la forma
X → Y
donde X e Y son itemsets
{pañales} → {cerveza}
{cerveza} → {pañales}
{pan, leche} → {huevos}
{pan} → {leche, huevos}
85. Descubriendo conocimiento
3) Minería de relaciones (XI)
Análisis correlacional
● Conceptualizaciones generales
o “Grado de relación o asociación entre dos variables”
(Hopkins, et al., 1997)
o “Las propiedades, cálculos y uso de la medida de
relación entre dos variables” (Young, R. y Veldman,
D., 1977)
o El grado y forma de relación entre dos variables
86. Descubriendo conocimiento
3) Minería de relaciones (XII)
Análisis correlacional
● Tipos de correlación
o Correlación bivariada
Grado de relación o asociación entre dos
variables
o Correlación múltiple
Grado de relación entre dos o más variables
87. Descubriendo conocimiento
3) Minería de relaciones (XIII)
Análisis correlacional
● Medición de correlación
o Gráfica
Dispersión, dispersigrama o nube de puntos
o Analítica
Ecuación matemática de Karl Pearson
Al final el “producto de Pearson” r
● r = muestras
● p = poblaciones
91. Descubriendo conocimiento
3) Minería de relaciones (XV)
Patrones secuenciales
● Minería de patrones que ocurren frecuentemente
relacionados al tiempo o a otras secuencias
● Un ejemplo de patrón secuencial es:
o “Un cliente que compra un iPad, dos días después
probablemente comprará la funda y las
aplicaciones de ofimática”
● Es similar a la minería de itemset frecuentes (reglas
de asociación), pero con una consideración de orden
92. Descubriendo conocimiento
3) Minería de relaciones (XVI)
Patrones secuenciales
● Aplicaciones
o Secuencias de compra del cliente
o Tratamientos médicos, desastres naturales,
procesos de la ingeniería y las ciencias, mercados
y valores, etc.
o Patrones de llamadas telefónicas, flujos de
navegación en la web, etc.
o Estructuras de ADN y genes
o ...
93. Descubriendo conocimiento
3) Minería de relaciones (XVII)
Patrones secuenciales
● Algoritmos
o Enfoques basados en Apriori
GSP (Generalized Sequential Patterns)
SPADe
o Enfoques basados en crecimiento de patrones
FreeSpan
PrefixSpain
97. Descubriendo conocimiento
3) Minería de relaciones (XX)
Análisis de causalidad
● Muchas preguntas en la vida diaria requiere la
identificación y medida de efectos causales
o ¿El tabaco provoca cáncer?
o ¿La aspirina reduce el riesgo de infarto?
o ¿Los cursos de formación para desempleados
ayudan a encontrar empleo?
o ¿Cuál es el impacto del salario mínimo sobre el
empleo?
o ¿Afectan los subsidios salariales o los impuestos a
la oferta de trabajo de los individuos?
98. Descubriendo conocimiento
3) Minería de relaciones (XXI)
Análisis de causalidad
Fuente: http://www.ciencia-explicada.com/2013/06/correlacion-causalidad-y-grafos-lo-mas.html
Fuente: http://avances.idict.cu/avances/article/view/26/46
99. Descubriendo conocimiento
3) Minería de relaciones (XXII)
Análisis de causalidad
● Podemos medir la correlación estadística, pero esta
no implica que exista causalidad
● Para ello, se utiliza el análisis experimental
o Nos permite estudiar la existencia de causalidad
Fuente: http://www.datuopinion.com/estudio-experimental
100. Descubriendo conocimiento
3) Minería de relaciones (XXIII)
Análisis de causalidad
● Se evalúa el efecto de un factor experimental (X)
sobre un fenómeno (Y)
o Se evalúa la relación: Y = f(x)
● El método incluye por necesidad la observación, pero
no es una observación simple o directa
o Puede o no utilizar técnicas estadísticas para
aleatorizar o poder hacer pruebas de hipótesis
● La metodología experimental a nivel social ha sido
criticada por razones de factibilidad y/o por razones
éticas
101. Descubriendo conocimiento
3) Minería de relaciones (XXIV)
Análisis de causalidad
● El modelo científico para el estudio de las relaciones
de causa y efecto es el experimento controlado
o Se comparan las respuestas de un grupo
experimental expuesto al estímulo crucial con los
de un grupo de control equivalente que no es
sometido al estímulo
102. Descubriendo conocimiento
3) Minería de relaciones (XXV)
Análisis de causalidad
Grupo
experimental
Grupo de control
Momento 1 X1 W1
Exposición al
estímulo E
Sin exposición al
estímulo E
Momento 2 X2 W2
103. Descubriendo conocimiento
3) Minería de relaciones (XXVI)
Análisis de causalidad
● Efecto del Estímulo = (X1 -W1) - (X2 -W2)
● Si los dos grupos fueron adecuadamente igualados
antes de la aplicación del estímulo, la medida del
efecto se simplifica: X1 = W1
● Y el efecto del estímulo se reduce a: X2 = W2
105. Procesamiento datos ETL
Aplicaciones para Tenzing
Actividad BI.02.4. Minería de relaciones
● Pensar 2 o 3 casos de uso
● Implementar sobre WEKA a partir de los datos
normalizados de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
107. Descubriendo conocimiento
Marketing Analytics (II)
● MROI: Marketing Return on Investment
o McKinsey review: an integrated analytics approach
could save up to 15-20% total budget
That’s $ 200.000.000.000 worlwide
Source: http://www.thecmosite.com/author.asp?section_id=1137&doc_id=234474
109. Descubriendo conocimiento
Marketing Analytics (IV)
1)Marketing-Mix Modeling (MMM)
● Big Data to determine the effectiveness of spending by
channel
Marketing
investments
● Include external variables such as seasonality, and
competitor and promotional activities to uncover
o Longitudinal effects: changes individuals and
segments over time
o Interaction effects: differences among offline, online
and Social Media activities
Marketing
investments
Statistical
links
110. Descubriendo conocimiento
Marketing Analytics (V)
2) Heuristich RCQ (Reach; Cost; Quality)
● Disaggregate touchpoints into its component paths
o target consumer Reached
o Cost per unique touch
o Quality of engagement
● More limited; but the best one when limited
data is available
111. Descubriendo conocimiento
Marketing Analytics (VI)
3) Attribution modeling
● Set of rules or algorithms that govern how credit for
converting traffic to sales is assigned to online
touchpoints
o Email campaign
o Online ad
o Social-networking feed
o Website
● Statistical modeling regression techniques
112. Índice de contenidos
● Modelo de datos
● Dimensiones de datos
● Procesamiento de datos en un ETL
● Técnicas de descubrimiento de conocimiento
● Text mining
● Análisis de Redes Sociales
113. Text mining
Introducción
● Estudios recientes indican que, de media, el
80% de la información de una empresa está
almacenada en forma de documentos
o Sin duda, este campo de estudio es muy amplio, por lo
que técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y
recuperación de la información o el aprendizaje
automática, entre otras, apoyan el text mining (o
minería de texto)
114. Text mining
Introducción (II)
● En ocasiones se confunde el text mining con la
recuperación de la información (Information
Retrieval, IR) [Hearst, 1999]
o Esta última, no obstante, consiste en la reacuperación
automática de documentos relevantes mediante
indexaciones de textos, clasificación, categorización,
etc.
o Generalmente se utilizan palabras clave para
encontrar una página relevante
o En cambio, el text mining se refiere a una examinar
uan colección de documentos y descubrir información
no contenida en ningún documento individual
[Nasukawa, 2001]
115. Text mining
¿Por qué?
● Hay una enorme cantidad de información en
texto
o Aparte de los libros, periódicos y enciclopedias en
Internet, se generan enormes cantidades de
información textual
Fuente: http://sandrolopezrivera.blogspot.com.es/2011_02_01_archive.html
116. Text mining
Pasos
1) Obtención y
agrupación Texto
2) Pre
procesamiento
3) Generación de
atributos
4) Selección de
atributos
5) Minería de
datos
6) Interpretación
y evaluación
117. Text mining
Pasos: 1) Obtención y agrupación del texto
● Los textos se encuentran en documentos
dispersos como páginas web, informes,
actualizaciones de status, etc.
● El primer paso, así, consiste en la obtención de
estos datos y su agrupamiento para comenzar
a trabajar
118. Text mining
Pasos: 2) Pre-procesamiento
● Eliminar el ruido
o Texto deliberadamente equivocado (SPAM)
o Textos ambiguos
o Texto erróneo
o Palabras que no tienen poder discriminatorio (STOP
WORDS)
o Ruido en el formato (tags, links)
o Multiplicidad de idiomas
o Sinónimos, palabras con varios significados
o Frases típicas
120. Text mining
Pasos: 2) Pre-procesamiento (III)
● Convertir el documento en un vector de
palabras: tokenization
Fuente: http://escritura.proyectolatin.org/topicos-avanzados-de-bases-de-datos/cap3-sistemas-de-recuperacion-de-informacion-sri/
121. Text mining
Pasos: 2) Pre-procesamiento (IV)
● Con WEKA:
o Se puede importar los datos en CSV
o Hay que eliminar los caracteres: , ; : “ ‘ % ()
o Aplicar primero el filtro NominalToString
o Aplicar el filtro StringToWordDetector
122. Text mining
Pasos: 3) Generación de atributos
● Representación del texto
o Bag of Words
Fuente: http://www.docstoc.com/docs/25215223/Bag-of-Words-Classification
123. Text mining
Pasos: 3) Generación de atributos (II)
● Representación del texto
o Bag of Words
Fuente: http://en.wikipedia.org/wiki/Bag-of-words_model
124. Text mining
Pasos: 4) Selección de atributos
● ¿Qué palabras tienen la mejor capacidad
discriminatoria?
● Se puede usar un clasificador
o Latent Semantic Analysis
Es una teoría y un método para extraer y
representar el significado de las palabras dentro de
un contexto utilizando técnicas estadísticas sobre
un cuerpo de texto grande
125. Text mining
Pasos: 4) Selección de atributos (II)
● En WEKA
o Ir a “Select attributes”
o Seleccionar “Latent Semantic Analysis”
o Start
o Guardar el nuevo dataset
126. Text mining
Pasos: 5) Minería de datos
● Se puede usar cualquiera de las técnicas vistas
en el apartado de descubrimiento de
conocimiento
o Clasificación
o Descubrimiento estructuras
o Reglas de asociación
127. Text mining
Pasos: 6)Interpretación y evaluación
● Interpretar
o Descubrimiento estructuras
● Evaluar los resultados
o Clasificación
o Reglas de asociación
● Sacar conclusiones o iterar sobre los pasos
anteriores
131. Procesamiento datos ETL
Aplicaciones para Tenzing
Actividad BI.02.5. Text Mining
● Pensar 2 o 3 casos de uso
● Implementar sobre Pentaho + Alchemy +
OpenCalais a partir de los datos normalizados
de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
132. Índice de contenidos
● Dimensiones de datos
● Modelo de datos
● Procesamiento de datos en un ETL
● Técnicas de descubrimiento de conocimiento
● Text mining
● Análisis Redes Sociales
133. Análisis Redes Sociales
¿Qué es?
● NO es solo Análisis de Social Media
o Puede ser parte
● Sociología + Matemáticas
o Actores que interactúan
o Teoría de Grafos
● Estudio numérico y representación gráfica
135. Análisis Redes Sociales
¿Qué se estudia?
● Redes egocéntricas
o Actor principal con sus relaciones, hasta el grado n
(“amigos de amigos de amigos”)
● Redes completas
o Número de nodos determinado por una característica
concreta: son los que son (UE)
● Grandes redes
o Redes con muchos nodos en las que en general el
investigador corta el límite
136. Análisis Redes Sociales
Elementos
● Actores
o Los nodos de la red no tienen por qué ser
necesariamente personas, pueden ser países, o incluso
actividades
o Depende de lo que se esté investigando
● Vínculos
o Los vínculos que unen a los actores se definen por sus
propiedades o características de la relación
137. Análisis Redes Sociales
Elementos (II)
Fuente: http://www.economiapersonal.com.ar/2014/06/14/red-social/
138. Análisis Redes Sociales
Características
● Basado en relaciones y vínculos entre
actores
● Recogida sistemática de datos empíricos del
tipo de relación estudiada entre cada par de
actores
o Representado por gráficos
● Se apoya en el uso de las matemáticas,
principalmente la teoría matemática de grafos
y/o en modelos informáticos
139. Análisis Redes Sociales
Teoría de Grafos
● Surge en el siglo XVIII con Euler (1707-1803)
o El problema de los puentes de Konigsberg
● Resolución de problemas que pueden ser
modelados mediante un grafo y resueltos
mediante algoritmos específicamente
desarrollados para un grafo
Fuente: http://pequenoldn.librodenotas.com/matiaventuras/1130/7-puentes-para-un-solo-paseo
140. Análisis Redes Sociales
Teoría de Grafos (II)
● La historia del metro de Londres tiene mucha
relación con la Teoría de Grafos
o Más concretamente, con la Inmersión de Grafos
(Graph Drawing)
o Permite explicar de forma sencilla la
representación (inmersión) de un grafo
● Para un mismo conjunto de vértices y una misma
lista de conexiones entre ellos, puede haber
trazados con o sin cruces entre las líneas.
● Depende del dibujo que se haga del grafo, de la
inmersión que se elija, se pueden destacar, y por lo
tanto aprovechar, una característica u otra del grafo
141. Análisis Redes Sociales
Teoría de Grafos (III)
● Los primeros mapas del metro de
Londres eran geográficos
o Dibujar sobre un plano de la ciudad
los recorridos de las distintas líneas
● Harry Beck, ingeniero electrónico
empleado en el metro de Londres, se
percató en 1931 de que al usuario no le
interesaba conocer el recorrido del
metro bajo tierra
o Simplemente le interesaba conocer
la posición relativa de las líneas y
estaciones para realizar los
trasbordos que necesitase
Fuente: http://lizlangstaff.blogspot.com.es/2011/10/harry-beck.
html
142. Análisis Redes Sociales
Teoría de Grafos (IV)
● Más que un diseño geográfico, resultaría más útil un
diseño topológico
o Menos curvas y direcciones en las líneas
o De broma, hizo su primer diseño basado en los
utilizados en circuitos eléctricos
● En 1936, entre otros cambios, eliminó curvas y sólo
permitió ángulos de 45º y 90º
● En 1940, se incorporaron ángulos de 60º también,
idea que se desechó por enturbiar la claridad del
plano
143. Análisis Redes Sociales
Teoría de Grafos (V)
Fuente: http://www.planlondres.com/transports-londoniens/plan-du-metro-de-londres-40.html
144. Análisis Redes Sociales
Teoría de Grafos (VI)
● ¿Por qué?
o Proporciona vocabulario preciso
o Herramientas cuantitativas
● Grafo
o “Un grafo (G) es un conjunto de vértices o nodos (N) y
líneas (L) que unen pares de nodos.”
o Nodos: actores
Pueden poseer atributos (sexo, grupo étnico, etc.)
o Líneas: vínculos
Puede haber diferentes tipos/características
(amistad, influencia)
A → B
145. Análisis Redes Sociales
Teoría de Grafos (VII)
Fuente: http://blog.visual.ly/movie-galaxies-uses-social-graph-organization-to-visualize-movie-interconnectedness/
146. Análisis Redes Sociales
Teoría de Grafos (VIII)
● Mediciones: Nodos
o Adyacencia / Incidencia
Dos nodos son adyacentes si están relacionados
Una línea y un nodo son incidentes entre sí si el
nodo es uno de los que definen la línea
o Grado
El grado de un nodo, designado d(n) es el número
de líneas que son incidentes con él (nodos
adyacentes)
147. Análisis Redes Sociales
Teoría de Grafos (IX)
● Mediciones: Nodos (cont.)
o Centralidad
La centralidad de un nodo ayuda a dilucidar su
“importancia” en la red, aunque no la representa
por completo
El grado es una medida de centralidad
Distancia media geodésica al resto de nodos:
cercanía
Intermediación: medida de las veces que un nodo
se interpone entre la distancia geodésica de otros
148. Análisis Redes Sociales
Teoría de Grafos (X)
● Mediciones: Nodos (cont.)
o Centralidad
Fuente: http://historiapolitica.com/redhistoria/2013/02/8n-en-twitter/
153. Análisis Redes Sociales
Teoría de Grafos (XV)
● Mediciones: Nodos (cont.)
o Caminos
Un camino es una ruta que une dos nodos pasando
por otros.
Hay diferentes tipos de caminos
● walk
● trail: walk en el que todas las líneas son distintas
● path: trail que no repite nodos
● semipath: en un grafo dirigido, path que ignora el sentido de
las uniones
154. Análisis Redes Sociales
Teoría de Grafos (XVI)
● Mediciones: Nodos (cont.)
o Caminos
Fuente: http://jariasf.wordpress.com/2012/03/19/camino-mas-corto-algoritmo-de-dijkstra/
155. Análisis Redes Sociales
Teoría de Grafos (XVII)
● GPS Data on Beijing Cabs Reveals
the Cause of Traffic Jams
o Investigadores de la Microsoft
Research Asia han dividido la ciudad
en regiones (figura contigua),
analizando cómo los taxis se mueven a
través de ellas
o Si se puede tomar un camino directo
entrea A y B, y un taxista toma un
camino alternativa... ¿qué pasa?
o Algoritmo aplicable a ciudades con
mucha densidad de taxis (Mexico City,
Bangkok, Tokyo, New York, Buenos
Aires y Moscow)
156. Análisis Redes Sociales
Teoría de Grafos (XVIII)
● Mediciones: Nodos (cont.)
o Conexión
Débilmente conectados: semicamino
Unilateralmente conectados
● Path de a a b pero no a la inversa
Fuertemente conectados: unilateralmente
conectados en ambos sentidos
Recursivamente conectados: orden de nodos
idéntico pero inverso
157. Análisis Redes Sociales
Teoría de Grafos (XIX)
● Mediciones: Nodos (cont.)
o Distancia geodésica
Longitud del path más corto entre dos nodos
Si no son alcanzables entre sí, infinita o idefinida
Fuente: http://wiki.uniandes.edu.co/RedesJuegosAltruismo/tiki-index.php?page=JULIAN_FELIPE_CA%C3%91ON_CARVAJAL
158. Análisis Redes Sociales
Teoría de Grafos (XX)
● Mediciones: Grafo
o Densidad
Proporción entre líneas existentes y líneas posibles
Líneas posibles
● Grafo no orientado: g (g-1) / 2
● Grafo orientado: g (g-1)
o Subgrafo
Un grafo G2 es subgrafo de G1 si G1 contiene G2
160. Análisis Redes Sociales
Teoría de Grafos (XXII)
● Mediciones: Grafo
o Diámetro
Distancia geodésica más alta entre dos nodos
o Punto de corte
Nodo que, al eliminarlo rompe el grafo
161. Análisis Redes Sociales
Teoría de Grafos (XXIII)
● Representación de los datos
o Matriz de adyacencia
o Lista de aristas
o Lista de adyacencia
163. Análisis Redes Sociales
Teoría de Grafos (XXV)
● Lista de aristas
o 2, 3
o 2, 4
o 3, 2
o 3, 4
o 4, 5
o 5, 2
o 5, 1
164. Análisis Redes Sociales
Teoría de Grafos (XXVI)
● Lista de adyacencia
o Más útiles para redes poco
densas o grandes
o Lista:
1:
2: 3 4
3: 2 4
4: 5
5: 1 2
166. Análisis Redes Sociales
Aplicaciones para Tenzing
Actividad BI.02.6. Análisis Redes Sociales
● Pensar 2 o 3 casos de uso
● Implementar sobre Gephi a partir de los datos
normalizados de Pentaho
● Interpretar las conclusiones
● Pensar representación
● Presentar conclusiones
169. El proceso de análisis y
explotación de datos en
proyectos de Business
Intelligence
Módulo 02: Análisis y procesamiento de datos para
descubrir conocimiento
Alex Rayón Jerez
alex.rayon@urbegi.com
Octubre, 2014