La detección de asociaciones no causales es una de las herramientas descriptivas más interesantes para el analista de Big Data. Porque detectar asociaciones entre hechos causales, es decir que uno lleva necesariamente al otro, es bastante sencillo. Es un problema de "causa y efecto", pero la vida cotidiana está llena de hechos relacionados en donde no existe esa causalidad. Por ejemplo, ¿cuántas personas que compran cierta revista también son aficionados a la cocina de setas? A primera vista no hay ninguna relación entre estos hechos, pero explorando la información enterrada en millones de tickets de compra de cualquier gran superficie podemos averiguar la respuesta. Big Data extrae información relevante para tomar decisiones de negocio, como en este caso.
En esta presentación, correspondiente al seminario impartido por primera vez en Mayo de 2016, aprenderás los conceptos básicos de este tipo de análisis numérico, así como la aplicación del algoritmo de Apriori, que es básico en el desarrollo de otras técnicas de asociación y criba.
2. INTRODUCCIÓN
El establecimiento de reglas de asociación es
una estrategia de aprendizaje no supervisado
para detectar relaciones “interesantes” en un
conjunto de datos.
raineropenschool.com
3. APLICACIONES
Las aplicaciones de este tipo de análisis tienen
una gran implantación en el mercado de
consumo, hasta el punto que la técnica se
llama “análisis de cestas de la compra”.
raineropenschool.com
4. CARACTERÍSTICAS
Son técnicas de análisis descriptivo; revelan lo
que hay, incluso cuando la relación es
completamente insospechada
No hacen predicciones, ni en el resultado ni
para el futuro. Comportamientos pasados no
garantizan comportamientos futuros.
Son estrategias de fuerza bruta, por lo que
pueden llegar a consumir muchos recursos.
raineropenschool.com
5. CONCEPTO DE RELACIÓN
Decimos que hay una relación entre dos
elementos, cuando aparecen juntos
demasiado a menudo como para sea un hecho
aleatorio y existe un valor comercial en él.
raineropenschool.com
6. REGLAS DE ENUNCIACIÓN
Decimos que “cuando observamos X, también
se observa Y”, con la convención X -> Y. Ambos
elementos de la relación se denominan “carga
del lado izquierdo y derecho” (LHS, RHS).
raineropenschool.com
7. CONCEPTO DE ITEMSET
Un “itemset” es una colección de elementos
(desde 1 a n) cuyos componentes mantienen
una relación entre sí. Un itemset de k
elementos se denomina k-itemset.
raineropenschool.com
8. ALGORITMO DE APRIORI
Uno de los algoritmos de análisis de asociación
más tempranos e influyentes es el de Apriori.
Se basa en el uso del “soporte” como
elemento de referencia en la criba de datos.
raineropenschool.com
9. CONCEPTO DE SOPORTE
El “soporte” es un valor de referencia,
expresado en porcentaje o en tanto por uno. Se
establece de forma arbitraria por el analista y
define el umbral de criba.
raineropenschool.com
10. CRITERIO DE SOPORTE MÍNIMO
Por ejemplo, dado un soporte del 0’8 para un
conjunto L, superarán la criba (serán
“frecuentes”) aquellos artículos que estén
presentes en más del 80% de los tickets.
raineropenschool.com
11. PROPIEDAD DE APRIORI
Si un itemset se considera frecuente, cualquier
subconjunto del itemset mantiene esta
consideración. Este razonamiento se denomina
“propiedad de cierre a la baja”.
raineropenschool.com
12. ALGORITMO DE APRIORI
El algoritmo de Apriori “barre” el conjunto de
elementos por completo en sucesivas
iteraciones, eliminando los itemsets que no
superan el soporte definido.
raineropenschool.com
13. ESQUEMA DE APLICACIÓN DEL MÉTODO
1. En la primera iteración, L1, se recorre todo el
conjunto de datos, valorando itemsets de 1
elemento. Los que no superan el soporte, se
eliminan del análisis.
2. En la segunda iteración, L2, los itemsets
supervivientes se emparejan en 2-itemsets,
aplicando la misma regla.
3. El resultado es un conjunto de reglas de
asociación.
raineropenschool.com
14. FIABILIDAD DE LAS ASOCIACIONES
Confianza X → 𝑌 =
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 (𝑋 ∩ 𝑌)
𝑆𝑜𝑝𝑜𝑟𝑡𝑒(𝑋)
La confianza (confidence) es el porcentaje de
transacciones que contienen los dos
elementos de la regla, entre todos los que
contienen el primer elemento.
raineropenschool.com
15. ASCENSO DE LAS ASOCIACIONES
Ascenso X → 𝑌 =
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 (𝑋 ∩ 𝑌)
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝑋 ∗ 𝑆𝑜𝑝𝑜𝑟𝑡𝑒(𝑌)
El ascenso (lift) es una medida de cómo de
probable es que ambos elementos de una
regla aparezcan juntos más a menudo que
separados.
raineropenschool.com
16. APALANCAMIENTO DE LAS ASOCIACIONES
Apalancamiento X → 𝑌 =
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝑋 ∩ 𝑌 − 𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝑋 ∗ 𝑆𝑜𝑝𝑜𝑟𝑡𝑒(𝑌)
El apalancamiento (leverage) es la probabilidad
neta de que los dos elementos de la regla
aparezcan juntos, respecto a su independencia
estadística.
raineropenschool.com
17. INTERPRETACIÓN DE LAS MÉTRICAS
Confianza es la posibilidad de identificar
relaciones consistentes, pero no sabemos si
son una mera casualidad.
El ascenso es un valor de esa incidencia
estadística.
El apalancamiento nos dice qué probabilidad
hay de que ocurra esa asociación, respecto al
primer elemento de la misma.
raineropenschool.com
18. DEBILIDADES DEL MÉTODO
Aunque es un proceso de criba que reduce el
campo de datos, la estrategia de fuerza bruta
puede requerir un enorme uso de recursos.
El algoritmo identifica asociaciones, pero éstas
no tienen por qué tener ningún significado ni
mantenerse en el tiempo.
La definición del soporte es una decisión
arbitraria.
raineropenschool.com
19. ESTRATEGIAS DE MEJORA DE LA EFICIENCIA
Particionamiento del conjunto de datos.
Muestreo aleatorio.
Reduccionismo en las transacciones.
Recuento por condensación.
Recuento dinámico.
raineropenschool.com
20. CONCLUSIONES
La detección de reglas de asociación es un
conjunto de estrategias para detectar
relaciones entre elementos de un conjunto.
Son esquemas de aprendizaje automático, no
supervisado, descriptivos y no predictivos.
Pueden ser computacionalmente intensos.
Dependen de algunas decisiones subjetivas.
raineropenschool.com
21. LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Capítulo 5, por lo que se
refiere a esta presenta-
ción
raineropenschool.com
22. SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
Sistemas de información (IT).
Gestión de proyectos (PM).
Aseguramiento de la calidad (QA).
Facility Management (FM).
En LinkedIn: http://bit.ly/2mgxbmx
Email: contacto@rafael-morales.com
raineropenschool.com
23. OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras del
mismo autor en Amazon:
http://amzn.to/1Rp8yM9
También puedes seguir las
novedades y convocatorias de
nuevos seminarios, cursillos y
presentaciones en
raineropenschool.com
raineropenschool.com