SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
TÉCNICAS DE ANÁLISIS: ASOCIACIÓN
raineropenschool.com
Rainer Open School – Big Data
INTRODUCCIÓN
El establecimiento de reglas de asociación es
una estrategia de aprendizaje no supervisado
para detectar relaciones “interesantes” en un
conjunto de datos.
raineropenschool.com
APLICACIONES
Las aplicaciones de este tipo de análisis tienen
una gran implantación en el mercado de
consumo, hasta el punto que la técnica se
llama “análisis de cestas de la compra”.
raineropenschool.com
CARACTERÍSTICAS
 Son técnicas de análisis descriptivo; revelan lo
que hay, incluso cuando la relación es
completamente insospechada
 No hacen predicciones, ni en el resultado ni
para el futuro. Comportamientos pasados no
garantizan comportamientos futuros.
 Son estrategias de fuerza bruta, por lo que
pueden llegar a consumir muchos recursos.
raineropenschool.com
CONCEPTO DE RELACIÓN
Decimos que hay una relación entre dos
elementos, cuando aparecen juntos
demasiado a menudo como para sea un hecho
aleatorio y existe un valor comercial en él.
raineropenschool.com
REGLAS DE ENUNCIACIÓN
Decimos que “cuando observamos X, también
se observa Y”, con la convención X -> Y. Ambos
elementos de la relación se denominan “carga
del lado izquierdo y derecho” (LHS, RHS).
raineropenschool.com
CONCEPTO DE ITEMSET
Un “itemset” es una colección de elementos
(desde 1 a n) cuyos componentes mantienen
una relación entre sí. Un itemset de k
elementos se denomina k-itemset.
raineropenschool.com
ALGORITMO DE APRIORI
Uno de los algoritmos de análisis de asociación
más tempranos e influyentes es el de Apriori.
Se basa en el uso del “soporte” como
elemento de referencia en la criba de datos.
raineropenschool.com
CONCEPTO DE SOPORTE
El “soporte” es un valor de referencia,
expresado en porcentaje o en tanto por uno. Se
establece de forma arbitraria por el analista y
define el umbral de criba.
raineropenschool.com
CRITERIO DE SOPORTE MÍNIMO
Por ejemplo, dado un soporte del 0’8 para un
conjunto L, superarán la criba (serán
“frecuentes”) aquellos artículos que estén
presentes en más del 80% de los tickets.
raineropenschool.com
PROPIEDAD DE APRIORI
Si un itemset se considera frecuente, cualquier
subconjunto del itemset mantiene esta
consideración. Este razonamiento se denomina
“propiedad de cierre a la baja”.
raineropenschool.com
ALGORITMO DE APRIORI
El algoritmo de Apriori “barre” el conjunto de
elementos por completo en sucesivas
iteraciones, eliminando los itemsets que no
superan el soporte definido.
raineropenschool.com
ESQUEMA DE APLICACIÓN DEL MÉTODO
1. En la primera iteración, L1, se recorre todo el
conjunto de datos, valorando itemsets de 1
elemento. Los que no superan el soporte, se
eliminan del análisis.
2. En la segunda iteración, L2, los itemsets
supervivientes se emparejan en 2-itemsets,
aplicando la misma regla.
3. El resultado es un conjunto de reglas de
asociación.
raineropenschool.com
FIABILIDAD DE LAS ASOCIACIONES
Confianza X → 𝑌 =
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 (𝑋 ∩ 𝑌)
𝑆𝑜𝑝𝑜𝑟𝑡𝑒(𝑋)
La confianza (confidence) es el porcentaje de
transacciones que contienen los dos
elementos de la regla, entre todos los que
contienen el primer elemento.
raineropenschool.com
ASCENSO DE LAS ASOCIACIONES
Ascenso X → 𝑌 =
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 (𝑋 ∩ 𝑌)
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝑋 ∗ 𝑆𝑜𝑝𝑜𝑟𝑡𝑒(𝑌)
El ascenso (lift) es una medida de cómo de
probable es que ambos elementos de una
regla aparezcan juntos más a menudo que
separados.
raineropenschool.com
APALANCAMIENTO DE LAS ASOCIACIONES
Apalancamiento X → 𝑌 =
𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝑋 ∩ 𝑌 − 𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝑋 ∗ 𝑆𝑜𝑝𝑜𝑟𝑡𝑒(𝑌)
El apalancamiento (leverage) es la probabilidad
neta de que los dos elementos de la regla
aparezcan juntos, respecto a su independencia
estadística.
raineropenschool.com
INTERPRETACIÓN DE LAS MÉTRICAS
 Confianza es la posibilidad de identificar
relaciones consistentes, pero no sabemos si
son una mera casualidad.
 El ascenso es un valor de esa incidencia
estadística.
 El apalancamiento nos dice qué probabilidad
hay de que ocurra esa asociación, respecto al
primer elemento de la misma.
raineropenschool.com
DEBILIDADES DEL MÉTODO
 Aunque es un proceso de criba que reduce el
campo de datos, la estrategia de fuerza bruta
puede requerir un enorme uso de recursos.
 El algoritmo identifica asociaciones, pero éstas
no tienen por qué tener ningún significado ni
mantenerse en el tiempo.
 La definición del soporte es una decisión
arbitraria.
raineropenschool.com
ESTRATEGIAS DE MEJORA DE LA EFICIENCIA
 Particionamiento del conjunto de datos.
 Muestreo aleatorio.
 Reduccionismo en las transacciones.
 Recuento por condensación.
 Recuento dinámico.
raineropenschool.com
CONCLUSIONES
 La detección de reglas de asociación es un
conjunto de estrategias para detectar
relaciones entre elementos de un conjunto.
 Son esquemas de aprendizaje automático, no
supervisado, descriptivos y no predictivos.
 Pueden ser computacionalmente intensos.
 Dependen de algunas decisiones subjetivas.
raineropenschool.com
LECTURAS RECOMENDADAS
Data Science & Big Data
Statistics
EMC Education Services
ISBN: 978-1118876138
http://amzn.to/1QTNWH7
Capítulo 5, por lo que se
refiere a esta presenta-
ción
raineropenschool.com
SOBRE EL AUTOR
Rafael Morales
Consultor y formador en
 Sistemas de información (IT).
 Gestión de proyectos (PM).
 Aseguramiento de la calidad (QA).
 Facility Management (FM).
En LinkedIn: http://bit.ly/2mgxbmx
Email: contacto@rafael-morales.com
raineropenschool.com
OTROS CONTENIDOS
Puedes encontrar las notas de
esta conferencia y otras del
mismo autor en Amazon:
http://amzn.to/1Rp8yM9
También puedes seguir las
novedades y convocatorias de
nuevos seminarios, cursillos y
presentaciones en
raineropenschool.com
raineropenschool.com

Más contenido relacionado

Destacado

Introducción a la tecnología cluster
Introducción a la tecnología clusterIntroducción a la tecnología cluster
Introducción a la tecnología clusterRafael Morales
 
Cómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShareCómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideSharePedro Bermudez Talavera
 
How to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your NicheHow to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your NicheLeslie Samuel
 

Destacado (6)

Guion Didactico Gimp
Guion Didactico GimpGuion Didactico Gimp
Guion Didactico Gimp
 
Educacion y TIC
Educacion y TICEducacion y TIC
Educacion y TIC
 
Personal Kanban
Personal KanbanPersonal Kanban
Personal Kanban
 
Introducción a la tecnología cluster
Introducción a la tecnología clusterIntroducción a la tecnología cluster
Introducción a la tecnología cluster
 
Cómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShareCómo descargar presentaciones desde SlideShare
Cómo descargar presentaciones desde SlideShare
 
How to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your NicheHow to Become a Thought Leader in Your Niche
How to Become a Thought Leader in Your Niche
 

Similar a Técnicas de análisis: Reglas de asociación

Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datosBryan Barragan
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariadoanasoniaapaza
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdfKamZee1
 
SIMULACIÓN DE SISTEMAS-UNIDAD I.ppt
SIMULACIÓN DE SISTEMAS-UNIDAD I.pptSIMULACIÓN DE SISTEMAS-UNIDAD I.ppt
SIMULACIÓN DE SISTEMAS-UNIDAD I.pptUGMA
 
Ingenieria de Sistemas
Ingenieria de SistemasIngenieria de Sistemas
Ingenieria de Sistemasksimanca18
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datosDavidAcurio2
 
sistemas basados en reglas (sbr).pptx
sistemas basados en reglas (sbr).pptxsistemas basados en reglas (sbr).pptx
sistemas basados en reglas (sbr).pptxCarlosJoseMorataya
 
The fisher assumptions and how to check them
The fisher assumptions and how to check themThe fisher assumptions and how to check them
The fisher assumptions and how to check themAlex
 
Informe de Pronósticos en los Negocios
Informe de Pronósticos en los NegociosInforme de Pronósticos en los Negocios
Informe de Pronósticos en los Negociosany1289
 
Sistemas Basados en Reglas
Sistemas Basados en ReglasSistemas Basados en Reglas
Sistemas Basados en ReglasKevin Herrarte
 
Práctica nº 1
Práctica nº 1Práctica nº 1
Práctica nº 1Tensor
 
1.5 Procesos de simulación.
1.5 Procesos de simulación. 1.5 Procesos de simulación.
1.5 Procesos de simulación. avengers92
 
Análisis multivariante
Análisis multivarianteAnálisis multivariante
Análisis multivarianteAnet Vargas
 

Similar a Técnicas de análisis: Reglas de asociación (20)

Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
Pensamiento sistemico en los negocios
Pensamiento sistemico en los negociosPensamiento sistemico en los negocios
Pensamiento sistemico en los negocios
 
Sesión 5
Sesión 5Sesión 5
Sesión 5
 
Analisis multivariado
Analisis multivariadoAnalisis multivariado
Analisis multivariado
 
_Mundo de los Datos (1).pdf
_Mundo de los Datos  (1).pdf_Mundo de los Datos  (1).pdf
_Mundo de los Datos (1).pdf
 
SIMULACIÓN DE SISTEMAS-UNIDAD I.ppt
SIMULACIÓN DE SISTEMAS-UNIDAD I.pptSIMULACIÓN DE SISTEMAS-UNIDAD I.ppt
SIMULACIÓN DE SISTEMAS-UNIDAD I.ppt
 
Ingenieria de Sistemas
Ingenieria de SistemasIngenieria de Sistemas
Ingenieria de Sistemas
 
Técnicas de minería de datos
Técnicas de minería de datosTécnicas de minería de datos
Técnicas de minería de datos
 
sistemas basados en reglas (sbr).pptx
sistemas basados en reglas (sbr).pptxsistemas basados en reglas (sbr).pptx
sistemas basados en reglas (sbr).pptx
 
The fisher assumptions and how to check them
The fisher assumptions and how to check themThe fisher assumptions and how to check them
The fisher assumptions and how to check them
 
Informe de Pronósticos en los Negocios
Informe de Pronósticos en los NegociosInforme de Pronósticos en los Negocios
Informe de Pronósticos en los Negocios
 
Sistemas Basados en Reglas
Sistemas Basados en ReglasSistemas Basados en Reglas
Sistemas Basados en Reglas
 
Reglasproduccion
ReglasproduccionReglasproduccion
Reglasproduccion
 
Sistemas de razonamiento
Sistemas de razonamientoSistemas de razonamiento
Sistemas de razonamiento
 
Práctica nº 1
Práctica nº 1Práctica nº 1
Práctica nº 1
 
1.5 Procesos de simulación.
1.5 Procesos de simulación. 1.5 Procesos de simulación.
1.5 Procesos de simulación.
 
Resúmen t istemas
Resúmen t istemasResúmen t istemas
Resúmen t istemas
 
Introduccion al modelamiento
Introduccion al modelamientoIntroduccion al modelamiento
Introduccion al modelamiento
 
SIMULACION DE SISTEMAS
SIMULACION DE SISTEMASSIMULACION DE SISTEMAS
SIMULACION DE SISTEMAS
 
Análisis multivariante
Análisis multivarianteAnálisis multivariante
Análisis multivariante
 

Último

LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 

Último (20)

LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 

Técnicas de análisis: Reglas de asociación

  • 1. TÉCNICAS DE ANÁLISIS: ASOCIACIÓN raineropenschool.com Rainer Open School – Big Data
  • 2. INTRODUCCIÓN El establecimiento de reglas de asociación es una estrategia de aprendizaje no supervisado para detectar relaciones “interesantes” en un conjunto de datos. raineropenschool.com
  • 3. APLICACIONES Las aplicaciones de este tipo de análisis tienen una gran implantación en el mercado de consumo, hasta el punto que la técnica se llama “análisis de cestas de la compra”. raineropenschool.com
  • 4. CARACTERÍSTICAS  Son técnicas de análisis descriptivo; revelan lo que hay, incluso cuando la relación es completamente insospechada  No hacen predicciones, ni en el resultado ni para el futuro. Comportamientos pasados no garantizan comportamientos futuros.  Son estrategias de fuerza bruta, por lo que pueden llegar a consumir muchos recursos. raineropenschool.com
  • 5. CONCEPTO DE RELACIÓN Decimos que hay una relación entre dos elementos, cuando aparecen juntos demasiado a menudo como para sea un hecho aleatorio y existe un valor comercial en él. raineropenschool.com
  • 6. REGLAS DE ENUNCIACIÓN Decimos que “cuando observamos X, también se observa Y”, con la convención X -> Y. Ambos elementos de la relación se denominan “carga del lado izquierdo y derecho” (LHS, RHS). raineropenschool.com
  • 7. CONCEPTO DE ITEMSET Un “itemset” es una colección de elementos (desde 1 a n) cuyos componentes mantienen una relación entre sí. Un itemset de k elementos se denomina k-itemset. raineropenschool.com
  • 8. ALGORITMO DE APRIORI Uno de los algoritmos de análisis de asociación más tempranos e influyentes es el de Apriori. Se basa en el uso del “soporte” como elemento de referencia en la criba de datos. raineropenschool.com
  • 9. CONCEPTO DE SOPORTE El “soporte” es un valor de referencia, expresado en porcentaje o en tanto por uno. Se establece de forma arbitraria por el analista y define el umbral de criba. raineropenschool.com
  • 10. CRITERIO DE SOPORTE MÍNIMO Por ejemplo, dado un soporte del 0’8 para un conjunto L, superarán la criba (serán “frecuentes”) aquellos artículos que estén presentes en más del 80% de los tickets. raineropenschool.com
  • 11. PROPIEDAD DE APRIORI Si un itemset se considera frecuente, cualquier subconjunto del itemset mantiene esta consideración. Este razonamiento se denomina “propiedad de cierre a la baja”. raineropenschool.com
  • 12. ALGORITMO DE APRIORI El algoritmo de Apriori “barre” el conjunto de elementos por completo en sucesivas iteraciones, eliminando los itemsets que no superan el soporte definido. raineropenschool.com
  • 13. ESQUEMA DE APLICACIÓN DEL MÉTODO 1. En la primera iteración, L1, se recorre todo el conjunto de datos, valorando itemsets de 1 elemento. Los que no superan el soporte, se eliminan del análisis. 2. En la segunda iteración, L2, los itemsets supervivientes se emparejan en 2-itemsets, aplicando la misma regla. 3. El resultado es un conjunto de reglas de asociación. raineropenschool.com
  • 14. FIABILIDAD DE LAS ASOCIACIONES Confianza X → 𝑌 = 𝑆𝑜𝑝𝑜𝑟𝑡𝑒 (𝑋 ∩ 𝑌) 𝑆𝑜𝑝𝑜𝑟𝑡𝑒(𝑋) La confianza (confidence) es el porcentaje de transacciones que contienen los dos elementos de la regla, entre todos los que contienen el primer elemento. raineropenschool.com
  • 15. ASCENSO DE LAS ASOCIACIONES Ascenso X → 𝑌 = 𝑆𝑜𝑝𝑜𝑟𝑡𝑒 (𝑋 ∩ 𝑌) 𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝑋 ∗ 𝑆𝑜𝑝𝑜𝑟𝑡𝑒(𝑌) El ascenso (lift) es una medida de cómo de probable es que ambos elementos de una regla aparezcan juntos más a menudo que separados. raineropenschool.com
  • 16. APALANCAMIENTO DE LAS ASOCIACIONES Apalancamiento X → 𝑌 = 𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝑋 ∩ 𝑌 − 𝑆𝑜𝑝𝑜𝑟𝑡𝑒 𝑋 ∗ 𝑆𝑜𝑝𝑜𝑟𝑡𝑒(𝑌) El apalancamiento (leverage) es la probabilidad neta de que los dos elementos de la regla aparezcan juntos, respecto a su independencia estadística. raineropenschool.com
  • 17. INTERPRETACIÓN DE LAS MÉTRICAS  Confianza es la posibilidad de identificar relaciones consistentes, pero no sabemos si son una mera casualidad.  El ascenso es un valor de esa incidencia estadística.  El apalancamiento nos dice qué probabilidad hay de que ocurra esa asociación, respecto al primer elemento de la misma. raineropenschool.com
  • 18. DEBILIDADES DEL MÉTODO  Aunque es un proceso de criba que reduce el campo de datos, la estrategia de fuerza bruta puede requerir un enorme uso de recursos.  El algoritmo identifica asociaciones, pero éstas no tienen por qué tener ningún significado ni mantenerse en el tiempo.  La definición del soporte es una decisión arbitraria. raineropenschool.com
  • 19. ESTRATEGIAS DE MEJORA DE LA EFICIENCIA  Particionamiento del conjunto de datos.  Muestreo aleatorio.  Reduccionismo en las transacciones.  Recuento por condensación.  Recuento dinámico. raineropenschool.com
  • 20. CONCLUSIONES  La detección de reglas de asociación es un conjunto de estrategias para detectar relaciones entre elementos de un conjunto.  Son esquemas de aprendizaje automático, no supervisado, descriptivos y no predictivos.  Pueden ser computacionalmente intensos.  Dependen de algunas decisiones subjetivas. raineropenschool.com
  • 21. LECTURAS RECOMENDADAS Data Science & Big Data Statistics EMC Education Services ISBN: 978-1118876138 http://amzn.to/1QTNWH7 Capítulo 5, por lo que se refiere a esta presenta- ción raineropenschool.com
  • 22. SOBRE EL AUTOR Rafael Morales Consultor y formador en  Sistemas de información (IT).  Gestión de proyectos (PM).  Aseguramiento de la calidad (QA).  Facility Management (FM). En LinkedIn: http://bit.ly/2mgxbmx Email: contacto@rafael-morales.com raineropenschool.com
  • 23. OTROS CONTENIDOS Puedes encontrar las notas de esta conferencia y otras del mismo autor en Amazon: http://amzn.to/1Rp8yM9 También puedes seguir las novedades y convocatorias de nuevos seminarios, cursillos y presentaciones en raineropenschool.com raineropenschool.com