SlideShare una empresa de Scribd logo
1 de 27
Taller de Base de Datos
Reglas de Asociación a Múltiples Niveles
“Mining Generalized Association Rules”. Srikant, Agrawal VLDV 1995.
En muchas aplicaciones puede ser difícil encontrar asociaciones
interesantes entre conjuntos de ítemes ya que pueden aparecer en una
pequeña fracción de las transacciones.
Por ejemplo:
{IBMDesktopComputer,SonyBWPrinter}
puede ser poco frecuente pero
{Computer,Printer}
Puede ser muy frecuente
Taller de Base de Datos
Reglas de Asociación a Múltiples
Niveles (cont.)
A veces es interesante algo más general:
{leche} {pan}
O algo más detallado:
{lecheDescremada} {panIntegral}
O reglas a distintas granularidades:
Necesitamos modelar ítemes y conceptos relacionas a
través de una jerarquía.
Taller de Base de Datos
¿Cómo modelamos una jerarquía de
itemes?
Una forma muy simple de hacerlo es a través de una
taxonomía.
Una taxonomía puede verse como un grafo dirigido
acíclico donde sus nodos interiores representan conceptos
y sus hojas ítemes.
Llamamos ítemes (o conceptos) a los nodos de la
taxonomía.
Taller de Base de Datos
¿Cómo modelamos una jerarquía de
itemes?
Un conjunto de taxonomías T se puede modelar como un
grafo acíclico dirigido.
Un arco de x a y representa x is-a y.
Dado un nodo x en la taxonomía, x’ es una ancestro de x.
Taller de Base de Datos
Definición del Problema
Dado un conjunto de taxonomías T y un conjunto de
transacciones, donde cada transacción T є D contiene
nodos de T decimos que:
• T soporta a un item x si x є T o x es un ancestro de un
item en T.
• T soporta un itemeset X si T soporta cada item en X.
Una regla de asociación generalizada es una expresión de
la forma:
X Y
Donde y no existe ningún
itemen Y que sea ancestro de algún item X.
Soporte y Confianza de Reglas
Generalizadas
Sop(X Y)= % de transacciones en D que soportan X U Y.
Conf(X Y)= % de transacciones que soportan X U Y
sobre las transacciones que soportan X.
Búsquedas de reglas de Asociación vs.
Búsquedas de Reglas Generalizadas
1.- Usando la definición de regla interesante definida para
reglas de asociación de asociación común podemos
generar reglas de asociación redundantes.
• Si evitamos redundancias, las asociaciones de todas las
base de datos se pueden representar con un conjunto
pequeño de reglas.
2.- Podemos aprovechar la taxonomía para podar item-set
candidatos.
Cuándo una regla generalizada es
interesante?
Supongamos que usamos la noción de regla
interesante que definimos para reglas comunes.
Supongamos que tenemos:
{Leche} {Cereal}
con un 8% de soporte y un 70% de confianza.
Si Leche es ancestro de Leche descremada, no es
extraño que la regla
{LecheDescremada} {Cereal}
tenga 2% de soporte y un 70% de confianza
Cuándo una regla generalizada es
interesante?
Por lo tanto, la regla
{LecheDescremada} {Cereal}
No aporta nuevo conocimiento si tenemos que
{Leche} {Cereal}
es interesante.
Una definición adecuada del grado de interés de una regla
generalizada debería excluir reglas cuyo grado de interés
se infiere de otras reglas interesantes.
Jerarquías de Reglas
Para definir reglas generalizadas interesantes necesitamos
definir una jerarquía de reglas.
Un itemset Ž es un ancestro de un itemset Z si:
• Si Z y Ž tienen el mismo número de ítemes y:
• Ž se obtiene de Z reemplazando algunos ítemes z de Z con
ancestros ž.
Dada una regla X Y, sus ancestros son reglas de la forma
Ejemplo: Jerarquías de Reglas
Si Z es {Chaqueta, zapato} un posible ancestro de Z es Ž
={Ropa, zapato}.
El itemset {RopaExterior,camisa} no tiene ancestros, por
qué?
La definición de ancestros excluye {Ropa}ya que el
soporte de este itemset no nos dice nada fundamental sobre
el soporte de {RopaExterior,camisa}.
Ejemplo: Jerarquías de Reglas (cont.)
Los antecesores de {Chaqueta} {ZapatoComun}son:
{RopaExterior} {ZapatoComun}
{RopaExterior} {Zapato}
{Chaqueta} {Zapato}
Soporte Esperado
Recordemos que Sop(X)=Pr(X)
Definamos el soporte esperado de un itemset Z dado que
sabemos el soporte de un ancestro Ž.
Soporte Esperado (cont.)
Confianza Esperada
Reglas R-Interesantes
(Definición) Una regla X Y es R-interesante con respecto a un
antecesor si:
• el soporte de X Y es R veces el soporte esperado dado el
soporte de y:
• análogo para la confianza.
Ejemplo: si R=1, entonces {LecheDescremada} {Cereal} es
R-interesante con respecto a {Leche} {Cereal}
Reglas R-Interesantes (cont.)
(Definición). Dado un conjunto de reglas S y un interés
mínimo R, X Y es R-interesante si.
• X Y no tiene ancestros: o
• X Y es R-interesante con respecto a sus ancestros más
cercanos entre sus ancestros R-interesantes.
Planteamiento del Problema
Dado un conjunto de transacciones D, un interés mínimo R
,minSop y minConf, encontrar todas las reglas R-
interesantes.
Si R=0, todas las reglas son interesantes
Estrategia Básica
1.- Encontrar todos los itemset frecuentes (soporte mayor que
minSof)
2.- Generar reglas interesantes a partir de itemes frecuentes
encontrados en 1.
3.- Podar las reglas que no son R-iteresantes de las reglas
obtenidas en 2.
Búsqueda de itemset Frecuentes a Múltiples
Niveles
Algoritmo Básico:
• Aumentar cada transacción T Є D con los ítemes tal
que x pertenece a T . Sea T’ el conjunto de transacciones
aumentados .
• Ejecutar cualquier algoritmo para búsqueda de itemset
frecuentes en T’.
• Para evitar que aumente el costo de lectura de D , podemos
aumentar cada transacción
Algoritmo Básico
Algoritmo Cumulate
Es esencialmente el algoritmo básico más algunas
optimizaciones como:
• Optimización 1: Filtro de los ancestros agregados a las
transacciones. Una transacción T se aumenta sólo con los
ancestros de ítemes en T que aparecen en itemsets
candidatos (Ck).
– Supongamos que chaqueta es hijo de RopaExterior que a su vez
es hijo de Ropa. Además existe un único itemset candidato {Ropa,
Zapatos}.
– En cada transacción que contenga Chaqueta reemplazamos
Chaqueta por Ropa
Algoritmo Cumulate
• Para aumentar una transacción T con ancestros tenemos
que computar los ancestros de cada ítem. Cómo ?
• Optimización 2: Precomputar ancestros
– Computar los ancestros de cada ítem (Clausura transitiva T* de la
taxonomía T) y almacenarlos en alguna estructura de datos
apropiada.
– Usar la relación computada anteriormente para aumentar cada
transacción.
Algoritmo Cumulate
• Optimización 3: Poda de itemset que contienen un ítem en
su ancestro.
– El soporte de un itemset X que contiene x y es el mismo que el
soporte de X-
– Si Lk-1 no contiene ningún itemset X con un ítem y su ancestro
Ck=AprioGen(Lk-a) (Recordar este procedimiento de A priori)
tampoco.
Algoritmo Cumulate
Algoritmo Cumulate
Taller bd8

Más contenido relacionado

Destacado

Poggi analytics - distance - 1a
Poggi   analytics - distance - 1aPoggi   analytics - distance - 1a
Poggi analytics - distance - 1aGaston Liberman
 
Poggi analytics - star - 1a
Poggi   analytics - star - 1aPoggi   analytics - star - 1a
Poggi analytics - star - 1aGaston Liberman
 
Poggi analytics - clustering - 1
Poggi   analytics - clustering - 1Poggi   analytics - clustering - 1
Poggi analytics - clustering - 1Gaston Liberman
 
Poggi analytics - ml - 1d
Poggi   analytics - ml - 1dPoggi   analytics - ml - 1d
Poggi analytics - ml - 1dGaston Liberman
 
Poggi analytics - intro - 1c
Poggi   analytics - intro - 1cPoggi   analytics - intro - 1c
Poggi analytics - intro - 1cGaston Liberman
 
Poggi analytics - concepts - 1a
Poggi   analytics - concepts - 1aPoggi   analytics - concepts - 1a
Poggi analytics - concepts - 1aGaston Liberman
 
Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1bGaston Liberman
 
Poggi analytics - inference - 1a
Poggi   analytics - inference - 1aPoggi   analytics - inference - 1a
Poggi analytics - inference - 1aGaston Liberman
 
Poggi analytics - sentiment - 1
Poggi   analytics - sentiment - 1Poggi   analytics - sentiment - 1
Poggi analytics - sentiment - 1Gaston Liberman
 
Before or other agents pictures
Before or other agents  picturesBefore or other agents  pictures
Before or other agents picturesmaggienjhomes
 
Poggi analytics - trees - 1e
Poggi   analytics - trees - 1ePoggi   analytics - trees - 1e
Poggi analytics - trees - 1eGaston Liberman
 
Pm first presentation pt5
Pm first presentation pt5Pm first presentation pt5
Pm first presentation pt5carlobisio
 
Henrion poggi analytics - ann - 1
Henrion poggi   analytics - ann - 1Henrion poggi   analytics - ann - 1
Henrion poggi analytics - ann - 1Gaston Liberman
 
Poggi analytics - bayes - 1a
Poggi   analytics - bayes - 1aPoggi   analytics - bayes - 1a
Poggi analytics - bayes - 1aGaston Liberman
 

Destacado (15)

Poggi analytics - distance - 1a
Poggi   analytics - distance - 1aPoggi   analytics - distance - 1a
Poggi analytics - distance - 1a
 
Poggi analytics - star - 1a
Poggi   analytics - star - 1aPoggi   analytics - star - 1a
Poggi analytics - star - 1a
 
Poggi analytics - clustering - 1
Poggi   analytics - clustering - 1Poggi   analytics - clustering - 1
Poggi analytics - clustering - 1
 
Poggi analytics - ml - 1d
Poggi   analytics - ml - 1dPoggi   analytics - ml - 1d
Poggi analytics - ml - 1d
 
Poggi analytics - intro - 1c
Poggi   analytics - intro - 1cPoggi   analytics - intro - 1c
Poggi analytics - intro - 1c
 
Poggi analytics - concepts - 1a
Poggi   analytics - concepts - 1aPoggi   analytics - concepts - 1a
Poggi analytics - concepts - 1a
 
Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1b
 
Poggi analytics - inference - 1a
Poggi   analytics - inference - 1aPoggi   analytics - inference - 1a
Poggi analytics - inference - 1a
 
Poggi analytics - sentiment - 1
Poggi   analytics - sentiment - 1Poggi   analytics - sentiment - 1
Poggi analytics - sentiment - 1
 
Before or other agents pictures
Before or other agents  picturesBefore or other agents  pictures
Before or other agents pictures
 
Poggi analytics - trees - 1e
Poggi   analytics - trees - 1ePoggi   analytics - trees - 1e
Poggi analytics - trees - 1e
 
Pm first presentation pt5
Pm first presentation pt5Pm first presentation pt5
Pm first presentation pt5
 
Henrion poggi analytics - ann - 1
Henrion poggi   analytics - ann - 1Henrion poggi   analytics - ann - 1
Henrion poggi analytics - ann - 1
 
Poggi analytics - bayes - 1a
Poggi   analytics - bayes - 1aPoggi   analytics - bayes - 1a
Poggi analytics - bayes - 1a
 
PLANTS AND SEEDS - GRADE 5
PLANTS AND SEEDS - GRADE 5PLANTS AND SEEDS - GRADE 5
PLANTS AND SEEDS - GRADE 5
 

Similar a Taller bd8

Lenguajes formales
Lenguajes formalesLenguajes formales
Lenguajes formaleslaloflatland
 
Lenguajes formales
Lenguajes formalesLenguajes formales
Lenguajes formaleslaloflatland
 
Clasificación de las estructuras de datos.pptx
Clasificación de las estructuras de datos.pptxClasificación de las estructuras de datos.pptx
Clasificación de las estructuras de datos.pptxRam Vazquez
 
2022-TFG1_ReglasAsociacion.pdf
2022-TFG1_ReglasAsociacion.pdf2022-TFG1_ReglasAsociacion.pdf
2022-TFG1_ReglasAsociacion.pdfRicardo Lopez-Ruiz
 
ED 02 2_tda_arra_u
ED 02 2_tda_arra_uED 02 2_tda_arra_u
ED 02 2_tda_arra_uA J
 
ALP Unidad 3: Tipos de datos estructurados y punteros
ALP Unidad 3: Tipos de datos estructurados y punterosALP Unidad 3: Tipos de datos estructurados y punteros
ALP Unidad 3: Tipos de datos estructurados y punterosFranklin Parrales Bravo
 
Ambientedeprogramacinenpascal 111015091809-phpapp02
Ambientedeprogramacinenpascal 111015091809-phpapp02Ambientedeprogramacinenpascal 111015091809-phpapp02
Ambientedeprogramacinenpascal 111015091809-phpapp02kevinwm17
 
Arreglos
ArreglosArreglos
Arregloslichic
 
Acceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorAcceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorJomicast
 
Introducción a C++
Introducción a C++Introducción a C++
Introducción a C++Ryoga Luis
 
6. tda arrayu generico
6. tda arrayu generico6. tda arrayu generico
6. tda arrayu genericoAna Ocaña
 

Similar a Taller bd8 (20)

P:\Lenguajes Formales
P:\Lenguajes FormalesP:\Lenguajes Formales
P:\Lenguajes Formales
 
Lenguajes formales
Lenguajes formalesLenguajes formales
Lenguajes formales
 
Lenguajes formales
Lenguajes formalesLenguajes formales
Lenguajes formales
 
Módulo 2
Módulo 2Módulo 2
Módulo 2
 
Clasificación de las estructuras de datos.pptx
Clasificación de las estructuras de datos.pptxClasificación de las estructuras de datos.pptx
Clasificación de las estructuras de datos.pptx
 
2022-TFG1_ReglasAsociacion.pdf
2022-TFG1_ReglasAsociacion.pdf2022-TFG1_ReglasAsociacion.pdf
2022-TFG1_ReglasAsociacion.pdf
 
ED 02 2_tda_arra_u
ED 02 2_tda_arra_uED 02 2_tda_arra_u
ED 02 2_tda_arra_u
 
Bd capitulo ii
Bd capitulo iiBd capitulo ii
Bd capitulo ii
 
ALP Unidad 3: Tipos de datos estructurados y punteros
ALP Unidad 3: Tipos de datos estructurados y punterosALP Unidad 3: Tipos de datos estructurados y punteros
ALP Unidad 3: Tipos de datos estructurados y punteros
 
Ambiente
 Ambiente Ambiente
Ambiente
 
Ambiente de programación en pascal
Ambiente de programación en pascalAmbiente de programación en pascal
Ambiente de programación en pascal
 
Ambiente de programacin en pascal
Ambiente de programacin en pascalAmbiente de programacin en pascal
Ambiente de programacin en pascal
 
Ambiente de programación en pascal
Ambiente de programación en pascalAmbiente de programación en pascal
Ambiente de programación en pascal
 
Ambientedeprogramacinenpascal 111015091809-phpapp02
Ambientedeprogramacinenpascal 111015091809-phpapp02Ambientedeprogramacinenpascal 111015091809-phpapp02
Ambientedeprogramacinenpascal 111015091809-phpapp02
 
P access7
P access7P access7
P access7
 
Arreglos
ArreglosArreglos
Arreglos
 
Arreglos en C
Arreglos en CArreglos en C
Arreglos en C
 
Acceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidorAcceso a datos en aplicaciones web del entorno servidor
Acceso a datos en aplicaciones web del entorno servidor
 
Introducción a C++
Introducción a C++Introducción a C++
Introducción a C++
 
6. tda arrayu generico
6. tda arrayu generico6. tda arrayu generico
6. tda arrayu generico
 

Último

Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfJC Díaz Herrera
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICAYOSHELINSARAIMAMANIS2
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfJC Díaz Herrera
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfDodiAcuaArstica
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxJamesHerberthBacaTel
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfJC Díaz Herrera
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdfJC Díaz Herrera
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfPOULANDERSONDELGADOA2
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyraestudiantes2010
 
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdfINFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdfMiguelGomez900779
 
COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .GIANELAKAINACHALLCOJ2
 

Último (20)

Las familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdfLas familias más ricas del sionismo en el siglo XXI.pdf
Las familias más ricas del sionismo en el siglo XXI.pdf
 
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICACNEB-CURRICULO NACIONAL DE EDUCACION BASICA
CNEB-CURRICULO NACIONAL DE EDUCACION BASICA
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdfIndustria musical de EUA vs Industria musical Corea del Sur (2024).pdf
Industria musical de EUA vs Industria musical Corea del Sur (2024).pdf
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Presentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdfPresentacion-Prevencion-Incendios-Forestales.pdf
Presentacion-Prevencion-Incendios-Forestales.pdf
 
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptxINTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
INTRODUCCION-A-LOS-ALGORITMOS-BASICOS.pptx
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Posiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdfPosiciones en el IDH global de EUA (1950-2024).pdf
Posiciones en el IDH global de EUA (1950-2024).pdf
 
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
Novelas Turcas vs Series de EUA en audiencia  (2024).pdfNovelas Turcas vs Series de EUA en audiencia  (2024).pdf
Novelas Turcas vs Series de EUA en audiencia (2024).pdf
 
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdfCALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
CALENDARIZACIÓN ACTUALIZADA DEL 2024 alt.pdf
 
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
Cesar Vilchis Vieyra  Cesar Vilchis VieyraCesar Vilchis Vieyra  Cesar Vilchis Vieyra
Cesar Vilchis Vieyra Cesar Vilchis Vieyra
 
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdfINFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
INFORME DE EVALUACIÓN DE LOS REQUERIMIENTOS.pdf
 
COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .
 

Taller bd8

  • 1. Taller de Base de Datos Reglas de Asociación a Múltiples Niveles “Mining Generalized Association Rules”. Srikant, Agrawal VLDV 1995. En muchas aplicaciones puede ser difícil encontrar asociaciones interesantes entre conjuntos de ítemes ya que pueden aparecer en una pequeña fracción de las transacciones. Por ejemplo: {IBMDesktopComputer,SonyBWPrinter} puede ser poco frecuente pero {Computer,Printer} Puede ser muy frecuente
  • 2. Taller de Base de Datos Reglas de Asociación a Múltiples Niveles (cont.) A veces es interesante algo más general: {leche} {pan} O algo más detallado: {lecheDescremada} {panIntegral} O reglas a distintas granularidades: Necesitamos modelar ítemes y conceptos relacionas a través de una jerarquía.
  • 3. Taller de Base de Datos ¿Cómo modelamos una jerarquía de itemes? Una forma muy simple de hacerlo es a través de una taxonomía. Una taxonomía puede verse como un grafo dirigido acíclico donde sus nodos interiores representan conceptos y sus hojas ítemes. Llamamos ítemes (o conceptos) a los nodos de la taxonomía.
  • 4. Taller de Base de Datos ¿Cómo modelamos una jerarquía de itemes? Un conjunto de taxonomías T se puede modelar como un grafo acíclico dirigido. Un arco de x a y representa x is-a y. Dado un nodo x en la taxonomía, x’ es una ancestro de x.
  • 5. Taller de Base de Datos Definición del Problema Dado un conjunto de taxonomías T y un conjunto de transacciones, donde cada transacción T є D contiene nodos de T decimos que: • T soporta a un item x si x є T o x es un ancestro de un item en T. • T soporta un itemeset X si T soporta cada item en X. Una regla de asociación generalizada es una expresión de la forma: X Y Donde y no existe ningún itemen Y que sea ancestro de algún item X.
  • 6. Soporte y Confianza de Reglas Generalizadas Sop(X Y)= % de transacciones en D que soportan X U Y. Conf(X Y)= % de transacciones que soportan X U Y sobre las transacciones que soportan X.
  • 7. Búsquedas de reglas de Asociación vs. Búsquedas de Reglas Generalizadas 1.- Usando la definición de regla interesante definida para reglas de asociación de asociación común podemos generar reglas de asociación redundantes. • Si evitamos redundancias, las asociaciones de todas las base de datos se pueden representar con un conjunto pequeño de reglas. 2.- Podemos aprovechar la taxonomía para podar item-set candidatos.
  • 8. Cuándo una regla generalizada es interesante? Supongamos que usamos la noción de regla interesante que definimos para reglas comunes. Supongamos que tenemos: {Leche} {Cereal} con un 8% de soporte y un 70% de confianza. Si Leche es ancestro de Leche descremada, no es extraño que la regla {LecheDescremada} {Cereal} tenga 2% de soporte y un 70% de confianza
  • 9. Cuándo una regla generalizada es interesante? Por lo tanto, la regla {LecheDescremada} {Cereal} No aporta nuevo conocimiento si tenemos que {Leche} {Cereal} es interesante. Una definición adecuada del grado de interés de una regla generalizada debería excluir reglas cuyo grado de interés se infiere de otras reglas interesantes.
  • 10. Jerarquías de Reglas Para definir reglas generalizadas interesantes necesitamos definir una jerarquía de reglas. Un itemset Ž es un ancestro de un itemset Z si: • Si Z y Ž tienen el mismo número de ítemes y: • Ž se obtiene de Z reemplazando algunos ítemes z de Z con ancestros ž. Dada una regla X Y, sus ancestros son reglas de la forma
  • 11. Ejemplo: Jerarquías de Reglas Si Z es {Chaqueta, zapato} un posible ancestro de Z es Ž ={Ropa, zapato}. El itemset {RopaExterior,camisa} no tiene ancestros, por qué? La definición de ancestros excluye {Ropa}ya que el soporte de este itemset no nos dice nada fundamental sobre el soporte de {RopaExterior,camisa}.
  • 12. Ejemplo: Jerarquías de Reglas (cont.) Los antecesores de {Chaqueta} {ZapatoComun}son: {RopaExterior} {ZapatoComun} {RopaExterior} {Zapato} {Chaqueta} {Zapato}
  • 13. Soporte Esperado Recordemos que Sop(X)=Pr(X) Definamos el soporte esperado de un itemset Z dado que sabemos el soporte de un ancestro Ž.
  • 16. Reglas R-Interesantes (Definición) Una regla X Y es R-interesante con respecto a un antecesor si: • el soporte de X Y es R veces el soporte esperado dado el soporte de y: • análogo para la confianza. Ejemplo: si R=1, entonces {LecheDescremada} {Cereal} es R-interesante con respecto a {Leche} {Cereal}
  • 17. Reglas R-Interesantes (cont.) (Definición). Dado un conjunto de reglas S y un interés mínimo R, X Y es R-interesante si. • X Y no tiene ancestros: o • X Y es R-interesante con respecto a sus ancestros más cercanos entre sus ancestros R-interesantes.
  • 18. Planteamiento del Problema Dado un conjunto de transacciones D, un interés mínimo R ,minSop y minConf, encontrar todas las reglas R- interesantes. Si R=0, todas las reglas son interesantes
  • 19. Estrategia Básica 1.- Encontrar todos los itemset frecuentes (soporte mayor que minSof) 2.- Generar reglas interesantes a partir de itemes frecuentes encontrados en 1. 3.- Podar las reglas que no son R-iteresantes de las reglas obtenidas en 2.
  • 20. Búsqueda de itemset Frecuentes a Múltiples Niveles Algoritmo Básico: • Aumentar cada transacción T Є D con los ítemes tal que x pertenece a T . Sea T’ el conjunto de transacciones aumentados . • Ejecutar cualquier algoritmo para búsqueda de itemset frecuentes en T’. • Para evitar que aumente el costo de lectura de D , podemos aumentar cada transacción
  • 22. Algoritmo Cumulate Es esencialmente el algoritmo básico más algunas optimizaciones como: • Optimización 1: Filtro de los ancestros agregados a las transacciones. Una transacción T se aumenta sólo con los ancestros de ítemes en T que aparecen en itemsets candidatos (Ck). – Supongamos que chaqueta es hijo de RopaExterior que a su vez es hijo de Ropa. Además existe un único itemset candidato {Ropa, Zapatos}. – En cada transacción que contenga Chaqueta reemplazamos Chaqueta por Ropa
  • 23. Algoritmo Cumulate • Para aumentar una transacción T con ancestros tenemos que computar los ancestros de cada ítem. Cómo ? • Optimización 2: Precomputar ancestros – Computar los ancestros de cada ítem (Clausura transitiva T* de la taxonomía T) y almacenarlos en alguna estructura de datos apropiada. – Usar la relación computada anteriormente para aumentar cada transacción.
  • 24. Algoritmo Cumulate • Optimización 3: Poda de itemset que contienen un ítem en su ancestro. – El soporte de un itemset X que contiene x y es el mismo que el soporte de X- – Si Lk-1 no contiene ningún itemset X con un ítem y su ancestro Ck=AprioGen(Lk-a) (Recordar este procedimiento de A priori) tampoco.