Ph.D Defence

LOGO

Association Rule Interactive
Post-processing using Rule
Schemas and Ontologies

- ARIPSO -

Claudia MARINICA

Le Mardi 26 Octobre 2010

Ecole polytechnique de l’Université de Nantes
LINA UMR CNRS 6241
Equipe COnnaissances et Décision

COD
LOGO
Equipe
Plan de la Présentation

1 Introduction

2 Approches existantes

3 L’approche ARIPSO

4 Réalisations et expérimentations

5 Conclusions et Perspectives

2/47

COD
LOGO
Equipe
Introduction

1 Introduction
Contexte

Problématique et contributions de la thèse





3/47

Introduction

COD
LOGO  Contexte
Equipe
Contexte et Axe de la thèse

Cette thèse s’articule autour de deux domaines :
 L’Extraction des Connaissances à partir de Données
(ECD)
 L’Ingénierie des Connaissances (IC) : Les Ontologies

Axe : Intégrer les connaissances de l’expert (IC) dans le
processus de fouille de données (ECD)

4/47

Introduction

COD
LOGO  Contexte
Equipe
Extraction des Connaissances à partir de Données

« … l’extraction d'informations originales, auparavant inconnues,
potentiellement utiles à partir des données. »

Pré-traitement Fouille Post-traitement

[Fayyad et al., 1996]

5/47

Introduction

COD
LOGO  Contexte
Equipe
Extraction des Connaissances à partir de Données

« … l’extraction d'informations originales, auparavant inconnues,
potentiellement utiles à partir des données. »

Pré-traitement Fouille Post-traitement

Utilisateur :
- connaissances
- croyances
[Fayyad et al., 1996] - attentes
- actions
5/47

Introduction

COD
LOGO  Problématique et contributions de la thèse
Equipe
Fouille de données:
Les règles d’association

[10% 80%]

Définition [Agrawal and Srikant, 1994; Ganascia, 1987] :
X → Y [s%, c%] I – ensemble d’items
X, Y – itemsets
X, Y ⊆ I and X ∩ Y = ∅
s% – support c% – confiance

Exemples/contre-exemples : XY / X ¬Y

6/47

Introduction

COD
Equipe
Fouille de données:
Problématique des règles d’association
Avantages : Technique non supervisée, résultats lisibles, ensemble complet

Limites : Grand volume et qualité faible des règles extraites :
 invalides statistiquement
leek → bread
 redondantes :
R1: leek, St Jacques → Bergerac [c] leek → Bergerac [c1] St Jacques → Bergerac [c2]
c1>c ou c2>c => R1 est redondante
 connues par l’expert
apple → pear
 inutiles pour l’expert
apple → skirt
 Difficulté d’analyse manuelle

Besoins :
 Eliminer les règles inintéressantes
 Cibler les règles de qualité
7/47

Introduction

COD
Equipe
Ingénierie de Connaissances:
Les Ontologies

« une spécification formelle et explicite d’une
conceptualisation partagée »
[Gruber, 1993]

Définition formelle «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle
et terminologique et à tendre vers une compréhension
partagée pour améliorer la communication,
le partage, l'interopérabilité et le degré de
réutilisation possible. »
[Gandon, 2006]

8/47

Introduction

COD
Equipe
Les Ontologies

[Gruber, 1993]

Concepts – éléments du domaine et terminologique et à tendre vers une compréhension
partagée pour améliorer la communication,
[Gandon, 2006]

8/47

Introduction

COD
Equipe
Les Ontologies
is-a

is-a

[Gruber, 1993]

Graphe de concepts – relation is-a partagée pour améliorer la communication,
[Gandon, 2006]

8/47

Introduction

COD
Equipe
Les Ontologies

[Gruber, 1993]

Instances – les individus des concepts le partage, l'interopérabilité et le degré de
[Gandon, 2006]

8/47

Introduction

COD
Equipe
Les Ontologies

[Gruber, 1993]

Instances – les individus des concepts le partage, l'interopérabilité et le degré de
Propriétés – relations entre les concepts réutilisation possible. »
[Gandon, 2006]

8/47

Introduction

COD
Equipe
Le Web Sémantique

« Le Web sémantique est une extension du Web courant dans lequel
l'information est définie sémantiquement, permettant aux machines et
aux utilisateurs de mieux travailler ensemble. »
[Berners-Lee et al., 2001]

Langages de représentation de connaissances :
 RDF, OWL, …
 OWL-DL basé sur la logique de description est un formalisme
précis et décidable

Raisonneurs :
 Actions - classification de concepts, test de cohérence et test
d’instanciation
 Fact, Racer, Pellet, …
 Langage de requête : SPARQL
9/47

Introduction

COD
Equipe
Les objectifs de la thèse

Améliorer la phase de post-traitement des règles
d’association :

 Intégrer les connaissances de l’expert – ontologies :
langages + raisonneur

 Augmenter l’interactivité avec l’expert :
description graduelle des connaissances

10/47

Introduction

COD
Equipe
Contributions

i. Un modèle pour représenter les connaissances de l’expert

ii. Une nouvelle approche interactive de post-traitement –
ARIPSO

iii. 2 implémentations - ARIPSO et ARLIUS

iv. Etude expérimentale sur les données de Nantes Habitat

11/47

COD
LOGO
Equipe

1 Introduction

Les techniques de post-traitement

Les techniques subjectives
Les Ontologies dans l’ECD
Conclusions

12/47

Approches existantes

COD
LOGO  Les techniques de post-traitement
Equipe
Techniques de post-traitement [Baesens et al., 2000]

Technique de
post-traitement

RA
Filtrées

Techniques
sélection

DM

Database
[Silbershatz et Tuzilin, 1995]
13/47


COD
Equipe

 Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999]
R1 : milk, pork → pear[S = 20%, C = 71%]
R2 : milk → pear [S = 25%, C = 70%] R1 redondante
R3 : pork → pear [S = 30%, C = 72%]

13/47


COD
Equipe

R3 : pork → pear [S = 30%, C = 72%]

 Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996]
Fruit
apple → pork
Fuit → pork
pear → pork pear apple

13/47


COD
Equipe

R3 : pork → pear [S = 30%, C = 72%]

Fruit
apple → pork
Fuit → pork

 Groupement [An et al., 2003]

13/47


COD
Equipe

R3 : pork → pear [S = 30%, C = 72%]

Fruit
apple → pork
Fuit → pork

 Groupement [An et al., 2003]

 Visualisation
[Blanchard et al., 2003]
13/47


COD
Equipe
Les mesures d’intérêt

Caractéristiques des règles à sélectionner [Silberschatz et Tuzhilin, 1995] :
 Unexpectedness – l’inattendu : règles surprenantes; contredisent les
connaissances de l’expert
 Actionability – l’actionabilité : règles utiles; permettent à l’expert de prendre de
décisions

Mesures d’intérêt : indicateurs de la qualité d’une règle d’association
[Freitas, 1999]
 Mesures Objectives
 Mesures Subjectives

Les mesures objectives (orientées données)
[Piatetsky-Shapiro, 1991; Guillet and Hamilton, 2007]
 Indicateurs statistiques de la force d’une règle sur les données
 Avantages : Facilité d’application - mesures non-supervisées
 Inconvénients : Ne sont pas adaptées aux demandes

14/47


COD
LOGO  Les techniques subjectives
Equipe
Description

Les mesures subjectives [Silberschatz et Tuzhilin, 1995] :
 Mesurent l’importance d’une règle pour un expert
 Dépendent des objectifs, croyances, attentes et connaissances de
l’expert

Avantages :
 Sélectionnent les règles pertinentes pour l’expert

Inconvénients :
 Difficulté d’élaborer un model de connaissances
 Unicité du model (expert)

15/47


COD
Equipe
Templates (patrons) [Klemettinen et al., 1994]

Principe : l’expert définit ses attentes et les règles correspondantes sont
sélectionnées

Représentation attentes de l’expert :
Patrons inclusifs (PI) et Patrons exclusifs (PE)

Technique de sélection : syntaxique ⊕ Sélection/élagage
⊖ Choix d’action limité
Exemple :
(PI) : Fruit, Dairy_Products → Meat
(PE) : pear, Dairy_Products → Meat

R1: Pear, Milk → Pork
R2: Apple, Milk → Chicken
R3: Beef, Milk → Grape

 R2 sélectionnée

16/47


COD
Equipe
Impressions Générales [Liu et al., 1999]

Connaissances – 3 niveaux de spécification :
 Impressions Générales (GI) + (RPC, PK)
gi(< S1, . . . , Sm >) [support, confidence]

Objectifs : représenter les impressions vagues de l’expert

Technique de sélection : syntaxique
⊕ Description plus puissante
⊖ Expressions syntaxique complexe

Exemple :
gi(< { cheese, milk }, Meat∗, pear >)

R1 : cheese → pear
R2 : pork → pear, apple R1 est sélectionnée
R3 : milk, pear → pork
17/47


COD
Equipe Etude comparative

25 techniques classées par dégrée d’intégration croissante des
connaissances :
 Formes implicatives/Patrons/
Langages de requête

⊕ Syntaxe simple
⊖ Choix des actions

Représentation
Mesures d’intérêt Année Application Métrique Subjective
connaissances
Silberchatz and Tuzilin,
3 1995 association rules probabilistic unexpectedness Beliefs
1995, Beliefs
Imielinski et al., 1996, M-
6 1996 association rules queries M-SQL, query language
SQL
Kamber et al., 1997, multi-dimensional
7 1997 syntactic unexpectedness Metarules
Metarules association rules
Baralis and Psaila, 1997, Scenario Templates, Query
9 1997 association rules syntactic
Scenario Templates Languages
Ng et al., 1998,
10 1998 association rules syntactic syntactic Constrained Association Queries
Constrained Queries
Adomavicius and Tuzhilin, rule grouping novelty
11 1999 profile rules Templates
1999, Web Profiling syntactic actionability
Padmanabhan and Tuzhilin,
12 1999 association rules logical statistic unexpectedness Beliefs
1998, Logical Contradiction
Nazeri and Bloedorn, 2004,
18 2004 association rules syntactic unexpectedness Facts, Beliefs/Preferences
Facts, Beliefs

18/49
Manque d’interactivité avec l’expert


COD

connaissances :
 Formes implicatives+Taxonomies

⊕ Représentation hiérarchique
⊖ Faible expressivité

Représentation
connaissances
Klementinen et al., 1994,
2 1994 association rules syntactic unexpectedness Templates
Templates
Hierarchical Gen. Trees, A-R
Anand et al., 1995, EDM classification
4 1995 syntactic unexpectedness Rules,
Framework rules
Environment Constraints
Liu et al., 1996, Fuzzy classification
5 1996 syntactic unexpectedness Fuzzy rules
Matching rules
Liu et al., 1999, actionability
8 1997 association rules syntactic General Impressions, RPC, PK
General Impressions unexpectedness

28/49


COD

connaissances :
 Formes implicatives+Taxonomies
 Taxonomies ou Ontologies
⊕ Représentation hiérarchique
⊖ Sans raisonneur
Représentation
connaissances
Chen et al., 2003,
14 2003 association rules generalization actionability Ontologies
Raising
An et al., 2003, association rules semantic
15 2003 unexpectedness Taxonomy, Semantic Networks
Semantic Groups groups distance
Shekar and Natarajan, 2004, similarity
17 2004 association rules unexpectedness Taxonomy
Item-relatedness distance
Domingues and Rezende, 2005,
19 2005 association rules generalization actionability Taxonomies
Taxonomy-based Generalization
class
22 Kotsifakos et al., 2007 2007 association rules actionability Ontologies
membership
semantical
23 Antunes, 2007 2007 association rules actionability Ontologies, Constraints
distance
syntactic
Ontologies, Pruning Constraints,
24 Bellandi et al., 2007 2007 association rules based, unexpectedness
Abstraction Constraints
constraints
semantic
distance,
25 Garcia et al., 2008 2008 association rules actionability Ontologies, Item Weight
relevance
assessment
29/49


COD
Equipe
Mesures et distances sémantiques

Objectifs général [Blanchard et al., 2005; Gandon, 2008] :
 Mesurer la proximité de deux éléments dans un graphe

Utilisation pour les règles d’association :
Lien de parenté entre les items (IRF) [Shekar et Natarajan, 2004]
 La distance sémantique entre deux items
 Règle impliquant des items proches sémantiquement => inutile

Fruit
Est-elle la règle distance(pear, apple)=2
+1 +1
R : apple → pear  interet(R)=2
connue/triviale ? pear apple  règle triviale

19/47


COD
LOGO  Ontologies dans l’ECD
Equipe
Les Ontologies et l’ECD

 Ontologies pour le processus d’ECD
[Cespivova et al., 2004; Cannataro and Comito, 2003]
 Choisir la tâche/méthode plus pertinente

 Ontologies de métadonnées décrivent
[Srikant and Agrawal, 1995; Bellandi et al., 2008]
 Le processus de construction d’items
[Hilario et al., 2009]

 Ontologies pour les connaissances du domaine
 Description du domaine
 Acquisition de connaissances: ENIGME [Ganascia et al., 1993]

20/47


COD
LOGO  Conclusions
Equipe
Conclusions

Patrons :
 Limités à patrons inclusifs et exclusifs => nouvelles actions
 Langage limité, non évolutif

Impressions générales :
 Langage plus développé, mais moins pratique pour les non-scientifiques
 Taxonomies - expressivité limitée

Manque d’interactivité avec l’expert

Combiner les mesures :
 objectives + subjectives + sémantiques

Ontologies :
 Représentation de connaissances
 Puissance raisonneur
21/47

COD
LOGO
Equipe

1 Introduction

2 Etat de l’art

Principes généraux

Le model de connaissances
L’interactivité avec l’expert
Les autres filtres

22/47

L’approche ARIPSO

COD
LOGO  Principes généraux
Equipe
Description Générale

Approche composée de 3 parties :
i. La fouille de règles d’association : extraction classique
ii. Le modèle de connaissances : enrichissement du model par l’expert
iii. La phase de post-traitement ARIPSO : application des méthodes
d’élagage/sélection
ii.

Modèle de
Connaissances

Fouille de Règles
Traitement
ECD règles d’association
ARIPSO
d’association sélectionnées
i. iii.

23/47

L’approche ARIPSO

COD
Equipe
Motivations
R1 : nashi → steak_beef_100
R2 : green_apple → milk_100

gi (< {milk, cheese}*; Fruit+, steak_beef_100>)

24/47

L’approche ARIPSO

COD
Equipe
Motivations
Comment
trouver les associations entre rpc(< {red_apple, green_apple, chicken_wings}*
les produits diététiques et le → {grape_espagne, milk_100, steak_beef_100}* >)
produits écologiques ?
Difficile à construire (très laborieux) !

24/47

L’approche ARIPSO

COD
Equipe
Motivations
Comment
trouver les associations entre rpc (< {red_apple, green_apple, chicken_wings}*
les produits diététiques et le → {grape_espagne, milk_100, steak_beef_100}* >)
produits écologiques ?
Difficile à construire (très laborieux) !

Construction de deux concepts :
DietProducts ≡ FoodItems
⊓ isDiet hasValue TRUE
EcologicalProducts ≡ FoodItems
⊓ isEcological hasValue TRUE

DietProducts → EcologicalProducts

24/47

L’approche ARIPSO

COD
LOGO  Le modèle de connaissances
Equipe
Intégration des connaissances de l’expert

 Connaissances du domaine - ontologie
 Attentes – schémas de règles
 Actions - opérateurs

Connaissances
du domaine Attentes Actions
C1 Elagage (P)
C2
C3 C2 C3  C1 Surprise (U)

SCHEMAS DE
ONTOLOGIES REGLES OPERATEURS

25/47

L’approche ARIPSO

COD
Equipe
Connaissances du domaine :
Connexion Ontologie-Base de données

f : C → P(I)
grape_espagne nashi red_apple green_apple milk_100 steack_beef_100 chicken_wings
1 1 0 0 1 1 0 0
2 0 1 0 0 0 1 1
3 0 1 1 0 0 0 0

26/47

L’approche ARIPSO

COD
Equipe
Attentes - Schémas de Règles

Syntaxe : RS ( < C1, C2, … (→) … Cn > ) où Ci ∈ C

Exemple : RS(< Fruits → EcologicalProducts >)

Exemple conformité
Concept ontologie: Fruit
f(Fruit) = {grape_espagne, red_apple,
nashi, green_apple}

conf(X1, Fruit)=TRUE
X1: red_apple, steak_beef_100
conf(X2, Fruit)=FALSE
X2: milk_100, chicken_wings
conf(X3, Fruit)=TRUE
X3: grape_espagne
27/47

L’approche ARIPSO

COD
Equipe
Actions/décisions - Opérateurs

Opérateurs – appliqués sur les schémas de règles
RS(< Fruits → EcologicalProducts >)

 Elagage (Pruning - P)
 Sélection:
Conformité (Conforming - C) C(RS) : grape_espagne → milk_100, nashi

Inattendu (Unexpectedness - U)
Prémisse (Up) Up(RS) : chicken_wings → steack_beef_100
Conclusion (Uc) Uc(RS) : grape_espagne → nashi
Exception (E) E(RS) : nashi, steack beef_100 → grape_espagne

Opérateurs complémentaires :
Augmentation minimale
Lien de parenté entre les items

28/47

L’approche ARIPSO

COD
Equipe
Actions/décisions - Opérateurs

Evaluation :
 raisonneur => instances de
RS(< Fruits → EcologicalProducts >)
chaque concept

Opérateur Conformité règle –
schéma :
 basé sur l’opérateur de
conformité itemset –
concept ontologie

grape_espagne → milk_100, nashi
29/47

L’approche ARIPSO

COD
LOGO  L’interactivité avec l’expert
Equipe
Processus interactif avec l’expert

30/47

L’approche ARIPSO

COD
LOGO  Conclusion
Equipe
ARIPSO/ARLIUS

Deux approches de ciblage de règles d’association :
 ARIPSO
 ARLIUS

Technique Model de Connaissances Avantages

Fouille locale
Schémas de
ARLIUS Fouille locale Opérateurs => réduction du temps
Règles
d’exécution
Utilisation
Schémas de
ARIPSO Post-traitement Ontologies Opérateurs d’ontologies
Règles
=> plus d’expressivité

31/47

COD
LOGO
Equipe

1 Introduction

Réalisations logicielles
Expérimentations
Analyse de l’interactivité et de la qualité
des règles sélectionnées
Analyse de l’efficacité
32/47

Réalisations et expérimentations

COD
LOGO  Réalisations logicielles
Equipe
L’outil ARIPSO

Caractéristiques :
 Java
 7 packages
 35 classes

Fonctions :
 Chargement des fichiers OWL et PMML
 Création/management des schémas de règles
 Sélection opérateurs
 Résultats sous forme de règles

33/47


COD
LOGO  Réalisations logicielles
Equipe
L’outil ARIPSO – capture écran

2
Ontologie et
Options
1
Onglet
Post-traitement
3
Schéma de
Règles

34/47


COD
LOGO  Expérimentations
Equipe
Objectifs des expérimentations

Objectifs :
 évaluer la performance d’ARIPSO
 évaluer son comportement avec différents opérateurs
 répondre à un problème réel

Evaluations :
 Réduction du nombre de règles
 Interactivité avec l’expert
 Qualité des règles sélectionnées

Collaboration directe avec l’expert Nantes Habitat

35/47


COD
LOGO  Expérimentations
Equipe
Etude « Nantes Habitat »

Base de données de questionnaire sur la satisfaction des clients
concernant leur logement
 Etude annuelle (depuis 2003) sur 1500 clients
 67 questions avec 4 réponses de 1 à 4: satisfaction … insatisfaction

Exemple : q1=1 => question q1=« Le transport dans le quartier est pratique? »
avec la réponse 1 = satisfaction

Besoin Nantes Habitat :
 trouver dans liens d’insatisfaction

Extraction des règles : q17= 4, q26 = 4, q97 = 4 → q28 = 4 [S = 2.6%, C = 92.8%]
 Technique classique – Apriori q16 = 4, q17 = 4, q26 = 4, q97 = 4 → q28 = 4 [S = 2.5%, C = 92.5%]
q15 = 4, q17 = 4, q97 = 4 → q28 = 4 [S = 2.9%, C = 80.5%]
 Support : min = 2%, max = 30% q15 = 4, q17 = 4, q97 = 4 → q26 = 4, q28 = 4 [S = 2.9%, C = 80.5%]
Confiance = 80% q17 = 4, q97 = 4 → q16 = 4 [S = 3.5%, C = 86.7%]
q25 = 4, q28 = 4, q97 = 4 → q26 = 4 [S = 2.0%, C = 100%]
 358.072 règles d’association q28 = 4, q97 = 4 → q17 = 4 [S = 2.9%, C = 81.1%]
q8 = 4, q16 = 4, q97 = 4 → q9 = 4 [S = 2.1%, C = 88.6%]
=> Comment les analyser ?
36/47


COD
LOGO  Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Le développement de l’ontologie

37/47


COD
Equipe

Plusieurs phases :
 Construction initiale

37/47


COD
Equipe

Plusieurs phases :
 Ajout informations
supplémentaires:
DissatisfactionComAreas ≡ ComAreas ⊓
(hasAnswer hasValue 3
OR hasAnswer hasValue 4)

37/47


COD
Equipe

Plusieurs phases :
 Ajout informations
supplémentaires:
DissatisfactionComAreas ≡ ComAreas ⊓
(hasAnswer hasValue 3
OR hasAnswer hasValue 4)
 Raisonneur – organisation
concepts + instances +
cohérence
Caractéristiques :
 7 niveaux
 130 concepts: 113 concepts primitives et
17 concepts de restriction
37/47


COD
Equipe
Cas d’utilisation de l’outil

Phase 1: Entrée – 358.072 Sortie – 1008 / 96

Schémas de règles
RS2 : RS(< DissatisfactionCalmDistrict>)
RS3 : RS(< DissasisfactionPrice,
DissatisfactionCommonAreas >)

38/47


COD
Equipe


Schémas de règles

Opérateurs
C(RS2) => 1008 règles

38/47


COD
Equipe


Schémas de règles

Opérateurs

Interprétation
q17=4, q26=4, q97=4 → q28=4 [S=2.6%, C=92.8%]
q16=4, q17=4, q26=4, q97=4 → q28=4 [S=2.5%, C=92.5%]
q15=4, q17=4, q97=4 → q28=4 [S=1.9%, C=80.5%]
q15=4, q17=4, q97=4 → q25=4, q28=4 [S=1.9%, C=80.5%]
 Non validation

38/47


COD
Equipe

Phase 2: Entrée – 358.072 Sortie – 27.602

Opérateurs
Augmentation minimale (MICF)
=> 27.602 règles

38/47


COD
Equipe

Phase 2: Entrée – 358.072 Sortie – 27.602

Opérateurs
Augmentation minimale (MICF)
=> 27.602 règles

Interprétation

 Validation

38/47


COD
Equipe

Phase 3: Entrée – 27.602 Sortie - 50

Schémas de règles

38/47


COD
Equipe


Schémas de règles

Opérateurs

38/47


COD
Equipe


Schémas de règles

Opérateurs

Interprétation
q17=4, q26=4, q97=4 → q28=4 [S=2.6%, C=92.8%]
q15 = 4, q17 = 4, q97 = 4 → q28 = 4 [S=1.9%, C=80.5%]
 Validation du MICF
q17 = 4, q97 = 4 → q16 = 4 [S=3.5% , C=86.7%]
q25 = 4, q28 = 4, q97 = 4 → q26 = 4 [S=2.0% , C=100%]
 Impliquent items de EntryHall et CloseSurrounding

38/47


COD
Equipe

Phase 4: Entrée – 50 Sortie - 15

Schémas de règles
RS5: RS<EntryHall → CloseSurrounding>)
RS6: RS(<Stairwell → EntryHall>)
RS7: RS(<CloseSurrounding → EntryHall>)
RS8: RS(<EntryHall → Stairwell>)

38/47


COD
Equipe


Schémas de règles
Opérateurs
P(RS5-RS8) => 15 règles

38/47


COD
Equipe


Schémas de règles
Opérateurs
P(RS5-RS8) => 15 règles

Interprétation
q28 = 4, q97 = 4 → q17 = 4 [S = 2.9%, C = 81.1%]
q8 = 4, q16 = 4, q97 = 4 → q9 = 4 [S = 2.1%, C = 88.6%]
 Impliquent items décrits par des instances très proches
dans l’ontologie
 IRF

38/47


COD
Equipe


Opérateurs
IRF => 3 règles

38/47


COD
Equipe


Opérateurs
IRF => 3 règles

Interprétation
q15 = 4, q16 = 4, q97 = 4 → q9 = 4
Support = 2.3% Confidence = 79.1%

38/47


COD
LOGO  Analyse de l’efficacité
Equipe
Résultats des méthodes d’élagage
Taux d’élagage de chaque méthode
Notation Explication
MICF Augmentation minimale Nb MICF IRF P(RS) Règles

IRF Lien de parenté entre les items 1 358.072 (100%)
Opérateur d’élagage sur les Schémas 2  27.602 (7.7%)
PRS
de Règles
Rule
3  103.891 (29%)
Le nombre de règles restantes
number 4  207.196 (57%)

Schéma de Règles Opérateur
5   16.473 (4.6%)

RS5 < EnteryHall → CloseSurrounding > Elagage
6   21.822 (7.7%)

RS6 < Stairwell → EnteryHall > Elagage
7   73.091 (20%)

RS7 < CloseSurrounding → EnteryHall > Elagage
8    13.382 (3.7%)

RS8 < EnteryHall → Stairwell > Elagage

RS9 < CommonAreas → GarbageRoom > Elagage

RS10 < TechnicalMaintenance→TechnicalMaintenance > Elagage
39/47


COD
LOGO  Analyse de l’efficacité
Equipe
Résultats des méthodes de sélection

Taux de sélection des opérateurs de sélection

C(RS1) C(RS2) C(RS3) Up(RS4) E(RS4)

Aucun opérateur d’élagage 185 1.008 96 1399 98
Tous les opérateurs
3 3 3 11 3
d’élagage

Schéma de Règles Opérateur

RS1 < DissatisfactionPrice > Conformité

RS2 < DissatisfactionCalmDistrict > Conformité

RS3 < DissatisfactionPrice, DissatisfactionCommonAreas > Conformité
< DissatisfactionPrice → DissatisfactionCommonAreas > Surprise
RS4
Exception

40/47

COD
LOGO
Equipe

1 Introduction

2 Etat de l’art
3 ARIPSO et ARLIUS

41/47

Conclusions et perspectives

COD
Equipe
Conclusions

i. Un modèle pour représenter la connaissance de l’expert :
 Attentes, connaissances du domaine et actions

ii. Une nouvelle approche de post-traitement – ARIPSO :
 Intégration du modèle de connaissances
 Processus interactif

iii. Implémentations :
 Implémentation en post-traitement – ARIPSO
 Implémentation en local - ARLIUS

iv. Etude expérimentale :
 Évaluation de la réduction et de la qualité des règles filtrées
 Etude réalisée en collaboration avec l’expert et résultats validés
42/47


COD
LOGO  Perspectives
Equipe
Perspectives

 Appliquer ARIPSO sur des données séquentielles
Pattern connu : <{Enfants, Mariage}, {Diovrce}>

 Appliquer ARIPSO sur des graphes

Prof Etud

43/47

COD
LOGO
Equipe
Références

Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules. Procedings of 20th International Conference Very Large Data Bases, VLDB, pages 487–499, 1994.

B. Baesens, S. Viaene, and J. Vanthienen. Post-processing of association rules. Workshop on Post-Processing in Machine Learning and Data Mining: Interpretation, visualization, integration, and related
topics with in Sixth ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pages 20–23, 2000.

Roberto J. Bayardo Jr., Rakesh Agrawal, and Dimitrios Gunopulos. Constraintbased rule mining in large, dense databases. ICDE ’99: Proceedings of the 15th International Conference on Data Engineering,
pages 188–197, 1999.

Andrea Bellandi, Barbara Furletti, Valerio Grossi, and Andrea Romei. Ontological support for association rule mining. In Proceedings of the 26th IASTED International Conference on Artiﬁcial
Intelligence and Applications, pages 110–115. ACTA Press, 2008.

Berners-Lee, Tim; James Hendler and Ora Lassila (May 17, 2001). "The Semantic Web". Scientific American Magazine. Retrieved March 26, 2008.

Sergey Brin, Rajeev Motwani, and Craig Silverstein. Beyond market baskets: Generalizing association rules to correlations. SIGMOD Record, 26(1):265–276, 1997.

Emmanuel Blanchard, Mounira Harzallah, Henri Briand and Pascale Kuntz. A typology of ontology-based semantic measures. In Proccedings of the Workshop EMOI-INTEROP at CAISE, 2005.

C. H. Cai, A. W. C. Fu, C. H. Cheng, and W. W. Kwong. Mining association rules with weighted items. In IDEAS ’98: Proceedings of the 1998 International Symposium on Database Engineering &
Applications, page 68. IEEE Computer Society, 1998.

Julien Blanchard, Fabrice Guillet, and Henri Briand. A user-driven and qualityoriented visualization for mining association rules. Proceedings of the Third IEEE International Conference on Data Mining,
pages 493–496, 2003.

Mario Cannataro and Carmela Comito. A data mining ontology for grid programming. In Proceedings of the First International Workshop on Semantics in Peer-to-Peer and Grid Computing
(SemPGrid2003), 2003.

Hana Cespivova, Jan Rauch, Vojtech Svatek, Martin Kejkula, and Marie Tomeckova. Roles of medical ontology in association mining crisp-dm cycle. Knowledge Discovery and Ontologies (KDO)
at ECML/PKDD, 2004.

W. J. Frawley, G. Piatetsky-Shapiro et C. J. Matheus, “Knowledge discovery in databases : An overview”, Knowledge Discovery in Databases, AAAI/MIT Press, 1992, p. 57–70.

Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to knowledge discovery in databases. AI Magazine, 17:37 – 54, 1996.

E. Feigenbaum and P. McCorduck. The fifth generation: articial intelligence and Japan's computer challenge to the world. Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA, 1983.

Jean-Gabriel Ganascia. Charade: a rule system learning system. In Proceedings of the 10th International Joint Conference on Artiﬁcial Intelligence, pages 345–347, San Francisco, CA, USA, 1987.
Morgan Kaufmann Publishers Inc.

Fabien Gandon. Ontologies informatiques, May 2006.

Fabien Gandon. Graphes RDF et leur Manipulation pour la Gestion de Connaissances. HDR thesis, INRIA Sophia-Antipolis, 2008.

Fabien Gandon, Olivier Corby, Ibrahmina Diop and Moussa Lo. Distances sémantiques dans des applications de gestion d’information utilisant le web sémantique. In Semantic Similarity Workshop in
EGC2008, 2008.

Ana Cristina Bicharra Garcia and Adriana S. Vivacqua. Does ontology help make sense of a complex world or does it create a biased interpretation? Sensemaking Workshop in CHI 2008 Conference on
Human Factors in Computing Systems, 2008.

COD
LOGO
Equipe
Références

Liqiang Geng and Howard J. Hamilton. Interestingness measures for data mining: A survey. ACM Computing Surveys, 38(3), 2006.

F. Guillet and H. Hamilton. Quality Measures in Data Mining. Studies in Computational Intelligence, 2007.

Thomas R. Gruber, “Toward principles for the design of ontologies used for knowledge sharing”, In Nicola Guarino and Roberto Poli, editors, Formal Ontology in Conceptual
Analysis and Knowledge Representation. Kluwer Academic Publishers, 1993.

Jiawei Han and Jian Pei. Mining frequent patterns by pattern-growth: methodology and implications. ACM SIGKDD Explorations Newsletter, Special issue on Scalable data
mining algorithms, 2000(2):14–20, 2.

Mika Klemettinen, Heikki Mannila, Pirjo Ronkainen, Hannu Toivonen, and A. Inkeri Verkamo. Finding interesting rules from large sets of discovered association rules.
International Conference on Information and Knowledge Management (CIKM), pages 401–407, 1994.

Bing Liu, Wynne Hsu, Lai-Fun Mun, and Hing-Yan Lee. Finding interesting patterns using user expectations. IEEE Transactions on Knowledge and Data Engineering, pages
817–832, 1999.

Bing Liu, Wynne Hsu, and Yiming Ma. Pruning and summarizing the discovered associations. In KDD ’99: Proceedings of the fifth ACM SIGKDD international conference on
Knowledge discovery and data mining, pages 125–134. ACM, 1999.

H.O. Nigro, S.E. Gonzalez Cisaro, and D.H. Xodo. Data Mining With Ontologies: Implementations, Findings and Frameworks. Idea Group Inc., 2007.

Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Efficient mining of association rules using closed itemset lattices. Information Systems, 24:25–46, 1999.

Jian Pei, Jiawei Han, and Runying Mao. Closet: An efficient algorithm for mining frequent closed itemsets. In ACM SIGMOD Workshop on Research Issues in Data Mining
and Knowledge Discovery, pages 21–30, 2000.

B. Shekar and Rajesh Natarajan. A framework for evaluating knowledge-based interestingness of association rules. Fuzzy Optimization and Decision Making, 3(2):157–185, 2004.

G. Piatetsky-Shapiro. Knowledge Discovery in Databases, chapter Discovery, Analysis, and Presentation of Strong Rules, page 229248. AAAI/MIT Press, 1991.

Abraham Silberschatz and Alexander Tuzhilin. What makes patterns interesting in knowledge discovery systems. IEEE Transactions on Knowledge and Data Engineering,
8:970–974, 1996.

Abraham Silberschatz and Alexander Tuzhilin. On subjective measures of interestingness in knowledge discovery. Knowledge Discovery and Data Mining (KDD), pages 275–
281, 1995.

Ramakrishnan Srikant and Rakesh Agrawal. Mining generalized association rules. Proceedings of the 21st International Conference on Very Large Databases, (2–
3):407–419, 1995.

Mohammed J. Zaki and Ching J. Hsiao. Charm: An efficient algorithm for closed itemset mining. In Proceedings of SIAM’02, 2002.


COD
Equipe
Sélection de publications

- Revues internationales
C. Marinica et F. Guillet. Knowledge Interactive Postmining of Association Rules Using Ontologies. Revue
IEEE Transactions on Knowledge and Data Engineering (TKDE), volume 22, numéro 6, pages: 784-797.

- Conférences internationales
C. Marinica, F. Guillet. Improving Post-Mining of Association Rules with Ontologies. Proceedings of the XIIIth
International Confenrece “Applied Stochastic Models and Data Analysis” (AMSDA2009), pages: 76-80, 2009.

C. Marinica, A. Olaru, F. Guillet. User-driven Association Rule Mining Using a Local Algorithm. Proceedings of
the 11th International Conference on Enterprise Information Systems (ICEIS2009), pages: 200-205, 2009.

A. Olaru, C. Marinica, F. Guillet. Local Mining of Association Rules with Rule Schemas. Proceedings of the IEEE
Symposium on Computational Intelligence and Data Mining (IEEE CIDM 2009), pages: 118 – 124, 2009.

C. Marinica, F. Guillet, H. Briand. Post-Processing of Discovered Association Rules using Ontologies. IEEE ICDM
Workshops - The Second International Workshop on Domain Driven Data Mining (DDDM 2008) en
conjunction avec IEEE International Conference on Data Mining series (ICDM 2008), pages : 126-133, 2008.

Ph.D Defence

Recommandé

Recommandé

Contenu connexe

Similaire à Ph.D Defence

Similaire à Ph.D Defence (20)

Dernier

Dernier (20)

Ph.D Defence