1. LOGO
Association Rule Interactive
Post-processing using Rule
Schemas and Ontologies
- ARIPSO -
Claudia MARINICA
Le Mardi 26 Octobre 2010
Ecole polytechnique de l’Université de Nantes
LINA UMR CNRS 6241
Equipe COnnaissances et Décision
2. COD
LOGO
Equipe
Plan de la Présentation
1 Introduction
2 Approches existantes
3 L’approche ARIPSO
4 Réalisations et expérimentations
5 Conclusions et Perspectives
2/47
3. COD
LOGO
Equipe
Introduction
1 Introduction
Contexte
Problématique et contributions de la thèse
2 Approches existantes
3 L’approche ARIPSO
4 Réalisations et expérimentations
5 Conclusions et Perspectives
3/47
4. Introduction
COD
LOGO Contexte
Equipe
Contexte et Axe de la thèse
Cette thèse s’articule autour de deux domaines :
L’Extraction des Connaissances à partir de Données
(ECD)
L’Ingénierie des Connaissances (IC) : Les Ontologies
Axe : Intégrer les connaissances de l’expert (IC) dans le
processus de fouille de données (ECD)
4/47
5. Introduction
COD
LOGO Contexte
Equipe
Extraction des Connaissances à partir de Données
« … l’extraction d'informations originales, auparavant inconnues,
potentiellement utiles à partir des données. »
Pré-traitement Fouille Post-traitement
[Fayyad et al., 1996]
5/47
6. Introduction
COD
LOGO Contexte
Equipe
Extraction des Connaissances à partir de Données
« … l’extraction d'informations originales, auparavant inconnues,
potentiellement utiles à partir des données. »
Pré-traitement Fouille Post-traitement
Utilisateur :
- connaissances
- croyances
[Fayyad et al., 1996] - attentes
- actions
5/47
7. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Fouille de données:
Les règles d’association
[10% 80%]
Définition [Agrawal and Srikant, 1994; Ganascia, 1987] :
X → Y [s%, c%] I – ensemble d’items
X, Y – itemsets
X, Y ⊆ I and X ∩ Y = ∅
s% – support c% – confiance
Exemples/contre-exemples : XY / X ¬Y
6/47
8. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Fouille de données:
Problématique des règles d’association
Avantages : Technique non supervisée, résultats lisibles, ensemble complet
Limites : Grand volume et qualité faible des règles extraites :
invalides statistiquement
leek → bread
redondantes :
R1: leek, St Jacques → Bergerac [c] leek → Bergerac [c1] St Jacques → Bergerac [c2]
c1>c ou c2>c => R1 est redondante
connues par l’expert
apple → pear
inutiles pour l’expert
apple → skirt
Difficulté d’analyse manuelle
Besoins :
Eliminer les règles inintéressantes
Cibler les règles de qualité
7/47
9. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Ingénierie de Connaissances:
Les Ontologies
« une spécification formelle et explicite d’une
conceptualisation partagée »
[Gruber, 1993]
Définition formelle «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle
et terminologique et à tendre vers une compréhension
partagée pour améliorer la communication,
le partage, l'interopérabilité et le degré de
réutilisation possible. »
[Gandon, 2006]
8/47
10. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Ingénierie de Connaissances:
Les Ontologies
« une spécification formelle et explicite d’une
conceptualisation partagée »
[Gruber, 1993]
Définition formelle «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle
Concepts – éléments du domaine et terminologique et à tendre vers une compréhension
partagée pour améliorer la communication,
le partage, l'interopérabilité et le degré de
réutilisation possible. »
[Gandon, 2006]
8/47
11. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Ingénierie de Connaissances:
Les Ontologies
is-a
is-a
« une spécification formelle et explicite d’une
conceptualisation partagée »
[Gruber, 1993]
Définition formelle «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle
Concepts – éléments du domaine et terminologique et à tendre vers une compréhension
Graphe de concepts – relation is-a partagée pour améliorer la communication,
le partage, l'interopérabilité et le degré de
réutilisation possible. »
[Gandon, 2006]
8/47
12. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Ingénierie de Connaissances:
Les Ontologies
« une spécification formelle et explicite d’une
conceptualisation partagée »
[Gruber, 1993]
Définition formelle «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle
Concepts – éléments du domaine et terminologique et à tendre vers une compréhension
Graphe de concepts – relation is-a partagée pour améliorer la communication,
Instances – les individus des concepts le partage, l'interopérabilité et le degré de
réutilisation possible. »
[Gandon, 2006]
8/47
13. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Ingénierie de Connaissances:
Les Ontologies
« une spécification formelle et explicite d’une
conceptualisation partagée »
[Gruber, 1993]
Définition formelle «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle
Concepts – éléments du domaine et terminologique et à tendre vers une compréhension
Graphe de concepts – relation is-a partagée pour améliorer la communication,
Instances – les individus des concepts le partage, l'interopérabilité et le degré de
Propriétés – relations entre les concepts réutilisation possible. »
[Gandon, 2006]
8/47
14. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Ingénierie de Connaissances:
Le Web Sémantique
« Le Web sémantique est une extension du Web courant dans lequel
l'information est définie sémantiquement, permettant aux machines et
aux utilisateurs de mieux travailler ensemble. »
[Berners-Lee et al., 2001]
Langages de représentation de connaissances :
RDF, OWL, …
OWL-DL basé sur la logique de description est un formalisme
précis et décidable
Raisonneurs :
Actions - classification de concepts, test de cohérence et test
d’instanciation
Fact, Racer, Pellet, …
Langage de requête : SPARQL
9/47
15. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Les objectifs de la thèse
Améliorer la phase de post-traitement des règles
d’association :
Intégrer les connaissances de l’expert – ontologies :
langages + raisonneur
Augmenter l’interactivité avec l’expert :
description graduelle des connaissances
10/47
16. Introduction
COD
LOGO Problématique et contributions de la thèse
Equipe
Contributions
i. Un modèle pour représenter les connaissances de l’expert
ii. Une nouvelle approche interactive de post-traitement –
ARIPSO
iii. 2 implémentations - ARIPSO et ARLIUS
iv. Etude expérimentale sur les données de Nantes Habitat
11/47
17. COD
LOGO
Equipe
Plan de la Présentation
1 Introduction
2 Approches existantes
Les techniques de post-traitement
Les techniques subjectives
Les Ontologies dans l’ECD
Conclusions
3 L’approche ARIPSO
4 Réalisations et expérimentations
5 Conclusions et Perspectives
12/47
18. Approches existantes
COD
LOGO Les techniques de post-traitement
Equipe
Techniques de post-traitement [Baesens et al., 2000]
Technique de
post-traitement
RA
Filtrées
Techniques
sélection
DM
Database
[Silbershatz et Tuzilin, 1995]
13/47
19. Approches existantes
COD
LOGO Les techniques de post-traitement
Equipe
Techniques de post-traitement [Baesens et al., 2000]
Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999]
R1 : milk, pork → pear[S = 20%, C = 71%]
R2 : milk → pear [S = 25%, C = 70%] R1 redondante
R3 : pork → pear [S = 30%, C = 72%]
13/47
20. Approches existantes
COD
LOGO Les techniques de post-traitement
Equipe
Techniques de post-traitement [Baesens et al., 2000]
Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999]
R1 : milk, pork → pear[S = 20%, C = 71%]
R2 : milk → pear [S = 25%, C = 70%] R1 redondante
R3 : pork → pear [S = 30%, C = 72%]
Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996]
Fruit
apple → pork
Fuit → pork
pear → pork pear apple
13/47
21. Approches existantes
COD
LOGO Les techniques de post-traitement
Equipe
Techniques de post-traitement [Baesens et al., 2000]
Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999]
R1 : milk, pork → pear[S = 20%, C = 71%]
R2 : milk → pear [S = 25%, C = 70%] R1 redondante
R3 : pork → pear [S = 30%, C = 72%]
Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996]
Fruit
apple → pork
Fuit → pork
pear → pork pear apple
Groupement [An et al., 2003]
13/47
22. Approches existantes
COD
LOGO Les techniques de post-traitement
Equipe
Techniques de post-traitement [Baesens et al., 2000]
Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999]
R1 : milk, pork → pear[S = 20%, C = 71%]
R2 : milk → pear [S = 25%, C = 70%] R1 redondante
R3 : pork → pear [S = 30%, C = 72%]
Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996]
Fruit
apple → pork
Fuit → pork
pear → pork pear apple
Groupement [An et al., 2003]
Visualisation
[Blanchard et al., 2003]
13/47
23. Approches existantes
COD
LOGO Les techniques de post-traitement
Equipe
Les mesures d’intérêt
Caractéristiques des règles à sélectionner [Silberschatz et Tuzhilin, 1995] :
Unexpectedness – l’inattendu : règles surprenantes; contredisent les
connaissances de l’expert
Actionability – l’actionabilité : règles utiles; permettent à l’expert de prendre de
décisions
Mesures d’intérêt : indicateurs de la qualité d’une règle d’association
[Freitas, 1999]
Mesures Objectives
Mesures Subjectives
Les mesures objectives (orientées données)
[Piatetsky-Shapiro, 1991; Guillet and Hamilton, 2007]
Indicateurs statistiques de la force d’une règle sur les données
Avantages : Facilité d’application - mesures non-supervisées
Inconvénients : Ne sont pas adaptées aux demandes
14/47
24. Approches existantes
COD
LOGO Les techniques subjectives
Equipe
Description
Les mesures subjectives [Silberschatz et Tuzhilin, 1995] :
Mesurent l’importance d’une règle pour un expert
Dépendent des objectifs, croyances, attentes et connaissances de
l’expert
Avantages :
Sélectionnent les règles pertinentes pour l’expert
Inconvénients :
Difficulté d’élaborer un model de connaissances
Unicité du model (expert)
15/47
25. Approches existantes
COD
LOGO Les techniques subjectives
Equipe
Templates (patrons) [Klemettinen et al., 1994]
Principe : l’expert définit ses attentes et les règles correspondantes sont
sélectionnées
Représentation attentes de l’expert :
Patrons inclusifs (PI) et Patrons exclusifs (PE)
Technique de sélection : syntaxique ⊕ Sélection/élagage
⊖ Choix d’action limité
Exemple :
(PI) : Fruit, Dairy_Products → Meat
(PE) : pear, Dairy_Products → Meat
R1: Pear, Milk → Pork
R2: Apple, Milk → Chicken
R3: Beef, Milk → Grape
R2 sélectionnée
16/47
26. Approches existantes
COD
LOGO Les techniques subjectives
Equipe
Impressions Générales [Liu et al., 1999]
Connaissances – 3 niveaux de spécification :
Impressions Générales (GI) + (RPC, PK)
gi(< S1, . . . , Sm >) [support, confidence]
Objectifs : représenter les impressions vagues de l’expert
Technique de sélection : syntaxique
⊕ Description plus puissante
⊖ Expressions syntaxique complexe
Exemple :
gi(< { cheese, milk }, Meat∗, pear >)
R1 : cheese → pear
R2 : pork → pear, apple R1 est sélectionnée
R3 : milk, pear → pork
17/47
27. Approches existantes
COD
LOGO Les techniques subjectives
Equipe Etude comparative
25 techniques classées par dégrée d’intégration croissante des
connaissances :
Formes implicatives/Patrons/
Langages de requête
⊕ Syntaxe simple
⊖ Choix des actions
Représentation
Mesures d’intérêt Année Application Métrique Subjective
connaissances
Silberchatz and Tuzilin,
3 1995 association rules probabilistic unexpectedness Beliefs
1995, Beliefs
Imielinski et al., 1996, M-
6 1996 association rules queries M-SQL, query language
SQL
Kamber et al., 1997, multi-dimensional
7 1997 syntactic unexpectedness Metarules
Metarules association rules
Baralis and Psaila, 1997, Scenario Templates, Query
9 1997 association rules syntactic
Scenario Templates Languages
Ng et al., 1998,
10 1998 association rules syntactic syntactic Constrained Association Queries
Constrained Queries
Adomavicius and Tuzhilin, rule grouping novelty
11 1999 profile rules Templates
1999, Web Profiling syntactic actionability
Padmanabhan and Tuzhilin,
12 1999 association rules logical statistic unexpectedness Beliefs
1998, Logical Contradiction
Nazeri and Bloedorn, 2004,
18 2004 association rules syntactic unexpectedness Facts, Beliefs/Preferences
Facts, Beliefs
18/49
Manque d’interactivité avec l’expert
28. Approches existantes
COD
LOGO Les techniques subjectives
Equipe Etude comparative
25 techniques classées par dégrée d’intégration croissante des
connaissances :
Formes implicatives/Patrons/
Langages de requête
Formes implicatives+Taxonomies
⊕ Représentation hiérarchique
⊖ Faible expressivité
Représentation
Mesures d’intérêt Année Application Métrique Subjective
connaissances
Klementinen et al., 1994,
2 1994 association rules syntactic unexpectedness Templates
Templates
Hierarchical Gen. Trees, A-R
Anand et al., 1995, EDM classification
4 1995 syntactic unexpectedness Rules,
Framework rules
Environment Constraints
Liu et al., 1996, Fuzzy classification
5 1996 syntactic unexpectedness Fuzzy rules
Matching rules
Liu et al., 1999, actionability
8 1997 association rules syntactic General Impressions, RPC, PK
General Impressions unexpectedness
28/49
29. Approches existantes
COD
LOGO Les techniques subjectives
Equipe Etude comparative
25 techniques classées par dégrée d’intégration croissante des
connaissances :
Formes implicatives/Patrons/
Langages de requête
Formes implicatives+Taxonomies
Taxonomies ou Ontologies
⊕ Représentation hiérarchique
⊖ Sans raisonneur
Représentation
Mesures d’intérêt Année Application Métrique Subjective
connaissances
Chen et al., 2003,
14 2003 association rules generalization actionability Ontologies
Raising
An et al., 2003, association rules semantic
15 2003 unexpectedness Taxonomy, Semantic Networks
Semantic Groups groups distance
Shekar and Natarajan, 2004, similarity
17 2004 association rules unexpectedness Taxonomy
Item-relatedness distance
Domingues and Rezende, 2005,
19 2005 association rules generalization actionability Taxonomies
Taxonomy-based Generalization
class
22 Kotsifakos et al., 2007 2007 association rules actionability Ontologies
membership
semantical
23 Antunes, 2007 2007 association rules actionability Ontologies, Constraints
distance
syntactic
Ontologies, Pruning Constraints,
24 Bellandi et al., 2007 2007 association rules based, unexpectedness
Abstraction Constraints
constraints
semantic
distance,
25 Garcia et al., 2008 2008 association rules actionability Ontologies, Item Weight
relevance
assessment
29/49
30. Approches existantes
COD
LOGO Les techniques subjectives
Equipe
Mesures et distances sémantiques
Objectifs général [Blanchard et al., 2005; Gandon, 2008] :
Mesurer la proximité de deux éléments dans un graphe
Utilisation pour les règles d’association :
Lien de parenté entre les items (IRF) [Shekar et Natarajan, 2004]
La distance sémantique entre deux items
Règle impliquant des items proches sémantiquement => inutile
Fruit
Est-elle la règle distance(pear, apple)=2
+1 +1
R : apple → pear interet(R)=2
connue/triviale ? pear apple règle triviale
19/47
31. Approches existantes
COD
LOGO Ontologies dans l’ECD
Equipe
Les Ontologies et l’ECD
Ontologies pour le processus d’ECD
[Cespivova et al., 2004; Cannataro and Comito, 2003]
Choisir la tâche/méthode plus pertinente
Ontologies de métadonnées décrivent
[Srikant and Agrawal, 1995; Bellandi et al., 2008]
Le processus de construction d’items
[Hilario et al., 2009]
Ontologies pour les connaissances du domaine
Description du domaine
Acquisition de connaissances: ENIGME [Ganascia et al., 1993]
20/47
32. Approches existantes
COD
LOGO Conclusions
Equipe
Conclusions
Patrons :
Limités à patrons inclusifs et exclusifs => nouvelles actions
Langage limité, non évolutif
Impressions générales :
Langage plus développé, mais moins pratique pour les non-scientifiques
Taxonomies - expressivité limitée
Manque d’interactivité avec l’expert
Combiner les mesures :
objectives + subjectives + sémantiques
Ontologies :
Représentation de connaissances
Puissance raisonneur
21/47
33. COD
LOGO
Equipe
Plan de la Présentation
1 Introduction
2 Etat de l’art
3 L’approche ARIPSO
Principes généraux
Le model de connaissances
L’interactivité avec l’expert
Les autres filtres
4 Réalisations et expérimentations
5 Conclusions et Perspectives
22/47
34. L’approche ARIPSO
COD
LOGO Principes généraux
Equipe
Description Générale
Approche composée de 3 parties :
i. La fouille de règles d’association : extraction classique
ii. Le modèle de connaissances : enrichissement du model par l’expert
iii. La phase de post-traitement ARIPSO : application des méthodes
d’élagage/sélection
ii.
Modèle de
Connaissances
Fouille de Règles
Traitement
ECD règles d’association
ARIPSO
d’association sélectionnées
i. iii.
23/47
36. L’approche ARIPSO
COD
LOGO Principes généraux
Equipe
Motivations
R1 : nashi → steak_beef_100
R2 : green_apple → milk_100
Comment
trouver les associations entre rpc(< {red_apple, green_apple, chicken_wings}*
les produits diététiques et le → {grape_espagne, milk_100, steak_beef_100}* >)
produits écologiques ?
Difficile à construire (très laborieux) !
24/47
37. L’approche ARIPSO
COD
LOGO Principes généraux
Equipe
Motivations
R1 : nashi → steak_beef_100
R2 : green_apple → milk_100
Comment
trouver les associations entre rpc (< {red_apple, green_apple, chicken_wings}*
les produits diététiques et le → {grape_espagne, milk_100, steak_beef_100}* >)
produits écologiques ?
Difficile à construire (très laborieux) !
Construction de deux concepts :
DietProducts ≡ FoodItems
⊓ isDiet hasValue TRUE
EcologicalProducts ≡ FoodItems
⊓ isEcological hasValue TRUE
DietProducts → EcologicalProducts
24/47
38. L’approche ARIPSO
COD
LOGO Le modèle de connaissances
Equipe
Intégration des connaissances de l’expert
Connaissances du domaine - ontologie
Attentes – schémas de règles
Actions - opérateurs
Connaissances
du domaine Attentes Actions
C1 Elagage (P)
C2
C3 C2 C3 C1 Surprise (U)
SCHEMAS DE
ONTOLOGIES REGLES OPERATEURS
25/47
39. L’approche ARIPSO
COD
LOGO Le modèle de connaissances
Equipe
Connaissances du domaine :
Connexion Ontologie-Base de données
f : C → P(I)
grape_espagne nashi red_apple green_apple milk_100 steack_beef_100 chicken_wings
1 1 0 0 1 1 0 0
2 0 1 0 0 0 1 1
3 0 1 1 0 0 0 0
26/47
40. L’approche ARIPSO
COD
LOGO Le modèle de connaissances
Equipe
Attentes - Schémas de Règles
Syntaxe : RS ( < C1, C2, … (→) … Cn > ) où Ci ∈ C
Exemple : RS(< Fruits → EcologicalProducts >)
Exemple conformité
Concept ontologie: Fruit
f(Fruit) = {grape_espagne, red_apple,
nashi, green_apple}
conf(X1, Fruit)=TRUE
X1: red_apple, steak_beef_100
conf(X2, Fruit)=FALSE
X2: milk_100, chicken_wings
conf(X3, Fruit)=TRUE
X3: grape_espagne
27/47
41. L’approche ARIPSO
COD
LOGO Le modèle de connaissances
Equipe
Actions/décisions - Opérateurs
Opérateurs – appliqués sur les schémas de règles
RS(< Fruits → EcologicalProducts >)
Elagage (Pruning - P)
Sélection:
Conformité (Conforming - C) C(RS) : grape_espagne → milk_100, nashi
Inattendu (Unexpectedness - U)
Prémisse (Up) Up(RS) : chicken_wings → steack_beef_100
Conclusion (Uc) Uc(RS) : grape_espagne → nashi
Exception (E) E(RS) : nashi, steack beef_100 → grape_espagne
Opérateurs complémentaires :
Augmentation minimale
Lien de parenté entre les items
28/47
42. L’approche ARIPSO
COD
LOGO Le modèle de connaissances
Equipe
Actions/décisions - Opérateurs
Evaluation :
raisonneur => instances de
RS(< Fruits → EcologicalProducts >)
chaque concept
Opérateur Conformité règle –
schéma :
basé sur l’opérateur de
conformité itemset –
concept ontologie
grape_espagne → milk_100, nashi
29/47
43. L’approche ARIPSO
COD
LOGO L’interactivité avec l’expert
Equipe
Processus interactif avec l’expert
30/47
44. L’approche ARIPSO
COD
LOGO L’interactivité avec l’expert
Equipe
Processus interactif avec l’expert
30/47
45. L’approche ARIPSO
COD
LOGO L’interactivité avec l’expert
Equipe
Processus interactif avec l’expert
30/47
46. L’approche ARIPSO
COD
LOGO L’interactivité avec l’expert
Equipe
Processus interactif avec l’expert
30/47
47. L’approche ARIPSO
COD
LOGO L’interactivité avec l’expert
Equipe
Processus interactif avec l’expert
30/47
48. L’approche ARIPSO
COD
LOGO Conclusion
Equipe
ARIPSO/ARLIUS
Deux approches de ciblage de règles d’association :
ARIPSO
ARLIUS
Technique Model de Connaissances Avantages
Fouille locale
Schémas de
ARLIUS Fouille locale Opérateurs => réduction du temps
Règles
d’exécution
Utilisation
Schémas de
ARIPSO Post-traitement Ontologies Opérateurs d’ontologies
Règles
=> plus d’expressivité
31/47
49. COD
LOGO
Equipe
Plan de la Présentation
1 Introduction
2 Approches existantes
3 L’approche ARIPSO
4 Réalisations et expérimentations
Réalisations logicielles
Expérimentations
Analyse de l’interactivité et de la qualité
des règles sélectionnées
Analyse de l’efficacité
5 Conclusions et Perspectives
32/47
50. Réalisations et expérimentations
COD
LOGO Réalisations logicielles
Equipe
L’outil ARIPSO
Caractéristiques :
Java
7 packages
35 classes
Fonctions :
Chargement des fichiers OWL et PMML
Création/management des schémas de règles
Sélection opérateurs
Résultats sous forme de règles
33/47
51. Réalisations et expérimentations
COD
LOGO Réalisations logicielles
Equipe
L’outil ARIPSO – capture écran
2
Ontologie et
Options
1
Onglet
Post-traitement
3
Schéma de
Règles
34/47
52. Réalisations et expérimentations
COD
LOGO Expérimentations
Equipe
Objectifs des expérimentations
Objectifs :
évaluer la performance d’ARIPSO
évaluer son comportement avec différents opérateurs
répondre à un problème réel
Evaluations :
Réduction du nombre de règles
Interactivité avec l’expert
Qualité des règles sélectionnées
Collaboration directe avec l’expert Nantes Habitat
35/47
53. Réalisations et expérimentations
COD
LOGO Expérimentations
Equipe
Etude « Nantes Habitat »
Base de données de questionnaire sur la satisfaction des clients
concernant leur logement
Etude annuelle (depuis 2003) sur 1500 clients
67 questions avec 4 réponses de 1 à 4: satisfaction … insatisfaction
Exemple : q1=1 => question q1=« Le transport dans le quartier est pratique? »
avec la réponse 1 = satisfaction
Besoin Nantes Habitat :
trouver dans liens d’insatisfaction
Extraction des règles : q17= 4, q26 = 4, q97 = 4 → q28 = 4 [S = 2.6%, C = 92.8%]
Technique classique – Apriori q16 = 4, q17 = 4, q26 = 4, q97 = 4 → q28 = 4 [S = 2.5%, C = 92.5%]
q15 = 4, q17 = 4, q97 = 4 → q28 = 4 [S = 2.9%, C = 80.5%]
Support : min = 2%, max = 30% q15 = 4, q17 = 4, q97 = 4 → q26 = 4, q28 = 4 [S = 2.9%, C = 80.5%]
Confiance = 80% q17 = 4, q97 = 4 → q16 = 4 [S = 3.5%, C = 86.7%]
q25 = 4, q28 = 4, q97 = 4 → q26 = 4 [S = 2.0%, C = 100%]
358.072 règles d’association q28 = 4, q97 = 4 → q17 = 4 [S = 2.9%, C = 81.1%]
q8 = 4, q16 = 4, q97 = 4 → q9 = 4 [S = 2.1%, C = 88.6%]
=> Comment les analyser ?
36/47
54. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Le développement de l’ontologie
37/47
55. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Le développement de l’ontologie
Plusieurs phases :
Construction initiale
37/47
56. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Le développement de l’ontologie
Plusieurs phases :
Construction initiale
Ajout informations
supplémentaires:
DissatisfactionComAreas ≡ ComAreas ⊓
(hasAnswer hasValue 3
OR hasAnswer hasValue 4)
37/47
57. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Le développement de l’ontologie
Plusieurs phases :
Construction initiale
Ajout informations
supplémentaires:
DissatisfactionComAreas ≡ ComAreas ⊓
(hasAnswer hasValue 3
OR hasAnswer hasValue 4)
Raisonneur – organisation
concepts + instances +
cohérence
Caractéristiques :
7 niveaux
130 concepts: 113 concepts primitives et
17 concepts de restriction
37/47
58. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 1: Entrée – 358.072 Sortie – 1008 / 96
Schémas de règles
RS2 : RS(< DissatisfactionCalmDistrict>)
RS3 : RS(< DissasisfactionPrice,
DissatisfactionCommonAreas >)
38/47
59. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 1: Entrée – 358.072 Sortie – 1008 / 96
Schémas de règles
RS2 : RS(< DissatisfactionCalmDistrict>)
RS3 : RS(< DissasisfactionPrice,
DissatisfactionCommonAreas >)
Opérateurs
C(RS2) => 1008 règles
C(RS3) => 96 règles
38/47
60. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 1: Entrée – 358.072 Sortie – 1008 / 96
Schémas de règles
RS2 : RS(< DissatisfactionCalmDistrict>)
RS3 : RS(< DissasisfactionPrice,
DissatisfactionCommonAreas >)
Opérateurs
C(RS2) => 1008 règles
C(RS3) => 96 règles
Interprétation
q17=4, q26=4, q97=4 → q28=4 [S=2.6%, C=92.8%]
q16=4, q17=4, q26=4, q97=4 → q28=4 [S=2.5%, C=92.5%]
q15=4, q17=4, q97=4 → q28=4 [S=1.9%, C=80.5%]
q15=4, q17=4, q97=4 → q25=4, q28=4 [S=1.9%, C=80.5%]
Non validation
38/47
61. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 2: Entrée – 358.072 Sortie – 27.602
Opérateurs
Augmentation minimale (MICF)
=> 27.602 règles
38/47
62. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 2: Entrée – 358.072 Sortie – 27.602
Opérateurs
Augmentation minimale (MICF)
=> 27.602 règles
Interprétation
Validation
38/47
63. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 3: Entrée – 27.602 Sortie - 50
Schémas de règles
RS3 : RS(< DissasisfactionPrice,
DissatisfactionCommonAreas >)
38/47
64. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 3: Entrée – 27.602 Sortie - 50
Schémas de règles
RS3 : RS(< DissasisfactionPrice,
DissatisfactionCommonAreas >)
Opérateurs
C(RS3) => 50 règles
38/47
65. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 3: Entrée – 27.602 Sortie - 50
Schémas de règles
RS3 : RS(< DissasisfactionPrice,
DissatisfactionCommonAreas >)
Opérateurs
C(RS3) => 50 règles
Interprétation
q17=4, q26=4, q97=4 → q28=4 [S=2.6%, C=92.8%]
q15 = 4, q17 = 4, q97 = 4 → q28 = 4 [S=1.9%, C=80.5%]
Validation du MICF
q17 = 4, q97 = 4 → q16 = 4 [S=3.5% , C=86.7%]
q25 = 4, q28 = 4, q97 = 4 → q26 = 4 [S=2.0% , C=100%]
Impliquent items de EntryHall et CloseSurrounding
38/47
66. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 4: Entrée – 50 Sortie - 15
Schémas de règles
RS5: RS<EntryHall → CloseSurrounding>)
RS6: RS(<Stairwell → EntryHall>)
RS7: RS(<CloseSurrounding → EntryHall>)
RS8: RS(<EntryHall → Stairwell>)
38/47
67. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 4: Entrée – 50 Sortie - 15
Schémas de règles
RS5: RS<EntryHall → CloseSurrounding>)
RS6: RS(<Stairwell → EntryHall>)
RS7: RS(<CloseSurrounding → EntryHall>)
RS8: RS(<EntryHall → Stairwell>)
Opérateurs
P(RS5-RS8) => 15 règles
38/47
68. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 4: Entrée – 50 Sortie - 15
Schémas de règles
RS5: RS<EntryHall → CloseSurrounding>)
RS6: RS(<Stairwell → EntryHall>)
RS7: RS(<CloseSurrounding → EntryHall>)
RS8: RS(<EntryHall → Stairwell>)
Opérateurs
P(RS5-RS8) => 15 règles
Interprétation
q28 = 4, q97 = 4 → q17 = 4 [S = 2.9%, C = 81.1%]
q8 = 4, q16 = 4, q97 = 4 → q9 = 4 [S = 2.1%, C = 88.6%]
Impliquent items décrits par des instances très proches
dans l’ontologie
IRF
38/47
69. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 5: Entrée – 15 Sortie - 3
Opérateurs
IRF => 3 règles
38/47
70. Réalisations et expérimentations
COD
LOGO Analyse de l’interactivité et de la qualité des règles extraites
Equipe
Cas d’utilisation de l’outil
Phase 5: Entrée – 15 Sortie - 3
Opérateurs
IRF => 3 règles
Interprétation
q15 = 4, q16 = 4, q97 = 4 → q9 = 4
Support = 2.3% Confidence = 79.1%
38/47
71. Réalisations et expérimentations
COD
LOGO Analyse de l’efficacité
Equipe
Résultats des méthodes d’élagage
Taux d’élagage de chaque méthode
Notation Explication
MICF Augmentation minimale Nb MICF IRF P(RS) Règles
IRF Lien de parenté entre les items 1 358.072 (100%)
Opérateur d’élagage sur les Schémas 2 27.602 (7.7%)
PRS
de Règles
Rule
3 103.891 (29%)
Le nombre de règles restantes
number 4 207.196 (57%)
Schéma de Règles Opérateur
5 16.473 (4.6%)
RS5 < EnteryHall → CloseSurrounding > Elagage
6 21.822 (7.7%)
RS6 < Stairwell → EnteryHall > Elagage
7 73.091 (20%)
RS7 < CloseSurrounding → EnteryHall > Elagage
8 13.382 (3.7%)
RS8 < EnteryHall → Stairwell > Elagage
RS9 < CommonAreas → GarbageRoom > Elagage
RS10 < TechnicalMaintenance→TechnicalMaintenance > Elagage
39/47
72. Réalisations et expérimentations
COD
LOGO Analyse de l’efficacité
Equipe
Résultats des méthodes de sélection
Taux de sélection des opérateurs de sélection
C(RS1) C(RS2) C(RS3) Up(RS4) E(RS4)
Aucun opérateur d’élagage 185 1.008 96 1399 98
Tous les opérateurs
3 3 3 11 3
d’élagage
Schéma de Règles Opérateur
RS1 < DissatisfactionPrice > Conformité
RS2 < DissatisfactionCalmDistrict > Conformité
RS3 < DissatisfactionPrice, DissatisfactionCommonAreas > Conformité
< DissatisfactionPrice → DissatisfactionCommonAreas > Surprise
RS4
Exception
40/47
73. COD
LOGO
Equipe
Plan de la Présentation
1 Introduction
2 Etat de l’art
3 ARIPSO et ARLIUS
4 Réalisations et expérimentations
5 Conclusions et Perspectives
41/47
74. Conclusions et perspectives
COD
LOGO Conclusions
Equipe
Conclusions
i. Un modèle pour représenter la connaissance de l’expert :
Attentes, connaissances du domaine et actions
ii. Une nouvelle approche de post-traitement – ARIPSO :
Intégration du modèle de connaissances
Processus interactif
iii. Implémentations :
Implémentation en post-traitement – ARIPSO
Implémentation en local - ARLIUS
iv. Etude expérimentale :
Évaluation de la réduction et de la qualité des règles filtrées
Etude réalisée en collaboration avec l’expert et résultats validés
42/47
75. Conclusions et perspectives
COD
LOGO Perspectives
Equipe
Perspectives
Appliquer ARIPSO sur des données séquentielles
Pattern connu : <{Enfants, Mariage}, {Diovrce}>
Appliquer ARIPSO sur des graphes
Prof Etud
43/47
77. COD
LOGO
Equipe
Références
Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules. Procedings of 20th International Conference Very Large Data Bases, VLDB, pages 487–499, 1994.
B. Baesens, S. Viaene, and J. Vanthienen. Post-processing of association rules. Workshop on Post-Processing in Machine Learning and Data Mining: Interpretation, visualization, integration, and related
topics with in Sixth ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pages 20–23, 2000.
Roberto J. Bayardo Jr., Rakesh Agrawal, and Dimitrios Gunopulos. Constraintbased rule mining in large, dense databases. ICDE ’99: Proceedings of the 15th International Conference on Data Engineering,
pages 188–197, 1999.
Andrea Bellandi, Barbara Furletti, Valerio Grossi, and Andrea Romei. Ontological support for association rule mining. In Proceedings of the 26th IASTED International Conference on Artificial
Intelligence and Applications, pages 110–115. ACTA Press, 2008.
Berners-Lee, Tim; James Hendler and Ora Lassila (May 17, 2001). "The Semantic Web". Scientific American Magazine. Retrieved March 26, 2008.
Sergey Brin, Rajeev Motwani, and Craig Silverstein. Beyond market baskets: Generalizing association rules to correlations. SIGMOD Record, 26(1):265–276, 1997.
Emmanuel Blanchard, Mounira Harzallah, Henri Briand and Pascale Kuntz. A typology of ontology-based semantic measures. In Proccedings of the Workshop EMOI-INTEROP at CAISE, 2005.
C. H. Cai, A. W. C. Fu, C. H. Cheng, and W. W. Kwong. Mining association rules with weighted items. In IDEAS ’98: Proceedings of the 1998 International Symposium on Database Engineering &
Applications, page 68. IEEE Computer Society, 1998.
Julien Blanchard, Fabrice Guillet, and Henri Briand. A user-driven and qualityoriented visualization for mining association rules. Proceedings of the Third IEEE International Conference on Data Mining,
pages 493–496, 2003.
Mario Cannataro and Carmela Comito. A data mining ontology for grid programming. In Proceedings of the First International Workshop on Semantics in Peer-to-Peer and Grid Computing
(SemPGrid2003), 2003.
Hana Cespivova, Jan Rauch, Vojtech Svatek, Martin Kejkula, and Marie Tomeckova. Roles of medical ontology in association mining crisp-dm cycle. Knowledge Discovery and Ontologies (KDO)
at ECML/PKDD, 2004.
W. J. Frawley, G. Piatetsky-Shapiro et C. J. Matheus, “Knowledge discovery in databases : An overview”, Knowledge Discovery in Databases, AAAI/MIT Press, 1992, p. 57–70.
Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to knowledge discovery in databases. AI Magazine, 17:37 – 54, 1996.
E. Feigenbaum and P. McCorduck. The fifth generation: articial intelligence and Japan's computer challenge to the world. Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA, 1983.
Jean-Gabriel Ganascia. Charade: a rule system learning system. In Proceedings of the 10th International Joint Conference on Artificial Intelligence, pages 345–347, San Francisco, CA, USA, 1987.
Morgan Kaufmann Publishers Inc.
Fabien Gandon. Ontologies informatiques, May 2006.
Fabien Gandon. Graphes RDF et leur Manipulation pour la Gestion de Connaissances. HDR thesis, INRIA Sophia-Antipolis, 2008.
Fabien Gandon, Olivier Corby, Ibrahmina Diop and Moussa Lo. Distances sémantiques dans des applications de gestion d’information utilisant le web sémantique. In Semantic Similarity Workshop in
EGC2008, 2008.
Ana Cristina Bicharra Garcia and Adriana S. Vivacqua. Does ontology help make sense of a complex world or does it create a biased interpretation? Sensemaking Workshop in CHI 2008 Conference on
Human Factors in Computing Systems, 2008.
78. COD
LOGO
Equipe
Références
Liqiang Geng and Howard J. Hamilton. Interestingness measures for data mining: A survey. ACM Computing Surveys, 38(3), 2006.
F. Guillet and H. Hamilton. Quality Measures in Data Mining. Studies in Computational Intelligence, 2007.
Thomas R. Gruber, “Toward principles for the design of ontologies used for knowledge sharing”, In Nicola Guarino and Roberto Poli, editors, Formal Ontology in Conceptual
Analysis and Knowledge Representation. Kluwer Academic Publishers, 1993.
Jiawei Han and Jian Pei. Mining frequent patterns by pattern-growth: methodology and implications. ACM SIGKDD Explorations Newsletter, Special issue on Scalable data
mining algorithms, 2000(2):14–20, 2.
Mika Klemettinen, Heikki Mannila, Pirjo Ronkainen, Hannu Toivonen, and A. Inkeri Verkamo. Finding interesting rules from large sets of discovered association rules.
International Conference on Information and Knowledge Management (CIKM), pages 401–407, 1994.
Bing Liu, Wynne Hsu, Lai-Fun Mun, and Hing-Yan Lee. Finding interesting patterns using user expectations. IEEE Transactions on Knowledge and Data Engineering, pages
817–832, 1999.
Bing Liu, Wynne Hsu, and Yiming Ma. Pruning and summarizing the discovered associations. In KDD ’99: Proceedings of the fifth ACM SIGKDD international conference on
Knowledge discovery and data mining, pages 125–134. ACM, 1999.
H.O. Nigro, S.E. Gonzalez Cisaro, and D.H. Xodo. Data Mining With Ontologies: Implementations, Findings and Frameworks. Idea Group Inc., 2007.
Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Efficient mining of association rules using closed itemset lattices. Information Systems, 24:25–46, 1999.
Jian Pei, Jiawei Han, and Runying Mao. Closet: An efficient algorithm for mining frequent closed itemsets. In ACM SIGMOD Workshop on Research Issues in Data Mining
and Knowledge Discovery, pages 21–30, 2000.
B. Shekar and Rajesh Natarajan. A framework for evaluating knowledge-based interestingness of association rules. Fuzzy Optimization and Decision Making, 3(2):157–185, 2004.
G. Piatetsky-Shapiro. Knowledge Discovery in Databases, chapter Discovery, Analysis, and Presentation of Strong Rules, page 229248. AAAI/MIT Press, 1991.
Abraham Silberschatz and Alexander Tuzhilin. What makes patterns interesting in knowledge discovery systems. IEEE Transactions on Knowledge and Data Engineering,
8:970–974, 1996.
Abraham Silberschatz and Alexander Tuzhilin. On subjective measures of interestingness in knowledge discovery. Knowledge Discovery and Data Mining (KDD), pages 275–
281, 1995.
Ramakrishnan Srikant and Rakesh Agrawal. Mining generalized association rules. Proceedings of the 21st International Conference on Very Large Databases, (2–
3):407–419, 1995.
Mohammed J. Zaki and Ching J. Hsiao. Charm: An efficient algorithm for closed itemset mining. In Proceedings of SIAM’02, 2002.
79. Conclusions et perspectives
COD
LOGO Conclusions
Equipe
Sélection de publications
- Revues internationales
C. Marinica et F. Guillet. Knowledge Interactive Postmining of Association Rules Using Ontologies. Revue
IEEE Transactions on Knowledge and Data Engineering (TKDE), volume 22, numéro 6, pages: 784-797.
- Conférences internationales
C. Marinica, F. Guillet. Improving Post-Mining of Association Rules with Ontologies. Proceedings of the XIIIth
International Confenrece “Applied Stochastic Models and Data Analysis” (AMSDA2009), pages: 76-80, 2009.
C. Marinica, A. Olaru, F. Guillet. User-driven Association Rule Mining Using a Local Algorithm. Proceedings of
the 11th International Conference on Enterprise Information Systems (ICEIS2009), pages: 200-205, 2009.
A. Olaru, C. Marinica, F. Guillet. Local Mining of Association Rules with Rule Schemas. Proceedings of the IEEE
Symposium on Computational Intelligence and Data Mining (IEEE CIDM 2009), pages: 118 – 124, 2009.
C. Marinica, F. Guillet, H. Briand. Post-Processing of Discovered Association Rules using Ontologies. IEEE ICDM
Workshops - The Second International Workshop on Domain Driven Data Mining (DDDM 2008) en
conjunction avec IEEE International Conference on Data Mining series (ICDM 2008), pages : 126-133, 2008.