SlideShare une entreprise Scribd logo
1  sur  79
LOGO


               Association Rule Interactive
               Post-processing using Rule
                Schemas and Ontologies

                              - ARIPSO -

                            Claudia MARINICA


                Le Mardi 26 Octobre 2010

       Ecole polytechnique de l’Université de Nantes
                 LINA UMR CNRS 6241
            Equipe COnnaissances et Décision
COD
LOGO
 Equipe
                    Plan de la Présentation


                1   Introduction

                2   Approches existantes

                3   L’approche ARIPSO

                4   Réalisations et expérimentations

                5   Conclusions et Perspectives



                                                       2/47
COD
LOGO
 Equipe
                         Introduction

                1   Introduction
                       Contexte

                       Problématique et contributions de la thèse

                2   Approches existantes

                3   L’approche ARIPSO

                4   Réalisations et expérimentations

                5   Conclusions et Perspectives

                                                                    3/47
Introduction




          COD
LOGO             Contexte
 Equipe
                      Contexte et Axe de la thèse

   Cette thèse s’articule autour de deux domaines :
           L’Extraction des Connaissances à partir de Données
           (ECD)
           L’Ingénierie des Connaissances (IC) : Les Ontologies

   Axe : Intégrer les connaissances de l’expert (IC) dans le
      processus de fouille de données (ECD)




                                                                   4/47
Introduction




          COD
LOGO             Contexte
 Equipe
  Extraction des Connaissances à partir de Données

       « … l’extraction d'informations originales, auparavant inconnues,
                             potentiellement utiles à partir des données. »


                 Pré-traitement        Fouille   Post-traitement




   [Fayyad et al., 1996]


                                                                              5/47
Introduction




          COD
LOGO             Contexte
 Equipe
  Extraction des Connaissances à partir de Données

       « … l’extraction d'informations originales, auparavant inconnues,
                             potentiellement utiles à partir des données. »


                 Pré-traitement        Fouille   Post-traitement




                                                                    Utilisateur :
                                                                    - connaissances
                                                                    - croyances
   [Fayyad et al., 1996]                                            - attentes
                                                                    - actions
                                                                              5/47
Introduction




          COD
LOGO             Problématique et contributions de la thèse
 Equipe
                           Fouille de données:
                         Les règles d’association




                                                     [10%   80%]


                   Définition [Agrawal and Srikant, 1994; Ganascia, 1987] :
                       X → Y [s%, c%]       I – ensemble d’items
                                            X, Y – itemsets
                                            X, Y ⊆ I and X ∩ Y = ∅
                       s% – support    c% – confiance


                   Exemples/contre-exemples : XY / X ¬Y

                                                                              6/47
Introduction




          COD
LOGO             Problématique et contributions de la thèse
 Equipe
                    Fouille de données:
            Problématique des règles d’association
   Avantages : Technique non supervisée, résultats lisibles, ensemble complet

   Limites : Grand volume et qualité faible des règles extraites :
                invalides statistiquement
                      leek → bread
                redondantes :
                   R1: leek, St Jacques → Bergerac [c] leek → Bergerac [c1]   St Jacques → Bergerac [c2]
                       c1>c ou c2>c => R1 est redondante
                connues par l’expert
                      apple → pear
                inutiles pour l’expert
                      apple → skirt
    Difficulté d’analyse manuelle

   Besoins :
                Eliminer les règles inintéressantes
                Cibler les règles de qualité
                                                                                                           7/47
Introduction




          COD
LOGO             Problématique et contributions de la thèse
 Equipe
                     Ingénierie de Connaissances:
                            Les Ontologies




                                                  « une spécification formelle et explicite d’une
                                                                   conceptualisation partagée »
                                                                                      [Gruber, 1993]


Définition formelle              «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P}                        vise à réduire, voire éliminer, la confusion conceptuelle
                                          et terminologique et à tendre vers une compréhension
                                                    partagée pour améliorer la communication,
                                                      le partage, l'interopérabilité et le degré de
                                                                          réutilisation possible. »
                                                                                     [Gandon, 2006]

                                                                                                  8/47
Introduction




           COD
LOGO              Problématique et contributions de la thèse
  Equipe
                      Ingénierie de Connaissances:
                             Les Ontologies




                                                  « une spécification formelle et explicite d’une
                                                                   conceptualisation partagée »
                                                                                    [Gruber, 1993]


Définition formelle            «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P}                      vise à réduire, voire éliminer, la confusion conceptuelle
Concepts – éléments du domaine          et terminologique et à tendre vers une compréhension
                                                  partagée pour améliorer la communication,
                                                    le partage, l'interopérabilité et le degré de
                                                                        réutilisation possible. »
                                                                                    [Gandon, 2006]

                                                                                                8/47
Introduction




           COD
LOGO               Problématique et contributions de la thèse
  Equipe
                        Ingénierie de Connaissances:
                               Les Ontologies
                              is-a


                 is-a



                                                    « une spécification formelle et explicite d’une
                                                                     conceptualisation partagée »
                                                                                      [Gruber, 1993]


Définition formelle              «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P}                        vise à réduire, voire éliminer, la confusion conceptuelle
Concepts – éléments du domaine            et terminologique et à tendre vers une compréhension
Graphe de concepts – relation is-a                  partagée pour améliorer la communication,
                                                      le partage, l'interopérabilité et le degré de
                                                                          réutilisation possible. »
                                                                                     [Gandon, 2006]

                                                                                                  8/47
Introduction




           COD
LOGO              Problématique et contributions de la thèse
  Equipe
                      Ingénierie de Connaissances:
                             Les Ontologies




                                                    « une spécification formelle et explicite d’une
                                                                     conceptualisation partagée »
                                                                                       [Gruber, 1993]


Définition formelle               «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P}                         vise à réduire, voire éliminer, la confusion conceptuelle
Concepts – éléments du domaine             et terminologique et à tendre vers une compréhension
Graphe de concepts – relation is-a                   partagée pour améliorer la communication,
Instances – les individus des concepts                 le partage, l'interopérabilité et le degré de
                                                                           réutilisation possible. »
                                                                                      [Gandon, 2006]

                                                                                                   8/47
Introduction




           COD
LOGO              Problématique et contributions de la thèse
  Equipe
                      Ingénierie de Connaissances:
                             Les Ontologies




                                                     « une spécification formelle et explicite d’une
                                                                      conceptualisation partagée »
                                                                                        [Gruber, 1993]


Définition formelle                «L'introduction d'une ontologie dans un système d'information
O = {C, G, I, P}                          vise à réduire, voire éliminer, la confusion conceptuelle
Concepts – éléments du domaine              et terminologique et à tendre vers une compréhension
Graphe de concepts – relation is-a                    partagée pour améliorer la communication,
Instances – les individus des concepts                  le partage, l'interopérabilité et le degré de
Propriétés – relations entre les concepts                                   réutilisation possible. »
                                                                                       [Gandon, 2006]

                                                                                                    8/47
Introduction




          COD
LOGO             Problématique et contributions de la thèse
 Equipe
                     Ingénierie de Connaissances:
                         Le Web Sémantique

              « Le Web sémantique est une extension du Web courant dans lequel
            l'information est définie sémantiquement, permettant aux machines et
                                   aux utilisateurs de mieux travailler ensemble. »
                                                                 [Berners-Lee et al., 2001]


   Langages de représentation de connaissances :
                RDF, OWL, …
                OWL-DL basé sur la logique de description est un formalisme
                 précis et décidable

   Raisonneurs :
                Actions - classification de concepts, test de cohérence et test
                 d’instanciation
                Fact, Racer, Pellet, …
                Langage de requête : SPARQL
                                                                                              9/47
Introduction




          COD
LOGO             Problématique et contributions de la thèse
 Equipe
                         Les objectifs de la thèse


   Améliorer la phase de post-traitement des règles
     d’association :

           Intégrer les connaissances de l’expert – ontologies :
                langages + raisonneur

           Augmenter l’interactivité avec l’expert :
               description graduelle des connaissances




                                                                    10/47
Introduction




          COD
LOGO             Problématique et contributions de la thèse
 Equipe
                                Contributions

   i.      Un modèle pour représenter les connaissances de l’expert

   ii.     Une nouvelle approche interactive de post-traitement –
           ARIPSO

   iii.    2 implémentations - ARIPSO et ARLIUS

   iv.     Etude expérimentale sur les données de Nantes Habitat




                                                                      11/47
COD
LOGO
 Equipe
                    Plan de la Présentation

                1   Introduction

                2   Approches existantes
                       Les techniques de post-traitement

                       Les techniques subjectives
                       Les Ontologies dans l’ECD
                       Conclusions

                3   L’approche ARIPSO
                4   Réalisations et expérimentations
                5   Conclusions et Perspectives
                                                           12/47
Approches existantes




          COD
LOGO             Les techniques de post-traitement
 Equipe
    Techniques de post-traitement [Baesens et al.,    2000]




                                                                           Technique de
                                                                          post-traitement


                                                                                RA
                                                                              Filtrées


                                                                            Techniques
                                                                             sélection


                                                                                 DM

                                                                             Database
                                                              [Silbershatz et Tuzilin, 1995]
                                                                                 13/47
Approches existantes




          COD
LOGO             Les techniques de post-traitement
 Equipe
    Techniques de post-traitement [Baesens et al.,          2000]

    Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999]
                R1 : milk, pork → pear[S = 20%, C = 71%]
                R2 : milk → pear      [S = 25%, C = 70%]   R1 redondante
                R3 : pork → pear      [S = 30%, C = 72%]




                                                                           13/47
Approches existantes




          COD
LOGO             Les techniques de post-traitement
 Equipe
    Techniques de post-traitement [Baesens et al.,                         2000]

    Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999]
                R1 : milk, pork → pear[S = 20%, C = 71%]
                R2 : milk → pear      [S = 25%, C = 70%]                  R1 redondante
                R3 : pork → pear      [S = 30%, C = 72%]


    Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996]
                                                                  Fruit
                apple → pork
                                      Fuit → pork
                pear → pork                                pear            apple




                                                                                          13/47
Approches existantes




          COD
LOGO             Les techniques de post-traitement
 Equipe
    Techniques de post-traitement [Baesens et al.,                         2000]

    Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999]
                R1 : milk, pork → pear[S = 20%, C = 71%]
                R2 : milk → pear      [S = 25%, C = 70%]                  R1 redondante
                R3 : pork → pear      [S = 30%, C = 72%]


    Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996]
                                                                  Fruit
                apple → pork
                                      Fuit → pork
                pear → pork                                pear            apple


                                                  Groupement [An et al., 2003]




                                                                                          13/47
Approches existantes




          COD
LOGO             Les techniques de post-traitement
 Equipe
    Techniques de post-traitement [Baesens et al.,                            2000]

    Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999]
                R1 : milk, pork → pear[S = 20%, C = 71%]
                R2 : milk → pear        [S = 25%, C = 70%]                   R1 redondante
                R3 : pork → pear        [S = 30%, C = 72%]


    Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996]
                                                                     Fruit
                apple → pork
                                        Fuit → pork
                pear → pork                                   pear            apple


                                                     Groupement [An et al., 2003]



                                    Visualisation
                                   [Blanchard et al., 2003]
                                                                                             13/47
Approches existantes




          COD
LOGO             Les techniques de post-traitement
 Equipe
                          Les mesures d’intérêt

   Caractéristiques des règles à sélectionner [Silberschatz et Tuzhilin, 1995] :
           Unexpectedness – l’inattendu : règles surprenantes; contredisent les
            connaissances de l’expert
           Actionability – l’actionabilité : règles utiles; permettent à l’expert de prendre de
            décisions

   Mesures d’intérêt : indicateurs de la qualité d’une règle d’association
          [Freitas, 1999]
           Mesures Objectives
           Mesures Subjectives

   Les mesures objectives (orientées données)
      [Piatetsky-Shapiro, 1991; Guillet and Hamilton, 2007]
           Indicateurs statistiques de la force d’une règle sur les données
           Avantages : Facilité d’application - mesures non-supervisées
           Inconvénients : Ne sont pas adaptées aux demandes

                                                                                                   14/47
Approches existantes




          COD
LOGO             Les techniques subjectives
 Equipe
                                  Description

   Les mesures subjectives [Silberschatz et Tuzhilin, 1995] :
           Mesurent l’importance d’une règle pour un expert
           Dépendent des objectifs, croyances, attentes et connaissances de
            l’expert


   Avantages :
           Sélectionnent les règles pertinentes pour l’expert


   Inconvénients :
           Difficulté d’élaborer un model de connaissances
           Unicité du model (expert)


                                                                               15/47
Approches existantes




          COD
LOGO             Les techniques subjectives
 Equipe
           Templates (patrons) [Klemettinen et al., 1994]

   Principe : l’expert définit ses attentes et les règles correspondantes sont
      sélectionnées

   Représentation attentes de l’expert :
          Patrons inclusifs (PI) et Patrons exclusifs (PE)

   Technique de sélection : syntaxique                       ⊕ Sélection/élagage
                                                             ⊖ Choix d’action limité
   Exemple :
   (PI) : Fruit, Dairy_Products → Meat
   (PE) : pear, Dairy_Products → Meat

       R1: Pear, Milk → Pork
       R2: Apple, Milk → Chicken
       R3: Beef, Milk → Grape

      R2 sélectionnée

                                                                                 16/47
Approches existantes




          COD
LOGO             Les techniques subjectives
 Equipe
                Impressions Générales [Liu et al., 1999]

   Connaissances – 3 niveaux de spécification :
           Impressions Générales (GI) + (RPC, PK)
                 gi(< S1, . . . , Sm >) [support, confidence]

   Objectifs : représenter les impressions vagues de l’expert

   Technique de sélection : syntaxique
           ⊕ Description plus puissante
           ⊖ Expressions syntaxique complexe

   Exemple :
      gi(< { cheese, milk }, Meat∗, pear >)

          R1 : cheese → pear
          R2 : pork → pear, apple                 R1 est sélectionnée
          R3 : milk, pear → pork
                                                                        17/47
Approches existantes




                         COD
LOGO                                Les techniques subjectives
       Equipe                                                   Etude comparative


             25 techniques classées par dégrée d’intégration croissante des
               connaissances :
                           Formes implicatives/Patrons/
                            Langages de requête

                                   ⊕ Syntaxe simple
                                   ⊖ Choix des actions

                                                                                                               Représentation
          Mesures d’intérêt         Année      Application         Métrique           Subjective
                                                                                                               connaissances
     Silberchatz and Tuzilin,
3                                   1995    association rules   probabilistic       unexpectedness   Beliefs
     1995, Beliefs
     Imielinski et al., 1996, M-
6                                   1996    association rules   queries                              M-SQL, query language
     SQL
     Kamber et al., 1997,                   multi-dimensional
7                                   1997                        syntactic           unexpectedness   Metarules
     Metarules                              association rules
     Baralis and Psaila, 1997,                                                                       Scenario Templates, Query
9                                   1997    association rules   syntactic
     Scenario Templates                                                                              Languages
     Ng et al., 1998,
10                                  1998    association rules   syntactic           syntactic        Constrained Association Queries
     Constrained Queries
     Adomavicius and Tuzhilin,                                  rule grouping       novelty
11                                  1999    profile rules                                            Templates
     1999, Web Profiling                                        syntactic           actionability
     Padmanabhan and Tuzhilin,
12                                  1999    association rules   logical statistic   unexpectedness   Beliefs
     1998, Logical Contradiction
     Nazeri and Bloedorn, 2004,
18                                  2004    association rules   syntactic           unexpectedness   Facts, Beliefs/Preferences
     Facts, Beliefs




                                                                                                                                       18/49
Manque d’interactivité avec l’expert
Approches existantes




                              COD
LOGO                                 Les techniques subjectives
        Equipe                                                   Etude comparative


              25 techniques classées par dégrée d’intégration croissante des
                connaissances :
                               Formes implicatives/Patrons/
                                Langages de requête
                               Formes implicatives+Taxonomies

                                    ⊕ Représentation hiérarchique
                                    ⊖ Faible expressivité

                                                                                                      Représentation
          Mesures d’intérêt          Année     Application        Métrique      Subjective
                                                                                                      connaissances
    Klementinen et al., 1994,
2                                    1994    association rules   syntactic   unexpectedness   Templates
    Templates
                                                                                              Hierarchical Gen. Trees, A-R
    Anand et al., 1995, EDM                  classification
4                                    1995                        syntactic   unexpectedness   Rules,
    Framework                                rules
                                                                                              Environment Constraints
    Liu et al., 1996, Fuzzy                  classification
5                                    1996                        syntactic   unexpectedness   Fuzzy rules
    Matching                                 rules
    Liu et al., 1999,                                                        actionability
8                                    1997    association rules   syntactic                    General Impressions, RPC, PK
    General Impressions                                                      unexpectedness




                                                                                                                             28/49
Approches existantes




                               COD
 LOGO                                 Les techniques subjectives
         Equipe                                                   Etude comparative


                25 techniques classées par dégrée d’intégration croissante des
                  connaissances :
                                Formes implicatives/Patrons/
                                 Langages de requête
                                Formes implicatives+Taxonomies
                                Taxonomies ou Ontologies
                                     ⊕ Représentation hiérarchique
                                     ⊖ Sans raisonneur
                                                                                                            Représentation
            Mesures d’intérêt         Année     Application         Métrique          Subjective
                                                                                                            connaissances
     Chen et al., 2003,
14                                     2003   association rules   generalization   actionability    Ontologies
     Raising
     An et al., 2003,                         association rules   semantic
15                                     2003                                        unexpectedness   Taxonomy, Semantic Networks
     Semantic Groups                          groups              distance
     Shekar and Natarajan, 2004,                                  similarity
17                                     2004   association rules                    unexpectedness   Taxonomy
     Item-relatedness                                             distance
     Domingues and Rezende, 2005,
19                                     2005   association rules   generalization   actionability    Taxonomies
     Taxonomy-based Generalization
                                                                  class
22   Kotsifakos et al., 2007           2007   association rules                    actionability    Ontologies
                                                                  membership
                                                                  semantical
23   Antunes, 2007                     2007   association rules                    actionability    Ontologies, Constraints
                                                                  distance
                                                                  syntactic
                                                                                                    Ontologies, Pruning Constraints,
24   Bellandi et al., 2007             2007   association rules   based,           unexpectedness
                                                                                                    Abstraction Constraints
                                                                  constraints
                                                                  semantic
                                                                  distance,
25   Garcia et al., 2008               2008   association rules                    actionability    Ontologies, Item Weight
                                                                  relevance
                                                                  assessment
                                                                                                                                       29/49
Approches existantes




          COD
LOGO             Les techniques subjectives
 Equipe
                  Mesures et distances sémantiques

   Objectifs général [Blanchard et al., 2005; Gandon, 2008] :
           Mesurer la proximité de deux éléments dans un graphe


   Utilisation pour les règles d’association :
          Lien de parenté entre les items (IRF) [Shekar et Natarajan, 2004]
           La distance sémantique entre deux items
           Règle impliquant des items proches sémantiquement => inutile

                                               Fruit
           Est-elle la règle                                    distance(pear, apple)=2
                                        +1             +1
          R : apple → pear                                       interet(R)=2
          connue/triviale ?         pear                apple    règle triviale


                                                                                          19/47
Approches existantes




          COD
LOGO             Ontologies dans l’ECD
 Equipe
                        Les Ontologies et l’ECD

    Ontologies pour le processus d’ECD
          [Cespivova et al., 2004; Cannataro and Comito, 2003]
           Choisir la tâche/méthode plus pertinente



    Ontologies de métadonnées décrivent
          [Srikant and Agrawal, 1995; Bellandi et al., 2008]
           Le processus de construction d’items
                                                                 [Hilario et al., 2009]


    Ontologies pour les connaissances du domaine
           Description du domaine
           Acquisition de connaissances: ENIGME [Ganascia et al., 1993]

                                                                                      20/47
Approches existantes




          COD
LOGO             Conclusions
 Equipe
                                 Conclusions

   Patrons :
           Limités à patrons inclusifs et exclusifs => nouvelles actions
           Langage limité, non évolutif

   Impressions générales :
           Langage plus développé, mais moins pratique pour les non-scientifiques
           Taxonomies - expressivité limitée

   Manque d’interactivité avec l’expert

   Combiner les mesures :
           objectives + subjectives + sémantiques

   Ontologies :
           Représentation de connaissances
           Puissance raisonneur
                                                                                     21/47
COD
LOGO
 Equipe
                    Plan de la Présentation

                1   Introduction

                2   Etat de l’art

                3   L’approche ARIPSO
                       Principes généraux

                       Le model de connaissances
                       L’interactivité avec l’expert
                       Les autres filtres

                4   Réalisations et expérimentations
                5   Conclusions et Perspectives
                                                       22/47
L’approche ARIPSO




          COD
LOGO              Principes généraux
 Equipe
                           Description Générale

   Approche composée de 3 parties :
          i.      La fouille de règles d’association : extraction classique
          ii.     Le modèle de connaissances : enrichissement du model par l’expert
          iii.    La phase de post-traitement ARIPSO : application des méthodes
                  d’élagage/sélection
                                                             ii.

                                                Modèle de
                                               Connaissances




                           Fouille de                                     Règles
                                                Traitement
     ECD                     règles                                   d’association
                                                 ARIPSO
                          d’association                               sélectionnées
                                        i.                iii.


                                                                                      23/47
L’approche ARIPSO




          COD
LOGO             Principes généraux
 Equipe
                                Motivations
                            R1 : nashi → steak_beef_100
                            R2 : green_apple → milk_100

                                               gi (< {milk, cheese}*; Fruit+, steak_beef_100>)
                                                             R1 : nashi → steak_beef_100




                                                                                           24/47
L’approche ARIPSO




          COD
LOGO             Principes généraux
 Equipe
                                   Motivations
                               R1 : nashi → steak_beef_100
                               R2 : green_apple → milk_100
           Comment
 trouver les associations entre                   rpc(< {red_apple, green_apple, chicken_wings}*
  les produits diététiques et le                  → {grape_espagne, milk_100, steak_beef_100}* >)
     produits écologiques ?
                                                    Difficile à construire (très laborieux) !




                                                                                                24/47
L’approche ARIPSO




          COD
LOGO             Principes généraux
 Equipe
                                   Motivations
                               R1 : nashi → steak_beef_100
                               R2 : green_apple → milk_100
           Comment
 trouver les associations entre                   rpc (< {red_apple, green_apple, chicken_wings}*
  les produits diététiques et le                  → {grape_espagne, milk_100, steak_beef_100}* >)
     produits écologiques ?
                                                    Difficile à construire (très laborieux) !




                                                   Construction de deux concepts :
                                                       DietProducts ≡ FoodItems
                                                                  ⊓ isDiet hasValue TRUE
                                                       EcologicalProducts ≡ FoodItems
                                                             ⊓ isEcological hasValue TRUE

                                                   DietProducts → EcologicalProducts


                                                                                                24/47
L’approche ARIPSO




          COD
LOGO             Le modèle de connaissances
 Equipe
          Intégration des connaissances de l’expert

           Connaissances du domaine - ontologie
           Attentes – schémas de règles
           Actions - opérateurs



                     Connaissances
                      du domaine                Attentes       Actions
                          C1                                Elagage (P)
                       C2
                              C3               C2 C3  C1   Surprise (U)

                                           SCHEMAS DE
                      ONTOLOGIES             REGLES         OPERATEURS




                                                                           25/47
L’approche ARIPSO




          COD
LOGO             Le modèle de connaissances
 Equipe
                 Connaissances du domaine :
             Connexion Ontologie-Base de données




   f : C → P(I)
          grape_espagne   nashi   red_apple   green_apple   milk_100   steack_beef_100   chicken_wings
    1            1         0         0            1            1             0                0
    2            0         1         0            0            0             1                1
    3            0         1         1            0            0             0                0

                                                                                                         26/47
L’approche ARIPSO




          COD
LOGO             Le modèle de connaissances
 Equipe
                     Attentes - Schémas de Règles


 Syntaxe : RS ( < C1, C2, … (→) … Cn > ) où Ci ∈ C

 Exemple : RS(< Fruits → EcologicalProducts >)

 Exemple conformité
   Concept ontologie: Fruit
   f(Fruit) = {grape_espagne, red_apple,
               nashi, green_apple}

   conf(X1, Fruit)=TRUE
                                               X1: red_apple, steak_beef_100
   conf(X2, Fruit)=FALSE
                                               X2: milk_100, chicken_wings
   conf(X3, Fruit)=TRUE
                                               X3: grape_espagne
                                                                           27/47
L’approche ARIPSO




          COD
LOGO             Le modèle de connaissances
 Equipe
                    Actions/décisions - Opérateurs

   Opérateurs – appliqués sur les schémas de règles
          RS(< Fruits → EcologicalProducts >)

           Elagage (Pruning - P)
           Sélection:
              Conformité (Conforming - C) C(RS) : grape_espagne → milk_100, nashi

                 Inattendu (Unexpectedness - U)
                      Prémisse (Up)             Up(RS) : chicken_wings → steack_beef_100
                      Conclusion (Uc)           Uc(RS) : grape_espagne → nashi
                 Exception (E)                  E(RS) : nashi, steack beef_100 → grape_espagne

   Opérateurs complémentaires :
       Augmentation minimale
       Lien de parenté entre les items



                                                                                         28/47
L’approche ARIPSO




          COD
LOGO             Le modèle de connaissances
 Equipe
                    Actions/décisions - Opérateurs

   Evaluation :
           raisonneur => instances de
                                               RS(< Fruits → EcologicalProducts >)
          chaque concept

   Opérateur Conformité règle –
   schéma :
           basé sur l’opérateur de
            conformité itemset –
            concept ontologie




                                               grape_espagne → milk_100, nashi
                                                                                29/47
L’approche ARIPSO




          COD
LOGO             L’interactivité avec l’expert
 Equipe
                  Processus interactif avec l’expert




                                                       30/47
L’approche ARIPSO




          COD
LOGO             L’interactivité avec l’expert
 Equipe
                  Processus interactif avec l’expert




                                                       30/47
L’approche ARIPSO




          COD
LOGO             L’interactivité avec l’expert
 Equipe
                  Processus interactif avec l’expert




                                                       30/47
L’approche ARIPSO




          COD
LOGO             L’interactivité avec l’expert
 Equipe
                  Processus interactif avec l’expert




                                                       30/47
L’approche ARIPSO




          COD
LOGO             L’interactivité avec l’expert
 Equipe
                  Processus interactif avec l’expert




                                                       30/47
L’approche ARIPSO




          COD
LOGO             Conclusion
 Equipe
                                  ARIPSO/ARLIUS

    Deux approches de ciblage de règles d’association :
        ARIPSO
        ARLIUS

                  Technique              Model de Connaissances                 Avantages

                                                                          Fouille locale
                                                Schémas de
 ARLIUS Fouille locale                                       Opérateurs   => réduction du temps
                                                Règles
                                                                          d’exécution
                                                                          Utilisation
                                                Schémas de
 ARIPSO         Post-traitement    Ontologies                Opérateurs   d’ontologies
                                                Règles
                                                                          => plus d’expressivité




                                                                                              31/47
COD
LOGO
 Equipe
                    Plan de la Présentation

                1   Introduction

                2   Approches existantes
                3   L’approche ARIPSO
                4   Réalisations et expérimentations
                       Réalisations logicielles
                       Expérimentations
                       Analyse de l’interactivité et de la qualité
                       des règles sélectionnées
                       Analyse de l’efficacité
                5   Conclusions et Perspectives
                                                                     32/47
Réalisations et expérimentations




          COD
LOGO             Réalisations logicielles
 Equipe
                               L’outil ARIPSO

   Caractéristiques :
           Java
           7 packages
           35 classes


   Fonctions :
           Chargement des fichiers OWL et PMML
           Création/management des schémas de règles
           Sélection opérateurs
           Résultats sous forme de règles



                                                        33/47
Réalisations et expérimentations




               COD
  LOGO                Réalisations logicielles
      Equipe
                        L’outil ARIPSO – capture écran




                                                         2
                                                         Ontologie et
                                                         Options
              1
         Onglet
Post-traitement
                                                         3
                                                         Schéma de
                                                         Règles




                                                               34/47
Réalisations et expérimentations




          COD
LOGO             Expérimentations
 Equipe
                    Objectifs des expérimentations

   Objectifs :
           évaluer la performance d’ARIPSO
           évaluer son comportement avec différents opérateurs
           répondre à un problème réel


   Evaluations :
           Réduction du nombre de règles
           Interactivité avec l’expert
           Qualité des règles sélectionnées


   Collaboration directe avec l’expert Nantes Habitat

                                                                  35/47
Réalisations et expérimentations




          COD
LOGO             Expérimentations
 Equipe
                        Etude « Nantes Habitat »

   Base de données de questionnaire sur la satisfaction des clients
   concernant leur logement
           Etude annuelle (depuis 2003) sur 1500 clients
           67 questions avec 4 réponses de 1 à 4: satisfaction … insatisfaction

   Exemple : q1=1 => question q1=« Le transport dans le quartier est pratique? »
   avec la réponse 1 = satisfaction

   Besoin Nantes Habitat :
           trouver dans liens d’insatisfaction

   Extraction des règles :                         q17= 4, q26 = 4, q97 = 4 → q28 = 4             [S = 2.6%, C = 92.8%]
           Technique classique – Apriori          q16 = 4, q17 = 4, q26 = 4, q97 = 4 → q28 = 4   [S = 2.5%, C = 92.5%]
                                                   q15 = 4, q17 = 4, q97 = 4 → q28 = 4            [S = 2.9%, C = 80.5%]
           Support : min = 2%, max = 30%          q15 = 4, q17 = 4, q97 = 4 → q26 = 4, q28 = 4   [S = 2.9%, C = 80.5%]
              Confiance = 80%                      q17 = 4, q97 = 4 → q16 = 4                     [S = 3.5%, C = 86.7%]
                                                   q25 = 4, q28 = 4, q97 = 4 → q26 = 4            [S = 2.0%, C = 100%]
           358.072 règles d’association           q28 = 4, q97 = 4 → q17 = 4                     [S = 2.9%, C = 81.1%]
                                                   q8 = 4, q16 = 4, q97 = 4 → q9 = 4              [S = 2.1%, C = 88.6%]
          => Comment les analyser ?
                                                                                                             36/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                                 Le développement de l’ontologie




                                                                                     37/47
Réalisations et expérimentations




             COD
 LOGO               Analyse de l’interactivité et de la qualité des règles extraites
    Equipe
                                    Le développement de l’ontologie



Plusieurs phases :
     Construction initiale




                                                                                        37/47
Réalisations et expérimentations




              COD
  LOGO               Analyse de l’interactivité et de la qualité des règles extraites
     Equipe
                                     Le développement de l’ontologie



Plusieurs phases :
     Construction initiale
     Ajout informations
         supplémentaires:
DissatisfactionComAreas ≡ ComAreas ⊓
    (hasAnswer hasValue 3
       OR hasAnswer hasValue 4)




                                                                                         37/47
Réalisations et expérimentations




              COD
  LOGO               Analyse de l’interactivité et de la qualité des règles extraites
     Equipe
                                     Le développement de l’ontologie



Plusieurs phases :
     Construction initiale
     Ajout informations
         supplémentaires:
DissatisfactionComAreas ≡ ComAreas ⊓
    (hasAnswer hasValue 3
       OR hasAnswer hasValue 4)
     Raisonneur – organisation
      concepts + instances +
      cohérence
                                         Caractéristiques :
                                                7 niveaux
                                                130 concepts: 113 concepts primitives et
                                                  17 concepts de restriction
                                                                                            37/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 1:   Entrée – 358.072        Sortie – 1008 / 96

                                                   Schémas de règles
                                                   RS2 : RS(< DissatisfactionCalmDistrict>)
                                                   RS3 : RS(< DissasisfactionPrice,
                                                                            DissatisfactionCommonAreas >)




                                                                                                   38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 1:   Entrée – 358.072        Sortie – 1008 / 96

                                                   Schémas de règles
                                                   RS2 : RS(< DissatisfactionCalmDistrict>)
                                                   RS3 : RS(< DissasisfactionPrice,
                                                                            DissatisfactionCommonAreas >)

                                                   Opérateurs
                                                        C(RS2) => 1008 règles
                                                        C(RS3) => 96 règles




                                                                                                   38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 1:   Entrée – 358.072          Sortie – 1008 / 96

                                                   Schémas de règles
                                                   RS2 : RS(< DissatisfactionCalmDistrict>)
                                                   RS3 : RS(< DissasisfactionPrice,
                                                                            DissatisfactionCommonAreas >)

                                                   Opérateurs
                                                        C(RS2) => 1008 règles
                                                        C(RS3) => 96 règles

                                                   Interprétation
                                                   q17=4, q26=4, q97=4 → q28=4            [S=2.6%, C=92.8%]
                                                   q16=4, q17=4, q26=4, q97=4 → q28=4     [S=2.5%, C=92.5%]
                                                   q15=4, q17=4, q97=4 → q28=4            [S=1.9%, C=80.5%]
                                                   q15=4, q17=4, q97=4 → q25=4, q28=4     [S=1.9%, C=80.5%]
                                                    Non validation


                                                                                                     38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 2:   Entrée – 358.072       Sortie – 27.602




                                                   Opérateurs
                                                        Augmentation minimale (MICF)
                                                        => 27.602 règles




                                                                                                  38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 2:   Entrée – 358.072       Sortie – 27.602




                                                   Opérateurs
                                                        Augmentation minimale (MICF)
                                                        => 27.602 règles

                                                   Interprétation

                                                    Validation




                                                                                                  38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 3:   Entrée – 27.602        Sortie - 50

                                                   Schémas de règles
                                                   RS3 : RS(< DissasisfactionPrice,
                                                                     DissatisfactionCommonAreas >)




                                                                                                   38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 3:   Entrée – 27.602        Sortie - 50

                                                   Schémas de règles
                                                   RS3 : RS(< DissasisfactionPrice,
                                                                     DissatisfactionCommonAreas >)



                                                   Opérateurs
                                                        C(RS3) => 50 règles




                                                                                                   38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 3:     Entrée – 27.602          Sortie - 50

                                                   Schémas de règles
                                                   RS3 : RS(< DissasisfactionPrice,
                                                                     DissatisfactionCommonAreas >)



                                                   Opérateurs
                                                        C(RS3) => 50 règles



                                                   Interprétation
                                                   q17=4, q26=4, q97=4 → q28=4           [S=2.6%, C=92.8%]
                                                   q15 = 4, q17 = 4, q97 = 4 → q28 = 4   [S=1.9%, C=80.5%]
                                                    Validation du MICF
                                                   q17 = 4, q97 = 4 → q16 = 4            [S=3.5% , C=86.7%]
                                                   q25 = 4, q28 = 4, q97 = 4 → q26 = 4   [S=2.0% , C=100%]
                                                    Impliquent items de EntryHall et CloseSurrounding

                                                                                                       38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 4:   Entrée – 50            Sortie - 15

                                                   Schémas de règles
                                                   RS5: RS<EntryHall → CloseSurrounding>)
                                                   RS6: RS(<Stairwell → EntryHall>)
                                                   RS7: RS(<CloseSurrounding → EntryHall>)
                                                   RS8: RS(<EntryHall → Stairwell>)




                                                                                                   38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 4:   Entrée – 50            Sortie - 15

                                                   Schémas de règles
                                                   RS5: RS<EntryHall → CloseSurrounding>)
                                                   RS6: RS(<Stairwell → EntryHall>)
                                                   RS7: RS(<CloseSurrounding → EntryHall>)
                                                   RS8: RS(<EntryHall → Stairwell>)
                                                   Opérateurs
                                                         P(RS5-RS8) => 15 règles




                                                                                                   38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 4:     Entrée – 50                Sortie - 15

                                                   Schémas de règles
                                                   RS5: RS<EntryHall → CloseSurrounding>)
                                                   RS6: RS(<Stairwell → EntryHall>)
                                                   RS7: RS(<CloseSurrounding → EntryHall>)
                                                   RS8: RS(<EntryHall → Stairwell>)
                                                   Opérateurs
                                                         P(RS5-RS8) => 15 règles



                                                   Interprétation
                                                   q28 = 4, q97 = 4 → q17 = 4        [S = 2.9%, C = 81.1%]
                                                   q8 = 4, q16 = 4, q97 = 4 → q9 = 4 [S = 2.1%, C = 88.6%]
                                                    Impliquent items décrits par des instances très proches
                                                     dans l’ontologie
                                                    IRF


                                                                                                             38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 5:   Entrée – 15            Sortie - 3




                                                   Opérateurs
                                                        IRF => 3 règles




                                                                                                  38/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’interactivité et de la qualité des règles extraites
 Equipe
                        Cas d’utilisation de l’outil

                                                   Phase 5:   Entrée – 15             Sortie - 3




                                                   Opérateurs
                                                        IRF => 3 règles



                                                   Interprétation
                                                               q15 = 4, q16 = 4, q97 = 4 → q9 = 4
                                                               Support = 2.3% Confidence = 79.1%




                                                                                                    38/47
Réalisations et expérimentations




                  COD
 LOGO                     Analyse de l’efficacité
        Equipe
                            Résultats des méthodes d’élagage
                  Taux d’élagage de chaque méthode
       Notation    Explication
        MICF       Augmentation minimale                             Nb   MICF   IRF   P(RS)       Règles

         IRF       Lien de parenté entre les items                   1                         358.072 (100%)
                   Opérateur d’élagage sur les Schémas               2                        27.602 (7.7%)
         PRS
                   de Règles
        Rule
                                                                     3                        103.891 (29%)
                   Le nombre de règles restantes
       number                                                        4                        207.196 (57%)

                        Schéma de Règles                 Opérateur
                                                                     5                       16.473 (4.6%)

RS5      < EnteryHall → CloseSurrounding >                Elagage
                                                                     6                       21.822 (7.7%)

RS6      < Stairwell → EnteryHall >                       Elagage
                                                                     7                        73.091 (20%)

RS7      < CloseSurrounding → EnteryHall >                Elagage
                                                                     8                      13.382 (3.7%)

RS8      < EnteryHall → Stairwell >                       Elagage

RS9      < CommonAreas → GarbageRoom >                    Elagage

RS10     < TechnicalMaintenance→TechnicalMaintenance >    Elagage
                                                                                                      39/47
Réalisations et expérimentations




          COD
LOGO             Analyse de l’efficacité
 Equipe
                Résultats des méthodes de sélection

      Taux de sélection des opérateurs de sélection

                                       C(RS1)      C(RS2)        C(RS3)     Up(RS4)    E(RS4)

     Aucun opérateur d’élagage              185     1.008          96        1399       98
           Tous les opérateurs
                                             3         3            3         11         3
               d’élagage


                                    Schéma de Règles                      Opérateur

       RS1       < DissatisfactionPrice >                                 Conformité

       RS2       < DissatisfactionCalmDistrict >                          Conformité

       RS3       < DissatisfactionPrice, DissatisfactionCommonAreas >     Conformité
                 < DissatisfactionPrice → DissatisfactionCommonAreas >     Surprise
       RS4
                                                                          Exception



                                                                                                40/47
COD
LOGO
 Equipe
                    Plan de la Présentation




                1   Introduction

                2   Etat de l’art
                3   ARIPSO et ARLIUS
                4   Réalisations et expérimentations
                5   Conclusions et Perspectives




                                                       41/47
Conclusions et perspectives




          COD
LOGO             Conclusions
 Equipe
                                  Conclusions

    i.          Un modèle pour représenter la connaissance de l’expert :
                  Attentes, connaissances du domaine et actions

    ii.         Une nouvelle approche de post-traitement – ARIPSO :
                  Intégration du modèle de connaissances
                  Processus interactif

    iii.        Implémentations :
                  Implémentation en post-traitement – ARIPSO
                  Implémentation en local - ARLIUS

    iv.         Etude expérimentale :
                  Évaluation de la réduction et de la qualité des règles filtrées
                  Etude réalisée en collaboration avec l’expert et résultats validés
                                                                                        42/47
Conclusions et perspectives




          COD
LOGO             Perspectives
 Equipe
                                 Perspectives



     Appliquer ARIPSO sur des données séquentielles
                        Pattern connu : <{Enfants, Mariage}, {Diovrce}>

     Appliquer ARIPSO sur des graphes

                                                 Prof                Etud




                                                                            43/47
LOGO
KOD Team
COD
LOGO
 Equipe
                                                                                                                                             Références

   Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules. Procedings of 20th International Conference Very Large Data Bases, VLDB, pages 487–499, 1994.

   B. Baesens, S. Viaene, and J. Vanthienen. Post-processing of association rules. Workshop on Post-Processing in Machine Learning and Data Mining: Interpretation, visualization, integration, and related
           topics with in Sixth ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pages 20–23, 2000.

   Roberto J. Bayardo Jr., Rakesh Agrawal, and Dimitrios Gunopulos. Constraintbased rule mining in large, dense databases. ICDE ’99: Proceedings of the 15th International Conference on Data Engineering,
            pages 188–197, 1999.

   Andrea Bellandi, Barbara Furletti, Valerio Grossi, and Andrea Romei. Ontological support for association rule mining. In Proceedings of the 26th IASTED International Conference on Artificial
          Intelligence and Applications, pages 110–115. ACTA Press, 2008.

   Berners-Lee, Tim; James Hendler and Ora Lassila (May 17, 2001). "The Semantic Web". Scientific American Magazine. Retrieved March 26, 2008.

   Sergey Brin, Rajeev Motwani, and Craig Silverstein. Beyond market baskets: Generalizing association rules to correlations. SIGMOD Record, 26(1):265–276, 1997.

   Emmanuel Blanchard, Mounira Harzallah, Henri Briand and Pascale Kuntz. A typology of ontology-based semantic measures. In Proccedings of the Workshop EMOI-INTEROP at CAISE, 2005.

   C. H. Cai, A. W. C. Fu, C. H. Cheng, and W. W. Kwong. Mining association rules with weighted items. In IDEAS ’98: Proceedings of the 1998 International Symposium on Database Engineering &
           Applications, page 68. IEEE Computer Society, 1998.

   Julien Blanchard, Fabrice Guillet, and Henri Briand. A user-driven and qualityoriented visualization for mining association rules. Proceedings of the Third IEEE International Conference on Data Mining,
            pages 493–496, 2003.

   Mario Cannataro and Carmela Comito. A data mining ontology for grid programming. In Proceedings of the First International Workshop on Semantics in Peer-to-Peer and Grid Computing
          (SemPGrid2003), 2003.

   Hana Cespivova, Jan Rauch, Vojtech Svatek, Martin Kejkula, and Marie Tomeckova. Roles of medical ontology in association mining crisp-dm cycle. Knowledge Discovery and Ontologies (KDO)
          at ECML/PKDD, 2004.

   W. J. Frawley, G. Piatetsky-Shapiro et C. J. Matheus, “Knowledge discovery in databases : An overview”, Knowledge Discovery in Databases, AAAI/MIT Press, 1992, p. 57–70.

   Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to knowledge discovery in databases. AI Magazine, 17:37 – 54, 1996.

   E. Feigenbaum and P. McCorduck. The fifth generation: articial intelligence and Japan's computer challenge to the world. Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA, 1983.

   Jean-Gabriel Ganascia. Charade: a rule system learning system. In Proceedings of the 10th International Joint Conference on Artificial Intelligence, pages 345–347, San Francisco, CA, USA, 1987.
           Morgan Kaufmann Publishers Inc.

   Fabien Gandon. Ontologies informatiques, May 2006.

   Fabien Gandon. Graphes RDF et leur Manipulation pour la Gestion de Connaissances. HDR thesis, INRIA Sophia-Antipolis, 2008.

   Fabien Gandon, Olivier Corby, Ibrahmina Diop and Moussa Lo. Distances sémantiques dans des applications de gestion d’information utilisant le web sémantique. In Semantic Similarity Workshop in
           EGC2008, 2008.

   Ana Cristina Bicharra Garcia and Adriana S. Vivacqua. Does ontology help make sense of a complex world or does it create a biased interpretation? Sensemaking Workshop in CHI 2008 Conference on
           Human Factors in Computing Systems, 2008.
COD
LOGO
 Equipe
                                                                                                                            Références

   Liqiang Geng and Howard J. Hamilton. Interestingness measures for data mining: A survey. ACM Computing Surveys, 38(3), 2006.

   F. Guillet and H. Hamilton. Quality Measures in Data Mining. Studies in Computational Intelligence, 2007.

   Thomas R. Gruber, “Toward principles for the design of ontologies used for knowledge sharing”, In Nicola Guarino and Roberto Poli, editors, Formal Ontology in Conceptual
         Analysis and Knowledge Representation. Kluwer Academic Publishers, 1993.

   Jiawei Han and Jian Pei. Mining frequent patterns by pattern-growth: methodology and implications. ACM SIGKDD Explorations Newsletter, Special issue on Scalable data
          mining algorithms, 2000(2):14–20, 2.

   Mika Klemettinen, Heikki Mannila, Pirjo Ronkainen, Hannu Toivonen, and A. Inkeri Verkamo. Finding interesting rules from large sets of discovered association rules.
         International Conference on Information and Knowledge Management (CIKM), pages 401–407, 1994.

   Bing Liu, Wynne Hsu, Lai-Fun Mun, and Hing-Yan Lee. Finding interesting patterns using user expectations. IEEE Transactions on Knowledge and Data Engineering, pages
          817–832, 1999.

   Bing Liu, Wynne Hsu, and Yiming Ma. Pruning and summarizing the discovered associations. In KDD ’99: Proceedings of the fifth ACM SIGKDD international conference on
          Knowledge discovery and data mining, pages 125–134. ACM, 1999.

   H.O. Nigro, S.E. Gonzalez Cisaro, and D.H. Xodo. Data Mining With Ontologies: Implementations, Findings and Frameworks. Idea Group Inc., 2007.

   Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Efficient mining of association rules using closed itemset lattices. Information Systems, 24:25–46, 1999.

   Jian Pei, Jiawei Han, and Runying Mao. Closet: An efficient algorithm for mining frequent closed itemsets. In ACM SIGMOD Workshop on Research Issues in Data Mining
           and Knowledge Discovery, pages 21–30, 2000.

   B. Shekar and Rajesh Natarajan. A framework for evaluating knowledge-based interestingness of association rules. Fuzzy Optimization and Decision Making, 3(2):157–185, 2004.

   G. Piatetsky-Shapiro. Knowledge Discovery in Databases, chapter Discovery, Analysis, and Presentation of Strong Rules, page 229248. AAAI/MIT Press, 1991.

   Abraham Silberschatz and Alexander Tuzhilin.      What makes patterns interesting in knowledge discovery systems. IEEE Transactions on Knowledge and Data Engineering,
         8:970–974, 1996.

   Abraham Silberschatz and Alexander Tuzhilin. On subjective measures of interestingness in knowledge discovery. Knowledge Discovery and Data Mining (KDD), pages 275–
         281, 1995.

   Ramakrishnan Srikant and Rakesh Agrawal.         Mining generalized association rules. Proceedings of the 21st International Conference on Very Large Databases, (2–
         3):407–419, 1995.

   Mohammed J. Zaki and Ching J. Hsiao. Charm: An efficient algorithm for closed itemset mining. In Proceedings of SIAM’02, 2002.
Conclusions et perspectives




             COD
LOGO                Conclusions
    Equipe
                           Sélection de publications

-   Revues internationales
    C. Marinica et F. Guillet. Knowledge Interactive Postmining of Association Rules Using Ontologies. Revue
    IEEE Transactions on Knowledge and Data Engineering (TKDE), volume 22, numéro 6, pages: 784-797.


-   Conférences internationales
C. Marinica, F. Guillet. Improving Post-Mining of Association Rules with Ontologies. Proceedings of the XIIIth
    International Confenrece “Applied Stochastic Models and Data Analysis” (AMSDA2009), pages: 76-80, 2009.

C. Marinica, A. Olaru, F. Guillet. User-driven Association Rule Mining Using a Local Algorithm. Proceedings of
    the 11th International Conference on Enterprise Information Systems (ICEIS2009), pages: 200-205, 2009.

A. Olaru, C. Marinica, F. Guillet. Local Mining of Association Rules with Rule Schemas. Proceedings of the IEEE
    Symposium on Computational Intelligence and Data Mining (IEEE CIDM 2009), pages: 118 – 124, 2009.

C. Marinica, F. Guillet, H. Briand. Post-Processing of Discovered Association Rules using Ontologies. IEEE ICDM
    Workshops - The Second International Workshop on Domain Driven Data Mining (DDDM 2008) en
    conjunction avec IEEE International Conference on Data Mining series (ICDM 2008), pages : 126-133, 2008.

Contenu connexe

Similaire à Ph.D Defence

Livret bleu qualitelogicielle_gt-logiciellibre_systematic
Livret bleu qualitelogicielle_gt-logiciellibre_systematicLivret bleu qualitelogicielle_gt-logiciellibre_systematic
Livret bleu qualitelogicielle_gt-logiciellibre_systematic
Pascal Flamand
 
Presentation Dad Paris Final V2.Key
Presentation Dad Paris Final V2.KeyPresentation Dad Paris Final V2.Key
Presentation Dad Paris Final V2.Key
legrec
 
Étude d’un modèle de téléprésence par la formalisation de l’expérience de for...
Étude d’un modèle de téléprésence par la formalisation de l’expérience de for...Étude d’un modèle de téléprésence par la formalisation de l’expérience de for...
Étude d’un modèle de téléprésence par la formalisation de l’expérience de for...
Université de Sherbrooke
 
L’utilisation des compétences pour guider l’ingénierie et la personnalisation...
L’utilisation des compétences pour guider l’ingénierie et la personnalisation...L’utilisation des compétences pour guider l’ingénierie et la personnalisation...
L’utilisation des compétences pour guider l’ingénierie et la personnalisation...
Rim Bejaoui, Ph.D.
 
0 poo cpp
0 poo cpp0 poo cpp
0 poo cpp
enrif
 

Similaire à Ph.D Defence (20)

InformEthic présentation du projet O.P.E.N.
InformEthic présentation du projet O.P.E.N.InformEthic présentation du projet O.P.E.N.
InformEthic présentation du projet O.P.E.N.
 
Thesis+of+nesrine+abdelkafi.ppt
Thesis+of+nesrine+abdelkafi.pptThesis+of+nesrine+abdelkafi.ppt
Thesis+of+nesrine+abdelkafi.ppt
 
Livret bleu qualitelogicielle_gt-logiciellibre_systematic
Livret bleu qualitelogicielle_gt-logiciellibre_systematicLivret bleu qualitelogicielle_gt-logiciellibre_systematic
Livret bleu qualitelogicielle_gt-logiciellibre_systematic
 
Présentation ontologos hr os diag 2012
Présentation ontologos hr os diag 2012Présentation ontologos hr os diag 2012
Présentation ontologos hr os diag 2012
 
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
Du texte à la connaissance : annotation sémantique et peuplement d'ontologie ...
 
Presentation Dad Paris Final V2.Key
Presentation Dad Paris Final V2.KeyPresentation Dad Paris Final V2.Key
Presentation Dad Paris Final V2.Key
 
Synthèse des travaux sur la modélisation des connaissances - 14.11.12
Synthèse des travaux sur la modélisation des connaissances - 14.11.12Synthèse des travaux sur la modélisation des connaissances - 14.11.12
Synthèse des travaux sur la modélisation des connaissances - 14.11.12
 
MEMO Pour débuter en formation à distance (FAD)
MEMO Pour débuter en formation à distance (FAD)MEMO Pour débuter en formation à distance (FAD)
MEMO Pour débuter en formation à distance (FAD)
 
Chap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdfChap1Concepts-FondamentauxBD.pdf
Chap1Concepts-FondamentauxBD.pdf
 
Le rôle de l’architecte Agile - Mathieu Boisvert
Le rôle de l’architecte Agile - Mathieu BoisvertLe rôle de l’architecte Agile - Mathieu Boisvert
Le rôle de l’architecte Agile - Mathieu Boisvert
 
Étude d’un modèle de téléprésence par la formalisation de l’expérience de for...
Étude d’un modèle de téléprésence par la formalisation de l’expérience de for...Étude d’un modèle de téléprésence par la formalisation de l’expérience de for...
Étude d’un modèle de téléprésence par la formalisation de l’expérience de for...
 
Présentation thèse : ePortfolio et dynamiques identitaires
Présentation thèse : ePortfolio et dynamiques identitairesPrésentation thèse : ePortfolio et dynamiques identitaires
Présentation thèse : ePortfolio et dynamiques identitaires
 
Mockito - Design + tests par Brice Duteil
Mockito - Design + tests par Brice DuteilMockito - Design + tests par Brice Duteil
Mockito - Design + tests par Brice Duteil
 
L’utilisation des compétences pour guider l’ingénierie et la personnalisation...
L’utilisation des compétences pour guider l’ingénierie et la personnalisation...L’utilisation des compétences pour guider l’ingénierie et la personnalisation...
L’utilisation des compétences pour guider l’ingénierie et la personnalisation...
 
3 architecte-si
3 architecte-si3 architecte-si
3 architecte-si
 
UGSF - SharePoint - relever le défi de l'adoption - Abalon - v1.0
UGSF - SharePoint - relever le défi de l'adoption - Abalon - v1.0UGSF - SharePoint - relever le défi de l'adoption - Abalon - v1.0
UGSF - SharePoint - relever le défi de l'adoption - Abalon - v1.0
 
La gestion de projets nouveaux médias
La gestion de projets nouveaux médiasLa gestion de projets nouveaux médias
La gestion de projets nouveaux médias
 
Expérience classique VS moderne sur Studio
Expérience classique VS moderne sur StudioExpérience classique VS moderne sur Studio
Expérience classique VS moderne sur Studio
 
L'intranet collaboratif avec Drupal - Drupagora 2012
L'intranet collaboratif avec Drupal - Drupagora 2012L'intranet collaboratif avec Drupal - Drupagora 2012
L'intranet collaboratif avec Drupal - Drupagora 2012
 
0 poo cpp
0 poo cpp0 poo cpp
0 poo cpp
 

Dernier

Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
ikospam0
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
AmgdoulHatim
 

Dernier (20)

L application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptxL application de la physique classique dans le golf.pptx
L application de la physique classique dans le golf.pptx
 
STRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdf
STRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdfSTRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdf
STRATEGIE_D’APPRENTISSAGE flee_DU_FLE.pdf
 
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
CompLit - Journal of European Literature, Arts and Society - n. 7 - Table of ...
 
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptxCopie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
Copie de Engineering Software Marketing Plan by Slidesgo.pptx.pptx
 
L'expression du but : fiche et exercices niveau C1 FLE
L'expression du but : fiche et exercices  niveau C1 FLEL'expression du but : fiche et exercices  niveau C1 FLE
L'expression du but : fiche et exercices niveau C1 FLE
 
Télécommunication et transport .pdfcours
Télécommunication et transport .pdfcoursTélécommunication et transport .pdfcours
Télécommunication et transport .pdfcours
 
La mondialisation avantages et inconvénients
La mondialisation avantages et inconvénientsLa mondialisation avantages et inconvénients
La mondialisation avantages et inconvénients
 
Apolonia, Apolonia.pptx Film documentaire
Apolonia, Apolonia.pptx         Film documentaireApolonia, Apolonia.pptx         Film documentaire
Apolonia, Apolonia.pptx Film documentaire
 
Les roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptxLes roches magmatique géodynamique interne.pptx
Les roches magmatique géodynamique interne.pptx
 
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptxIntégration des TICE dans l'enseignement de la Physique-Chimie.pptx
Intégration des TICE dans l'enseignement de la Physique-Chimie.pptx
 
Formation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptxFormation qhse - GIASE saqit_105135.pptx
Formation qhse - GIASE saqit_105135.pptx
 
658708519-Power-Point-Management-Interculturel.pdf
658708519-Power-Point-Management-Interculturel.pdf658708519-Power-Point-Management-Interculturel.pdf
658708519-Power-Point-Management-Interculturel.pdf
 
Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024Echos libraries Burkina Faso newsletter 2024
Echos libraries Burkina Faso newsletter 2024
 
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
Conférence Sommet de la formation 2024 : Développer des compétences pour la m...
 
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
GIÁO ÁN DẠY THÊM (KẾ HOẠCH BÀI DẠY BUỔI 2) - TIẾNG ANH 6, 7 GLOBAL SUCCESS (2...
 
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projetFormation échiquéenne jwhyCHESS, parallèle avec la planification de projet
Formation échiquéenne jwhyCHESS, parallèle avec la planification de projet
 
Cours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiquesCours Généralités sur les systèmes informatiques
Cours Généralités sur les systèmes informatiques
 
les_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhkles_infections_a_streptocoques.pptkioljhk
les_infections_a_streptocoques.pptkioljhk
 
Bilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdfBilan énergétique des chambres froides.pdf
Bilan énergétique des chambres froides.pdf
 
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANKRAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
RAPPORT DE STAGE D'INTERIM DE ATTIJARIWAFA BANK
 

Ph.D Defence

  • 1. LOGO Association Rule Interactive Post-processing using Rule Schemas and Ontologies - ARIPSO - Claudia MARINICA Le Mardi 26 Octobre 2010 Ecole polytechnique de l’Université de Nantes LINA UMR CNRS 6241 Equipe COnnaissances et Décision
  • 2. COD LOGO Equipe Plan de la Présentation 1 Introduction 2 Approches existantes 3 L’approche ARIPSO 4 Réalisations et expérimentations 5 Conclusions et Perspectives 2/47
  • 3. COD LOGO Equipe Introduction 1 Introduction Contexte Problématique et contributions de la thèse 2 Approches existantes 3 L’approche ARIPSO 4 Réalisations et expérimentations 5 Conclusions et Perspectives 3/47
  • 4. Introduction COD LOGO  Contexte Equipe Contexte et Axe de la thèse Cette thèse s’articule autour de deux domaines :  L’Extraction des Connaissances à partir de Données (ECD)  L’Ingénierie des Connaissances (IC) : Les Ontologies Axe : Intégrer les connaissances de l’expert (IC) dans le processus de fouille de données (ECD) 4/47
  • 5. Introduction COD LOGO  Contexte Equipe Extraction des Connaissances à partir de Données « … l’extraction d'informations originales, auparavant inconnues, potentiellement utiles à partir des données. » Pré-traitement Fouille Post-traitement [Fayyad et al., 1996] 5/47
  • 6. Introduction COD LOGO  Contexte Equipe Extraction des Connaissances à partir de Données « … l’extraction d'informations originales, auparavant inconnues, potentiellement utiles à partir des données. » Pré-traitement Fouille Post-traitement Utilisateur : - connaissances - croyances [Fayyad et al., 1996] - attentes - actions 5/47
  • 7. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Fouille de données: Les règles d’association [10% 80%] Définition [Agrawal and Srikant, 1994; Ganascia, 1987] : X → Y [s%, c%] I – ensemble d’items X, Y – itemsets X, Y ⊆ I and X ∩ Y = ∅ s% – support c% – confiance Exemples/contre-exemples : XY / X ¬Y 6/47
  • 8. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Fouille de données: Problématique des règles d’association Avantages : Technique non supervisée, résultats lisibles, ensemble complet Limites : Grand volume et qualité faible des règles extraites :  invalides statistiquement leek → bread  redondantes : R1: leek, St Jacques → Bergerac [c] leek → Bergerac [c1] St Jacques → Bergerac [c2] c1>c ou c2>c => R1 est redondante  connues par l’expert apple → pear  inutiles pour l’expert apple → skirt  Difficulté d’analyse manuelle Besoins :  Eliminer les règles inintéressantes  Cibler les règles de qualité 7/47
  • 9. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993] Définition formelle «L'introduction d'une ontologie dans un système d'information O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle et terminologique et à tendre vers une compréhension partagée pour améliorer la communication, le partage, l'interopérabilité et le degré de réutilisation possible. » [Gandon, 2006] 8/47
  • 10. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993] Définition formelle «L'introduction d'une ontologie dans un système d'information O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle Concepts – éléments du domaine et terminologique et à tendre vers une compréhension partagée pour améliorer la communication, le partage, l'interopérabilité et le degré de réutilisation possible. » [Gandon, 2006] 8/47
  • 11. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies is-a is-a « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993] Définition formelle «L'introduction d'une ontologie dans un système d'information O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle Concepts – éléments du domaine et terminologique et à tendre vers une compréhension Graphe de concepts – relation is-a partagée pour améliorer la communication, le partage, l'interopérabilité et le degré de réutilisation possible. » [Gandon, 2006] 8/47
  • 12. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993] Définition formelle «L'introduction d'une ontologie dans un système d'information O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle Concepts – éléments du domaine et terminologique et à tendre vers une compréhension Graphe de concepts – relation is-a partagée pour améliorer la communication, Instances – les individus des concepts le partage, l'interopérabilité et le degré de réutilisation possible. » [Gandon, 2006] 8/47
  • 13. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Les Ontologies « une spécification formelle et explicite d’une conceptualisation partagée » [Gruber, 1993] Définition formelle «L'introduction d'une ontologie dans un système d'information O = {C, G, I, P} vise à réduire, voire éliminer, la confusion conceptuelle Concepts – éléments du domaine et terminologique et à tendre vers une compréhension Graphe de concepts – relation is-a partagée pour améliorer la communication, Instances – les individus des concepts le partage, l'interopérabilité et le degré de Propriétés – relations entre les concepts réutilisation possible. » [Gandon, 2006] 8/47
  • 14. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Ingénierie de Connaissances: Le Web Sémantique « Le Web sémantique est une extension du Web courant dans lequel l'information est définie sémantiquement, permettant aux machines et aux utilisateurs de mieux travailler ensemble. » [Berners-Lee et al., 2001] Langages de représentation de connaissances :  RDF, OWL, …  OWL-DL basé sur la logique de description est un formalisme précis et décidable Raisonneurs :  Actions - classification de concepts, test de cohérence et test d’instanciation  Fact, Racer, Pellet, …  Langage de requête : SPARQL 9/47
  • 15. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Les objectifs de la thèse Améliorer la phase de post-traitement des règles d’association :  Intégrer les connaissances de l’expert – ontologies : langages + raisonneur  Augmenter l’interactivité avec l’expert : description graduelle des connaissances 10/47
  • 16. Introduction COD LOGO  Problématique et contributions de la thèse Equipe Contributions i. Un modèle pour représenter les connaissances de l’expert ii. Une nouvelle approche interactive de post-traitement – ARIPSO iii. 2 implémentations - ARIPSO et ARLIUS iv. Etude expérimentale sur les données de Nantes Habitat 11/47
  • 17. COD LOGO Equipe Plan de la Présentation 1 Introduction 2 Approches existantes Les techniques de post-traitement Les techniques subjectives Les Ontologies dans l’ECD Conclusions 3 L’approche ARIPSO 4 Réalisations et expérimentations 5 Conclusions et Perspectives 12/47
  • 18. Approches existantes COD LOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000] Technique de post-traitement RA Filtrées Techniques sélection DM Database [Silbershatz et Tuzilin, 1995] 13/47
  • 19. Approches existantes COD LOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000]  Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999] R1 : milk, pork → pear[S = 20%, C = 71%] R2 : milk → pear [S = 25%, C = 70%] R1 redondante R3 : pork → pear [S = 30%, C = 72%] 13/47
  • 20. Approches existantes COD LOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000]  Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999] R1 : milk, pork → pear[S = 20%, C = 71%] R2 : milk → pear [S = 25%, C = 70%] R1 redondante R3 : pork → pear [S = 30%, C = 72%]  Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996] Fruit apple → pork Fuit → pork pear → pork pear apple 13/47
  • 21. Approches existantes COD LOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000]  Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999] R1 : milk, pork → pear[S = 20%, C = 71%] R2 : milk → pear [S = 25%, C = 70%] R1 redondante R3 : pork → pear [S = 30%, C = 72%]  Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996] Fruit apple → pork Fuit → pork pear → pork pear apple  Groupement [An et al., 2003] 13/47
  • 22. Approches existantes COD LOGO  Les techniques de post-traitement Equipe Techniques de post-traitement [Baesens et al., 2000]  Elagage – Augmentation minimale (MICF) [Bayardo et al., 1999] R1 : milk, pork → pear[S = 20%, C = 71%] R2 : milk → pear [S = 25%, C = 70%] R1 redondante R3 : pork → pear [S = 30%, C = 72%]  Construction de résumés [Liu et al., 1999; Srikant et Agrawal, 1996] Fruit apple → pork Fuit → pork pear → pork pear apple  Groupement [An et al., 2003]  Visualisation [Blanchard et al., 2003] 13/47
  • 23. Approches existantes COD LOGO  Les techniques de post-traitement Equipe Les mesures d’intérêt Caractéristiques des règles à sélectionner [Silberschatz et Tuzhilin, 1995] :  Unexpectedness – l’inattendu : règles surprenantes; contredisent les connaissances de l’expert  Actionability – l’actionabilité : règles utiles; permettent à l’expert de prendre de décisions Mesures d’intérêt : indicateurs de la qualité d’une règle d’association [Freitas, 1999]  Mesures Objectives  Mesures Subjectives Les mesures objectives (orientées données) [Piatetsky-Shapiro, 1991; Guillet and Hamilton, 2007]  Indicateurs statistiques de la force d’une règle sur les données  Avantages : Facilité d’application - mesures non-supervisées  Inconvénients : Ne sont pas adaptées aux demandes 14/47
  • 24. Approches existantes COD LOGO  Les techniques subjectives Equipe Description Les mesures subjectives [Silberschatz et Tuzhilin, 1995] :  Mesurent l’importance d’une règle pour un expert  Dépendent des objectifs, croyances, attentes et connaissances de l’expert Avantages :  Sélectionnent les règles pertinentes pour l’expert Inconvénients :  Difficulté d’élaborer un model de connaissances  Unicité du model (expert) 15/47
  • 25. Approches existantes COD LOGO  Les techniques subjectives Equipe Templates (patrons) [Klemettinen et al., 1994] Principe : l’expert définit ses attentes et les règles correspondantes sont sélectionnées Représentation attentes de l’expert : Patrons inclusifs (PI) et Patrons exclusifs (PE) Technique de sélection : syntaxique ⊕ Sélection/élagage ⊖ Choix d’action limité Exemple : (PI) : Fruit, Dairy_Products → Meat (PE) : pear, Dairy_Products → Meat R1: Pear, Milk → Pork R2: Apple, Milk → Chicken R3: Beef, Milk → Grape  R2 sélectionnée 16/47
  • 26. Approches existantes COD LOGO  Les techniques subjectives Equipe Impressions Générales [Liu et al., 1999] Connaissances – 3 niveaux de spécification :  Impressions Générales (GI) + (RPC, PK) gi(< S1, . . . , Sm >) [support, confidence] Objectifs : représenter les impressions vagues de l’expert Technique de sélection : syntaxique ⊕ Description plus puissante ⊖ Expressions syntaxique complexe Exemple : gi(< { cheese, milk }, Meat∗, pear >) R1 : cheese → pear R2 : pork → pear, apple R1 est sélectionnée R3 : milk, pear → pork 17/47
  • 27. Approches existantes COD LOGO  Les techniques subjectives Equipe Etude comparative 25 techniques classées par dégrée d’intégration croissante des connaissances :  Formes implicatives/Patrons/ Langages de requête ⊕ Syntaxe simple ⊖ Choix des actions Représentation Mesures d’intérêt Année Application Métrique Subjective connaissances Silberchatz and Tuzilin, 3 1995 association rules probabilistic unexpectedness Beliefs 1995, Beliefs Imielinski et al., 1996, M- 6 1996 association rules queries M-SQL, query language SQL Kamber et al., 1997, multi-dimensional 7 1997 syntactic unexpectedness Metarules Metarules association rules Baralis and Psaila, 1997, Scenario Templates, Query 9 1997 association rules syntactic Scenario Templates Languages Ng et al., 1998, 10 1998 association rules syntactic syntactic Constrained Association Queries Constrained Queries Adomavicius and Tuzhilin, rule grouping novelty 11 1999 profile rules Templates 1999, Web Profiling syntactic actionability Padmanabhan and Tuzhilin, 12 1999 association rules logical statistic unexpectedness Beliefs 1998, Logical Contradiction Nazeri and Bloedorn, 2004, 18 2004 association rules syntactic unexpectedness Facts, Beliefs/Preferences Facts, Beliefs 18/49 Manque d’interactivité avec l’expert
  • 28. Approches existantes COD LOGO  Les techniques subjectives Equipe Etude comparative 25 techniques classées par dégrée d’intégration croissante des connaissances :  Formes implicatives/Patrons/ Langages de requête  Formes implicatives+Taxonomies ⊕ Représentation hiérarchique ⊖ Faible expressivité Représentation Mesures d’intérêt Année Application Métrique Subjective connaissances Klementinen et al., 1994, 2 1994 association rules syntactic unexpectedness Templates Templates Hierarchical Gen. Trees, A-R Anand et al., 1995, EDM classification 4 1995 syntactic unexpectedness Rules, Framework rules Environment Constraints Liu et al., 1996, Fuzzy classification 5 1996 syntactic unexpectedness Fuzzy rules Matching rules Liu et al., 1999, actionability 8 1997 association rules syntactic General Impressions, RPC, PK General Impressions unexpectedness 28/49
  • 29. Approches existantes COD LOGO  Les techniques subjectives Equipe Etude comparative 25 techniques classées par dégrée d’intégration croissante des connaissances :  Formes implicatives/Patrons/ Langages de requête  Formes implicatives+Taxonomies  Taxonomies ou Ontologies ⊕ Représentation hiérarchique ⊖ Sans raisonneur Représentation Mesures d’intérêt Année Application Métrique Subjective connaissances Chen et al., 2003, 14 2003 association rules generalization actionability Ontologies Raising An et al., 2003, association rules semantic 15 2003 unexpectedness Taxonomy, Semantic Networks Semantic Groups groups distance Shekar and Natarajan, 2004, similarity 17 2004 association rules unexpectedness Taxonomy Item-relatedness distance Domingues and Rezende, 2005, 19 2005 association rules generalization actionability Taxonomies Taxonomy-based Generalization class 22 Kotsifakos et al., 2007 2007 association rules actionability Ontologies membership semantical 23 Antunes, 2007 2007 association rules actionability Ontologies, Constraints distance syntactic Ontologies, Pruning Constraints, 24 Bellandi et al., 2007 2007 association rules based, unexpectedness Abstraction Constraints constraints semantic distance, 25 Garcia et al., 2008 2008 association rules actionability Ontologies, Item Weight relevance assessment 29/49
  • 30. Approches existantes COD LOGO  Les techniques subjectives Equipe Mesures et distances sémantiques Objectifs général [Blanchard et al., 2005; Gandon, 2008] :  Mesurer la proximité de deux éléments dans un graphe Utilisation pour les règles d’association : Lien de parenté entre les items (IRF) [Shekar et Natarajan, 2004]  La distance sémantique entre deux items  Règle impliquant des items proches sémantiquement => inutile Fruit Est-elle la règle distance(pear, apple)=2 +1 +1 R : apple → pear  interet(R)=2 connue/triviale ? pear apple  règle triviale 19/47
  • 31. Approches existantes COD LOGO  Ontologies dans l’ECD Equipe Les Ontologies et l’ECD  Ontologies pour le processus d’ECD [Cespivova et al., 2004; Cannataro and Comito, 2003]  Choisir la tâche/méthode plus pertinente  Ontologies de métadonnées décrivent [Srikant and Agrawal, 1995; Bellandi et al., 2008]  Le processus de construction d’items [Hilario et al., 2009]  Ontologies pour les connaissances du domaine  Description du domaine  Acquisition de connaissances: ENIGME [Ganascia et al., 1993] 20/47
  • 32. Approches existantes COD LOGO  Conclusions Equipe Conclusions Patrons :  Limités à patrons inclusifs et exclusifs => nouvelles actions  Langage limité, non évolutif Impressions générales :  Langage plus développé, mais moins pratique pour les non-scientifiques  Taxonomies - expressivité limitée Manque d’interactivité avec l’expert Combiner les mesures :  objectives + subjectives + sémantiques Ontologies :  Représentation de connaissances  Puissance raisonneur 21/47
  • 33. COD LOGO Equipe Plan de la Présentation 1 Introduction 2 Etat de l’art 3 L’approche ARIPSO Principes généraux Le model de connaissances L’interactivité avec l’expert Les autres filtres 4 Réalisations et expérimentations 5 Conclusions et Perspectives 22/47
  • 34. L’approche ARIPSO COD LOGO  Principes généraux Equipe Description Générale Approche composée de 3 parties : i. La fouille de règles d’association : extraction classique ii. Le modèle de connaissances : enrichissement du model par l’expert iii. La phase de post-traitement ARIPSO : application des méthodes d’élagage/sélection ii. Modèle de Connaissances Fouille de Règles Traitement ECD règles d’association ARIPSO d’association sélectionnées i. iii. 23/47
  • 35. L’approche ARIPSO COD LOGO  Principes généraux Equipe Motivations R1 : nashi → steak_beef_100 R2 : green_apple → milk_100 gi (< {milk, cheese}*; Fruit+, steak_beef_100>) R1 : nashi → steak_beef_100 24/47
  • 36. L’approche ARIPSO COD LOGO  Principes généraux Equipe Motivations R1 : nashi → steak_beef_100 R2 : green_apple → milk_100 Comment trouver les associations entre rpc(< {red_apple, green_apple, chicken_wings}* les produits diététiques et le → {grape_espagne, milk_100, steak_beef_100}* >) produits écologiques ? Difficile à construire (très laborieux) ! 24/47
  • 37. L’approche ARIPSO COD LOGO  Principes généraux Equipe Motivations R1 : nashi → steak_beef_100 R2 : green_apple → milk_100 Comment trouver les associations entre rpc (< {red_apple, green_apple, chicken_wings}* les produits diététiques et le → {grape_espagne, milk_100, steak_beef_100}* >) produits écologiques ? Difficile à construire (très laborieux) ! Construction de deux concepts : DietProducts ≡ FoodItems ⊓ isDiet hasValue TRUE EcologicalProducts ≡ FoodItems ⊓ isEcological hasValue TRUE DietProducts → EcologicalProducts 24/47
  • 38. L’approche ARIPSO COD LOGO  Le modèle de connaissances Equipe Intégration des connaissances de l’expert  Connaissances du domaine - ontologie  Attentes – schémas de règles  Actions - opérateurs Connaissances du domaine Attentes Actions C1 Elagage (P) C2 C3 C2 C3  C1 Surprise (U) SCHEMAS DE ONTOLOGIES REGLES OPERATEURS 25/47
  • 39. L’approche ARIPSO COD LOGO  Le modèle de connaissances Equipe Connaissances du domaine : Connexion Ontologie-Base de données f : C → P(I) grape_espagne nashi red_apple green_apple milk_100 steack_beef_100 chicken_wings 1 1 0 0 1 1 0 0 2 0 1 0 0 0 1 1 3 0 1 1 0 0 0 0 26/47
  • 40. L’approche ARIPSO COD LOGO  Le modèle de connaissances Equipe Attentes - Schémas de Règles Syntaxe : RS ( < C1, C2, … (→) … Cn > ) où Ci ∈ C Exemple : RS(< Fruits → EcologicalProducts >) Exemple conformité Concept ontologie: Fruit f(Fruit) = {grape_espagne, red_apple, nashi, green_apple} conf(X1, Fruit)=TRUE X1: red_apple, steak_beef_100 conf(X2, Fruit)=FALSE X2: milk_100, chicken_wings conf(X3, Fruit)=TRUE X3: grape_espagne 27/47
  • 41. L’approche ARIPSO COD LOGO  Le modèle de connaissances Equipe Actions/décisions - Opérateurs Opérateurs – appliqués sur les schémas de règles RS(< Fruits → EcologicalProducts >)  Elagage (Pruning - P)  Sélection: Conformité (Conforming - C) C(RS) : grape_espagne → milk_100, nashi Inattendu (Unexpectedness - U) Prémisse (Up) Up(RS) : chicken_wings → steack_beef_100 Conclusion (Uc) Uc(RS) : grape_espagne → nashi Exception (E) E(RS) : nashi, steack beef_100 → grape_espagne Opérateurs complémentaires : Augmentation minimale Lien de parenté entre les items 28/47
  • 42. L’approche ARIPSO COD LOGO  Le modèle de connaissances Equipe Actions/décisions - Opérateurs Evaluation :  raisonneur => instances de RS(< Fruits → EcologicalProducts >) chaque concept Opérateur Conformité règle – schéma :  basé sur l’opérateur de conformité itemset – concept ontologie grape_espagne → milk_100, nashi 29/47
  • 43. L’approche ARIPSO COD LOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • 44. L’approche ARIPSO COD LOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • 45. L’approche ARIPSO COD LOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • 46. L’approche ARIPSO COD LOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • 47. L’approche ARIPSO COD LOGO  L’interactivité avec l’expert Equipe Processus interactif avec l’expert 30/47
  • 48. L’approche ARIPSO COD LOGO  Conclusion Equipe ARIPSO/ARLIUS Deux approches de ciblage de règles d’association :  ARIPSO  ARLIUS Technique Model de Connaissances Avantages Fouille locale Schémas de ARLIUS Fouille locale Opérateurs => réduction du temps Règles d’exécution Utilisation Schémas de ARIPSO Post-traitement Ontologies Opérateurs d’ontologies Règles => plus d’expressivité 31/47
  • 49. COD LOGO Equipe Plan de la Présentation 1 Introduction 2 Approches existantes 3 L’approche ARIPSO 4 Réalisations et expérimentations Réalisations logicielles Expérimentations Analyse de l’interactivité et de la qualité des règles sélectionnées Analyse de l’efficacité 5 Conclusions et Perspectives 32/47
  • 50. Réalisations et expérimentations COD LOGO  Réalisations logicielles Equipe L’outil ARIPSO Caractéristiques :  Java  7 packages  35 classes Fonctions :  Chargement des fichiers OWL et PMML  Création/management des schémas de règles  Sélection opérateurs  Résultats sous forme de règles 33/47
  • 51. Réalisations et expérimentations COD LOGO  Réalisations logicielles Equipe L’outil ARIPSO – capture écran 2 Ontologie et Options 1 Onglet Post-traitement 3 Schéma de Règles 34/47
  • 52. Réalisations et expérimentations COD LOGO  Expérimentations Equipe Objectifs des expérimentations Objectifs :  évaluer la performance d’ARIPSO  évaluer son comportement avec différents opérateurs  répondre à un problème réel Evaluations :  Réduction du nombre de règles  Interactivité avec l’expert  Qualité des règles sélectionnées Collaboration directe avec l’expert Nantes Habitat 35/47
  • 53. Réalisations et expérimentations COD LOGO  Expérimentations Equipe Etude « Nantes Habitat » Base de données de questionnaire sur la satisfaction des clients concernant leur logement  Etude annuelle (depuis 2003) sur 1500 clients  67 questions avec 4 réponses de 1 à 4: satisfaction … insatisfaction Exemple : q1=1 => question q1=« Le transport dans le quartier est pratique? » avec la réponse 1 = satisfaction Besoin Nantes Habitat :  trouver dans liens d’insatisfaction Extraction des règles : q17= 4, q26 = 4, q97 = 4 → q28 = 4 [S = 2.6%, C = 92.8%]  Technique classique – Apriori q16 = 4, q17 = 4, q26 = 4, q97 = 4 → q28 = 4 [S = 2.5%, C = 92.5%] q15 = 4, q17 = 4, q97 = 4 → q28 = 4 [S = 2.9%, C = 80.5%]  Support : min = 2%, max = 30% q15 = 4, q17 = 4, q97 = 4 → q26 = 4, q28 = 4 [S = 2.9%, C = 80.5%] Confiance = 80% q17 = 4, q97 = 4 → q16 = 4 [S = 3.5%, C = 86.7%] q25 = 4, q28 = 4, q97 = 4 → q26 = 4 [S = 2.0%, C = 100%]  358.072 règles d’association q28 = 4, q97 = 4 → q17 = 4 [S = 2.9%, C = 81.1%] q8 = 4, q16 = 4, q97 = 4 → q9 = 4 [S = 2.1%, C = 88.6%] => Comment les analyser ? 36/47
  • 54. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Le développement de l’ontologie 37/47
  • 55. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Le développement de l’ontologie Plusieurs phases :  Construction initiale 37/47
  • 56. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Le développement de l’ontologie Plusieurs phases :  Construction initiale  Ajout informations supplémentaires: DissatisfactionComAreas ≡ ComAreas ⊓ (hasAnswer hasValue 3 OR hasAnswer hasValue 4) 37/47
  • 57. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Le développement de l’ontologie Plusieurs phases :  Construction initiale  Ajout informations supplémentaires: DissatisfactionComAreas ≡ ComAreas ⊓ (hasAnswer hasValue 3 OR hasAnswer hasValue 4)  Raisonneur – organisation concepts + instances + cohérence Caractéristiques :  7 niveaux  130 concepts: 113 concepts primitives et 17 concepts de restriction 37/47
  • 58. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 1: Entrée – 358.072 Sortie – 1008 / 96 Schémas de règles RS2 : RS(< DissatisfactionCalmDistrict>) RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) 38/47
  • 59. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 1: Entrée – 358.072 Sortie – 1008 / 96 Schémas de règles RS2 : RS(< DissatisfactionCalmDistrict>) RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) Opérateurs C(RS2) => 1008 règles C(RS3) => 96 règles 38/47
  • 60. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 1: Entrée – 358.072 Sortie – 1008 / 96 Schémas de règles RS2 : RS(< DissatisfactionCalmDistrict>) RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) Opérateurs C(RS2) => 1008 règles C(RS3) => 96 règles Interprétation q17=4, q26=4, q97=4 → q28=4 [S=2.6%, C=92.8%] q16=4, q17=4, q26=4, q97=4 → q28=4 [S=2.5%, C=92.5%] q15=4, q17=4, q97=4 → q28=4 [S=1.9%, C=80.5%] q15=4, q17=4, q97=4 → q25=4, q28=4 [S=1.9%, C=80.5%]  Non validation 38/47
  • 61. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 2: Entrée – 358.072 Sortie – 27.602 Opérateurs Augmentation minimale (MICF) => 27.602 règles 38/47
  • 62. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 2: Entrée – 358.072 Sortie – 27.602 Opérateurs Augmentation minimale (MICF) => 27.602 règles Interprétation  Validation 38/47
  • 63. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 3: Entrée – 27.602 Sortie - 50 Schémas de règles RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) 38/47
  • 64. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 3: Entrée – 27.602 Sortie - 50 Schémas de règles RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) Opérateurs C(RS3) => 50 règles 38/47
  • 65. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 3: Entrée – 27.602 Sortie - 50 Schémas de règles RS3 : RS(< DissasisfactionPrice, DissatisfactionCommonAreas >) Opérateurs C(RS3) => 50 règles Interprétation q17=4, q26=4, q97=4 → q28=4 [S=2.6%, C=92.8%] q15 = 4, q17 = 4, q97 = 4 → q28 = 4 [S=1.9%, C=80.5%]  Validation du MICF q17 = 4, q97 = 4 → q16 = 4 [S=3.5% , C=86.7%] q25 = 4, q28 = 4, q97 = 4 → q26 = 4 [S=2.0% , C=100%]  Impliquent items de EntryHall et CloseSurrounding 38/47
  • 66. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 4: Entrée – 50 Sortie - 15 Schémas de règles RS5: RS<EntryHall → CloseSurrounding>) RS6: RS(<Stairwell → EntryHall>) RS7: RS(<CloseSurrounding → EntryHall>) RS8: RS(<EntryHall → Stairwell>) 38/47
  • 67. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 4: Entrée – 50 Sortie - 15 Schémas de règles RS5: RS<EntryHall → CloseSurrounding>) RS6: RS(<Stairwell → EntryHall>) RS7: RS(<CloseSurrounding → EntryHall>) RS8: RS(<EntryHall → Stairwell>) Opérateurs P(RS5-RS8) => 15 règles 38/47
  • 68. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 4: Entrée – 50 Sortie - 15 Schémas de règles RS5: RS<EntryHall → CloseSurrounding>) RS6: RS(<Stairwell → EntryHall>) RS7: RS(<CloseSurrounding → EntryHall>) RS8: RS(<EntryHall → Stairwell>) Opérateurs P(RS5-RS8) => 15 règles Interprétation q28 = 4, q97 = 4 → q17 = 4 [S = 2.9%, C = 81.1%] q8 = 4, q16 = 4, q97 = 4 → q9 = 4 [S = 2.1%, C = 88.6%]  Impliquent items décrits par des instances très proches dans l’ontologie  IRF 38/47
  • 69. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 5: Entrée – 15 Sortie - 3 Opérateurs IRF => 3 règles 38/47
  • 70. Réalisations et expérimentations COD LOGO  Analyse de l’interactivité et de la qualité des règles extraites Equipe Cas d’utilisation de l’outil Phase 5: Entrée – 15 Sortie - 3 Opérateurs IRF => 3 règles Interprétation q15 = 4, q16 = 4, q97 = 4 → q9 = 4 Support = 2.3% Confidence = 79.1% 38/47
  • 71. Réalisations et expérimentations COD LOGO  Analyse de l’efficacité Equipe Résultats des méthodes d’élagage Taux d’élagage de chaque méthode Notation Explication MICF Augmentation minimale Nb MICF IRF P(RS) Règles IRF Lien de parenté entre les items 1 358.072 (100%) Opérateur d’élagage sur les Schémas 2  27.602 (7.7%) PRS de Règles Rule 3  103.891 (29%) Le nombre de règles restantes number 4  207.196 (57%) Schéma de Règles Opérateur 5   16.473 (4.6%) RS5 < EnteryHall → CloseSurrounding > Elagage 6   21.822 (7.7%) RS6 < Stairwell → EnteryHall > Elagage 7   73.091 (20%) RS7 < CloseSurrounding → EnteryHall > Elagage 8    13.382 (3.7%) RS8 < EnteryHall → Stairwell > Elagage RS9 < CommonAreas → GarbageRoom > Elagage RS10 < TechnicalMaintenance→TechnicalMaintenance > Elagage 39/47
  • 72. Réalisations et expérimentations COD LOGO  Analyse de l’efficacité Equipe Résultats des méthodes de sélection Taux de sélection des opérateurs de sélection C(RS1) C(RS2) C(RS3) Up(RS4) E(RS4) Aucun opérateur d’élagage 185 1.008 96 1399 98 Tous les opérateurs 3 3 3 11 3 d’élagage Schéma de Règles Opérateur RS1 < DissatisfactionPrice > Conformité RS2 < DissatisfactionCalmDistrict > Conformité RS3 < DissatisfactionPrice, DissatisfactionCommonAreas > Conformité < DissatisfactionPrice → DissatisfactionCommonAreas > Surprise RS4 Exception 40/47
  • 73. COD LOGO Equipe Plan de la Présentation 1 Introduction 2 Etat de l’art 3 ARIPSO et ARLIUS 4 Réalisations et expérimentations 5 Conclusions et Perspectives 41/47
  • 74. Conclusions et perspectives COD LOGO  Conclusions Equipe Conclusions i. Un modèle pour représenter la connaissance de l’expert :  Attentes, connaissances du domaine et actions ii. Une nouvelle approche de post-traitement – ARIPSO :  Intégration du modèle de connaissances  Processus interactif iii. Implémentations :  Implémentation en post-traitement – ARIPSO  Implémentation en local - ARLIUS iv. Etude expérimentale :  Évaluation de la réduction et de la qualité des règles filtrées  Etude réalisée en collaboration avec l’expert et résultats validés 42/47
  • 75. Conclusions et perspectives COD LOGO  Perspectives Equipe Perspectives  Appliquer ARIPSO sur des données séquentielles Pattern connu : <{Enfants, Mariage}, {Diovrce}>  Appliquer ARIPSO sur des graphes Prof Etud 43/47
  • 77. COD LOGO Equipe Références Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules. Procedings of 20th International Conference Very Large Data Bases, VLDB, pages 487–499, 1994. B. Baesens, S. Viaene, and J. Vanthienen. Post-processing of association rules. Workshop on Post-Processing in Machine Learning and Data Mining: Interpretation, visualization, integration, and related topics with in Sixth ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining, pages 20–23, 2000. Roberto J. Bayardo Jr., Rakesh Agrawal, and Dimitrios Gunopulos. Constraintbased rule mining in large, dense databases. ICDE ’99: Proceedings of the 15th International Conference on Data Engineering, pages 188–197, 1999. Andrea Bellandi, Barbara Furletti, Valerio Grossi, and Andrea Romei. Ontological support for association rule mining. In Proceedings of the 26th IASTED International Conference on Artificial Intelligence and Applications, pages 110–115. ACTA Press, 2008. Berners-Lee, Tim; James Hendler and Ora Lassila (May 17, 2001). "The Semantic Web". Scientific American Magazine. Retrieved March 26, 2008. Sergey Brin, Rajeev Motwani, and Craig Silverstein. Beyond market baskets: Generalizing association rules to correlations. SIGMOD Record, 26(1):265–276, 1997. Emmanuel Blanchard, Mounira Harzallah, Henri Briand and Pascale Kuntz. A typology of ontology-based semantic measures. In Proccedings of the Workshop EMOI-INTEROP at CAISE, 2005. C. H. Cai, A. W. C. Fu, C. H. Cheng, and W. W. Kwong. Mining association rules with weighted items. In IDEAS ’98: Proceedings of the 1998 International Symposium on Database Engineering & Applications, page 68. IEEE Computer Society, 1998. Julien Blanchard, Fabrice Guillet, and Henri Briand. A user-driven and qualityoriented visualization for mining association rules. Proceedings of the Third IEEE International Conference on Data Mining, pages 493–496, 2003. Mario Cannataro and Carmela Comito. A data mining ontology for grid programming. In Proceedings of the First International Workshop on Semantics in Peer-to-Peer and Grid Computing (SemPGrid2003), 2003. Hana Cespivova, Jan Rauch, Vojtech Svatek, Martin Kejkula, and Marie Tomeckova. Roles of medical ontology in association mining crisp-dm cycle. Knowledge Discovery and Ontologies (KDO) at ECML/PKDD, 2004. W. J. Frawley, G. Piatetsky-Shapiro et C. J. Matheus, “Knowledge discovery in databases : An overview”, Knowledge Discovery in Databases, AAAI/MIT Press, 1992, p. 57–70. Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to knowledge discovery in databases. AI Magazine, 17:37 – 54, 1996. E. Feigenbaum and P. McCorduck. The fifth generation: articial intelligence and Japan's computer challenge to the world. Addison-Wesley Longman Publishing Co., Inc. Boston, MA, USA, 1983. Jean-Gabriel Ganascia. Charade: a rule system learning system. In Proceedings of the 10th International Joint Conference on Artificial Intelligence, pages 345–347, San Francisco, CA, USA, 1987. Morgan Kaufmann Publishers Inc. Fabien Gandon. Ontologies informatiques, May 2006. Fabien Gandon. Graphes RDF et leur Manipulation pour la Gestion de Connaissances. HDR thesis, INRIA Sophia-Antipolis, 2008. Fabien Gandon, Olivier Corby, Ibrahmina Diop and Moussa Lo. Distances sémantiques dans des applications de gestion d’information utilisant le web sémantique. In Semantic Similarity Workshop in EGC2008, 2008. Ana Cristina Bicharra Garcia and Adriana S. Vivacqua. Does ontology help make sense of a complex world or does it create a biased interpretation? Sensemaking Workshop in CHI 2008 Conference on Human Factors in Computing Systems, 2008.
  • 78. COD LOGO Equipe Références Liqiang Geng and Howard J. Hamilton. Interestingness measures for data mining: A survey. ACM Computing Surveys, 38(3), 2006. F. Guillet and H. Hamilton. Quality Measures in Data Mining. Studies in Computational Intelligence, 2007. Thomas R. Gruber, “Toward principles for the design of ontologies used for knowledge sharing”, In Nicola Guarino and Roberto Poli, editors, Formal Ontology in Conceptual Analysis and Knowledge Representation. Kluwer Academic Publishers, 1993. Jiawei Han and Jian Pei. Mining frequent patterns by pattern-growth: methodology and implications. ACM SIGKDD Explorations Newsletter, Special issue on Scalable data mining algorithms, 2000(2):14–20, 2. Mika Klemettinen, Heikki Mannila, Pirjo Ronkainen, Hannu Toivonen, and A. Inkeri Verkamo. Finding interesting rules from large sets of discovered association rules. International Conference on Information and Knowledge Management (CIKM), pages 401–407, 1994. Bing Liu, Wynne Hsu, Lai-Fun Mun, and Hing-Yan Lee. Finding interesting patterns using user expectations. IEEE Transactions on Knowledge and Data Engineering, pages 817–832, 1999. Bing Liu, Wynne Hsu, and Yiming Ma. Pruning and summarizing the discovered associations. In KDD ’99: Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 125–134. ACM, 1999. H.O. Nigro, S.E. Gonzalez Cisaro, and D.H. Xodo. Data Mining With Ontologies: Implementations, Findings and Frameworks. Idea Group Inc., 2007. Nicolas Pasquier, Yves Bastide, Rafik Taouil, and Lotfi Lakhal. Efficient mining of association rules using closed itemset lattices. Information Systems, 24:25–46, 1999. Jian Pei, Jiawei Han, and Runying Mao. Closet: An efficient algorithm for mining frequent closed itemsets. In ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery, pages 21–30, 2000. B. Shekar and Rajesh Natarajan. A framework for evaluating knowledge-based interestingness of association rules. Fuzzy Optimization and Decision Making, 3(2):157–185, 2004. G. Piatetsky-Shapiro. Knowledge Discovery in Databases, chapter Discovery, Analysis, and Presentation of Strong Rules, page 229248. AAAI/MIT Press, 1991. Abraham Silberschatz and Alexander Tuzhilin. What makes patterns interesting in knowledge discovery systems. IEEE Transactions on Knowledge and Data Engineering, 8:970–974, 1996. Abraham Silberschatz and Alexander Tuzhilin. On subjective measures of interestingness in knowledge discovery. Knowledge Discovery and Data Mining (KDD), pages 275– 281, 1995. Ramakrishnan Srikant and Rakesh Agrawal. Mining generalized association rules. Proceedings of the 21st International Conference on Very Large Databases, (2– 3):407–419, 1995. Mohammed J. Zaki and Ching J. Hsiao. Charm: An efficient algorithm for closed itemset mining. In Proceedings of SIAM’02, 2002.
  • 79. Conclusions et perspectives COD LOGO  Conclusions Equipe Sélection de publications - Revues internationales C. Marinica et F. Guillet. Knowledge Interactive Postmining of Association Rules Using Ontologies. Revue IEEE Transactions on Knowledge and Data Engineering (TKDE), volume 22, numéro 6, pages: 784-797. - Conférences internationales C. Marinica, F. Guillet. Improving Post-Mining of Association Rules with Ontologies. Proceedings of the XIIIth International Confenrece “Applied Stochastic Models and Data Analysis” (AMSDA2009), pages: 76-80, 2009. C. Marinica, A. Olaru, F. Guillet. User-driven Association Rule Mining Using a Local Algorithm. Proceedings of the 11th International Conference on Enterprise Information Systems (ICEIS2009), pages: 200-205, 2009. A. Olaru, C. Marinica, F. Guillet. Local Mining of Association Rules with Rule Schemas. Proceedings of the IEEE Symposium on Computational Intelligence and Data Mining (IEEE CIDM 2009), pages: 118 – 124, 2009. C. Marinica, F. Guillet, H. Briand. Post-Processing of Discovered Association Rules using Ontologies. IEEE ICDM Workshops - The Second International Workshop on Domain Driven Data Mining (DDDM 2008) en conjunction avec IEEE International Conference on Data Mining series (ICDM 2008), pages : 126-133, 2008.