Más contenido relacionado
La actualidad más candente (20)
Similar a Chap1 2 dw (1) (20)
Más de 'Farouk' 'BEN GHARSSALLAH' (18)
Chap1 2 dw (1)
- 1. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
1
1
Département des Sciences de l’Informatique
Conception des
Entrepôts de Données
2012/2013
Mohamed Ali BEN HASSINE
Faculté des Sciences de Tunis
mohamedali.benhassine@fst.rnu.tn
Section: 5ème année Ingénieurs (IF5)
FST© Med Ali Ben Hassine 2012
2
Plan
Chapitre 1 : Introduction à l'informatique décisionnelle
Chapitre 2 : Les Entrepôts de données
Chapitre 3 : Modélisation multidimensionnelle
Chapitre 4 : L'algèbre multidimensionnelle
Chapitre 5 : Les SGBD décisionnels et Extension de SQL
Chapitre 6 : Les techniques d'optimisation dans les ED
Chapitre 7 : Le cycle de vie dimensionnel
Chapitre 8 : La fouille de données
Bibliographie
● Kimball R, Reeves L, Concevoir et déployer un data warehouse Guide de
conduite de projet, Eyrolles, 2000.
● Kimball R, Margy Ross, The Data Warehouse Toolkit: The Complete Guide to
Dimensional Modeling, 2nd Edition, Wiley Computer Publishing, 2002 .
● Inmon, W.H. : What is a Data Warehouse? Prism Solutions. Volume 1. 1995.
● Jiawei Han and Micheline Kamber: Data Mining : Concepts and Technics,
Morgan Kaufmann Publishers, Elsevier, 2006.
● Ladjel Bellatreche, Techniques d'optimisation des requêtes dans les data
warehouses, Sixth International Symposium on Programming and Systems, pp.
81-98, 2003
3
Chapitre 1
Introduction à l'informatique décisionnelle
4
FST© Med Ali Ben Hassine 2012
Plan
1. Contexte
2. L’information et la prise de décision
3. Informatique décisionnelle
4. Système d'information décisionnel
4.1 Système d'information
4.2 SID
4.3 OLAP et ROLAP
4.4 Architecture d’un SID
4.5 Historique des SID
5. Conclusion
- 2. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
2
● Besoin
Prise de décisions stratégiques et tactiques
Réactivité
● Qui?
les décideurs (non informaticiens, non statisticiens)
● Comment
Répondre aux demandes d’analyse de données
Dégager des informations qualitatives nouvelles
Contexte
5
Quels tunisiens
consomment beaucoup
de poisson?
Qui sont mes
meilleurs clients?
Pourquoi et
comment le chiffre
d’affaire a baissé?
A combien s’élèvent
mes ventes
journalières?
Entreprise
■ une organisation dotée d’une mission et d’un objectif métier. Elle doit gérer
sa raison d’être et/ou sa pérennité au travers de différents objectifs
(sécurité, développement, rentabilité). Par voie de conséquence, cette
organisation humaine est dotée d’un centre de décision.
Objectifs d’une entreprise
■ Améliorer ses performances
■ Faire face à la concurrence
■ Développer sa part de marché
■ Etre plus entreprenante
Prendre des risques, remettre en cause certain choix, se recentrer sur
des secteurs d’activité ou au contraire s’élargie sur des nouveaux.
Besoins des entreprises
6
Décision : action mentale volontaire qui vise à modifier ou déformer un
état de choses en vue d’atteindre un certain objectif.
(Courbon, 1982)
Objectifs (suite)
■ Meilleure connaissance de ses clients, de son environnement
« profiler » ses clients pour mieux les satisfaire, voir même créer un
nouveau besoin chez eux.
■ Anticiper des événements de plusieurs types : évolution du marché,
fluctuation de consommation, etc.
■ Prendre des décisions stratégiques ayant une forte répercussion sur la
santé financière de l’entreprise.
Besoins des entreprises
7
peut-être le responsable de l’entreprise, d’une fonction ou d’un secteur.
engage la pérennité ou la raison d’être de l’entreprise.
doit s’entourer de différents moyens lui permettant une prise de décision
la plus pertinente.
Qui?
■ le décideur (non informaticien, non statisticien) :
Besoins des entreprises
8
Besoins importants
■ Maîtriser ses données
■ Accéder à toutes les données de l’entreprise
■ Regrouper les informations disséminées
■ Exploiter ses données
■ Analyser rapidement les données pour prendre les bonnes décisions
Problèmes
■ Masse importante de données collectées
■ Nombreux systèmes d’information, souvent hétérogènes
■ Information surabondante, non organisée, éparpillée
■ Difficulté d’accéder à l’information
■ L’information brute n’a aucun sens ou une valeur ajoutée limitée.
■ Codification différente selon les services.
- 3. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
3
Besoins des entreprises
9
Solutions :
■ Sélectionner et transformer les données en informations fiables,
homogènes, utiles et accessibles par un traitement rapide, efficace et
productif.
■ La BI recouvre l’ensemble des technologies permettant de gérer et
d’exploiter les informations disponibles, en particulier le DW qui permet
de stocker ces informations stratégiques.
Années 70 : début de l’informatique de gestion :
■ Entrée de l'informatique de gestion dans les grandes entreprises.
Années 80 : informatique opérationnelle centralisée :
■ Arrivée dans beaucoup d’entreprises des BDR, des progiciels de
gestion, des premiers micro-ordinateurs.
■ Informatisation d’applications traitant des données directement liées à
l'activité quotidienne des organisations : paie, comptabilité, commandes,
facturation (informatique de production ou opérationnelle).
■ Architecture maître-esclave : maître = puissant ordinateur en site central
et esclaves = terminaux passifs en mode texte.
Evolution de l’informatique dans l’entreprise
10
Années 90 : informatique opérationnelle décentralisée :
■ Apparition des ordinateurs personnels et des réseaux locaux.
■ Développement d’application bureautiques : traitement de textes, tableurs,
petites BD, …
■ Architecture client-serveur permet de décloisonner la bureautique et
l’informatique opérationnelle et s’impose conduisant à une nouvelle
informatique orientée vers les utilisateurs et les centres de décision des
entreprises.
Années 2000 : Développement de l’Informatique Décisionnelle (ID) :
■ Développement de Systèmes d'Information Décisionnels (orientés décision).
■ Architecture client-serveur multi-niveaux (multi-tiers).
■ Entrepôt de données (Data Warehouse) : restructurer et exploiter des
quantités très grande de données historisées selon différentes dimensions.
■ Fouille de données (Data Mining) : extraction de connaissances à partir de
données, en général stockées dans ces entrepôts.
Evolution de l’informatique dans l’entreprise
11
■ Disposer de l’information pertinente était réservée aux managers.
■ L’information était centralisée.
■ Les décideurs n’avaient pas la maîtrise de l’ensemble des
informations de l’entreprise.
Avant les SID
■ Dans tous les secteurs économiques, dans toutes les entreprises,
l’information est devenue “le nerf de la guerre”.
■ L’information est omniprésente; la difficulté n’est plus de la recueillir, mais
de la rendre disponible sous la bonne forme, au bon moment et à la
bonne personne, qui saura l’exploiter et en tirer de la valeur ajoutée.
■ L’information devient un capital en temps.
■ L’information est une source de valeur pour l’entreprise.
Maintenant
L’information et la prise de décision
- 4. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
4
Les principaux aspects du décisionnel
13
■ Stratégie: appropriation et partage d'objectifs.
■ Organisation: institutionnalisation du dialogue de gestion, positionnement du
contrôle de gestion.
■ Finances et comptabilité: mesure de coûts, outils d'analyse économique.
■ Ergonomie et contenu : choix d'indicateurs, mise au point de tableaux de bord.
■ Système d'information : données, outils, infrastructures, intégration dans le SI.
■ L’information est la matière première de la décision : le décideur se détermine
sur la base des informations dont il dispose sur les éléments ayant un impact sur le
problème à résoudre.
■ L’identification des informations dont la connaissance est nécessaire est une
décision en soit.
■ Processus de décision : Selon H. Simon, le processus de prise de décision se fait
selon un modèle dit : Intelligence - Design - Choice (IDC)
La prise de décision
Contrôle
Choix
Conception
Renseignement Identifier et formuler le problème (constatation d’une
différence entre la réalité et ce qui est souhaité)
Imaginer des solutions alternatives possibles et
en déterminer les conséquences potentielles
Choisir une solution parmi les alternatives
Vérifier que la solution est conforme aux attentes
Modèle IDC
■ Décisions structurées :
Une décision est dite structurée quand :
Les informations nécessaires à son élaboration sont disponibles
Les alternatives possibles sont énumérables
Les mécanismes d’évaluation des solutions sont connus
Exemples
Gestion de stock,
Planification de fabrication en raffinerie
Les décisions structurées sont programmables.
Types de décisions : structurées ou non structurées
Les décisions sont de deux types :
1. Décisions structurées
2. Décisions faiblement ou non structurées
■ Décisions faiblement ou non structurées :
Une décision est dite faiblement ou non structurée quand :
Les informations nécessaires à son élaboration sont plus ou moins
disponibles, sujette à interprétation ou suspectes.
Les alternatives possibles sont non énumérables (explosion combinatoire).
Les critères à satisfaire sont contradictoires.
Exemples
Décisions faiblement structurées : Ordonnancement de fabrication,
préparation de budget, lancement d’un produit.
Décisions non structurées : Gestion de projet, publicité, R&D
En la simplifiant, une décision faiblement structurée peut devenir structurée et
donc programmable.
Types de décisions : structurées ou non structurées
- 5. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
5
■ Les décisions structurées sont exécutables via des procédures automatisées.
Elles constituent le Système d’Information Transactionnel (SIT). [voir plus loin]
■ Le système informatisé correspondant est composé d’applications de type
OLTP (On Line Transaction Processing).
■ Les décisions peu ou pas structurées ne peuvent pas être totalement prises en
se basant uniquement sur le SIT.
Nécessité d’un autre système d’information au dessus du SIT
susceptible d’apporter une aide à ces décisions. C’est le Système
d’Information d’Aide à la Décision (SIAD). [voir plus loin]
■ Le SIAD a les caractéristiques suivantes :
● Utilise les données du SIT.
● Dispose en plus d’informations propres.
● Fournit un accès aisé aux informations pour les décideurs.
● Offre des possibilités de modélisation et de simulation.
● Laisse une place plus ou moins importante à l’informel.
Types de décisions et SI L'Informatique décisionnelle
Processus de décision humain:
18
Stimuliexternes
Stimuli internes
● Je reconnais une personne quand je
la vois parce que je l’ai déjà vue
Je vois la personne
Je compare cette vision avec ma
mémoire qui a stocké l’image des
personnes que je connais (image + nom)
● J’ai chaud
S’il fait chaud dehors => c’est normal,
je vais me mettre au frais
S’il ne fait pas chaud => j’ai de la fièvre
=> je vais chez le médecin
=> une information isolée a peu de valeur.
Elle n’a de sens que comparée à d’autres
informations
Contexte
Mémoire
L'Informatique décisionnelle
Système d’aide à la décision:
19
■ une information isolée a peu de valeur.
On compare un chiffre à un objectif
(référentiel)
On suit l’évolution d’un indicateur
dans le temps
On fédère des données provenant de
plusieurs systèmes pour obtenir une
information à valeur ajoutée
Systèmesopérants
L'Informatique décisionnelle
■ Terme anglais : Business Intelligence (BI)
■ Définition 1: c’est la branche de l’informatique qui permet l'exploitation des
données de l'entreprise dans le but de faciliter la prise de décision. C'est-à-dire,
la compréhension du fonctionnement actuel et l'anticipation des actions pour un
pilotage éclairé de l'entreprise.
20
■ Définition 2: désigne les moyens, les outils et les méthodes qui permettent de
collecter, consolider, modéliser et restituer les données, matérielles ou
immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de
permettre aux responsables de la stratégie d'entreprise d’avoir une vue
d’ensemble de l’activité traitée.
■ Objectifs
■ Vision globale de l’activité
■ Aide à la décision
■ Basée sur un entrepôt de données pour stocker des données transverses provenant
de plusieurs sources hétérogènes.
- 6. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
6
L'Informatique décisionnelle
■ Le flux informationnel lié au processus de la BI
21
Définir le
problème
Rassembler
les données
Analyser les
données
Etablir les
solutions
Décider
Temps de prise de décision
Champs d’application des
systèmes décisionnels
■ Processus de prise de la BI
L'Informatique décisionnelle
22
23
Aide à la décision : Quelques notions à préciser
■ Pilotage
■ Indicateur
■ Tableau de bord
■ Reporting
24
■ Pilotage / décision
Piloter : prendre des décisions pour réaliser des objectifs (qui sont
censés découler d'une stratégie).
Décision: acte ponctuel, le pilotage étant une démarche permanente.
■ Pilotage stratégique / opérationnel
Deux différences : niveau et horizon temporel de la décision
Stratégique : direction, horizon à moyen – long terme
Par ex. création d'une nouvelle unité, recrutement de médecin, etc.
Opérationnel : niveau du service, de l'unité 'médicale'
Horizon plus court (peut être mensuel, peut être aussi quotidien)
Décisions concrètes de fonctionnement : par ex. planning infirmières
■ Performance d’une organisation : se caractérise par sa capacité à
atteindre les objectifs qu’elle s’est fixés, dans le cadre de sa stratégie"
■ Pilotage de la performance
définir et quantifier le niveau de performance à atteindre,
suivre et projeter l’atteinte de la cible,
évaluer et analyser les résultats pour adapter sa stratégie.
gestion
d'unhôpital
Pilotage
- 7. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
7
25
■ Indicateur :
Information qui doit aider un acteur à évaluer le cours d’une action vers
l’atteinte d’un objectif ou son résultat.
C’est un élément d’alerte, d’analyse, et de décision.
■ Indicateur :
à un domaine d’utilisation : dépend de l’objectif et de l’utilisateur,
suppose l’existence d’une question qu’il contribue à éclairer,
n’a pas de sens sans éléments d’interprétation,
doit pouvoir être comparé dans l’espace et le temps,
Indicateur de pilotage : n’est pertinent que s’il peut susciter une action.
■ Il se caractérise par :
un libellé, une définition
un champ : période de référence, établissement ou service
une formule ou procédure de calcul
les référentiels qu’il emploie
une documentation (guide de lecture)
Indicateur
26
■ Tableau de bord
Outil destiné à un responsable pour lui permettre, grâce à des
indicateurs, présentés de façon synthétique et en référence à des
objectifs fixés, de contrôler le fonctionnement de son système, en
analysant des écarts significatifs, afin de prévoir, décider, agir.
Tableau de bord
■ Nécessité de tableaux de bord multi-niveaux
Tableau de bord très synthétique pour la direction, puis
possibilités d’approfondissements service, par activité,
…
27
Modèle conducteur/automobile/ tableau de bord
■ Analogie avec la conduite d’un véhicule :
un tableau de bord est constitué d’indicateurs et de témoins
Lisibles, rassemblés sur une surface réduite, de signification claire
Importance de la forme et de la notion de zone de validité
Perturbations
Tableau de bord
Perception
Mesure
Action
Objectif
Contraintes
Tableau de bord
28
■ En résumé, un tableau de bord
ne fournit pas de solution prête à l’emploi. Il utilise des sondes et des alertes.
fournit des informations précises et vérifiées, nécessitant toutefois une analyse
favorise le dialogue sur des bases communes pour maîtriser l’action collective
décloisonne les services
institue une culture de résultat
Tableau de bord
- 8. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
8
29
désigne l’ensemble des informations (rapports et bilans
analytiques) relatives aux réalisations d’une période
préparé pour un niveau de responsabilité supérieur
Reporting
Reporting / Tableau de bord
Tableau de bord
Pendant l’action
Reporting
Après l’action
(pour la hiérarchie)
Outil de mesure de performances et de contrôle
Contextes économique et informationnel de
l’informatique décisionnelle
Contexte économique :
■ Mondialisation de l'économie, ouverture de nouveaux marchés
■ Concurrence toujours plus accrue
■ Besoin d'obtenir des informations pour prises de décisions de plus
en plus rapides
Contexte informationnel :
■ Décentralisation des données vers les utilisateurs
■ Difficulté d'accès à l'information qui est en trop grande quantité
■ Un enjeu stratégique d’entreprise
■ Les informations, une source de revenu et de compétitivité
Contexte informatique :
■ Puissance de calcul croissante
■ Capacité de stockage croissante
■ Bases de données de plus en plus importantes
■ SGBD de plus en plus performants (parallélisme, …)
■ Ouverture sur le Web, 30
31
FST© Med Ali Ben Hassine 2012
Système d’Information Décisionnel (SID)Système d’InformationSystème
Système :
32
■ est un tout constitué d'éléments en interaction dynamique, ces
éléments sont organisés et coordonnés en vue d'atteindre un objectif,
qui évolue dans un environnement.
FST© Med Ali Ben Hassine 2012
■ peut être considéré comme une « boîte noire » qui, soumise à des
entrées imposées par l’environnement du système, les transforme en
sorties satisfaisant des critères de performances que le système
s’efforce à atteindre par un mécanisme de régulation.
SYSTÈMEEntrées Sorties
ObjectifsRégulation
Système d’Information Décisionnel (SID)
- 9. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
9
• Information
Système d’ Information Décisionnel (SID)
33
: une donnée qui a un sens, et ce sens vient
d'un certain modèle d'interprétation.
Information = Donnée + Modèle d'interprétation
■ Une même donnée peut avoir plusieurs sens selon le modèle d'interprétation qui
lui est associé.
■ Exemple : la donnée `12101995' peut être aussi interprétée - par un anglo-saxon-
comme la date du 10 décembre 1995 (et non pas 12 octobre 1995).
■ Donnée : une description élémentaire, souvent codée, d'une réalité (chose,
transaction, événement, etc.). Elle peut revêtir plusieurs formes :
expression, caractère, papier, numérique, images, sons, etc.
34
Les informations sont des données traitées ou transformées qui aident
quelqu'un à prendre une décision ou à tirer des conclusions.
SI : Données, Information et Connaissance
Les données sont des faits qui n'ont pas encore été traités et dont on ne peut, à ce
stade, tirer aucun renseignement.
Données
(entrées)
Informations
(sorties)
Traitement
■ L’information se rapporte à un problème pour le sujet, donc à un contexte bien précis.
C’est cette caractéristique qui permet de distinguer entre connaissance et information.
■ La connaissance est l’ensemble d’informations interprétées par l’individus en lui
permettant de tirer des décisions.
35
■ La comparaison entre les paiements effectués et le calendrier des
versements nous renseigne sur la situation du prêt et sa chronologie -
informations qui peuvent être utilisées pour prendre une décision
concernant le suivi ou le provisionnement du prêt en question.
Une institution peut être noyée sous les données, sans pour autant
avoir beaucoup d'informations.
Exemple
■ une simple opération de paiement ne nous dit pas si le paiement a été
effectué en temps voulu et ne nous éclaire pas sur la situation du prêt.
SI : Données vs Information SI : Type d’Information
36
■ Niveau d'agrégation
brutes
élaborées
■ Flux
Logistique
Monétaire
de personnel
de l'actif
■ Utilisation
Prise de décision
planification stratégique
gestion administrative
régulation opérationnelle
■ Nature du support
oral
documentaire
informatique
● L'information décisionnelle sort du système
● elle est instantanée ou historique
● elle est livrée à l'utilisateur à des fins de
reporting, d'analyse, de prévision
● L'information opérationnelle est liée au
fonctionnement immédiat de l'organisation
● elle évolue en temps réel
● elle est transactionnelle
- 10. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
10
SI : l'information utile
37
■ L'information n'est pas bonne ou mauvaise, elle est simplement
appropriée ou non.
une information est « appropriée » quand elle est livrée à la
bonne destination, au bon moment et sous une forme
directement exploitable par le destinataire.
Système d’Information Décisionnel (SID)
38
Définition 1: Le SI est un ensemble organisé de ressources (matériels,
logiciels, personnels, données et procédures) qui permet de regrouper, de
classifier, de traiter et de diffuser de l'information d’une organisation.
Système d’Information
Définition 2: Le SI est le système de couplage entre le système opérant
et le système de pilotage.
Systèmes d’information
Système de pilotage
Système opérant
Flux d’informations en
provenance de l’environnement
Flux entrant des
biens et services
Flux d’informations à
destination de l’environnement
Flux sortant des biens et
services
À ne pas confondre avec système informatique : ensemble d'équipements destiné
au traitement automatique de l'information.
39
C’est un système dans lequel s’effectuent les transformations
physiques ou intellectuelles sur les flux qui traversent
l’entreprise en vue de produire des sorties valorisées.
Système OpérantFlux en Entrée :
■ Matières
■ Argent
■ équipements
■ ressources humaines
■ informations
Sorties :
■ Produits
■ Services
Système Opérant Système Opérant et BD pour la prise de décision
■ Les données des opérations de tous les jours :
source importante d'informations
richesse importante pour l'entreprise
il faut les utiliser au mieux
■ Idée :
exploiter au mieux cette masse d'informations (BD existantes, applications de
production :OLTP ),
rendre possible l'accès à toutes ces données accumulées dans le temps,
analyser ces données pour produire de nouvelles informations permettant de :
résumer et d'analyser l'importance de certains facteurs
dégager des tendances générales
40
- 11. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
11
Système de Pilotage
41
« On ne peut améliorer que ce qu’on sait mesurer »
les informations fournies par mon
système comptable m’indiquent si
je gagne ou si je perds globalement
de l’argent, mais ne m’en explique
pas les causes et ne me suggère
aucun axe d’amélioration
j’ai besoin d’outils m’aidant
à formaliser mes projets
stratégiques, à suivre leur
avancement
Système de pilotage = outils d'analyse + outils de suivi
je connais mal la rentabilité réelle
de mes actes, de mes patients, de
mes filières de soins
je ne dispose pas des informations
synthétiques, pertinentes et fiables
me permettant de prendre les bonnes
décisions au bon moment
je ne dispose pas des informations
synthétiques, pertinentes et fiables
me permettant de prendre les bonnes
décisions au bon moment
je souhaite placer mon personnel
dans un contexte d’amélioration
continue de la performance
(objectifs individuels clairs, suivi
de leur réalisation ...)
Système de Pilotage
42
Système dans lequel les décisions sont prises concernant :
■ les objectifs assignés au système opérant.
■ l’affectation des ressources au système opérant.
■ le contrôle des résultats obtenus du SO.
■ la régulation.
■ l’évolution de l’organisation.
Système de Pilotage Objectifs,
affectation des ressources,
régulation
Résultats du
système opérant
Informations
externes
43
Parallèlement au flux physique, il y a un flux de décisions
L'information va permettre de
prendre les bonnes décisions.
1. Niveau stratégique (planification)
2. Niveau de pilotage
3. Niveau opérationnel (régulation)
Les différents niveaux d’un SI d’une organisation
Opérant Flux
physique
Pilotage
ContraintesContraintes
Flux de
décisions
Stra-
tegique
Les différents niveaux d’un SI d’une organisation:
44
3. Niveau opérationnel (régulation)
C’est le niveau hiérarchique le plus bas. Il agit sur les flux qui traversent
l’organisation en se basant sur les directives du niveau supérieur.
2. Niveau de pilotage
C’est le niveau hiérarchique moyen mettant en
œuvre les objectifs élaborés par le niveau
supérieur. Il détermine les moyens d’atteindre
les objectifs globaux :
● en les décomposant en sous-objectifs,
● en allouant les ressources nécessaires,
● en mettant en place les moyens de contrôle et
● en prenant les initiatives correction en cas de besoin.
1. Niveau stratégique (planification)
C’est le niveau le plus haut hiérarchiquement. Il consiste à :
● définir les objectifs de l’entreprise,
● définir les moyens et les scénarios pour parvenir aux objectifs, dans une vision à long terme.
● fournir au niveau inférieur un cadre d’objectifs à atteindre et une orientation pour les mettre en œuvre.
Opérant Flux
physique
Pilotage
ContraintesContraintes
Flux de
décisions
Stra-
tegique
- 12. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
12
Système Opérant, Système de Pilotage et SI
45
commandes
données
Modèle systémique des organisations
SI
SP Système de
Pilotage
Infos externes
Infos vers extérieur
SOSystème
Opérant
Flux entrant
Flux sortant
SI
décisionnel
(SID)
analyse + prise de
décisions
SI
opérationnel
(SIO)
activités
courantes
Zone de décisions
Système Opérant, Système de Pilotage et SI
46
Système d’Informations
Opérant
Système d’information opérationnel (SIO)
Stra-
tegique
Pilotage
analyse + prise
de décisions
commandes
données
Zone de décisions
Système d’information décisionnel (SID)
activités courantes
Modèle systémique des organisations
47
Systèmes
d’aide
stratégique
Prévision des ventes
à moyen terme
Plan à 5 ans
Prévision
budgétaires à
moyen et long
terme
Planification de
la force de travail
Systèmes
d’aide à la
décision
Gestion des
ventes
Analyse des
ventes
Contrôle
d’inventaire
Echéancier de
production
Budget annuel Analyse des
investissements
Analyse
prix/profit
Analyse des
localisations
Analyse des
coûts
Systèmes
transactionnels
Suivi des
commandes
Traitements
des
commandes
Contrôle des
machines
Ordonnancement
des usines
Contrôle des flux
de matériels
Paie
Gestion des
comptes
débiteurs
Gestion des
comptes
créditeurs
Audit
Reporting
fiscal
Gestion de
la trésorerie
Compensation
Formation
Gestion des
carrières
Vente Production Comptabilité Finance Personnel
Exemple de SI
48
Système d’Information Décisionnel (SID)
Définition 1 : Un SID est un système capable
d'agréger les données internes ou externes et de
les transformer en informations servant à une
prise de décision.
Définition 2 : Un SID est un ensemble de technologies destinées à
permettre aux collaborateurs d’accéder et comprendre les données de
pilotage plus rapidement, de telle sorte qu’ils prennent des décisions
meilleures et plus rapides pour atteindre les objectifs de son organisation.
Connaissances
Informations
Données
- 13. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
13
49
SID
Les SID, dans leur version la plus complète, permettent de répondre
aux questions suivantes :
■ Que s’est-il passé ?
■ Pourquoi cela s’est-il passé ?
■ Que va-t-il se passer ?
■ Que vient-il se passer ?
Différentes questions :
■ Quel est le volume des ventes par produit et par région durant le troisième
trimestre de 2011 ?
■ Quels sont les produits dont le volume des ventes baisse constamment
durant les 6 derniers mois de l'année ?
■ Est ce qu'une baisse de prix de 10% par rapport à la concurrence ferait
redémarrer les ventes du produit p ?
50
■ Les décideurs doivent :
● prendre rapidement des décisions
● prendre de "bonnes décisions"
● faire des prévisions pour orienter les choix de l'entreprise
SID
■ Un SID bien conçu doit donc :
● Fournir un accès à des données fiables.
● Présenter l’information de manière cohérente.
● Être acceptable et accepté par tous les utilisateurs.
● Faciliter la prise de décision. Connaître la signification d’une information
c’est bien, savoir quoi en faire c’est mieux.
● Aider à la diffusion de l’information et à la mise en œuvre des actions.
51
Comment faciliter la prise de décision ?
■ utiliser les données produites par l'entreprise dans la gestion quotidienne
■ produire régulièrement des données nécessaires au processus de décision
(résumés, synthèses, etc.)
■ disposer d'outils d'analyse de données
SID
La valeur ajoutée du décisionnel réside dans :
■ l’apport fonctionnel
■ la performance
■ la capacité à traiter de grands volumes de données
■ la capacité à évoluer
■ l’accessibilité
52
SID : Applications typiques
■ Banque et assurance
● Détermination de profils de clients (risques de prêt, nouveaux services)
● Suivi des clients, gestion de portefeuilles
● Mailing ciblés pour le marketing …
■ Econométrie
● Prévisions de trafics routiers
● Prévisions de mouvements boursiers …
■ Santé
● Etudes épidémiologiques
● Recherche de nouveaux médicaments …
■ Grande distribution
● Ciblage de clientèle, habitudes d’achat, secteurs géographiques …
● Opportunités de promotions, produits à succès, modes …
● Agencements de magasins (sur la base de corrélations entre produits).
- 14. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
14
Architecture d’un SID
53
Trois couches : alimentation, stockage, restitution
■ ETL (Extract Transform Load)
● Récupère des données hétérogènes, les transforme et les charge.
■ Entrepôt de données
● Stockage intelligent de l’information, associé à des outils de «navigation»
dans les données.
■ Outils de restitution
● Rapports prédéfinis, outils de requêtage, reporting de masse, tableaux de
bord dynamiques, …
■ Un «portail» pour fédérer l’ensemble
● Point d’entrée unique pour l’ensemble des applications.
● Gestion des droits d’accès en fonction du profil de l’utilisateur.
54
Architecture d’un SID
55
Fonctions d’un SID
● Collecte des données brutes dans leurs environnements d'origine, ce qui
implique des activités plus ou moins élaborées de détection et de filtrage;
● Intégration des données, c-à-d leur regroupement en un ensemble technique,
logique et sémantique homogène approprié aux besoins de l'organisation ;
● Diffusion, ou distribution d'informations élaborées à partir des données dans
des contextes appropriés aux besoins des utilisateurs ;
● Administration, qui gère le dictionnaire de données et le processus
d'alimentation de bout en bout, (le SID doit lui-même être piloté).
● Présentation se charge de
présenter les informations à
valeur ajoutée de telle sorte
qu'elles apparaissent de la
façon la plus lisible possible
dans le cadre de l’aide à la
décision
Historique de l’informatique décisionnelle
56
L’usage de l’informatique pour supporter des décisions n’est pas nouveau :
Années 70-80 : débuts de l’Informatique Décisionnelle :
● Développement d'outils d'édition de rapports, de statistiques, exploitant les BD du
Système d’information Opérationnel.
● Développement de petits systèmes d’aide à la décision à base de tableurs
(simulation budgétaire, …).
● Développement de systèmes experts (IA) systèmes à base de règles, conçus par
extraction de la connaissance d'un ou plusieurs experts :
■ bons résultats obtenus pour certains domaines d'application tels que la médecine, la
géologie, la finance, ...
■ mais formalisation sous forme de règles de la prise de décision est difficile voire
impossible dans de nombreux domaines.
● Développement de SIAD (DSS Decision Support Systems) : basés sur des
techniques de Recherche Opérationnelle (RO), la simulation, l’optimisation, …
Systèmes en général mal intégrés au système d'information opérationnel, et
devant être développés par des informaticiens.
- 15. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
15
Historique de l’informatique décisionnelle
57
Années 90-2000 : essor de l’informatique décisionnelle :
■ technologie informatique permettant le développement d’environnements
spécialisés pour l'aide à la décision notamment des entrepôts de données.
■ de nombreux algorithmes, souvent issus des statistiques et de l’IA,
permettant d'extraire des informations à partir de données brutes sont arrivés à
maturité.
■ ces algorithmes sont regroupés dans des logiciels de fouille de données et
permettent la recherche d'informations nouvelles ou cachées à partir de données.
■ de plus en plus ces données sont issues du Web, aussi la recherche
d’information et la fouille de données sur le Web (ou "Web Mining") sont de
plus en plus d’actualité.
Infocentre
58
■ Concept apparu au début des années 80.
■ Réponse à la difficulté des services informatiques de satisfaire les besoins
variés, nombreux et imprévisibles des décideurs.
■ L'infocentre peut être vu comme une interface entre un utilisateur (non
informaticien) et une BD de production ou privée (agrégation de données).
Cette interface permet à l'utilisateur d'accéder aux données facilement et
sans recourir à un langage.
Différence entre Infocentre et DataWarehouse
59
■ L’infocentre est une collection de données orientées sujet, intégrées, volatiles,
actuelles, organisées pour le support d’un processus de décision ponctuel.
■ Le DW est une collection de données orientées sujet, intégrées, non volatiles,
historisées, organisées pour le support d’un processus d’aide à la décision.
■ L’infocentre une solution décisionnelle qui consiste en une mise à disposition
simple des données de production.
■ Le DW complète l'infocentre par une 'Préparation' intelligente des données mises
à disposition :
● Mise en conformité et uniformisation des codes utilisés
● Choix des données à présenter : Mesures et Axes d'analyse, ainsi que du degré
d'historisation nécessaire
● Nettoyage des données présentés avant chargement
● Pré-agrégations répondant à des problématiques de performance, choix du degré
de finesse des mesures présentées.
Executive Information System (EIS)
60
■ Un EIS (ou encore système d'information pour dirigeants) est un système
destiné aux dirigeants qui ont besoin d'un outil d'aide à la décision mais qui ne
disposent pas de temps pour l'apprentissage.
■ Il s'agit en quelque sorte du « tableau de bord » informatisé des cadres
supérieurs, qui sert à la planification stratégique et à partir duquel on peut
produire des rapports, des graphiques, etc., faciles à consulter rapidement.
■ Un EIS permet de générer à partir d'une ou plusieurs bases de production un
ensemble d'informations agrégées (indicateurs) et de les présenter sous forme
de tableau de bord aux utilisateurs.
■ À la différence d’un SAD, l’EIS ne permet pas à l’utilisateur final de poser une
question qui n’aurait pas été prévue initialement.
- 16. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
16
61
SIO / SID
OLTP / OLAP
BDR / BDMD
Systèmes d’informations
Système de pilotage
Système d’information
opérationnel (SIO)
Système opérant
Entrepôt de
données
BPBPBP
OLAP
OLTP
Système d’information
décisionnel (SID)
ETL
Base de
production
62
SID et SIO
Opérationnel et Décisionnel sont deux technologies complémentaires
et indissociables, et il est vain de vouloir faire sans l’une ou l’autre.
63
SID / SIO
■ système de production
■ Informatique opérationnelle
■ représente aujourd'hui la majeure partie du SI
■ focalisé sur le fonctionnement courant (gestion des patients par exemple)
■ procédures répétitives
■ transactions
■ données élémentaires
■ Utilisation des bases de données relationnelles normalisées
SIO
Limites du SIO
■ données détaillées surabondantes et peu lisibles, absence de synthèses
■ mauvaise qualité informationnelle
■ compartimentage, absence de sémantique commune, incohérences
■ manque de recul historique
contenu très riche,
faible valeur informationnelle 64
SID / SIO
■ Informatique décisionnelle
■ destiné uniquement à produire de l'information et non à automatiser des opérations
■ découplé du SIO mais alimenté par le SIO
■ transforme les données pour améliorer leur valeur informationnelle
■ potentiellement concerné par tous les types de données
■ Modélisation dimensionnelle
■ Entrepôts de données, magasin de données
SID
Limites du SID
■ distinction SIO/SID artificielle
■ aller-retour SIO-SID malcommodé
■ besoins flous et changeants
■ prédominance des données internes
■ manque de données instantanées
■ périmètre limité aux structures de données les plus simples
■ Dénormalisation des bases de données
- 17. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
17
OLTP / OLAP
65
Les applications informatiques peuvent être classées en deux catégories :
■ Applications OLTP (On-Line Transactional Processing)
■ Applications OLAP (On-Line Analytical Processing)
OLTP / OLAP
Applications OLTP :
■ L'intégrité et la sécurité des données sont privilégiées.
■ Requêtes simples
■ Utilisées par des services de production : commerciaux, administratifs, production, etc..
■ Nécessitent la connaissance des structures des données.
■ Utilisent des bases de données de production (relationnelles)
■ Manipulent des données homogènes.
■ Nombre d'utilisateurs simultanés important.
■ Applications critiques.
Exemples d'applications :
■ Gestion bancaire
■ Systèmes de réservation
■ Gestion commerciale, personnel, production, etc.
66
Exemple de requête :
■ Le 15/01/2002 à 13h12, le client X a retiré 500DT du compte Y
OLTP / OLAP
67
Exemple de requête :
■ Quel est le volume des ventes par produit et par région durant le troisième
trimestre de 2002?
Applications OLAP :
■ Catégorie de traitements dédiés à l’ide à la décision dont des requêtes interactives
complexes sur des gros volumes de données.
■ L'analyse et la manipulation des données sont privilégiées.
■ Requêtes complexes
■ Applications d'aide à l'élaboration de stratégies
■ Utilisées par les DG, les services marketing, financiers, contrôleurs de gestion, etc..
■ Ne nécessitent pas la connaissance des structures des données.
■ Utilisent des entrepôts de données (modèle multidimensionnel)
■ Manipulent des données hétérogènes.
■ Nombre d'utilisateurs simultanés faible.
Exemples d'applications :
■ Analyse des tendances
■ Analyse des comportements
68
BD relationnelles / BD multidimensionnelles
Pays
France
Espagne
Allemagnepommes
poires
oranges
janvier
février
avril
Temps
Produits
Vente de
pommes en
Allemagne
en avril
Achat
PK id_achat
FK id_client
id_produit
Quantité
client
PK id_client
Nom
adresse
Produit
PK id_produit
Libellé
Famille
Les données nécessaires pour effectuer des analyses et en déduire des orientations
stratégiques peuvent être stockées dans des structures :
■ relationnelles ou
■ multidimensionnelles.
- 18. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
18
69
BD relationnelles / BD multidimensionnelles
Bases de données relationnelles
■ Structure tabulaire.
■ Croisement des données à l'aide des jointures.
■ Pas de redondance (doublons, agrégation).
■ Les résultats de requêtes sont sous forme de listes.
■ Opérations : Sélectionner, ajouter, mettre à jour et supprimer des tuples.
Structures peu adaptées aux applications de type OLAP.
■ Les données sont organisées selon des axes.
■ Hypercube comprend autant de dimensions que d'axes d'analyse.
■ Possibilité de redondance des données.
■ Les requêtes peuvent exploiter toutes les combinaisons d'axes.
■ Temps d'accès stable.
■ Moins de risque d'erreurs dans la formulation des requêtes.
■ Langage MDX = Multidimensional Expressions (de Microsoft "OLE DB for OLAP")
Structures bien adaptées aux applications de type OLAP.
Bases de données multidimensionnelles
Différences entre OLTP et OLAP
OLTP OLAP
Conception
orientée application (Application de
production, Facturation )
structure statique (E/R)
orientée sujet (Client, Produit, Vendeur)
structure évolutive (en étoile, flocon)
Données
détaillées, non agrégées
récentes, mise à jour
accessibles de façon individuelle
normalisées
Résumées, recalculées, agrégées.
Historiques
accessibles de façon ensembliste
dénormalisées
Vue relationnelle multidimensionnelle
Requêtes /
Utilisation
simples, nombreuses, régulières,
prévisibles, répétitives
sensibles aux performances (réponses
immédiates)
accès à beaucoup de données
complexes, peu nombreuses,
irrégulières, non prévisibles
non sensibles aux performances
(réponses moins rapides)
accès à beaucoup d'information
Utilisateurs
agents opérationnels
nombreux (des milliers)
concurrents
managers / analystes
peu (dizaines voir centaines)
non concurrents
Accès lectures, insertions, m‐à‐j, suppressions lectures, insertions, mises à jour,
Taille 100MB à qcqs Go 100GB à qcqs To 70
Charge du serveur de données
opérationnel
décisionnel
opér. + décis.
taux
d’occupation
temps
Source: H.E.C. Liège - U.E.R. Systèmes d'Information (F. Fontaine)
71
Besoins décisionnels
Data Warehousedonnées
opérationnelles
contrôle d’info. détaillées
et récentes, rapports
standardisés
« interrogation et
rapports »
fichiers du
logiciel DM
BUSINESS INTELLIGENCEBUSINESS INTELLIGENCE
analyse ad-hoc, info.
globalisées, prise de
décisions
« OLAP - EIS»
découverte de
connaissance
« Data Mining »
En synthèse
72
- 19. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
19
Chapitre 2
Entrepôt de données
73
Plan
1. Introduction
2. Objectifs
3. Définition
4. Architecture
5. Processus ETL
6. Implementation
FST© Med Ali Ben Hassine 2012
■ La réponse tient en un mot : Entrepôt de données (data warehouse) !
■ Il ne faut pas être inquiet,... nous sommes tous fichés dans ces immenses
entrepôts de données : toutes actions liées à l’activité d’une entreprise sont
stockées dans un Data Warehouse (DW) pour en être analysées, via des outils de
datamining afin de nous étudier. Ceci dans un but bien précis :
celui de nous connaître afin de mieux identifier nos besoins
Introduction
c’est par pur « feeling » du responsable ou bien
par une stratégie de marketing bien plus
élaborée?
Par quel moyen, la publicité nominative (postal ou par
mail) est bien souvent en relation directe avec nos
habitudes de consommations ?
Comment choisir l’emplacement
des produits dans une grande
surface ?
74
Introduction - Problématique
Une grande masse de données :
– Distribuée
– Hétérogène
– Très détaillée
À traiter :
– Synthétiser / Résumer
– Visualiser
– Analyser
Pour une utilisation par :
– Des experts et des analystes d'un métier
– NON informaticiens
– NON statisticiens
75
Introduction – Problématique
Comment répondre aux besoins de décideurs afin d’améliorer les
performances décisionnelles de l’entreprise?
■ En donnant un accès rapide et simple à l’information stratégique.
■ En donnant du sens aux données.
■ En donnant une vision transversale des données de l’entreprise
(intégration de différentes bases de données).
■ En extrayant, groupant, organisant, corrélant et transformant
(résumé, agrégation) les données.
76
- 20. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
20
Introduction – Solution
● Mettre en place un SI dédié aux applications décisionnelles : un
entrepôt de données (datawarehouse).
● Transformer des données de production en informations
stratégiques.
77
Le DW est un système d’information dédié aux applications décisionnelles situé en :
■ Aval des bases de production (bases opérationnelles)
■ Amont des prises de décision basées sur des indicateurs (Key Business Indicators (KBI))
78
Entrepôt de Données
Entrepôt de Données (Définition)
Bill Inmon (1996)
79
Principe
■ base de données utilisée à des fins d’analyse.
■ récolte, stocke et gère efficacement des gros volumes données
pour la prise de décision.
■ assure un regroupement homogène et exploitable de données
hétérogènes, très nombreuses et distribuées.
" Un Entrepôt de Données est une collection de données orientées sujet,
intégrées, non volatiles et historisées, organisées pour la prise de
décision ".
Caractéristiques : orientées sujet
● orientées sujet («métiers») : Les données des entrepôts sont
organisées par sujet plutôt que par application. Par exemple, une
chaîne de magasins d’alimentation organise les données de son
entrepôt par rapport aux ventes qui ont été réalisées par produit et
par magasin, au cours d’un certain temps.
Production
Employé
Facturation
Données
Production
Données
Employé
Données
Facturation
80
- 21. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
21
Caractéristiques : Données intégrées
● intégrées : Les données provenant des différentes sources doivent
être intégrées, avant leur stockage dans l’entrepôt de données.
L’intégration (mise en correspondance des formats, par exemple),
permet d’avoir une cohérence de l’information.
Production
Employés
Facturation
Données
Client
81
Caractéristiques : Données non volatiles
● non volatiles : à la différence des données opérationnelles, celles de
l’entrepôt sont permanentes et ne peuvent pas être modifiées. Le
rafraîchissement de l’entrepôt, consiste à ajouter de nouvelles données,
sans modifier ou perdre celles qui existent.
82
Ajout
Modification
Suppression
Accès
Chargement
Bases de production Entrepôts de données
Caractéristiques : Données et historisées
● historisées : La prise en compte de l’évolution des données est
essentielle pour la prise de décision qui, par exemple, utilise des
techniques de prédiction en s’appuyant sur les évolutions passées
pour prévoir les évolutions futures.
Ventes Données
client
83
Pourquoi ne pas utiliser une BD?
BD et DW :
■ ont des objectifs différents et font des traitements différents
■ stockent des données différentes
■ font l'objet de requêtes différentes
BD et DW ont besoin d'une organisation différente des données
BD et DW doivent être physiquement séparés.
84
- 22. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
22
Processus de l’entreprise : Un exemple
85
Les clients
Les fournisseurs L’entreprise Les salariés
Gestion de la relation client,
optimisation des ventes
Gestion de la relation client,
optimisation des ventes
Optimisation des achats Gestion des RHprocessus opérationnels
Optimisation des
processus opérationnels
Les actionnaires
Enterprise Management
Finances, Strategic
Enterprise Management
Exemple 1/3
Consolidation financière
Analyse des coûts et de la profitabilité
Gestion des risques
Budget, planning, simulation, prévision
Gestion de la relation actionnaires
Management de la valeur
■ Gestion du temps de travail
■ Formation, recrutement
■ Fidélisation des salaries
■ Salaires et rémunération
■ Profitabilité client
■ Satisfaction client
■ Analyse comportementale, ciblage
■ Opportunités de ventes croisées
■ Efficacité de forces de ventes, canaux de distribution
■ Efficacité des opérations commerciales (promotion, publicité, etc.)
■ Performance du fournisseur
■ Optimisation des délais
■ Coûts et qualité du service
(interne et prestataires)
■ Performance de la production et de la logistique
(Coûts, Qualité, Délai)
■ Analyse des affectations, coût du temps travaille
Objectifs, enjeux
■ Retour sur investissement (RSI, en anglais Return Of Investment 'ROI')
■ Réduction des coûts et contrôle des limites
■ Avoir une vision de l’entreprise qui aide à sa gestion, à son pilotage.
■ Répondre à des questions auxquelles les progiciels orientés métier ne
peuvent faire face.
■ Les ERP ont apporté des solutions pour gérer les données de
l’entreprise selon un modèle unifié et cohérent, la Business Intelligence
les rentabilise.
86
Exemple 2/3
■ Quel a été l’impact de la dernière promotion sur cette gamme d’articles?
■ Quel a été le secteur d’activité le plus rentable dans cette région?
■ Quelle est la période où l’absentéisme est le plus fort ? Quelle est la catégorie de
personnel la plus touchée et quel est l’impact sur la production?
■ … Autant de questions auxquelles il est difficile de répondre, voire impossible si
elles mettent en jeu des données de plusieurs compartiments de l’entreprise.
■ Exemple de problème rencontré lors du passage d’une logique de compte à une
logique de client : Le client apparaît en de multiples endroits ; dans :
La base marketing
La base commerciale
Le système de facturation
Le système après vente
■ Toutes ces données doivent être homogénéisées, organisées et intégrées au sein
du Datawarehouse.
Requêtes
87
Exemple 3/3 Entrepôt de Données : Objectifs
Principaux objectifs :
1. regrouper, organiser des informations provenant de sources diverses,
2. les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier,
3. retrouver et analyser l’information facilement et rapidement.
En plus:
4. Transformer un SI qui avait une vocation de production en un SI décisionnel.
Transformation des données de production en informations stratégiques.
5. Les informations d'un DW doivent être cohérentes.
6. Les données du DW doivent pouvoir être séparées et combinées au moyen de
toutes les mesures possibles de l'activité.
7. Le DW ne comporte pas seulement des données mais aussi un ensemble
d'outils de requêtes, d'analyse et de présentation d'information.
88
- 23. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
23
8. Gestion et visualisation des données doit être rapide et intuitive
visualisation multidimensionnelle des données:
9. La qualité de l'information d'un DW est l'un des ressorts de la réorganisation
des données (Business Reengineering).
Entrepôt de Données : Objectifs (suite)
Comment Fédérer/Regrouper l'ensemble des données de l'entreprise ?
89
Entrepôt de Données (Fonctions)
La construction d’un entrepôt revient à faire correspondre les besoins des
utilisateurs avec la réalité des informations disponibles.
Trois fonctions essentielles :
■ collecte de données de différentes bases existantes
■ Stockage de données (historisées)
■ Mettre à disposition les données pour :
Interrogation
Visualisation
Analyse
90
Architecture
91
Différence entre un DW et un datamart
Un DW et un datamart se distinguent par le spectre qu'il recouvre :
● Le DW recouvre l'ensemble des données et problématiques d'analyse visées par
l'entreprise.
● Le datamart recouvre une partie des données et problématiques liées à un métier
ou un sujet d'analyse en particulier (finance, commercial, …)
Mini DW lié à un métier particulier de l ’entreprise
● Un DW est souvent volumineux (plusieurs centaines de Go voire qcqs To ) avec des
performances inappropriées (temps de réponse trop longs).
● Un Data mart comporte moins de 50 Go, ce qui permet des performances
acceptables.
● La création d’un datamart peut être un moyen de débuter un projet de DW (projet
pilote).
92
Datamarts du service Marketing
Datamart du service
Ressources HumainesDW de l’entreprise
- 24. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
24
Différence entre un DW et un datamart
Pourquoi des datamarts ?
Les datamarts sont destinés à pré-agréger des données disponibles de
façon plus détaillée dans les DW, afin de traiter plus facilement certaines
questions spécifiques, critiques, etc.
93
Exemple : Ticket de caisse
Si un DW enregistre un ensemble de ventes d'articles avec un grain très
fin, un datamart peut faciliter une analyse dite de ticket de caisse (co-
occurrence de ventes de produits par exemple) en adoptant un grain
plus grossier (le ticket plutôt que l'article).
Catégories des données stockées
■ Données dans un DW : données du SIO + BD externes (ETL).
■ Quatre catégories de données :
Les données de détail : issues des systèmes transactionnels de l’entreprise
"socle de l’entreprise". Leur stockage permet d’offrir aux utilisateurs du SID les
détails des chiffres affichés, par exemple, sur un tableau de bord.
Les données agrégées : correspondent à des éléments d’analyse représentant
les besoins des utilisateurs. Elles constituent déjà un résultat d’analyse et une
synthèse de l’information contenue dans le système décisionnel, et doivent être
facilement accessibles et compréhensibles..
Les méta données : décrivent les caractéristiques des données stockées :
origine, date de dernière m-à-j, mode de calcul, procédure de transformation.
Elles sont utiles aussi bien aux utilisateurs (comprendre les données) qu’aux
administrateurs (fournir des moyens d’exploitation et de maintenance du DW).
Les données historisées : Couches de données dans lesquelles chaque
nouvelle insertion de données provenant du SIO ne détruit pas les anciennes
valeurs, mais créée une nouvelle occurrence de la donnée.
94
Processus ETL
95
■ L’ETL est une couche logicielle responsable de l’alimentation d’une BD à partir
de sources de données.
■ Dans un SID, l’ETL sert à alimenter l’ED ou bien les magasins de données .
■ L’ETL fait partie des middlewares (intergiciels)
Importance de l’ETL
96
■ Constitue 70 à 80% du temps passé dans un projet décisionnel.
■ La qualité de l’ED dépend de la qualité de l’ETL :
Temps de chargement
Fréquence de chargement
Qualité des données (QoD)
Qualité des services (QoS)
- 25. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
25
Processus ETL
Outils d’alimentation pour
■ Extraire
■ Transformer
■ Charger dans un DW
97
données
sources
ETL = Extracteur+Intégrateur
Extract + Transform + Load
Objectif
● Obtenir des informations consolidées et stables dans l’entrepôt.
● Tache difficile à mettre en œuvre
ETL – Extraction
■ Objectif : Identifier et localiser les données sources pertinentes (BDR,
fichiers, …) puis les collecter et les extraire des différents systèmes
opérationnels.
■ Fonctionnalités :
Traiter différents formats (XML, HTML, TXT, CSV, DB2, Oracle…).
Gérer les connexions aux sources (ODBC, JDBC...).
Extraire le dictionnaire des sources (propriété des colonnes, clés…).
Extraire les données de manière performante et sans perturber les
environnements de production.
Détecter les données qui ont été modifiées dans les sources.
Ajouter des contrôles (fichier de rejets, audits…).
Stocker l’ensemble des règles d’extraction dans le référentiel.
98
ETL – Extraction
99
Extraction logique
Traite la quantité des
données à extraire
Extraction
Extraction physique
Traite l’aspect technique de
l’opération de l’extraction
■ totale : extraire toutes les données
dans un seul coup
■ incrémentale(partielle) : à chaque
fois, extraire une partie des données
■ directe (Charger les données
directement au DW)
■ indirecte (passer par staging
area)
100
Deux principales possibilités
■ Extraction des changements:
■ Que les parties des données ayant été modifiées depuis la dernière
procédure d’extraction sont transmises au système DW.
■ Modifications peuvent être des insertions de tuples (insert), des effacements
de tuples (delete). Des modifications de tuples existants (update) sont
typiquement implémentés par une suite insert+delete.
■ Copie intégrale des données source (snapshot)
■ S’utilise lorsque le nombre de changements individuels est trop important ou
si l’extraction des changements n’est pas possible due à des raisons
techniques.
■ Conflit d’intérêt: Extraction de données cohérentes vs. restriction du
fonctionnement opératif causé par l’accès exclusif des données, nécessaire
durant l’extraction.
ETL – Extraction
- 26. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
26
ETL –Transformation
Problématique
■ Existence de plusieurs sources
■ non conformité des représentations
■ découpages géographiques différents
■ 5 à 30 % des données des BD commerciales sont erronées
■ une centaine de type d’inconsistances ont été répertoriées
données erronées analyse erronée !
DW
BP
BP
BP
■ Transformation : Étape importante garantissant que les données intégrées dans
le DW seront cohérentes et fiables.
101
■ Objectif
Transformer les données sources selon les
unités de mesure et les formats de l’ED.
Homogénéiser les données sources.
Nettoyer les données.
Suppression des incohérences sémantiques.
Dater les données.
Créer des clés. 102
Suppression des incohérences sémantiques entre les sources pouvant
survenir lors de l’intégration :
■ des schémas :
problème de modélisation : différents modèles de données sont utilisés
problèmes de terminologie : un objet est désigné par 2 noms différents, un même
nom désigne 2 objets différents
incompatibilités de contraintes : 2 concepts équivalents ont des contraintes
incompatibles
conflit sémantique : choix de différents niveaux d’abstraction pour un même concept
conflits de structures : choix de différentes propriétés pour un même concept
conflits de représentation : 2 représentations différentes choisies pour les mêmes
propriétés d’un même objet
■ des données :
Equivalence de champs
Equivalence d’enregistrements : fusion d’enregistrements
ETL –Transformation
103
Objectif : Résoudre le problème de consistance des données au sein
de chaque source.
ETL – Transformation
■ présence de données fausses dès leur saisie
faute de frappe
différent format dans une même colonne
(jj/mm/aa, mm/jj/aa, jj-mois jj/mm/aaaa)
texte masquant de l’information (e.g., “N/A”)
valeurs nulles et valeurs incohérentes
9999, xxxx, non renseignée, inc, inconnue
Traiter les valeurs manquantes et les valeurs incohérentes (ignorer, remplacer,
saisir manuellement ces valeurs manquantes)
incompatibilité entre la valeur et la description de la colonne
duplication d’information (Référence des produits, des clients dans
différentes sources)
Types d’inconsistances
Nettoyage
104
■ persistance de données obsolètes
■ confrontation de données sémantiquement équivalentes mais
syntaxiquement différentes (Problèmes de codage et de nommage)
Employé, Personnes, Salariés, Personnel Employés
Boulvd, Bd, Boulevard Boulevard
Types d’inconsistances (suite)
un outil de nettoyage comprend
■ des fonctions d’analyse
■ des fonctions de normalisation
■ des fonctions de conversion
■ des dictionnaires de synonymes ou d’abréviations
ETL – Transformation Nettoyage
- 27. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
27
105
Définition de table de règles
remplacer valeur par
Mr M
monsieur M
mnsieur M
masculin M
M M
Msieur M
M. M
Monseur M
normalisation, conversion, dictionnaires, ...
Exemple de conversions :
utilisation d’expression régulière, suppression de doublons, de valeur nulle, ...
ETL – Transformation Nettoyage
106
■ 5 étapes de nettoyage de données:
1. Décomposition des données source en éléments (elementizing)
Par exemple adresse rue, numéro, code postal, ville
2. Adaptation des éléments à un format standard (standardizing) : par exemple,
adoption d’un même format pour les dates (jj/mm/aaaa), "1ST AVE" "First Avenue"
3. Vérification de la plausibilité de données (vérification) : par exemple le conflit entre
code postal = «91400» et ville = «Paris» est identifié et résolu
4. Alignement des données (matching) : par exemple vérification de l’existence d’un
produit (tuple provenant d’une source) dans la BD intégrée. Si un produit y existe
déjà, sa représentation intégrée est adaptée.
5. Formation de groupes (householding)
Vérification de l’appartenance de nouveau tuples à un groupe de tuples de la BD
intégrée intéressant au niveau application (bénéfique lors des analyses).
Par exemple, formation / élargissement du groupe «type de consommateur».
ETL – Transformation Nettoyage
ETL – Chargement Données nettoyées et transformées
■ Fonctionnalités :
Traiter les messages reçus du système de transformation des données.
Insérer de nouvelles données et archivage de données anciennes.
Ordre de chargement :
1. Tables de Dimensions
2. Tables de Faits
Mettre à jour périodiquement les tables de faits (selon le grain).
Gérer les gros volumes de données (index, partitionnement,
parallélisation, chargement en blocs…).
Ajouter des contrôles (fichier de rejets, audits…).
Stocker l’ensemble des règles de chargement dans le référentiel
■ Objectif : Charger les données transformées dans l’entrepôt.
107
ETL – Chargement Techniques
■ Basées SQL
Interface standard: embedded SQL, JDBC, ...
Opération / extension propriétaire: Array Insert
Considération et activation de toutes les méthodes BD: déclencheurs,
actualisation d’indexes, concurrence, ...
■ Chargement de masse (bulk load): Extension spécifique d’un système
BD dédiée au chargement de larges volumes de données.
■ Utilisation d’interfaces d’application: nécessaire chez certains vendeurs
(SAP)
108
- 28. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
28
Cycle de vie de l’ETL
■ La mise en place de l’ETL passe par les étapes suivantes :
1. Conception de l’ETL :
Identification des sources de données
Correspondance des données
Définition des transformations
Structure de la zone d’attente
2. 1er chargement :
Chargement de toutes les données sources
3. Rafraichissement de l’ED :
Chargement périodique des données
■ Mise à jour de l’ETL lorsque les structures sources ou cibles
changent
109
Fréquence de l’ETL
■ Dépend de :
la granularité de la dimension Temps
la disponibilité des données sources
la fréquence d’utilisation de l’ED
■ Dans certains cas, pour gagner du temps, on peut avoir une
fréquence de chargement inférieure à celle de la granularité de la
dimension temps.
■ Exemple :
Granularité Temps = mois
Fréquence de chargement = jour
110
La méthode pull et la méthode push
■ Techniques de détection des mises à jour effectuées sur la BD
opérationnelle et son envoi à l ’entrepôt pour sa mise à niveau ultérieure.
avec la méthode pull, c’est le SID qui recherche périodiquement les
données dans les BD opérationnelles. Cette méthode alimente le SID
en temps différé, cependant la quantité volumineuse de données à
chaque transfert peut être coûteuse en temps.
avec la méthode push, c’est le SIO qui au fil de l’eau de ses
transactions alimente le SID. Cette méthode alimente le SID en temps
direct ce qui oblige à revoir le code des applications opérationnelles.
111
Outils ETL
■ Sans outils :
Commandes SQL et utilitaires du SGBD source et cible
Programmation (PL/SQL)
■ Outils propriétaires :
Oracle Warehouse Builder
IBM DB2 Warehouse Manager
Microsoft Integration Services
…
■ Open source :
Talend Open studio
Pentaho Data Integration
…
■ Comparatif des outils ETL open source
http://alma.univ-nantes.fr/promotions/2007-08/stages/08-obs-francheteau.pdf
http://www.atolcd.com/fileadmin/Publications/Atol_CD_Livre_Blanc_ETL_Open_Source.pdf
112
- 29. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
29
Modélisation d'un DW
• Les BD relationnelles ne sont pas adaptées à l'OLAP car :
Pas les mêmes objectifs
Pas les mêmes données:
Les données nécessaires à l'OLAP sont multidimensionnelles (i.e.
ventes par vendeur, par date, par ville, …). Les tables en représentent
une vue aplatie.
Pas les mêmes traitements et requêtes:
Non seulement perte de performances mais aussi nécessité pour les
utilisateurs de savoir comment trouver les liens entre les tables pour
recréer la vue multidimensionnelle.
• Il est donc nécessaire de disposer d'une structure de stockage adaptée à l'OLAP,
i.e. permettant de :
représenter les données dans plusieurs dimensions,
manipuler les données facilement et efficacement.
Nécessité d'une structure multidimensionnelle
(Chapitre 3)
113
Implémentation d'un data warehouse
3 possibilités:
1. Relational OLAP (ROLAP)
2. Multidimensional OLAP (MOLAP)
3. Hybrid OLAP (HOLAP)
[Ces concepts seront détaillés dans le chapitre 5]
114
115
ROLAP
Idée:
● Données stockées en relationnel.
● La conception du schéma est particulière: schéma en étoile, en flocon.
● Des vues (matérialisées) sont utilisées pour la représentation
multidimensionnelle.
● Un moteur ROLAP permet de simuler le comportement d’un SGBD
multidimensionnel (Traduction des requêtes OLAP (slice, rollup…) en SQL)
● Utilisation d'index spéciaux: bitmap.
● Administration (tuning) particulière de la base.
Avantages/inconvénients
● Souplesse, évolution facile, moins
cher à mettre en place stockage
de gros volumes.
● Mais peu efficace pour les calculs
complexes. 115
MOLAP
Idée:
● Utilise un système multidimensionnel pour gérer les structures multidimensionnels
● Modélisation directe du cube.
● Ces cubes sont implémentés comme des matrices à plusieurs dimensions.
● CUBE [1:m, 1:n, 1:p…] (mesure)
● Le cube est indexé sur ses dimensions.
Avantages/inconvénients
● rapide
● formats propriétaires
● ne supporte pas de très gros volumes de données
116
- 30. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
30
HOLAP
Idée:
● MOLAP + ROLAP
● Données stockées dans des tables relationnelles
● Données agrégées stockées dans des cubes.
● Les requêtes vont chercher les données dans les tables et les cubes.
● Solution hybride entre MOLAP et ROLAP
● Bon compromis au niveau coût et performance
117
Administration d'un ED
■ L'ED est un aspect physique du SI de l'entreprise. Il doit être par conséquent
évolutif. Les données doivent donc changer. On doit procéder à d'autres
alimentations et donc gérer l'actualisation des données.
■ Il existe des outils qui prennent en charge les tâches de rafraîchissement des
données.
■ Ils procèdent par réplication pour propager les m-à-j effectuées dans les BD
sources, dans l'ED.
■ Le mécanisme de réplication et une opération de copie de données d'une BD
vers une ou plusieurs BD.
■ Les réplications sont alors asymétriques synchrones ou asynchrones ou alors
symétriques synchrones ou asynchrones.
■ Le rafraîchissement des données peut se faire également par des processus de
transformation qui exploitent les méta-données.
118
Administration d'un ED
■ La fonction d'administration porte sur un aspect fonctionnel (qualité et la
pérennité des données) mais aussi sur un aspect technique (maintenance,
optimisation, sécurisation,...)
■ Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection
des données de production à la mise à disposition pour construire les espaces
d'analyse.
■ L'administrateur de l'ED doit maîtriser la gestion des données (données,
provenance des données, méta-données).
■ Les données agrégées sont aussi une production (information) de l'entreprise
comme les données de production (ERP), doivent être entreposées.
■ Ainsi le développement de l'ED témoignera, aussi bien de la production de base
que de l'activité informationnelle (pilotage de l'entreprise).
■ Les requêtes portent plus souvent sur les agrégats que sur les données de base
(80% - 20%)
119
Rôles et responsabilités
Kimball (2004) a définit 8 rôles dont les plus sont :
1. Gestionnaire ETL
■ Gérer quotidiennement l’équipe ETL.
■ Définir les standards et procédures de l’environnement de développement
ETL (Règles de nomenclature, Meilleures pratiques…)
■ Superviser le développement, les tests et l’assurance qualité
2. Architecte ETL
■ Concevoir l’architecture et l’infrastructure de l’environnement ETL.
■ Concevoir le mappage logique de données.
■ Livrer les routines ETL en production.
■ Appréhender les besoins d’affaire.
■ Connaître les systèmes source.
■ Résoudre les problèmes techniques complexes.
120
- 31. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
31
Rôles et responsabilités
3. Développeur ETL
■ Développer les routines ETL.
■ Tester les routines ETL.
■ S’assurer que les résultats du processus ETL répondent aux besoins
d’affaire (Collaboration étroite avec l’architecte ETL)
4. Analyste système
■ Rassembler des besoins d’affaire.
■ Documenter les besoins d’affaire.
■ Travailler en collaboration avec toute l’équipe du DW (Non seulement celle
du système ETL).
121
Rôles et responsabilités
5. Spécialiste qualité de données
■ S’assurer de la qualité des données dans l’entrepôt de données en entier.
■ S’assurer que les règles d’affaire sont bien implantées par les processus
ETL (en collaboration avec l’analyste système et l’architecte ETL)
6. DBA
■ Installer, configurer, migrer et maintenir la base de données.
■ Traduire le modèle logique de données en modèle physique.
122
Annexe :
Méthode générale de conception de l’ETL sous Oracle
1. Récupération des données sources dans la zone d'extraction
Création de vues pour les données stockées dans des BDR
Création de tables externes pour les fichiers CSV
Transformation XSLT des fichiers XML en instructions SQL et ajout
manuel des données XML. Une table classique correspondant au schéma
XML doit donc être créée dans le zone d'extraction.
123
2. Création des tables de traitement
● Créer une table pour chaque vue, table externe et table classique de la zone
d'extraction selon la syntaxe SQL3 du modèle RO pour pouvoir accepter des
méthodes ultérieurement. Déclarer ensuite une méthode pour chaque attribut à
exporter dans le modèle dimensionnel.
● Ajouter un attribut booléen pour chaque table afin de discriminer ultérieurement les
données nouvelles des données anciennes.
● Pour chaque hypothèse de "propreté" des données sources, on poser une contrainte
associée. Par exemple si une donnée doit être une clé primaire et que l'on pense que
les sources sont correctes de ce point de vue, on ajoute la clause PRIMARY KEY. Par
contre il ne faut pas ajouter les contraintes lorsque l'on sait que les données sources
sont "sales", sans quoi ces données seront refusées au chargement et ne pourront
jamais être nettoyées.
● Pour chaque hypothèse de "nettoyage" des données sources, on pose un trigger qui
va traquer les erreurs et les rapporter dans une table de log.
● On note enfin qu'il est parfois utile de donner des tailles de champs plus grandes que
celle attendues afin de ne pas bloquer ou tronquer d'enregistrement. C'est une autre
façon de "relâcher" les Contraintes.
Annexe :
Méthode générale de conception de l’ETL sous Oracle
124
- 32. FST©Med-Ali-Ben-Hassine-2012 Conception des Entrepôts de Données
32
3. Transfert des données de la zone d'extraction vers la zone de
transformation
● Toutes les données doivent passer, l'analyse des triggers et le non blocage par
les contraintes posées permettent de valider les hypothèses de propreté.
● On utilise l'instruction Oracle MERGE pour les imports. Les données nouvelles
sont marquées en utilisant l'attribut de discrimination ajouté à cet effet.
● Les sources de données importées manuellement de la zone d'import sont
remises à zéro (DELETE).
Annexe :
Méthode générale de conception de l’ETL sous Oracle
4. Création des méthodes de transformation
● On implémente une méthode pour chaque attribut que l'on souhaite exporter
dans le modèle dimensionnel. Cette méthode permet de réaliser dynamiquement
les transformations et vérifications adéquates.
125
5. Préparation du chargement
● Désactivation des contraintes des tables dimensionnelles.
● Suppression des index des tables dimensionnelles.
6. Chargement dans les tables dimensionnelles
● Seule l'API fournie par les méthodes est utilisée pour accéder aux données.
● On peut choisir une mise à jour complète : la base dimensionnelle est vidée
puis remplie à nouveau ; ou bien une mise à jour partielle : les données
nouvelles (marquées comme telles) sont ajoutées mais les modifications sur
les données préalables ne sont pas prises en compte.
7. Post-chargememnt
● Réactivation des contraintes, en cas d'erreur procéder aux corrections ad hoc
dans les méthodes de transformation et recommencer.
● Recréer les index.
Annexe :
Méthode générale de conception de l’ETL sous Oracle
126
Attention : Passage
● Le passage d'une zone à l'autre doit toujours laisser passer toutes les
données.
● Lors du passage de la zone d'extraction à la zone de transformation, les
contraintes qui bloquent doivent être levées pour laisser passer les données et
lors du passage de la zone de transformation à la zone d'exploitation, les
méthodes doivent gérer tous les cas de figure problématiques.
Rappel : Particularités Oracle à mobiliser
● Tables externes : ORACLE LOADER
● Triggers : CREATE TRIGGER
● Instruction d'ajout et mise à jour de données : MERGE
● Méthodes relationnel-objet : CREATE TYPE et CREATE TYPE BODY
● Désactivation et réactivation de contraintes : ALTER TABLE nom_table
[ENABLE | DISABLE] CONSTRAINT nom_contrainte;
Annexe :
Méthode générale de conception de l’ETL sous Oracle
127
128
Annexe :
Méthode générale de conception de l’ETL sous Oracle
Résumé en image
128