Enviar búsqueda
Cargar
Chap1 2 dw (1)
•
2 recomendaciones
•
5,437 vistas
'
'Farouk' 'BEN GHARSSALLAH'
Seguir
Denunciar
Compartir
Denunciar
Compartir
1 de 32
Descargar ahora
Descargar para leer sin conexión
Recomendados
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision
Amal Brioual
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
Jean-Marc Dupont
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
Jean-Marc Dupont
DataWarehouse
DataWarehouse
nzuguem
Bi
Bi
ilhem hammouche
Présentation bi 1.0
Présentation bi 1.0
Alexandre Bodin
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
Lilia Sfaxi
Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
Recomendados
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision
Amal Brioual
Projet BI - 2 - Conception base de données
Projet BI - 2 - Conception base de données
Jean-Marc Dupont
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
La BI : Qu’est-ce que c’est ? A quoi ça sert ?
Jean-Marc Dupont
DataWarehouse
DataWarehouse
nzuguem
Bi
Bi
ilhem hammouche
Présentation bi 1.0
Présentation bi 1.0
Alexandre Bodin
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
Lilia Sfaxi
Cours Big Data Chap1
Cours Big Data Chap1
Amal Abid
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
Lilia Sfaxi
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
arnaudm
Business Intelligence
Business Intelligence
Lilia Sfaxi
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
Jean-Marc Dupont
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Abderrahmane Filali
Resume de BI
Resume de BI
zeroweddou
Td dw1
Td dw1
Houssem Ghammam
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
Lilia Sfaxi
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
Lilia Sfaxi
Etat de l’art approche et outils BI
Etat de l’art approche et outils BI
Said Sadik
Introduction au BIG DATA
Introduction au BIG DATA
Zakariyaa AIT ELMOUDEN
Conception datawarehouse
Conception datawarehouse
Hassane Dkhissi
exercices business intelligence
exercices business intelligence
Yassine Badri
Introduction à la Business Intelligence
Introduction à la Business Intelligence
Cynapsys It Hotspot
Technologies pour le Big Data
Technologies pour le Big Data
Minyar Sassi Hidri
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision
Amal Brioual
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
Lilia Sfaxi
Rapport de stage du fin d'étude
Rapport de stage du fin d'étude
Yahyaoui Mohamed Yosri
Mise en-place-d-une-gestion-electronique-de-document
Mise en-place-d-une-gestion-electronique-de-document
Cyrille Roméo Bakagna
PROJET JAVA BD MySQL
PROJET JAVA BD MySQL
Wilfried Tiani
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Groupe Dia-Mart
Byzance icono
Byzance icono
Lauren Visse
Más contenido relacionado
La actualidad más candente
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
Lilia Sfaxi
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
arnaudm
Business Intelligence
Business Intelligence
Lilia Sfaxi
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
Jean-Marc Dupont
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Abderrahmane Filali
Resume de BI
Resume de BI
zeroweddou
Td dw1
Td dw1
Houssem Ghammam
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
Lilia Sfaxi
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
Lilia Sfaxi
Etat de l’art approche et outils BI
Etat de l’art approche et outils BI
Said Sadik
Introduction au BIG DATA
Introduction au BIG DATA
Zakariyaa AIT ELMOUDEN
Conception datawarehouse
Conception datawarehouse
Hassane Dkhissi
exercices business intelligence
exercices business intelligence
Yassine Badri
Introduction à la Business Intelligence
Introduction à la Business Intelligence
Cynapsys It Hotspot
Technologies pour le Big Data
Technologies pour le Big Data
Minyar Sassi Hidri
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision
Amal Brioual
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
Lilia Sfaxi
Rapport de stage du fin d'étude
Rapport de stage du fin d'étude
Yahyaoui Mohamed Yosri
Mise en-place-d-une-gestion-electronique-de-document
Mise en-place-d-une-gestion-electronique-de-document
Cyrille Roméo Bakagna
PROJET JAVA BD MySQL
PROJET JAVA BD MySQL
Wilfried Tiani
La actualidad más candente
(20)
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
Business Intelligence
Business Intelligence
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
Resume de BI
Resume de BI
Td dw1
Td dw1
BigData_Chp1: Introduction à la Big Data
BigData_Chp1: Introduction à la Big Data
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
Etat de l’art approche et outils BI
Etat de l’art approche et outils BI
Introduction au BIG DATA
Introduction au BIG DATA
Conception datawarehouse
Conception datawarehouse
exercices business intelligence
exercices business intelligence
Introduction à la Business Intelligence
Introduction à la Business Intelligence
Technologies pour le Big Data
Technologies pour le Big Data
Business Intelligence au coeur de la décision
Business Intelligence au coeur de la décision
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
Rapport de stage du fin d'étude
Rapport de stage du fin d'étude
Mise en-place-d-une-gestion-electronique-de-document
Mise en-place-d-une-gestion-electronique-de-document
PROJET JAVA BD MySQL
PROJET JAVA BD MySQL
Destacado
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Groupe Dia-Mart
Byzance icono
Byzance icono
Lauren Visse
Concevoir un système Linux embarqué avec Yocto Project - Version révisée
Concevoir un système Linux embarqué avec Yocto Project - Version révisée
Christian Charreyre
Archives participatives
Archives participatives
Pauline Moirez
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »
Mobile Marketing Association France
Une vision des transformations de l’EAD par Éric Bruillard, STEF
Une vision des transformations de l’EAD par Éric Bruillard, STEF
FFFOD
Cicéron
Cicéron
powerpointpower
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB INSTITUTE
The Ultimate Guide to Creating Visually Appealing Content
The Ultimate Guide to Creating Visually Appealing Content
Neil Patel
Dear NSA, let me take care of your slides.
Dear NSA, let me take care of your slides.
Emiland
What I Carry: 10 Tools for Success
What I Carry: 10 Tools for Success
Jonathon Colman
What Makes Great Infographics
What Makes Great Infographics
SlideShare
Masters of SlideShare
Masters of SlideShare
Kapost
STOP! VIEW THIS! 10-Step Checklist When Uploading to Slideshare
STOP! VIEW THIS! 10-Step Checklist When Uploading to Slideshare
Empowered Presentations
You Suck At PowerPoint!
You Suck At PowerPoint!
Jesse Desjardins - @jessedee
10 Ways to Win at SlideShare SEO & Presentation Optimization
10 Ways to Win at SlideShare SEO & Presentation Optimization
Oneupweb
How To Get More From SlideShare - Super-Simple Tips For Content Marketing
How To Get More From SlideShare - Super-Simple Tips For Content Marketing
Content Marketing Institute
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
SlideShare
Android
Android
Esteve Aguilera
Apresentação NFC-e Porto Alegre 27.06.2012
Apresentação NFC-e Porto Alegre 27.06.2012
decision-it
Destacado
(20)
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Conférence Groupe Dia-Mart 2016 • Et si la prochaine révolution retail était ...
Byzance icono
Byzance icono
Concevoir un système Linux embarqué avec Yocto Project - Version révisée
Concevoir un système Linux embarqué avec Yocto Project - Version révisée
Archives participatives
Archives participatives
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »
LE MARKETING MOBILE AU SERVICE DE L’EXPÉRIENCE CONSOMMATEUR « IN STORE »
Une vision des transformations de l’EAD par Éric Bruillard, STEF
Une vision des transformations de l’EAD par Éric Bruillard, STEF
Cicéron
Cicéron
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
HUB REPORT - L'indispensable à savoir sur la Data & le CRM
The Ultimate Guide to Creating Visually Appealing Content
The Ultimate Guide to Creating Visually Appealing Content
Dear NSA, let me take care of your slides.
Dear NSA, let me take care of your slides.
What I Carry: 10 Tools for Success
What I Carry: 10 Tools for Success
What Makes Great Infographics
What Makes Great Infographics
Masters of SlideShare
Masters of SlideShare
STOP! VIEW THIS! 10-Step Checklist When Uploading to Slideshare
STOP! VIEW THIS! 10-Step Checklist When Uploading to Slideshare
You Suck At PowerPoint!
You Suck At PowerPoint!
10 Ways to Win at SlideShare SEO & Presentation Optimization
10 Ways to Win at SlideShare SEO & Presentation Optimization
How To Get More From SlideShare - Super-Simple Tips For Content Marketing
How To Get More From SlideShare - Super-Simple Tips For Content Marketing
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
A Guide to SlideShare Analytics - Excerpts from Hubspot's Step by Step Guide ...
Android
Android
Apresentação NFC-e Porto Alegre 27.06.2012
Apresentação NFC-e Porto Alegre 27.06.2012
Similar a Chap1 2 dw (1)
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
dibs-conseil
Les enjeux de la transformation numérique
Les enjeux de la transformation numérique
Antoine Vigneron
BI_Part1_2020.pdf
BI_Part1_2020.pdf
OuailChoukhairi
Propos sur les si décisionnels.
Propos sur les si décisionnels.
Michel Bruley
projet BI licnence.pdf
projet BI licnence.pdf
abdellah boukind
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...
Novaminds
Les sept stratégies des Mieux gérées
Les sept stratégies des Mieux gérées
Deloitte Canada
Entrepreneuriat : entre philosophie et technologie
Entrepreneuriat : entre philosophie et technologie
Etilux
Data Science
Data Science
Soft Computing
Systèmes d informations
Systèmes d informations
Reda Hassani
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
COMPETITIC
Comparing technologies
Comparing technologies
Friaa Marwa
Préconisation pour la boite à outils de l'intelligence économique dans les pme
Préconisation pour la boite à outils de l'intelligence économique dans les pme
Boudaud
Connaissance marché et apports du web
Connaissance marché et apports du web
Thomas Coustenoble
Offre mobile SRM par Business & Decision et Microstrategy
Offre mobile SRM par Business & Decision et Microstrategy
Jean-Michel Franco
Synergie KM_BI_IE
Synergie KM_BI_IE
IbtissemSlimeni
Synergie km ie_ib vf
Synergie km ie_ib vf
SoumayaNebli
La Gouvernance des Données
La Gouvernance des Données
Soft Computing
Pilotage de gestion, data et machine learning by Mindoo Management
Pilotage de gestion, data et machine learning by Mindoo Management
Cyril Lagrange
Synthèse du chantier gouvernance information (Pôle 1)
Synthèse du chantier gouvernance information (Pôle 1)
Ourouk
Similar a Chap1 2 dw (1)
(20)
7 points clés à retenir pour aborder le data management de données clients...
7 points clés à retenir pour aborder le data management de données clients...
Les enjeux de la transformation numérique
Les enjeux de la transformation numérique
BI_Part1_2020.pdf
BI_Part1_2020.pdf
Propos sur les si décisionnels.
Propos sur les si décisionnels.
projet BI licnence.pdf
projet BI licnence.pdf
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...
Gouvernance de la donnée : positionnement, missions et moyens des fonctions C...
Les sept stratégies des Mieux gérées
Les sept stratégies des Mieux gérées
Entrepreneuriat : entre philosophie et technologie
Entrepreneuriat : entre philosophie et technologie
Data Science
Data Science
Systèmes d informations
Systèmes d informations
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
Competitic simplifiez le pilotage de votre entreprise avec la business inte...
Comparing technologies
Comparing technologies
Préconisation pour la boite à outils de l'intelligence économique dans les pme
Préconisation pour la boite à outils de l'intelligence économique dans les pme
Connaissance marché et apports du web
Connaissance marché et apports du web
Offre mobile SRM par Business & Decision et Microstrategy
Offre mobile SRM par Business & Decision et Microstrategy
Synergie KM_BI_IE
Synergie KM_BI_IE
Synergie km ie_ib vf
Synergie km ie_ib vf
La Gouvernance des Données
La Gouvernance des Données
Pilotage de gestion, data et machine learning by Mindoo Management
Pilotage de gestion, data et machine learning by Mindoo Management
Synthèse du chantier gouvernance information (Pôle 1)
Synthèse du chantier gouvernance information (Pôle 1)
Más de 'Farouk' 'BEN GHARSSALLAH'
UML v2
UML v2
'Farouk' 'BEN GHARSSALLAH'
UML4
UML4
'Farouk' 'BEN GHARSSALLAH'
UML Diagrammes Dynamiques
UML Diagrammes Dynamiques
'Farouk' 'BEN GHARSSALLAH'
UML Diagrammes Statiques
UML Diagrammes Statiques
'Farouk' 'BEN GHARSSALLAH'
UML3
UML3
'Farouk' 'BEN GHARSSALLAH'
UML2
UML2
'Farouk' 'BEN GHARSSALLAH'
UML1
UML1
'Farouk' 'BEN GHARSSALLAH'
IPV6
IPV6
'Farouk' 'BEN GHARSSALLAH'
Transmission de signal
Transmission de signal
'Farouk' 'BEN GHARSSALLAH'
Custom PrimeFaces components
Custom PrimeFaces components
'Farouk' 'BEN GHARSSALLAH'
Custom JSF components
Custom JSF components
'Farouk' 'BEN GHARSSALLAH'
Hibernate
Hibernate
'Farouk' 'BEN GHARSSALLAH'
Java Server Faces 2
Java Server Faces 2
'Farouk' 'BEN GHARSSALLAH'
Business Models
Business Models
'Farouk' 'BEN GHARSSALLAH'
People Orientated Approaches
People Orientated Approaches
'Farouk' 'BEN GHARSSALLAH'
Leadership strategy
Leadership strategy
'Farouk' 'BEN GHARSSALLAH'
HTML
HTML
'Farouk' 'BEN GHARSSALLAH'
Css
Css
'Farouk' 'BEN GHARSSALLAH'
Más de 'Farouk' 'BEN GHARSSALLAH'
(18)
UML v2
UML v2
UML4
UML4
UML Diagrammes Dynamiques
UML Diagrammes Dynamiques
UML Diagrammes Statiques
UML Diagrammes Statiques
UML3
UML3
UML2
UML2
UML1
UML1
IPV6
IPV6
Transmission de signal
Transmission de signal
Custom PrimeFaces components
Custom PrimeFaces components
Custom JSF components
Custom JSF components
Hibernate
Hibernate
Java Server Faces 2
Java Server Faces 2
Business Models
Business Models
People Orientated Approaches
People Orientated Approaches
Leadership strategy
Leadership strategy
HTML
HTML
Css
Css
Chap1 2 dw (1)
1.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 1 1 Département des Sciences de l’Informatique Conception des Entrepôts de Données 2012/2013 Mohamed Ali BEN HASSINE Faculté des Sciences de Tunis mohamedali.benhassine@fst.rnu.tn Section: 5ème année Ingénieurs (IF5) FST© Med Ali Ben Hassine 2012 2 Plan Chapitre 1 : Introduction à l'informatique décisionnelle Chapitre 2 : Les Entrepôts de données Chapitre 3 : Modélisation multidimensionnelle Chapitre 4 : L'algèbre multidimensionnelle Chapitre 5 : Les SGBD décisionnels et Extension de SQL Chapitre 6 : Les techniques d'optimisation dans les ED Chapitre 7 : Le cycle de vie dimensionnel Chapitre 8 : La fouille de données Bibliographie ● Kimball R, Reeves L, Concevoir et déployer un data warehouse Guide de conduite de projet, Eyrolles, 2000. ● Kimball R, Margy Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling, 2nd Edition, Wiley Computer Publishing, 2002 . ● Inmon, W.H. : What is a Data Warehouse? Prism Solutions. Volume 1. 1995. ● Jiawei Han and Micheline Kamber: Data Mining : Concepts and Technics, Morgan Kaufmann Publishers, Elsevier, 2006. ● Ladjel Bellatreche, Techniques d'optimisation des requêtes dans les data warehouses, Sixth International Symposium on Programming and Systems, pp. 81-98, 2003 3 Chapitre 1 Introduction à l'informatique décisionnelle 4 FST© Med Ali Ben Hassine 2012 Plan 1. Contexte 2. L’information et la prise de décision 3. Informatique décisionnelle 4. Système d'information décisionnel 4.1 Système d'information 4.2 SID 4.3 OLAP et ROLAP 4.4 Architecture d’un SID 4.5 Historique des SID 5. Conclusion
2.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 2 ● Besoin Prise de décisions stratégiques et tactiques Réactivité ● Qui? les décideurs (non informaticiens, non statisticiens) ● Comment Répondre aux demandes d’analyse de données Dégager des informations qualitatives nouvelles Contexte 5 Quels tunisiens consomment beaucoup de poisson? Qui sont mes meilleurs clients? Pourquoi et comment le chiffre d’affaire a baissé? A combien s’élèvent mes ventes journalières? Entreprise ■ une organisation dotée d’une mission et d’un objectif métier. Elle doit gérer sa raison d’être et/ou sa pérennité au travers de différents objectifs (sécurité, développement, rentabilité). Par voie de conséquence, cette organisation humaine est dotée d’un centre de décision. Objectifs d’une entreprise ■ Améliorer ses performances ■ Faire face à la concurrence ■ Développer sa part de marché ■ Etre plus entreprenante Prendre des risques, remettre en cause certain choix, se recentrer sur des secteurs d’activité ou au contraire s’élargie sur des nouveaux. Besoins des entreprises 6 Décision : action mentale volontaire qui vise à modifier ou déformer un état de choses en vue d’atteindre un certain objectif. (Courbon, 1982) Objectifs (suite) ■ Meilleure connaissance de ses clients, de son environnement « profiler » ses clients pour mieux les satisfaire, voir même créer un nouveau besoin chez eux. ■ Anticiper des événements de plusieurs types : évolution du marché, fluctuation de consommation, etc. ■ Prendre des décisions stratégiques ayant une forte répercussion sur la santé financière de l’entreprise. Besoins des entreprises 7 peut-être le responsable de l’entreprise, d’une fonction ou d’un secteur. engage la pérennité ou la raison d’être de l’entreprise. doit s’entourer de différents moyens lui permettant une prise de décision la plus pertinente. Qui? ■ le décideur (non informaticien, non statisticien) : Besoins des entreprises 8 Besoins importants ■ Maîtriser ses données ■ Accéder à toutes les données de l’entreprise ■ Regrouper les informations disséminées ■ Exploiter ses données ■ Analyser rapidement les données pour prendre les bonnes décisions Problèmes ■ Masse importante de données collectées ■ Nombreux systèmes d’information, souvent hétérogènes ■ Information surabondante, non organisée, éparpillée ■ Difficulté d’accéder à l’information ■ L’information brute n’a aucun sens ou une valeur ajoutée limitée. ■ Codification différente selon les services.
3.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 3 Besoins des entreprises 9 Solutions : ■ Sélectionner et transformer les données en informations fiables, homogènes, utiles et accessibles par un traitement rapide, efficace et productif. ■ La BI recouvre l’ensemble des technologies permettant de gérer et d’exploiter les informations disponibles, en particulier le DW qui permet de stocker ces informations stratégiques. Années 70 : début de l’informatique de gestion : ■ Entrée de l'informatique de gestion dans les grandes entreprises. Années 80 : informatique opérationnelle centralisée : ■ Arrivée dans beaucoup d’entreprises des BDR, des progiciels de gestion, des premiers micro-ordinateurs. ■ Informatisation d’applications traitant des données directement liées à l'activité quotidienne des organisations : paie, comptabilité, commandes, facturation (informatique de production ou opérationnelle). ■ Architecture maître-esclave : maître = puissant ordinateur en site central et esclaves = terminaux passifs en mode texte. Evolution de l’informatique dans l’entreprise 10 Années 90 : informatique opérationnelle décentralisée : ■ Apparition des ordinateurs personnels et des réseaux locaux. ■ Développement d’application bureautiques : traitement de textes, tableurs, petites BD, … ■ Architecture client-serveur permet de décloisonner la bureautique et l’informatique opérationnelle et s’impose conduisant à une nouvelle informatique orientée vers les utilisateurs et les centres de décision des entreprises. Années 2000 : Développement de l’Informatique Décisionnelle (ID) : ■ Développement de Systèmes d'Information Décisionnels (orientés décision). ■ Architecture client-serveur multi-niveaux (multi-tiers). ■ Entrepôt de données (Data Warehouse) : restructurer et exploiter des quantités très grande de données historisées selon différentes dimensions. ■ Fouille de données (Data Mining) : extraction de connaissances à partir de données, en général stockées dans ces entrepôts. Evolution de l’informatique dans l’entreprise 11 ■ Disposer de l’information pertinente était réservée aux managers. ■ L’information était centralisée. ■ Les décideurs n’avaient pas la maîtrise de l’ensemble des informations de l’entreprise. Avant les SID ■ Dans tous les secteurs économiques, dans toutes les entreprises, l’information est devenue “le nerf de la guerre”. ■ L’information est omniprésente; la difficulté n’est plus de la recueillir, mais de la rendre disponible sous la bonne forme, au bon moment et à la bonne personne, qui saura l’exploiter et en tirer de la valeur ajoutée. ■ L’information devient un capital en temps. ■ L’information est une source de valeur pour l’entreprise. Maintenant L’information et la prise de décision
4.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 4 Les principaux aspects du décisionnel 13 ■ Stratégie: appropriation et partage d'objectifs. ■ Organisation: institutionnalisation du dialogue de gestion, positionnement du contrôle de gestion. ■ Finances et comptabilité: mesure de coûts, outils d'analyse économique. ■ Ergonomie et contenu : choix d'indicateurs, mise au point de tableaux de bord. ■ Système d'information : données, outils, infrastructures, intégration dans le SI. ■ L’information est la matière première de la décision : le décideur se détermine sur la base des informations dont il dispose sur les éléments ayant un impact sur le problème à résoudre. ■ L’identification des informations dont la connaissance est nécessaire est une décision en soit. ■ Processus de décision : Selon H. Simon, le processus de prise de décision se fait selon un modèle dit : Intelligence - Design - Choice (IDC) La prise de décision Contrôle Choix Conception Renseignement Identifier et formuler le problème (constatation d’une différence entre la réalité et ce qui est souhaité) Imaginer des solutions alternatives possibles et en déterminer les conséquences potentielles Choisir une solution parmi les alternatives Vérifier que la solution est conforme aux attentes Modèle IDC ■ Décisions structurées : Une décision est dite structurée quand : Les informations nécessaires à son élaboration sont disponibles Les alternatives possibles sont énumérables Les mécanismes d’évaluation des solutions sont connus Exemples Gestion de stock, Planification de fabrication en raffinerie Les décisions structurées sont programmables. Types de décisions : structurées ou non structurées Les décisions sont de deux types : 1. Décisions structurées 2. Décisions faiblement ou non structurées ■ Décisions faiblement ou non structurées : Une décision est dite faiblement ou non structurée quand : Les informations nécessaires à son élaboration sont plus ou moins disponibles, sujette à interprétation ou suspectes. Les alternatives possibles sont non énumérables (explosion combinatoire). Les critères à satisfaire sont contradictoires. Exemples Décisions faiblement structurées : Ordonnancement de fabrication, préparation de budget, lancement d’un produit. Décisions non structurées : Gestion de projet, publicité, R&D En la simplifiant, une décision faiblement structurée peut devenir structurée et donc programmable. Types de décisions : structurées ou non structurées
5.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 5 ■ Les décisions structurées sont exécutables via des procédures automatisées. Elles constituent le Système d’Information Transactionnel (SIT). [voir plus loin] ■ Le système informatisé correspondant est composé d’applications de type OLTP (On Line Transaction Processing). ■ Les décisions peu ou pas structurées ne peuvent pas être totalement prises en se basant uniquement sur le SIT. Nécessité d’un autre système d’information au dessus du SIT susceptible d’apporter une aide à ces décisions. C’est le Système d’Information d’Aide à la Décision (SIAD). [voir plus loin] ■ Le SIAD a les caractéristiques suivantes : ● Utilise les données du SIT. ● Dispose en plus d’informations propres. ● Fournit un accès aisé aux informations pour les décideurs. ● Offre des possibilités de modélisation et de simulation. ● Laisse une place plus ou moins importante à l’informel. Types de décisions et SI L'Informatique décisionnelle Processus de décision humain: 18 Stimuliexternes Stimuli internes ● Je reconnais une personne quand je la vois parce que je l’ai déjà vue Je vois la personne Je compare cette vision avec ma mémoire qui a stocké l’image des personnes que je connais (image + nom) ● J’ai chaud S’il fait chaud dehors => c’est normal, je vais me mettre au frais S’il ne fait pas chaud => j’ai de la fièvre => je vais chez le médecin => une information isolée a peu de valeur. Elle n’a de sens que comparée à d’autres informations Contexte Mémoire L'Informatique décisionnelle Système d’aide à la décision: 19 ■ une information isolée a peu de valeur. On compare un chiffre à un objectif (référentiel) On suit l’évolution d’un indicateur dans le temps On fédère des données provenant de plusieurs systèmes pour obtenir une information à valeur ajoutée Systèmesopérants L'Informatique décisionnelle ■ Terme anglais : Business Intelligence (BI) ■ Définition 1: c’est la branche de l’informatique qui permet l'exploitation des données de l'entreprise dans le but de faciliter la prise de décision. C'est-à-dire, la compréhension du fonctionnement actuel et l'anticipation des actions pour un pilotage éclairé de l'entreprise. 20 ■ Définition 2: désigne les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données, matérielles ou immatérielles, d'une entreprise en vue d'offrir une aide à la décision et de permettre aux responsables de la stratégie d'entreprise d’avoir une vue d’ensemble de l’activité traitée. ■ Objectifs ■ Vision globale de l’activité ■ Aide à la décision ■ Basée sur un entrepôt de données pour stocker des données transverses provenant de plusieurs sources hétérogènes.
6.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 6 L'Informatique décisionnelle ■ Le flux informationnel lié au processus de la BI 21 Définir le problème Rassembler les données Analyser les données Etablir les solutions Décider Temps de prise de décision Champs d’application des systèmes décisionnels ■ Processus de prise de la BI L'Informatique décisionnelle 22 23 Aide à la décision : Quelques notions à préciser ■ Pilotage ■ Indicateur ■ Tableau de bord ■ Reporting 24 ■ Pilotage / décision Piloter : prendre des décisions pour réaliser des objectifs (qui sont censés découler d'une stratégie). Décision: acte ponctuel, le pilotage étant une démarche permanente. ■ Pilotage stratégique / opérationnel Deux différences : niveau et horizon temporel de la décision Stratégique : direction, horizon à moyen – long terme Par ex. création d'une nouvelle unité, recrutement de médecin, etc. Opérationnel : niveau du service, de l'unité 'médicale' Horizon plus court (peut être mensuel, peut être aussi quotidien) Décisions concrètes de fonctionnement : par ex. planning infirmières ■ Performance d’une organisation : se caractérise par sa capacité à atteindre les objectifs qu’elle s’est fixés, dans le cadre de sa stratégie" ■ Pilotage de la performance définir et quantifier le niveau de performance à atteindre, suivre et projeter l’atteinte de la cible, évaluer et analyser les résultats pour adapter sa stratégie. gestion d'unhôpital Pilotage
7.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 7 25 ■ Indicateur : Information qui doit aider un acteur à évaluer le cours d’une action vers l’atteinte d’un objectif ou son résultat. C’est un élément d’alerte, d’analyse, et de décision. ■ Indicateur : à un domaine d’utilisation : dépend de l’objectif et de l’utilisateur, suppose l’existence d’une question qu’il contribue à éclairer, n’a pas de sens sans éléments d’interprétation, doit pouvoir être comparé dans l’espace et le temps, Indicateur de pilotage : n’est pertinent que s’il peut susciter une action. ■ Il se caractérise par : un libellé, une définition un champ : période de référence, établissement ou service une formule ou procédure de calcul les référentiels qu’il emploie une documentation (guide de lecture) Indicateur 26 ■ Tableau de bord Outil destiné à un responsable pour lui permettre, grâce à des indicateurs, présentés de façon synthétique et en référence à des objectifs fixés, de contrôler le fonctionnement de son système, en analysant des écarts significatifs, afin de prévoir, décider, agir. Tableau de bord ■ Nécessité de tableaux de bord multi-niveaux Tableau de bord très synthétique pour la direction, puis possibilités d’approfondissements service, par activité, … 27 Modèle conducteur/automobile/ tableau de bord ■ Analogie avec la conduite d’un véhicule : un tableau de bord est constitué d’indicateurs et de témoins Lisibles, rassemblés sur une surface réduite, de signification claire Importance de la forme et de la notion de zone de validité Perturbations Tableau de bord Perception Mesure Action Objectif Contraintes Tableau de bord 28 ■ En résumé, un tableau de bord ne fournit pas de solution prête à l’emploi. Il utilise des sondes et des alertes. fournit des informations précises et vérifiées, nécessitant toutefois une analyse favorise le dialogue sur des bases communes pour maîtriser l’action collective décloisonne les services institue une culture de résultat Tableau de bord
8.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 8 29 désigne l’ensemble des informations (rapports et bilans analytiques) relatives aux réalisations d’une période préparé pour un niveau de responsabilité supérieur Reporting Reporting / Tableau de bord Tableau de bord Pendant l’action Reporting Après l’action (pour la hiérarchie) Outil de mesure de performances et de contrôle Contextes économique et informationnel de l’informatique décisionnelle Contexte économique : ■ Mondialisation de l'économie, ouverture de nouveaux marchés ■ Concurrence toujours plus accrue ■ Besoin d'obtenir des informations pour prises de décisions de plus en plus rapides Contexte informationnel : ■ Décentralisation des données vers les utilisateurs ■ Difficulté d'accès à l'information qui est en trop grande quantité ■ Un enjeu stratégique d’entreprise ■ Les informations, une source de revenu et de compétitivité Contexte informatique : ■ Puissance de calcul croissante ■ Capacité de stockage croissante ■ Bases de données de plus en plus importantes ■ SGBD de plus en plus performants (parallélisme, …) ■ Ouverture sur le Web, 30 31 FST© Med Ali Ben Hassine 2012 Système d’Information Décisionnel (SID)Système d’InformationSystème Système : 32 ■ est un tout constitué d'éléments en interaction dynamique, ces éléments sont organisés et coordonnés en vue d'atteindre un objectif, qui évolue dans un environnement. FST© Med Ali Ben Hassine 2012 ■ peut être considéré comme une « boîte noire » qui, soumise à des entrées imposées par l’environnement du système, les transforme en sorties satisfaisant des critères de performances que le système s’efforce à atteindre par un mécanisme de régulation. SYSTÈMEEntrées Sorties ObjectifsRégulation Système d’Information Décisionnel (SID)
9.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 9 • Information Système d’ Information Décisionnel (SID) 33 : une donnée qui a un sens, et ce sens vient d'un certain modèle d'interprétation. Information = Donnée + Modèle d'interprétation ■ Une même donnée peut avoir plusieurs sens selon le modèle d'interprétation qui lui est associé. ■ Exemple : la donnée `12101995' peut être aussi interprétée - par un anglo-saxon- comme la date du 10 décembre 1995 (et non pas 12 octobre 1995). ■ Donnée : une description élémentaire, souvent codée, d'une réalité (chose, transaction, événement, etc.). Elle peut revêtir plusieurs formes : expression, caractère, papier, numérique, images, sons, etc. 34 Les informations sont des données traitées ou transformées qui aident quelqu'un à prendre une décision ou à tirer des conclusions. SI : Données, Information et Connaissance Les données sont des faits qui n'ont pas encore été traités et dont on ne peut, à ce stade, tirer aucun renseignement. Données (entrées) Informations (sorties) Traitement ■ L’information se rapporte à un problème pour le sujet, donc à un contexte bien précis. C’est cette caractéristique qui permet de distinguer entre connaissance et information. ■ La connaissance est l’ensemble d’informations interprétées par l’individus en lui permettant de tirer des décisions. 35 ■ La comparaison entre les paiements effectués et le calendrier des versements nous renseigne sur la situation du prêt et sa chronologie - informations qui peuvent être utilisées pour prendre une décision concernant le suivi ou le provisionnement du prêt en question. Une institution peut être noyée sous les données, sans pour autant avoir beaucoup d'informations. Exemple ■ une simple opération de paiement ne nous dit pas si le paiement a été effectué en temps voulu et ne nous éclaire pas sur la situation du prêt. SI : Données vs Information SI : Type d’Information 36 ■ Niveau d'agrégation brutes élaborées ■ Flux Logistique Monétaire de personnel de l'actif ■ Utilisation Prise de décision planification stratégique gestion administrative régulation opérationnelle ■ Nature du support oral documentaire informatique ● L'information décisionnelle sort du système ● elle est instantanée ou historique ● elle est livrée à l'utilisateur à des fins de reporting, d'analyse, de prévision ● L'information opérationnelle est liée au fonctionnement immédiat de l'organisation ● elle évolue en temps réel ● elle est transactionnelle
10.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 10 SI : l'information utile 37 ■ L'information n'est pas bonne ou mauvaise, elle est simplement appropriée ou non. une information est « appropriée » quand elle est livrée à la bonne destination, au bon moment et sous une forme directement exploitable par le destinataire. Système d’Information Décisionnel (SID) 38 Définition 1: Le SI est un ensemble organisé de ressources (matériels, logiciels, personnels, données et procédures) qui permet de regrouper, de classifier, de traiter et de diffuser de l'information d’une organisation. Système d’Information Définition 2: Le SI est le système de couplage entre le système opérant et le système de pilotage. Systèmes d’information Système de pilotage Système opérant Flux d’informations en provenance de l’environnement Flux entrant des biens et services Flux d’informations à destination de l’environnement Flux sortant des biens et services À ne pas confondre avec système informatique : ensemble d'équipements destiné au traitement automatique de l'information. 39 C’est un système dans lequel s’effectuent les transformations physiques ou intellectuelles sur les flux qui traversent l’entreprise en vue de produire des sorties valorisées. Système OpérantFlux en Entrée : ■ Matières ■ Argent ■ équipements ■ ressources humaines ■ informations Sorties : ■ Produits ■ Services Système Opérant Système Opérant et BD pour la prise de décision ■ Les données des opérations de tous les jours : source importante d'informations richesse importante pour l'entreprise il faut les utiliser au mieux ■ Idée : exploiter au mieux cette masse d'informations (BD existantes, applications de production :OLTP ), rendre possible l'accès à toutes ces données accumulées dans le temps, analyser ces données pour produire de nouvelles informations permettant de : résumer et d'analyser l'importance de certains facteurs dégager des tendances générales 40
11.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 11 Système de Pilotage 41 « On ne peut améliorer que ce qu’on sait mesurer » les informations fournies par mon système comptable m’indiquent si je gagne ou si je perds globalement de l’argent, mais ne m’en explique pas les causes et ne me suggère aucun axe d’amélioration j’ai besoin d’outils m’aidant à formaliser mes projets stratégiques, à suivre leur avancement Système de pilotage = outils d'analyse + outils de suivi je connais mal la rentabilité réelle de mes actes, de mes patients, de mes filières de soins je ne dispose pas des informations synthétiques, pertinentes et fiables me permettant de prendre les bonnes décisions au bon moment je ne dispose pas des informations synthétiques, pertinentes et fiables me permettant de prendre les bonnes décisions au bon moment je souhaite placer mon personnel dans un contexte d’amélioration continue de la performance (objectifs individuels clairs, suivi de leur réalisation ...) Système de Pilotage 42 Système dans lequel les décisions sont prises concernant : ■ les objectifs assignés au système opérant. ■ l’affectation des ressources au système opérant. ■ le contrôle des résultats obtenus du SO. ■ la régulation. ■ l’évolution de l’organisation. Système de Pilotage Objectifs, affectation des ressources, régulation Résultats du système opérant Informations externes 43 Parallèlement au flux physique, il y a un flux de décisions L'information va permettre de prendre les bonnes décisions. 1. Niveau stratégique (planification) 2. Niveau de pilotage 3. Niveau opérationnel (régulation) Les différents niveaux d’un SI d’une organisation Opérant Flux physique Pilotage ContraintesContraintes Flux de décisions Stra- tegique Les différents niveaux d’un SI d’une organisation: 44 3. Niveau opérationnel (régulation) C’est le niveau hiérarchique le plus bas. Il agit sur les flux qui traversent l’organisation en se basant sur les directives du niveau supérieur. 2. Niveau de pilotage C’est le niveau hiérarchique moyen mettant en œuvre les objectifs élaborés par le niveau supérieur. Il détermine les moyens d’atteindre les objectifs globaux : ● en les décomposant en sous-objectifs, ● en allouant les ressources nécessaires, ● en mettant en place les moyens de contrôle et ● en prenant les initiatives correction en cas de besoin. 1. Niveau stratégique (planification) C’est le niveau le plus haut hiérarchiquement. Il consiste à : ● définir les objectifs de l’entreprise, ● définir les moyens et les scénarios pour parvenir aux objectifs, dans une vision à long terme. ● fournir au niveau inférieur un cadre d’objectifs à atteindre et une orientation pour les mettre en œuvre. Opérant Flux physique Pilotage ContraintesContraintes Flux de décisions Stra- tegique
12.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 12 Système Opérant, Système de Pilotage et SI 45 commandes données Modèle systémique des organisations SI SP Système de Pilotage Infos externes Infos vers extérieur SOSystème Opérant Flux entrant Flux sortant SI décisionnel (SID) analyse + prise de décisions SI opérationnel (SIO) activités courantes Zone de décisions Système Opérant, Système de Pilotage et SI 46 Système d’Informations Opérant Système d’information opérationnel (SIO) Stra- tegique Pilotage analyse + prise de décisions commandes données Zone de décisions Système d’information décisionnel (SID) activités courantes Modèle systémique des organisations 47 Systèmes d’aide stratégique Prévision des ventes à moyen terme Plan à 5 ans Prévision budgétaires à moyen et long terme Planification de la force de travail Systèmes d’aide à la décision Gestion des ventes Analyse des ventes Contrôle d’inventaire Echéancier de production Budget annuel Analyse des investissements Analyse prix/profit Analyse des localisations Analyse des coûts Systèmes transactionnels Suivi des commandes Traitements des commandes Contrôle des machines Ordonnancement des usines Contrôle des flux de matériels Paie Gestion des comptes débiteurs Gestion des comptes créditeurs Audit Reporting fiscal Gestion de la trésorerie Compensation Formation Gestion des carrières Vente Production Comptabilité Finance Personnel Exemple de SI 48 Système d’Information Décisionnel (SID) Définition 1 : Un SID est un système capable d'agréger les données internes ou externes et de les transformer en informations servant à une prise de décision. Définition 2 : Un SID est un ensemble de technologies destinées à permettre aux collaborateurs d’accéder et comprendre les données de pilotage plus rapidement, de telle sorte qu’ils prennent des décisions meilleures et plus rapides pour atteindre les objectifs de son organisation. Connaissances Informations Données
13.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 13 49 SID Les SID, dans leur version la plus complète, permettent de répondre aux questions suivantes : ■ Que s’est-il passé ? ■ Pourquoi cela s’est-il passé ? ■ Que va-t-il se passer ? ■ Que vient-il se passer ? Différentes questions : ■ Quel est le volume des ventes par produit et par région durant le troisième trimestre de 2011 ? ■ Quels sont les produits dont le volume des ventes baisse constamment durant les 6 derniers mois de l'année ? ■ Est ce qu'une baisse de prix de 10% par rapport à la concurrence ferait redémarrer les ventes du produit p ? 50 ■ Les décideurs doivent : ● prendre rapidement des décisions ● prendre de "bonnes décisions" ● faire des prévisions pour orienter les choix de l'entreprise SID ■ Un SID bien conçu doit donc : ● Fournir un accès à des données fiables. ● Présenter l’information de manière cohérente. ● Être acceptable et accepté par tous les utilisateurs. ● Faciliter la prise de décision. Connaître la signification d’une information c’est bien, savoir quoi en faire c’est mieux. ● Aider à la diffusion de l’information et à la mise en œuvre des actions. 51 Comment faciliter la prise de décision ? ■ utiliser les données produites par l'entreprise dans la gestion quotidienne ■ produire régulièrement des données nécessaires au processus de décision (résumés, synthèses, etc.) ■ disposer d'outils d'analyse de données SID La valeur ajoutée du décisionnel réside dans : ■ l’apport fonctionnel ■ la performance ■ la capacité à traiter de grands volumes de données ■ la capacité à évoluer ■ l’accessibilité 52 SID : Applications typiques ■ Banque et assurance ● Détermination de profils de clients (risques de prêt, nouveaux services) ● Suivi des clients, gestion de portefeuilles ● Mailing ciblés pour le marketing … ■ Econométrie ● Prévisions de trafics routiers ● Prévisions de mouvements boursiers … ■ Santé ● Etudes épidémiologiques ● Recherche de nouveaux médicaments … ■ Grande distribution ● Ciblage de clientèle, habitudes d’achat, secteurs géographiques … ● Opportunités de promotions, produits à succès, modes … ● Agencements de magasins (sur la base de corrélations entre produits).
14.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 14 Architecture d’un SID 53 Trois couches : alimentation, stockage, restitution ■ ETL (Extract Transform Load) ● Récupère des données hétérogènes, les transforme et les charge. ■ Entrepôt de données ● Stockage intelligent de l’information, associé à des outils de «navigation» dans les données. ■ Outils de restitution ● Rapports prédéfinis, outils de requêtage, reporting de masse, tableaux de bord dynamiques, … ■ Un «portail» pour fédérer l’ensemble ● Point d’entrée unique pour l’ensemble des applications. ● Gestion des droits d’accès en fonction du profil de l’utilisateur. 54 Architecture d’un SID 55 Fonctions d’un SID ● Collecte des données brutes dans leurs environnements d'origine, ce qui implique des activités plus ou moins élaborées de détection et de filtrage; ● Intégration des données, c-à-d leur regroupement en un ensemble technique, logique et sémantique homogène approprié aux besoins de l'organisation ; ● Diffusion, ou distribution d'informations élaborées à partir des données dans des contextes appropriés aux besoins des utilisateurs ; ● Administration, qui gère le dictionnaire de données et le processus d'alimentation de bout en bout, (le SID doit lui-même être piloté). ● Présentation se charge de présenter les informations à valeur ajoutée de telle sorte qu'elles apparaissent de la façon la plus lisible possible dans le cadre de l’aide à la décision Historique de l’informatique décisionnelle 56 L’usage de l’informatique pour supporter des décisions n’est pas nouveau : Années 70-80 : débuts de l’Informatique Décisionnelle : ● Développement d'outils d'édition de rapports, de statistiques, exploitant les BD du Système d’information Opérationnel. ● Développement de petits systèmes d’aide à la décision à base de tableurs (simulation budgétaire, …). ● Développement de systèmes experts (IA) systèmes à base de règles, conçus par extraction de la connaissance d'un ou plusieurs experts : ■ bons résultats obtenus pour certains domaines d'application tels que la médecine, la géologie, la finance, ... ■ mais formalisation sous forme de règles de la prise de décision est difficile voire impossible dans de nombreux domaines. ● Développement de SIAD (DSS Decision Support Systems) : basés sur des techniques de Recherche Opérationnelle (RO), la simulation, l’optimisation, … Systèmes en général mal intégrés au système d'information opérationnel, et devant être développés par des informaticiens.
15.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 15 Historique de l’informatique décisionnelle 57 Années 90-2000 : essor de l’informatique décisionnelle : ■ technologie informatique permettant le développement d’environnements spécialisés pour l'aide à la décision notamment des entrepôts de données. ■ de nombreux algorithmes, souvent issus des statistiques et de l’IA, permettant d'extraire des informations à partir de données brutes sont arrivés à maturité. ■ ces algorithmes sont regroupés dans des logiciels de fouille de données et permettent la recherche d'informations nouvelles ou cachées à partir de données. ■ de plus en plus ces données sont issues du Web, aussi la recherche d’information et la fouille de données sur le Web (ou "Web Mining") sont de plus en plus d’actualité. Infocentre 58 ■ Concept apparu au début des années 80. ■ Réponse à la difficulté des services informatiques de satisfaire les besoins variés, nombreux et imprévisibles des décideurs. ■ L'infocentre peut être vu comme une interface entre un utilisateur (non informaticien) et une BD de production ou privée (agrégation de données). Cette interface permet à l'utilisateur d'accéder aux données facilement et sans recourir à un langage. Différence entre Infocentre et DataWarehouse 59 ■ L’infocentre est une collection de données orientées sujet, intégrées, volatiles, actuelles, organisées pour le support d’un processus de décision ponctuel. ■ Le DW est une collection de données orientées sujet, intégrées, non volatiles, historisées, organisées pour le support d’un processus d’aide à la décision. ■ L’infocentre une solution décisionnelle qui consiste en une mise à disposition simple des données de production. ■ Le DW complète l'infocentre par une 'Préparation' intelligente des données mises à disposition : ● Mise en conformité et uniformisation des codes utilisés ● Choix des données à présenter : Mesures et Axes d'analyse, ainsi que du degré d'historisation nécessaire ● Nettoyage des données présentés avant chargement ● Pré-agrégations répondant à des problématiques de performance, choix du degré de finesse des mesures présentées. Executive Information System (EIS) 60 ■ Un EIS (ou encore système d'information pour dirigeants) est un système destiné aux dirigeants qui ont besoin d'un outil d'aide à la décision mais qui ne disposent pas de temps pour l'apprentissage. ■ Il s'agit en quelque sorte du « tableau de bord » informatisé des cadres supérieurs, qui sert à la planification stratégique et à partir duquel on peut produire des rapports, des graphiques, etc., faciles à consulter rapidement. ■ Un EIS permet de générer à partir d'une ou plusieurs bases de production un ensemble d'informations agrégées (indicateurs) et de les présenter sous forme de tableau de bord aux utilisateurs. ■ À la différence d’un SAD, l’EIS ne permet pas à l’utilisateur final de poser une question qui n’aurait pas été prévue initialement.
16.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 16 61 SIO / SID OLTP / OLAP BDR / BDMD Systèmes d’informations Système de pilotage Système d’information opérationnel (SIO) Système opérant Entrepôt de données BPBPBP OLAP OLTP Système d’information décisionnel (SID) ETL Base de production 62 SID et SIO Opérationnel et Décisionnel sont deux technologies complémentaires et indissociables, et il est vain de vouloir faire sans l’une ou l’autre. 63 SID / SIO ■ système de production ■ Informatique opérationnelle ■ représente aujourd'hui la majeure partie du SI ■ focalisé sur le fonctionnement courant (gestion des patients par exemple) ■ procédures répétitives ■ transactions ■ données élémentaires ■ Utilisation des bases de données relationnelles normalisées SIO Limites du SIO ■ données détaillées surabondantes et peu lisibles, absence de synthèses ■ mauvaise qualité informationnelle ■ compartimentage, absence de sémantique commune, incohérences ■ manque de recul historique contenu très riche, faible valeur informationnelle 64 SID / SIO ■ Informatique décisionnelle ■ destiné uniquement à produire de l'information et non à automatiser des opérations ■ découplé du SIO mais alimenté par le SIO ■ transforme les données pour améliorer leur valeur informationnelle ■ potentiellement concerné par tous les types de données ■ Modélisation dimensionnelle ■ Entrepôts de données, magasin de données SID Limites du SID ■ distinction SIO/SID artificielle ■ aller-retour SIO-SID malcommodé ■ besoins flous et changeants ■ prédominance des données internes ■ manque de données instantanées ■ périmètre limité aux structures de données les plus simples ■ Dénormalisation des bases de données
17.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 17 OLTP / OLAP 65 Les applications informatiques peuvent être classées en deux catégories : ■ Applications OLTP (On-Line Transactional Processing) ■ Applications OLAP (On-Line Analytical Processing) OLTP / OLAP Applications OLTP : ■ L'intégrité et la sécurité des données sont privilégiées. ■ Requêtes simples ■ Utilisées par des services de production : commerciaux, administratifs, production, etc.. ■ Nécessitent la connaissance des structures des données. ■ Utilisent des bases de données de production (relationnelles) ■ Manipulent des données homogènes. ■ Nombre d'utilisateurs simultanés important. ■ Applications critiques. Exemples d'applications : ■ Gestion bancaire ■ Systèmes de réservation ■ Gestion commerciale, personnel, production, etc. 66 Exemple de requête : ■ Le 15/01/2002 à 13h12, le client X a retiré 500DT du compte Y OLTP / OLAP 67 Exemple de requête : ■ Quel est le volume des ventes par produit et par région durant le troisième trimestre de 2002? Applications OLAP : ■ Catégorie de traitements dédiés à l’ide à la décision dont des requêtes interactives complexes sur des gros volumes de données. ■ L'analyse et la manipulation des données sont privilégiées. ■ Requêtes complexes ■ Applications d'aide à l'élaboration de stratégies ■ Utilisées par les DG, les services marketing, financiers, contrôleurs de gestion, etc.. ■ Ne nécessitent pas la connaissance des structures des données. ■ Utilisent des entrepôts de données (modèle multidimensionnel) ■ Manipulent des données hétérogènes. ■ Nombre d'utilisateurs simultanés faible. Exemples d'applications : ■ Analyse des tendances ■ Analyse des comportements 68 BD relationnelles / BD multidimensionnelles Pays France Espagne Allemagnepommes poires oranges janvier février avril Temps Produits Vente de pommes en Allemagne en avril Achat PK id_achat FK id_client id_produit Quantité client PK id_client Nom adresse Produit PK id_produit Libellé Famille Les données nécessaires pour effectuer des analyses et en déduire des orientations stratégiques peuvent être stockées dans des structures : ■ relationnelles ou ■ multidimensionnelles.
18.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 18 69 BD relationnelles / BD multidimensionnelles Bases de données relationnelles ■ Structure tabulaire. ■ Croisement des données à l'aide des jointures. ■ Pas de redondance (doublons, agrégation). ■ Les résultats de requêtes sont sous forme de listes. ■ Opérations : Sélectionner, ajouter, mettre à jour et supprimer des tuples. Structures peu adaptées aux applications de type OLAP. ■ Les données sont organisées selon des axes. ■ Hypercube comprend autant de dimensions que d'axes d'analyse. ■ Possibilité de redondance des données. ■ Les requêtes peuvent exploiter toutes les combinaisons d'axes. ■ Temps d'accès stable. ■ Moins de risque d'erreurs dans la formulation des requêtes. ■ Langage MDX = Multidimensional Expressions (de Microsoft "OLE DB for OLAP") Structures bien adaptées aux applications de type OLAP. Bases de données multidimensionnelles Différences entre OLTP et OLAP OLTP OLAP Conception orientée application (Application de production, Facturation ) structure statique (E/R) orientée sujet (Client, Produit, Vendeur) structure évolutive (en étoile, flocon) Données détaillées, non agrégées récentes, mise à jour accessibles de façon individuelle normalisées Résumées, recalculées, agrégées. Historiques accessibles de façon ensembliste dénormalisées Vue relationnelle multidimensionnelle Requêtes / Utilisation simples, nombreuses, régulières, prévisibles, répétitives sensibles aux performances (réponses immédiates) accès à beaucoup de données complexes, peu nombreuses, irrégulières, non prévisibles non sensibles aux performances (réponses moins rapides) accès à beaucoup d'information Utilisateurs agents opérationnels nombreux (des milliers) concurrents managers / analystes peu (dizaines voir centaines) non concurrents Accès lectures, insertions, m‐à‐j, suppressions lectures, insertions, mises à jour, Taille 100MB à qcqs Go 100GB à qcqs To 70 Charge du serveur de données opérationnel décisionnel opér. + décis. taux d’occupation temps Source: H.E.C. Liège - U.E.R. Systèmes d'Information (F. Fontaine) 71 Besoins décisionnels Data Warehousedonnées opérationnelles contrôle d’info. détaillées et récentes, rapports standardisés « interrogation et rapports » fichiers du logiciel DM BUSINESS INTELLIGENCEBUSINESS INTELLIGENCE analyse ad-hoc, info. globalisées, prise de décisions « OLAP - EIS» découverte de connaissance « Data Mining » En synthèse 72
19.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 19 Chapitre 2 Entrepôt de données 73 Plan 1. Introduction 2. Objectifs 3. Définition 4. Architecture 5. Processus ETL 6. Implementation FST© Med Ali Ben Hassine 2012 ■ La réponse tient en un mot : Entrepôt de données (data warehouse) ! ■ Il ne faut pas être inquiet,... nous sommes tous fichés dans ces immenses entrepôts de données : toutes actions liées à l’activité d’une entreprise sont stockées dans un Data Warehouse (DW) pour en être analysées, via des outils de datamining afin de nous étudier. Ceci dans un but bien précis : celui de nous connaître afin de mieux identifier nos besoins Introduction c’est par pur « feeling » du responsable ou bien par une stratégie de marketing bien plus élaborée? Par quel moyen, la publicité nominative (postal ou par mail) est bien souvent en relation directe avec nos habitudes de consommations ? Comment choisir l’emplacement des produits dans une grande surface ? 74 Introduction - Problématique Une grande masse de données : – Distribuée – Hétérogène – Très détaillée À traiter : – Synthétiser / Résumer – Visualiser – Analyser Pour une utilisation par : – Des experts et des analystes d'un métier – NON informaticiens – NON statisticiens 75 Introduction – Problématique Comment répondre aux besoins de décideurs afin d’améliorer les performances décisionnelles de l’entreprise? ■ En donnant un accès rapide et simple à l’information stratégique. ■ En donnant du sens aux données. ■ En donnant une vision transversale des données de l’entreprise (intégration de différentes bases de données). ■ En extrayant, groupant, organisant, corrélant et transformant (résumé, agrégation) les données. 76
20.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 20 Introduction – Solution ● Mettre en place un SI dédié aux applications décisionnelles : un entrepôt de données (datawarehouse). ● Transformer des données de production en informations stratégiques. 77 Le DW est un système d’information dédié aux applications décisionnelles situé en : ■ Aval des bases de production (bases opérationnelles) ■ Amont des prises de décision basées sur des indicateurs (Key Business Indicators (KBI)) 78 Entrepôt de Données Entrepôt de Données (Définition) Bill Inmon (1996) 79 Principe ■ base de données utilisée à des fins d’analyse. ■ récolte, stocke et gère efficacement des gros volumes données pour la prise de décision. ■ assure un regroupement homogène et exploitable de données hétérogènes, très nombreuses et distribuées. " Un Entrepôt de Données est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour la prise de décision ". Caractéristiques : orientées sujet ● orientées sujet («métiers») : Les données des entrepôts sont organisées par sujet plutôt que par application. Par exemple, une chaîne de magasins d’alimentation organise les données de son entrepôt par rapport aux ventes qui ont été réalisées par produit et par magasin, au cours d’un certain temps. Production Employé Facturation Données Production Données Employé Données Facturation 80
21.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 21 Caractéristiques : Données intégrées ● intégrées : Les données provenant des différentes sources doivent être intégrées, avant leur stockage dans l’entrepôt de données. L’intégration (mise en correspondance des formats, par exemple), permet d’avoir une cohérence de l’information. Production Employés Facturation Données Client 81 Caractéristiques : Données non volatiles ● non volatiles : à la différence des données opérationnelles, celles de l’entrepôt sont permanentes et ne peuvent pas être modifiées. Le rafraîchissement de l’entrepôt, consiste à ajouter de nouvelles données, sans modifier ou perdre celles qui existent. 82 Ajout Modification Suppression Accès Chargement Bases de production Entrepôts de données Caractéristiques : Données et historisées ● historisées : La prise en compte de l’évolution des données est essentielle pour la prise de décision qui, par exemple, utilise des techniques de prédiction en s’appuyant sur les évolutions passées pour prévoir les évolutions futures. Ventes Données client 83 Pourquoi ne pas utiliser une BD? BD et DW : ■ ont des objectifs différents et font des traitements différents ■ stockent des données différentes ■ font l'objet de requêtes différentes BD et DW ont besoin d'une organisation différente des données BD et DW doivent être physiquement séparés. 84
22.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 22 Processus de l’entreprise : Un exemple 85 Les clients Les fournisseurs L’entreprise Les salariés Gestion de la relation client, optimisation des ventes Gestion de la relation client, optimisation des ventes Optimisation des achats Gestion des RHprocessus opérationnels Optimisation des processus opérationnels Les actionnaires Enterprise Management Finances, Strategic Enterprise Management Exemple 1/3 Consolidation financière Analyse des coûts et de la profitabilité Gestion des risques Budget, planning, simulation, prévision Gestion de la relation actionnaires Management de la valeur ■ Gestion du temps de travail ■ Formation, recrutement ■ Fidélisation des salaries ■ Salaires et rémunération ■ Profitabilité client ■ Satisfaction client ■ Analyse comportementale, ciblage ■ Opportunités de ventes croisées ■ Efficacité de forces de ventes, canaux de distribution ■ Efficacité des opérations commerciales (promotion, publicité, etc.) ■ Performance du fournisseur ■ Optimisation des délais ■ Coûts et qualité du service (interne et prestataires) ■ Performance de la production et de la logistique (Coûts, Qualité, Délai) ■ Analyse des affectations, coût du temps travaille Objectifs, enjeux ■ Retour sur investissement (RSI, en anglais Return Of Investment 'ROI') ■ Réduction des coûts et contrôle des limites ■ Avoir une vision de l’entreprise qui aide à sa gestion, à son pilotage. ■ Répondre à des questions auxquelles les progiciels orientés métier ne peuvent faire face. ■ Les ERP ont apporté des solutions pour gérer les données de l’entreprise selon un modèle unifié et cohérent, la Business Intelligence les rentabilise. 86 Exemple 2/3 ■ Quel a été l’impact de la dernière promotion sur cette gamme d’articles? ■ Quel a été le secteur d’activité le plus rentable dans cette région? ■ Quelle est la période où l’absentéisme est le plus fort ? Quelle est la catégorie de personnel la plus touchée et quel est l’impact sur la production? ■ … Autant de questions auxquelles il est difficile de répondre, voire impossible si elles mettent en jeu des données de plusieurs compartiments de l’entreprise. ■ Exemple de problème rencontré lors du passage d’une logique de compte à une logique de client : Le client apparaît en de multiples endroits ; dans : La base marketing La base commerciale Le système de facturation Le système après vente ■ Toutes ces données doivent être homogénéisées, organisées et intégrées au sein du Datawarehouse. Requêtes 87 Exemple 3/3 Entrepôt de Données : Objectifs Principaux objectifs : 1. regrouper, organiser des informations provenant de sources diverses, 2. les intégrer et les stocker pour donner à l’utilisateur une vue orientée métier, 3. retrouver et analyser l’information facilement et rapidement. En plus: 4. Transformer un SI qui avait une vocation de production en un SI décisionnel. Transformation des données de production en informations stratégiques. 5. Les informations d'un DW doivent être cohérentes. 6. Les données du DW doivent pouvoir être séparées et combinées au moyen de toutes les mesures possibles de l'activité. 7. Le DW ne comporte pas seulement des données mais aussi un ensemble d'outils de requêtes, d'analyse et de présentation d'information. 88
23.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 23 8. Gestion et visualisation des données doit être rapide et intuitive visualisation multidimensionnelle des données: 9. La qualité de l'information d'un DW est l'un des ressorts de la réorganisation des données (Business Reengineering). Entrepôt de Données : Objectifs (suite) Comment Fédérer/Regrouper l'ensemble des données de l'entreprise ? 89 Entrepôt de Données (Fonctions) La construction d’un entrepôt revient à faire correspondre les besoins des utilisateurs avec la réalité des informations disponibles. Trois fonctions essentielles : ■ collecte de données de différentes bases existantes ■ Stockage de données (historisées) ■ Mettre à disposition les données pour : Interrogation Visualisation Analyse 90 Architecture 91 Différence entre un DW et un datamart Un DW et un datamart se distinguent par le spectre qu'il recouvre : ● Le DW recouvre l'ensemble des données et problématiques d'analyse visées par l'entreprise. ● Le datamart recouvre une partie des données et problématiques liées à un métier ou un sujet d'analyse en particulier (finance, commercial, …) Mini DW lié à un métier particulier de l ’entreprise ● Un DW est souvent volumineux (plusieurs centaines de Go voire qcqs To ) avec des performances inappropriées (temps de réponse trop longs). ● Un Data mart comporte moins de 50 Go, ce qui permet des performances acceptables. ● La création d’un datamart peut être un moyen de débuter un projet de DW (projet pilote). 92 Datamarts du service Marketing Datamart du service Ressources HumainesDW de l’entreprise
24.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 24 Différence entre un DW et un datamart Pourquoi des datamarts ? Les datamarts sont destinés à pré-agréger des données disponibles de façon plus détaillée dans les DW, afin de traiter plus facilement certaines questions spécifiques, critiques, etc. 93 Exemple : Ticket de caisse Si un DW enregistre un ensemble de ventes d'articles avec un grain très fin, un datamart peut faciliter une analyse dite de ticket de caisse (co- occurrence de ventes de produits par exemple) en adoptant un grain plus grossier (le ticket plutôt que l'article). Catégories des données stockées ■ Données dans un DW : données du SIO + BD externes (ETL). ■ Quatre catégories de données : Les données de détail : issues des systèmes transactionnels de l’entreprise "socle de l’entreprise". Leur stockage permet d’offrir aux utilisateurs du SID les détails des chiffres affichés, par exemple, sur un tableau de bord. Les données agrégées : correspondent à des éléments d’analyse représentant les besoins des utilisateurs. Elles constituent déjà un résultat d’analyse et une synthèse de l’information contenue dans le système décisionnel, et doivent être facilement accessibles et compréhensibles.. Les méta données : décrivent les caractéristiques des données stockées : origine, date de dernière m-à-j, mode de calcul, procédure de transformation. Elles sont utiles aussi bien aux utilisateurs (comprendre les données) qu’aux administrateurs (fournir des moyens d’exploitation et de maintenance du DW). Les données historisées : Couches de données dans lesquelles chaque nouvelle insertion de données provenant du SIO ne détruit pas les anciennes valeurs, mais créée une nouvelle occurrence de la donnée. 94 Processus ETL 95 ■ L’ETL est une couche logicielle responsable de l’alimentation d’une BD à partir de sources de données. ■ Dans un SID, l’ETL sert à alimenter l’ED ou bien les magasins de données . ■ L’ETL fait partie des middlewares (intergiciels) Importance de l’ETL 96 ■ Constitue 70 à 80% du temps passé dans un projet décisionnel. ■ La qualité de l’ED dépend de la qualité de l’ETL : Temps de chargement Fréquence de chargement Qualité des données (QoD) Qualité des services (QoS)
25.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 25 Processus ETL Outils d’alimentation pour ■ Extraire ■ Transformer ■ Charger dans un DW 97 données sources ETL = Extracteur+Intégrateur Extract + Transform + Load Objectif ● Obtenir des informations consolidées et stables dans l’entrepôt. ● Tache difficile à mettre en œuvre ETL – Extraction ■ Objectif : Identifier et localiser les données sources pertinentes (BDR, fichiers, …) puis les collecter et les extraire des différents systèmes opérationnels. ■ Fonctionnalités : Traiter différents formats (XML, HTML, TXT, CSV, DB2, Oracle…). Gérer les connexions aux sources (ODBC, JDBC...). Extraire le dictionnaire des sources (propriété des colonnes, clés…). Extraire les données de manière performante et sans perturber les environnements de production. Détecter les données qui ont été modifiées dans les sources. Ajouter des contrôles (fichier de rejets, audits…). Stocker l’ensemble des règles d’extraction dans le référentiel. 98 ETL – Extraction 99 Extraction logique Traite la quantité des données à extraire Extraction Extraction physique Traite l’aspect technique de l’opération de l’extraction ■ totale : extraire toutes les données dans un seul coup ■ incrémentale(partielle) : à chaque fois, extraire une partie des données ■ directe (Charger les données directement au DW) ■ indirecte (passer par staging area) 100 Deux principales possibilités ■ Extraction des changements: ■ Que les parties des données ayant été modifiées depuis la dernière procédure d’extraction sont transmises au système DW. ■ Modifications peuvent être des insertions de tuples (insert), des effacements de tuples (delete). Des modifications de tuples existants (update) sont typiquement implémentés par une suite insert+delete. ■ Copie intégrale des données source (snapshot) ■ S’utilise lorsque le nombre de changements individuels est trop important ou si l’extraction des changements n’est pas possible due à des raisons techniques. ■ Conflit d’intérêt: Extraction de données cohérentes vs. restriction du fonctionnement opératif causé par l’accès exclusif des données, nécessaire durant l’extraction. ETL – Extraction
26.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 26 ETL –Transformation Problématique ■ Existence de plusieurs sources ■ non conformité des représentations ■ découpages géographiques différents ■ 5 à 30 % des données des BD commerciales sont erronées ■ une centaine de type d’inconsistances ont été répertoriées données erronées analyse erronée ! DW BP BP BP ■ Transformation : Étape importante garantissant que les données intégrées dans le DW seront cohérentes et fiables. 101 ■ Objectif Transformer les données sources selon les unités de mesure et les formats de l’ED. Homogénéiser les données sources. Nettoyer les données. Suppression des incohérences sémantiques. Dater les données. Créer des clés. 102 Suppression des incohérences sémantiques entre les sources pouvant survenir lors de l’intégration : ■ des schémas : problème de modélisation : différents modèles de données sont utilisés problèmes de terminologie : un objet est désigné par 2 noms différents, un même nom désigne 2 objets différents incompatibilités de contraintes : 2 concepts équivalents ont des contraintes incompatibles conflit sémantique : choix de différents niveaux d’abstraction pour un même concept conflits de structures : choix de différentes propriétés pour un même concept conflits de représentation : 2 représentations différentes choisies pour les mêmes propriétés d’un même objet ■ des données : Equivalence de champs Equivalence d’enregistrements : fusion d’enregistrements ETL –Transformation 103 Objectif : Résoudre le problème de consistance des données au sein de chaque source. ETL – Transformation ■ présence de données fausses dès leur saisie faute de frappe différent format dans une même colonne (jj/mm/aa, mm/jj/aa, jj-mois jj/mm/aaaa) texte masquant de l’information (e.g., “N/A”) valeurs nulles et valeurs incohérentes 9999, xxxx, non renseignée, inc, inconnue Traiter les valeurs manquantes et les valeurs incohérentes (ignorer, remplacer, saisir manuellement ces valeurs manquantes) incompatibilité entre la valeur et la description de la colonne duplication d’information (Référence des produits, des clients dans différentes sources) Types d’inconsistances Nettoyage 104 ■ persistance de données obsolètes ■ confrontation de données sémantiquement équivalentes mais syntaxiquement différentes (Problèmes de codage et de nommage) Employé, Personnes, Salariés, Personnel Employés Boulvd, Bd, Boulevard Boulevard Types d’inconsistances (suite) un outil de nettoyage comprend ■ des fonctions d’analyse ■ des fonctions de normalisation ■ des fonctions de conversion ■ des dictionnaires de synonymes ou d’abréviations ETL – Transformation Nettoyage
27.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 27 105 Définition de table de règles remplacer valeur par Mr M monsieur M mnsieur M masculin M M M Msieur M M. M Monseur M normalisation, conversion, dictionnaires, ... Exemple de conversions : utilisation d’expression régulière, suppression de doublons, de valeur nulle, ... ETL – Transformation Nettoyage 106 ■ 5 étapes de nettoyage de données: 1. Décomposition des données source en éléments (elementizing) Par exemple adresse rue, numéro, code postal, ville 2. Adaptation des éléments à un format standard (standardizing) : par exemple, adoption d’un même format pour les dates (jj/mm/aaaa), "1ST AVE" "First Avenue" 3. Vérification de la plausibilité de données (vérification) : par exemple le conflit entre code postal = «91400» et ville = «Paris» est identifié et résolu 4. Alignement des données (matching) : par exemple vérification de l’existence d’un produit (tuple provenant d’une source) dans la BD intégrée. Si un produit y existe déjà, sa représentation intégrée est adaptée. 5. Formation de groupes (householding) Vérification de l’appartenance de nouveau tuples à un groupe de tuples de la BD intégrée intéressant au niveau application (bénéfique lors des analyses). Par exemple, formation / élargissement du groupe «type de consommateur». ETL – Transformation Nettoyage ETL – Chargement Données nettoyées et transformées ■ Fonctionnalités : Traiter les messages reçus du système de transformation des données. Insérer de nouvelles données et archivage de données anciennes. Ordre de chargement : 1. Tables de Dimensions 2. Tables de Faits Mettre à jour périodiquement les tables de faits (selon le grain). Gérer les gros volumes de données (index, partitionnement, parallélisation, chargement en blocs…). Ajouter des contrôles (fichier de rejets, audits…). Stocker l’ensemble des règles de chargement dans le référentiel ■ Objectif : Charger les données transformées dans l’entrepôt. 107 ETL – Chargement Techniques ■ Basées SQL Interface standard: embedded SQL, JDBC, ... Opération / extension propriétaire: Array Insert Considération et activation de toutes les méthodes BD: déclencheurs, actualisation d’indexes, concurrence, ... ■ Chargement de masse (bulk load): Extension spécifique d’un système BD dédiée au chargement de larges volumes de données. ■ Utilisation d’interfaces d’application: nécessaire chez certains vendeurs (SAP) 108
28.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 28 Cycle de vie de l’ETL ■ La mise en place de l’ETL passe par les étapes suivantes : 1. Conception de l’ETL : Identification des sources de données Correspondance des données Définition des transformations Structure de la zone d’attente 2. 1er chargement : Chargement de toutes les données sources 3. Rafraichissement de l’ED : Chargement périodique des données ■ Mise à jour de l’ETL lorsque les structures sources ou cibles changent 109 Fréquence de l’ETL ■ Dépend de : la granularité de la dimension Temps la disponibilité des données sources la fréquence d’utilisation de l’ED ■ Dans certains cas, pour gagner du temps, on peut avoir une fréquence de chargement inférieure à celle de la granularité de la dimension temps. ■ Exemple : Granularité Temps = mois Fréquence de chargement = jour 110 La méthode pull et la méthode push ■ Techniques de détection des mises à jour effectuées sur la BD opérationnelle et son envoi à l ’entrepôt pour sa mise à niveau ultérieure. avec la méthode pull, c’est le SID qui recherche périodiquement les données dans les BD opérationnelles. Cette méthode alimente le SID en temps différé, cependant la quantité volumineuse de données à chaque transfert peut être coûteuse en temps. avec la méthode push, c’est le SIO qui au fil de l’eau de ses transactions alimente le SID. Cette méthode alimente le SID en temps direct ce qui oblige à revoir le code des applications opérationnelles. 111 Outils ETL ■ Sans outils : Commandes SQL et utilitaires du SGBD source et cible Programmation (PL/SQL) ■ Outils propriétaires : Oracle Warehouse Builder IBM DB2 Warehouse Manager Microsoft Integration Services … ■ Open source : Talend Open studio Pentaho Data Integration … ■ Comparatif des outils ETL open source http://alma.univ-nantes.fr/promotions/2007-08/stages/08-obs-francheteau.pdf http://www.atolcd.com/fileadmin/Publications/Atol_CD_Livre_Blanc_ETL_Open_Source.pdf 112
29.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 29 Modélisation d'un DW • Les BD relationnelles ne sont pas adaptées à l'OLAP car : Pas les mêmes objectifs Pas les mêmes données: Les données nécessaires à l'OLAP sont multidimensionnelles (i.e. ventes par vendeur, par date, par ville, …). Les tables en représentent une vue aplatie. Pas les mêmes traitements et requêtes: Non seulement perte de performances mais aussi nécessité pour les utilisateurs de savoir comment trouver les liens entre les tables pour recréer la vue multidimensionnelle. • Il est donc nécessaire de disposer d'une structure de stockage adaptée à l'OLAP, i.e. permettant de : représenter les données dans plusieurs dimensions, manipuler les données facilement et efficacement. Nécessité d'une structure multidimensionnelle (Chapitre 3) 113 Implémentation d'un data warehouse 3 possibilités: 1. Relational OLAP (ROLAP) 2. Multidimensional OLAP (MOLAP) 3. Hybrid OLAP (HOLAP) [Ces concepts seront détaillés dans le chapitre 5] 114 115 ROLAP Idée: ● Données stockées en relationnel. ● La conception du schéma est particulière: schéma en étoile, en flocon. ● Des vues (matérialisées) sont utilisées pour la représentation multidimensionnelle. ● Un moteur ROLAP permet de simuler le comportement d’un SGBD multidimensionnel (Traduction des requêtes OLAP (slice, rollup…) en SQL) ● Utilisation d'index spéciaux: bitmap. ● Administration (tuning) particulière de la base. Avantages/inconvénients ● Souplesse, évolution facile, moins cher à mettre en place stockage de gros volumes. ● Mais peu efficace pour les calculs complexes. 115 MOLAP Idée: ● Utilise un système multidimensionnel pour gérer les structures multidimensionnels ● Modélisation directe du cube. ● Ces cubes sont implémentés comme des matrices à plusieurs dimensions. ● CUBE [1:m, 1:n, 1:p…] (mesure) ● Le cube est indexé sur ses dimensions. Avantages/inconvénients ● rapide ● formats propriétaires ● ne supporte pas de très gros volumes de données 116
30.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 30 HOLAP Idée: ● MOLAP + ROLAP ● Données stockées dans des tables relationnelles ● Données agrégées stockées dans des cubes. ● Les requêtes vont chercher les données dans les tables et les cubes. ● Solution hybride entre MOLAP et ROLAP ● Bon compromis au niveau coût et performance 117 Administration d'un ED ■ L'ED est un aspect physique du SI de l'entreprise. Il doit être par conséquent évolutif. Les données doivent donc changer. On doit procéder à d'autres alimentations et donc gérer l'actualisation des données. ■ Il existe des outils qui prennent en charge les tâches de rafraîchissement des données. ■ Ils procèdent par réplication pour propager les m-à-j effectuées dans les BD sources, dans l'ED. ■ Le mécanisme de réplication et une opération de copie de données d'une BD vers une ou plusieurs BD. ■ Les réplications sont alors asymétriques synchrones ou asynchrones ou alors symétriques synchrones ou asynchrones. ■ Le rafraîchissement des données peut se faire également par des processus de transformation qui exploitent les méta-données. 118 Administration d'un ED ■ La fonction d'administration porte sur un aspect fonctionnel (qualité et la pérennité des données) mais aussi sur un aspect technique (maintenance, optimisation, sécurisation,...) ■ Elle concerne l'ensemble des tâches du processus d'entreposage de la sélection des données de production à la mise à disposition pour construire les espaces d'analyse. ■ L'administrateur de l'ED doit maîtriser la gestion des données (données, provenance des données, méta-données). ■ Les données agrégées sont aussi une production (information) de l'entreprise comme les données de production (ERP), doivent être entreposées. ■ Ainsi le développement de l'ED témoignera, aussi bien de la production de base que de l'activité informationnelle (pilotage de l'entreprise). ■ Les requêtes portent plus souvent sur les agrégats que sur les données de base (80% - 20%) 119 Rôles et responsabilités Kimball (2004) a définit 8 rôles dont les plus sont : 1. Gestionnaire ETL ■ Gérer quotidiennement l’équipe ETL. ■ Définir les standards et procédures de l’environnement de développement ETL (Règles de nomenclature, Meilleures pratiques…) ■ Superviser le développement, les tests et l’assurance qualité 2. Architecte ETL ■ Concevoir l’architecture et l’infrastructure de l’environnement ETL. ■ Concevoir le mappage logique de données. ■ Livrer les routines ETL en production. ■ Appréhender les besoins d’affaire. ■ Connaître les systèmes source. ■ Résoudre les problèmes techniques complexes. 120
31.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 31 Rôles et responsabilités 3. Développeur ETL ■ Développer les routines ETL. ■ Tester les routines ETL. ■ S’assurer que les résultats du processus ETL répondent aux besoins d’affaire (Collaboration étroite avec l’architecte ETL) 4. Analyste système ■ Rassembler des besoins d’affaire. ■ Documenter les besoins d’affaire. ■ Travailler en collaboration avec toute l’équipe du DW (Non seulement celle du système ETL). 121 Rôles et responsabilités 5. Spécialiste qualité de données ■ S’assurer de la qualité des données dans l’entrepôt de données en entier. ■ S’assurer que les règles d’affaire sont bien implantées par les processus ETL (en collaboration avec l’analyste système et l’architecte ETL) 6. DBA ■ Installer, configurer, migrer et maintenir la base de données. ■ Traduire le modèle logique de données en modèle physique. 122 Annexe : Méthode générale de conception de l’ETL sous Oracle 1. Récupération des données sources dans la zone d'extraction Création de vues pour les données stockées dans des BDR Création de tables externes pour les fichiers CSV Transformation XSLT des fichiers XML en instructions SQL et ajout manuel des données XML. Une table classique correspondant au schéma XML doit donc être créée dans le zone d'extraction. 123 2. Création des tables de traitement ● Créer une table pour chaque vue, table externe et table classique de la zone d'extraction selon la syntaxe SQL3 du modèle RO pour pouvoir accepter des méthodes ultérieurement. Déclarer ensuite une méthode pour chaque attribut à exporter dans le modèle dimensionnel. ● Ajouter un attribut booléen pour chaque table afin de discriminer ultérieurement les données nouvelles des données anciennes. ● Pour chaque hypothèse de "propreté" des données sources, on poser une contrainte associée. Par exemple si une donnée doit être une clé primaire et que l'on pense que les sources sont correctes de ce point de vue, on ajoute la clause PRIMARY KEY. Par contre il ne faut pas ajouter les contraintes lorsque l'on sait que les données sources sont "sales", sans quoi ces données seront refusées au chargement et ne pourront jamais être nettoyées. ● Pour chaque hypothèse de "nettoyage" des données sources, on pose un trigger qui va traquer les erreurs et les rapporter dans une table de log. ● On note enfin qu'il est parfois utile de donner des tailles de champs plus grandes que celle attendues afin de ne pas bloquer ou tronquer d'enregistrement. C'est une autre façon de "relâcher" les Contraintes. Annexe : Méthode générale de conception de l’ETL sous Oracle 124
32.
FST©Med-Ali-Ben-Hassine-2012 Conception des
Entrepôts de Données 32 3. Transfert des données de la zone d'extraction vers la zone de transformation ● Toutes les données doivent passer, l'analyse des triggers et le non blocage par les contraintes posées permettent de valider les hypothèses de propreté. ● On utilise l'instruction Oracle MERGE pour les imports. Les données nouvelles sont marquées en utilisant l'attribut de discrimination ajouté à cet effet. ● Les sources de données importées manuellement de la zone d'import sont remises à zéro (DELETE). Annexe : Méthode générale de conception de l’ETL sous Oracle 4. Création des méthodes de transformation ● On implémente une méthode pour chaque attribut que l'on souhaite exporter dans le modèle dimensionnel. Cette méthode permet de réaliser dynamiquement les transformations et vérifications adéquates. 125 5. Préparation du chargement ● Désactivation des contraintes des tables dimensionnelles. ● Suppression des index des tables dimensionnelles. 6. Chargement dans les tables dimensionnelles ● Seule l'API fournie par les méthodes est utilisée pour accéder aux données. ● On peut choisir une mise à jour complète : la base dimensionnelle est vidée puis remplie à nouveau ; ou bien une mise à jour partielle : les données nouvelles (marquées comme telles) sont ajoutées mais les modifications sur les données préalables ne sont pas prises en compte. 7. Post-chargememnt ● Réactivation des contraintes, en cas d'erreur procéder aux corrections ad hoc dans les méthodes de transformation et recommencer. ● Recréer les index. Annexe : Méthode générale de conception de l’ETL sous Oracle 126 Attention : Passage ● Le passage d'une zone à l'autre doit toujours laisser passer toutes les données. ● Lors du passage de la zone d'extraction à la zone de transformation, les contraintes qui bloquent doivent être levées pour laisser passer les données et lors du passage de la zone de transformation à la zone d'exploitation, les méthodes doivent gérer tous les cas de figure problématiques. Rappel : Particularités Oracle à mobiliser ● Tables externes : ORACLE LOADER ● Triggers : CREATE TRIGGER ● Instruction d'ajout et mise à jour de données : MERGE ● Méthodes relationnel-objet : CREATE TYPE et CREATE TYPE BODY ● Désactivation et réactivation de contraintes : ALTER TABLE nom_table [ENABLE | DISABLE] CONSTRAINT nom_contrainte; Annexe : Méthode générale de conception de l’ETL sous Oracle 127 128 Annexe : Méthode générale de conception de l’ETL sous Oracle Résumé en image 128
Descargar ahora