SlideShare una empresa de Scribd logo
1 de 34
Les Puits de
données
Concepts, enjeux, fonctions
Voir aussi :
http://www.value-
architecture.com/2014/03/a-la-
decouverte-des-puits-de-
donnees.html
René MANDEL1
28/03/2014
Sommaire
 Objectifs d’un puits de données
 Principes de modélisation des données
 Le grain tridaté
 Le modèle générique
 Forme canonique cachée
 Principes d’architecture
 Echanges multi-modes, multi-protocoles
 Synergie MDM
 Mise en cohérence et en qualité
 Réseau de puits
 Positionnement (ODS, ERP, Open Data, Portail,…)
 Migration
 Services
 Catalogues
 Contrats
 Sécurité
 Gouvernance
 Géométrie variable
 Montée en charge, ROI
 Plates-formes support
28/03/2014
René MANDEL
2
Objectifs
 Simplifier le SI
 Lutter contre la complexification des échanges
 Décloisonner les silos
 Gérer les identités, localisations, dates
 Simplifier les données par la généricité du
modèle
 Faciliter la migration
 Mixer ancien patrimoine SI et nouveaux
composants
 Anticiper sur les données de référence
 Capitaliser sur les données
 Mise en qualité
 Préparer Big Data
 Dépassionner la Gouvernance
28/03/2014
René MANDEL
3
Principes de modélisation
des données
Les données au cœur du puits
Nécessité de stocker pour mettre en cohérence les échanges
dans tous les espaces (360°, tri-datage, mise en qualité)
Pas de format pivot et modèle interne « caché »
Le « grain » sain tri-daté
Forme canonique cachée
28/03/2014
René MANDEL
4
Les principes
Pures, filtrées,
Transparentes, canoniques
Fraîches, Synchronisées,
Historisées, tracées
Partagées 360°
Cohérentes, subsidiaires
Multi-formats
Multi-protocoles
Synchrone-asynchrone
Des données …
René MANDEL
5 28/03/2014
Le grain
 Modéliser le grain le plus fin pertinent
 Attaché à un « fait »
 Identifié : occurrence de l’objet, de la personne, …
 Localisé : géo-localisé, positionné
 Daté : date du fait
 En son « Etat » de son cycle de vie
 Exemples
 Accident, sinistre
 Activité d’une ressource
 Personne, produit, …
 Trajet, circulation
 Production d’une unité d’oeuvre
René MANDEL
6 28/03/2014
René MANDEL
7 28/03/2014
Le modèle tridaté
 Le fait est daté : date du fait, cycle de vie du
fait
 La vision est datée : vision en anticipation (le
fait prévu), vision sur le fait (le fait réel), vision
en recul (retour sur le fait : retour
d’expérience, enrichissement), cycle de vie
de la vision
 L’instrument d’observation est daté : date
technique (date de saisie, date d’acquisition,
date du fichier, …) cycle des observations
(mise en qualité, précisions,…), multiplicité
des sources (canaux)
René MANDEL
8 28/03/2014
Le modèle générique
 Dates (de vision, de fait) en profondeur historique,
indispensables
 pour pouvoir rapprocher les sources
 Pour restituer sur différents pas de temps
 Être en mesure de tout tracer et mémoriser par ajouts (on
accepte tout et on garde tout)
 Pour remonter les alertes de qualité vers les sources et gérer les
retours
 Pour disposer des données au plus tôt même incomplètes et
non totalement validées
 Pour générer des jeux de test, jouer des scénarios
 Gérer le catalogue d’événements (ce qui provoque
l’évolution) et d’états de l’objet
 Garder trace des sources, dates techniques, anomalies
 Heurodater tous les grains (pour gérer les services de
diffusion et les services de mise en qualité)
 Faire le lien avec les MDM : identifiants, structures,
nomenclatures
René MANDEL
9 28/03/2014
Exemple de générique :
gestion de périodes
 Période :
 Un début et une fin
 Une situation pendant la période
 Des informations spécifiques à la situation
 Exemples :
 Affectation à un poste, congés, maladies, activité … un
même modèle SI, mais des silos applicatifs différents
 Un déplacement… un même modèle mais des modes
de transport différents
 Acquisition de droits et consommation de droits
(liquidation, allocation)
 Revenus, Frais, Abonnements
 Mouvements bancaires, couvertures d’assurance, …
René MANDEL
10 28/03/2014
Subsidiarité
 Noyau du modèle générique et commun
 Identification, localisation, datation, typage
 Développement subsidiaire du modèle
selon les types
 Identification propre au type (ex :
affectation à une structure, code
d’activité, de produit, …)
 Informations propres au type
 Informations non structurées
René MANDEL
11 28/03/2014
Forme canonique cachée
 Mise en forme canonique invariante
 Cachée : accès uniquement par des
services
 Indépendante de la technologie (SQL,
Hadoop, virtualisation, …)
 Levier de migration et de mise en qualité
 Permet toutes les alimentations et
restitutions
 Sous toutes formes et tout tempo
 Anticipe le Big Data
28/03/2014
René MANDEL
12
Principes d’Architecture
Echanges multi-modes, multi-protocoles
Synergie MDM
Mise en cohérence et en qualité
Réseau de puits
Positionnement (ODS, ERP, Open Data, Portail,…)
28/03/2014
René MANDEL
13
XML
Connecteur
FTP
MOM
Services
Web
Spécifique
Administr
ation
Gestion
des
Contrats
Accès
MDM
Gestion
cohéren
ce
Gestion
des
Services
Evolution
s modèle
Gestion
Sécurité
Cœur du puits:
Grain tri-daté
Domaines
applicatifs
!:
Domaines
externes
Sites
Portails
Infocentres
BI
MDM MDM
René MANDEL
14 28/03/2014
Echanges multi-modes, multi-
protocoles
 Les mêmes données peuvent s’échanger
dans différents modes logiques :
 Stock à date (fichier, téléchargement, …)
 Variation de stock entre dates
 Messages au fil de l’eau désynchronisés
(messagerie)
 Messages synchrones
 Invocation de services
 En s’appuyant sur divers protocoles
(FTP, REST, XML, CSV…)
René MANDEL
15 28/03/2014
Synergie MDM
 MDM implique :
 Transfert de propriété des données (centralisation
d’une propriété éclatée), une refonte des
processus
 Des fonctions de gestion de structure complexes
 Puits autorise :
 Un fonctionnement à l’identique, sans remise en
cause de la propriété des données et des
processus
 Une gestion de grains en volume et en flux
important, selon un modèle simple
 Puits et MDM se confortent mutuellement pour
assainir le SI sans Big Bang
René MANDEL
16 28/03/2014
Mise en cohérence et en
qualité
 Puits et point de vérité (données Golden)
 Le puits permet de gérer le cycle de mise en
qualité, et de mémoriser le dernier état
 Il constitue donc le point de vérité dès lors que
cette mise en qualité se réalise avec les
applications source
 La qualité est gérée au niveau du grain et n’exige
pas de boucles de mise en qualité par lot
 Puits et vision 360 °
 Le puits apporte la vision 360
 Il permet une focalisation par type (principe de
subsidiarité)
René MANDEL
17 28/03/2014
Réseau de puits
 Le périmètre d’un puits peut changer
 Fusion de puits
 Éclatement d’un puits
 Les puits forment un réseau
 Partage des meta-données (catalogue unique
ou réparti)
 Possibilité de synchroniser plusieurs puits (data
virtualization)
 Possibilité de spécialiser les puits (par client à
servir, …)
René MANDEL
18 28/03/2014
Positionnement
(ODS, ERP, Open
Data, Portail,…)
 En aval des processus créateurs des données
 Non intrusif
 Respecte les sources et les canaux
 Accepte les nouvelles sources
 En cohérence avec les MDM
 En amont des fonctions utilisatrices
 ODS
 ERP
 Open Data
 Accès web (amont-aval)
 Portail …
28/03/2014
René MANDEL
19
Puits et Big Data
 Agilité d’ingénierie des flux pour le Big Data
 Alimentation transverse en Big Data des
différents domaines applicatifs
 Ouverture à des sources variées grâce à une
fédération de puits
 Migration Adoop facilitée par la plateforme
du puits
 Rapprochement du structuré et non structuré
René MANDEL
20 28/03/2014
Puits et BI
 Le ou les puits font de l’ordre dans les données
opérationnelles
 En amont des ODS
 Laissent aux ETL les travaux de transcodification
 Sont callés sur les cycles opérationnels
 La BI garde sa logique d’observation sur champ
constant et dates suivies, selon son propre cycle
 Nécessite de constituer des stocks de données
 Avec une alimentation de données de qualité
 Sans gestion automatique de la mise en qualité
 Le puits fait ce travail pour toutes les diffusions, yc
la BI
René MANDEL
21 28/03/2014
Migration
Insertion agile et réversible
Outil de migration et de réingénierie des échanges
28/03/2014
René MANDEL
22
Insertion agile et réversible
 Un Puits s’insère facilement dans les flux
 Il est multi-protocoles, donc non intrusif
 Il livre les données dans la forme et le protocole attendu
 Un puits n’impose ni ne fige le mode d’échange
 Synchrone ou asynchrone
 Fonctionne en mode traditionnel (fichier, messagerie,…)
 N’impose pas l’ESB, permet d’évoluer vers l’ESB
 A la carte, au choix selon le flux et le moment
 Un puits peut commencer petit et s’étendre au
rythme de la conviction
 Avec un nombre réduit de flux
 Avec un noyau du modèle générique
René MANDEL
23 28/03/2014
Outil de migration et de
réingénierie des échanges
 Un puits peut (et doit) être mis en place « en
avance de phase »
 Pour préparer l’insertion d’un gros composant
(ERP) et anticiper sur son alimentation, ses
données produites
 Pour préparer l’arrivée de nouveaux flux, et leur
mise en cohérence (Ex : Big Data) et exploitation
 Le puits rend la réingénierie de flux agile
 Nécrose, couveuse, bascule sont faciles et
sécurisées
 Régimes transitoires et tests sans développement
 Voir a/s Article RM sur la migration
René MANDEL
24 28/03/2014
Services
Catalogues
Contrats
Sécurité
28/03/2014
René MANDEL
25
Catalogues
 Les objets métier, les événements, les états
 Les flux de données
 Les flux de meta-données
 Et bien sûr :
 Les services
 Les routines
 Les clients-fournisseurs
 Les contrats
 Les versions de meta-données
René MANDEL
26 28/03/2014
Services
 Basés sur des contrats (MOA et MOE)
 Description des flux
 Meta-données (abonnement aux évolutions)
 Jeux d’essai
 Mode d’échange
 Caractéristiques techniques
 Gestion des incidents
 Qualité des données
 Peut être étendu à la diffusion des référentiels
René MANDEL
27 28/03/2014
Sécurité
 Données individuelles
 Le puits a vocation à concentrer les fonctions
d’anonymisation, échantillonnage pour l’accès
aux données individuelles, en conformité avec les
prescriptions réglementaires
 Sécurité
 Le puits peut jouer un rôle clé dans la sécurisation
des données : sauvegardes, blocage des accès
non autorisés
 Les flux peuvent être cryptés
 Mobilité
 Le puits a vocation à servir les accès en
mobilité, avec les protections adaptées
René MANDEL
28 28/03/2014
Gouvernance
Géométrie variable
Montée en charge, ROI
28/03/2014
René MANDEL
29
Géométrie variable
 Faible coût d’un « POC »
 Solutions « open source » économiques
 Fonctionnement sur données réelles
 Scénarios simples mais représentatifs
 Gouvernance flexible
 Pas de transfert de compétence sur les
données
 Périmètre pouvant évoluer
 Mise en qualité par cohérence des flux pouvant
évoluer sans Big Bang
28/03/2014
René MANDEL
30
Exemple de montée en
charge
 Initialisation avec quelques flux « fichier »
 Base esclave
 Quelques mises en cohérence
 Quelques clients en diffusion
 Interaction MDM
 Extension à l’ensemble des flux d’alimentation
 Batch
 Accès ESB et messagerie
 Inversion des circuits d’alimentation
 Des portails
 Des EDS
 Extension à la data virtualization
René MANDEL
31 28/03/2014
ROI
 Le puits de données est un dispositif facilitant la reprise des
données et en amont la détection voire la correction de
problèmes d’intégrité
 Une réduction des coûts de maintenance des flux grâce à :
 la diminution du nombre de flux
 La réduction et l’industrialisation du nombre de transformations
 La mise en place de modèles de données métier « de référence »
facilite
 l’alimentation des décisionnels et leur rapprochement
 L’implémentation de nouvelles applications et des flux associés
 Le puits met au service de l’ensemble des applications et services
des fonctions de conversion de protocole, diminuant d’autant la
charge d’investissement et de fonctionnement de chacun
 Le puits réduit l’effet tunnel des projets, et permet de multiples
scénarios de migration afin de sécuriser l’intégration des nouveaux
composants, et l’appropriation par les utilisateurs
René MANDEL
32 28/03/2014
Plateformes support
28/03/2014
René MANDEL
33
Plateformes d’intégration
 Un puits nécessite une plateforme d’intégration, pour
 Le catalogue de services de conversion (multi-
protocole)
 La gestion des meta-données (locale au puits, mais
étendue à l’ensemble des puits : catalogue unique des
objets métier)
 L’infrastructure base de données (relationnelle, Hadoop)
 L’infrastructure technique (exploitation, sécurité, ESB, …)
 La supervision
 Plateforme ouverte, scalable, standard :
 Talend; Oracle; Informatica; Pentaho; Semarchy ?
René MANDEL
34 28/03/2014

Más contenido relacionado

La actualidad más candente

Business Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouseBusiness Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouse
Alexandre Equoy
 

La actualidad más candente (20)

Resume de BI
Resume de BIResume de BI
Resume de BI
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
Une introduction à Hive
Une introduction à HiveUne introduction à Hive
Une introduction à Hive
 
Introduction aux bases de données NoSQL
Introduction aux bases de données NoSQLIntroduction aux bases de données NoSQL
Introduction aux bases de données NoSQL
 
Architecting a datalake
Architecting a datalakeArchitecting a datalake
Architecting a datalake
 
Bonnes pratiques pour un projet de GED
Bonnes pratiques pour un projet de GEDBonnes pratiques pour un projet de GED
Bonnes pratiques pour un projet de GED
 
Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)Spark (v1.3) - Présentation (Français)
Spark (v1.3) - Présentation (Français)
 
Bases de données no sql.pdf
Bases de données no sql.pdfBases de données no sql.pdf
Bases de données no sql.pdf
 
Social Media Intelligence using Elasticsearch & Kibana
Social Media Intelligence using Elasticsearch & KibanaSocial Media Intelligence using Elasticsearch & Kibana
Social Media Intelligence using Elasticsearch & Kibana
 
Business Intelligence
Business IntelligenceBusiness Intelligence
Business Intelligence
 
Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
Business Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouseBusiness Intelligence : introduction to datawarehouse
Business Intelligence : introduction to datawarehouse
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
Introduction to Dremio
Introduction to DremioIntroduction to Dremio
Introduction to Dremio
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Cours Big Data Chap5
Cours Big Data Chap5Cours Big Data Chap5
Cours Big Data Chap5
 
Partie2BI-DW2019
Partie2BI-DW2019Partie2BI-DW2019
Partie2BI-DW2019
 
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er coursBases de Données non relationnelles, NoSQL (Introduction) 1er cours
Bases de Données non relationnelles, NoSQL (Introduction) 1er cours
 
Lakehouse Analytics with Dremio
Lakehouse Analytics with DremioLakehouse Analytics with Dremio
Lakehouse Analytics with Dremio
 
Conception datawarehouse
Conception datawarehouseConception datawarehouse
Conception datawarehouse
 

Similar a Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

10 ans d’archivage numérique au CINES : premiers bilans et perspectives
10 ans d’archivage numérique au CINES : premiers bilans et perspectives10 ans d’archivage numérique au CINES : premiers bilans et perspectives
10 ans d’archivage numérique au CINES : premiers bilans et perspectives
AssociationAF
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Denodo
 
Réussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesRéussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des données
Denodo
 
Soirée SOA - 2010-06-15 - Présentation de l'ESB Petals
Soirée SOA - 2010-06-15 - Présentation de l'ESB PetalsSoirée SOA - 2010-06-15 - Présentation de l'ESB Petals
Soirée SOA - 2010-06-15 - Présentation de l'ESB Petals
Normandy JUG
 
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
Denodo
 

Similar a Principe du Puits de données pour un SI simple, agile, anticipant les Big Data (20)

10 ans d’archivage numérique au CINES : premiers bilans et perspectives
10 ans d’archivage numérique au CINES : premiers bilans et perspectives10 ans d’archivage numérique au CINES : premiers bilans et perspectives
10 ans d’archivage numérique au CINES : premiers bilans et perspectives
 
No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010No Sql - Olivier Mallassi - September 2010
No Sql - Olivier Mallassi - September 2010
 
Livre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakesLivre Blanc : comprendre les data-lakes
Livre Blanc : comprendre les data-lakes
 
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
Webinar Denodo & CRIP : Souveraineté, information sensible et data gouvernanc...
 
Chp3 - ESB
Chp3 - ESBChp3 - ESB
Chp3 - ESB
 
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big DataAzure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
Azure Camp 9 Décembre 2014 - slides session développeurs IOT Big Data
 
Réussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des donnéesRéussir sa migration vers le Cloud grâce à la virtualisation des données
Réussir sa migration vers le Cloud grâce à la virtualisation des données
 
Accéder aux données avec le windows runtime
Accéder aux données avec le windows runtimeAccéder aux données avec le windows runtime
Accéder aux données avec le windows runtime
 
Soirée SOA - 2010-06-15 - Présentation de l'ESB Petals
Soirée SOA - 2010-06-15 - Présentation de l'ESB PetalsSoirée SOA - 2010-06-15 - Présentation de l'ESB Petals
Soirée SOA - 2010-06-15 - Présentation de l'ESB Petals
 
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
J'ai déjà un ETL, pourquoi aurais-je besoin de la Data Virtualization?
 
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
OpenDataSoft - Les plateformes ouvertes de données, nouveau levier de l'innov...
 
Cours chapitre7 2012
Cours chapitre7 2012Cours chapitre7 2012
Cours chapitre7 2012
 
Projet Domurpic
Projet DomurpicProjet Domurpic
Projet Domurpic
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Ouvrir son SI avec la trilogie Portail, SOA, BPM (Solutions Linux 2010 - cycl...
Ouvrir son SI avec la trilogie Portail, SOA, BPM (Solutions Linux 2010 - cycl...Ouvrir son SI avec la trilogie Portail, SOA, BPM (Solutions Linux 2010 - cycl...
Ouvrir son SI avec la trilogie Portail, SOA, BPM (Solutions Linux 2010 - cycl...
 
7. information modelling
7. information modelling7. information modelling
7. information modelling
 
2008-09-30 Présentation Générale SQL Server 2008
2008-09-30 Présentation Générale SQL Server 20082008-09-30 Présentation Générale SQL Server 2008
2008-09-30 Présentation Générale SQL Server 2008
 
cv_chaker_jouini_fr
cv_chaker_jouini_frcv_chaker_jouini_fr
cv_chaker_jouini_fr
 
Discovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data VirtualizationDiscovery Session France: Atelier découverte de la Data Virtualization
Discovery Session France: Atelier découverte de la Data Virtualization
 
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
Petit-déjeuner OCTO : Hadoop, plateforme multi-tenant, à tout d'une grande !
 

Más de René MANDEL

La trame business vccm english
La trame business vccm englishLa trame business vccm english
La trame business vccm english
René MANDEL
 

Más de René MANDEL (20)

Présentation club urba ea impact si gdpr-v1
Présentation club urba ea impact si gdpr-v1Présentation club urba ea impact si gdpr-v1
Présentation club urba ea impact si gdpr-v1
 
Architecture flexible Principes
Architecture flexible PrincipesArchitecture flexible Principes
Architecture flexible Principes
 
Is increasing entropy of information systems a fatality
Is increasing entropy of information systems a fatalityIs increasing entropy of information systems a fatality
Is increasing entropy of information systems a fatality
 
Focus composants-english-v0
Focus composants-english-v0Focus composants-english-v0
Focus composants-english-v0
 
Besoin compétences-iconomie-et-question
Besoin compétences-iconomie-et-questionBesoin compétences-iconomie-et-question
Besoin compétences-iconomie-et-question
 
Cadrage focus-composants-v0.1
Cadrage focus-composants-v0.1Cadrage focus-composants-v0.1
Cadrage focus-composants-v0.1
 
Focus composants
Focus composantsFocus composants
Focus composants
 
Urba ea topo-sorbonne-v2
Urba ea topo-sorbonne-v2Urba ea topo-sorbonne-v2
Urba ea topo-sorbonne-v2
 
Fatalité entropie-v1
Fatalité entropie-v1Fatalité entropie-v1
Fatalité entropie-v1
 
Présentation rm v2
Présentation rm v2Présentation rm v2
Présentation rm v2
 
Chaînes de valeur
Chaînes de valeurChaînes de valeur
Chaînes de valeur
 
La trame business vccm english
La trame business vccm englishLa trame business vccm english
La trame business vccm english
 
Univers hôpital v1
Univers hôpital v1Univers hôpital v1
Univers hôpital v1
 
Les couches
Les couchesLes couches
Les couches
 
Togaf VCCM tag clouds
Togaf VCCM tag cloudsTogaf VCCM tag clouds
Togaf VCCM tag clouds
 
Synthèse de mc k
Synthèse de mc kSynthèse de mc k
Synthèse de mc k
 
Alignement stratégique
Alignement stratégiqueAlignement stratégique
Alignement stratégique
 
It 78article rm
It 78article rmIt 78article rm
It 78article rm
 
Roi infrastructure RM
Roi infrastructure RMRoi infrastructure RM
Roi infrastructure RM
 
Value Chain Canvas Model an Enterprise Architecture Framework
Value Chain Canvas Model an Enterprise Architecture FrameworkValue Chain Canvas Model an Enterprise Architecture Framework
Value Chain Canvas Model an Enterprise Architecture Framework
 

Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

  • 1. Les Puits de données Concepts, enjeux, fonctions Voir aussi : http://www.value- architecture.com/2014/03/a-la- decouverte-des-puits-de- donnees.html René MANDEL1 28/03/2014
  • 2. Sommaire  Objectifs d’un puits de données  Principes de modélisation des données  Le grain tridaté  Le modèle générique  Forme canonique cachée  Principes d’architecture  Echanges multi-modes, multi-protocoles  Synergie MDM  Mise en cohérence et en qualité  Réseau de puits  Positionnement (ODS, ERP, Open Data, Portail,…)  Migration  Services  Catalogues  Contrats  Sécurité  Gouvernance  Géométrie variable  Montée en charge, ROI  Plates-formes support 28/03/2014 René MANDEL 2
  • 3. Objectifs  Simplifier le SI  Lutter contre la complexification des échanges  Décloisonner les silos  Gérer les identités, localisations, dates  Simplifier les données par la généricité du modèle  Faciliter la migration  Mixer ancien patrimoine SI et nouveaux composants  Anticiper sur les données de référence  Capitaliser sur les données  Mise en qualité  Préparer Big Data  Dépassionner la Gouvernance 28/03/2014 René MANDEL 3
  • 4. Principes de modélisation des données Les données au cœur du puits Nécessité de stocker pour mettre en cohérence les échanges dans tous les espaces (360°, tri-datage, mise en qualité) Pas de format pivot et modèle interne « caché » Le « grain » sain tri-daté Forme canonique cachée 28/03/2014 René MANDEL 4
  • 5. Les principes Pures, filtrées, Transparentes, canoniques Fraîches, Synchronisées, Historisées, tracées Partagées 360° Cohérentes, subsidiaires Multi-formats Multi-protocoles Synchrone-asynchrone Des données … René MANDEL 5 28/03/2014
  • 6. Le grain  Modéliser le grain le plus fin pertinent  Attaché à un « fait »  Identifié : occurrence de l’objet, de la personne, …  Localisé : géo-localisé, positionné  Daté : date du fait  En son « Etat » de son cycle de vie  Exemples  Accident, sinistre  Activité d’une ressource  Personne, produit, …  Trajet, circulation  Production d’une unité d’oeuvre René MANDEL 6 28/03/2014
  • 8. Le modèle tridaté  Le fait est daté : date du fait, cycle de vie du fait  La vision est datée : vision en anticipation (le fait prévu), vision sur le fait (le fait réel), vision en recul (retour sur le fait : retour d’expérience, enrichissement), cycle de vie de la vision  L’instrument d’observation est daté : date technique (date de saisie, date d’acquisition, date du fichier, …) cycle des observations (mise en qualité, précisions,…), multiplicité des sources (canaux) René MANDEL 8 28/03/2014
  • 9. Le modèle générique  Dates (de vision, de fait) en profondeur historique, indispensables  pour pouvoir rapprocher les sources  Pour restituer sur différents pas de temps  Être en mesure de tout tracer et mémoriser par ajouts (on accepte tout et on garde tout)  Pour remonter les alertes de qualité vers les sources et gérer les retours  Pour disposer des données au plus tôt même incomplètes et non totalement validées  Pour générer des jeux de test, jouer des scénarios  Gérer le catalogue d’événements (ce qui provoque l’évolution) et d’états de l’objet  Garder trace des sources, dates techniques, anomalies  Heurodater tous les grains (pour gérer les services de diffusion et les services de mise en qualité)  Faire le lien avec les MDM : identifiants, structures, nomenclatures René MANDEL 9 28/03/2014
  • 10. Exemple de générique : gestion de périodes  Période :  Un début et une fin  Une situation pendant la période  Des informations spécifiques à la situation  Exemples :  Affectation à un poste, congés, maladies, activité … un même modèle SI, mais des silos applicatifs différents  Un déplacement… un même modèle mais des modes de transport différents  Acquisition de droits et consommation de droits (liquidation, allocation)  Revenus, Frais, Abonnements  Mouvements bancaires, couvertures d’assurance, … René MANDEL 10 28/03/2014
  • 11. Subsidiarité  Noyau du modèle générique et commun  Identification, localisation, datation, typage  Développement subsidiaire du modèle selon les types  Identification propre au type (ex : affectation à une structure, code d’activité, de produit, …)  Informations propres au type  Informations non structurées René MANDEL 11 28/03/2014
  • 12. Forme canonique cachée  Mise en forme canonique invariante  Cachée : accès uniquement par des services  Indépendante de la technologie (SQL, Hadoop, virtualisation, …)  Levier de migration et de mise en qualité  Permet toutes les alimentations et restitutions  Sous toutes formes et tout tempo  Anticipe le Big Data 28/03/2014 René MANDEL 12
  • 13. Principes d’Architecture Echanges multi-modes, multi-protocoles Synergie MDM Mise en cohérence et en qualité Réseau de puits Positionnement (ODS, ERP, Open Data, Portail,…) 28/03/2014 René MANDEL 13
  • 14. XML Connecteur FTP MOM Services Web Spécifique Administr ation Gestion des Contrats Accès MDM Gestion cohéren ce Gestion des Services Evolution s modèle Gestion Sécurité Cœur du puits: Grain tri-daté Domaines applicatifs !: Domaines externes Sites Portails Infocentres BI MDM MDM René MANDEL 14 28/03/2014
  • 15. Echanges multi-modes, multi- protocoles  Les mêmes données peuvent s’échanger dans différents modes logiques :  Stock à date (fichier, téléchargement, …)  Variation de stock entre dates  Messages au fil de l’eau désynchronisés (messagerie)  Messages synchrones  Invocation de services  En s’appuyant sur divers protocoles (FTP, REST, XML, CSV…) René MANDEL 15 28/03/2014
  • 16. Synergie MDM  MDM implique :  Transfert de propriété des données (centralisation d’une propriété éclatée), une refonte des processus  Des fonctions de gestion de structure complexes  Puits autorise :  Un fonctionnement à l’identique, sans remise en cause de la propriété des données et des processus  Une gestion de grains en volume et en flux important, selon un modèle simple  Puits et MDM se confortent mutuellement pour assainir le SI sans Big Bang René MANDEL 16 28/03/2014
  • 17. Mise en cohérence et en qualité  Puits et point de vérité (données Golden)  Le puits permet de gérer le cycle de mise en qualité, et de mémoriser le dernier état  Il constitue donc le point de vérité dès lors que cette mise en qualité se réalise avec les applications source  La qualité est gérée au niveau du grain et n’exige pas de boucles de mise en qualité par lot  Puits et vision 360 °  Le puits apporte la vision 360  Il permet une focalisation par type (principe de subsidiarité) René MANDEL 17 28/03/2014
  • 18. Réseau de puits  Le périmètre d’un puits peut changer  Fusion de puits  Éclatement d’un puits  Les puits forment un réseau  Partage des meta-données (catalogue unique ou réparti)  Possibilité de synchroniser plusieurs puits (data virtualization)  Possibilité de spécialiser les puits (par client à servir, …) René MANDEL 18 28/03/2014
  • 19. Positionnement (ODS, ERP, Open Data, Portail,…)  En aval des processus créateurs des données  Non intrusif  Respecte les sources et les canaux  Accepte les nouvelles sources  En cohérence avec les MDM  En amont des fonctions utilisatrices  ODS  ERP  Open Data  Accès web (amont-aval)  Portail … 28/03/2014 René MANDEL 19
  • 20. Puits et Big Data  Agilité d’ingénierie des flux pour le Big Data  Alimentation transverse en Big Data des différents domaines applicatifs  Ouverture à des sources variées grâce à une fédération de puits  Migration Adoop facilitée par la plateforme du puits  Rapprochement du structuré et non structuré René MANDEL 20 28/03/2014
  • 21. Puits et BI  Le ou les puits font de l’ordre dans les données opérationnelles  En amont des ODS  Laissent aux ETL les travaux de transcodification  Sont callés sur les cycles opérationnels  La BI garde sa logique d’observation sur champ constant et dates suivies, selon son propre cycle  Nécessite de constituer des stocks de données  Avec une alimentation de données de qualité  Sans gestion automatique de la mise en qualité  Le puits fait ce travail pour toutes les diffusions, yc la BI René MANDEL 21 28/03/2014
  • 22. Migration Insertion agile et réversible Outil de migration et de réingénierie des échanges 28/03/2014 René MANDEL 22
  • 23. Insertion agile et réversible  Un Puits s’insère facilement dans les flux  Il est multi-protocoles, donc non intrusif  Il livre les données dans la forme et le protocole attendu  Un puits n’impose ni ne fige le mode d’échange  Synchrone ou asynchrone  Fonctionne en mode traditionnel (fichier, messagerie,…)  N’impose pas l’ESB, permet d’évoluer vers l’ESB  A la carte, au choix selon le flux et le moment  Un puits peut commencer petit et s’étendre au rythme de la conviction  Avec un nombre réduit de flux  Avec un noyau du modèle générique René MANDEL 23 28/03/2014
  • 24. Outil de migration et de réingénierie des échanges  Un puits peut (et doit) être mis en place « en avance de phase »  Pour préparer l’insertion d’un gros composant (ERP) et anticiper sur son alimentation, ses données produites  Pour préparer l’arrivée de nouveaux flux, et leur mise en cohérence (Ex : Big Data) et exploitation  Le puits rend la réingénierie de flux agile  Nécrose, couveuse, bascule sont faciles et sécurisées  Régimes transitoires et tests sans développement  Voir a/s Article RM sur la migration René MANDEL 24 28/03/2014
  • 26. Catalogues  Les objets métier, les événements, les états  Les flux de données  Les flux de meta-données  Et bien sûr :  Les services  Les routines  Les clients-fournisseurs  Les contrats  Les versions de meta-données René MANDEL 26 28/03/2014
  • 27. Services  Basés sur des contrats (MOA et MOE)  Description des flux  Meta-données (abonnement aux évolutions)  Jeux d’essai  Mode d’échange  Caractéristiques techniques  Gestion des incidents  Qualité des données  Peut être étendu à la diffusion des référentiels René MANDEL 27 28/03/2014
  • 28. Sécurité  Données individuelles  Le puits a vocation à concentrer les fonctions d’anonymisation, échantillonnage pour l’accès aux données individuelles, en conformité avec les prescriptions réglementaires  Sécurité  Le puits peut jouer un rôle clé dans la sécurisation des données : sauvegardes, blocage des accès non autorisés  Les flux peuvent être cryptés  Mobilité  Le puits a vocation à servir les accès en mobilité, avec les protections adaptées René MANDEL 28 28/03/2014
  • 29. Gouvernance Géométrie variable Montée en charge, ROI 28/03/2014 René MANDEL 29
  • 30. Géométrie variable  Faible coût d’un « POC »  Solutions « open source » économiques  Fonctionnement sur données réelles  Scénarios simples mais représentatifs  Gouvernance flexible  Pas de transfert de compétence sur les données  Périmètre pouvant évoluer  Mise en qualité par cohérence des flux pouvant évoluer sans Big Bang 28/03/2014 René MANDEL 30
  • 31. Exemple de montée en charge  Initialisation avec quelques flux « fichier »  Base esclave  Quelques mises en cohérence  Quelques clients en diffusion  Interaction MDM  Extension à l’ensemble des flux d’alimentation  Batch  Accès ESB et messagerie  Inversion des circuits d’alimentation  Des portails  Des EDS  Extension à la data virtualization René MANDEL 31 28/03/2014
  • 32. ROI  Le puits de données est un dispositif facilitant la reprise des données et en amont la détection voire la correction de problèmes d’intégrité  Une réduction des coûts de maintenance des flux grâce à :  la diminution du nombre de flux  La réduction et l’industrialisation du nombre de transformations  La mise en place de modèles de données métier « de référence » facilite  l’alimentation des décisionnels et leur rapprochement  L’implémentation de nouvelles applications et des flux associés  Le puits met au service de l’ensemble des applications et services des fonctions de conversion de protocole, diminuant d’autant la charge d’investissement et de fonctionnement de chacun  Le puits réduit l’effet tunnel des projets, et permet de multiples scénarios de migration afin de sécuriser l’intégration des nouveaux composants, et l’appropriation par les utilisateurs René MANDEL 32 28/03/2014
  • 34. Plateformes d’intégration  Un puits nécessite une plateforme d’intégration, pour  Le catalogue de services de conversion (multi- protocole)  La gestion des meta-données (locale au puits, mais étendue à l’ensemble des puits : catalogue unique des objets métier)  L’infrastructure base de données (relationnelle, Hadoop)  L’infrastructure technique (exploitation, sécurité, ESB, …)  La supervision  Plateforme ouverte, scalable, standard :  Talend; Oracle; Informatica; Pentaho; Semarchy ? René MANDEL 34 28/03/2014