Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

Les Puits de
données
Concepts, enjeux, fonctions
Voir aussi :
http://www.value-
architecture.com/2014/03/a-la-
decouverte-des-puits-de-
donnees.html
René MANDEL1
28/03/2014

Sommaire
 Objectifs d’un puits de données
 Principes de modélisation des données
 Le grain tridaté
 Le modèle générique
 Forme canonique cachée
 Principes d’architecture
 Echanges multi-modes, multi-protocoles
 Synergie MDM
 Mise en cohérence et en qualité
 Réseau de puits
 Positionnement (ODS, ERP, Open Data, Portail,…)
 Migration
 Services
 Catalogues
 Contrats
 Sécurité
 Gouvernance
 Géométrie variable
 Montée en charge, ROI
 Plates-formes support
28/03/2014
René MANDEL
2

Objectifs
 Simplifier le SI
 Lutter contre la complexification des échanges
 Décloisonner les silos
 Gérer les identités, localisations, dates
 Simplifier les données par la généricité du
modèle
 Faciliter la migration
 Mixer ancien patrimoine SI et nouveaux
composants
 Anticiper sur les données de référence
 Capitaliser sur les données
 Mise en qualité
 Préparer Big Data
 Dépassionner la Gouvernance
28/03/2014
René MANDEL
3

Principes de modélisation
des données
Les données au cœur du puits
Nécessité de stocker pour mettre en cohérence les échanges
dans tous les espaces (360°, tri-datage, mise en qualité)
Pas de format pivot et modèle interne « caché »
Le « grain » sain tri-daté
Forme canonique cachée
28/03/2014
René MANDEL
4

Les principes
Pures, filtrées,
Transparentes, canoniques
Fraîches, Synchronisées,
Historisées, tracées
Partagées 360°
Cohérentes, subsidiaires
Multi-formats
Multi-protocoles
Synchrone-asynchrone
Des données …
René MANDEL
5 28/03/2014

Le grain
 Modéliser le grain le plus fin pertinent
 Attaché à un « fait »
 Identifié : occurrence de l’objet, de la personne, …
 Localisé : géo-localisé, positionné
 Daté : date du fait
 En son « Etat » de son cycle de vie
 Exemples
 Accident, sinistre
 Activité d’une ressource
 Personne, produit, …
 Trajet, circulation
 Production d’une unité d’oeuvre
René MANDEL
6 28/03/2014

Le modèle tridaté
 Le fait est daté : date du fait, cycle de vie du
fait
 La vision est datée : vision en anticipation (le
fait prévu), vision sur le fait (le fait réel), vision
en recul (retour sur le fait : retour
d’expérience, enrichissement), cycle de vie
de la vision
 L’instrument d’observation est daté : date
technique (date de saisie, date d’acquisition,
date du fichier, …) cycle des observations
(mise en qualité, précisions,…), multiplicité
des sources (canaux)
René MANDEL
8 28/03/2014

Le modèle générique
 Dates (de vision, de fait) en profondeur historique,
indispensables
 pour pouvoir rapprocher les sources
 Pour restituer sur différents pas de temps
 Être en mesure de tout tracer et mémoriser par ajouts (on
accepte tout et on garde tout)
 Pour remonter les alertes de qualité vers les sources et gérer les
retours
 Pour disposer des données au plus tôt même incomplètes et
non totalement validées
 Pour générer des jeux de test, jouer des scénarios
 Gérer le catalogue d’événements (ce qui provoque
l’évolution) et d’états de l’objet
 Garder trace des sources, dates techniques, anomalies
 Heurodater tous les grains (pour gérer les services de
diffusion et les services de mise en qualité)
 Faire le lien avec les MDM : identifiants, structures,
nomenclatures
René MANDEL
9 28/03/2014

Exemple de générique :
gestion de périodes
 Période :
 Un début et une fin
 Une situation pendant la période
 Des informations spécifiques à la situation
 Exemples :
 Affectation à un poste, congés, maladies, activité … un
même modèle SI, mais des silos applicatifs différents
 Un déplacement… un même modèle mais des modes
de transport différents
 Acquisition de droits et consommation de droits
(liquidation, allocation)
 Revenus, Frais, Abonnements
 Mouvements bancaires, couvertures d’assurance, …
René MANDEL
10 28/03/2014

Subsidiarité
 Noyau du modèle générique et commun
 Identification, localisation, datation, typage
 Développement subsidiaire du modèle
selon les types
 Identification propre au type (ex :
affectation à une structure, code
d’activité, de produit, …)
 Informations propres au type
 Informations non structurées
René MANDEL
11 28/03/2014

Forme canonique cachée
 Mise en forme canonique invariante
 Cachée : accès uniquement par des
services
 Indépendante de la technologie (SQL,
Hadoop, virtualisation, …)
 Levier de migration et de mise en qualité
 Permet toutes les alimentations et
restitutions
 Sous toutes formes et tout tempo
 Anticipe le Big Data
28/03/2014
René MANDEL
12

Principes d’Architecture
Echanges multi-modes, multi-protocoles
Synergie MDM
Mise en cohérence et en qualité
Réseau de puits
Positionnement (ODS, ERP, Open Data, Portail,…)
28/03/2014
René MANDEL
13

XML
Connecteur
FTP
MOM
Services
Web
Spécifique
Administr
ation
Gestion
des
Contrats
Accès
MDM
Gestion
cohéren
ce
Gestion
des
Services
Evolution
s modèle
Gestion
Sécurité
Cœur du puits:
Grain tri-daté
Domaines
applicatifs
!:
Domaines
externes
Sites
Portails
Infocentres
BI
MDM MDM
René MANDEL
14 28/03/2014

Echanges multi-modes, multi-
protocoles
 Les mêmes données peuvent s’échanger
dans différents modes logiques :
 Stock à date (fichier, téléchargement, …)
 Variation de stock entre dates
 Messages au fil de l’eau désynchronisés
(messagerie)
 Messages synchrones
 Invocation de services
 En s’appuyant sur divers protocoles
(FTP, REST, XML, CSV…)
René MANDEL
15 28/03/2014

Synergie MDM
 MDM implique :
 Transfert de propriété des données (centralisation
d’une propriété éclatée), une refonte des
processus
 Des fonctions de gestion de structure complexes
 Puits autorise :
 Un fonctionnement à l’identique, sans remise en
cause de la propriété des données et des
processus
 Une gestion de grains en volume et en flux
important, selon un modèle simple
 Puits et MDM se confortent mutuellement pour
assainir le SI sans Big Bang
René MANDEL
16 28/03/2014

Mise en cohérence et en
qualité
 Puits et point de vérité (données Golden)
 Le puits permet de gérer le cycle de mise en
qualité, et de mémoriser le dernier état
 Il constitue donc le point de vérité dès lors que
cette mise en qualité se réalise avec les
applications source
 La qualité est gérée au niveau du grain et n’exige
pas de boucles de mise en qualité par lot
 Puits et vision 360 °
 Le puits apporte la vision 360
 Il permet une focalisation par type (principe de
subsidiarité)
René MANDEL
17 28/03/2014

Réseau de puits
 Le périmètre d’un puits peut changer
 Fusion de puits
 Éclatement d’un puits
 Les puits forment un réseau
 Partage des meta-données (catalogue unique
ou réparti)
 Possibilité de synchroniser plusieurs puits (data
virtualization)
 Possibilité de spécialiser les puits (par client à
servir, …)
René MANDEL
18 28/03/2014

Positionnement
(ODS, ERP, Open
Data, Portail,…)
 En aval des processus créateurs des données
 Non intrusif
 Respecte les sources et les canaux
 Accepte les nouvelles sources
 En cohérence avec les MDM
 En amont des fonctions utilisatrices
 ODS
 ERP
 Open Data
 Accès web (amont-aval)
 Portail …
28/03/2014
René MANDEL
19

Puits et Big Data
 Agilité d’ingénierie des flux pour le Big Data
 Alimentation transverse en Big Data des
différents domaines applicatifs
 Ouverture à des sources variées grâce à une
fédération de puits
 Migration Adoop facilitée par la plateforme
du puits
 Rapprochement du structuré et non structuré
René MANDEL
20 28/03/2014

Puits et BI
 Le ou les puits font de l’ordre dans les données
opérationnelles
 En amont des ODS
 Laissent aux ETL les travaux de transcodification
 Sont callés sur les cycles opérationnels
 La BI garde sa logique d’observation sur champ
constant et dates suivies, selon son propre cycle
 Nécessite de constituer des stocks de données
 Avec une alimentation de données de qualité
 Sans gestion automatique de la mise en qualité
 Le puits fait ce travail pour toutes les diffusions, yc
la BI
René MANDEL
21 28/03/2014

Migration
Insertion agile et réversible
Outil de migration et de réingénierie des échanges
28/03/2014
René MANDEL
22

Insertion agile et réversible
 Un Puits s’insère facilement dans les flux
 Il est multi-protocoles, donc non intrusif
 Il livre les données dans la forme et le protocole attendu
 Un puits n’impose ni ne fige le mode d’échange
 Synchrone ou asynchrone
 Fonctionne en mode traditionnel (fichier, messagerie,…)
 N’impose pas l’ESB, permet d’évoluer vers l’ESB
 A la carte, au choix selon le flux et le moment
 Un puits peut commencer petit et s’étendre au
rythme de la conviction
 Avec un nombre réduit de flux
 Avec un noyau du modèle générique
René MANDEL
23 28/03/2014

Outil de migration et de
réingénierie des échanges
 Un puits peut (et doit) être mis en place « en
avance de phase »
 Pour préparer l’insertion d’un gros composant
(ERP) et anticiper sur son alimentation, ses
données produites
 Pour préparer l’arrivée de nouveaux flux, et leur
mise en cohérence (Ex : Big Data) et exploitation
 Le puits rend la réingénierie de flux agile
 Nécrose, couveuse, bascule sont faciles et
sécurisées
 Régimes transitoires et tests sans développement
 Voir a/s Article RM sur la migration
René MANDEL
24 28/03/2014

Services
Catalogues
Contrats
Sécurité
28/03/2014
René MANDEL
25

Catalogues
 Les objets métier, les événements, les états
 Les flux de données
 Les flux de meta-données
 Et bien sûr :
 Les services
 Les routines
 Les clients-fournisseurs
 Les contrats
 Les versions de meta-données
René MANDEL
26 28/03/2014

Services
 Basés sur des contrats (MOA et MOE)
 Description des flux
 Meta-données (abonnement aux évolutions)
 Jeux d’essai
 Mode d’échange
 Caractéristiques techniques
 Gestion des incidents
 Qualité des données
 Peut être étendu à la diffusion des référentiels
René MANDEL
27 28/03/2014

Sécurité
 Données individuelles
 Le puits a vocation à concentrer les fonctions
d’anonymisation, échantillonnage pour l’accès
aux données individuelles, en conformité avec les
prescriptions réglementaires
 Sécurité
 Le puits peut jouer un rôle clé dans la sécurisation
des données : sauvegardes, blocage des accès
non autorisés
 Les flux peuvent être cryptés
 Mobilité
 Le puits a vocation à servir les accès en
mobilité, avec les protections adaptées
René MANDEL
28 28/03/2014

Gouvernance
Géométrie variable
Montée en charge, ROI
28/03/2014
René MANDEL
29

Géométrie variable
 Faible coût d’un « POC »
 Solutions « open source » économiques
 Fonctionnement sur données réelles
 Scénarios simples mais représentatifs
 Gouvernance flexible
 Pas de transfert de compétence sur les
données
 Périmètre pouvant évoluer
 Mise en qualité par cohérence des flux pouvant
évoluer sans Big Bang
28/03/2014
René MANDEL
30

Exemple de montée en
charge
 Initialisation avec quelques flux « fichier »
 Base esclave
 Quelques mises en cohérence
 Quelques clients en diffusion
 Interaction MDM
 Extension à l’ensemble des flux d’alimentation
 Batch
 Accès ESB et messagerie
 Inversion des circuits d’alimentation
 Des portails
 Des EDS
 Extension à la data virtualization
René MANDEL
31 28/03/2014

ROI
 Le puits de données est un dispositif facilitant la reprise des
données et en amont la détection voire la correction de
problèmes d’intégrité
 Une réduction des coûts de maintenance des flux grâce à :
 la diminution du nombre de flux
 La réduction et l’industrialisation du nombre de transformations
 La mise en place de modèles de données métier « de référence »
facilite
 l’alimentation des décisionnels et leur rapprochement
 L’implémentation de nouvelles applications et des flux associés
 Le puits met au service de l’ensemble des applications et services
des fonctions de conversion de protocole, diminuant d’autant la
charge d’investissement et de fonctionnement de chacun
 Le puits réduit l’effet tunnel des projets, et permet de multiples
scénarios de migration afin de sécuriser l’intégration des nouveaux
composants, et l’appropriation par les utilisateurs
René MANDEL
32 28/03/2014

Plateformes support
28/03/2014
René MANDEL
33

Plateformes d’intégration
 Un puits nécessite une plateforme d’intégration, pour
 Le catalogue de services de conversion (multi-
protocole)
 La gestion des meta-données (locale au puits, mais
étendue à l’ensemble des puits : catalogue unique des
objets métier)
 L’infrastructure base de données (relationnelle, Hadoop)
 L’infrastructure technique (exploitation, sécurité, ESB, …)
 La supervision
 Plateforme ouverte, scalable, standard :
 Talend; Oracle; Informatica; Pentaho; Semarchy ?
René MANDEL
34 28/03/2014

Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Principe du Puits de données pour un SI simple, agile, anticipant les Big Data

Similar a Principe du Puits de données pour un SI simple, agile, anticipant les Big Data (20)

Más de René MANDEL

Más de René MANDEL (20)

Principe du Puits de données pour un SI simple, agile, anticipant les Big Data