Watch full webinar here: https://bit.ly/3s2RovD
Denodo vous propose une session virtuelle pour découvrir la Data Virtualization. Quel que soit votre rôle, responsable IT, architecte, data scientist, analyste ou CDO, vous découvrirez comment la Data Virtualization permet de livrer des données en temps réel et accéder à tout type de source de données pour en tirer de la valeur.
1. Atelier découverte de la virtualisation des
données
Janvier 2022
Tarik Zaakour, Principal sales engineer
2. Agenda
1. Généralités
2. Introduction à la Data Virtualization
3. Ce que disent les analystes
4. Cas d’usage et études de cas clients
5. Gouvernance & sécurité
6. Les APIs
7. Comment Denodo optimise ses requêtes?
8. Exemples de déploiement
9. Questions/Réponses
10. Démonstration avec le Denodo Test Drive
11. Questions/Réponses
12. Prochaines étapes
4. 4
Quelques généralités
• La présentation sera enregistrée
• Les échanges et les questions/réponses
• Avant la démonstration
• A la fin de la présentation
• N’hésitez pas à poser vos questions dans le chat au fil de
l’eau
• Pour accéder aux test drives :
• Se connecter à www.denodo.com
• Rubrique “Try Denodo Platform” puis “Denodo Test
Drives”
• Le Test Drive sur Azure n’est qu’un début : cas d’usage
Data Science et Data Marketplace sur AWS et GCP
5. Introduction à la Data Virtualization
Pourquoi la Data Virtualization? Défis, Solutions et
Avantages
6. 6
Acteurs et données de nos écosystèmes actuels
Situation actuelle simplifiée :
Sales
HR
Apps/API
Executive
75% de la donnée stockée
jamais utilisée
90% des demandes nécessitent
du temps-réel
Marketing
Problèmes les plus communs:
× Collaboration et partage limitées
× Vues métiers inconsistantes et limitées
× Gouvernance complexe
× Environnement fragmenté
× Beaucoup (trop) de réplication
× Synchronisations en cascade, longues et coûteuses
Data Science
AI/ML
7. 7
Plateforme de données moderne souhaitée
POINT D’ENTRÉE UNIFIÉ POUR RECHERCHER,
EXPLORER ET CONSOMMER LA DONNÉE
SELF-SERVICE POUR TOUS LES PROFILS DE
L’ENTREPRISE
SÉCURITÉ & GOUVERNANCE RENFORCÉES
Simplicité, rapidité/agilité, sécurité… à moindre coût
Plateforme moderne
Sales
HR
Executive
Marketing Apps/API
Data Science
AI/ML
8. 8
CONNECTER, INTROSPECTER & GOUVERNER VOS
SOURCES, AVEC ZÉRO RÉPLICATION DE LA DONNÉE
COMBINER & INTÉGRER VOS DONNÉES EN VUES
MÉTIERS
CONSOMMER & SÉCURISER LES VUES MÉTIERS DANS
DE MULTIPLES FORMATS
Qu’est-ce la Data Virtualization?
Un logiciel permettant l’intégration et la gestion moderne des données d’entreprises
Sales
HR
Executive
Marketing Apps/API
Data Science
AI/ML
9. 9
CONNECTER, INTROSPECTER & GOUVERNER VOS
SOURCES, AVEC ZERO REPLICATION DE LA DONNÉE
COMBINER & INTEGRER VOS DONNÉES EN VUES
MÉTIERS
CONSOMMER & SECURISER LES VUES MÉTIERS DANS
DE MULTIPLES FORMATS
Le fonctionnement de la Data Virtualization?
Connecter, Combiner & Consommer
Sales
HR
Executive
Marketing Apps/API
Data Science
AI/ML
COMBINE & INTEGRATE INTO BUSINESS DATA VIEWS
11. By 2022, more than 80% of Datalake
projects will not provide value, as data
research, inventory and preservation
will prove to be the biggest obstacle to
successful analysis and data
management. Science.
Source: “Augmented Data Catalogs: Now an
Enterprise Must-Have for Data and Analytics
Leaders.” September 12, 2019
Reference customers have appreciated Denodo's connectivity and
data delivery capabilities supported by metadata management,
which has contributed to high scores for data integration for
optimized analyses and data service orchestration use cases. The
focus on data catalogue functionality - i.e. enabling users to
inventory distributed data assets connected to Denodo, and to
collect, access and use metadata to inform data integration
activities - increases the relevance of the tool for the data
consistency use case. Predicts 2020: The Future of Application
Architecture, Development, Integration and
Platforms
By 2023, more than 50% of the new
integration technologies evaluated
will include AI as one of the key
criteria for simplifying integration.
’’
DATA MANAGEMENT & INTEGRATION : from SPECIFIC
to DYNAMIC
The future of DATA MANAGEMENT will be
more « CONNECT » than « COLLECT »
- Dynamic
- Augmented with Machine Learning
- Distributed
- Schema neutral
- Content & context oriented
- Fix Infrastructures will be commodities
- Less Design/Deploy/Maintain
’’ ’’
-Critical Capabilities for Data Integration Tools, 8 October 2019
’’
# CONNECTER EST L'AVENIR
# CATALOGUE DE
DONNÉES POUR RÉALISER
DES PROJETS DATALAKE # SCORES ÉLEVÉS POUR DENODO # IA & INTEGRATION
12. 12
“Denodo provides its
customers with the
capabilities to automate the
design of a Data Fabric with
its components - a unified
semantic catalog of data, a
query optimization engine,
and metadata-based ML
algorithms.
The design of its data model
relies on Data Virtualization
to quickly deliver integrated
data to users for faster
results ”
2020 Gartner Magic Quadrant for Data Integration Tools
DENODO NOMMÉ LEADER – JUILLET 2020
- Gartner Magic Quadrant for Data
Integration Tools, August 2020
BY 2023, ORGANIZATIONS
USING DATA FABRICS TO
DYNAMICALLY CONNECT,
OPTIMIZE AND AUTOMATE
DATA MANAGEMENT
PROCESSES WILL REDUCE THEIR
DATA INTEGRATION AND
DELIVERY TIME BY AT LEAST
30%. "
13. RECONNAISSANCE CLIENT, ANALYSTE ET INDUSTRIE
3 POINTS MAJEURS : TIME-TO-MARKET, RÉDUCTION DES COÛTS & CONTRÔLE DES DONNÉES
3x à 10x - 40% cost Up to -75%
Agility
Time to market
Delivery Global
TCO
- Guide to Data Virtualization, Dec 2017
62% < 3 months 91% < 6 months
Denodo
Projects:
- Peer Insight, Data Integration 2018
By 2022, 60% of all organizations will
implement Data Virtualization as a key
element of data integration architecture.
- Market guide for Data Virtualization,
Nov 2018
2020 Gartner Magic Quadrant for Data
Integration Tools
Forrester Wave: Enterprise Data Fabric,
Q2 2020
Forrester Wave: Big Data Fabric, Q2
2018
14. 14
The core of the matter is being able to consolidate many diverse
data sources in an efficient manner by allowing trusted data to be
delivered from all relevant data sources to all relevant data
consumers through one common layer.
Source: Demystifying the Data Fabric, Gartner, September 2020
The Data fabric focuses on automating the process integration,
transformation, preparation, curation, security, governance, and
orchestration to enable analytics and insights quickly for business
success.
Source: Enterprise Data Fabric Wave, Forrester, June
2020
15. 15
Les six piliers de la Data Fabric
Gartner envisage un système basé sur six
piliers pour fournir la base d'une Data Fabric
:
1. Catalogue de données augmenté
2. Graphe de connaissances enrichi de
sémantique
3. Activation des métadonnées
4. Moteur de recommandation
5. Préparation et livraison des données
6. Orchestration et DataOps
16. 16
Les 6 piliers de Data Fabric s'alignent sur la vision de base de Denodo
1. Point d'accès unique à
toutes les données à
n'importe quel endroit
2. Des données exposées
sous une forme Business-
Friendly, adaptée aux
besoins de chaque
consommateur
3. Faible coût et mise sur le
marché rapide : jusqu'à
80 % de réduction des
coûts d'intégration de
données
4. Référence pour les données
de confiance via la
sémantique : appliquez une
sémantique, une qualité,
une gouvernance et une
sécurité des données
cohérentes
5. Découvrabilité : Le
Data Catalog actif crée un
marché de données pour
l'entreprise
6. ML et automatisation pour
accélérer toutes les étapes
du cycle de vie de la gestion
des données
17. 17
Qu’est ce que le Data Mesh ?
▪ Le Data Mesh est un nouveau paradigme architectural pour la
gestion des données
▪ Proposé par le consultant Zhamak Dehghani en 2019
▪ Il passe d'une infrastructure de données centralisée par une seule
équipe à une organisation distribuée
▪ Plusieurs unités autonomes (domaines) sont chargées de gérer et
d'exposer leurs propres « produits de données » au reste de
l'organisation
▪ Les produits de données doivent être facilement détectables,
compréhensibles et accessibles au reste de l'organisation
18. 18
Quels défis le Data Mesh essaie-t-il de relever?
1. Manque d'expertise du domaine dans les équipes de données
centralisées
▪ Les équipes de données centralisées sont déconnectées de l'entreprise
▪ Ils doivent gérer des données et des besoins métiers qu'ils ne comprennent
pas toujours
2. Manque de flexibilité des référentiels de données centralisés
▪ L'infrastructure de données des grandes organisations est très diversifiée et
change fréquemment
▪ Les besoins analytiques modernes peuvent être trop divers pour être
satisfaits par une seule plate-forme : une taille unique ne convient jamais.
3. Approvisionnement des données et réponse aux changements lents
▪ Nécessite d'extraire, d'ingérer et de synchroniser des données dans la plate-
forme centralisée
▪ L'informatique centralisée devient un goulot d'étranglement
19. 19
Comment ?
• Les unités organisationnelles (domaines) sont responsables de la
gestion et de l'exposition de leurs propres données
• Les domaines comprennent mieux comment les données qu'ils
possèdent doivent être traitées et utilisées
• Leurs donne l'autonomie pour utiliser les meilleurs outils pour traiter
leurs données, et les faire évoluer en cas de besoin
• Résulte en des itérations de plus en plus courtes jusqu'à ce que les
besoins de l'entreprise soient satisfaits
• Supprime la dépendance aux infrastructures de données
entièrement centralisées
• Supprime les goulots d'étranglement et accélère les changements
• Introduit de nouveaux concepts pour faire face aux risques tels
que la création de silos de données, les efforts en double et le
manque de gouvernance unifiée
20. 20
La donnée comme un Produit
▪ Pour s'assurer que les domaines ne deviennent pas des silos
de données isolés, les données exposées par les différents
domaines doivent être :
▪ Facilement détectables
▪ Compréhensibles
▪ Sécurisées
▪ Utilisables par d'autres domaines
▪ Le niveau de confiance et de qualité de chaque ensemble de
données doit être clair
▪ Les processus et les pipelines pour générer le produit (par
exemple, le nettoyage et la déduplication) sont des détails
de mise en œuvre internes et cachés aux consommateurs
21. 21
Plateforme de données en libre-service
▪ La création, la sécurisation, le déploiement, la surveillance et la gestion
des produits de données peuvent être complexes
▪ Tous les domaines n'auront pas les ressources pour construire cette
infrastructure
▪ Duplication possible des efforts entre les domaines
▪ Libre-service : bien qu'exploité par une équipe d'infrastructure de
données globale, il permet aux domaines de créer et de gérer eux-mêmes
les produits de données
▪ La plateforme doit pouvoir automatiser ou simplifier des tâches telles
que :
▪ Intégration et transformation des données
▪ Politiques de sécurité et gestion des identités
▪ Exposition des API de données
▪ Publier et documenter dans un catalogue global
22. 22
Gouvernance informatique fédérée
▪ Les produits de données créés par les différents domaines
doivent interagir les uns avec les autres et être combinés pour
répondre à de nouveaux besoins
▪ par exemple. à joindre, agréger, corréler, etc..
▪ Cela nécessite un accord sur la sémantique des entités
communes (par exemple, client, produit), sur les formats des
types de champs (par exemple, SSN, identifiants d'entité,...), sur
l'adressabilité des API de données, etc.
▪ Géré à l'échelle globale et, si possible, appliqué automatiquement
▪ La sécurité doit être appliquée à l'échelle mondiale
conformément aux réglementations et politiques applicables.
23. 23
Implémentation du Data Mesh avec Denodo
SQL
Operational EDW
Data Lakes Files
SaaS APIs
REST GraphQL OData
Event
Product
Customer Location Employee
Common Domain Event Management Human Resources
Chaque domaine se voit attribuer un schéma virtuel distinct.
Un domaine commun peut être utile pour les produits de données
centralisés communs à tous les domaines.
1
1 Les domaines connectent leurs sources de données.
2
Les métadonnées sont mappées sur des vues relationnelles.
Aucune donnée n'est répliquée.
3
3
2
Les domaines peuvent modéliser leurs produits de données.
Les produits peuvent être utilisés pour définir d'autres produits.
4
4
Pour l'exécution, les produits peuvent être servis directement à
partir de leurs sources ou répliqués vers un emplacement central,
comme un lac.
5
5
Une équipe centrale peut définir des directives et une
gouvernance pour assurer l'interopérabilité.
6
6
Les produits peuvent être accessibles via SQL ou exposés
en tant qu'API. Aucun codage n'est requis.
7
7
L'infrastructure peut facilement évoluer dans un cluster.
8
8
25. 25
Les cas d’usage de la Data Virtualization
DU STOCKAGE & MANAGEMENT, À LA CONSOMMATION, EN PASSANT PAR LA GOUVERNANCE ET LA SÉCURITÉ
DÉCISION
(REAL TIME)
K.Y.C.
(CLIENTS 360)
BI AGILE
(SELF-SERVICE)
DATA
SCIENCE
(ML & AI)
APPS
(MOBILE & WEB)
FUSIONS &
ACQUISITIONS
DATA
MARKETPLACE
RÉGLEMENTATIONS
(IFRS17, GRC)
GOUVERNANCE
& SÉCURITÉ
APIFICATION
(& SQLIFICATION)
COUCHE DONNÉE
UNIFIÉE
AGILITÉ
& SIMPLICITÉ
LIVRAISON
TEMPS-RÉELLE
ABSTRACTION
DONNÉES
ZÉRO
RÉPLICATION
DATA
CATALOG
PERFORMANCES
OPTIMISÉES
LOGICAL DATA
WAREHOUSE/LAKE
BIG DATA
FABRIC
HYBRID
DATA FABRIC
DATA
INTEGRATION
DATA
MIGRATION
REFACTORING &
REPLATFORMING
CONSOMMATION DE LA DONNEE
STOCKAGE ET GESTION DE LA DONNEE
MANAGEMENT
GOUVERNANCE DE LA DONNEE
Sales
HR
Executive
Marketing Apps/API
Data Science
AI/ML
LOGICAL
DATA
WAREHOUSE
API
MIGRATION
VERS LE
CLOUD
BIG DATA
FABRIC
GOUVERNANCE
ET CATALOGUE
DE DONNÉES
27. 27
Présentation
Ucb est une société biopharmaceutique mondiale, fondée
en 1928. Son ambition est de transformer la vie des
personnes atteintes de maladies neurologiques et
immunologiques sévères.
En 2018, avec environ 7500 employés dans le monde,
l'entreprise a réalisé un chiffre d'affaires total de plus de 5
milliards de dollars.
28. 28
Présentation
• Besoin d'une vue omnicanal en temps
réel à 360 degrés des données des
patients à travers les différentes
sources.
• Les processus ETL traditionnels
n'étaient pas assez rapides pour
répondre aux besoins en données des
équipes métiers.
• Réduire le temps de développement
pour transformer les données pour au
final un usage analytique.
• Faciliter l'accès aux données sur
plusieurs sources de données.
• De plus en plus d'applications migrent
vers le cloud, mais la nécessité
d'analyser les données de manière
croisée reste toujours présente
• Les scientifiques des données utilisent
la couche de virtualisation Denodo
pour explorer les données, écrire des
scripts et élaborer des
recommandations pour augmenter les
ventes et améliorer les traitements
• La plate-forme Denodo est établie
comme un élément essentiel de
l'architecture de l'entrepôt de données
logique au-dessus des diverses sources
de données d'UCB.
• La plate-forme Denodo se connecte,
au lieu de collecter des données
comme dans ETL, à chaque source et
présente des vues de données aux
utilisateurs professionnels sous la
forme d'une couche sémantique
virtuelle
• En un an de mise en œuvre de
Denodo, UCB a pu mettre en
production six cas d'utilisation
différents dans différents domaines
fonctionnels.
• La plate-forme Denodo a réduit de
moitié le temps de développement
par rapport au temps requis par les
processus ETL de l'entreprise.
• Denodo a fourni à UCB la vitesse,
l'efficacité et l'agilité dont
l'entreprise avait besoin, ce qui lui a
permis d'avancer avec ses produits
de données tout en rationalisant les
rapports réglementaires.
Les défis La solution Les résultats
30. 30
Présentation
Rexel est un groupe français, fondé en 1967, spécialisé
dans la distribution de matériel électrique, de chauffage,
d'éclairage et de plomberie mais aussi dans les énergies
renouvelables et les produits et services d'efficacité
énergétique, l'habitat connecté, et les services comme la
location d'outillage portatif ou des suites logicielles à
destination des professionnels
31. 31
Présentation
• Remplacement de la solution
actuelle de grilles de tarification
client
• Sources de données disparates
dans le système d'informations
• Denodo suppose une couche
d'abstraction logique et simplement
un accès aux données pour les
applications métiers
• Nouvelles fonctionnalités apportées
par Denodo en tant que requêtes
SQL complexe qui gèrent certains
calculs entre l’ERP et la couche BI.
Par exemple: Denodo fournit des
KPI directs à l'utilisateur final.
• Tout d'abord, permettre de capitaliser
sur des structures standardisées
indépendantes des sources de
données.
• Favoriser l'accélération de la
digitalisation et ne pas placer la
construction de solutions applicatives
consommatrices de données
référentielles sur le chemin critique.
• Diffusion et consommation de données
d'entreprise hautement flexibles,
résilientes et efficaces sur un point
unique et cohérent
• La valeur de Denodo est perçue comme
offrant des rendements élevés grâce à
l'agilité et la flexibilité en tant que
composante stratégique clé de notre
modernisation des SI.
Les défis La Solution Les résultats
33. 33
Prologis – Opérationnalisation IA/ML
$1.5 TRILLION
is the economic value of goods flowing through
our distribution centers each year, representing:
2.8%
of GDP for the 19 countries where
we do business
%
2.0
of the World’s GDP
1983 100 GLOBAL 768 MSF
Founded
Most sustainable corporations
$87B
Assets under management on four continents
MILLION
employees under Prologis’ roofs
1.0
34. 34
Data Virtualization: Accélérateur de projets Data Science
Identification des données
Informations utiles pour
les cas nécessaires
Data Catalog
Identifier les sources
potentielles
Recherche de données
Automatisé via Denodo
Stockage de données
En cas de besoin dans le
lac de données
Accès direct
De sources
Données persistantes
Denodo permet de persister
dans votre DL n'importe
quelle vue
Nettoyage des données
Nettoyez vos données
dans un format utile
Combiner et transformer
Données pour créer
l'ensemble de données
utiles en entrée
L'analyse des données
Analysez vos données
Avec votre outil préféré
Cost Based Optimizer
Plan d'exécution
intelligent
Data Science
Aide, Exécuter des
algorithmes DS (ML, AI,
etc.)
Normes ouvertes +
données
Autre que Denodo
R, Scala, Python
Itérer le processus
Jusqu'à ce que des
informations précieuses
soient produites
Détection de changement
Lignage des données
Conception graphique rapide
Implémentez votre Algo
Spark, DataIku, Mahout
38. 38
Gouvernance et virtualisation des données
• La gouvernance des données est un sujet vaste et supérieur à la portée de la
virtualisation des données
• La virtualisation des données peut aider un processus de gouvernance des
données dans les domaines suivants :
• La cohérence des données
• Qualité et intégrité des données (et confiance dans ces données)
• Accès aux données
• Facilité d'utilisation des données
40. Catalogue de données
GOUVERNE & ACCÈS AUX DONNÉES
La virtualisation des données
avec Le Data Catalog offre
trois avantages principaux :
1. Une compréhension et un
accès à toutes les données
et métadonnées de
l'entreprise.
2. BI libre-service
3. Élimination du besoin de
créer de nouveaux
magasins de données et de
déplacer physiquement les
données
41. Catalogue de données actif
INTÉGRÉ À VOTRE ÉCOSYSTÈME
• SYNCHRONISATION DES MÉTADONNÉES
Denodo Platform prend en charge :
• La découverte et capture de métadonnées à partir de systèmes de gestion de bases de données
• La synchronisation de modèles de données avec des outils de modélisation de données.
• Pour la synchronisation des modèles de données, la plateforme Denodo fournit des fonctions
d'analyse des mises à jour et modifications des sources et des modifications dans le schéma sous-
jacent, permettant de décider de propager ou non la modification dans le schéma Denodo.
• INTÉGRATION AVEC DES OUTILS TIERS DE GESTION DE MÉTADONNÉES
Denodo n'est pas en concurrence mais complète les solutions de catalogue de données d'entreprise en les
rendant opérationnelles.
42. 42
Principes de sécurité
✔ Contrôle centralisé
▪ Autoriser l'accès en fonction des besoins de
l'entreprise, indépendamment de la localisation des
données ou de la méthode d'accès
▪ Définir un contrôle d'accès fin sur toutes les
sources de données (fichiers, services web, ...)
▪ Configuration centralisée
✔ Intégré à votre environnement
▪ SSO, Kerberos
▪ Authentification locale ou LDAP
▪ Comptes de pass-though ou de service
nom pays téléphone SSN
John Smith USA 555-1212
Alain Durand France
Mary White USA 555-2212
Contrôler l'accès aux colonnes,
aux lignes ou même aux
valeurs individuelles
43. 43
Principes de sécurité
✔ Contrôle centralisé
Denodo gère la sécurité comme sur une DB :
▪ S’intègre avec votre Active Directory & SSO
▪ Masquage dynamique, restrictions sur les
colonnes et les lignes selon les Roles & Privileges
des utilisateurs
✔ Intégré à votre environnement
Centralise la sécurité - basée sur comment les
utilisateurs utilisent la donnée et non
comment elle est stockée
IT Semantic Layer
JOIN
GROUP
BY
GROUP
BY
1. Requête métier
2. Authentification avec
une corporate identity
3. Application des règles
d’autorisation .
Par exemple, masque SSN
et restriction locale
4. Requête envoyée à la
source avec les filtres de
conditions correspondants
5. Résultat sécurisé
est généré et envoyé
à l’utilisateur
DISPARATE DATA SOURCES
Less Structured
More Structured
DATA CONSUMERS
DATA CONSUMERS
Analytical Operational
45. 45
Architecture de référence de virtualisation des données
Opérationnel and Transactionnel
Metadata Management, Data Governance, Data Security
Data
Warehouse
Web,
Cloud,
Saas
Enterprise
Applications
Enterprise
Application
Web
Mobile
Data Sources Service Consumers
Data Abstraction &
Delivery
Data Search & Discovery
Federation
Transformation
Abstraction
Data
Services
Federation
Transformation
Abstraction
Optimization
Security
Governance
Data Caching
Enterpri
se
Service
Bus
SOA
Service Providers
• Génération automatique de
documents Swagger
• Prise en charge de tous les
formats
A
P
I
M
a
n
a
g
e
m
e
n
t
P
l
a
t
f
o
r
m
46. 46
API Management - Une complémentarité
• API Management
• Fournit une expérience axée sur le consommateur
• Expose le catalogue d'API sur un portail
• Applique les politiques de sécurité
• Surveille votre trafic
• Gère le cycle de vie de l'API (par exemple, la gestion des
versions)
• Data Virtualization
• Modéliser et exposer les services de données en tant qu'API
• Optimise le traitement des données
• Combine les sources de données en temps réel
• Accès aux sources de données à l'aide de divers protocoles
• Accélère le développement par rapport à l'approche
traditionnelle
48. 48
La performance
✔Les données restent à la source
▪ Lorsqu’une requête est traitée par Denodo, les données
sont remontées depuis les sources
▪ Potentiellement un volume de données important dans
des sources disparates
✔Stratégie de Denodo : Maximiser le traitement à la source
▪ Minimiser le trafic réseau
▪ Tirer parti des capacités de traitement des sources
▪ Compléter avec un cache intelligent
▪ Optimisations spécifiques pour les sources MPP
(Massively Parallel Processing)
49. 49
La performance
Combiner
Transformer
Livrer
Application
Source
RDBMS
Source
Big Data
Source
Web Service
Un volume de données important
est potentiellement transféré
2) Toutes les données
concernées sont remontées
des systèmes sources
Sans Data
Virtualization…
1) L’utilisateur demande la donnée
à travers une application
3) Les données sont ensuite
combinées et transformées
directement dans l’application
et livrées à l’utilisateur
Tout le travail est
exclusivement
fait dans
l’application
50. 50
La performance
Combiner
Transformer
Livrer
Application
Source
RDBMS
Source
Big Data
Source
Web Service
Avec Data
Virtualization
1) L’utilisateur demande la donnée
à travers une application. Denodo
analyse la requête et envoie des
requêtes ciblées aux sources
2) Le traitement des données à
la source est maximisé via
la délégation, selon leurs
capacités techniques
3) Les données sont ensuite
combinées et transformées
par Denodo, livrées à
l’application
et l’utilisateur
Le travail
est partagé par
les sources et par
Denodo
Le volume de données transféré
est nettement réduit
51. 51
La performance
SELECT c.state, AVG(s.amount)
FROM customer c JOIN sales s
ON c.id = s.customer_id
GROUP BY c.state
Ventes Client
JOIN
GROUP BY
Ventes Client
Table
temporaire
JOIN
GROUP BY
Option 1 Option 2 Option 3
Temp-Client
Les données « clients » et « ventes » sont stockées dans différentes
sources.
Quel est le meilleur plan d'exécution ?
Stratégie fédération simple
(outils BI)
Mouvement temporaire des données
(Si les sources le permettent)
300 M 2 M 2 M
50
Ventes Client
JOIN
GROUP BY
ID
GROUP BY
state
Délégation partielle d'agrégation
2 M
2 M
... juste un exemple parmi les
stratégies appliquées par Denodo
dans l'optimisation des requêtes
52. 52
La performance
SELECT c.state, AVG(s.amount)
FROM customer c JOIN sales s
ON c.id = s.customer_id
GROUP BY c.state
Fonctionnement de Denodo par rapport aux autres moteurs de la fédération
Système Temps d'exécution
Données
transférées
Technique d'optimisation
Denodo 9 sec. 4 M
La delegation de
l'agrégation
Autres 125 sec. 302 M Aucun : scan complet
300 M 2 M
Ventes Client
JOIN
GROUP BY
2 M
2 M
Ventes Client
JOIN
GROUP BY
ID
GROUP BY
state
Pour maximiser la délégation au
dataware, l'agrégation est
divisée en 2 étapes :
• 1ère par ID client
• 2ème par État
Cela a considérablement
réduit le trafic réseau et la
complexité de traitement dans
Denodo
53. 53
« Summaries » et mise en cache dans votre stratégie de modélisation
Couche d’abstraction
Modèles sources originaux
Couche sémantique
Modèle logique DW
Couche métier (optionnel)
Vue dénormalisée pour les entreprises
Couche de Reporting (optionnel)
Rapports prédéfinis avec métriques calculées
Caching
Sources lentes et protégées
uniquement
Summaries
Summaries
Caching
55. AWS Cloud Infrastructure
Azure Cloud Infrastructure
On-Prem Environment
Azure VM
Metro Transit Department
T-Bird
DCHS
Integrated Health
SQL Data Warehouse Azure Data Lake
Databricks Python/Azure ML
SQL Data Warehouse Azure Data Lake
Databricks Python/Azure ML
SQL Data Warehouse Azure Data Lake
KCSO
Analytics Platform
Azure
Commercial
Azure
Commercial
Azure
Government
Enterprise Tools
On-Prem
Host
On-Prem
Host
Data Catalog
(Future)
Data Governance
(Future)
Data Quality
(Informatica)
Client Machines
BI Insights Data Warehouse
Geo
(ArcGIS
Online)
Reports
(Tableau)
Reports
(Power BI)
Dashboards
(Power BI)
Open
Data
(Socrata)
Machine Learning
Predictive Models
Departments
Agencies Citizens Council
Environnement Cloud Denodo
Denodo is Java
code that can be run on
Azure in:
• A VM
• A Docker Container
• A Kubernetes
Cluster
Informatica DI
Subnet
Business Resource Center
HUB VNet
Subnet
VNet
UDR
Peering
On-Prem VM
Subnet
56. 56
Consumption
Layer
Entrepôt de données logique moderne
DATA FLOW
• Join big data and analytical queries housed in ADLS and
other on-Prem Big Data platforms.
• Join Snowflake and secure data across snowflake with
corporate security model while also providing graphical
UI joining tool.
• Leverage azure analytical layer for silo’d data across the
azure services.
• Incorporate relational data from on-prem and cloud
sources.
• Optimize and translate queries across platforms to
increase speed and efficiency of queries.
• Parallel SQL across cloud and on-prem environments for
further optimization and speed increases.
• Provide a single source for all consumption layer no
matter the query or request with complete governance
and audit trail.
1
2
3
4
5
6
7
Source
Layer
Oracle
Big Data
SQL Server
API
SQL
Azure Denodo
Virtualization
API
SQL
On-Prem Denodo
Virtualization
• 3rd Party
Data (IMS,
etc.)
• Internal
Apps
• Email
• External
Apps
• Social
Media
• Flat Files
• IOT
Streams
• Data Hubs
• Regulatory
Authorities
• Rest API’s
ADLS Gen 2
Big Data
Data Lake
Relational
Analytical
Relational
6
5
Data Lake
Relational
Relational
Bbig Data
7
1
2
3
4
2
4
4
1
5
61. Présence Denodo
• Palo Alto (USA) & A Coruña (Espagne)
• Présence mondiale
Leadership
• A l’origine et « Pure Player » de la data virtualization
(leader & pionnier) – depuis 1999
• Reconnaissance des analystes et du marché en tant que
leader (Forrester, Gartner, Clients depuis 6+ ans)
• Nombreux prix
Denodo Technologies
Leader & Pionnier dans la Data Virtualization
Technologie
Industrie
Service financier
Assurance
Santé
Secteur public
Télécommunication
Distribution
Pharma / Bio-Tech
Energie
Clients
• 900+ actifs
• F500, G2000 & Start-ups
Santé financière
• $4B+ Fond privé (HGGC).
• 60+% croissance annuelle; Zéro dette; Rentable.
62. Denodo Technologies
Leader & Pionnier dans la Data Virtualization
Partenaires technologiques
Intégrateurs & ESN
Présence Denodo
• Palo Alto (USA) & A Coruña (Espagne)
• Présence mondiale
Leadership
• A l’origine et « Pure Player » de la data virtualization
(leader & pionnier) – depuis 1999
• Reconnaissance des analystes et du marché en tant que
leader (Forrester, Gartner, Clients depuis 6+ ans)
• Nombreux prix
Clients
• 900+ actifs
• F500, G2000 & Start-ups
Santé financière
• $4B+ Fond privé (HGGC).
• 60+% croissance annuelle; Zéro dette; Rentable.
63. Denodo Technologies
Leader & Pionnier dans la Data Virtualization
AUTO ÉVALUATION
ÉVALUATION COLLABORATIVE
Téléchargez Denodo Express
Contactez-nous !
Évaluez (1h) avec le Test Drive:
Denodo Platform
for AWS, Azure ou GCP
Présence Denodo
• Palo Alto (USA) & A Coruña (Espagne)
• Présence mondiale
Leadership
• A l’origine et « Pure Player » de la data virtualization
(leader & pionnier) – depuis 1999
• Reconnaissance des analystes et du marché en tant que
leader (Forrester, Gartner, Clients depuis 6+ ans)
• Nombreux prix
Clients
• 850+ actifs
• F500, G2000 & Start-ups
Santé financière
• $4B+ Fond privé (HGGC).
• 60+% croissance annuelle; Zéro dette; Rentable.