1. INTÉGRATION DE DONNEES
AVEC UN ETL OPEN SOURCE :
OPEN STUDIO TOS
Presenté par LASSEY horacio (horalass@gmail.com)
2. Agenda
C’est quoi un ETL
Présentation de Talend Open Studio
Avantages des solutions ETL
Critères de sélection d’un ETL
Démo : création de quelques jobs talend
Conclusion
3. C’est quoi un ETL
ETL est l’acronyme de Extract Transform Load. Un
ETL combine en elle seule trois fonctionnalités :
extraction depuis une source de données , la
transformation des données issues de l’étape
précédente et enfin le load (chargement) dans une
nouvelle source de données.
On utilise les ETL pour les projets d’intégration de
données (structure BI), de synchronisation de sources
de données, migration de données etc…
4. Presentation de Talend Open Studio
TOS est un ETL de la société Talend
C’est un projet open source
C’est une application Eclipse plateforme
Première version en 2005
C’est un ETL générateur de code (Java, Perl )
5. Avantages des solutions ETL
Dans un environnement décisionnel une partie des
besoins ne survient qu’après la mise en production. Il
faut pouvoir adapter rapidement son code ETL au
nouveau des utilisateurs tout en gardant une bonne
qualité du code
Nécessité de transformer certains données
opérationnelles
Il faut pouvoir stocker les metadata des transformations
La plupart des solutions ETL propose des exécutions en
parallèle et du multi-threading ce qui les rend plus
performants qu’un code simple
6. Avantages des solutions ETL (suite)
Accès à des sources de données très diversifiées et
intégration des fonctions de filtre, agrégation etc.
Gestion centralisée des metadata
Utilisation d’interface graphique conviviale pour
exécuter les tâches ETL
7. Critère de sélection d’un ETL
Type d’ETL : code generator, database-embedded,
engine based
Connecteur natif : SAP, salesforce, XML, etc
Les temps d’exécution.
Type de déclencheur ( temps réel , sur évènement ,
batch)
8. Démo : création de quelques jobs
talend
Job step1
Présentation d’un job talend
Utilisation des statistiques
Utilisation des traces
9. Démo : création de quelques jobs
talend(suite)
Job step2
Utilisation de tMap pour se connecter à des sources
multiples de données
Utilisation des métadonnées
10. Démo : création de quelques jobs
talend(suite)
Job step3
Orchestration et gestion des flows
11. Démo : création de quelques jobs
talend(suite)
Job step4
Gestion des erreurs et déploiement des jobs
12. Conclusion
Le choix d’un etl est très influencé par le projet que l’on
fait et le contexte
Mais pour faire son choix il faut tenir compte :
Connecteurs natifs
du temps de traitements
du type d’etl ( générateur de code, moteur de
transformation, etc)
du type de déclencheur
Il existe plusieurs ETL open source : Talend , Pentaho
data Integration etc pour s’essayer et faire la preuve du
concept