SlideShare una empresa de Scribd logo
1 de 10
Descargar para leer sin conexión
Institut National des Sciences Appliquées et de Technologie Tunisie

Business Intelligence
2013-2014

TP2- I NTEGRATION DES
DONNEES AVEC T ALEND
Dr. Lilia SFAXI
Objectifs du TP : Utilisation de « Talend Open Studio for Data
Integration » pour l’extraction et la transformation de données à
partir et vers des sources différentes.
TP2 : Intégration des données avec Talend

I. Talend Open Studio
« Talend Open Studio

1

» est un ensemble de produits open source pour le

développement, test, déploiement et administration des projets d’intégration de
données et d’applications. Talend fournit une plateforme unifiée qui rend la gestion et
l’intégration des données et applications plus facile, en fournissant un environnement
unifié pour la gestion de tout leur cycle de vie.
Il existe plusieurs solutions offertes par Talend :
-­‐
-­‐

-­‐
-­‐

Big Data : Environnement qui facilite la gestion des données volumineuses.
Data Integration : Ensemble d’outils pour l’intégration de données pour accéder,
transformer et intégrer les données à partir d’un système en temps réel pour
remplir les besoins d’intégration des données.
Data Quality : Permet d’assurer le profiling et monitoring des données pour
identifier des anomalies et assurer la qualité des données.
ESB : Permet la création, la connexion, la médiation et la gestion des services et
leurs interactions.

Pour les besoins de notre TP, nous utilisons « Talend Data Integration » pour la
transformation des données et leur intégration. Il est possible de télécharger toutes les
solutions de Talend Open Studio sur http://fr.talend.com/products/talend-open-studio

I.1

Installation et Démarrage
-­‐

Après avoir installé Talend sur votre machine, le démarrer et créer un nouveau
projet intitulé : Intégration_données.

Remarque : Veiller à ce que votre workspace soit à un emplacement accessible en
lecture et en écriture (comme vos documents ou votre bureau) : Éviter de le créer
directement dans le répertoire d’installation de Talend.
Après la fermeture de la page de Bienvenue, la fenêtre qui s’affiche aura la forme
suivante :

1

Talend: http://fr.talend.com

Page 2
TP2 : Intégration des données avec Talend
2

1

4

3

1

Panneau représentant la structure de votre projet.

2

Panneau affichant l’architecture des Jobs et le code

3

Onglets contenant les propriétés des composants, la
console d’exécution, les problèmes…

4

Palette des différents composants disponibles.

II. Manipulation des Documents
II.1 Préparation des sources de données
Dans ce TP, nous allons manipuler plusieurs sources de données (fichier CSV, fichier texte
et base de données) pour en extraire les données, les transformer et les sauvegarder
dans d’autres supports. La première étape à réaliser est de définir ces sources de
données dans le Repository pour pouvoir générer leurs schémas et les utiliser dans les
activités suivantes.
Remarque : Les fichiers que nous allons ajouter (client.csv et etats.txt) vous ont été fournis
avec le support de TP.
Pour faire cela, suivre les étapes suivantes :

Page 3
TP2 : Intégration des données avec Talend
Dans le panneau (1) représentant le Repository,
développer la section Métadonnées.
Pour définir des sources sous forme de champs séparés
par des délimiteurs (comme des fichiers csv ou texte),
choisir : Créer un fichier délimité.
Entrer le nom du fichier dans la fenêtre qui apparaît :
client (dans notre cas, nous allons ajouter le fichier
client.csv)
Choisir ensuite le fichier que vous désirez ajouter.
Naviguer pour cela vers le fichier client.csv qui vous a
été fournis. Le visualiseur de fichier vous permet d’avoir
une idée sur le contenu de ce fichier.
Cliquer sur suivant.

Dans la fenêtre suivante, cliquer sur la case Définir les
lignes d’en-tête comme nom de colonne. Cliquer
ensuite sur Rafraîchir l’aperçu. L’aperçu du fichier
extrait sera mis à jour, de manière à ce que la
première ligne du fichier représente les noms des
champs.
Cliquer sur suivant.

Modifier le nom du schéma du fichier délimité (client),
et observer la composition des champs dans le
panneau Description du schéma. Vous pourrez ainsi
modifier les données du schéma à votre guise.
Dans notre cas, ne pas oublier de cocher la case Clé
pour le champ id.
Vous pourrez également modifier les longueurs des
champs (les valeurs par défaut ont été calculées par
Talend selon les données déjà présentes dans le
fichier).
Cliquer sur terminer.
Vous avez ainsi ajouté un fichier source, dont le schéma pourra être utilisé dans toute
l’application.

Page 4
TP2 : Intégration des données avec Talend
Activité 1.
-­‐ Générer de même le schéma du fichier état.txt qui vous est fourni.
-­‐ Dans le SGBD de votre choix, créer une base de données client_bd, contenant
une table appelée client. La structure de cette table n’a pas d’importance, elle
sera écrasée plus tard.
-­‐ Ajouter la base de données comme source dans la partie Métadonnées, et
ajouter la table client aux schémas des tables.

II.2 Tri de documents
Dans cette première activité, on se propose de trier le contenu du fichier client.csv de
manière automatique, en utilisant les composants Talend. Pour cela, suivre les étapes
suivantes :
Créer un nouveau Job que vous appellerez
Tri_fichiers
Glisser le fichier délimité client 0.1, que vous
avez créé précédemment, dans le panneau
(2). Indiquer dans la fenêtre qui apparaît que
c’est un tFileInputDelimited.
Cliquer sur OK.

Dans le panneau (4), représentant la palette, choisir
le composant tSortRow dans la catégorie
Transformation. Ce composant permet, comme son
nom l’indique, de faire le tri d’un ensemble de
données, selon une colonne particulière.
Faire glisser ce composant dans la fenêtre
principale.

Page 5
TP2 : Intégration des données avec Talend
Pour représenter le fichier de sortie, faire glisser le
composant tFileOutputDelimited dans la fenêtre
principale. Il se trouve sous la catégorie Fichier ->
Ecriture.

Relier les trois éléments pour représenter la chaîne
d’exécution. Pour cela, faire un clic droit sur le
composant client, maintenir enfoncé, et glisser vers
le composant de tri.
Faire de même entre le composant de tri et le fichier
de sortie.

Nous allons maintenant configurer les trois
composants. Nous allons d’abord définir le nom du
client comme critère de tri, par ordre alphabétique,
du fichier source.
Cliquer sur le composant de tri. Sous l’onglet
Composant du panneau (3), cliquer sur (+). Modifier
la valeur des champs insérés, pour faire le tri selon le
nom de client, par ordre alphabétique ascendant.
Cliquer ensuite sur le composant de sortie.
-­‐ Choisir
l’emplacement
où
on
désire
sauvegarder le fichier de sortie
-­‐ Cocher la case : Inclure l’en-tête pour que l’entête des colonnes s’affiche dans le fichier de
sortie
-­‐ Devant la case Schéma, changer le type de
schéma vers Référentiel, puis cliquer sur […] à
côté de Editer le schéma. Cela permettra de
définir la structure des champs du fichier de
sortie.
-­‐ Dans la fenêtre affichée, choisir le schéma client
du fichier délimité que vous avez créé.

Une fois ces étapes terminées, enregistrer le projet. Pour exécuter le processus, Cliquer sur
l’onglet Exécuter du panneau (3), puis cliquer sur Exécuter. Ou alors taper F6. A la fin de
l’exécution, la trace suivante est affichée sur la fenêtre principale:

Page 6
TP2 : Intégration des données avec Talend

Vérifier que le fichier trié a bien été créé dans le répertoire que vous avez spécifié plus tôt.
Activité 2.
-­‐ Dupliquer le job Tri_fichiers et le nommer Tri_fichier_dans_base
-­‐ Copier les données générées dans le fichier délimité de sortie dans la base de
données client_bd que vous avez créé dans l’activité précédente (au lieu d’un
fichier CSV). A la création, la table cible sera écrasée et remplacée par la table
contenant les données triées.

II.3 Jointure de fichiers
Le fichier etat.txt permet d’associer l’identifiant d’un état américain avec le nom de cet
état. On se propose de faire la jointure des fichiers client.csv et etat.txt pour remplacer
l’identifiant de l’état dans les données du client par son nom.
Pour faire cela, créer un nouveau Job Jointure_fichiers et suivre les étapes suivantes :
Glisser les deux fichiers délimités
client et etat dans le panneau
principal.
Glisser le composant tMap, de la
catégorie Transformation dans le
panneau principal. Ce composant
permet de transformer et diriger les
données à partir d’une ou plusieurs
sources vers une ou plusieurs
destinations.
Enfin, faire glisser un fichier délimité

Page 7
TP2 : Intégration des données avec Talend
de sortie.
Relier les différents composants.
Relier le fichier d’entrée client
d’abord à la tMap, puis le fichier
etats. Relier enfin le la tMap vers le
fichier de sortie. Appeler la sortie
jointure.

Double cliquer sur la tMap pour la
configurer. Une fenêtre s’ouvre.
Commencer par relier le champ
idEtat de la première table row1, au
champ idEtat de la table row2.
Faire glisser ensuite les champs id,
nomClient, et adresseClient de row1,
puis nomEtat de row2 vers la table
de destination jointure.

Configurer ensuite le fichier de sortie en précisant son chemin , et en incluant l’en-tête.
Exécuter le Job, et vérifier le fichier de sortie.
Activité 3.
-­‐ Créer un nouveau Job Jointure_Tri_fichiers_de_base
-­‐ Ce job permet de :
o faire la jointure entre la table client créée dans l’activité 2 et le fichier
etat.txt pour obtenir les champs id, nomClient, adresseClient et nomEtat.
o trier ces données jointes par nom d’état, avant de les stocker dans un
fichier texte clients-etat.txt dont les champs sont délimités par le caractère
« | ».

II.4 Sélection des données
Il est possible de filtrer les données, en rejetant par exemple les entrées erronées. On peut
remarquer dans les données du fichier client.csv que certaines entrées ne comportent
pas de nom d’état. On désire filtrer ces données, et n’enregistrer dans le fichier de sortie
que les données comportant un nom d’état. Les autres données pourront être affichées
dans la console.

Page 8
TP2 : Intégration des données avec Talend
Dupliquer le Job Jointure_fichiers et
le renommer Selection_fichiers.
Double-cliquer sur le composant
tMap pour en modifier les propriétés.
Activer le filtre des données, en
cliquant sur la flèche
de la table
jointure. Entrer ensuite le critère de
sélection des données (en Java)
suivant :
row2.nomEtat !=null
&& !row2.nomEtat.isEmpty()
Créer une deuxième sortie appelée
rejets en cliquant sur (+) au dessus
de jointure.
Faire glisser les champs nomClient et
nomEtat dans la table rejets.

Indiquer que cette table contient les
données rejetées par la sortie
principale en cliquant sur le
tournevis sur la table rejets, et en
mettant le champ catch output
reject à true.
Cliquer sur OK.
Faire glisser le composant tLogRow
de la catégorie Logs et Erreurs dans
la fenêtre principale.
Clic-droit sur la tMap, choisir Ligne>rejet et cliquer sur le composant de
Log pour relier ces deux
composants, et envoyer la sortie
rejet vers le log.
Exécuter le Job et observer le résultat.

III. Homework
A partir des fichiers client.csv et etat.txt, réaliser les opérations suivantes :
1. Stocker dans une nouvelle table de la base de données les données jointes de
ces deux fichiers, en respectant les règles suivantes :

Page 9
TP2 : Intégration des données avec Talend
Les champs de la table seront : id, nomClient, adresseClient, nomEtat,
somme1, somme2, total (où total est calculé en faisant la somme entre
somme1 et somme2)
o Stocker uniquement les clients dont l’état est Alabama
2. Stocker le reste des enregistrements dans un fichier reste.csv dont la structure
contient uniquement le nomClient et l’état.
3. Générer automatiquement un JasperReport à partir de la base créée dans 1.
o

Date de remise du travail : prochaine séance de TP.

Page 10

Más contenido relacionado

La actualidad más candente

Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkAmal Abid
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceLilia Sfaxi
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceLilia Sfaxi
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1Amal Abid
 
Présentation Talend Open Studio
Présentation Talend Open StudioPrésentation Talend Open Studio
Présentation Talend Open Studiohoracio lassey
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehousenzuguem
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQLLilia Sfaxi
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingLilia Sfaxi
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleLilia Sfaxi
 
Integration de donnees_etl
Integration de donnees_etlIntegration de donnees_etl
Integration de donnees_etlhoracio lassey
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesLilia Sfaxi
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleLilia Sfaxi
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopLilia Sfaxi
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehousekhlifi z
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3Amal Abid
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseAbderrahmane Filali
 

La actualidad más candente (20)

Cours Big Data Chap4 - Spark
Cours Big Data Chap4 - SparkCours Big Data Chap4 - Spark
Cours Big Data Chap4 - Spark
 
BigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-ReduceBigData_Chp2: Hadoop & Map-Reduce
BigData_Chp2: Hadoop & Map-Reduce
 
BigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-ReduceBigData_TP1: Initiation à Hadoop et Map-Reduce
BigData_TP1: Initiation à Hadoop et Map-Reduce
 
Cours Big Data Chap1
Cours Big Data Chap1Cours Big Data Chap1
Cours Big Data Chap1
 
Présentation Talend Open Studio
Présentation Talend Open StudioPrésentation Talend Open Studio
Présentation Talend Open Studio
 
DataWarehouse
DataWarehouseDataWarehouse
DataWarehouse
 
Talend
TalendTalend
Talend
 
BigData_Chp4: NOSQL
BigData_Chp4: NOSQLBigData_Chp4: NOSQL
BigData_Chp4: NOSQL
 
BigData_Chp3: Data Processing
BigData_Chp3: Data ProcessingBigData_Chp3: Data Processing
BigData_Chp3: Data Processing
 
Chapitre 2 hadoop
Chapitre 2 hadoopChapitre 2 hadoop
Chapitre 2 hadoop
 
Chp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation MultidimensionnelleChp3 - Modélisation Multidimensionnelle
Chp3 - Modélisation Multidimensionnelle
 
Integration de donnees_etl
Integration de donnees_etlIntegration de donnees_etl
Integration de donnees_etl
 
Technologies pour le Big Data
Technologies pour le Big DataTechnologies pour le Big Data
Technologies pour le Big Data
 
Chp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de DonnéesChp2 - Les Entrepôts de Données
Chp2 - Les Entrepôts de Données
 
Chp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique DécisionnelleChp1 - Introduction à l'Informatique Décisionnelle
Chp1 - Introduction à l'Informatique Décisionnelle
 
BigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans HadoopBigData_TP2: Design Patterns dans Hadoop
BigData_TP2: Design Patterns dans Hadoop
 
Cours data warehouse
Cours data warehouseCours data warehouse
Cours data warehouse
 
Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?Qu'est-ce qu'un ETL ?
Qu'est-ce qu'un ETL ?
 
Cours Big Data Chap3
Cours Big Data Chap3Cours Big Data Chap3
Cours Big Data Chap3
 
Conception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data WarehouseConception et Réalisation d'un Data Warehouse
Conception et Réalisation d'un Data Warehouse
 

Destacado

Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.arnaudm
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...Jean-Pierre Riehl
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence Yassine Badri
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPTriyadadva
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsJean-Marc Dupont
 
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...HAFID Ait Bihi
 
Petit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLIPetit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLICedric CARBONE
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data TalendJean-Michel Franco
 
Webinar Smile et Talend : Faites communiquer vos applications en temps réel
Webinar Smile et Talend  : Faites communiquer vos applications en temps réelWebinar Smile et Talend  : Faites communiquer vos applications en temps réel
Webinar Smile et Talend : Faites communiquer vos applications en temps réelSmile I.T is open
 
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultant
Alphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultantAlphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultant
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultantAlphorm
 
Alphorm.com formation-GNS3
Alphorm.com formation-GNS3Alphorm.com formation-GNS3
Alphorm.com formation-GNS3Alphorm
 
Alphorm.com Formation le langage SQL
Alphorm.com  Formation le langage SQLAlphorm.com  Formation le langage SQL
Alphorm.com Formation le langage SQLAlphorm
 
alphorm.com - Formation PostgreSQL administration
alphorm.com - Formation PostgreSQL administrationalphorm.com - Formation PostgreSQL administration
alphorm.com - Formation PostgreSQL administrationAlphorm
 
alphorm.com - Formation SQL Server 2012 (70-462)
alphorm.com - Formation SQL Server 2012 (70-462)alphorm.com - Formation SQL Server 2012 (70-462)
alphorm.com - Formation SQL Server 2012 (70-462)Alphorm
 

Destacado (20)

Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.Business Intelligence : Transformer les données en information.
Business Intelligence : Transformer les données en information.
 
Rapport De PFE
Rapport De PFERapport De PFE
Rapport De PFE
 
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
MS Experiences 17 - Comment le contrôle de gestion améliore le pilotage de l’...
 
exercices business intelligence
exercices business intelligence exercices business intelligence
exercices business intelligence
 
PFE BI - INPT
PFE BI - INPTPFE BI - INPT
PFE BI - INPT
 
Projet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoinsProjet BI - 1 - Analyse des besoins
Projet BI - 1 - Analyse des besoins
 
Rapport Projet de fin d’études
Rapport Projet de fin d’étudesRapport Projet de fin d’études
Rapport Projet de fin d’études
 
Td dw1
Td dw1Td dw1
Td dw1
 
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
Projet de fin d'études licence Pro TCF Université Ibn Zohr Agadir {Gestion de...
 
Petit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLIPetit Déjeuner Talend/SQLI
Petit Déjeuner Talend/SQLI
 
Certificate Talend
Certificate TalendCertificate Talend
Certificate Talend
 
Rapport PFE
Rapport PFERapport PFE
Rapport PFE
 
[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend[French] Matinale du Big Data Talend
[French] Matinale du Big Data Talend
 
Webinar Smile et Talend : Faites communiquer vos applications en temps réel
Webinar Smile et Talend  : Faites communiquer vos applications en temps réelWebinar Smile et Talend  : Faites communiquer vos applications en temps réel
Webinar Smile et Talend : Faites communiquer vos applications en temps réel
 
Guide talend
Guide talendGuide talend
Guide talend
 
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultant
Alphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultantAlphorm.com Formation  RDS Windows Server 2008 R2 - Guide du consultant
Alphorm.com Formation RDS Windows Server 2008 R2 - Guide du consultant
 
Alphorm.com formation-GNS3
Alphorm.com formation-GNS3Alphorm.com formation-GNS3
Alphorm.com formation-GNS3
 
Alphorm.com Formation le langage SQL
Alphorm.com  Formation le langage SQLAlphorm.com  Formation le langage SQL
Alphorm.com Formation le langage SQL
 
alphorm.com - Formation PostgreSQL administration
alphorm.com - Formation PostgreSQL administrationalphorm.com - Formation PostgreSQL administration
alphorm.com - Formation PostgreSQL administration
 
alphorm.com - Formation SQL Server 2012 (70-462)
alphorm.com - Formation SQL Server 2012 (70-462)alphorm.com - Formation SQL Server 2012 (70-462)
alphorm.com - Formation SQL Server 2012 (70-462)
 

Similar a Intégration des données avec Talend ETL

Mop export-dataloader-salesforce-en-ligne-commande
Mop export-dataloader-salesforce-en-ligne-commandeMop export-dataloader-salesforce-en-ligne-commande
Mop export-dataloader-salesforce-en-ligne-commandeCyrille Coeurjoly
 
Crystal Report avec Microsoft Visual Studio 2010
Crystal Report avec Microsoft Visual Studio 2010Crystal Report avec Microsoft Visual Studio 2010
Crystal Report avec Microsoft Visual Studio 2010Wiki Info Systeme
 
atam guide de developpement v1.3
atam guide de developpement v1.3atam guide de developpement v1.3
atam guide de developpement v1.3Abdessamad Hamouch
 
Jet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAVJet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAVMaroua Bouhachem
 
Framework Hibernate
Framework HibernateFramework Hibernate
Framework HibernateInes Ouaz
 
Création de Services et Configuration du ESB avec TalendESB
Création de Services et Configuration du ESB avec TalendESBCréation de Services et Configuration du ESB avec TalendESB
Création de Services et Configuration du ESB avec TalendESBLilia Sfaxi
 
Entity_framework_db first
Entity_framework_db firstEntity_framework_db first
Entity_framework_db firstZineb ELGARRAI
 
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaSalesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaIlan Malka
 
Cours BASE de DONNES.pdf
Cours BASE de DONNES.pdfCours BASE de DONNES.pdf
Cours BASE de DONNES.pdfManelHamdi7
 
Stratégie et veille : Extraire et trier des données en ligne
Stratégie et veille : Extraire et trier des données en ligneStratégie et veille : Extraire et trier des données en ligne
Stratégie et veille : Extraire et trier des données en ligneErwan Tanguy
 
Exports de r vers office
Exports de r vers officeExports de r vers office
Exports de r vers officefrancoismarical
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendMarc Dutoo
 

Similar a Intégration des données avec Talend ETL (20)

Guidetalendd
GuidetalenddGuidetalendd
Guidetalendd
 
Mop export-dataloader-salesforce-en-ligne-commande
Mop export-dataloader-salesforce-en-ligne-commandeMop export-dataloader-salesforce-en-ligne-commande
Mop export-dataloader-salesforce-en-ligne-commande
 
Crystal Report avec Microsoft Visual Studio 2010
Crystal Report avec Microsoft Visual Studio 2010Crystal Report avec Microsoft Visual Studio 2010
Crystal Report avec Microsoft Visual Studio 2010
 
atam guide de developpement v1.3
atam guide de developpement v1.3atam guide de developpement v1.3
atam guide de developpement v1.3
 
Cours 01.pptx
Cours 01.pptxCours 01.pptx
Cours 01.pptx
 
Jet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAVJet Reports Pour Microsoft Dynamics NAV
Jet Reports Pour Microsoft Dynamics NAV
 
Introduction aspnet
Introduction aspnetIntroduction aspnet
Introduction aspnet
 
Serveur node red
Serveur node redServeur node red
Serveur node red
 
Google drive
Google driveGoogle drive
Google drive
 
Framework Hibernate
Framework HibernateFramework Hibernate
Framework Hibernate
 
Création de Services et Configuration du ESB avec TalendESB
Création de Services et Configuration du ESB avec TalendESBCréation de Services et Configuration du ESB avec TalendESB
Création de Services et Configuration du ESB avec TalendESB
 
Entity_framework_db first
Entity_framework_db firstEntity_framework_db first
Entity_framework_db first
 
OpenESB et BPEL
OpenESB et BPELOpenESB et BPEL
OpenESB et BPEL
 
intro_latex.pdf
intro_latex.pdfintro_latex.pdf
intro_latex.pdf
 
Tp2 - Latex
Tp2 - LatexTp2 - Latex
Tp2 - Latex
 
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaSalesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
 
Cours BASE de DONNES.pdf
Cours BASE de DONNES.pdfCours BASE de DONNES.pdf
Cours BASE de DONNES.pdf
 
Stratégie et veille : Extraire et trier des données en ligne
Stratégie et veille : Extraire et trier des données en ligneStratégie et veille : Extraire et trier des données en ligne
Stratégie et veille : Extraire et trier des données en ligne
 
Exports de r vers office
Exports de r vers officeExports de r vers office
Exports de r vers office
 
Alfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & TalendAlfresco Meetup - ETL Connector & Talend
Alfresco Meetup - ETL Connector & Talend
 

Más de Lilia Sfaxi

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfLilia Sfaxi
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfLilia Sfaxi
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-CassandraLilia Sfaxi
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-CorrectionLilia Sfaxi
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-CorrectionLilia Sfaxi
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-CorrectionLilia Sfaxi
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-CorrectionLilia Sfaxi
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-SéquencesLilia Sfaxi
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-CorrectionLilia Sfaxi
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - CorrectionLilia Sfaxi
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correctionLilia Sfaxi
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrageLilia Sfaxi
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Lilia Sfaxi
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intentsLilia Sfaxi
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web servicesLilia Sfaxi
 
Android - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésAndroid - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésLilia Sfaxi
 

Más de Lilia Sfaxi (20)

chp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdfchp1-Intro à l'urbanisation des SI.pdf
chp1-Intro à l'urbanisation des SI.pdf
 
Plan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdfPlan d'études_INSAT_2022_2023.pdf
Plan d'études_INSAT_2022_2023.pdf
 
Lab3-DB_Neo4j
Lab3-DB_Neo4jLab3-DB_Neo4j
Lab3-DB_Neo4j
 
Lab2-DB-Mongodb
Lab2-DB-MongodbLab2-DB-Mongodb
Lab2-DB-Mongodb
 
Lab1-DB-Cassandra
Lab1-DB-CassandraLab1-DB-Cassandra
Lab1-DB-Cassandra
 
TP2-UML-Correction
TP2-UML-CorrectionTP2-UML-Correction
TP2-UML-Correction
 
TP1-UML-Correction
TP1-UML-CorrectionTP1-UML-Correction
TP1-UML-Correction
 
TP0-UML-Correction
TP0-UML-CorrectionTP0-UML-Correction
TP0-UML-Correction
 
TD4-UML
TD4-UMLTD4-UML
TD4-UML
 
TD4-UML-Correction
TD4-UML-CorrectionTD4-UML-Correction
TD4-UML-Correction
 
TD3-UML-Séquences
TD3-UML-SéquencesTD3-UML-Séquences
TD3-UML-Séquences
 
TD3-UML-Correction
TD3-UML-CorrectionTD3-UML-Correction
TD3-UML-Correction
 
TD2 - UML - Correction
TD2 - UML - CorrectionTD2 - UML - Correction
TD2 - UML - Correction
 
TD1 - UML - DCU
TD1 - UML - DCUTD1 - UML - DCU
TD1 - UML - DCU
 
TD1-UML-correction
TD1-UML-correctionTD1-UML-correction
TD1-UML-correction
 
Android - Tp1 - installation et démarrage
Android - Tp1 -   installation et démarrageAndroid - Tp1 -   installation et démarrage
Android - Tp1 - installation et démarrage
 
Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques Android - Tp2 - Elements graphiques
Android - Tp2 - Elements graphiques
 
Android - Tp3 - intents
Android - Tp3 -  intentsAndroid - Tp3 -  intents
Android - Tp3 - intents
 
Android - TPBonus - web services
Android - TPBonus - web servicesAndroid - TPBonus - web services
Android - TPBonus - web services
 
Android - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancésAndroid - Tp4 - graphiques avancés
Android - Tp4 - graphiques avancés
 

Intégration des données avec Talend ETL

  • 1. Institut National des Sciences Appliquées et de Technologie Tunisie Business Intelligence 2013-2014 TP2- I NTEGRATION DES DONNEES AVEC T ALEND Dr. Lilia SFAXI Objectifs du TP : Utilisation de « Talend Open Studio for Data Integration » pour l’extraction et la transformation de données à partir et vers des sources différentes.
  • 2. TP2 : Intégration des données avec Talend I. Talend Open Studio « Talend Open Studio 1 » est un ensemble de produits open source pour le développement, test, déploiement et administration des projets d’intégration de données et d’applications. Talend fournit une plateforme unifiée qui rend la gestion et l’intégration des données et applications plus facile, en fournissant un environnement unifié pour la gestion de tout leur cycle de vie. Il existe plusieurs solutions offertes par Talend : -­‐ -­‐ -­‐ -­‐ Big Data : Environnement qui facilite la gestion des données volumineuses. Data Integration : Ensemble d’outils pour l’intégration de données pour accéder, transformer et intégrer les données à partir d’un système en temps réel pour remplir les besoins d’intégration des données. Data Quality : Permet d’assurer le profiling et monitoring des données pour identifier des anomalies et assurer la qualité des données. ESB : Permet la création, la connexion, la médiation et la gestion des services et leurs interactions. Pour les besoins de notre TP, nous utilisons « Talend Data Integration » pour la transformation des données et leur intégration. Il est possible de télécharger toutes les solutions de Talend Open Studio sur http://fr.talend.com/products/talend-open-studio I.1 Installation et Démarrage -­‐ Après avoir installé Talend sur votre machine, le démarrer et créer un nouveau projet intitulé : Intégration_données. Remarque : Veiller à ce que votre workspace soit à un emplacement accessible en lecture et en écriture (comme vos documents ou votre bureau) : Éviter de le créer directement dans le répertoire d’installation de Talend. Après la fermeture de la page de Bienvenue, la fenêtre qui s’affiche aura la forme suivante : 1 Talend: http://fr.talend.com Page 2
  • 3. TP2 : Intégration des données avec Talend 2 1 4 3 1 Panneau représentant la structure de votre projet. 2 Panneau affichant l’architecture des Jobs et le code 3 Onglets contenant les propriétés des composants, la console d’exécution, les problèmes… 4 Palette des différents composants disponibles. II. Manipulation des Documents II.1 Préparation des sources de données Dans ce TP, nous allons manipuler plusieurs sources de données (fichier CSV, fichier texte et base de données) pour en extraire les données, les transformer et les sauvegarder dans d’autres supports. La première étape à réaliser est de définir ces sources de données dans le Repository pour pouvoir générer leurs schémas et les utiliser dans les activités suivantes. Remarque : Les fichiers que nous allons ajouter (client.csv et etats.txt) vous ont été fournis avec le support de TP. Pour faire cela, suivre les étapes suivantes : Page 3
  • 4. TP2 : Intégration des données avec Talend Dans le panneau (1) représentant le Repository, développer la section Métadonnées. Pour définir des sources sous forme de champs séparés par des délimiteurs (comme des fichiers csv ou texte), choisir : Créer un fichier délimité. Entrer le nom du fichier dans la fenêtre qui apparaît : client (dans notre cas, nous allons ajouter le fichier client.csv) Choisir ensuite le fichier que vous désirez ajouter. Naviguer pour cela vers le fichier client.csv qui vous a été fournis. Le visualiseur de fichier vous permet d’avoir une idée sur le contenu de ce fichier. Cliquer sur suivant. Dans la fenêtre suivante, cliquer sur la case Définir les lignes d’en-tête comme nom de colonne. Cliquer ensuite sur Rafraîchir l’aperçu. L’aperçu du fichier extrait sera mis à jour, de manière à ce que la première ligne du fichier représente les noms des champs. Cliquer sur suivant. Modifier le nom du schéma du fichier délimité (client), et observer la composition des champs dans le panneau Description du schéma. Vous pourrez ainsi modifier les données du schéma à votre guise. Dans notre cas, ne pas oublier de cocher la case Clé pour le champ id. Vous pourrez également modifier les longueurs des champs (les valeurs par défaut ont été calculées par Talend selon les données déjà présentes dans le fichier). Cliquer sur terminer. Vous avez ainsi ajouté un fichier source, dont le schéma pourra être utilisé dans toute l’application. Page 4
  • 5. TP2 : Intégration des données avec Talend Activité 1. -­‐ Générer de même le schéma du fichier état.txt qui vous est fourni. -­‐ Dans le SGBD de votre choix, créer une base de données client_bd, contenant une table appelée client. La structure de cette table n’a pas d’importance, elle sera écrasée plus tard. -­‐ Ajouter la base de données comme source dans la partie Métadonnées, et ajouter la table client aux schémas des tables. II.2 Tri de documents Dans cette première activité, on se propose de trier le contenu du fichier client.csv de manière automatique, en utilisant les composants Talend. Pour cela, suivre les étapes suivantes : Créer un nouveau Job que vous appellerez Tri_fichiers Glisser le fichier délimité client 0.1, que vous avez créé précédemment, dans le panneau (2). Indiquer dans la fenêtre qui apparaît que c’est un tFileInputDelimited. Cliquer sur OK. Dans le panneau (4), représentant la palette, choisir le composant tSortRow dans la catégorie Transformation. Ce composant permet, comme son nom l’indique, de faire le tri d’un ensemble de données, selon une colonne particulière. Faire glisser ce composant dans la fenêtre principale. Page 5
  • 6. TP2 : Intégration des données avec Talend Pour représenter le fichier de sortie, faire glisser le composant tFileOutputDelimited dans la fenêtre principale. Il se trouve sous la catégorie Fichier -> Ecriture. Relier les trois éléments pour représenter la chaîne d’exécution. Pour cela, faire un clic droit sur le composant client, maintenir enfoncé, et glisser vers le composant de tri. Faire de même entre le composant de tri et le fichier de sortie. Nous allons maintenant configurer les trois composants. Nous allons d’abord définir le nom du client comme critère de tri, par ordre alphabétique, du fichier source. Cliquer sur le composant de tri. Sous l’onglet Composant du panneau (3), cliquer sur (+). Modifier la valeur des champs insérés, pour faire le tri selon le nom de client, par ordre alphabétique ascendant. Cliquer ensuite sur le composant de sortie. -­‐ Choisir l’emplacement où on désire sauvegarder le fichier de sortie -­‐ Cocher la case : Inclure l’en-tête pour que l’entête des colonnes s’affiche dans le fichier de sortie -­‐ Devant la case Schéma, changer le type de schéma vers Référentiel, puis cliquer sur […] à côté de Editer le schéma. Cela permettra de définir la structure des champs du fichier de sortie. -­‐ Dans la fenêtre affichée, choisir le schéma client du fichier délimité que vous avez créé. Une fois ces étapes terminées, enregistrer le projet. Pour exécuter le processus, Cliquer sur l’onglet Exécuter du panneau (3), puis cliquer sur Exécuter. Ou alors taper F6. A la fin de l’exécution, la trace suivante est affichée sur la fenêtre principale: Page 6
  • 7. TP2 : Intégration des données avec Talend Vérifier que le fichier trié a bien été créé dans le répertoire que vous avez spécifié plus tôt. Activité 2. -­‐ Dupliquer le job Tri_fichiers et le nommer Tri_fichier_dans_base -­‐ Copier les données générées dans le fichier délimité de sortie dans la base de données client_bd que vous avez créé dans l’activité précédente (au lieu d’un fichier CSV). A la création, la table cible sera écrasée et remplacée par la table contenant les données triées. II.3 Jointure de fichiers Le fichier etat.txt permet d’associer l’identifiant d’un état américain avec le nom de cet état. On se propose de faire la jointure des fichiers client.csv et etat.txt pour remplacer l’identifiant de l’état dans les données du client par son nom. Pour faire cela, créer un nouveau Job Jointure_fichiers et suivre les étapes suivantes : Glisser les deux fichiers délimités client et etat dans le panneau principal. Glisser le composant tMap, de la catégorie Transformation dans le panneau principal. Ce composant permet de transformer et diriger les données à partir d’une ou plusieurs sources vers une ou plusieurs destinations. Enfin, faire glisser un fichier délimité Page 7
  • 8. TP2 : Intégration des données avec Talend de sortie. Relier les différents composants. Relier le fichier d’entrée client d’abord à la tMap, puis le fichier etats. Relier enfin le la tMap vers le fichier de sortie. Appeler la sortie jointure. Double cliquer sur la tMap pour la configurer. Une fenêtre s’ouvre. Commencer par relier le champ idEtat de la première table row1, au champ idEtat de la table row2. Faire glisser ensuite les champs id, nomClient, et adresseClient de row1, puis nomEtat de row2 vers la table de destination jointure. Configurer ensuite le fichier de sortie en précisant son chemin , et en incluant l’en-tête. Exécuter le Job, et vérifier le fichier de sortie. Activité 3. -­‐ Créer un nouveau Job Jointure_Tri_fichiers_de_base -­‐ Ce job permet de : o faire la jointure entre la table client créée dans l’activité 2 et le fichier etat.txt pour obtenir les champs id, nomClient, adresseClient et nomEtat. o trier ces données jointes par nom d’état, avant de les stocker dans un fichier texte clients-etat.txt dont les champs sont délimités par le caractère « | ». II.4 Sélection des données Il est possible de filtrer les données, en rejetant par exemple les entrées erronées. On peut remarquer dans les données du fichier client.csv que certaines entrées ne comportent pas de nom d’état. On désire filtrer ces données, et n’enregistrer dans le fichier de sortie que les données comportant un nom d’état. Les autres données pourront être affichées dans la console. Page 8
  • 9. TP2 : Intégration des données avec Talend Dupliquer le Job Jointure_fichiers et le renommer Selection_fichiers. Double-cliquer sur le composant tMap pour en modifier les propriétés. Activer le filtre des données, en cliquant sur la flèche de la table jointure. Entrer ensuite le critère de sélection des données (en Java) suivant : row2.nomEtat !=null && !row2.nomEtat.isEmpty() Créer une deuxième sortie appelée rejets en cliquant sur (+) au dessus de jointure. Faire glisser les champs nomClient et nomEtat dans la table rejets. Indiquer que cette table contient les données rejetées par la sortie principale en cliquant sur le tournevis sur la table rejets, et en mettant le champ catch output reject à true. Cliquer sur OK. Faire glisser le composant tLogRow de la catégorie Logs et Erreurs dans la fenêtre principale. Clic-droit sur la tMap, choisir Ligne>rejet et cliquer sur le composant de Log pour relier ces deux composants, et envoyer la sortie rejet vers le log. Exécuter le Job et observer le résultat. III. Homework A partir des fichiers client.csv et etat.txt, réaliser les opérations suivantes : 1. Stocker dans une nouvelle table de la base de données les données jointes de ces deux fichiers, en respectant les règles suivantes : Page 9
  • 10. TP2 : Intégration des données avec Talend Les champs de la table seront : id, nomClient, adresseClient, nomEtat, somme1, somme2, total (où total est calculé en faisant la somme entre somme1 et somme2) o Stocker uniquement les clients dont l’état est Alabama 2. Stocker le reste des enregistrements dans un fichier reste.csv dont la structure contient uniquement le nomClient et l’état. 3. Générer automatiquement un JasperReport à partir de la base créée dans 1. o Date de remise du travail : prochaine séance de TP. Page 10