Présentation de ma session à l'USI 2013 : www.usievents.com
Les principes des architectures décisionnelles ont... 20 ans.
Si on peut leur souhaiter de vivre aussi longtemps que le mainframe, il va être nécessaire de s’adapter à un contexte riche en changement :
- L'explosion de la volumétrie, des usages, de la diversité, l'instantanéité, bref Big Data
- La réduction du time to market dans un contexte de baisse du budget
- La volonté d'indépendance des utilisateurs et des métiers
- Le raz de marée apporté par de nouveaux paradigmes et solutions (NoSQL, in memory, dataviz, R....)
Ce que je propose donc dans cette session c'est un petit guide de survie en 7 points touchant aussi bien à l'architecture, qu'aux pratiques de développements ou à l'organisation.
Mon objectif est de redonner de l'espoir, ou au moins de faire persister encore quelques années les systèmes d'information décisionnels afin de fêter les noces de perles !!
9. Reporting « standard »
9
ARCHITECTURE
Architecture classique, s’appuyant sur un
datawarehouse et des datamarts (logiques ou
physiques)
OUTILS
- Balance scorecard, reporting réglementaire
- Reporting régulier à large diffusion au sein de
l’entreprise
- Reporting ad-hoc volumétrie faible <100 000
lignes
- Processus industriel
- lead time de 3 mois
- SLA Moyenne
CAS D’USAGE CARACTÉRISTIQUES
SO
SO
DWH
DM
DM
ETL / ELT ETL / ELT
10. Le laboratoire
10
ARCHITECTURE
Architecture de type « datalabs », avec des
workspaces par utilisateur ou par équipe (sur le
serveur avec ressources cappées, ou sur le
poste utilisateur). Possibilité d’intégrer aux
workspaces des données externes à des fins de
croisement.
OUTILS
- Prédiction de tendance
- Segmentation, classification
- Analyse factorielle
- Toutes activités de datamining/machine
learning
- Processus propre aux utilisateurs
- lead time à la semaine / à la journée
- SLA 99% hors workspace
CAS D’USAGE CARACTÉRISTIQUES
SO
SO
DWHETL/ELT Worksp
Worksp
Autre
source
11. Archivage on line
11
ARCHITECTURE
Stockage supplémentaire sur un système de
fichiers distribué sur commodities hardware
OUTILS
- Archivage des données anciennes et fines,
avant purge du datawarehouse
- Requêtes exceptionnelles sans contraintes de
performance sur des historiques sur des
dizaines d’années
- Accès à des données archivées
- Processus indutriel
- lead time au mois
- SLA 99%
CAS D’USAGE CARACTÉRISTIQUES
SO
SO
DWH
ETL / ELT
Mapreduce
DWHDonnées
froides
DM
DM
ETL / ELT
Requêtage
13. Tests
Politique de tests aujourd'hui
13
Unitaires
D’intégration
Fonctionnels
D’IHM
De recette
De
performance
14. Tests
Politique de tests demain?
14
Unitaires
D’intégration
Fonctionnels
D’IHM
De recette
De
performance
15. Software factory : pourquoi?
15
1 - Productivité
• Standardisation des outils
• Automatiser les tâches répétitives : déploiement, contrôle…
• Génération de la documentation
2 - Qualité
• Outiller la stratégie de test
• Limiter les régressions
• Partager le harnais de test
3 – Coopération
• Cadre de travail commun
• Partage des mêmes informations
De « plug & pray »
à « plug & play »
16. 16
Intégrateur
Equipes dév
Gestionnaire de build
DBUnit
Liquibase
Client source
Ant
Jenkins
Int. continue
Teradata
Cognos
SPSS
Client CFT
Poste de dév
IDE
Clients
Cognos-SPSS
DBUnit
Liquibase
Client
Teradata
Ant
Recette
Teradata
Cognos
SPSS
Client CFT
Qualification
Teradata
Cognos
SPSS
Client CFT
Production
Teradata
Cognos
SPSS
Client CFT
Data
Data Data Data Data
Changelog
framework
SQL
Ksh, XML
Jeux de
test U
Source SVN
Espace doc
Sites de reporting
(qualité, tests …)
JIRA
Fitnesse
Confluence
Commit
Pull
Tag
Reporting
Deploy + migrate + test
(automatique)
Deploy + migrate + test
(manuel)
Deploy + migrate
(manuel)
Package
Dév des
templates de
reporting
production
MOA, Dév, …
MOA +
20. Le reporting n’est pas en reste
20
Datamining
SAS (SAS/ACCESS et SAS BASE)
R RevoScale
Business Intelligence
SAP Business Object
Oracle BIEE
MicroStrategy
IBM BigSheets
IBM Cognos
Tableau
Tibco Spotfire
Pentaho
QlikTech
HDFS File Hive QL MapReduce
scripting
26. L’analyste de données ou data scientist doit
développer des compétences multiples
26
Métiers
• La préparation des
données (données
non structurées)
• La qualité des
données traitées
• Les outils et langages
(perl, python, R,
mapreduce…)
• Les représentations
visuelles
• Identifier les sources de
données
• Définir la stratégie
d’analyse
• Interpréter des résultats
et leur communiquer
• La démarche
scientifique
• Les algorithmes
utilisables et leur
optimisation
• L’automatisation de
l’analyse des résultats
Système
d’information
Mathématiques
et statistiques
31. 31
S’adapter ou mourir
One size doesn’t fit all
Break the wall
Java is the new heaven
Un datawarehouse agile, c’est…
Les statistiques, c’est chic
Si vous n’avez pas de problème…