6. Connaissances et intelligence machine
• Automated Data
Ingestion
• Descriptive Statistics
• Open Metadata
Catalogue
Deep
Profiling
• Pattern Exploration
• Master Data
Discovery
• Value Matching
Deep
Analysis • Correlation Detection
• Anomaly Detection
• Event Prediction
• Human-Machine
Collaboration
Deep
Discovery
Données Information Savoir
Connections
Conversions
Centralisation
Cognition
Continuous
improvement
7. Apporter du”Savoir” dans vos marchés
79% 78%
Les « data
scientists » passent
79% de leur temps à
collecter, nettoyer et
organiser les
données
78% des “data
scientists”
considèrent que
ces taches sont les
plus laborieuses de
leur travail
3+
“Operationalizing and Embedding Analytics for
Action,” TDWI, 2016
La majorité des
modèles prédictif
prennent 3 mois ou
plus à être mis en
production
“2016 Data Science Report,” CrowdFlower 2016“2016 Data Science Report,” CrowdFlower 2016
8. Hitachi Rail (UK)
Business Challenges
▪ Moderniser et améliorer les liaisons de transport
ferroviaire en U.K
▪ Réduire les coûts de maintenance
Use Case
▪ XaaS / « Train As A Service »
▪ Maintenance prédictive & Optimisation des horaires
▪ Internet of Things (IoT)
▪ Big Data Science Pentaho’s technology allows us to innovate
without legions of Big Data Experts!
9. Apporter du “Savoir” avec Pentaho
• Chargement des enregistrements de retard des trains
• Croisement des retards avec les référentiels et préparation des données
pour l’algorithme prédictif
• Exécution de l’algorithme prédictif (Python) directement dans PDI
• Export des « patterns » de retard (lieu, train opérateur, motif) dans un
fichier
Data injection and processing
Algorithm
implementation
10. Data Lake
Architecture Globale du Projet
TMS
OBS
Files
IoT
Analyzer
Alerting
Trend
Monitoring
Visual
Map
Reduce
Machine
Learning
Ingestion Préparation Analyse
Reports
Dashboard
SGBD
Metadata
Ingestion
12. Administration Securité Cycle de vie
Provenance
des données
Data Pipeline
Dynamique
Monitorer Automatiser
Data Engineering
Gestion et automatisation du Pipeline
Ingestion AnalysePréparation
Une approche de bout en bout
13. Pentaho Data Integration
Interface graphique pour construire des “data pipelines” complet
100+ Etapes de
Transformation
Développement
Drag & drop
Configuration
100% GUI-based
Modéliser, Analyser,
et Visualiser
Relational
Applications
Big Data
Much More
14. Résumé: Votre boîte à outils
▪ Systèmes de capture de données
▪ Plateforme de communication “Pipeline”
▪ Plateforme de stockage et de calcul de données
▪ “Data Science”
▪ Outils d'abstraction graphique
▪ Ne vous laissez pas « berner » par la visualisation
IoTDonnées,
Information,
Savoir