Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Livre blanc data-lakes converteo 2018

2.242 visualizaciones

Publicado el

Converteo renouvelle son panorama sur les opportunités liées à une infrastructure Data-Lakes. Cette technologie a démontré ses capacités d’exploitation et de valorisation des datas des entreprises et, dans un contexte de mise en conformité RGPD, révèle encore plus son agilité.
Mieux comprendre le Data-Lake :
Littéralement traduit par lac de données, il s’agit d’un espace de stockage permettant le traitement d’informations de plusieurs sources et ce, de manière quasi illimitée et en un temps record.

Le Data-Lake est donc une réelle opportunité et doit être considéré en amont de toute démarche data-driven, que ce soit dans le domaine :
- Du marketing : pour alimenter des campagnes, choisir un lieu d’implantation d’un nouveau magasin ;
- De l’expérience client : pour personnaliser une offre, recommander les produits adéquats ;
- De la business Intelligence : pour créer une vision 360° de ses clients, piloter la pression publicitaire ;
- De la performance opérationnelle : pour réduire ses coûts informatiques, adapter ses ressources en fonction de l’activité.

Infrastructure flexible, elle permet donc un large champ d’analyse qualitative avec des données activables à tout moment en fonction des besoins business.

Publicado en: Datos y análisis
  • Sé el primero en comentar

Livre blanc data-lakes converteo 2018

  1. 1. LIVRE BLANC Comprendre les data-lakes Les enjeux des nouvelles infrastructures de la donnée, pour une approche data-driven Janvier 2018
  2. 2. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake en quelques mots c’est : 2 Espace de stockage de données Avec des capacités de traitement Virtuellement sans limite en s’appuyant sur une infrastructure big data (approche distribuée potentiellement dans le cloud) Permettant de stocker tout type de données à moindre coût Une opportunité technologique à mettre au service du business Et de les retraiter en un temps record au moment de leur exploitation
  3. 3. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Sommaire 3 1. Révéler le potentiel business de votre data grâce aux data-lakes 4 2. Intégrer le data-lake dans votre écosystème data 7 3. Mener un projet data-lake 13
  4. 4. Révéler le potentiel business de votre data grâce aux data-lakes 1.
  5. 5. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake est le socle technique d’une démarche data-driven 5 • Alimenter des campagnes marketing data-driven • Retargeter ses prospects chauds • Choisir le lieu d’implantation d’un nouveau magasin • Mesurer la performance de ses campagnes marketing Marketing Business Intelligence • Créer une vision 360° de ses clients • Cruncher la donnée et l’analyser rapidement • Piloter la pression publicitaire Performance opérationnelle • Réduire ses coûts informatiques • Adapter le staffing en fonction de l’activité • Bénéficier d’une infrastructure à l’architecture scalable, évolutive, résiliente et pérenne • Désiloter la donnée au sein de l’organisation • Stocker d’importants volumes de données de toute nature Expérience utilisateur • Améliorer l’expérience client • Personnaliser son offre • Recommander ses produits en fonction de chaque profil client Use cases data-lakes
  6. 6. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Le data-lake est un espace de stockage doté de capacités de traitement de données permettant un large champ d’analyse 6 Il permet le stockage et le traitement de tout type de données (structurées, semi-structurées, non structurées). Ses différentes capacités de traitement sont activées en fonction des cas d’usage. Espace de stockage (système de fichiers distribués) Data Streaming Calcul Big Data, No SQL Machine LearningDatawarehouse Business Intelligence Préparation de données semi ou non structurées Prédiction, recommandations Ingestion et traitement de données en temps réel Data-lake
  7. 7. 2. Intégrer le data-lake dans votre écosystème data Focus sur une vision marketing digital
  8. 8. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Dans un dispositif data & digital le data-lake fait le lien entre les sources de données et les briques d’activation 8 Données comportementales (Web analytics, média, DMP) Cross-canal offline (magasin, service client) Données exogènes (2nd, 3rd party) Personnalisation on- site (web, mobiles ,tablettes) Ingérer toutes les données pour les désiloter Raffiner la donnée, lui donner de l’intelligence Rendre la donnée accessible pour l’exploiter Data-lake *Liste des sources non exhaustive Pilotage (Outil BI / Datavisualisation) Marketing direct (emailing, médias digitaux, SMS) Cross-canal offline (magasin, service client) Données clients (CRM, référentiel personnes, commandes)
  9. 9. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Pourquoi déployer un data-lake lorsque l’on a déjà un datawarehouse ? 9 Le datawarehouse va se trouver en bout de chaîne dans un data-lake. Il s’agit très souvent de la première brique à activer dans une infrastructure data. Datawarehouse Nature des données Modèle de données Finalités Ingestion rapide de nouvelles données de tous types (structurée, semi-structurée, non structurée) Stocke la donnée brute et le résultat des différentes étapes de retraitements. Il permet d’historiser l’information au niveau de granularité le plus faible Stocke uniquement les données déjà structurées et considérées comme « utiles » à l’entreprise Structure peu responsive : nécessite un travail de structuration de la donnée avant de l’ingérer Stocke des données déjà raffinées : des métriques et événements découlant des référentiels de l’entreprise Business Intelligence : data management, reporting, analyse exploratoire La donnée est accessible aux analystes via du SQL car elle est structurée en amont Stocke toutes les données, celles utiles aujourd’hui ou potentiellement dans le futur Big data, data science, temps réels On structure la donnée de manière agile en fonction des cas d’usage Data-lake
  10. 10. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Un data-lake peut s’intégrer dans un écosystème data disposant d’un datawarehouse 10 La gestion d’une brique datawarehouse dans un écosystème disposant d’un data-lake peut s’effectuer de deux manières : 1. Le data-lake peut coexister en parallèle du datawarehouse legacy qui conserve ses fonctions et les deux systèmes sont connectés et échangent leurs données 2. Le data-lake reproduit la brique datawarehouse legacy au sein de sa propre plateforme : elle bénéficie des technologies big data inhérentes au data-lake, et voit sa connexion aux sources de données facilitée Apports du data-lake • Analyses plus avancées (plus grande puissance de calcul) • Meilleure contextualisation de la communication client (ajout de données comportementales) • Optimisation des budgets médias (temps réel) Outil BI / Datavisualisation Données Web Données clients et commandes Données exogènes (2nd, 3rd party) Architecture décisionnelle Datawarehouse (legacy) Médias Marketing relationnel Data-lake
  11. 11. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les évolutions du cloud facilitent le déploiement d’un data-lake et minimisent la prise de risque initiale vis-à-vis de ces projets 11 Localisation des données et rôles « On Premise » Data – center privé Cloud Services « serverless » Facilité de déploiement Ressources nécessaires au fonctionnement de la plateforme Vous devez dimensionner votre infrastructure : provisionnement de ressources machines en fonction de vos besoins Vous installez les distributions logiciels big data (gestion des configurations et mise à jour) Approche Software as a Service (Saas) Le prestataire héberge et administre techniquement la plateforme Vous gérez l’hébergement des données sur vos propres serveurs Vous administrez l’infrastructure (configuration des logiciels, dimensionnement) « On Premise » Cloud computing Approche Infrastructure as a Service (IaaS) Le prestataire héberge vos données Vous administrez l’infrastructure (configuration des logiciels, dimensionnement des serveurs) Vous gérez l’achat et l’installation des serveurs Vous devez dimensionner votre infrastructure : provisionnement de ressources machines en fonction de vos besoins Vous installez les distributions logiciels big data (gestion des configurations et mise à jour) Le prestataire gère la configuration et le dimensionnement de l’infrastructure automatiquement en fonction de votre usage de ses services Investissement dans un data-center Compétences en gestion, en hébergement, en dev-ops (administration de la plateforme) Distribution payante d’un framework big data Facturation en fonction de la location des ressources machines Des compétences dev-ops pour administrer l’infrastructure Distribution payante d’un framework big data Facturation à l’usage du service (stockage et volume de données requêtées). Cela couvre la consommation des ressources machines et le coût du logiciel Exemples de technologies (non exhaustif)
  12. 12. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Pourquoi choisir des technologies Cloud « Serverless » pour déployer vos projets data ? 12 S’appuyer sur des technologies « Serverless » permettant d’accélérer le déploiement de vos cas d’usage Le Cloud « Serverless » vous permet d’exploiter des outils de stockage et de manipulation de données entièrement administrés par votre prestataire Cloud. Au lieu de devoir provisionner en amont des serveurs suffisamment puissants pour absorber les charges hypothétiques, votre prestataire le fait automatiquement au fur et à mesure de votre consommation. La gestion de la sécurité de vos données fait partie du cœur de métier d’un prestataire Cloud. Vous bénéficierez immédiatement, sans effort de votre part, de hauts standards de sécurité. De plus, les principaux acteurs du Cloud proposent des solutions qui sont RGPD compliant. Les coûts initiaux de déploiement sont considérablement réduits : vous payez uniquement ce que vous consommez. Vous pouvez initier des projets data avec un faible budget infrastructure, le temps de prouver la valeur des premiers cas d’usage. Pendant que la plateforme Cloud s’occupe de gérer l’infrastructure, vos équipes peuvent se concentrer sur les complexités propres à votre métier et à vos données
  13. 13. Mener un projet data-lake 3.
  14. 14. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Le déploiement d’un data-lake se fait progressivement avec des cas d’usage 14 • Business Intelligence • Vision Client 360 • Market Automation • Analytics avancées • Segmentation • Scoring • Temps réel • Analyse d’images Data warehouse Data visualisation Machine Learning ETL Big Data Data Streaming Deep learning BigQuery Data Studio Dataflow Datalab Cloud MLDatastorePub/Sub La méthode Converteo : un déploiement progressif cadencé par l’évolution des cas d’usage. Une méthodologie agile, garantissant la création de valeur métier à chaque itération, et à chaque montée en complexité. Complexité croissante Exemples d’outils du stack Google Cloud Platform 1 à 2 mois 2 à 4 mois2 à 3 mois
  15. 15. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les cas d’usage se déploient rapidement via une méthodologie agile 15 Critères de sélection et d’évaluation : Identification de l’impact business Identification de la complexité technique : disponibilité et qualité de la donnée, complexité des traitements et modélisation à appliquer Sélection du cas d’usage Déploiement Collecte des données Évaluation du projet Industrialisation : Les projets peuvent commencer petit, voire même par un mode POC dégradé L’industrialisation se pense dès le début et reste en fil rouge tout au long des projets Une méthodologie agile, avec un déploiement progressif, accélère le déploiement des cas d’usage, facilite l’appropriation des données par les équipes métiers, et améliore le cadrage des cas d’usage suivants Un data-lake reposant sur une infrastructure Cloud permet d’accélérer le déploiement des cas d’usage Durée d’une itération : 1 à 3 mois
  16. 16. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – L’exploitation d’un data-lake est un projet transverse nécessitant un solide sponsoring 16 Direction Générale Direction Marketing Direction Financière Direction du Service Client Direction Commerciale Sponsoring Equipe data-lake Principaux Contributeurs Clients Internes Systèmes d’Information Chef de projet Data engineer Data analyst Data scientist Administrateur système L’agilité nécessaire à un projet data-lake, la spécificité des ressources nécessaires à son exploitation ainsi que la transversalité de ses implications dans l’organisation, nécessitent souvent sa construction en marge ou en parallèle d’un système d’information historique auquel il sera étroitement lié.
  17. 17. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Exploiter un data-lake nécessite une équipe dédiée composée de profils complémentaires 17 Des compétences d’architecte et de dev-ops sont requises pour le projet. Elles sont généralement portées par l’équipe data Chef de projet Identifie et spécifie les uses-cases avec les clients internes et gère leur cadencement Data Engineer Connecte le data-lake à toutes les sources de données, s’assure de la qualité de la donnée et lie la plateforme aux applications externes Data Analyst Définit les KPIs et les métriques à des fins de reporting / dashboarding pour comprendre les processus métiers Data Scientist Exploite en profondeur l’ensemble des données à des fins de prospection, pour déterminer les grandes tendances business et les opportunités que l’organisation devra saisir Afin de mener à bien ces projets transverses, cette équipe devra être dotée de compétences variées : statistiques, data-visualisation, compréhension du métier, préparation de données, software engineering et gestion de projet.
  18. 18. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Les contraintes de mise en conformité avec la GDPR s’intègrent lors de l’exploitation d’un data-lake 18  Le traitement doit être licite et légitime  Les données doivent être pertinentes pour le traitement  Il doit y avoir proportionnalité entre les données traitées et la finalité de traitement Finalité  Les personnes doivent bénéficier d’une information préalable au traitement  Les personnes doivent bénéficier d’un droit d’accès, de rectification et d’opposition Transparence  Les données doivent être protégées et la confidentialité assuréeSécurité  Les données doivent être conservées pour une durée adéquateConservation  On identifie lors du déploiement des uses-case les données pertinentes à traiter et on applique les traitements nécessaires pour anonymiser les données  Cette démarche est favorisée par une méthodologie agile  Un mapping des données, des dictionnaires de données et un modèle d’identifiant client unique doivent être tenus à jour pour garantir un droit à l’accès et à la modification  Le data-lake permet la mise en place de processus de suppression automatique de données  Le critère de la sécurité doit être pris en compte lors du choix d’une technologie de data-lake  Une bonne gouvernance des données doit permettre de contrôler l’accès à la donnée au sein de l’entreprise et des partenaires extérieurs Les principes de base de la protection des données personnelles Des process à appliquer
  19. 19. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – Lancer un projet data-lake dans une organisation 19 Pour lancer un projet data-lake, il vous faut : • Un ou plusieurs cas d’usage • De la data de qualité et une connaissance des systèmes sources • Un Data Scientist / Data Engineer / Data analyst La complexité technologique de ces projets a été grandement réduite par les progrès des technologies Cloud et de big data. Commencer par un Proof of Concept est relativement simple et souvent très utile Commencer par un Proof Of Concept : • Connaissance Client : étude de parcours Cross – Canal • Tester des scénarios d’activation avec des scénarios DMP – Like S’attaquer à un sujet data structurant : • Architecture Décisionnelle à destination d’un projet Business Intelligence • Référentiel Client/Prospect Unique Un projet data-lake va être initié par des cas d’usage. Deux approches complémentaires existent :
  20. 20. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – RETOUR SUR LA MISSION Refonte de l’infrastructure data 20 Objectifs du projet Démarche  Centraliser et faire converger une donnée de qualité pour Maisons du Monde, et rendre la donnée accessible et exploitable pour les besoins métiers suivants : • Scénarios relationnels : optimiser les relances marketing pour adapter la pression 360° en fonction de la réaction des clients • Cross-canal : mesurer la contribution du web à l’activité online en magasin : achats cross-canaux, RoPo*, showrooming Machine Learning L’entraînement du modèle et la demande de prédictions se fait en sollicitant une VM Compute Engine Visualisation Les résultats sont accessibles aux équipes métier via un outil de Data Visualisation Source de données Données produits Données CRM Données digitales (web) Données Magasins Données comptables Données exogènes Google Cloud Platform Stockage en ligne Machines virtuelles scalables Requêtage et traitement de la donnée *Phénomène de Research Online Purchase Offline
  21. 21. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES – RETOUR SUR LA MISSION Développement d’algorithmes prédictifs, scores d’appétence, segments clients avancés 21 Objectifs du projet Démarche  Mettre en place un modèle pour optimiser les budgets média de Club Med Résultats  Identification d’une stratégie optimale d’achat générant jusqu'à 10% d’économie sur les coûts d’acquisition des campagnes de remarketing Adwords A/B testing des campagnes A/B/C test sur Adwords de 3 stratégies de remarketing faisant varier les enchères sur ces visiteurs scorés: +40% / -40% / Témoin Modélisation / Détection d’appétence Attribution à tous les visiteurs du site d’une probabilité de conversion post-première visite via un algorithme auto- apprenant Gradient Boosting Random Forest Industrialisation Automatisation d’une stratégie d’achat en temps réel
  22. 22. Converteo – LIVRE BLANC : COMPRENDRE LES DATA-LAKES Thomas FAIVRE-DUBOZ Directeur Associé et Fondateur @ tfd@converteo.com LES AUTEURS : Arthur FULCONIS Consultant Senior @ af@converteo.com Julien RIBOURT Senior Manager @ jr@converteo.com Emeric TROSSAT Consultant Senior @ et@converteo.com Adrien BOUHOT Consultant Senior @ abo@converteo.com Najlaa BOUALI Consultante @ nb@converteo.com Vincent COSTANZA Consultant Senior @ vco@converteo.com

×