Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 25 Anuncio

Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning

Descargar para leer sin conexión

Watch full webinar here: https://bit.ly/3CIN2NT

Los proyectos de Big Data y Machine Learning en muchos casos no logran los beneficios esperados y los lagos de datos se convierten en nuevos silos de datos que aportan poco valor a negocio. Los principales desafíos que encuentran las empresas para un aprovechamiento de las iniciativas de Big Data y Machine Learning son los siguientes:
- Identificación de fuentes de datos relevantes para el análisis del caso de negocio
- Dificultad para la integración de las fuentes de datos, se invierte mucho tiempo en tareas rutinarias de limpieza y preparación
- Problemas de colaboración en el equipo de trabajo: falta de visibilidad de las transformaciones realizadas, dificultad para la compartición de conocimiento y código
- Dificultad para soportar distintos perfiles con niveles de conocimiento dispares (e.g. analistas de negocio vs científicos de datos)
- Compartir resultados con los usuarios de negocio, evitar un nuevo silo de datos en la organización
- Dificultad a la hora de operacionalizar los algoritmos, surtir de datos a los algoritmos para extraer la información
- Las arquitecturas de Data Fabric vienen a facilitar el ciclo de vida de las iniciativas de Big Data y Machine Learning:
- Exploración e identificación de datos relevantes para el análisis mediante el Catálogo de Datos
- Preparación de los datos para alimentar los algoritmos de ML (con total trazabilidad de las combinaciones y transformaciones realizadas)
- Parametrización del algoritmo, tuning y adiestramiento mediante data science notebooks conectados a la capa de virtualización
- Operacionalización del algoritmo como un servicio de datos para usuarios de negocio
- Ofrecen una capa de gobierno y seguridad sobre las fuentes de datos

Los ponentes debatirán las distintas alternativas y cómo las arquitecturas de Data Fabric se han convertido en piezas clave para soportar iniciativas de Big Data y Machine Learning.

Watch full webinar here: https://bit.ly/3CIN2NT

Los proyectos de Big Data y Machine Learning en muchos casos no logran los beneficios esperados y los lagos de datos se convierten en nuevos silos de datos que aportan poco valor a negocio. Los principales desafíos que encuentran las empresas para un aprovechamiento de las iniciativas de Big Data y Machine Learning son los siguientes:
- Identificación de fuentes de datos relevantes para el análisis del caso de negocio
- Dificultad para la integración de las fuentes de datos, se invierte mucho tiempo en tareas rutinarias de limpieza y preparación
- Problemas de colaboración en el equipo de trabajo: falta de visibilidad de las transformaciones realizadas, dificultad para la compartición de conocimiento y código
- Dificultad para soportar distintos perfiles con niveles de conocimiento dispares (e.g. analistas de negocio vs científicos de datos)
- Compartir resultados con los usuarios de negocio, evitar un nuevo silo de datos en la organización
- Dificultad a la hora de operacionalizar los algoritmos, surtir de datos a los algoritmos para extraer la información
- Las arquitecturas de Data Fabric vienen a facilitar el ciclo de vida de las iniciativas de Big Data y Machine Learning:
- Exploración e identificación de datos relevantes para el análisis mediante el Catálogo de Datos
- Preparación de los datos para alimentar los algoritmos de ML (con total trazabilidad de las combinaciones y transformaciones realizadas)
- Parametrización del algoritmo, tuning y adiestramiento mediante data science notebooks conectados a la capa de virtualización
- Operacionalización del algoritmo como un servicio de datos para usuarios de negocio
- Ofrecen una capa de gobierno y seguridad sobre las fuentes de datos

Los ponentes debatirán las distintas alternativas y cómo las arquitecturas de Data Fabric se han convertido en piezas clave para soportar iniciativas de Big Data y Machine Learning.

Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Similares a Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning (20)

Anuncio

Más de Denodo (20)

Más reciente (20)

Anuncio

Arquitectura de Data Fabric: Clave en proyectos de Big Data y Machine Learning

  1. 1. Arquitectura Data Fabric: clave en proyectos de Big Data y Machine Learning Anastasio Molano SVP Technology and Solutions - Denodo Justo Hidalgo Digital Product Management Expert
  2. 2. Agenda • Arquitecturas lógicas de provisión de datos: hacia un lago de datos virtual/lógico • Arquitectura de referencia Lago de Datos • El flujo de trabajo del científico de datos • Ventajas de un lago de datos virtual/lógico
  3. 3. Arquitecturas Lógicas de Provisión de Datos: hacia un lago de datos virtual/lógico
  4. 4. 4 “Logical Data Warehouse”: hacia arquitecturas lógicas Adopt the Logical Data Warehouse Architecture to Meet Your Modern Analytical Needs”. Henry Cook, Gartner April 2018
  5. 5. 5 “Data Fabric”
  6. 6. 6 The “Data Fabric” Gartner Data and Analytics Summit, May 2021
  7. 7. Lagos de Datos Lógicos: Arquitectura de Referencia
  8. 8. 12 Arquitectura de Referencia de un Data Lake Virtual Connect, Introspect, Design, Combine & enhance, Logic to Physical, Intelligent store, Refresh, Expose, Governed & Secured
  9. 9. Cómo la virtualización de datos acelera el flujo de trabajo de los científicos de datos
  10. 10. 15 Flujo de Trabajo típico de un Científico de Datos • Típico flujo de trabajo de un científico de datos • Entender las necesidades de negocio y los requisitos para el análisis • Identificar datos útiles para el análisis • Almacenar datos en el lago • Limpiar y preparar datos en un formato útil • Analizar los datos (volumentría, calidad, etc.) • Preparar los datos de entrada al algoritmo de data science • Ejecutar algoritmos de data science (ML, etc.) • Iterar el proceso hasta conseguir “insights” de valor para el negocio: • tuning del algoritmo (feature engineering, cross validation, grid search) • Visualizar y compartir resultados • Operacionalización como servicio
  11. 11. 16 Flujo de Trabajo típico de un Científico de Datos 80% del tiempo – Identificar, precargar y preparar los datos 10% del tiempo – Análisis, tuning algoritmo 10% del tiempo – Visualización
  12. 12. 17 Fases del ciclo de ciencia de datos
  13. 13. 18 Descubrimiento de datos en el Lago e identificación de fuentes DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML) 1- Los científicos de datos utilizan el Data Catalog para identificar los datsets válidos para el análisis que pueden estar en el lago o en otras fuentes - Descripciones de los datasets - Búsqueda en formato libre (free text- search) - Linaje completo de los datos
  14. 14. 19 Análisis y Exploración de los datos 2 – Análisis de los datos, revisión de volumetría, valores nulos, etc. DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML)
  15. 15. 20 Análisis y Exploración de los datos Consultas sobre la capa de virtualización mediante el intérprete de Denodo
  16. 16. 21 Preparación de datos para ML: transformación, combinación, codificación 3 – Transformación/preparación de Datos, Limpieza, Combinación, construcción del modelo virtual final, adaptación de los datos a los algoritmos de data science - Adaptación de formatos (fechas, horas, etc.) - Limpieza de datos (expresiones regulares, lookups, etc.) - Codificación “One-Hot” - Funciones seno/coseno para limitar varianza de campos numéricos - Etc.
  17. 17. 22 Conexión a Denodo desde Python
  18. 18. 23 Training y tuning del algoritmo de ML 4 – Tuning del algoritmo de ML: - Feature Engineering, - Cross Validation - Grid Search etc. Iteraciones sobre el modelo para su optimización
  19. 19. 24 Operacionalización de los modelos para consulta en línea 5 – Creación de vistas finales para operacionalización del modelo - Generación de Web Services fáciles de utilizar por el usuario
  20. 20. 25 Operacionalización de los modelos modo batch 5b – Materializar el modelo construido si se require mediante Remote Tables DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML) “Remote Table”
  21. 21. 26 Publicación de resultados a los usuarios de negocio 6 – Data Catalog 6 – Publicación de resultados herramientas BI DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML)
  22. 22. 27 Capa de gobierno y control de acceso 6 – Data Catalog 6 – Publicación de resultados herramientas BI DATA VIRTUALIZATION Virtual Schemas (JDBC, ODBC, API, JSON, XML) Auditoría Acceso por roles Seguridad Compliance Trazabilidad 7 – Gobierno de los datos
  23. 23. 28 Mejores Prácticas: Modelo Colaborativo IT - Científicos de Datos 2) Los Data Scientists / Citizen analysts utilizan el Data Catalog para el descubrimiento y la exploración de datos Hadoop platforms E T L Enterprise Data Warehouse NoSQL Data Virtualization 4) Los Data Scientist / Citizen Analysts pueden proponer la operacionalización de los modelos o de los resultados del análisis 5) Los Data Engineers revisan y generan nuevas vistas si es necesario, optimizan el rendimiento, teniendo en cuenta la seguridad y el gobierno de los datos 1) Los Data Engineers exponen vistas de datos curadas a los Citizen Analysts y Data Scientists 3) Los Data Scientists / Citizen analysts preparan los datos y generan sus modelos predictivos y de ML (utilizando lenguajes como Python, etc.) Cloud Data Warehouse HDInsight
  24. 24. Q&A
  25. 25. ¡Gracias! www.denodo.com info@denodo.com © Copyright Denodo Technologies. All rights reserved Unless otherwise specified, no part of this PDF file may be reproduced or utilized in any for or by any means, electronic or mechanical, including photocopying and microfilm, without prior the written authorization from Denodo Technologies.

×