Se ha denunciado esta presentación.
Se está descargando tu SlideShare. ×

Adaptive Big Data Pipelines

Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio
Anuncio

Eche un vistazo a continuación

1 de 28 Anuncio

Adaptive Big Data Pipelines

Descargar para leer sin conexión

Actualmente existe una ingente cantidad de información generada a cada momento en todo nuestro entorno, la cual puede ser estructurada, semiestructurada y no estructurada. Esta información consume grandes recursos de nuestras organizaciones como memoria, procesamiento, etc. la cual debemos aprovecharla mediante la extracción de información relevante para la organización. Hoy en día ya contamos con instrumentos que nos permiten realizar un análisis inteligente de estos datos, el cual puede ser en tiempo real, que se traduce en ventajas competitivas. Por lo tanto, debemos estar familiarizados con términos y herramientas como Big Data, Mapreduce, Hadoop o computación en la nube.

Actualmente existe una ingente cantidad de información generada a cada momento en todo nuestro entorno, la cual puede ser estructurada, semiestructurada y no estructurada. Esta información consume grandes recursos de nuestras organizaciones como memoria, procesamiento, etc. la cual debemos aprovecharla mediante la extracción de información relevante para la organización. Hoy en día ya contamos con instrumentos que nos permiten realizar un análisis inteligente de estos datos, el cual puede ser en tiempo real, que se traduce en ventajas competitivas. Por lo tanto, debemos estar familiarizados con términos y herramientas como Big Data, Mapreduce, Hadoop o computación en la nube.

Anuncio
Anuncio

Más Contenido Relacionado

Presentaciones para usted (20)

Similares a Adaptive Big Data Pipelines (20)

Anuncio

Más reciente (20)

Anuncio

Adaptive Big Data Pipelines

  1. 1. 1 Adaptive Big Data Pipelines Lograr tempranamente el máximo impacto mientras se desarrolla una plataforma sostenible GLOBAL SOFTWARE CONSULTANCY © ThoughtWorks 2020
  2. 2. Arquitectura de Datos Empresariales Primera generación: Plataformas de Data Warehouse Empresariales y Business Intelligence 2© ThoughtWorks 2019 Pull-based Batch Extracts Enterprise Data Modeling Complex ETL Logic Poorly Suited to Non-relational Data Emergent Design is Difficult Long running ETL Jobs
  3. 3. “El Data Warehouse y BI es uno de los mayores gastos en presupuestos de CIO, y hasta la fecha ha tenido un valor limitado para el negocio.” — Jeff Smith, IBM CIO 3© ThoughtWorks 2020
  4. 4. “Pensemos en un data mart como una tienda de agua embotellada, limpia, empaquetada y estructurada para un consumo fácil; el Data Lake es un gran estanque de agua en un estado más natural. El contenido del Data Lake fluye desde una fuente para llenar el lago, y varios usuarios del lago pueden venir a examinar, sumergirse o tomar muestras ". James Dixon, CTO of Pentaho 4 POR QUÉ NO USAR UN DATA LAKE? © ThoughtWorks 2020
  5. 5. Arquitectura de Datos Empresariales Segunda generación: Ecosistema de Big Data con un Data Lake http://martinfowler.com/bliki/DataLake.html Data Warehouse Los datos entrantes se limpian y organizan en un único esquema coherente antes de ser almacenados. El análisis se realiza directamente en los datos de almacén seleccionados. Data Lake Con un Data Lake, los datos entrantes ingresan al lago en su forma cruda, seleccionamos y organizamos los datos para cada necesidad.
  6. 6. Problemas en los Data Lakes 6© ThoughtWorks 2019
  7. 7. Data Mesh Tercera generación...??? : Move Beyond a Monolithic Data Lake to a Distributed Data Mesh https://martinfowler.com/articles/data-monolith-to-mesh.html
  8. 8. ARQUITECTURA DE DATOS ADAPTATIVA 8© ThoughtWorks 2020
  9. 9. VALORES DE UNA ARQUITECTURA ADAPTATIVA 9 Evolucionar es esencial Resolver durante el camino es una causa de fallo EVOLUCIONAR PARA EL NEGOCIO Arquitectura adaptativa basada en principios garantizan buenos resultados PRINCIPIOS Un diseño emergente es la mejor manera para mitigar riesgos ENTREGA DE VALOR INCREMENTAL ENTREGA ÁGIL Y APRENDIZAJE LEAN Prácticas ágiles son la mejor manera de validar decisiones técnicas y construir la solución correcta © ThoughtWorks 2020
  10. 10. SEPARACIÓN DE RESPONSABILIDADES 10 Los sistemas operacionales se comunican a través de servicios Los sistemas envían los datos usando sus propios esquemas Los científicos de datos exploran los datos para obtener información potencial “Lakeshore marts” limpian y organizan los datos para propósitos específicos © ThoughtWorks 2020
  11. 11. PRINCIPIOS DE DISEÑO ADAPTATIVO 11 Presentación de datos con baja latencia Escalabilidad poco costosa Ingesta de datos simple Streaming sobre batch Fácil recreación de la información Lógica cerca del negocio Diseño emergente Soportar la persistencia políglota Exploración y análisis de datos en crudo © ThoughtWorks 2020
  12. 12. AccessData Hub Canal de mensajes Sistemas de Origen Fit for purpose applications EDW or Marts Plataforma ML Metadata Catalog ML Engines ML Sandbox Deploy Capacidades de negocio Capacidades de negocio Deploy Publish Reportes Publicar Descubrir Archivador de eventos Data cruda Representación canónica Armonizar Catálogo de Datos Capacidades de negocio Data Locality Sistemas Legados / Aplicaciones ARQUITECTURA REFERENCIAL 12 Orquestación del Flujo de Datos Ingesta en Lotes Puede consumir eventos directamente si es necesario © ThoughtWorks 2020
  13. 13. Fuente de Datos e ingesta © ThoughtWorks 2020 Fuente de Datos Capacidades de negocio Sistemas legados Canal de mensajes
  14. 14. Fuente de Datos e ingesta © ThoughtWorks 2020 Consumer Domain Core Customer ML Hub Messaging Infrastructure Store Store Domain Recommendations Data Scientist ML model ML Model Online/Mobile Digital Domain Consumer Products Life Events Shopping Events Online Events Mobile App
  15. 15. Almacenamiento y Gobernanza ● Archivador de eventos ● Data Hub ● Acceso Obtener datos de los streams, administrarlos en el Data Hub y proporcionar los mecanismos adecuados para acceder a ellos. Access Publish Discovery Event Archiver Data Hub Raw Data Canonical Representation Harmonize Data Catalog Compute needing Data locality © ThoughtWorks 2020
  16. 16. ● Consumir mensajes ● Almacenamiento en buffer ● Tamaño o ventanas de tiempo Access Publish Discovery Event Archiver Data Hub Raw Data Canonical Representation Harmonize Data Catalog Compute needing Data locality © ThoughtWorks 2020 Archivador de Eventos
  17. 17. Data Hub ● Raw Data ● Harmonize ● Canonical Representation ● Data Catalog © ThoughtWorks 2020 Access Publish Discovery Event Archiver Data Hub Raw Data Canonical Representation Harmonize Data Catalog Compute needing Data locality
  18. 18. ● Publicar ● Descubrir ● Data locality Access Publish Discovery Event Archiver Data Hub Raw Data Canonical Representation Harmonize Data Catalog Compute needing Data locality © ThoughtWorks 2020 Acceso
  19. 19. Información ● Procesamiento específico para aplicaciones que lo requieren ● Pueden acceder a los datos directamente de los streams de eventos ❏ Spark SQL Fit for purpose applications © ThoughtWorks 2020 Capacidades Capacidades de negocio Deploy Publish Reportes Deploy Capacidades de negocio Información Fit for purpose Applications Almacenes de datos Plataforma ML Metadata Catalog ML Engines ML Sandbox Fit for purpose Applications
  20. 20. Información ● Herramientas que permiten a los científicos de datos crear, desplegar y monitorear ○ ML en el laboratorio ○ ML en producción ❏ cd4ml Plataforma ML © ThoughtWorks 2020 Capacidades Capacidades de negocio Deploy Publish Reportes Deploy Capacidades de negocio Información Fit for purpose Applications Almacenes de datos Plataforma ML Metadata Catalog ML Engines ML Sandbox Fit for purpose Applications
  21. 21. Información ● El almacén de datos los consume desde el hub, lo que convierte al hub en el origen. ● Es el cambio de ETL a ELT (extract-load-transform). Almacenes de datos © ThoughtWorks 2020 Capacidades Capacidades de negocio Deploy Publish Reportes Deploy Capacidades de negocio Información Fit for purpose Applications Almacenes de datos Plataforma ML Metadata Catalog ML Engines ML Sandbox Fit for purpose Applications
  22. 22. Capacidades ● Propuesta de valor ● Diseño de API ● Implementación del servicio De negocio © ThoughtWorks 2020 Capacidades Capacidades de negocio Deploy Publish Reportes Deploy Capacidades de negocio Información Fit for purpose Applications Data Warehouses Plataforma ML Metadata Catalog ML Engines ML Sandbox Fit for purpose Applications
  23. 23. Data Hub Durable Message Pipeline Source Systems Fit for purpose applications EDW or Marts ML Platform Metadata Catalog ML Engines ML Sandbox Deploy Business Capabilities Business Capabilities Deploy Publish Reports Publish Discovery Event Archive Raw Data Canonical Representation Harmonize Data Catalog Business capabilities Compute needing data locality Legacy / COTS ARQUITECTURA REFERENCIAL w/ Candidate Technologies 23 Workflow Orchestration HDFS + IGNITE SPARK + YARN AVRO/ PARQUET HIVE/HBASE IMPALA/ PRESTO ZEPPELIN/ MICHELANGELO SPARK SQL KAFKA SQOOP AIRFLOW/OOZIE TABLEAU SCIKIT-LEARN/ H20.ai GEODE ELASTICSEARCH ATLAS + RANGER NEO4J/TITAN AMBARI + ANSIBLE Batch Ingestion Access May consume events directly if required © ThoughtWorks 2020
  24. 24. Otras preocupaciones en Big Data Pipelines Se debe también tomar en cuenta... 24 CALIDAD DE DATOS SEGURIDAD DE DATOS LINAJE DE DATOS © ThoughtWorks 2020 INTEGRIDAD DE DATOS
  25. 25. Casos de Éxito 25© ThoughtWorks 2020
  26. 26. CALIDAD DE SERVICIO AL CLIENTE 26 Este cliente experimentó un rápido aumento de usuarios, lo que trajo retos en sus técnicas tradicionales de análisis de datos, almacenamiento y minería de datos. Construimos una plataforma de marketing de Big Data que tome decisiones semi-automatizadas y mejore la eficiencia de marketing y la calidad del servicio al cliente. Más adelante, construimos construimos un producto llamado "CEO Fortune Teller" con una interfaz fácil para que los ejecutivos saquen ideas y hagan predicciones para servir mejor a sus clientes. 8% A 46% Aumento de conversaciones en televentas 5 TERABYTES Datos en sus registros 2 HORAS Tiempo en procesar el set entero de datos 1 SEGUNDO Tiempo para retornar las consultas 2 BILLION Registros procesados Uno de los bancos más grandes de China © ThoughtWorks 2020
  27. 27. 27 Desde una perspectiva técnica, la solución contó con un clúster de Hadoop. Los algoritmos de pronóstico se realizaron en R y Hive. Las operaciones de MapReduce desencadenaron el entrenamiento y las predicciones del modelo desde R. Outcome: Utilizamos datos sobre inventario, desviaciones, rendimientos, ventas perdidas, estacionalidad y efectos promocionales para generar previsiones de pretemporada (9 meses de antelación) y en temporada (ciclo de 6 semanas) para optimizar la producción y el stock. Creamos una canalización que genera previsiones de demanda que fue utilizada por los equipos de planificación para el reabastecimiento de artículos en la tienda. © ThoughtWorks 2020
  28. 28. Jennifer Carrillo jcarrill@thoughtworks.com | 28© ThoughtWorks 2020 GRACIAS Carlos Fuentes cfuentes@thoughtworks.com | @educharlief

×