TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

•

0 recomendaciones•192 vistas

tdc-globalcode

Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

Educación

1. Olá, muito prazer!
2. O cenário de BI da Mundi no início de 2017
3. A necesidade
4. A abordagem adotada
5. A solução implementada
6. Como funcionam
7. Prós e Contras
Agenda

Natural de Fortaleza, Ceará
Engenheiro Mecânico-Aeronáutico formado pelo ITA
2 anos e meio no mercado de pagamentos na MundiPagg
Ricardo Duarte Lima

2. O cenário de BI da Mundi no início de 2017

Aplicações ETL dispersas populando índices de Elastic Search
O que tínhamos
Klipfolio como ferramenta de visualização
Dezenas de data sources

Modelo de dados embutido no ETL
Por que não era tão
bom?
Um novo serviço de ETL para cada novo caso de uso
Visualizações com complexidade de construção acima do desejado
Serviços de ETL conectados diretamente nos bancos de produção

Ser capaz de reportar as principais métricas operacionais do negócio com baixa latência
O que gostaríamos
de ter
Ter liberdade e agilidade de conduzir estudos exploratórios mais complexos
Poder expandir o modelo de dados facilmente
Ser capaz de gerar relatórios complexos com baixo tempo de consulta/computação

Ter pessoas que
foquem e
entendam as
necessidades de
negócios

Ter o menor overhead
possível para a
administração e
manutenção do
pipeline de dados

Ser independente
do time de
infraestrutura

Um conjunto de
ferramentas…
ETL Data
Warehouse
Camada de
Modelagem
Visualização &
Exploração

Abrindo os capôs
Entender a fundo como cada uma das ferramentas adotadas
funciona é essencial para o futuro.
Como substituir algo que não temos conhecimento sobre o
funcionamento?

Replicação incremental ou total de diversos bancos de dados
ETL - Alooma
Recebimento de webhooks genéricos
Integração nativa com APIs de diversos SaaS populares

Serviço que possui as consultas mapeadas para cada data source e executa-as periodicamente utilizando
um parâmetro de replicação incremental
Debaixo do capô
Resultados das consultas ou eventos recebidos são modelados e inseridos no Kafka
Um serviço consome os eventos do Kafka e passa por um componente de transformação
customizado escrito em Python, pelo mapper definido e empacotado num arquivo csv que
sofre um upload para um bucket S3
Um outro componente faz a inserção dos dados no Snowflake e em caso de falha, coloca o
evento em uma restream queue
Um task scheduler executa as queries de consolidação no Snowflake quando necessário

Data warehouse na nuvem como serviço
Data warehouse -
Snowflake
Storage separado de compute – inclusive no preço
Consultas SQL

Persistência de dados em buckets S3
Debaixo do capô
Nós de compute separados – virtual warehouses
Dados repousam em micropartições com estatísticas sobre os dados inclusos
Engine própria de queries que interpreta o SQL e monta o plano de execução baseado nas
estatísticas das micropartições dos buckets

Na nuvem ou on premise
Modelagem, exploração e
visualização - Looker
Linguagem própria para definição dos modelos de dados
Engine própria de construção de consultas SQL

Muito rápido de implementar
Prós
Poucas pessoas necessárias para manter
Custo dos serviços superior à utilização de
softwares próprios rodando na AWS
Menor flexibilidade
Contras

www.mundipagg.com
www.mundipagg.com/vagas
Ricardo Duarte Lima
rlima@mundipagg.com
+55 (12) 98120-0886
São Paulo
Rua Fidêncio Ramos, 308, 10º andar, Vila Olímpia
CEP: 04551-902
Rio de Janeiro
Av. General Justo, 375, 9º andar, Centro
CEP: 20021-130

Más contenido relacionado

Similar a TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

Big Data na NuvemAmazon Web Services LATAM

Arquiteturas de Software para o Século XXIAmazon Web Services LATAM

Construindo um data lake na nuvem awsAmazon Web Services LATAM

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services

Microservices com Spring Boot e Spring Cloud NetflixNatanael Fonseca

Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídosluanrjesus

Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM

Como Implementar a Análise de Dados em Tempo RealDenodo

DataLakers 2018 Qmeeting - São PauloEduardo Hahn

Datalakers 2018 QmeetingRoberto Oliveira

SQL SAT Salvador - Arquitetando Data Lake MulticloudLuiz Henrique Garetti Rosário

[MTC 2021] As 8 melhores práticas e formas de simplificar e estruturar todos...minastestingconference

TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analíticotdc-globalcode

Meetup Tivir - Big Data ClustersLuiz Henrique Garetti Rosário

IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...Denodo

Arquiteturas e Estratégias para Criar Aplicações Modernas na AWS - ARC201 - ...Amazon Web Services

Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...Dirceu Resende

AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...Amazon Web Services LATAM

Blueprints & Patterns de Arquitetura para Sistemas que Escalam Linearmente (p...Ricardo Ferreira

Similar a TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde (20)

Big Data na Nuvem

Arquiteturas de Software para o Século XXI

Construindo um data lake na nuvem aws

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit

Microservices com Spring Boot e Spring Cloud Netflix

Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos

Construindo um Data Warehouse moderno com Amazon Redshift

Como Implementar a Análise de Dados em Tempo Real

DataLakers 2018 Qmeeting - São Paulo

Datalakers 2018 Qmeeting

SQL SAT Salvador - Arquitetando Data Lake Multicloud

[MTC 2021] As 8 melhores práticas e formas de simplificar e estruturar todos...

TDC2017 | POA Trilha BigData - Utilizando o Apache Kudu como Workload Analítico

Meetup Tivir - Big Data Clusters

IDC Portugal | Virtualização de Dados como Estratégia de Gestão de Dados para...

Arquiteturas e Estratégias para Criar Aplicações Modernas na AWS - ARC201 - ...

Apresentação Power Embedded - Descubra uma nova forma de compartilhar relatór...

AWS Innovate 2020 - Entenda como o Data Flywheel pode apoiá-lo em sua estraté...

Blueprints & Patterns de Arquitetura para Sistemas que Escalam Linearmente (p...

Más de tdc-globalcode

TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidadetdc-globalcode

TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...tdc-globalcode

TDC2019 Intel Software Day - ACATE - Cases de Sucessotdc-globalcode

TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPAtdc-globalcode

TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVinotdc-globalcode

TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...tdc-globalcode

TDC2019 Intel Software Day - Inferencia de IA em edge devicestdc-globalcode

Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publicatdc-globalcode

Trilha .Net - Programacao funcional usando f#tdc-globalcode

TDC2018SP | Trilha Go - Case Easylocustdc-globalcode

TDC2018SP | Trilha Modern Web - Para onde caminha a Web?tdc-globalcode

TDC2018SP | Trilha Go - Clean architecture em Golangtdc-globalcode

TDC2018SP | Trilha Go - "Go" tambem e linguagem de QAtdc-globalcode

TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendenciatdc-globalcode

TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Servicetdc-globalcode

TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NETtdc-globalcode

TDC2018SP | Trilha .Net - Novidades do C# 7 e 8tdc-globalcode

TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...tdc-globalcode

TDC2018SP | Trilha .Net - .NET funcional com F#tdc-globalcode

TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Coretdc-globalcode

Más de tdc-globalcode (20)

TDC2019 Intel Software Day - Visao Computacional e IA a servico da humanidade

TDC2019 Intel Software Day - Tecnicas de Programacao Paralela em Machine Lear...

TDC2019 Intel Software Day - ACATE - Cases de Sucesso

TDC2019 Intel Software Day - Otimizacao grafica com o Intel GPA

TDC2019 Intel Software Day - Deteccao de objetos em tempo real com OpenVino

TDC2019 Intel Software Day - OpenCV: Inteligencia artificial e Visao Computac...

TDC2019 Intel Software Day - Inferencia de IA em edge devices

Trilha BigData - Banco de Dados Orientado a Grafos na Seguranca Publica

Trilha .Net - Programacao funcional usando f#

TDC2018SP | Trilha Go - Case Easylocus

TDC2018SP | Trilha Modern Web - Para onde caminha a Web?

TDC2018SP | Trilha Go - Clean architecture em Golang

TDC2018SP | Trilha Go - "Go" tambem e linguagem de QA

TDC2018SP | Trilha Mobile - Digital Wallets - Seguranca, inovacao e tendencia

TDC2018SP | Trilha .Net - Real Time apps com Azure SignalR Service

TDC2018SP | Trilha .Net - Passado, Presente e Futuro do .NET

TDC2018SP | Trilha .Net - Novidades do C# 7 e 8

TDC2018SP | Trilha .Net - Obtendo metricas com TDD utilizando build automatiz...

TDC2018SP | Trilha .Net - .NET funcional com F#

TDC2018SP | Trilha .Net - Crie SPAs com Razor e C# usando Blazor em .Net Core

Último

BRASIL - DOMÍNIOS MORFOCLIMÁTICOS - Fund 2.pdfHenrique Pontes

Cenários de Aprendizagem - Estratégia para implementação de práticas pedagógicasRosalina Simão Nunes

Gerenciando a Aprendizagem OrganizacionalJacqueline Cerqueira

Apresentação | Eleições Europeias 2024-2029Centro Jacques Delors

FCEE - Diretrizes - Autismo.pdf para imprimirIedaGoethe

Intolerância religiosa. Trata-se de uma apresentação sobre o respeito a diver...LizanSantos1

Simulado 1 Etapa - 2024 Proximo Passo.pdfEditoraEnovus

Programa de Intervenção com Habilidades MotorasCassio Meira Jr.

Educação São Paulo centro de mídias da SPanandatss1

A Arte de Escrever Poemas - Dia das MãesMary Alvarenga

Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024EMBcae consultoria e assessoria educacional

A galinha ruiva sequencia didatica 3 anoandrealeitetorres

Sociologia Contemporânea - Uma Abordagem dos principais autoresaulasgege

ABRIL VERDE.pptx Slide sobre abril ver 2024Jeanoliveira597523

Prática de interpretação de imagens de satélite no QGISVitor Vieira Vasconcelos

UFCD_10392_Intervenção em populações de risco_índice .pdfManuais Formação

Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.

QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxIsabellaGomes58

637743470-Mapa-Mental-Portugue-s-1.pdf 4 anoAdelmaTorres2

Mesoamérica.Astecas,inca,maias , olmecasRicardo Diniz campos

TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

1. Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

2. 1. Olá, muito prazer! 2. O cenário de BI da Mundi no início de 2017 3. A necesidade 4. A abordagem adotada 5. A solução implementada 6. Como funcionam 7. Prós e Contras Agenda

3. 1. Olá, muito prazer!

4. Natural de Fortaleza, Ceará Engenheiro Mecânico-Aeronáutico formado pelo ITA 2 anos e meio no mercado de pagamentos na MundiPagg Ricardo Duarte Lima

5. 2. O cenário de BI da Mundi no início de 2017

6. Aplicações ETL dispersas populando índices de Elastic Search O que tínhamos Klipfolio como ferramenta de visualização Dezenas de data sources

7. Modelo de dados embutido no ETL Por que não era tão bom? Um novo serviço de ETL para cada novo caso de uso Visualizações com complexidade de construção acima do desejado Serviços de ETL conectados diretamente nos bancos de produção

8. 3. A necessidade

9. Ser capaz de reportar as principais métricas operacionais do negócio com baixa latência O que gostaríamos de ter Ter liberdade e agilidade de conduzir estudos exploratórios mais complexos Poder expandir o modelo de dados facilmente Ser capaz de gerar relatórios complexos com baixo tempo de consulta/computação

10. 4. A abordagem adotada

11. Ter pessoas que foquem e entendam as necessidades de negócios

12. Ter o menor overhead possível para a administração e manutenção do pipeline de dados

13. Ser independente do time de infraestrutura

14. 5. A solução implementada

15. Um conjunto de ferramentas… ETL Data Warehouse Camada de Modelagem Visualização & Exploração

16. Na nuvem

17. 6. Como funcionam

18. Abrindo os capôs Entender a fundo como cada uma das ferramentas adotadas funciona é essencial para o futuro. Como substituir algo que não temos conhecimento sobre o funcionamento?

19. Replicação incremental ou total de diversos bancos de dados ETL - Alooma Recebimento de webhooks genéricos Integração nativa com APIs de diversos SaaS populares

20. Serviço que possui as consultas mapeadas para cada data source e executa-as periodicamente utilizando um parâmetro de replicação incremental Debaixo do capô Resultados das consultas ou eventos recebidos são modelados e inseridos no Kafka Um serviço consome os eventos do Kafka e passa por um componente de transformação customizado escrito em Python, pelo mapper definido e empacotado num arquivo csv que sofre um upload para um bucket S3 Um outro componente faz a inserção dos dados no Snowflake e em caso de falha, coloca o evento em uma restream queue Um task scheduler executa as queries de consolidação no Snowflake quando necessário

21. Data warehouse na nuvem como serviço Data warehouse - Snowflake Storage separado de compute – inclusive no preço Consultas SQL

22. Persistência de dados em buckets S3 Debaixo do capô Nós de compute separados – virtual warehouses Dados repousam em micropartições com estatísticas sobre os dados inclusos Engine própria de queries que interpreta o SQL e monta o plano de execução baseado nas estatísticas das micropartições dos buckets

23. Na nuvem ou on premise Modelagem, exploração e visualização - Looker Linguagem própria para definição dos modelos de dados Engine própria de construção de consultas SQL

24. 7. Prós e Contras

25. Muito rápido de implementar Prós Poucas pessoas necessárias para manter Custo dos serviços superior à utilização de softwares próprios rodando na AWS Menor flexibilidade Contras

26. www.mundipagg.com www.mundipagg.com/vagas Ricardo Duarte Lima rlima@mundipagg.com +55 (12) 98120-0886 São Paulo Rua Fidêncio Ramos, 308, 10º andar, Vila Olímpia CEP: 04551-902 Rio de Janeiro Av. General Justo, 375, 9º andar, Centro CEP: 20021-130

TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

Recomendados

Recomendados

Más contenido relacionado

Similar a TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde

Similar a TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde (20)

Más de tdc-globalcode

Más de tdc-globalcode (20)

Último

Último (20)

TDC2017 | POA Trilha BigData - Implementando uma arquitetura de BI e Big Data na nuvem em tempo recorde