SlideShare una empresa de Scribd logo
1 de 52
Descargar para leer sin conexión
São Paulo
Maio/2015
Padrões de Arquitetura para
Big Data
Hélio Silva
Sr. Big Data Analytics Consultant
Professional Services
AWS Summit São Paulo – Maio/2015
Henrique Souza
Especialista de Cloud e Big Data
Agenda
• Desafios de um projeto de Big Data
• Visão simplificada do processamento Big Data
• Qual tecnologia usar?
• Arquitetura de referência
• Design patterns
Desafios de um projeto de Big Data
Big Data: Volume cresce continuamente
De PB para ZB
GB
TB
PB
ZB
EB
1990 2000 2010 2020
Big Data tem que responder mais rápido
Big Data Real-time Big Data
Um monte de soluções e componentes
Glacier
S3 DynamoDB
RDS
EMR
Redshift
Data Pipeline
Kinesis
Cassandra CloudSearch
AML
O que devo usar ?
Simplificando o processamento
do Big Data
Simplificando o processamento do Big Data
Ingestão
Persistência /
Storage Processamento Visualização
Dados
Respostas
Tempo
Glacier
S3
DynamoDB
RDS
Kinesis
Spark
Streaming
EMR
Ingestão Persistência Processo/Análise Visualização
Data Pipeline
Storm
Kafka
Redshift
Cassandra
CloudSearch
Kinesis
Connector
Kinesis
enabled app
App Server
Web Server
Devices
AML
Ingestão
de
dados
Tipos de dados para ingestão
• Transacional
– SGBD leitura/escrita
• Arquivos
– Click-stream logs
– Texto livre
• Stream
– IoT devices
– Tweets
Database
Cloud
Storage
Stream
Storage
Stream
Storage
Database
Cloud
Storage
✔
Por que um Stream Storage?
• Converte múltiplos
streams em poucos e
persistentes ordenados
sequencialmente
• Desconecta produtores e
consumidores de dados
• Atua como um buffer ou
uma fila
• Streams em sequência
são mais fáceis de
processar
• Preserva a ordenação
para os consumidores
• Streaming “MapReduce”
• Consumidor pode dar um
replay e reprocessar
Qual Stream Store devo usar?
• Amazon Kinesis e Kafka têm muitas semelhanças
– Múltiplos consumidores
– Ordenação dos registros
– “MapReduce” do Streaming
– Baixa Latência
– Alta durabilidade, disponibilidade e escalabilidade
• Diferenças
– Um registro dura 24 horas no Kinesis, no Kafka é configurável
– Tamanho de 50 Kb no Kinesis, no Kafka é configurável
– Kinesis é um serviço totalmente gerenciável – fácil de provisionar, monitorar
e escalar.
Kafka exige um trabalho de gestão de disponibilidade e escala como um
processo ‘on-premisses’
Cloud Database &
Storage
✔
✔
Cloud Database and Storage Tier Anti-pattern
App/Web Tier
Client Tier
Database & Storage Tier
Database e Storage na nuvem — As ferramentas corretas
App/Web Tier
Client Tier
Data Tier
Database & Storage Tier
Search
Hadoop/HDFS
Cache
Blob Store
SQL NoSQL
Database e Storage na nuvem — As ferramentas corretas
App/Web Tier
Client Tier
Data Tier
Database & Storage Tier
Amazon RDSAmazon
DynamoDB
Amazon
ElastiCache
Amazon S3
Amazon
Glacier
Amazon
CloudSearch
HDFS on Amazon EMR
Qual Storage devo usar?
• Nível de estruturação dos dados
• Complexidade das suas queries
Grau de estruturação e complexidade de query
X
Storage
Structured – Simple Query
NoSQL
Amazon DynamoDB
Cache
Amazon ElastiCache
Structured – Complex Query
SQL
Amazon RDS
Search
Amazon CloudSearch
Unstructured – No Query
Cloud Storage
Amazon S3
Amazon Glacier
Unstructured – Custom Query
Hadoop/HDFS
Elastic MapReduce
Graudeestruturação
Grau de complexidade das queries
Qual a temperatura dos seus dados?
Características dos dados: Quente, Morno, Frio
Quente Morno Frio
Volume MB–GB GB–TB PB
Tamanho de registro B–KB KB–MB KB–TB
Latência ms ms, seg min, horas
Durabilidade Baixa–Alta Alta Muito Alto
Freq. de requisições Muito Alta Alto Baixo
Custo/GB $$-$ $-¢¢ ¢
Amazon
RDS
Frequência de Requisições
alta baixa
Custo/GB
alta baixa
Latência
baixa alta
Data Volume
baixa alta
Amazon
Glacier
Amazon
CloudSearch
Estruturação
baixa
alta
Amazon
DynamoDB
Amazon
ElastiCache
Process
✔ ✔
AML
Processamento
• Análise Descritiva: BI, OLAP, SQL/data warehouse
• Análise Preditiva: sistemas de recomendação,
previsão de page-views, leilão de anúncios on-line
• Classificação: análise de sentimento, fraude, anti
spam, clustering de clientes para formação de perfis
de consumo
• Correlação: comparar o que se sabe sobre negócio
(BI) com oscilações de mercado, tempo e
temperatura, reputação nas redes sociais
Frameworks de processamento
Normalmente em dois tipos:
• Batch
– Processamento regular (ex: ETL)
– Análise exploratória (ex:data science)
• Stream
– IoT, click-stream, social monitoring,
crawlers, etc
Processamento Batch
• Acessar um grande volume de dados frios
e interagir buscando correlações
• Pesquisar uma faixa restrita de tempo
Exemplo: Gerar relatórios por hora, dia, mês ou
semana
Caso de uso: Processamento Batch para ETL
Amazon
EMR
Amazon
S3
Amazon
Glacier
Amazon
Redshift
Processamento de Stream
• Analisa dados em pequenos grupos
– CEP – Complex Event Processor (if/then/else)
– Machine Learning (fraude, recomendação, etc.)
• Responde em um espaço curto de tempo
– Real time ou near realtime dependendo da aplicação
Exemplo: Análise de 1min de operação
Ferramentas
• Batch processing/analytic
– Amazon Redshift
– Amazon EMR
• Hive, Pig, Spark, Impala, Presto, …
• Stream processing
– Apache Spark streaming
– Apache Storm (+ Trident)
– Amazon Kinesis client and
connector library
AML
Qual ferramenta de processamento batch devo usar?
Redshift Impala Presto Spark Hive
Latência de
query
Baixa Baixa Baixa Baixa - Média Média - Alta
Durabilidade Alta Alta Alta Alta Alta
Volume 1.6PB Max ~Nós ~Nós ~Nós ~Nós
Gerenciado Sim EMR
bootstrap
EMR
bootstrap
EMR
bootstrap
Sim (EMR)
Storage Nativo HDFS HDFS/S3 HDFS/S3 HDFS/S3
# of BI Tools Alta Média Alta Baixa Alta
Latência
de query
Baixa Alta
Qual processamento de Stream devo usar?
Spark Streaming Apache Storm
+ Trident
Kinesis Client
Library
Escalabilidade/Thr
oughput
~ Nós ~ Nós ~ Nós
Volume ~ Nós ~ Nós ~ Nós
Gerenciamento Sim (EMR
bootstrap)
Faça você
mesmo
EC2 + Auto Scaling
Tolerância a falhas Built-in Built-in KCL Check pointing
Linguagens de
programação / API
Java, Python, Scala Java, Scala,
Clojure
Java, Python
✔ ✔ ✔
AML
Juntando tudo
Arquitetura desconectada
• Múltiplos estágios
• Storage desconectado do processamento
Process Store Process StoreData Answers
Aplicações de processamento (ou conectores)
podem gravar em Múltiplos Data Stores
Amazon
Kinesis
Amazon
Kinesis
Connectors
Amazon
S3
Data Amazon
DynamoDB
Lambda Architecture
Análise
Real Time
Análise
Exploratória
Frameworks de processamento lendo múltiplos
Data Stores
Amazon
Kinesis
Amazon
Kinesis
Connectors
Amazon
S3
Data Amazon
DynamoDB
Hive Spark
Answers
Storm
Answers
Design Patterns
Spark
Streaming,
Apache
Storm
Amazon
Redshift Spark,
Impala,
Presto
Hive
Amazon
Redshift
Hive
Spark,
Presto
Amazon
Kinesis/
Kafka
Amazon
DynamoDB
Amazon S3Dados
Quente FrioTemperatura dos dados
Latênciadequery
Baixa
Alta
Respostas
HDFS
Hive
Native
Client
Temperatura dos dados X Latência da query
Spark
Streaming
Amazon Kinesis / KafkaDados
Apache Storm Native Client
Processamento Real-time
Amazon
DynamoDB
Native
Client
Respostas
Amazon
Redshift
Hive
Spark,
Presto
Amazon
Kinesis/
Kafka
Amazon S3Dados
Respostas
Processamento em Batch
Spark,
Impala,
Presto
Redshift
Spark,
Presto
Kinesis/
Kafka
S3Dados HDFS
Análises interativas
Respostas
AML
Sumário
• Estágios de processamento Big data: ingestão,
storage, processamento e visualização
• Usar as ferramentas corretas de acordo com o
trabalho a ser feito
– Ingestão: Dados transacionais, arquivos, stream
– Storage: nível de estruturação, padrões de query, quente X frio,
etc.
– Processamento: Latência de query
• Arquitetura de referência em Big Data e design
patterns
Big Data no Setor Financeiro
Henrique Souza
Especialista de Cloud e Big Data
Contexto e Desafio powered by
Cliente CI&T:
Consultoria Financeira
focada Asset Mngmt. e
Insurance.
Desenvolvendo um Produto
SaaS de Big Data para os
seus clientes finais.
Curto tempo para entrada
em produção. Construindo
uma infraestrutura do zero.
Solução powered by
Web Infrastructure
&
Security Layer
Report Rendering
(Tableau Server &
Custom Dashboards)
Storage and
Querying
"ETL" layer
AWS permitiu a
construção de um novo
Produto Digital para
BigData em
pouquíssimo tempo e
com excelentes
resultados.
Produto em produção com
excelentes feedbacks.
Resultados powered by
Tabelas com bilhões de registros
(aumentando todo mês).
Empresa foi recentemente
comprada por um outro grupo
financeiro (USD 4 bi market cap).
Obrigado !!!
Hélio Silva
Sr. Big Data Analytics Consultant
Professional Services
Henrique Souza
Especialista de Cloud e Big Data
henriques@ciand.com
@htssouza

Más contenido relacionado

La actualidad más candente

Boas práticas de arquitetura e operações
Boas práticas de arquitetura e operaçõesBoas práticas de arquitetura e operações
Boas práticas de arquitetura e operaçõesAmazon Web Services LATAM
 
Conhecendo as opcoes de Storage na Nuvem da AWS
Conhecendo as opcoes de Storage na Nuvem da AWSConhecendo as opcoes de Storage na Nuvem da AWS
Conhecendo as opcoes de Storage na Nuvem da AWSAmazon Web Services LATAM
 
Iniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSIniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSAmazon Web Services LATAM
 
Path to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataPath to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataAmazon Web Services LATAM
 
Criando seu Data Center Virtual: Fundamentos de VPC e Opções de Conectividade
Criando seu Data Center Virtual: Fundamentos de VPC e Opções de ConectividadeCriando seu Data Center Virtual: Fundamentos de VPC e Opções de Conectividade
Criando seu Data Center Virtual: Fundamentos de VPC e Opções de ConectividadeAmazon Web Services LATAM
 
DevOps na AWS: Construindo Sistemas para Entregas Rápidas
DevOps na AWS: Construindo Sistemas para Entregas RápidasDevOps na AWS: Construindo Sistemas para Entregas Rápidas
DevOps na AWS: Construindo Sistemas para Entregas RápidasAmazon Web Services LATAM
 
Visão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloudVisão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloudAmazon Web Services
 
Mergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverlessMergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverlessAmazon Web Services LATAM
 
Ask the Trainer - Treinamentos e Certificações da AWS
Ask the Trainer - Treinamentos e Certificações da AWSAsk the Trainer - Treinamentos e Certificações da AWS
Ask the Trainer - Treinamentos e Certificações da AWSAmazon Web Services LATAM
 
Introdução ao AWS Database Migration Service
Introdução ao AWS Database Migration ServiceIntrodução ao AWS Database Migration Service
Introdução ao AWS Database Migration ServiceAmazon Web Services LATAM
 

La actualidad más candente (20)

Introducao ao Amazon Redshift
Introducao ao Amazon RedshiftIntroducao ao Amazon Redshift
Introducao ao Amazon Redshift
 
Boas práticas de arquitetura e operações
Boas práticas de arquitetura e operaçõesBoas práticas de arquitetura e operações
Boas práticas de arquitetura e operações
 
Iniciando com Amazon DynamoDB
Iniciando com Amazon DynamoDBIniciando com Amazon DynamoDB
Iniciando com Amazon DynamoDB
 
Criando Aplicações Serverless
Criando Aplicações ServerlessCriando Aplicações Serverless
Criando Aplicações Serverless
 
Otimizando Amazon EC2 por Diversão e Lucro
Otimizando Amazon EC2 por Diversão e LucroOtimizando Amazon EC2 por Diversão e Lucro
Otimizando Amazon EC2 por Diversão e Lucro
 
Conhecendo as opcoes de Storage na Nuvem da AWS
Conhecendo as opcoes de Storage na Nuvem da AWSConhecendo as opcoes de Storage na Nuvem da AWS
Conhecendo as opcoes de Storage na Nuvem da AWS
 
Iniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWSIniciando com serviços de bancos de dados gerenciados na AWS
Iniciando com serviços de bancos de dados gerenciados na AWS
 
AWS Database Day - Português
AWS Database Day - PortuguêsAWS Database Day - Português
AWS Database Day - Português
 
Construindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWSConstruindo Data Lakes e Analytics na AWS
Construindo Data Lakes e Analytics na AWS
 
Path to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big DataPath to the Future #1 - Tendências de Big Data
Path to the Future #1 - Tendências de Big Data
 
Criando seu Data Center Virtual: Fundamentos de VPC e Opções de Conectividade
Criando seu Data Center Virtual: Fundamentos de VPC e Opções de ConectividadeCriando seu Data Center Virtual: Fundamentos de VPC e Opções de Conectividade
Criando seu Data Center Virtual: Fundamentos de VPC e Opções de Conectividade
 
DevOps na AWS: Construindo Sistemas para Entregas Rápidas
DevOps na AWS: Construindo Sistemas para Entregas RápidasDevOps na AWS: Construindo Sistemas para Entregas Rápidas
DevOps na AWS: Construindo Sistemas para Entregas Rápidas
 
Construindo um Data Lake na AWS
Construindo um Data Lake na AWSConstruindo um Data Lake na AWS
Construindo um Data Lake na AWS
 
Visão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloudVisão estratégica de como migrar para a cloud
Visão estratégica de como migrar para a cloud
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Mergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverlessMergulhando em desenvolvimento de aplicações serverless
Mergulhando em desenvolvimento de aplicações serverless
 
Ask the Trainer - Treinamentos e Certificações da AWS
Ask the Trainer - Treinamentos e Certificações da AWSAsk the Trainer - Treinamentos e Certificações da AWS
Ask the Trainer - Treinamentos e Certificações da AWS
 
Introdução ao AWS Database Migration Service
Introdução ao AWS Database Migration ServiceIntrodução ao AWS Database Migration Service
Introdução ao AWS Database Migration Service
 
Adicionando segurança web: AWS WAF
Adicionando segurança web: AWS WAFAdicionando segurança web: AWS WAF
Adicionando segurança web: AWS WAF
 
Escalando com segurança na AWS
Escalando com segurança na AWSEscalando com segurança na AWS
Escalando com segurança na AWS
 

Similar a Aws summit arquitetura big data-v1.2

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAmazon Web Services LATAM
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Amazon Web Services
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Amazon Web Services LATAM
 
Conhecendo as Opcoes de Bancos de Dados na Nuvem da AWS
Conhecendo as Opcoes de Bancos de Dados na Nuvem da AWSConhecendo as Opcoes de Bancos de Dados na Nuvem da AWS
Conhecendo as Opcoes de Bancos de Dados na Nuvem da AWSAmazon Web Services LATAM
 
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarLiberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarAmazon Web Services LATAM
 
Lambda architecture for large data volumes.
Lambda architecture for large data volumes.Lambda architecture for large data volumes.
Lambda architecture for large data volumes.Hugo Rozestraten
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Amazon Web Services LATAM
 
[Data Lake + Arquitetura Lambda] na prática
 [Data Lake + Arquitetura Lambda] na prática [Data Lake + Arquitetura Lambda] na prática
[Data Lake + Arquitetura Lambda] na práticaFelipe Santos
 

Similar a Aws summit arquitetura big data-v1.2 (20)

Construindo seu Data Lake na AWS
Construindo seu Data Lake na AWSConstruindo seu Data Lake na AWS
Construindo seu Data Lake na AWS
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Tendências de Big Data
Tendências de Big DataTendências de Big Data
Tendências de Big Data
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
 
Bancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWSBancos de Dados gerenciados na nuvem AWS
Bancos de Dados gerenciados na nuvem AWS
 
Os benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWSOs benefícios de migrar seus workloads de Big Data para a AWS
Os benefícios de migrar seus workloads de Big Data para a AWS
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 
AWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWSAWS Initiate - Construindo Data Lakes e Analytics com AWS
AWS Initiate - Construindo Data Lakes e Analytics com AWS
 
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
Sessão Avançada: Construindo um Data Warehouse Moderno com Amazon Redshift - ...
 
Arquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXIArquiteturas de Software para o Século XXI
Arquiteturas de Software para o Século XXI
 
Bancos de dados NoSQL na AWS
Bancos de dados NoSQL na AWSBancos de dados NoSQL na AWS
Bancos de dados NoSQL na AWS
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
Seu banco de dados na nuvem: Opções de bancos de dados na AWS e padrões de...
 
Conhecendo as Opcoes de Bancos de Dados na Nuvem da AWS
Conhecendo as Opcoes de Bancos de Dados na Nuvem da AWSConhecendo as Opcoes de Bancos de Dados na Nuvem da AWS
Conhecendo as Opcoes de Bancos de Dados na Nuvem da AWS
 
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovarLiberte-se dos bancos de dados comerciais para economizar, crescer e inovar
Liberte-se dos bancos de dados comerciais para economizar, crescer e inovar
 
Lambda architecture for large data volumes.
Lambda architecture for large data volumes.Lambda architecture for large data volumes.
Lambda architecture for large data volumes.
 
Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB Utilizando NoSQL para Big Data com DynamoDB
Utilizando NoSQL para Big Data com DynamoDB
 
Construindo um data lake na nuvem aws
Construindo um data lake na nuvem awsConstruindo um data lake na nuvem aws
Construindo um data lake na nuvem aws
 
[Data Lake + Arquitetura Lambda] na prática
 [Data Lake + Arquitetura Lambda] na prática [Data Lake + Arquitetura Lambda] na prática
[Data Lake + Arquitetura Lambda] na prática
 
Webinar: Introdução a Big data
Webinar: Introdução a Big dataWebinar: Introdução a Big data
Webinar: Introdução a Big data
 

Más de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSAmazon Web Services LATAM
 

Más de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvemAWS para terceiro setor - Sessão 1 - Introdução à nuvem
AWS para terceiro setor - Sessão 1 - Introdução à nuvem
 
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAWS para terceiro setor - Sessão 2 - Armazenamento e Backup
AWS para terceiro setor - Sessão 2 - Armazenamento e Backup
 
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
AWS para terceiro setor - Sessão 3 - Protegendo seus dados.
 
Automatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWSAutomatice el proceso de entrega con CI/CD en AWS
Automatice el proceso de entrega con CI/CD en AWS
 
Automatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWSAutomatize seu processo de entrega de software com CI/CD na AWS
Automatize seu processo de entrega de software com CI/CD na AWS
 
Cómo empezar con Amazon EKS
Cómo empezar con Amazon EKSCómo empezar con Amazon EKS
Cómo empezar con Amazon EKS
 
Como começar com Amazon EKS
Como começar com Amazon EKSComo começar com Amazon EKS
Como começar com Amazon EKS
 
Ransomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWSRansomware: como recuperar os seus dados na nuvem AWS
Ransomware: como recuperar os seus dados na nuvem AWS
 
Ransomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWSRansomware: cómo recuperar sus datos en la nube de AWS
Ransomware: cómo recuperar sus datos en la nube de AWS
 
Ransomware: Estratégias de Mitigação
Ransomware: Estratégias de MitigaçãoRansomware: Estratégias de Mitigação
Ransomware: Estratégias de Mitigação
 
Ransomware: Estratégias de Mitigación
Ransomware: Estratégias de MitigaciónRansomware: Estratégias de Mitigación
Ransomware: Estratégias de Mitigación
 
Aprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWSAprenda a migrar y transferir datos al usar la nube de AWS
Aprenda a migrar y transferir datos al usar la nube de AWS
 
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAprenda como migrar e transferir dados ao utilizar a nuvem da AWS
Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS
 
Cómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administradosCómo mover a un almacenamiento de archivos administrados
Cómo mover a un almacenamiento de archivos administrados
 
Simplifique su BI con AWS
Simplifique su BI con AWSSimplifique su BI con AWS
Simplifique su BI con AWS
 
Simplifique o seu BI com a AWS
Simplifique o seu BI com a AWSSimplifique o seu BI com a AWS
Simplifique o seu BI com a AWS
 
Los beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWSLos beneficios de migrar sus cargas de trabajo de big data a AWS
Los beneficios de migrar sus cargas de trabajo de big data a AWS
 

Aws summit arquitetura big data-v1.2

  • 2. Padrões de Arquitetura para Big Data Hélio Silva Sr. Big Data Analytics Consultant Professional Services AWS Summit São Paulo – Maio/2015 Henrique Souza Especialista de Cloud e Big Data
  • 3. Agenda • Desafios de um projeto de Big Data • Visão simplificada do processamento Big Data • Qual tecnologia usar? • Arquitetura de referência • Design patterns
  • 4. Desafios de um projeto de Big Data
  • 5. Big Data: Volume cresce continuamente De PB para ZB GB TB PB ZB EB 1990 2000 2010 2020
  • 6. Big Data tem que responder mais rápido Big Data Real-time Big Data
  • 7. Um monte de soluções e componentes Glacier S3 DynamoDB RDS EMR Redshift Data Pipeline Kinesis Cassandra CloudSearch AML
  • 8. O que devo usar ?
  • 10. Simplificando o processamento do Big Data Ingestão Persistência / Storage Processamento Visualização Dados Respostas Tempo
  • 11. Glacier S3 DynamoDB RDS Kinesis Spark Streaming EMR Ingestão Persistência Processo/Análise Visualização Data Pipeline Storm Kafka Redshift Cassandra CloudSearch Kinesis Connector Kinesis enabled app App Server Web Server Devices AML
  • 13. Tipos de dados para ingestão • Transacional – SGBD leitura/escrita • Arquivos – Click-stream logs – Texto livre • Stream – IoT devices – Tweets Database Cloud Storage Stream Storage
  • 15. Por que um Stream Storage? • Converte múltiplos streams em poucos e persistentes ordenados sequencialmente • Desconecta produtores e consumidores de dados • Atua como um buffer ou uma fila • Streams em sequência são mais fáceis de processar • Preserva a ordenação para os consumidores • Streaming “MapReduce” • Consumidor pode dar um replay e reprocessar
  • 16. Qual Stream Store devo usar? • Amazon Kinesis e Kafka têm muitas semelhanças – Múltiplos consumidores – Ordenação dos registros – “MapReduce” do Streaming – Baixa Latência – Alta durabilidade, disponibilidade e escalabilidade • Diferenças – Um registro dura 24 horas no Kinesis, no Kafka é configurável – Tamanho de 50 Kb no Kinesis, no Kafka é configurável – Kinesis é um serviço totalmente gerenciável – fácil de provisionar, monitorar e escalar. Kafka exige um trabalho de gestão de disponibilidade e escala como um processo ‘on-premisses’
  • 18. Cloud Database and Storage Tier Anti-pattern App/Web Tier Client Tier Database & Storage Tier
  • 19. Database e Storage na nuvem — As ferramentas corretas App/Web Tier Client Tier Data Tier Database & Storage Tier Search Hadoop/HDFS Cache Blob Store SQL NoSQL
  • 20. Database e Storage na nuvem — As ferramentas corretas App/Web Tier Client Tier Data Tier Database & Storage Tier Amazon RDSAmazon DynamoDB Amazon ElastiCache Amazon S3 Amazon Glacier Amazon CloudSearch HDFS on Amazon EMR
  • 21. Qual Storage devo usar? • Nível de estruturação dos dados • Complexidade das suas queries
  • 22. Grau de estruturação e complexidade de query X Storage Structured – Simple Query NoSQL Amazon DynamoDB Cache Amazon ElastiCache Structured – Complex Query SQL Amazon RDS Search Amazon CloudSearch Unstructured – No Query Cloud Storage Amazon S3 Amazon Glacier Unstructured – Custom Query Hadoop/HDFS Elastic MapReduce Graudeestruturação Grau de complexidade das queries
  • 23. Qual a temperatura dos seus dados?
  • 24. Características dos dados: Quente, Morno, Frio Quente Morno Frio Volume MB–GB GB–TB PB Tamanho de registro B–KB KB–MB KB–TB Latência ms ms, seg min, horas Durabilidade Baixa–Alta Alta Muito Alto Freq. de requisições Muito Alta Alto Baixo Custo/GB $$-$ $-¢¢ ¢
  • 25. Amazon RDS Frequência de Requisições alta baixa Custo/GB alta baixa Latência baixa alta Data Volume baixa alta Amazon Glacier Amazon CloudSearch Estruturação baixa alta Amazon DynamoDB Amazon ElastiCache
  • 27. Processamento • Análise Descritiva: BI, OLAP, SQL/data warehouse • Análise Preditiva: sistemas de recomendação, previsão de page-views, leilão de anúncios on-line • Classificação: análise de sentimento, fraude, anti spam, clustering de clientes para formação de perfis de consumo • Correlação: comparar o que se sabe sobre negócio (BI) com oscilações de mercado, tempo e temperatura, reputação nas redes sociais
  • 28. Frameworks de processamento Normalmente em dois tipos: • Batch – Processamento regular (ex: ETL) – Análise exploratória (ex:data science) • Stream – IoT, click-stream, social monitoring, crawlers, etc
  • 29. Processamento Batch • Acessar um grande volume de dados frios e interagir buscando correlações • Pesquisar uma faixa restrita de tempo Exemplo: Gerar relatórios por hora, dia, mês ou semana
  • 30. Caso de uso: Processamento Batch para ETL Amazon EMR Amazon S3 Amazon Glacier Amazon Redshift
  • 31. Processamento de Stream • Analisa dados em pequenos grupos – CEP – Complex Event Processor (if/then/else) – Machine Learning (fraude, recomendação, etc.) • Responde em um espaço curto de tempo – Real time ou near realtime dependendo da aplicação Exemplo: Análise de 1min de operação
  • 32.
  • 33. Ferramentas • Batch processing/analytic – Amazon Redshift – Amazon EMR • Hive, Pig, Spark, Impala, Presto, … • Stream processing – Apache Spark streaming – Apache Storm (+ Trident) – Amazon Kinesis client and connector library AML
  • 34. Qual ferramenta de processamento batch devo usar? Redshift Impala Presto Spark Hive Latência de query Baixa Baixa Baixa Baixa - Média Média - Alta Durabilidade Alta Alta Alta Alta Alta Volume 1.6PB Max ~Nós ~Nós ~Nós ~Nós Gerenciado Sim EMR bootstrap EMR bootstrap EMR bootstrap Sim (EMR) Storage Nativo HDFS HDFS/S3 HDFS/S3 HDFS/S3 # of BI Tools Alta Média Alta Baixa Alta Latência de query Baixa Alta
  • 35. Qual processamento de Stream devo usar? Spark Streaming Apache Storm + Trident Kinesis Client Library Escalabilidade/Thr oughput ~ Nós ~ Nós ~ Nós Volume ~ Nós ~ Nós ~ Nós Gerenciamento Sim (EMR bootstrap) Faça você mesmo EC2 + Auto Scaling Tolerância a falhas Built-in Built-in KCL Check pointing Linguagens de programação / API Java, Python, Scala Java, Scala, Clojure Java, Python
  • 38. Arquitetura desconectada • Múltiplos estágios • Storage desconectado do processamento Process Store Process StoreData Answers
  • 39. Aplicações de processamento (ou conectores) podem gravar em Múltiplos Data Stores Amazon Kinesis Amazon Kinesis Connectors Amazon S3 Data Amazon DynamoDB Lambda Architecture Análise Real Time Análise Exploratória
  • 40. Frameworks de processamento lendo múltiplos Data Stores Amazon Kinesis Amazon Kinesis Connectors Amazon S3 Data Amazon DynamoDB Hive Spark Answers Storm Answers
  • 42. Spark Streaming, Apache Storm Amazon Redshift Spark, Impala, Presto Hive Amazon Redshift Hive Spark, Presto Amazon Kinesis/ Kafka Amazon DynamoDB Amazon S3Dados Quente FrioTemperatura dos dados Latênciadequery Baixa Alta Respostas HDFS Hive Native Client Temperatura dos dados X Latência da query
  • 43. Spark Streaming Amazon Kinesis / KafkaDados Apache Storm Native Client Processamento Real-time Amazon DynamoDB Native Client Respostas
  • 46. AML
  • 47. Sumário • Estágios de processamento Big data: ingestão, storage, processamento e visualização • Usar as ferramentas corretas de acordo com o trabalho a ser feito – Ingestão: Dados transacionais, arquivos, stream – Storage: nível de estruturação, padrões de query, quente X frio, etc. – Processamento: Latência de query • Arquitetura de referência em Big Data e design patterns
  • 48. Big Data no Setor Financeiro Henrique Souza Especialista de Cloud e Big Data
  • 49. Contexto e Desafio powered by Cliente CI&T: Consultoria Financeira focada Asset Mngmt. e Insurance. Desenvolvendo um Produto SaaS de Big Data para os seus clientes finais. Curto tempo para entrada em produção. Construindo uma infraestrutura do zero.
  • 50. Solução powered by Web Infrastructure & Security Layer Report Rendering (Tableau Server & Custom Dashboards) Storage and Querying "ETL" layer
  • 51. AWS permitiu a construção de um novo Produto Digital para BigData em pouquíssimo tempo e com excelentes resultados. Produto em produção com excelentes feedbacks. Resultados powered by Tabelas com bilhões de registros (aumentando todo mês). Empresa foi recentemente comprada por um outro grupo financeiro (USD 4 bi market cap).
  • 52. Obrigado !!! Hélio Silva Sr. Big Data Analytics Consultant Professional Services Henrique Souza Especialista de Cloud e Big Data henriques@ciand.com @htssouza