1) O documento discute os benefícios de migrar workloads de Big Data para a AWS, incluindo tornar mais fácil construir data lakes e analytics, oferecer maior abrangência de serviços e fornecer infraestrutura mais segura e escalável.
2) É apresentada a plataforma Amazon EMR para executar aplicativos de Big Data de forma gerenciada na AWS, proporcionando melhor desempenho a menor custo em comparação a clusters on-premises.
3) A separação de computação e armazenamento no Amazon EMR permite
2. Como interagir durante o evento?
Você tem um projeto e
quer conversar com o
time comercial da
AWS?
Acesse o LIVE CHAT
neste QR code ou pelo
link enviado no chat do
evento.
Perguntas & Respostas ao
vivo durante todo o
evento
Tire suas dúvidas com os
especialistas da AWS!
Clique no símbolo “?” e
envie suas perguntas.
3. O recurso mais valioso já
não é petróleo, mas os
dados.
*Copyright: The Economist, 2017, David Parkins
4. Mais dados Mais personas Demanda por tomada
de decisão mais
rápida
As novas realidades que os clientes estão enfrentando
.
5. Os clientes querem mais valor de seus dados
U S AD O P O R
M U I T AS
P E S S O AS
C R E S C E N D O
E X P O N E N C I AL M E N T
E
D E N O V AS
F O N TE S
D I V E R S I D AD E AN A L I S A D O P O R
M U I TO S
AP L I C A T I V O S
6. - Instalação de hardware e software, configuração, correção,
backups;
- Problemas de desempenho e alta disponibilidade;
- Planejamento de capacidade;
- Segurança e conformidade.
Serviços de analytics gerenciados por conta própria
consomem tempo, são complexos e caros
7. Por que Big Data na AWS?
Mais fácil de construir Infraestrutura
mais segura
Abrangência Escalável e
econômico
1 2 3 4
8. 1. Mais fácil de construir data lakes e analytics
Data lake
S3
Relatórios
Consultas Ad Hoc
Big Data Analytics
Data Warehousing
Analytics
Machine Learning
AWS Lake
Formation
9. 2. Abrangência
Dados, visualização,
engajamento e
machine learning
Analytics
Data lakes
Governança
Dashboards Predictive
Analytics
Engajamento de
usuários
Dados
Data
Warehousing
Processamento
Consultas
interativas
Análise
Operacional
Analytics em
tempo real
Processamento
Serverless
Infraestrutura Catálogo de
Dados & ETL
Segurança &
Gerenciamento
Migração &
Streaming
10. 3. Infraestrutura mais segura
Os clientes precisam ter vários níveis de segurança, gerenciamento de identidade e acesso,
criptografia e conformidade para proteger seu data lake
Identidade
AWS IAM
AWS SSO
Amazon Cloud Directory
AWS Directory Service
AWS Organizations
Encriptação
AWS Certificate Manager
AWS Key Management
Service
Criptografia em repouso
Criptografia em trânsito
Traga suas próprias chaves,
suporte HSM
Conformidade
AWS Artifact
Amazon Inspector
Amazon Cloud HSM
Amazon Cognito
AWS CloudTrail
Segurança
Amazon GuardDuty
AWS Shield
AWS WAF
Amazon Macie
VPC
11. 4. Infraestrutura mais escalável, econômica e de alto
desempenho para analytics
Cinco camadas de
armazenamento
Mais de 200 tipos de
instância para atender
as necessidades
Instâncias sob
demanda, reservadas
e spot
Interfaces de rede de
largura de banda de
100 Gbps
13. Computação e armazenamento acoplados
• O armazenamento cresce junto
com a computação;
• Os requisitos de computação
variam.
Fortemente
acoplado
Computação
Armazenamento
14. A replicação aumenta o custo
3x
• Os dados são replicados várias
vezes;
• Normalmente, apenas em um data
center.
20. Amazon EMR
• Serviço gerenciado para executar aplicativos do ecossistema
Hadoop, como Spark, Hive, Presto e muitos outros;
• Pode processar grandes volumes de dados armazenados no
Amazon S3 (EMRFS), HDFS, Amazon DynamoDB, Amazon
Redshift, Amazon Kinesis, Kafka e outras fontes de dados;
• Use clusters transitórios, Managed Scaling, Amazon Simple
Storage Service (Amazon S3) e Instâncias Spot para cortar
custos.
21. Amazon EMR
Execute facilmente Spark, Hive, Presto, HBase, Flink e mais aplicativos de big data na AWS
Melhor
desempenho com
menor custo
Workloads Spark rodam 2,4x mais
rápido em comparação ao open
source
Redução de custos com EC2 Spot e
Instâncias Reservadas
Faturamento por segundo para
flexibilidade
Use o
armazenamento S3
Processe dados em S3 com
segurança e alto desempenho
usando o EMRFS
Escale computação e
armazenamento independentes
um do outro
Últimas versões
Atualizado com as estruturas de
código aberto mais recentes em
30 dias
Suporte para open source
populares como Flink e Hudi
Totalmente gerenciado, sem
configuração de cluster,
provisionamento de nó ou ajuste
de cluster
Escala automática vertical e
horizontal para atender às
demandas
Fácil e Escalável
22. Custos otimizados com o Amazon EMR
• Menos tempo de
administração para
gerenciar e suportar
clusters;
• Sem custos de antemão:
aquisição e instalação de
hardware;
• Economize em custos
operacionais - espaço no
data center, energia,
refrigeração, etc.
Suporte Taxa
Suporte
On-premises EMR
Server Costs
Hardware—Server, Rack, Chassis,
PDUs, Tor Switches (+Maintenance)
Software—OS, Virtualization Licenses
(+Maintenance)
Network Costs
Network Hardware—LAN Switches,
Load Balancer Bandwidth costs
Software—Network Monitoring
IT Labor Costs
Server admin, virtualization admin,
storage admin, network admin,
support team
Extras
Project planning, advisors, legal,
contractors, managed services, training,
cost of capital
28. Separação lógica
Rearquitetar clusters monolíticos para construídos
com finalidade específica:
• Criação de clusters transitórios e / ou persistentes;
• Separando clusters por aplicativo;
• Separando clusters por versão do aplicativo.
Cluster monolítico tradicional
Clusters de propósito específico
vs. As considerações de design são:
• Como você envia trabalhos ou constrói pipelines;
• Persistindo seus dados no S3;
• Armazenamento de metadados fora do cluster;
• Por quanto tempo o job é executado;
• Quais aplicativos são necessários.
32. Sobre clusters e nós
• O componente central do Amazon EMR é o cluster.
Um cluster é uma coleção de instâncias do Amazon
Elastic Compute Cloud (Amazon EC2);
• Cada instância do cluster é chamada de nó;
• Cada nó tem uma função dentro do cluster;
• O Amazon EMR também instala diferentes
componentes de software em cada tipo de nó, dando a
cada nó uma função em um aplicativo distribuído.
33. Master
EMR cluster
Task
Core
HDFS HDFS
Os Core Nodes podem ser
adicionados e removidos
sem problemas.
O Master Node deve
continuar em execução.
O cluster pode tolerar a
perda de Task Nodes.
Tipos de Nó
34. Opções de deployment flexíveis do Amazon EMR
A AWS oferece mais opções de instância do que qualquer outro
provedor de nuvem. Escolha a instância que oferece o melhor
desempenho ou custo para sua carga de trabalho, incluindo
Graviton2. Aproveite as vantagens das instâncias On-Demand,
Reserved e Spot para otimizar os custos.
Configure, implante, gerencie e dimensione o EMR em seus
ambientes locais, assim como você faria na nuvem. O AWS Outposts
oferece serviços, infraestrutura e modelos operacionais da AWS para
praticamente qualquer data center, espaço de colocation ou instalação
on-premises.
Use EMR para automatizar o provisionamento, gerenciamento e
escalonamento de jobs do Apache Spark no Amazon Elastic
Kubernetes Service (EKS) e aproveite o runtime otimizado.
37. Obrigado!
Fique por dentro das
próximas sessões
Acesse a agenda de
webinars neste QR code
e inscreva-se!
QR CODE
Conte-nos o que achou
do webinar
Clique em “sair” para
responder uma rápida
pesquisa de satisfação.