Big Data na Nuvem da AWS

•Transferir como PPTX, PDF•

1 gostou•582 visualizações

O documento discute Big Data na AWS. Ele explica o que é Big Data e como grandes volumes de dados estão sendo gerados por computadores e pessoas. Também descreve o que é Hadoop e como ele fornece um sistema de armazenamento e análise confiável e flexível para Big Data. Por fim, discute como a AWS oferece uma infraestrutura elástica para análise de Big Data usando serviços como S3, MapReduce e clusters Hadoop.

Tecnologia

Big Data na AWS

José Papo
AWS Tech Evangelist
@josepapo

A análise de grandes
volumes de dados
está se tornando a
grande barreira para
inovação, competição
e produtividade.

O que é Big Data?
Gerados por computador –
estruturados, semi-estruturados ou
não-estruturados
 Logs (web sites, jogos)
 Sensores (tempo, água)
 Imagens/vídeos (cameras, segurança)

Gerados por pessoas
 Blogs/Resenhas/Emails/Fotos

Redes Sociais
 Facebook, Linkedin, Twitter

Onde se vê Big Data
Marketing e
Mídia/ Instituições Jogos
Óleo e Gás Varejo Telecom Segurança
Propaganda Financeiras (sobretudo
social)

Analise
Anti-virus Comporta-
Anuncios Simulações mental
Recomen-
dações de Monte
Dirigidos Carlo
Cobrança

Log de
Análise Detecção Análise de
Ligações
Sismica de Fraudes Uso

Uso dos
Processa- Produtos
mento de Análise de Análise de
vídeos e Transações Riscos Reconheci-
imagens mento de
Métricas
Imagens “In-game”

O que é Hadoop?
Apache Hadoop
 Sistema de storage distribuído e tolerante a falhas
(HDFS)
 Usa um algoritmo chamado MapReduce para realizar
análises estatísticas exaustivas sobre um grande
conjunto de dados distribuídos

Benefícios-chave
 Custo mais baixo – Escala linearmente
 Provado em escala– Petabytes em milhares de nós
 Flexível – Dados podem ser armazenados com ou sem schema

"Hadoop é um storage confiável e um sistema analítico"

HDFS MapReduce

RDBMS MapReduce (Hadoop)

Schema definido Schema não requerido
Explora índices para Análises rápidas de dados e
recuperação rápida performance uniforme de
queries
SQL apenas Suporta SQL + outras
linguagens
Não escala linearmente Escalabilidade linear para
reads + writes

Implantar um cluster hadoop é difícil

http://eddie.niese.net/20090313/dont-pity-incompetence/

Big Data requer infraestrutura flexível

Infraestrutura física leva a
hardware e software estático e
planejado para atender picos…

…e muitas vezes acaba
gerando longas filas de
processamento

Data Warehouse Elástico

Data Warehouse
(Processo Batch)
Data Warehouse Data Warehouse
(Estável) (Estável)

Diminui
Aumenta para
para 25 9
instancias instancias

S3

Input data

Code Elastic Name
MapReduce node

S3

Input data

Code Elastic Name
MapReduce node

Elastic
cluster

S3

Input data

Code Elastic Name
MapReduce node

HDFS

Elastic
cluster

S3

Input data

Code Elastic Name
MapReduce node

Queries
HDFS
+ BI
Via JDBC, Pig, Hive
Elastic
cluster

S3

Input data

Code Elastic Name Output
MapReduce node S3 + SimpleDB

Queries
HDFS
+ BI
Via JDBC, Pig, Hive
Elastic
cluster

AWS Marketplace
Informatica, MapR, Karmasphere, Marketshare, Ac
unu Cassandra, Metamarkets, Aspera e mais.

aws.amazon.com/marketplace

OBRIGADO!
aws.typepad.com/brasil
slideshare.net/AmazonWebServicesLATAM

José Papo
AWS Tech Evangelist
@josepapo

Mais conteúdo relacionado

Semelhante a Big Data na Nuvem da AWS

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services

BigData e internte das coisas aplicada a engenhariaAlessandro Binhara

Bigadata casese opotunidadesAlessandro Binhara

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services

Aws summit arquitetura big data-v1.2Amazon Web Services LATAM

Escalabilidade, as modas, (No)SQLFernando Ike

AWS Initiate - Construindo Data Lakes e Analytics com AWSAmazon Web Services LATAM

Pentaho JUG Vale 2012FATEC São José dos Campos

Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters

Benchmark LucidDB x MySQL para aplicações de Business IntelligenceFATEC São José dos Campos

Meetup - Data LakeLuiz Henrique Garetti Rosário

Tesi Dados Finaljcaroso

Gleison Tavares Diolino (Serpro) - Estaleiro: mais que uma nuvem Agile Trends

Big data e mineração de dadosElton Meira

Lambda architecture for large data volumes.Hugo Rozestraten

DynamoDB - Uma IntroduçãoAmazon Web Services LATAM

Tecnologias para sistemas distribuidos escalaveisLuiz Bettega

SQLSat 253 - Por Onde Começar no BigDataDiego Nogare

Keynote nuvem estaleiro_icsHoracio Ibrahim

Coisas interessantes para saber quando começar a processar dados em streamingThaisa Silva

Semelhante a Big Data na Nuvem da AWS (20)

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit

BigData e internte das coisas aplicada a engenharia

Bigadata casese opotunidades

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...

Aws summit arquitetura big data-v1.2

Escalabilidade, as modas, (No)SQL

AWS Initiate - Construindo Data Lakes e Analytics com AWS

Pentaho JUG Vale 2012

Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...

Benchmark LucidDB x MySQL para aplicações de Business Intelligence

Meetup - Data Lake

Tesi Dados Final

Gleison Tavares Diolino (Serpro) - Estaleiro: mais que uma nuvem

Big data e mineração de dados

Lambda architecture for large data volumes.

DynamoDB - Uma Introdução

Tecnologias para sistemas distribuidos escalaveis

SQLSat 253 - Por Onde Começar no BigData

Keynote nuvem estaleiro_ics

Coisas interessantes para saber quando começar a processar dados em streaming

Mais de Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM

AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM

AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM

AWS para terceiro setor - Sessão 1 - Introdução à nuvemAmazon Web Services LATAM

AWS para terceiro setor - Sessão 2 - Armazenamento e BackupAmazon Web Services LATAM

AWS para terceiro setor - Sessão 3 - Protegendo seus dados.Amazon Web Services LATAM

Automatice el proceso de entrega con CI/CD en AWSAmazon Web Services LATAM

Automatize seu processo de entrega de software com CI/CD na AWSAmazon Web Services LATAM

Cómo empezar con Amazon EKSAmazon Web Services LATAM

Como começar com Amazon EKSAmazon Web Services LATAM

Ransomware: como recuperar os seus dados na nuvem AWSAmazon Web Services LATAM

Ransomware: cómo recuperar sus datos en la nube de AWSAmazon Web Services LATAM

Ransomware: Estratégias de MitigaçãoAmazon Web Services LATAM

Ransomware: Estratégias de MitigaciónAmazon Web Services LATAM

Aprenda a migrar y transferir datos al usar la nube de AWSAmazon Web Services LATAM

Aprenda como migrar e transferir dados ao utilizar a nuvem da AWSAmazon Web Services LATAM

Cómo mover a un almacenamiento de archivos administradosAmazon Web Services LATAM

Simplifique su BI con AWSAmazon Web Services LATAM

Simplifique o seu BI com a AWSAmazon Web Services LATAM

Os benefícios de migrar seus workloads de Big Data para a AWSAmazon Web Services LATAM

Mais de Amazon Web Services LATAM (20)

AWS para terceiro setor - Sessão 1 - Introdução à nuvem

AWS para terceiro setor - Sessão 2 - Armazenamento e Backup

AWS para terceiro setor - Sessão 3 - Protegendo seus dados.

AWS para terceiro setor - Sessão 1 - Introdução à nuvem

AWS para terceiro setor - Sessão 2 - Armazenamento e Backup

AWS para terceiro setor - Sessão 3 - Protegendo seus dados.

Automatice el proceso de entrega con CI/CD en AWS

Automatize seu processo de entrega de software com CI/CD na AWS

Cómo empezar con Amazon EKS

Como começar com Amazon EKS

Ransomware: como recuperar os seus dados na nuvem AWS

Ransomware: cómo recuperar sus datos en la nube de AWS

Ransomware: Estratégias de Mitigação

Ransomware: Estratégias de Mitigación

Aprenda a migrar y transferir datos al usar la nube de AWS

Aprenda como migrar e transferir dados ao utilizar a nuvem da AWS

Cómo mover a un almacenamiento de archivos administrados

Simplifique su BI con AWS

Simplifique o seu BI com a AWS

Os benefícios de migrar seus workloads de Big Data para a AWS

Último

Boas práticas de programação com Object CalisthenicsDanilo Pinotti

ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria

ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria

ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria

Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti

Big Data na Nuvem da AWS

1. Big Data na AWS José Papo AWS Tech Evangelist @josepapo

3. A análise de grandes volumes de dados está se tornando a grande barreira para inovação, competição e produtividade.

4. O que é Big Data? Gerados por computador – estruturados, semi-estruturados ou não-estruturados  Logs (web sites, jogos)  Sensores (tempo, água)  Imagens/vídeos (cameras, segurança) Gerados por pessoas  Blogs/Resenhas/Emails/Fotos Redes Sociais  Facebook, Linkedin, Twitter

5. Onde se vê Big Data Marketing e Mídia/ Instituições Jogos Óleo e Gás Varejo Telecom Segurança Propaganda Financeiras (sobretudo social) Analise Anti-virus Comporta- Anuncios Simulações mental Recomen- dações de Monte Dirigidos Carlo Cobrança Log de Análise Detecção Análise de Ligações Sismica de Fraudes Uso Uso dos Processa- Produtos mento de Análise de Análise de vídeos e Transações Riscos Reconheci- imagens mento de Métricas Imagens “In-game”

6. O que é Hadoop? Apache Hadoop  Sistema de storage distribuído e tolerante a falhas (HDFS)  Usa um algoritmo chamado MapReduce para realizar análises estatísticas exaustivas sobre um grande conjunto de dados distribuídos Benefícios-chave  Custo mais baixo – Escala linearmente  Provado em escala– Petabytes em milhares de nós  Flexível – Dados podem ser armazenados com ou sem schema

7. "Hadoop é um storage confiável e um sistema analítico" HDFS MapReduce

8. RDBMS MapReduce (Hadoop) Schema definido Schema não requerido Explora índices para Análises rápidas de dados e recuperação rápida performance uniforme de queries SQL apenas Suporta SQL + outras linguagens Não escala linearmente Escalabilidade linear para reads + writes

9. Implantar um cluster hadoop é difícil http://eddie.niese.net/20090313/dont-pity-incompetence/

10. Big Data requer infraestrutura flexível Infraestrutura física leva a hardware e software estático e planejado para atender picos… …e muitas vezes acaba gerando longas filas de processamento

11. +

12. Data Warehouse Elástico Data Warehouse (Processo Batch) Data Warehouse Data Warehouse (Estável) (Estável) Diminui Aumenta para para 25 9 instancias instancias

13. S3 Input data

14. S3 Input data Code Elastic MapReduce

15. S3 Input data Code Elastic Name MapReduce node

16. S3 Input data Code Elastic Name MapReduce node Elastic cluster

17. S3 Input data Code Elastic Name MapReduce node HDFS Elastic cluster

18. S3 Input data Code Elastic Name MapReduce node Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster

19. S3 Input data Code Elastic Name Output MapReduce node S3 + SimpleDB Queries HDFS + BI Via JDBC, Pig, Hive Elastic cluster

20. S3 Input data Output S3 + SimpleDB

21.

22.

23.

24.

25.

26.

27.

28.

29.

30.

31.

32.

33.

34.

35. AWS Marketplace Informatica, MapR, Karmasphere, Marketshare, Ac unu Cassandra, Metamarkets, Aspera e mais. aws.amazon.com/marketplace

36.

37.

38. OBRIGADO! aws.typepad.com/brasil slideshare.net/AmazonWebServicesLATAM José Papo AWS Tech Evangelist @josepapo

Notas do Editor

title
Customize cluster size to support varying resource needReduce costs by increasing server utilizationImprove performance during high usage periods

Big Data na Nuvem da AWS

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Big Data na Nuvem da AWS

Semelhante a Big Data na Nuvem da AWS (20)

Mais de Amazon Web Services LATAM

Mais de Amazon Web Services LATAM (20)

Último

Último (6)

Big Data na Nuvem da AWS

Notas do Editor