O documento discute Big Data na AWS. Ele explica o que é Big Data e como grandes volumes de dados estão sendo gerados por computadores e pessoas. Também descreve o que é Hadoop e como ele fornece um sistema de armazenamento e análise confiável e flexível para Big Data. Por fim, discute como a AWS oferece uma infraestrutura elástica para análise de Big Data usando serviços como S3, MapReduce e clusters Hadoop.
1. Big Data na AWS
José Papo
AWS Tech Evangelist
@josepapo
2.
3. A análise de grandes
volumes de dados
está se tornando a
grande barreira para
inovação, competição
e produtividade.
4. O que é Big Data?
Gerados por computador –
estruturados, semi-estruturados ou
não-estruturados
Logs (web sites, jogos)
Sensores (tempo, água)
Imagens/vídeos (cameras, segurança)
Gerados por pessoas
Blogs/Resenhas/Emails/Fotos
Redes Sociais
Facebook, Linkedin, Twitter
5. Onde se vê Big Data
Marketing e
Mídia/ Instituições Jogos
Óleo e Gás Varejo Telecom Segurança
Propaganda Financeiras (sobretudo
social)
Analise
Anti-virus Comporta-
Anuncios Simulações mental
Recomen-
dações de Monte
Dirigidos Carlo
Cobrança
Log de
Análise Detecção Análise de
Ligações
Sismica de Fraudes Uso
Uso dos
Processa- Produtos
mento de Análise de Análise de
vídeos e Transações Riscos Reconheci-
imagens mento de
Métricas
Imagens “In-game”
6. O que é Hadoop?
Apache Hadoop
Sistema de storage distribuído e tolerante a falhas
(HDFS)
Usa um algoritmo chamado MapReduce para realizar
análises estatísticas exaustivas sobre um grande
conjunto de dados distribuídos
Benefícios-chave
Custo mais baixo – Escala linearmente
Provado em escala– Petabytes em milhares de nós
Flexível – Dados podem ser armazenados com ou sem schema
7. "Hadoop é um storage confiável e um sistema analítico"
HDFS MapReduce
8. RDBMS MapReduce (Hadoop)
Schema definido Schema não requerido
Explora índices para Análises rápidas de dados e
recuperação rápida performance uniforme de
queries
SQL apenas Suporta SQL + outras
linguagens
Não escala linearmente Escalabilidade linear para
reads + writes
9. Implantar um cluster hadoop é difícil
http://eddie.niese.net/20090313/dont-pity-incompetence/
10. Big Data requer infraestrutura flexível
Infraestrutura física leva a
hardware e software estático e
planejado para atender picos…
…e muitas vezes acaba
gerando longas filas de
processamento
12. Data Warehouse Elástico
Data Warehouse
(Processo Batch)
Data Warehouse Data Warehouse
(Estável) (Estável)
Diminui
Aumenta para
para 25 9
instancias instancias