Modelos de computação distribuída no Hadoop

Modelos e Sistemas para Computação
Distribuída no Hadoop
Thiago Cardoso | @tncardoso | zahpee.com
São Paulo, BRA

Desafios da Computação Distribuída
Particionamento
dos Dados
Escalonamento
da Execução
Falhas de
Hardware
Comunicação
entre Máquinas

A implementação do modelo ‘esconde’ estes desafios
Lógica para
processamento
dos dados

NodeManager HiveMetastore
DataNode
Secondary
NameNode
CatalogServer
NameNode JobHistoryServer Impalad
ResourceManager HiveServerStateStore

O modelo utilizado deve ser escolhido
de acordo com o problema

MapReduce
● Publicado em 2004 pelo Google
● Usuário define duas funções: map e reduce
(k1, v1) lista(k2, v2)
(k2, lista(v2)) lista(v2)
Map:
Reduce:

MapReduce - Contando palavras
palavra1 palavra2
palavra3
palavra1 palavra3
(“palavra1”, 1)
(“palavra1”, 1)
(“palavra2”, 1)
(“palavra3”, 1)
(“palavra3”, 1)
(“palavra1”, 2)
(“palavra2”, 1)
(“palavra3”, 2)
+
+
+
Map Reduce

Jobs iterativos no MapReduce
Leitura dos dados em disco

Mapper emite valores intermediários
Dados ordenados em disco

Dados enviados para reducers

Resultado escrito em disco

Resultado escrito em disco
Novo job é criado

Bulk Synchronous Parallel
● Publicado em 1990 por Leslie G. Valiant
● Algoritmo BSP -> Sequência de supersteps
● Cada superstep tem três fases

P1 P2 P3 P4 P5 P6
Computação local
Comunicação global
Barreira de sincronização

BSP - Estimando PI
Método de Monte Carlo para
calcular PI
Agregador de resultados parciais

● Apache Hama
● BSP compatível com o Hadoop YARN
● Módulo para processamento de grafos
● Módulo para Machine Learning

Pregel
● Inspirado no BSP com foco em Grafos
● Um processo para cada vértice
● Vértices e arestas ficam armazenados localmente

Pregel
superstep 0A : 3 B : 6 C : 2 D : 1

Pregel
superstep 0
superstep 1
A : 3 B : 6 C : 2 D : 1
A : 6 B : 6 D : 6C : 2

Pregel
superstep 0
superstep 1
superstep 2
A : 3 B : 6 C : 2 D : 1
A : 6
A : 6
B : 6
B : 6
D : 6
D : 6
C : 2
C : 6

Pregel
superstep 0
superstep 1
superstep 2
superstep 3
A : 3 B : 6 C : 2 D : 1
A : 6
A : 6
A : 6
B : 6
B : 6
B : 6
D : 6
D : 6
D : 6
C : 2
C : 6
C : 6

Pregel
Apache Giraph Apache Hama

Dremel
● Engine para execução de consultas
● Dados armazenados em formato
orientado a colunas
● Queries executadas de forma
nativa (não utiliza MapReduce)

Dremel
Camada de armazenamento (ex. GFS,
HDFS)
SELECT A, COUNT(B) FROM T GROUP BY A
SELECT A, SUM(c) FROM
(R1 UNION ALL ...Rn) GROUP BY A
Ri = SELECT A, COUNT(B) AS c FROM
Ti GROUP BY A
servidor raíz
servidores
intermediários
servidores
folha

Processamento em Batch Sistemas Especializados

Spark
● Desenvolvido inicialmente em Berkeley
● 80 operadores para escrita de software paralelo
● Resilient Distributed Datasets (RDDs)

Spark: Resilient Distributed Datasets
● Coleção de dados particionada somente-leitura
● Criados por operações determinísticas (transformações)
em outro RDD ou arquivo
● Usuário define particionamento (otimizações de
localidade) e armazenamento (RAM, disco)

Spark: Contando palavras
file = spark.textFile("hdfs://...")
file.flatMap(lambda line: line.split())
.map(lambda word: (word, 1))
.reduceByKey(lambda a, b: a+b)

Spark: Contando palavras
A B C D
flatMap map reduceByKey

Spark: Resilient Distributed Datasets

Spark
● Comunidade crescente
● Sub-projetos:
○ GraphX - Processamento de Grafos
○ Shark - Execução de SQL
○ Spark Streaming
○ MLlib - Machine Learning

Hadoop
MapReduce
Hama Giraph Impala/Drill Spark
Modelo MapReduce BSP/Pregel Pregel Dremel RDD
Algoritmos
iterativos
x x x
Grafos x x x
Tolerancia a
falhas
x x x - x
Real-time x x

Thiago Cardoso | @tncardoso | zahpee.com
São Paulo, BRA

Imagens
● Ungroup designed by Steve Swedler from the Noun Project
● Broken Machine by Anton Håkanson from The Noun Project
● Plug designed by Nick Abrams from the Noun Project
● Hour Glass designed by Benni from the Noun Project
● "Microsoft Bing Maps' datacenter" by Robert Scoble
● "DSCN9980" by mtneer_man
● Computer designed by Claudine Rodriguez from the Noun Project

Referências
● http://parquet.io/
● A bridging model for parallel computation
● https://www.usenix.org/system/files/conference/nsdi12/nsdi12-final138.pdf
● http://research.google.com/archive/mapreduce.html
● http://dl.acm.org/citation.cfm?id=1807184
● http://research.google.com/pubs/pub36632.html
● https://hama.apache.org/
● http://hive.apache.org/
● https://giraph.apache.org/
● http://spark.apache.org/
● http://pig.apache.org/
● http://crunch.apache.org/

Modelos de computação distribuída no Hadoop

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (10)

Similar a Modelos de computação distribuída no Hadoop

Similar a Modelos de computação distribuída no Hadoop (20)

Último

Último (6)

Modelos de computação distribuída no Hadoop