Hdfs

Goals

Hardware Failure
 Streaming Data Access
 Large Data Sets
 Appending-Writes and File Syncs
 Hflush
 Append

Moving Comuptation
 Portable

NameNode & DataNodes

master/slave

File System Namespace

replication factor

Data Replication

block size/replication factor configurable per
file
 namenode receive Heartbeat/Blockreport
from datanodes

Heartbeat

Blockreport
 replica placement
 Policy

Rack

Data Replication(Cont.)

replica selection - closest to reader
 safemode(namenode)
 on startup

no replication

exit after namenode data block check > x%
 replicate

Persistence of File System
Metadata

Editlog
 FsImage
 Checkpoint
 datanode
 each block a file
 on starup, scan local > blockreport

Communication Protocol

TCP/IP
 ClientProtocol
 DataNode Protocol

Robustness

failures
 NameNode failure
 DataNode failure
 network partitions

data disk failure/heartbeats/re-replication
 cluster rebalancing - free space, threshold
 data integrity – checksum

meatadata disk failure
 snapshot(HDFS not support yet)

Data Organization

data blocks
 replication pipelining – write
1. namenode receive list of datanode by algorism
2. client write to 1st datanode
3. 1st datanode receive small portions(4KB)
4. 1st datanode copy this portion to 2nd datanode

Accessibility

API
 FS Shell
 DFSAdmin
 Browser

Space Reclamation

Delete
 Undelete
 decrease replication factor

Hdfs

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (19)

Destacado

Destacado (6)

Similar a Hdfs

Similar a Hdfs (20)

Último

Último (20)

Hdfs

Notas del editor