Hadoop compress-stream

读一块数据的基本流程一个解压流的对象关系 (以LZO为例)

readBlock
(压缩块在文件中的偏移量,
硬盘上的压缩块大小， BufferedInputStream
FilterInputStream
解压后数据的大小[一般在块压缩文件中会 (缓存Buffer是1KB)
记住这个大小])

包含底层流
compressAlgo.getDecompressor()
根据用户选择的压缩算法获得一个
BlockDecompressorStream
Decomprssor[可能是从CodecPool中得到或
(解压buffer为64KB, DecompressorStream CompressionInputStream
new出来]
对应一个Decompressor)

包含底层流
根据前面设置的文件中的块 new
BoundedRangeFileInputStream BoundedRangeFileInputStream
用来读取文件中的其中一块压缩数据 (对应底层流中的一段数据
start-end)
可在同一个底层流上有多个，close
时不会close底层流
compressAlgo.
包含底层流

createDecompressionStream()
获得解压流

FSDataInputStream DataInputStream
(对应到HDFS上的文件) Seekable, PositionedReadable
在这个流上读数据
读到的数据就是解压过的

关闭该解压流

写一块数据的基本流程一个压缩流的对象关系 (以LZO为例)

Start writeBlock
DataOutputStream FilterInputStream
(最上层，为了能写各种类型的数据) DataOutput

包含底层流
compressAlgo.getCompressor()
根据用户选择的压缩算法获得一个
Comprssor[可能是从CodecPool中得到或new BufferedOutputStream
出来] (写缓存Buffer 4KB) FilterOutputStream

包含底层流
compressAlgo.
createCompressionStream()
获得压缩流 FinishOnFlushCompressionStream
在flush的时候先调用底层压缩流的
FilterOutputStream
finish，然后flush，并reset底层流
的resetStarte
包含底层流

new DataOutputStream
用于写的直接接口

BlockCompressorStream
CompressorStream CompressionOutputStream
压缩buffer 64KB
写各种各样的数据到这个流
包含底层流

在一个块写完的时候flush该流，但不必
close。因为close就会将底层的流都close FSDataOutputStream
DataOutputStream
掉，也就close了底层文件，我们必须在写底层的文件流
Syncable
完所有的block后再单独close底层文件流

Hadoop compress-stream

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (19)

Destacado

Destacado (15)

Más de Schubert Zhang

Más de Schubert Zhang (17)

Hadoop compress-stream