Hadoopビッグデータ基盤の歴史を振り返る #cwt2015

1© Cloudera, Inc. All rights reserved.
Hadoopビッグデータ基盤の
歴史を振り返る

⾃自⼰己紹介
•  テクニカルエバンジェリスト
•  2011年年4⽉月にClouderaの最初の⽇日本⼈人社員として⼊入社
•  お客様がCloudera製品を活⽤用できるように⼀一緒に議論論するのがメインの
仕事
• 実際は技術に関係する業務は全部⾏行行っている
•  email: sho@cloudera.com
•  twitter: @shiumachi

エンタープライズデータハブ(EDH)
バッチ、インタラクティブ、
リアルタイム
1つのプラットフォームで最⾼高の
パフォーマンスとユーザビリティ
を実現
•  きめ細かい分析ワークフロー
•  より多くのデータにアクセス
•  新たな⽅方法でデータを処理理
•  これまでとは異異なるユーザーの
取り込み
セキュリティと運⽤用管理理
プロセス
取込み
Sqoop, Flume
変換
MapReduce, Hive,
Pig, Spark
ディスカバー
分析データベース
Impala
検索索
Solr
モデル
機械学習
SAS, R, Spark,
Mahout
サーブ
NoSQL データベー
ス
HBase
ストリーミング
Spark Streaming
無制限のストレージ HDFS, HBase
YARN, Cloudera Manager,
Cloudera Navigator

ビッグデータ基盤？
•  別にビッグじゃなくてもいいです
•  データ基盤、データ分析基盤、⾊色々呼び⽅方がありますが、ここでは「ビッ
グデータ基盤」に統⼀一します
•  このスライドでは以下のように定義します
• あらゆるデータソースからデータを取込み、保存し、加⼯工し、提供し、
活⽤用するための⼀一つ以上のシステムの結合体

DISCLAIMER
•  このセッションはあくまでHadoop及びEDHを中⼼心としたビッグデータ基盤の歴
史について説明するためのものです
•  DWHとかメインフレームとかは対象外
•  Clouderaのセッションなので基本的にCloudera以外の製品・コンポーネントは
でてきません
•  他製品に興味ある⼈人は適当に読み替えてください
•  あくまでシステムの現場での潮流流なので、学術的な正確さで説明したものでは
ありません
•  データフローに必要な機能や製品のみを取り上げているので⾮非機能要件に関連
する機能(HA、セキュリティ、リソース管理理など)は紹介しません
要約: マサカリ投げんな

ビッグデータ基盤の歴史

ビッグデータ基盤(1)
バッチ処理理とビジネスレポート
データソース
サーバログ
データ処理理
データ
アプリケーション

データソース
サーバログ
ログ集約サーバ
tar.gz
データ処理理
データ

データソース
サーバログ
tar.gz
HDFS
tar.gz
HFDSクライアント
put アップロード
データ処理理
データ

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
データ処理理
データ

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile

•  2009-‐‑‒2012年年頃
•  Hadoop = バッチ処理理の時代
•  MapReduceによるJavaアプリケーションをはじめ、HiveやPigなどの上
位クエリ⾔言語を使ってレポート⽣生成してた
•  特⻑⾧長
• 分散処理理による劇的なスループット向上
• ⼤大量量のデータをアクティブな状態で保持
• 上記の特⻑⾧長を従来に⽐比べて⾮非常に安価に実現
•  課題
• HiveをBIにつないでも遅すぎて使い物にならない

登場技術紹介
•  MapReduce
•  かつてはHadoopの分散処理理の代名詞だった
•  HDFS
•  分散ファイルシステム。2012年年まではセキュリティ機能も⾼高可⽤用性もなかった
•  Hive
•  SQLを書くと分散処理理に変換する。当時はMapReduceのみ対応
•  同系統の⾔言語としてPigが存在
•  Avro
•  スキーマ情報を保持できるシリアライズフォーマット
•  RCFile
•  Parquet登場までは唯⼀一の列列指向ファイルフォーマット
•  Flume
•  ログ収集ソフト。Source -‐‑‒ Channel -‐‑‒ Sink の3要素が存在し、Source からデータを
取込み、Sink から書き出す

インタラクティブBI
データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
インタラクティブ
BI

•  2012年年後半以降降
•  Impalaの登場により、BIツールが直接Hadoopのデータにストレスなく触
れるようになった
•  列列指向フォーマットParquetを使えばより⾼高速に処理理が可能
•  更更新が必要なデータはHBaseを活⽤用すればいい
•  特⻑⾧長
• ⼤大量量データに対するインタラクティブクエリと、BIツール連携の充実
• HBase + Parquet の組み合わせによるスタースキーマの実現
•  課題
• 更更新、挿⼊入が必要で、かつ⼤大量量スキャンが必要な処理理はまだ遅い
(HBaseは⼤大規模スキャンに弱い)

登場技術紹介
•  Impala
• 2012年年10⽉月にベータリリースされたHadoop⽤用の⾼高速SQLエンジン
• 初めてのHadoop上での⾮非MapReduce分散処理理
•  Parquet
• ClouderaとTwitterで共同開発した列列指向フォーマット
• データの圧縮率率率の⾼高さとスキャンの⾼高速性が特⻑⾧長
•  HBase
• NoSQLとしてのHBaseは2009年年頃から存在するが、ここではあくまで
Impalaのデータソースとしての登場。

•  ファクトテーブル
• データ量量が膨⼤大
• 通常更更新はない
• よってParquetが最適
•  ディメンジョンテーブル
• ファクトテーブルに⽐比べてかな
り⼩小さい
• 更更新、挿⼊入が起こりうる
• よってHBaseが最適
Parquet + HBase によるスタースキーマ
ファクト
テーブル
(Parquet)
ディメンジョン
テーブル
(HBase)
テーブル
(HBase)
テーブル
(HBase)

全⽂文検索索、Spark、そしてEDH
データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI
Solr
検索索インデックス
Flume Sink
NRT
インデクシング

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI
Solr
Flume Sink
NRT
Lily HBase Indexer
NRT

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI
Solr
Flume Sink
NRT
Lily HBase Indexer
NRT
Solr
検索索

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI
Solr
Flume Sink
NRT
Lily HBase Indexer
NRT
Solr
検索索
Spark
クレンジング
整形処理理

•  2013年年以降降
•  Cloudera Searchが登場し、Hadoop上でも簡単に全⽂文検索索できるように
•  Sparkにより様々な分散アプリケーションが開発され始める
•  特⻑⾧長
• バッチ処理理やSQLだけでなく、様々な分散処理理アプリケーションを動作
させることができるようになった

登場技術紹介
•  Solr
• OSSの全⽂文検索索エンジン
• Solr⾃自体はHadoopエコシステムとして開発されたわけではない
• ClouderaはSolrをベースにCloudera Search というOSSを開発した
•  Lily HBase Indexer
• HBaseのデータを元にSolrのインデックスを作成する
•  Spark
•  MapReduceに代わる新しい分散処理理エンジン
• メモリを活⽤用した⾼高速処理理や、柔軟で開発しやすいAPIなどにより近年年
急速に普及してきている

Kafkaとストリーミング処理理
データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI
Solr
Flume Sink
NRT
Lily HBase Indexer
NRT
Solr
検索索
Spark
クレンジング
整形処理理

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI
Solr
Flume Sink
NRT
Lily HBase Indexer
NRT
Solr
検索索
Kafka Broker
メッセージ
Flume Source
Kafka Source
Spark
クレンジング
整形処理理

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI
Solr
Flume Sink
NRT
Lily HBase Indexer
NRT
Solr
検索索
Kafka Broker
メッセージ
Flume Source
Kafka Source
Kafka Producer
Producer API
外部システム
データ
Spark
クレンジング
整形処理理

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI
Solr
Flume Sink
NRT
Lily HBase Indexer
NRT
Solr
検索索
Kafka Broker
メッセージ
Flume Source
Kafka Source
Kafka Producer
Producer API
外部システム
データ
Flume Sink
HBase Sink
Spark
クレンジング
整形処理理

データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
データ処理理
データ
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
HBase
HBase テーブル
HBase
get/put API
外部システム
データ
Impala
BI
Solr
Flume Sink
NRT
Lily HBase Indexer
NRT
Solr
検索索
Kafka Broker
メッセージ
Flume Source
Kafka Source
Kafka Producer
Producer API
外部システム
データ
Flume Sink
HBase Sink
Spark Streaming
ストリーム処理理
Spark
クレンジング
整形処理理

•  2015年年
•  Kafkaの急速な発展、普及によりデータの取込みがより⾼高速・容易易になっ
た
•  Spark Streaming の活⽤用によりストリーミング処理理が容易易になった
•  特⻑⾧長
• データが⽣生成されてから活⽤用するまでのend-‐‑‒to-‐‑‒endの時間を⼤大幅に短
縮できるようになった

登場技術紹介
•  Kafka
• 急速に普及しつつある分散メッセージキュー
• これまでストリームでのデータ取込みはFlumeエージェントを並べるだ
けだったが、Kafkaを使うことでデータの流流⼊入全てを1クラスタとしてま
とめて処理理できるようになった
•  Spark Streaming
• Sparkサブプロジェクトの⼀一つ
• 流流⼊入するデータを次々に処理理することのできる、ストリーミング処理理を
記述できる

ビッグデータ基盤のSLA

SLA、考えてますか？
•  「この処理理は◯◯時間内に終わらせなければいけない」
•  「この処理理は××時までに完了了していることが望ましいが、最⼤大1⽇日遅れ
ても⼤大丈夫」
•  ビッグデータ基盤を設計するにあたって、SLAは絶対に考慮すること
•  ダメな例例
• 「なるべく速くお願いします」
•  ⾼高速にするにはそれだけ開発⼯工数がかかるし制約も多い
•  そもそも何を速くするつもりなの？(後述)
• 「遅くてもいいのでできるだけ安くお願いします」
•  遅くするのもいくらでもできますよ？

SLAについての誤解
•  誤解1: SLAはジョブの実⾏行行時間だけ考えればいい
• このImpalaクエリ5秒で結果が返ってくる！
•  でもデータの準備までに1⽇日かかる……
•  誤解2: SLAはHadoopクラスタの中だけ考えていればいい
• Hadoopの中は⼗十分早いのに、Hadoopの⼿手前のレガシーシステムがや
たらと遅い……
•  誤解3: SLAは完成されたシステムの中だけの世界である
• 「データが利利⽤用可能になるまで」を広い意味で解釈すれば、データ処理理
のための開発⼯工数も含める必要がある

end-‐‑‒to-‐‑‒endのSLAも重要
「データが⽣生成されてから何分で使え
るようにならなければいけないか？」
Hadoop以外のシステムにも注意
ボトルネックがどこにあるかをきちん
と把握しすること
無駄なチューニングは避ける
正しくSLAを設計する
ImpalaParquetへ変換Flumeでデータ取込み(Parquet変換⽤用データがたまり切切るまで待つ)
Impalaだけ⾒見見ればとても速い
この構成だと⽣生成されたデータが利利⽤用可能になるまで時間がかかる
HBaseに直接データ投⼊入
(速い)
Impala
(すごく遅い)
トータルで⾒見見れば上の⽅方法よりも利利⽤用可能までの時間は短い
ただしImpalaクエリは圧倒的に遅い
Hadoop⾮非Hadoopシステム
Hadoopをいくら⾼高速化しても
end-‐‑‒to-‐‑‒endの速度度は上がらない

コンポーネントの特性を正しく理理解すること
•  Parquet
• Impalaでクエリを実⾏行行するときは圧倒的に速いがデータが揃うまで作
成不不可で、しかも追記不不可
•  HBase
• 追記、挿⼊入可能で単⼀一データのルックアップは⾮非常に⾼高速
• しかしフルスキャンは⾮非常に遅い
•  Spark
• MapReduceより書きやすく、開発⼯工数を⼤大幅に削減可能

まとめ

ビッグデータ基盤のデータフロー
データソース
サーバログ
tar.gz
HDFS
tar.gz
HDFS
Avro
HBase
HBase テーブル
Solr
Kafka Broker
メッセージ
MapReduce
クレンジング
整形処理理
Hive
RCFileに変換
HDFS
RCFile
Hive
レポート作成
Flume Source
データ収集
Flume Sink
HDFS Sink
HDFS
SequenceFile
Hive
Parquetに変換
HDFS
Parquet
Impala
BI
Flume Sink
HBase Sink
HBase
get/put API
外部システム
データ
Lily HBase Indexer
NRT
Spark Streaming
ストリーム処理理
Solr
検索索
Flume Source
Kafka Source
Kafka Producer
Producer API
外部システム
データ
データ処理理
データ
Spark
クレンジング
整形処理理
Flume Sink
NRT

まとめ
ビッグデータ基盤の構築には広い視点でのSLA設計が不不可⽋欠
分析クエリやバッチ処理理のSLAだけでなく、end-‐‑‒to-‐‑‒endのSLAも考慮する必要あり
開発⼯工数も「データが利利⽤用可能になるまでの時間」の計算に⼊入れること
ビッグデータ基盤は多数のシステムの接続が前提ということを忘れない
局所的なチューニングは効率率率が悪い
データフローパスに存在するシステム数は可能な限り減らす
銀の弾丸はない、でもいい武器にこしたことはない
安易易に新機能・新製品に⾶飛びつかず、SLAを満たすかどうかを第⼀一に考えよう
既存機能・製品に固執せず、必要なら新しいものを取り⼊入れよう

エンタープライズセールス
⼤大規模システムに関わる営業ができ
る⼈人歓迎
セールスエンジニア
技術の価値を伝えることに興味があ
る⼈人歓迎
We are hiring!
career-‐‑‒jp@cloudera.com

Thank
you

Hadoopビッグデータ基盤の歴史を振り返る #cwt2015

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (20)

Similar a Hadoopビッグデータ基盤の歴史を振り返る #cwt2015

Similar a Hadoopビッグデータ基盤の歴史を振り返る #cwt2015 (20)

Más de Cloudera Japan

Más de Cloudera Japan (13)

Último

Último (7)

Hadoopビッグデータ基盤の歴史を振り返る #cwt2015