Hadoop_startup

>voyage14.start_up(Hadoop)
@yu_ke
Monday, May 6, 13

1. Introduction
2. What is that?
3. extra
Contents
Monday, May 6, 13

Introduction
Monday, May 6, 13

第一話荒ぶるデータ
今日、一日に ⃝⃝⃝ バイトの
データが日々生成されている
Monday, May 6, 13

今日、一日に2.5EBバイトの
※ EB= 10^18=百京バイト
http://www-06.ibm.com/software/jp/data/bigdata/
Monday, May 6, 13

既存データの90%がこの2年間
に生成されたもの
Monday, May 6, 13

既存データの90%がこの2年間
に生成されたもの
「全世界の情報量は、年間で59%
増加している」 by ガートナー
Monday, May 6, 13

データの生成源
•ICタグなどのセンサー
•ソーシャル・メディアの投稿
•インターネット上に保存されたデジタル写真
•ビデオ
•オンライン購入の処理レコード
•携帯電話のGPS信号
•etc..
Monday, May 6, 13

ムーアの法則
•Intelの共同創設者、ゴード
ン・ムーア提唱(1965)
•『半導体チップの集積度
は、およそ18ヶ月で2倍にな
る』
→ 計算機の性能は12ヶ月で
2倍強になる
→ 計算機の高性能化と低コス
ト化
Monday, May 6, 13

ムーアの法則
る』
2倍強になる
ト化
CPU処理性能の著しい成長
Monday, May 6, 13

ムーアの法則
る』
2倍強になる
ト化
しかし、CMOS技術の成長もそろそろ頭打ち
2012年時点のALUのプロセスルールは22nm
Monday, May 6, 13

ムーアの法則
る』
2倍強になる
ト化また、CPUの成長と比べると
ディスクIOは伸び悩みボトルネック
しかし、CMOS技術の成長もそろそろ頭打ち
2012年時点のALUのプロセスルールは22nm
Monday, May 6, 13

処理性能とコスト
0
20
40
60
80
100
5(AMD Athlon Ⅱ X2 240e)
10(AMD Phenom Ⅱ X3 705e)
20(Intel Core i5 661)
80(Intel Core i7 3960X)
CPU性能/価格
性能
価格 http://cpu.pc-users.net/benchmark/cpu_all_2012_1.html
???
Monday, May 6, 13

処理性能とコスト
0
20
40
60
80
100
5(AMD Athlon Ⅱ X2 240e)
10(AMD Phenom Ⅱ X3 705e)
80(Intel Core i7 3960X)
CPU性能/価格
性能
価格 http://cpu.pc-users.net/benchmark/cpu_all_2012_1.html
???
10倍のコスト 10倍のCPU性能
Monday, May 6, 13

どうしたらペタバ
イト級のデータを
現実的な時間内に
処理できるのか？
Monday, May 6, 13

一台の計算機のク
ロック速度、プロ
セッサ構造の改良、
以外の性能向上のた
めのアプローチ
Monday, May 6, 13

そこでスケールアウト
・・・・・・・
Monday, May 6, 13

スケールアウト
サーバの数を増やすことで、
サーバ群全体のパフォーマンスを
向上させること - IT用語
Monday, May 6, 13

並行？並列？分散？
並行(concurrent)
並列(parallel)
分散(distributed)
Monday, May 6, 13

並行？並列？分散？
並行(concurrent)
- 単一のプロセス内で協調する複数のタスクを実行
並列(parallel)
- 複数の計算機を用いて複数プロセスを協調的に同時実行
分散(distributed)
- ネットワークで相互に接続された複数の計算機で並列処理
- 地理的に離れている特徴
Monday, May 6, 13

分散システムとは
”分散システムは、そのユーザにたいして首尾一貫した
システムとして見える独立したコンピュータの集合”
- 分散システム~原理とパラダイム
Monday, May 6, 13

分散システムの特徴と課題
独立した複数の計算機の集まり
内部動作の透過性
- ユーザからはひとつの一貫したシステムに見える
スケーラビリティ
- 計算機の台数を増やすことで、処理性能の向上が図れる
耐故障性
- 計算機の故障に対処する。処理の継続が可能
Monday, May 6, 13

分散透過性
•『透過(transparent)』
- プロセスやリソースが複数のコンピュータにまたがって、物理的に
分散されている事実を隠すること
透過性説明
アクセスデータ表現における相違並びにリソースがどのようにアクセスされているかを隠する
位置リソースがどこに位置するのかを隠する
移動リソースが他の位置に移動してよいことを隠する
再配置リソースが使用中に、他の位置に移動するかもしれないことを隠する
複製リソースが複製されていることを隠する
並行リソースがいくつかの競合ユーザに共有されていることを隠する
障害リソースの障害と回復を隠する
Monday, May 6, 13

分散システムの実装の際の課題
メッセージ通信
スケーラビリティ
透過性
耐故障性
Monday, May 6, 13

メッセージ通信の実装
例）データ送信
int MPI_Send(*message, count ,datatype, dest, tag, comm)
>> 送信相手dest(ランク)へ向けてメッセージmessage(送信バッファのアドレス)を送る
- count=送信バッファの要素数
- tag=メッセージタグ
- comm=コミュニケータ
例）ブロードキャスト
int MPI_Bcast(*message, count, datatype, root, comm)
>> ランクrootのプロセスから全プロセスへメッセージmessageを送る
MPI(Message Passing Interface)
- メモリ分散型の並列計算をサポートするライブラリ
Monday, May 6, 13

メッセージ通信の実装(続
•様々な実装要件
- プロセス起動
- プロセス監視
- プロセス間通信
- 耐故障性
- 計算機ごとの性能の差の隠
- ネットワークの非決定性に対処
- etc..
Monday, May 6, 13

計算機間の通信を意識したプログラムを書こうとする
と。。。
プロセス起動
プロセス監視
プロセス間通信
計算機ごとの性能の差の隠
耐故障性
ネットワーク上の通信の非決定性の隠
etc..
Monday, May 6, 13

と。。。
プロセス起動
プロセス監視
計算機ごとの、ネットワークなどの環境ごとの性能の差の隠
耐故障性
etc..
分散アルゴリズムや分散システムの
理論などの知識が必要
Monday, May 6, 13

と。。。
プロセス起動
プロセス監視
計算機ごとの、ネットワークなどの環境ごとの性能の差
故障時の対応
etc..
分散アルゴリズムや分散システムの
理論などの知識が必要
非機能要件の実装におわれて
おわる^p^;
Monday, May 6, 13

what’s
that!?
Monday, May 6, 13

ﾅﾝﾀﾞ!? o(ﾟДﾟ = ﾟДﾟ)o ﾅﾝﾀﾞ!?
Monday, May 6, 13

what’s
next!?
Monday, May 6, 13

HHaadd
oooopp!!!!
Monday, May 6, 13

What s Hadoop
ビッグデータを扱う為の分散並列処理フレームワーク
- Googleの分散処理システムのオープンソースクローンYahoo!のDoug Cutting氏に
よって開発(2006)
- Java実装
高いスケールアウト性能
コモディティハードウェアで構築可能
処理タスク、ファイルのレプリケーションによるフォールトトレラン
トと高可用性
透過性
Monday, May 6, 13

Hadoop のアーキテクチャ(1.0系)
• マスタスレーブ型
• Hadoop分散ファイルシステム = NameNode + DataNode
- 大規模データを処理するためのプログラミングモデル
• Hadoop MapReduce = JobTracker + TaskTracker
- 大規模データを扱うために設計された分散ファイルシステム
Name
Node
Job
Tracker
Reduce
Map
Data
Node
Task
Tracker
Data
Blocks
Master
Slaves
Reduce
Map
Data
Node
Task
Tracker
Data
Blocks
RPC
RPC
Monday, May 6, 13

Hadoop MapReduce
•ロードバランシング
•スケーラビリティ
•MapReduceというアルゴリズム
- MapReduce自体は新しいものではないが、Googleが採用し、こちらの
論文 (...) で有名に
•シンプルです
•スケールアウト可能なプログラムが書きやすかった
•大事なのはできる処理とできない処理と、向いている処理と向い
ていない処理
→ 詳細は次回(・ω<)ﾃﾍﾍﾟﾛ
図:Hadoop MapReduce Web UI→
Monday, May 6, 13

HDFS
• 高い入出力処理性能
• 耐故障性（複製）
• ディスク使用効率化
• スケーラビリティ
- ブロックサイズ大きい
- 適当なレプリケーションポリシー
• Unixのファイルシステムライクな操作性
• HDFSの再起動時の立ち上げが長い
→ 詳細は次回(・ω<)ﾃﾍﾍﾟﾛ
Monday, May 6, 13

食事をする哲学者
•5人の哲学者がいます。
•彼らは会話と食事を楽しんでいます。
•テーブルには5皿の超大盛りペヤングと5つのフォークがあります。
•哲学者がペヤングを食べるには2本のフォークが必要です。
•腹が減った人はフォークを手に取りペヤング食べます。
•食べたらまた会話に参加します(フォーク戻します)。
http://ja.wikipedia.org/wiki/食事する哲学者の問題
Monday, May 6, 13

5.2.3分散ハッシュテーブル p.188
•分散ハッシュテーブル(DHT)
•フィンガーテーブル：FTp[i] = succ(p+2^‸(i-‐1))
•探索の手法
-‐ q = FTp[j] <= k < FTp[j+1]
Monday, May 6, 13

DHT
21
20
18 14
11
9
4
1
28
1 4
2 4
3 9
4 9
5 18 1 9
2 9
3 9
4 14
5 20
1 14
2 14
3 18
4 20
5 28
1 11
2 11
3 14
4 18
5 28
1 18
2 18
3 18
4 28
5 1
1 28
2 28
3 28
4 1
5 9
1 21
2 28
3 28
4 28
5 4
1 20
2 20
3 28
4 28
5 4
1 1
2 1
3 1
4 4
5 14
Monday, May 6, 13

6.1.1 物理的クロック
•ほとんどすべてのコンピュータは時間追跡管理回路(circuit for keping
track of time)を持っている。これらの装置を呼ぶのに「クロック
(clock)」という用語が広く使用されているにもかかわらず、それらは通常
の意味でのクロック(時計)ではない。多分、タイマ(timer)のほうが適切な
用語であろう。コンピュータのタイマは通常、精密に機械加工された石英
の結晶、すなわち水晶である。圧力(tension)をかけると、水晶は、水晶の
種類、切削方法、および圧力の大きさに依存する明確に定義された周波数
で発振する。各水晶に2つのレジスタがある、カウンタ(counter)と保持レ
ジスタ(holding register)である。水晶の一回の発振ごとにカウンタを1減
じる。カウンタがゼロになると、割り込みが発生し、カウンタは保持レジ
スタから再設定される。この方法で、1秒間に60回の、あるいは所望の周
波数で割り込みを発生するタイマをプログラムすることができる。各割り
込みはクロックスティック(clock stick)を呼ばれる。 - 6.1.1物理的クロック
http://www.amazon.co.jp/分散システム-第二版-アンドリュー・S・タネンバウム/dp/4894714981
Monday, May 6, 13

6.2 論理クロック
•異なる計算機間でクロックを完全にあわせることは困難
- 絶対的な時間における順序ではなく、
- 相対的なイベントの発生順序が重要
•Lamportの論理クロック
•ベクトルクロック
Monday, May 6, 13

6.2.1 Lamportの論理時計
•事前発生(happens-before)
a → b ：事象aは事象b以前に発生する
•happens-beforeを用いて、すべてのプロセスが合意する論理時間
C(a)を割り当てる
a→b <=> C(a) < C(b)
Monday, May 6, 13

Lamportの論理時計のアルゴリズム
1. イベント(メッセージの送受信、内部イベント)を実行する前に、PiはCi←Ci+1を
実行する。
2. プロセスPiがPjにメッセージmを送信するとき、先のステップの実行を完了した
あとにPiはmのタイムスタンプts(m)をCiに等しくセットする。
3. メッセージmを受信すると、プロセスPjは自己のローカルクロックカウンタを
Cj←mac{Cj, ts(m)}に調整する。その後、第一のステップを実行し、会うリケー
ションにメッセージを手渡す。
m1
m2
m3
m4
m1
m2
m3
m4
Monday, May 6, 13

まとめ
[KEEP]
•先の背景より、分散システムに向かう流れは順当
•しかし、分散システムの実装には様々な課題が存在する
•Hadoopを用いることで大規模な分散システムの構築が比較的容易にでき、ユーザはやり
たい処理に集中できる
•つまり、Googleすごい
•プレゼン者はお酒飲める流れ⃝
[PROBLEM]
•途中で力尽きた←レベルの違うものを箇条書きにしない。面倒臭がらない
•酔った状態でプレゼン作らない←重要
•出落ちネタダメ危険
[NEXT]
•Hadoopの紹介（MapReduce、HDFS、バージョン、エコシステム）
•TreasureDataのサービス使ってみる?
Monday, May 6, 13

Treasure Dataというサービス
•TD は MapReduce の実行基盤としての Hadoop、それから SQL 風の言語
(HiveQL) で Hadoop 上のデータを操作できる Hive、それらを使って構築されて
いる。
•実際には単なる Hadoop + Hive のホスティングではなくデータを受け付ける部
分、データを保存するストレージ、マルチテナントのジョブを分配するスケジュー
ラ、あるいは結果を返す各種 API などは TD 社が独自に開発したものでまかない
全体を統合し、この「ログをがんがん送りつけておいて好きなときに SQL で
MapReduceできる」というユースケースを提供する。
http://d.hatena.ne.jp/naoya/20130322/1363946401
Monday, May 6, 13

www.treasure-data.com
Monday, May 6, 13

オススメの資料
「分散システム原理とパラダイム」タネンバウム
http://www.amazon.co.jp/分散システム-第二版-アンドリュー・S・タネンバウム/dp/4894714981
Monday, May 6, 13

参考図書・資料
•「Googleを支える技術」西田圭介
http://www.amazon.co.jp/exec/obidos/ASIN/4774134325/secodezine-22/
•「はじめてのHadoop」田澤孝之、横井浩、松井一比良
http://gihyo.jp/book/2012/978-4-7741-5389-6
•阪大の講義資料
http://www-higashi.ist.osaka-u.ac.jp/ nakata/mobile-cp/chap-01j.pdf
•hexarys: 並列分散処理入門
http://www.hexarys.net/oo/pdsi.html
•jipdec: 第三章我が国における研究開発の状況
http://www.jipdec.or.jp/archives/icot/FTS/REPORTS/H11-reports/H1203-AITEC-
Report3/html/33.htm
Monday, May 6, 13

Hadoop_startup

Recomendados

Recomendados

Más contenido relacionado

Similar a Hadoop_startup

Similar a Hadoop_startup (19)

Hadoop_startup