Más contenido relacionado
Similar a ATN No.1 Hadoop vs Amazon EMR (20)
Más de AdvancedTechNight (20)
ATN No.1 Hadoop vs Amazon EMR
- 2. はじめに
1. 簡単に自己紹介。
2. Acroquest Technology
テクニカルコンサルタント
橋本 拓也
3. JaTS(Javaトラブルシューティング)を中心
に、プロジェクトの障害解析・障害回避を
仕事としています。
4. Hadoopは個人的に注目して触っています。
それを自慢げに話していたら、プロジェク
トでHadoop使うことになってオタオタしま
した。 1
- 4. 目的
1. Hadoopと比べていまいち知名度の低い
Amazon EMR(Elastic Map Reduceの略)が
どんなものだか、調べてみました。
2. 「Hadoopをやっと使えるようになったと
思ったら、また変なのが出てきた!」と
プレスリリースで思ったので、何が凄いの
か試してみました。
3
- 6. 内容
1. 各製品の歴史
2. Elastic MapReduceの導入
3. EMR vs Hadoopの比較
4. EMR, Hadoopはこんな人におすすめ
5
- 8. 各製品の歴史(Elastic Map Reduce)
1. 端的に言えば、Elastic Map Reduce(以下
EMR)はHadoopをEC2で簡単に使える
ようにしたサービスです。
2. 実はEMRは2009年から提供されています。
3. Hadoop Summit 2010で発表された機能追
加で一気に使えるサービスになりました。
① Hadoop 0.20へバージョンアップ
② クラスタを動作させたままでのインスタンスの
増減可能
7
- 9. Elastic MapReduce導入
1. Elastic MapReduceは、Amazon EC2/S3と
深く結びついているため、まずここらへん
が使えるようにならないといけません。
Amazon S3はEMRのデータ置き場になるため、
利用が(おそらく)必須です。
Amazon S3に巨大なデータを入れるのが思い
の他時間がかかるので注意が必要です。
2. 課金のためのクレジットカード番号と、電
話番号なんかの社会的な個人認証方式が必
要になりますので、ニート的な人は注意。
8
- 13. EMR vs Hadoopの比較
No 内容 EMR Hadoop
1 導入コスト ○ほぼ無料。登録が手間。 ×ハードウェアのセットアッ
プが必要。
2 対応言語 ○Java, Ruby, Python, C++な ◎Hadoop Streaming, Pipes
ど、あらかじめ用意された言 を使えば何でもあり。
語
3 構成の柔軟性 ○EC2で提供される構成を手 ×なんでもできますが、それ
軽に選択 相当のお金がかかります。
4 スケールアッ ○スケールアップは基本無理。 ◎スケールアップ・アウトと
プ スケールアウトは簡単。 も自由にできる。
スケールアウ
ト
5 運用コスト ×使えば使うだけ増加します。 ○基本的に電気代ぐらい。
6 性能 ×思いの他速い。 ○用意するハードウェアス
重い処理にはノード追加で対 ペックによりけり。
応。
7 耐障害性 ○Amazonが守ってくれるかも ×マシンが壊れたらそれでま
12
- 14. EMR vs Hadoopの比較~導入コスト
EMR
課金は思いの他安い。どんなに失敗しても1000円いかないは
ず。
EC2のアカウントがあれば、ものの数分で動作環境が整う手
軽さ。マシンを用意しなくても良く、Hadoopのインストール
に手間取ることもない。
Hadoop
ハードウェアを用意するところから始まるが、普通PCの自作
大好きだから問題なし!
Hadoopのインストールではまっても、「経験値があがった」
と思って前向きに頑張る!
13
- 15. EMR vs Hadoopの比較~対応言語
EMR
主にRuby, Javaを推奨している?利用例もこの2つが多い。
それ以外にもHadoop Streamingが使え、C++、Python、PHP
なども利用が可能になっている。
Hadoop
Hadoop Streaming, Hadoop Pipesを使って自由に言語を組み
合わせられる。
設定に困ったら「教えてgoo」とかで生温かくサポートしても
らおう。
14
- 16. EMR vs Hadoopの比較~構成の柔軟性
EMR
インスタンスのスペックをカスタマイズはできないが、EC2
で提供されている様々なサービスを利用可能。特に手軽に
NVIDIA Teslaがつかえる"Cluster GPU Instance"との組み合わ
せは、魅力的。
Hadoop
インスタンスのスペックを自由にカスタマイズできる。IOボ
トルネックならSSD導入も可能。
高スペックなパーツの組み合わせを想像して興奮できる!
15
- 17. EMR vs Hadoopの比較~スケールアップ・スケールアウ
ト
EMR
スケールアウトでの性能向上を得意としています。
クラスタを再起動せずにインスタンスを追加できるのは、重
い処理をしている際や、想定外のデータ量増加に効果的。
逆にスケールアップは実質不可能。
Hadoop
スケールアウトでもスケールアップでも自由にできます。
皆さんの居住スペースや作業スペースが減ってもキニシナ
イ!
16
- 18. EMR vs Hadoopの比較~運用コスト
EMR
数Gbyte程度のデータ処理なら数百円程度。想像よりもお金は
かかりませんでした。
定常的なバッチ処理やインスタンスの過剰追加で、
"EMR bunkrupt"する人たちがいるので、運用時には注意が必
要。
Hadoop
電気代くらい?あと掃除の手間。
ハードウェアが壊れたりするとコストが跳ね上がるけれど、
まあ、それも歓びのうち。
17
- 20. EMR vs Hadoopの比較~性能面
EMR
現状でも手元のマシンと比べて特段遅いとは感じない。時間
がたてば、ノードの性能が勝手に上昇していくクラウドの優
位性があります。クラウド上のサービスのため、ネットワー
ク帯域・遅延に影響を受けやすいです。特に大量データの
アップロードとか。
Hadoop
Map/Reduceを立ち上げるごとに巨大データをロードするとか、
単一ノードに高い負荷がかかる、非常に重いロジックを処理
する際に、最適な環境を構築できます。
19
- 21. EMR vs Hadoopの比較~耐障害性
EMR
Amazonのデータセンタがつぶれない限りは問題ないはず。
リージョンを移し替えることも比較的容易にできる。
Hadoop
地震でラックが倒れてきたら、あなたの腕力でカバー!
計画停電も自家発電で対抗可能。
20
- 23. Hadoopはこんな人におすすめ!
1. 運用コストで思いもよらない金額を請求さ
れたくない人。そういうのが見積もれない
人
2. 扱うデータをクラウド上に置きたくない・
置けない人
処理結果を高頻度でDBに反映させる必要性あ
り
3. スケールアウトより、スケールアップをは
かる必要がある人
ノードで実行するロジックのCPU負荷が高い
4. 既存システムとMapReduce処理を連携させ
22
- 24. まとめ
1. EMRはHadoopをEC2上で使えるようにし
たもの。2010年の機能追加で使い勝手が一
気によくなりました。
2. EMRは思ったよりも低コストで運用できる。
今回のセミナー用の調査でも1000円ぐらい・・のはず。
3. 個人でも、少しお金がかかっても手軽に使
いたいならばEMR、とことん自分で作りこ
みたいならHadoopと住み分けられる・・・
はず。 私は手元で全部動かしたいので、
ローカルでHadoop使うと思いますが・・・
23