SlideShare una empresa de Scribd logo
1 de 25
Advanced Tech Night No.01




             Hadoop vs Amazon EMR



                                     2011/04/22
                  Acroquest Technology 株式会社
                                     橋本 拓也
はじめに

1. 簡単に自己紹介。
2. Acroquest Technology
     テクニカルコンサルタント
     橋本 拓也
3. JaTS(Javaトラブルシューティング)を中心
   に、プロジェクトの障害解析・障害回避を
   仕事としています。
4. Hadoopは個人的に注目して触っています。
   それを自慢げに話していたら、プロジェク
   トでHadoop使うことになってオタオタしま
   した。                    1
どんな仕事をしているか?




JaTS never ending story
(http://www.acroquest.co.jp/jats_novel/index.html) より抜粋
                                                          2
目的

1. Hadoopと比べていまいち知名度の低い
   Amazon EMR(Elastic Map Reduceの略)が
   どんなものだか、調べてみました。
2. 「Hadoopをやっと使えるようになったと
   思ったら、また変なのが出てきた!」と
   プレスリリースで思ったので、何が凄いの
   か試してみました。




                                  3
この発表の前提

1. 私は身内びいきな傾向が強いので、
 「Hadoopサイコー、
  後発のAmazon EMRなん
 てっ!」
 というのが大前提です。
  実はこの後発というのさえ間違いなのです
   が・・・
2. そのため、大分偏った評価になるかもしれ
   ませんが、ご了承を。
                         4
内容

1.   各製品の歴史
2.   Elastic MapReduceの導入
3.   EMR vs Hadoopの比較
4.   EMR, Hadoopはこんな人におすすめ




                             5
各製品の歴史(Hadoop)

1. 言わずとしれたJavaの分散処理環境ですね。
2. 2005年ごろから開発が始まり、現在に至る。
3. Yahoo版と、Cloudera版の配布形態があり、
   以前は違いが結構あった。
  最近はバイナリ的には殆ど同じ、サポートの違
   いにのみになりつつあるようですね。
4. 「スケールアウトを手軽にしたいシステム
   ならもうHadoop一択でいいんじゃない
   か!」・・・と私は思ってます。

                          6
各製品の歴史(Elastic Map Reduce)

1. 端的に言えば、Elastic Map Reduce(以下
   EMR)はHadoopをEC2で簡単に使える
   ようにしたサービスです。
2. 実はEMRは2009年から提供されています。
3. Hadoop Summit 2010で発表された機能追
   加で一気に使えるサービスになりました。
 ① Hadoop 0.20へバージョンアップ
 ② クラスタを動作させたままでのインスタンスの
   増減可能

                             7
Elastic MapReduce導入

1. Elastic MapReduceは、Amazon EC2/S3と
   深く結びついているため、まずここらへん
   が使えるようにならないといけません。
   Amazon S3はEMRのデータ置き場になるため、
    利用が(おそらく)必須です。
   Amazon S3に巨大なデータを入れるのが思い
    の他時間がかかるので注意が必要です。
2. 課金のためのクレジットカード番号と、電
   話番号なんかの社会的な個人認証方式が必
   要になりますので、ニート的な人は注意。
                                  8
まとめ




  Elastic Map Reduce
          ≒
Amazon EC2上のHadoop

                       9
Advanced Tech Night No.01
    Hadoop vs Amazon EMR


  ご清聴ありがとうございまし
       た!




                            10
Advanced Tech Night No.01
    Hadoop vs Amazon EMR


       某先輩が怒るので、
       真面目に比較します。




                            11
EMR vs Hadoopの比較
No        内容             EMR                        Hadoop
1    導入コスト     ○ほぼ無料。登録が手間。                ×ハードウェアのセットアッ
                                           プが必要。
2    対応言語      ○Java, Ruby, Python, C++な   ◎Hadoop Streaming, Pipes
               ど、あらかじめ用意された言               を使えば何でもあり。
               語
3    構成の柔軟性    ○EC2で提供される構成を手              ×なんでもできますが、それ
               軽に選択                        相当のお金がかかります。
4    スケールアッ    ○スケールアップは基本無理。 ◎スケールアップ・アウトと
     プ         スケールアウトは簡単。    も自由にできる。
     スケールアウ
     ト
5    運用コスト     ×使えば使うだけ増加します。 ○基本的に電気代ぐらい。
6    性能        ×思いの他速い。                    ○用意するハードウェアス
               重い処理にはノード追加で対               ペックによりけり。
               応。
7    耐障害性      ○Amazonが守ってくれるかも ×マシンが壊れたらそれでま
                                           12
EMR vs Hadoopの比較~導入コスト
 EMR
課金は思いの他安い。どんなに失敗しても1000円いかないは
ず。
EC2のアカウントがあれば、ものの数分で動作環境が整う手
軽さ。マシンを用意しなくても良く、Hadoopのインストール
に手間取ることもない。

Hadoop
ハードウェアを用意するところから始まるが、普通PCの自作
大好きだから問題なし!
Hadoopのインストールではまっても、「経験値があがった」
と思って前向きに頑張る!


                            13
EMR vs Hadoopの比較~対応言語
 EMR

主にRuby, Javaを推奨している?利用例もこの2つが多い。
それ以外にもHadoop Streamingが使え、C++、Python、PHP
なども利用が可能になっている。


Hadoop
Hadoop Streaming, Hadoop Pipesを使って自由に言語を組み
合わせられる。
設定に困ったら「教えてgoo」とかで生温かくサポートしても
らおう。


                                       14
EMR vs Hadoopの比較~構成の柔軟性
  EMR
インスタンスのスペックをカスタマイズはできないが、EC2
で提供されている様々なサービスを利用可能。特に手軽に
NVIDIA Teslaがつかえる"Cluster GPU Instance"との組み合わ
せは、魅力的。


 Hadoop
インスタンスのスペックを自由にカスタマイズできる。IOボ
トルネックならSSD導入も可能。
高スペックなパーツの組み合わせを想像して興奮できる!



                                           15
EMR vs Hadoopの比較~スケールアップ・スケールアウ
ト
    EMR
スケールアウトでの性能向上を得意としています。
クラスタを再起動せずにインスタンスを追加できるのは、重
い処理をしている際や、想定外のデータ量増加に効果的。
逆にスケールアップは実質不可能。


Hadoop
スケールアウトでもスケールアップでも自由にできます。
皆さんの居住スペースや作業スペースが減ってもキニシナ
イ!


                             16
EMR vs Hadoopの比較~運用コスト
 EMR
数Gbyte程度のデータ処理なら数百円程度。想像よりもお金は
かかりませんでした。
定常的なバッチ処理やインスタンスの過剰追加で、
"EMR bunkrupt"する人たちがいるので、運用時には注意が必
要。

Hadoop
電気代くらい?あと掃除の手間。
ハードウェアが壊れたりするとコストが跳ね上がるけれど、
まあ、それも歓びのうち。


                                17
EMR vs Hadoopの比較~運用コスト

ちなみに、EC2もEMRも、どこのリージョン
を使うかによって、コストと出来ることが変
わってきます。          GPGPU
   リージョン   EC2コスト    EMRコスト
                                 使える?
    米国東部   $0.085/時間 $0.015/時間    ○
    米国西部   $0.095/時間 $0.015/時間
     EU    $0.095/時間 $0.015/時間
   シンガポー   $0.095/時間 $0.015/時間
     ル
     東京    $0.100/時間 ※コストはそれぞれ最少規模の金額です。
                      $0.015/時間

シンガポールは分かりませんが、米国東部とのネットワーク遅延は思いの他
大きかったです。(私が評価した時は東京リージョンがありませんでした)
そう考えると、少々高くても東京リージョンがお勧めですね。
                                        18
EMR vs Hadoopの比較~性能面
 EMR
現状でも手元のマシンと比べて特段遅いとは感じない。時間
がたてば、ノードの性能が勝手に上昇していくクラウドの優
位性があります。クラウド上のサービスのため、ネットワー
ク帯域・遅延に影響を受けやすいです。特に大量データの
アップロードとか。

Hadoop
Map/Reduceを立ち上げるごとに巨大データをロードするとか、
単一ノードに高い負荷がかかる、非常に重いロジックを処理
する際に、最適な環境を構築できます。


                              19
EMR vs Hadoopの比較~耐障害性
 EMR

Amazonのデータセンタがつぶれない限りは問題ないはず。
リージョンを移し替えることも比較的容易にできる。



Hadoop

地震でラックが倒れてきたら、あなたの腕力でカバー!
計画停電も自家発電で対抗可能。



                            20
EMRはこんな人におすすめ!

1. とにかくスモールスタートで始めたい
  Amazon EC2を利用する準備があれば、すぐに
   使い始められます。
2. マシンを物理的に何台も用意したくない人
  インスタンスの増減が数クリックで実現できま
   す。
3. クラウド上で完結する処理を主に扱う人
4. 重い処理を定常的に行わない人


                          21
Hadoopはこんな人におすすめ!

1. 運用コストで思いもよらない金額を請求さ
   れたくない人。そういうのが見積もれない
   人
2. 扱うデータをクラウド上に置きたくない・
   置けない人
  処理結果を高頻度でDBに反映させる必要性あ
   り
3. スケールアウトより、スケールアップをは
   かる必要がある人
  ノードで実行するロジックのCPU負荷が高い
4. 既存システムとMapReduce処理を連携させ
                         22
まとめ

1. EMRはHadoopをEC2上で使えるようにし
   たもの。2010年の機能追加で使い勝手が一
   気によくなりました。
2. EMRは思ったよりも低コストで運用できる。
 今回のセミナー用の調査でも1000円ぐらい・・のはず。
3. 個人でも、少しお金がかかっても手軽に使
   いたいならばEMR、とことん自分で作りこ
   みたいならHadoopと住み分けられる・・・
   はず。 私は手元で全部動かしたいので、
      ローカルでHadoop使うと思いますが・・・
                               23
Advanced Tech Night No.01
    Hadoop vs Amazon EMR


ご清聴ありがとうございました。
     本当に。




                            24

Más contenido relacionado

Similar a ATN No.1 Hadoop vs Amazon EMR

Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
 
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
SORACOM, INC
 
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
Amazon Web Services Japan
 
MSC2014_NetApp_Session
MSC2014_NetApp_SessionMSC2014_NetApp_Session
MSC2014_NetApp_Session
Takano Masaru
 

Similar a ATN No.1 Hadoop vs Amazon EMR (20)

20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...20161027 hadoop summit  Generating Recommendations at Amazon Scale with Apach...
20161027 hadoop summit Generating Recommendations at Amazon Scale with Apach...
 
基幹業務もHadoop(EMR)で!!のその後
基幹業務もHadoop(EMR)で!!のその後基幹業務もHadoop(EMR)で!!のその後
基幹業務もHadoop(EMR)で!!のその後
 
おすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップおすすめインフラ! for スタートアップ
おすすめインフラ! for スタートアップ
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
 
20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public20111130 10 aws-meister-emr_long-public
20111130 10 aws-meister-emr_long-public
 
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
 
マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会マーケティングテクノロジー勉強会
マーケティングテクノロジー勉強会
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習Spark MLlibではじめるスケーラブルな機械学習
Spark MLlibではじめるスケーラブルな機械学習
 
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
 
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
現場の”今”を知る、これからのビッグデータ分析・活用のすすめ
 
MSC2014_NetApp_Session
MSC2014_NetApp_SessionMSC2014_NetApp_Session
MSC2014_NetApp_Session
 
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
 
Hadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバックHadoop scr第7回 hw2011フィードバック
Hadoop scr第7回 hw2011フィードバック
 
RをAWSで使おう
RをAWSで使おうRをAWSで使おう
RをAWSで使おう
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
 
CEDEC2012 Flashゲームにおけるパフォーマンスチューニングの A to Z
CEDEC2012 Flashゲームにおけるパフォーマンスチューニングの A to ZCEDEC2012 Flashゲームにおけるパフォーマンスチューニングの A to Z
CEDEC2012 Flashゲームにおけるパフォーマンスチューニングの A to Z
 

Más de AdvancedTechNight

CSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3DCSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3D
AdvancedTechNight
 
D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界
AdvancedTechNight
 
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
AdvancedTechNight
 
CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現
AdvancedTechNight
 
Stormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPIStormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPI
AdvancedTechNight
 
ななめ45°から見たJavaOne
ななめ45°から見たJavaOneななめ45°から見たJavaOne
ななめ45°から見たJavaOne
AdvancedTechNight
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
 
ATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlersATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlers
AdvancedTechNight
 

Más de AdvancedTechNight (20)

CSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3DCSS3Rendererを使ってiOSでもサクサク3D
CSS3Rendererを使ってiOSでもサクサク3D
 
D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界D3.jsと学ぶVisualization(可視化)の世界
D3.jsと学ぶVisualization(可視化)の世界
 
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
3DCG(3Dコンピュータグラフィック)をWebGLで始めよう
 
CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現CSSだけで実現するグラフィック表現
CSSだけで実現するグラフィック表現
 
これから利用拡大?WebSocket
これから利用拡大?WebSocketこれから利用拡大?WebSocket
これから利用拡大?WebSocket
 
全部入り!WGPで高速JavaScript+HML5体験
全部入り!WGPで高速JavaScript+HML5体験全部入り!WGPで高速JavaScript+HML5体験
全部入り!WGPで高速JavaScript+HML5体験
 
Backbone.js入門
Backbone.js入門Backbone.js入門
Backbone.js入門
 
TypeScriptのススメ ~JavaエンジニアのためのJava(like)Script
TypeScriptのススメ ~JavaエンジニアのためのJava(like)ScriptTypeScriptのススメ ~JavaエンジニアのためのJava(like)Script
TypeScriptのススメ ~JavaエンジニアのためのJava(like)Script
 
three.jsで作る3Dの世界
three.jsで作る3Dの世界three.jsで作る3Dの世界
three.jsで作る3Dの世界
 
単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介単なるキャッシュじゃないよ!?infinispanの紹介
単なるキャッシュじゃないよ!?infinispanの紹介
 
Stormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPIStormの注目の新機能TridentAPI
Stormの注目の新機能TridentAPI
 
Spine入門
Spine入門Spine入門
Spine入門
 
分散ストリーム処理フレームワーク Apache S4
分散ストリーム処理フレームワーク Apache S4分散ストリーム処理フレームワーク Apache S4
分散ストリーム処理フレームワーク Apache S4
 
Twitterのリアルタイム分散処理システム「Storm」入門 demo
Twitterのリアルタイム分散処理システム「Storm」入門 demoTwitterのリアルタイム分散処理システム「Storm」入門 demo
Twitterのリアルタイム分散処理システム「Storm」入門 demo
 
Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門Twitterのリアルタイム分散処理システム「Storm」入門
Twitterのリアルタイム分散処理システム「Storm」入門
 
ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」ログ収集フレームワークの新バージョン「FlumeNG」
ログ収集フレームワークの新バージョン「FlumeNG」
 
ななめ45°から見たJavaOne
ななめ45°から見たJavaOneななめ45°から見たJavaOne
ななめ45°から見たJavaOne
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
 
ATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlersATN No.2 大阪から来たJavaPuzzlers
ATN No.2 大阪から来たJavaPuzzlers
 
ATN No.2 Scala事始め
ATN No.2 Scala事始めATN No.2 Scala事始め
ATN No.2 Scala事始め
 

Último

Último (7)

Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

ATN No.1 Hadoop vs Amazon EMR

  • 1. Advanced Tech Night No.01 Hadoop vs Amazon EMR 2011/04/22 Acroquest Technology 株式会社 橋本 拓也
  • 2. はじめに 1. 簡単に自己紹介。 2. Acroquest Technology テクニカルコンサルタント 橋本 拓也 3. JaTS(Javaトラブルシューティング)を中心 に、プロジェクトの障害解析・障害回避を 仕事としています。 4. Hadoopは個人的に注目して触っています。 それを自慢げに話していたら、プロジェク トでHadoop使うことになってオタオタしま した。 1
  • 3. どんな仕事をしているか? JaTS never ending story (http://www.acroquest.co.jp/jats_novel/index.html) より抜粋 2
  • 4. 目的 1. Hadoopと比べていまいち知名度の低い Amazon EMR(Elastic Map Reduceの略)が どんなものだか、調べてみました。 2. 「Hadoopをやっと使えるようになったと 思ったら、また変なのが出てきた!」と プレスリリースで思ったので、何が凄いの か試してみました。 3
  • 5. この発表の前提 1. 私は身内びいきな傾向が強いので、 「Hadoopサイコー、 後発のAmazon EMRなん てっ!」 というのが大前提です。  実はこの後発というのさえ間違いなのです が・・・ 2. そのため、大分偏った評価になるかもしれ ませんが、ご了承を。 4
  • 6. 内容 1. 各製品の歴史 2. Elastic MapReduceの導入 3. EMR vs Hadoopの比較 4. EMR, Hadoopはこんな人におすすめ 5
  • 7. 各製品の歴史(Hadoop) 1. 言わずとしれたJavaの分散処理環境ですね。 2. 2005年ごろから開発が始まり、現在に至る。 3. Yahoo版と、Cloudera版の配布形態があり、 以前は違いが結構あった。  最近はバイナリ的には殆ど同じ、サポートの違 いにのみになりつつあるようですね。 4. 「スケールアウトを手軽にしたいシステム ならもうHadoop一択でいいんじゃない か!」・・・と私は思ってます。 6
  • 8. 各製品の歴史(Elastic Map Reduce) 1. 端的に言えば、Elastic Map Reduce(以下 EMR)はHadoopをEC2で簡単に使える ようにしたサービスです。 2. 実はEMRは2009年から提供されています。 3. Hadoop Summit 2010で発表された機能追 加で一気に使えるサービスになりました。 ① Hadoop 0.20へバージョンアップ ② クラスタを動作させたままでのインスタンスの 増減可能 7
  • 9. Elastic MapReduce導入 1. Elastic MapReduceは、Amazon EC2/S3と 深く結びついているため、まずここらへん が使えるようにならないといけません。  Amazon S3はEMRのデータ置き場になるため、 利用が(おそらく)必須です。  Amazon S3に巨大なデータを入れるのが思い の他時間がかかるので注意が必要です。 2. 課金のためのクレジットカード番号と、電 話番号なんかの社会的な個人認証方式が必 要になりますので、ニート的な人は注意。 8
  • 10. まとめ Elastic Map Reduce ≒ Amazon EC2上のHadoop 9
  • 11. Advanced Tech Night No.01 Hadoop vs Amazon EMR ご清聴ありがとうございまし た! 10
  • 12. Advanced Tech Night No.01 Hadoop vs Amazon EMR 某先輩が怒るので、 真面目に比較します。 11
  • 13. EMR vs Hadoopの比較 No 内容 EMR Hadoop 1 導入コスト ○ほぼ無料。登録が手間。 ×ハードウェアのセットアッ プが必要。 2 対応言語 ○Java, Ruby, Python, C++な ◎Hadoop Streaming, Pipes ど、あらかじめ用意された言 を使えば何でもあり。 語 3 構成の柔軟性 ○EC2で提供される構成を手 ×なんでもできますが、それ 軽に選択 相当のお金がかかります。 4 スケールアッ ○スケールアップは基本無理。 ◎スケールアップ・アウトと プ スケールアウトは簡単。 も自由にできる。 スケールアウ ト 5 運用コスト ×使えば使うだけ増加します。 ○基本的に電気代ぐらい。 6 性能 ×思いの他速い。 ○用意するハードウェアス 重い処理にはノード追加で対 ペックによりけり。 応。 7 耐障害性 ○Amazonが守ってくれるかも ×マシンが壊れたらそれでま 12
  • 14. EMR vs Hadoopの比較~導入コスト EMR 課金は思いの他安い。どんなに失敗しても1000円いかないは ず。 EC2のアカウントがあれば、ものの数分で動作環境が整う手 軽さ。マシンを用意しなくても良く、Hadoopのインストール に手間取ることもない。 Hadoop ハードウェアを用意するところから始まるが、普通PCの自作 大好きだから問題なし! Hadoopのインストールではまっても、「経験値があがった」 と思って前向きに頑張る! 13
  • 15. EMR vs Hadoopの比較~対応言語 EMR 主にRuby, Javaを推奨している?利用例もこの2つが多い。 それ以外にもHadoop Streamingが使え、C++、Python、PHP なども利用が可能になっている。 Hadoop Hadoop Streaming, Hadoop Pipesを使って自由に言語を組み 合わせられる。 設定に困ったら「教えてgoo」とかで生温かくサポートしても らおう。 14
  • 16. EMR vs Hadoopの比較~構成の柔軟性 EMR インスタンスのスペックをカスタマイズはできないが、EC2 で提供されている様々なサービスを利用可能。特に手軽に NVIDIA Teslaがつかえる"Cluster GPU Instance"との組み合わ せは、魅力的。 Hadoop インスタンスのスペックを自由にカスタマイズできる。IOボ トルネックならSSD導入も可能。 高スペックなパーツの組み合わせを想像して興奮できる! 15
  • 17. EMR vs Hadoopの比較~スケールアップ・スケールアウ ト EMR スケールアウトでの性能向上を得意としています。 クラスタを再起動せずにインスタンスを追加できるのは、重 い処理をしている際や、想定外のデータ量増加に効果的。 逆にスケールアップは実質不可能。 Hadoop スケールアウトでもスケールアップでも自由にできます。 皆さんの居住スペースや作業スペースが減ってもキニシナ イ! 16
  • 18. EMR vs Hadoopの比較~運用コスト EMR 数Gbyte程度のデータ処理なら数百円程度。想像よりもお金は かかりませんでした。 定常的なバッチ処理やインスタンスの過剰追加で、 "EMR bunkrupt"する人たちがいるので、運用時には注意が必 要。 Hadoop 電気代くらい?あと掃除の手間。 ハードウェアが壊れたりするとコストが跳ね上がるけれど、 まあ、それも歓びのうち。 17
  • 19. EMR vs Hadoopの比較~運用コスト ちなみに、EC2もEMRも、どこのリージョン を使うかによって、コストと出来ることが変 わってきます。 GPGPU リージョン EC2コスト EMRコスト 使える? 米国東部 $0.085/時間 $0.015/時間 ○ 米国西部 $0.095/時間 $0.015/時間 EU $0.095/時間 $0.015/時間 シンガポー $0.095/時間 $0.015/時間 ル 東京 $0.100/時間 ※コストはそれぞれ最少規模の金額です。 $0.015/時間 シンガポールは分かりませんが、米国東部とのネットワーク遅延は思いの他 大きかったです。(私が評価した時は東京リージョンがありませんでした) そう考えると、少々高くても東京リージョンがお勧めですね。 18
  • 20. EMR vs Hadoopの比較~性能面 EMR 現状でも手元のマシンと比べて特段遅いとは感じない。時間 がたてば、ノードの性能が勝手に上昇していくクラウドの優 位性があります。クラウド上のサービスのため、ネットワー ク帯域・遅延に影響を受けやすいです。特に大量データの アップロードとか。 Hadoop Map/Reduceを立ち上げるごとに巨大データをロードするとか、 単一ノードに高い負荷がかかる、非常に重いロジックを処理 する際に、最適な環境を構築できます。 19
  • 21. EMR vs Hadoopの比較~耐障害性 EMR Amazonのデータセンタがつぶれない限りは問題ないはず。 リージョンを移し替えることも比較的容易にできる。 Hadoop 地震でラックが倒れてきたら、あなたの腕力でカバー! 計画停電も自家発電で対抗可能。 20
  • 22. EMRはこんな人におすすめ! 1. とにかくスモールスタートで始めたい  Amazon EC2を利用する準備があれば、すぐに 使い始められます。 2. マシンを物理的に何台も用意したくない人  インスタンスの増減が数クリックで実現できま す。 3. クラウド上で完結する処理を主に扱う人 4. 重い処理を定常的に行わない人 21
  • 23. Hadoopはこんな人におすすめ! 1. 運用コストで思いもよらない金額を請求さ れたくない人。そういうのが見積もれない 人 2. 扱うデータをクラウド上に置きたくない・ 置けない人  処理結果を高頻度でDBに反映させる必要性あ り 3. スケールアウトより、スケールアップをは かる必要がある人  ノードで実行するロジックのCPU負荷が高い 4. 既存システムとMapReduce処理を連携させ 22
  • 24. まとめ 1. EMRはHadoopをEC2上で使えるようにし たもの。2010年の機能追加で使い勝手が一 気によくなりました。 2. EMRは思ったよりも低コストで運用できる。 今回のセミナー用の調査でも1000円ぐらい・・のはず。 3. 個人でも、少しお金がかかっても手軽に使 いたいならばEMR、とことん自分で作りこ みたいならHadoopと住み分けられる・・・ はず。 私は手元で全部動かしたいので、 ローカルでHadoop使うと思いますが・・・ 23
  • 25. Advanced Tech Night No.01 Hadoop vs Amazon EMR ご清聴ありがとうございました。 本当に。 24