SlideShare una empresa de Scribd logo
1 de 33
Elastic MapReduce

Hadoop EMR
•             (@sasata299)

•                       NoSQL

•
• http://blog.livedoor.jp/sasata299/
Hadoop
etc…
•
    •   EC2    Hadoop            & S3

    •   Cloudera (CDH1)

•
    •   Hadoop Streaming (Ruby     )
    •
•
    •   (     )

    •
    •   master ssh

•   Hadoop           (HADOOP-6254)
    •   S3            cpu

    •   S3           →         …
SocketTimeoutException
HADOOP-6254
Elastic MapReduce                                         !!




      https://issues.apache.org/jira/browse/HADOOP-6254
HADOOP-6254
Cloudera (CDH2)                                                             !!




 http://archive.cloudera.com/cdh/2/hadoop-0.20.1+169.88.releasenotes.html
Elastic Mapreduce
       (EMR)
• EC2, S3
•
•
• GUI( )
• EC2, S3                  →

•                  →

•                      →

• GUI( )    →CUI

•
• EC2, S3                  →

•                  →

•                      →

• GUI( )    →CUI

•
EMR CDH2
                     AMI
                  (Amazon Machine
        UP            Image)




EMR


CDH2
EMR CDH2
                     AMI
                  (Amazon Machine
        UP            Image)




EMR


CDH2
EMR      !!
      (eHarmony)
…
EMR
        BootStrap Action


        Step (Hadoop Job)




  Job Flow (        )
EMR
        BootStrap Action


        Step (Hadoop Job)




  Job Flow (        )
EMR
        BootStrap Action


        Step (Hadoop Job)




  Job Flow (        )
EMR
        BootStrap Action


        Step (Hadoop Job)




  Job Flow (        )
(               )
elastic-mapreduce
--create #

--num-instances 10 # master:1      , slave:9

--bootstrap-action s3n://xxx/hoge.sh #

--alive #
(               )
elastic-mapreduce
--create #

--num-instances 10 # master:1      , slave:9

--bootstrap-action s3n://xxx/hoge.sh #

--alive #

      Created job flow j-8IXS98OW1WEE
                                     ID
(        )
elastic-mapreduce
--stream # Hadoop streaming
--input, --output, --mapper, --reducer #

--cache s3n://xxx/fuga.rb #

--jobconf xxx=yyy #

--jobflow j-xxxxx #                    ID
(        )
elastic-mapreduce
--stream # Hadoop streaming
--input, --output, --mapper, --reducer #

--cache s3n://xxx/fuga.rb #

--jobconf xxx=yyy #

--jobflow j-xxxxx #                    ID
•
    •
    •
    •   --alive

• AMI
    •   Cloudera           AMI
    •   BootStrap Action
•
•   mapred.child.java.opts
•   Java
•   Streaming

•
•
•   ElasticMapReduce-master 5100
•   EMR
              Hadoop

•   EMR

•

•   --alive
Hadoopをemr経由で利用する方法

Más contenido relacionado

Más de Tatsuya Sasaki

マーケティングのためのHadoop利用
マーケティングのためのHadoop利用マーケティングのためのHadoop利用
マーケティングのためのHadoop利用Tatsuya Sasaki
 
Hadoop導入事例 in クックパッド
Hadoop導入事例 in クックパッドHadoop導入事例 in クックパッド
Hadoop導入事例 in クックパッドTatsuya Sasaki
 
800万人の"食べたい"をHadoopで分散処理
800万人の"食べたい"をHadoopで分散処理800万人の"食べたい"をHadoopで分散処理
800万人の"食べたい"をHadoopで分散処理Tatsuya Sasaki
 
Hadoopを業務で使ってみた
Hadoopを業務で使ってみたHadoopを業務で使ってみた
Hadoopを業務で使ってみたTatsuya Sasaki
 
Hadoopを業務で使ってみました
Hadoopを業務で使ってみましたHadoopを業務で使ってみました
Hadoopを業務で使ってみましたTatsuya Sasaki
 

Más de Tatsuya Sasaki (6)

マーケティングのためのHadoop利用
マーケティングのためのHadoop利用マーケティングのためのHadoop利用
マーケティングのためのHadoop利用
 
Hadoop導入事例 in クックパッド
Hadoop導入事例 in クックパッドHadoop導入事例 in クックパッド
Hadoop導入事例 in クックパッド
 
800万人の"食べたい"をHadoopで分散処理
800万人の"食べたい"をHadoopで分散処理800万人の"食べたい"をHadoopで分散処理
800万人の"食べたい"をHadoopで分散処理
 
Hadoopを業務で使ってみた
Hadoopを業務で使ってみたHadoopを業務で使ってみた
Hadoopを業務で使ってみた
 
Hadoopを業務で使ってみました
Hadoopを業務で使ってみましたHadoopを業務で使ってみました
Hadoopを業務で使ってみました
 
YUI
YUIYUI
YUI
 

Hadoopをemr経由で利用する方法

  • 2. (@sasata299) • NoSQL • • http://blog.livedoor.jp/sasata299/
  • 5. • EC2 Hadoop & S3 • Cloudera (CDH1) • • Hadoop Streaming (Ruby ) •
  • 6. • ( ) • • master ssh • Hadoop (HADOOP-6254) • S3 cpu • S3 → …
  • 8.
  • 9. HADOOP-6254 Elastic MapReduce !! https://issues.apache.org/jira/browse/HADOOP-6254
  • 10. HADOOP-6254 Cloudera (CDH2) !! http://archive.cloudera.com/cdh/2/hadoop-0.20.1+169.88.releasenotes.html
  • 11.
  • 14. • EC2, S3 → • → • → • GUI( ) →CUI •
  • 15. • EC2, S3 → • → • → • GUI( ) →CUI •
  • 16. EMR CDH2 AMI (Amazon Machine UP Image) EMR CDH2
  • 17. EMR CDH2 AMI (Amazon Machine UP Image) EMR CDH2
  • 18. EMR !! (eHarmony)
  • 19.
  • 20.
  • 21.
  • 22. EMR BootStrap Action Step (Hadoop Job) Job Flow ( )
  • 23. EMR BootStrap Action Step (Hadoop Job) Job Flow ( )
  • 24. EMR BootStrap Action Step (Hadoop Job) Job Flow ( )
  • 25. EMR BootStrap Action Step (Hadoop Job) Job Flow ( )
  • 26. ( ) elastic-mapreduce --create # --num-instances 10 # master:1 , slave:9 --bootstrap-action s3n://xxx/hoge.sh # --alive #
  • 27. ( ) elastic-mapreduce --create # --num-instances 10 # master:1 , slave:9 --bootstrap-action s3n://xxx/hoge.sh # --alive # Created job flow j-8IXS98OW1WEE ID
  • 28. ( ) elastic-mapreduce --stream # Hadoop streaming --input, --output, --mapper, --reducer # --cache s3n://xxx/fuga.rb # --jobconf xxx=yyy # --jobflow j-xxxxx # ID
  • 29. ( ) elastic-mapreduce --stream # Hadoop streaming --input, --output, --mapper, --reducer # --cache s3n://xxx/fuga.rb # --jobconf xxx=yyy # --jobflow j-xxxxx # ID
  • 30. • • • --alive • AMI • Cloudera AMI • BootStrap Action
  • 31. • • mapred.child.java.opts • Java • Streaming • • • ElasticMapReduce-master 5100
  • 32. EMR Hadoop • EMR • • --alive

Notas del editor