SlideShare una empresa de Scribd logo
1 de 46
Clouderaのビッグデータ技術
~ HadoopとCDH、Cloudera Manager ~

Cloudera株式会社 小林大輔
2012/02/19
アジェンダ

    • Hadoopとは?
    • Clouderaが提供するHadoopディストリ
      ビューション
    • Hadoopの運用について
    • 運用管理ツールのご紹介




2
自己紹介

    •   小林大輔
    • カスタマーオペレーションズエンジニアと
      して
      テクニカルサポート業務を担当
    • daisuke@cloudera.com


    (小中高を神戸の田舎の方で過ごしました)
    (いまは両親とも東京に移住済み)

3
Hadoopとは?




4
データ処理の課題

    • ストレージ
     •   データをどこにどう貯めておくか
    • 処理
     •   データをどこでどう計算するか




5
ストレージの容量

                  HDD単体容量(GB)
    3500
                                3000
    3000

    2500

    2000

    1500

    1000

    500                 200
           2.1
       0
           1997         2004    2012

6
ストレージの価格

                     GBあたりのコスト
    $180
    $160      $157
    $140
    $120
    $100
    $80
    $60
    $40
    $20
                             $1.05
     $0                                 $0.05
           1997           2004       2012

7
ディスクの性能

                      転送レート(MB/s)
    250.0

                                         210
    200.0


    150.0


    100.0


     50.0                      56.5

                   16.6
      0.0
            1997            2004      2012

8
ディスク読み込み時間

    •   ディスク全体の読み込み時間はむしろ増えてい
        る
        状況といえる
               年      容量        時間
            1994年    2.1GB     126秒
            2004年   200GB       59分
            2012年   3000GB   3時間58分




9
ディスク読み込み時間

     •   ディスク全体の読み込み時間はむしろ増えてい
         る
         状況といえる
                年      容量        時間
             1994年    2.1GB     126秒
             2004年   200GB       59分
             2012年   3000GB   3時間58分




10
つまり、、、

     • ディスク容量は増え、価格も下がった
     • しかし、データを読み書きする速度(I/O)
       はそれほど改善されていない




         データアクセスがボトルネックに
                なる


11
処理

     • 一般的に計算処理はCPUに依存
     • ムーアの法則
       「マイクロプロセッサの性能は18ヶ月
       で2倍になる」
     • iPhone5のCPUは、1977年に発表された
       富士通のスーパーコンピュータ、
       FACOM 230-75の20倍

12
処理


     • 一般的に計算処理はCPUに依存
     • ムーアの法則
       「マイクロプロセッサの性能は18ヶ月
       で2倍になる」
     • iPhone5のCPUは、1977年に発表された
       富士通のスーパーコンピュータ、
       FACOM 230-75の20倍

13
大規模処理をしようと思ったら、、、

     • 現代の大規模処理はマシン間で処理を分散する
     • 分散処理システムが必要




          「開拓時代には重いものを引くのに雄牛が
          使われたものですが、一頭の雄牛が丸太を
         引くことができなくても、もっと大きな雄牛を
             育てようとはしませんでした」
            Grace Hopper: 初期の分散コンピューティングの研究者




14
分散処理の問題:データ処理のボトルネッ
     ク

     • 少量のデータでは問題ない
     • 計算サーバーが増えると悪化する
      •   ネットワーク間の通信による




15
分散処理の問題:複雑さ

     •   可用性
     •   部分障害
     •   連鎖障害
     •   データの一貫性
     •   イベントの同期
     •   帯域の制限
     •   …..
     •   …..


16
分散処理の問題:複雑さ

     •   可用性
     •   部分障害
     •   連鎖障害
     •   データの一貫性
     •   イベントの同期
     •   帯域の制限
     •   …..
     •   ….. そこで登場したのがHadoop


17
Hadoopとは何か?


     • コモディティハードウェアにより構成
       される
     • スケールアウト型のアーキテクチャ
     • HadoopはGoogleの論文を参考に開発さ
       れている




18
Hadoopでの解決:ディスクのパフォーマン
     ス

     • 複数のディスクを並列に使用する
        • 単一ディスクの転送レートが210MB/s
           • 3TBのデータ読み込みには約4時間
        • 1000台並列であれば210GB/s
           • 3TBのデータ読み込みには15秒弱




20
Hadoopでの解決:複雑さと耐障害性

     •   MapReduceプログラミングモデルにより処
         理を単純化
     • 障害が不可避であるという前提で動作
     • 大規模なクラスタであれば、1日あた
         り1台の障害が起こりうる
         • MTBF(平均故障間隔)が5年、2000台と仮定
         • 365日*5年=1825日(ほぼ2000日)



22
Hadoopとは?


 • コモディティハードウェアにより構成
   される
 • スケールアウト型のアーキテクチャ
 • 耐障害性を備えている
 • オープンソースのソフトウェア




23
Hadoopのコアコンポーネント



       HDFS         MapReduce

     自己修復機能を      分散
       持つ      コンピューティン
     分散ストレージ   グ・フレームワー
                   ク




24
HDFS

 • Hadoop の分散ファイルシステム
 • 大量のデータを多数のノードに分散し
     て保存する
 • 耐障害性が高く、シーケンシャルアク
     セスに対するスループットが高い
 • 低レイテンシのデータアクセスや小さ
     いファイルへのアクセスは苦手

25
HDFS

     自己修復機能を持つ高帯域な

      1

      2

      3     HDFS


      4            2   1   1    2       1
                   4   2   3    3       3
      5            5   5   4    5       4

            HDFSは受け取ったファイルをブロックに分割し、
          そのブロックをクラスタ全体にわたって重複して格納します


26
HDFS

     1つのサーバが壊れても自動複製


生きているノード
 に自動的に複製
    し、
常に3つのレプリカ
            2   1   1   2   1
があるようにする
            4   2   3   3   3
            5   5   4   5   4
            1   3       4




27
MapReduce

                               フレームワーク

     1

     2

     3   MR


     4        2               1                     1   2   1
              4               2                     3   3   3
     5        5               5                     4   5   4



多数のノード間で大規模ジョブを並列処理し、処理結果を結合し
             ます
28                ©2011 Cloudera, Inc. All Rights
                           Reserved.
なぜMapReduceか?

 • データを取得するのではなく、データのある場
   所にプログラムを送信して計算する
 • データをHDFSに保存することで耐障害性の確保
 •   ノード障害発生時にはそのノードの処理分だけ
     再実行




29
Hadoopの周辺コンポーネント


        HadoopとRDBMSとの連携                   分散ログストリーミング処理
             APACHE Sqoop                     APACHE Flume


      クラウドでの分散処理ライブラリ                      ワークフローとスケジューリング
           APACHE Whirr                         APACHE Oozie


     分散協調サービス                          高級言語とライブラリ
     APACHE ZooKeeper          APACHE Hive, APACHE Pig, APACHE Mahout


     分散データベース                           大規模分散処理基盤
      APACHE HBase                      APACHE MapReduce


                            分散ファイルシステム
                              APACHE HDFS




30
Hadoopの周辺コンポーネント


         HadoopとRDBMSとの連携                分散ログストリーミング処理
              APACHE Sqoop                  APACHE Flume


 • Hadoopを使ってみたい
      クラウドでの分散処理ライブラリ   ワークフローとスケジューリング
     • コンポーネント毎にソースをダウンロードしてきてビルドする
           APACHE Whirr      APACHE Oozie

     • 各サーバーにデプロイする
       分散協調サービス                 高級言語とライブラリ
     • どのバージョンにどの修正が含まれているのか把握するのは困
       APACHE ZooKeeper APACHE Hive, APACHE Pig, APACHE Mahout
       難
     • 互換性の問題
       分散データベース                  大規模分散処理基盤
        APACHE HBase                   APACHE MapReduce


                             分散ファイルシステム
                               APACHE HDFS




31
Clouderaが提供するHadoopディストリビュー
ション

 • CDH(Cloudera’s Distribution including Apache
   Hadoop)
 • 主要コンセプトは4つ
     •   大規模データの蓄積
     •   並列処理
     •   データインテグレーション
     •   言語とインタフェース
 •   CDHでは、これらのコンセプトを実現するための
     様々なコンポーネントを用意



32
なぜCDHなのか?

       CDHはエンタープライズ向けの
     Hadoopディストリビューションです
 •   CDHには大量のパッチが当てられています
     •   性能改善・バグ修正パッチ
     •   互換性を維持できる範囲での機能追加

 •   CDHはパッケージで管理できます
     •   yum コマンドで簡単にインストール/アップデート可能
         •   コミュニティ版を使うとコンポーネントごとにダウンロード、
             コンパイル、デプロイを行う必要がある


33
CDH 開発の歴史


                                  2012/06

                         高可用性ネームノード(NFS)
                         複数のデータ処理フレームワーク(MR1とMR2)
Q3 2009       Q2 2011
                         etc…


                                  2012/0
2009   2010    2011       2012                2012/09
                                    6


                                            2012/09
 Q1 2010
                            高可用性ネームノード(クォーラムベースストレージ)
                            Hue の Oozie ワークフローGUI と日本語化
                            統計分析用PigライブラリDataFu
                            etc…


34
Hadoopの運用について




35
Hadoopの運用

     • 必要になる作業
        • クラスタの管理と監視
        • 設定
        • 設定パラメータ
        • メンテナンス
        • パフォーマンス監視
        • アクセス管理




36
Hadoopの運用

     • Hadoopは複雑なシステム
      • 非常に多くの要素がある
      • ネットワークやストレージなど、考慮することが多い

     • 設定項目も膨大
     • サポートで問い合わせをうける問題
      も、設定ミスによるものであるケース
      が多い


37
Hadoopの運用

     • Apache Hadoopは複雑なシステム
     • Hadoopの運用は難しく、大変
        • 非常に多くの要素がある
     • Clouderaが提供する運用管理ソフトが
        • ネットワークやストレージなど、考慮することが多い
       これらの問題/不安を解消します
     • 設定項目も膨大
       = Cloudera Manager
     • サポートで問い合わせをうける問題も、
      設定ミスによるものであるケースが多
      い


38
Cloudera Managerとは

     •   エンタープライズ規模のHadoopユーザーの必要
         に応じて設計されたアプリケーション
         • Hadoopをノードにインストール
         • クラスタにホストの追加/削除、サービスを設定
         • クラスタの動作を監視
         • クラスタの使用量のレポートを生成
         • クラスタにアクセスするユーザーを管理


                日本語に対応!



39
ダッシュボード




40
パフォーマンスと使用量のレポート




41
CDHをインストールする

     • Cloudera Managerを使用します
     • Webアプリケーションなので、操作は
       すべてブラウザから行います
     • GUIは日本語化対応済みです




42
デモ動画
     https://vimeo.com/49643526




43
Cloudera Managerの種類

     • Free Edition
        • 無償でダウンロード可能
        • インストールと基本的な設定を容易にする

     • Enterprise Edition
       • エンタープライズ/商用向けの機能を含んで
         いる
       • Free Editionから容易にアップデート可能




44
Free Editionの制限

     •   Free Editionでは50ノードまでサポート
         •   Enterprise Editionは制限なし
     •   Free Editionにはエンタープライズ用の機能
         が含まれない
         • サービス監視
         • LDAP/Kerberos統合
         • イベント管理とアラート
         • アクティビティモニタ
         • レポート機能
         • サポートシステムとの統合

45
ダウンロードして試してみてください

     • https://ccp.cloudera.com/display/support
       /downloads
     • 弊社Webサイトのトップページから、
       「RESOURCES」
       -> 「Download Cloudera Manager」
       と辿ってください



46
今日話したこと

     • Hadoopとは?
     • Clouderaが提供するHadoopディストリ
       ビューション
     • Hadoopの運用について
     • Cloudera Managerのご紹介




47
48

Más contenido relacionado

La actualidad más candente

100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジLINE Corporation
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)Akira Shimosako
 
5分でわかる Apache HBase 最新版 #hcj2014
5分でわかる Apache HBase 最新版 #hcj20145分でわかる Apache HBase 最新版 #hcj2014
5分でわかる Apache HBase 最新版 #hcj2014Cloudera Japan
 
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔Insight Technology, Inc.
 
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013Cloudera Japan
 
Percona ServerをMySQL 5.6と5.7用に作るエンジニアリング(そしてMongoDBのヒント)
Percona ServerをMySQL 5.6と5.7用に作るエンジニアリング(そしてMongoDBのヒント)Percona ServerをMySQL 5.6と5.7用に作るエンジニアリング(そしてMongoDBのヒント)
Percona ServerをMySQL 5.6と5.7用に作るエンジニアリング(そしてMongoDBのヒント)Colin Charles
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
20分でわかるHBase
20分でわかるHBase20分でわかるHBase
20分でわかるHBaseSho Shimauchi
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Cloudera Japan
 
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用Toshihiro Suzuki
 
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12MapR Technologies Japan
 
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese VersionHadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese VersionCloudera, Inc.
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best PracticeHadoop / Spark Conference Japan
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerHBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerMichio Katano
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...Insight Technology, Inc.
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)オラクルエンジニア通信
 
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013Cloudera Japan
 
[db tech showcase Tokyo 2017] B14: 4年連続No.1リーダー評価のストレージでDBクローンするとどんな感じ?瞬時のクロー...
[db tech showcase Tokyo 2017] B14: 4年連続No.1リーダー評価のストレージでDBクローンするとどんな感じ?瞬時のクロー...[db tech showcase Tokyo 2017] B14: 4年連続No.1リーダー評価のストレージでDBクローンするとどんな感じ?瞬時のクロー...
[db tech showcase Tokyo 2017] B14: 4年連続No.1リーダー評価のストレージでDBクローンするとどんな感じ?瞬時のクロー...Insight Technology, Inc.
 

La actualidad más candente (20)

100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
100億超メッセージ/日のサービスを 支えるHBase運用におけるチャレンジ
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
 
5分でわかる Apache HBase 最新版 #hcj2014
5分でわかる Apache HBase 最新版 #hcj20145分でわかる Apache HBase 最新版 #hcj2014
5分でわかる Apache HBase 最新版 #hcj2014
 
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
 
MapR M7 技術概要
MapR M7 技術概要MapR M7 技術概要
MapR M7 技術概要
 
なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013なぜApache HBaseを選ぶのか? #cwt2013
なぜApache HBaseを選ぶのか? #cwt2013
 
Percona ServerをMySQL 5.6と5.7用に作るエンジニアリング(そしてMongoDBのヒント)
Percona ServerをMySQL 5.6と5.7用に作るエンジニアリング(そしてMongoDBのヒント)Percona ServerをMySQL 5.6と5.7用に作るエンジニアリング(そしてMongoDBのヒント)
Percona ServerをMySQL 5.6と5.7用に作るエンジニアリング(そしてMongoDBのヒント)
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
20分でわかるHBase
20分でわかるHBase20分でわかるHBase
20分でわかるHBase
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
 
HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用HBaseを用いたグラフDB「Hornet」の設計と運用
HBaseを用いたグラフDB「Hornet」の設計と運用
 
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
 
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese VersionHadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese Version
 
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practiceマルチテナント Hadoop クラスタのためのモニタリング Best Practice
マルチテナント Hadoop クラスタのためのモニタリング Best Practice
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
 
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerHBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク 「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
 
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013
 
[db tech showcase Tokyo 2017] B14: 4年連続No.1リーダー評価のストレージでDBクローンするとどんな感じ?瞬時のクロー...
[db tech showcase Tokyo 2017] B14: 4年連続No.1リーダー評価のストレージでDBクローンするとどんな感じ?瞬時のクロー...[db tech showcase Tokyo 2017] B14: 4年連続No.1リーダー評価のストレージでDBクローンするとどんな感じ?瞬時のクロー...
[db tech showcase Tokyo 2017] B14: 4年連続No.1リーダー評価のストレージでDBクローンするとどんな感じ?瞬時のクロー...
 

Destacado

基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015Cloudera Japan
 
Cloudera HBase training and certification
Cloudera HBase training and certificationCloudera HBase training and certification
Cloudera HBase training and certificationCloudera Japan
 
Clouderaの品質保証・CDHのテスト工程について by Andrew bayer
Clouderaの品質保証・CDHのテスト工程について by Andrew bayerClouderaの品質保証・CDHのテスト工程について by Andrew bayer
Clouderaの品質保証・CDHのテスト工程について by Andrew bayerCloudera Japan
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Cloudera Japan
 
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014Cloudera Japan
 
Cloudera サポートの現場から、YARN の最新事情 #hcj2014
Cloudera サポートの現場から、YARN の最新事情 #hcj2014Cloudera サポートの現場から、YARN の最新事情 #hcj2014
Cloudera サポートの現場から、YARN の最新事情 #hcj2014Cloudera Japan
 
Cloudera Manager 4 の紹介
Cloudera Manager 4 の紹介Cloudera Manager 4 の紹介
Cloudera Manager 4 の紹介Cloudera Japan
 
Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Manager4.0とNameNode-HAセミナー資料Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Manager4.0とNameNode-HAセミナー資料Cloudera Japan
 
CDH4->5 update苦労話
CDH4->5 update苦労話CDH4->5 update苦労話
CDH4->5 update苦労話Yu Yamada
 
Cloudera impalaの性能評価(Hiveとの比較)
Cloudera impalaの性能評価(Hiveとの比較)Cloudera impalaの性能評価(Hiveとの比較)
Cloudera impalaの性能評価(Hiveとの比較)Yukinori Suda
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014Cloudera Japan
 
Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Cloudera Japan
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
Hadoop and Kerberos
Hadoop and KerberosHadoop and Kerberos
Hadoop and KerberosYuta Imai
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloudera Japan
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計Cloudera Japan
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング Cloudera Japan
 

Destacado (20)

基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015
 
Cloudera HBase training and certification
Cloudera HBase training and certificationCloudera HBase training and certification
Cloudera HBase training and certification
 
Clouderaの品質保証・CDHのテスト工程について by Andrew bayer
Clouderaの品質保証・CDHのテスト工程について by Andrew bayerClouderaの品質保証・CDHのテスト工程について by Andrew bayer
Clouderaの品質保証・CDHのテスト工程について by Andrew bayer
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
 
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
 
Cloudera サポートの現場から、YARN の最新事情 #hcj2014
Cloudera サポートの現場から、YARN の最新事情 #hcj2014Cloudera サポートの現場から、YARN の最新事情 #hcj2014
Cloudera サポートの現場から、YARN の最新事情 #hcj2014
 
Cloudera Manager 4 の紹介
Cloudera Manager 4 の紹介Cloudera Manager 4 の紹介
Cloudera Manager 4 の紹介
 
Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Manager4.0とNameNode-HAセミナー資料Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Manager4.0とNameNode-HAセミナー資料
 
CDH4->5 update苦労話
CDH4->5 update苦労話CDH4->5 update苦労話
CDH4->5 update苦労話
 
Cloudera impalaの性能評価(Hiveとの比較)
Cloudera impalaの性能評価(Hiveとの比較)Cloudera impalaの性能評価(Hiveとの比較)
Cloudera impalaの性能評価(Hiveとの比較)
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
 
Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015Troubleshooting Using Cloudera Manager #cwt2015
Troubleshooting Using Cloudera Manager #cwt2015
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
Hadoop and Kerberos
Hadoop and KerberosHadoop and Kerberos
Hadoop and Kerberos
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 

Similar a Cloudera大阪セミナー 20130219

NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTT DATA OSS Professional Services
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...Insight Technology, Inc.
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2Dell TechCenter Japan
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTeruo Kawasaki
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちAdvancedTechNight
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
ゾウ使いへの第一歩
ゾウ使いへの第一歩ゾウ使いへの第一歩
ゾウ使いへの第一歩Fumito Ito
 
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編GoAzure
 
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編ThinkIT_impress
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16Yifeng Jiang
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
マイニング探検会#10
マイニング探検会#10マイニング探検会#10
マイニング探検会#10Yoji Kiyota
 

Similar a Cloudera大阪セミナー 20130219 (20)

Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
 
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たちATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
 
ゾウ使いへの第一歩
ゾウ使いへの第一歩ゾウ使いへの第一歩
ゾウ使いへの第一歩
 
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
 
Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編Tuning maniax 2014 Hadoop編
Tuning maniax 2014 Hadoop編
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Hadoop基盤を知る
Hadoop基盤を知るHadoop基盤を知る
Hadoop基盤を知る
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
マイニング探検会#10
マイニング探検会#10マイニング探検会#10
マイニング探検会#10
 
HBaseCon 2012 参加レポート
HBaseCon 2012 参加レポートHBaseCon 2012 参加レポート
HBaseCon 2012 参加レポート
 
Apache Hadoopを改めて知る
Apache Hadoopを改めて知るApache Hadoopを改めて知る
Apache Hadoopを改めて知る
 

Más de Cloudera Japan

機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Cloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015Cloudera Japan
 

Más de Cloudera Japan (20)

機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
 

Cloudera大阪セミナー 20130219

  • 1. Clouderaのビッグデータ技術 ~ HadoopとCDH、Cloudera Manager ~ Cloudera株式会社 小林大輔 2012/02/19
  • 2. アジェンダ • Hadoopとは? • Clouderaが提供するHadoopディストリ ビューション • Hadoopの運用について • 運用管理ツールのご紹介 2
  • 3. 自己紹介 • 小林大輔 • カスタマーオペレーションズエンジニアと して テクニカルサポート業務を担当 • daisuke@cloudera.com (小中高を神戸の田舎の方で過ごしました) (いまは両親とも東京に移住済み) 3
  • 5. データ処理の課題 • ストレージ • データをどこにどう貯めておくか • 処理 • データをどこでどう計算するか 5
  • 6. ストレージの容量 HDD単体容量(GB) 3500 3000 3000 2500 2000 1500 1000 500 200 2.1 0 1997 2004 2012 6
  • 7. ストレージの価格 GBあたりのコスト $180 $160 $157 $140 $120 $100 $80 $60 $40 $20 $1.05 $0 $0.05 1997 2004 2012 7
  • 8. ディスクの性能 転送レート(MB/s) 250.0 210 200.0 150.0 100.0 50.0 56.5 16.6 0.0 1997 2004 2012 8
  • 9. ディスク読み込み時間 • ディスク全体の読み込み時間はむしろ増えてい る 状況といえる 年 容量 時間 1994年 2.1GB 126秒 2004年 200GB 59分 2012年 3000GB 3時間58分 9
  • 10. ディスク読み込み時間 • ディスク全体の読み込み時間はむしろ増えてい る 状況といえる 年 容量 時間 1994年 2.1GB 126秒 2004年 200GB 59分 2012年 3000GB 3時間58分 10
  • 11. つまり、、、 • ディスク容量は増え、価格も下がった • しかし、データを読み書きする速度(I/O) はそれほど改善されていない データアクセスがボトルネックに なる 11
  • 12. 処理 • 一般的に計算処理はCPUに依存 • ムーアの法則 「マイクロプロセッサの性能は18ヶ月 で2倍になる」 • iPhone5のCPUは、1977年に発表された 富士通のスーパーコンピュータ、 FACOM 230-75の20倍 12
  • 13. 処理 • 一般的に計算処理はCPUに依存 • ムーアの法則 「マイクロプロセッサの性能は18ヶ月 で2倍になる」 • iPhone5のCPUは、1977年に発表された 富士通のスーパーコンピュータ、 FACOM 230-75の20倍 13
  • 14. 大規模処理をしようと思ったら、、、 • 現代の大規模処理はマシン間で処理を分散する • 分散処理システムが必要 「開拓時代には重いものを引くのに雄牛が 使われたものですが、一頭の雄牛が丸太を 引くことができなくても、もっと大きな雄牛を 育てようとはしませんでした」 Grace Hopper: 初期の分散コンピューティングの研究者 14
  • 15. 分散処理の問題:データ処理のボトルネッ ク • 少量のデータでは問題ない • 計算サーバーが増えると悪化する • ネットワーク間の通信による 15
  • 16. 分散処理の問題:複雑さ • 可用性 • 部分障害 • 連鎖障害 • データの一貫性 • イベントの同期 • 帯域の制限 • ….. • ….. 16
  • 17. 分散処理の問題:複雑さ • 可用性 • 部分障害 • 連鎖障害 • データの一貫性 • イベントの同期 • 帯域の制限 • ….. • ….. そこで登場したのがHadoop 17
  • 18. Hadoopとは何か? • コモディティハードウェアにより構成 される • スケールアウト型のアーキテクチャ • HadoopはGoogleの論文を参考に開発さ れている 18
  • 19. Hadoopでの解決:ディスクのパフォーマン ス • 複数のディスクを並列に使用する • 単一ディスクの転送レートが210MB/s • 3TBのデータ読み込みには約4時間 • 1000台並列であれば210GB/s • 3TBのデータ読み込みには15秒弱 20
  • 20. Hadoopでの解決:複雑さと耐障害性 • MapReduceプログラミングモデルにより処 理を単純化 • 障害が不可避であるという前提で動作 • 大規模なクラスタであれば、1日あた り1台の障害が起こりうる • MTBF(平均故障間隔)が5年、2000台と仮定 • 365日*5年=1825日(ほぼ2000日) 22
  • 21. Hadoopとは? • コモディティハードウェアにより構成 される • スケールアウト型のアーキテクチャ • 耐障害性を備えている • オープンソースのソフトウェア 23
  • 22. Hadoopのコアコンポーネント HDFS MapReduce 自己修復機能を 分散 持つ コンピューティン 分散ストレージ グ・フレームワー ク 24
  • 23. HDFS • Hadoop の分散ファイルシステム • 大量のデータを多数のノードに分散し て保存する • 耐障害性が高く、シーケンシャルアク セスに対するスループットが高い • 低レイテンシのデータアクセスや小さ いファイルへのアクセスは苦手 25
  • 24. HDFS 自己修復機能を持つ高帯域な 1 2 3 HDFS 4 2 1 1 2 1 4 2 3 3 3 5 5 5 4 5 4 HDFSは受け取ったファイルをブロックに分割し、 そのブロックをクラスタ全体にわたって重複して格納します 26
  • 25. HDFS 1つのサーバが壊れても自動複製 生きているノード に自動的に複製 し、 常に3つのレプリカ 2 1 1 2 1 があるようにする 4 2 3 3 3 5 5 4 5 4 1 3 4 27
  • 26. MapReduce フレームワーク 1 2 3 MR 4 2 1 1 2 1 4 2 3 3 3 5 5 5 4 5 4 多数のノード間で大規模ジョブを並列処理し、処理結果を結合し ます 28 ©2011 Cloudera, Inc. All Rights Reserved.
  • 27. なぜMapReduceか? • データを取得するのではなく、データのある場 所にプログラムを送信して計算する • データをHDFSに保存することで耐障害性の確保 • ノード障害発生時にはそのノードの処理分だけ 再実行 29
  • 28. Hadoopの周辺コンポーネント HadoopとRDBMSとの連携 分散ログストリーミング処理 APACHE Sqoop APACHE Flume クラウドでの分散処理ライブラリ ワークフローとスケジューリング APACHE Whirr APACHE Oozie 分散協調サービス 高級言語とライブラリ APACHE ZooKeeper APACHE Hive, APACHE Pig, APACHE Mahout 分散データベース 大規模分散処理基盤 APACHE HBase APACHE MapReduce 分散ファイルシステム APACHE HDFS 30
  • 29. Hadoopの周辺コンポーネント HadoopとRDBMSとの連携 分散ログストリーミング処理 APACHE Sqoop APACHE Flume • Hadoopを使ってみたい クラウドでの分散処理ライブラリ ワークフローとスケジューリング • コンポーネント毎にソースをダウンロードしてきてビルドする APACHE Whirr APACHE Oozie • 各サーバーにデプロイする 分散協調サービス 高級言語とライブラリ • どのバージョンにどの修正が含まれているのか把握するのは困 APACHE ZooKeeper APACHE Hive, APACHE Pig, APACHE Mahout 難 • 互換性の問題 分散データベース 大規模分散処理基盤 APACHE HBase APACHE MapReduce 分散ファイルシステム APACHE HDFS 31
  • 30. Clouderaが提供するHadoopディストリビュー ション • CDH(Cloudera’s Distribution including Apache Hadoop) • 主要コンセプトは4つ • 大規模データの蓄積 • 並列処理 • データインテグレーション • 言語とインタフェース • CDHでは、これらのコンセプトを実現するための 様々なコンポーネントを用意 32
  • 31. なぜCDHなのか? CDHはエンタープライズ向けの Hadoopディストリビューションです • CDHには大量のパッチが当てられています • 性能改善・バグ修正パッチ • 互換性を維持できる範囲での機能追加 • CDHはパッケージで管理できます • yum コマンドで簡単にインストール/アップデート可能 • コミュニティ版を使うとコンポーネントごとにダウンロード、 コンパイル、デプロイを行う必要がある 33
  • 32. CDH 開発の歴史 2012/06  高可用性ネームノード(NFS)  複数のデータ処理フレームワーク(MR1とMR2) Q3 2009 Q2 2011  etc… 2012/0 2009 2010 2011 2012 2012/09 6 2012/09 Q1 2010  高可用性ネームノード(クォーラムベースストレージ)  Hue の Oozie ワークフローGUI と日本語化  統計分析用PigライブラリDataFu  etc… 34
  • 34. Hadoopの運用 • 必要になる作業 • クラスタの管理と監視 • 設定 • 設定パラメータ • メンテナンス • パフォーマンス監視 • アクセス管理 36
  • 35. Hadoopの運用 • Hadoopは複雑なシステム • 非常に多くの要素がある • ネットワークやストレージなど、考慮することが多い • 設定項目も膨大 • サポートで問い合わせをうける問題 も、設定ミスによるものであるケース が多い 37
  • 36. Hadoopの運用 • Apache Hadoopは複雑なシステム • Hadoopの運用は難しく、大変 • 非常に多くの要素がある • Clouderaが提供する運用管理ソフトが • ネットワークやストレージなど、考慮することが多い これらの問題/不安を解消します • 設定項目も膨大 = Cloudera Manager • サポートで問い合わせをうける問題も、 設定ミスによるものであるケースが多 い 38
  • 37. Cloudera Managerとは • エンタープライズ規模のHadoopユーザーの必要 に応じて設計されたアプリケーション • Hadoopをノードにインストール • クラスタにホストの追加/削除、サービスを設定 • クラスタの動作を監視 • クラスタの使用量のレポートを生成 • クラスタにアクセスするユーザーを管理 日本語に対応! 39
  • 40. CDHをインストールする • Cloudera Managerを使用します • Webアプリケーションなので、操作は すべてブラウザから行います • GUIは日本語化対応済みです 42
  • 41. デモ動画 https://vimeo.com/49643526 43
  • 42. Cloudera Managerの種類 • Free Edition • 無償でダウンロード可能 • インストールと基本的な設定を容易にする • Enterprise Edition • エンタープライズ/商用向けの機能を含んで いる • Free Editionから容易にアップデート可能 44
  • 43. Free Editionの制限 • Free Editionでは50ノードまでサポート • Enterprise Editionは制限なし • Free Editionにはエンタープライズ用の機能 が含まれない • サービス監視 • LDAP/Kerberos統合 • イベント管理とアラート • アクティビティモニタ • レポート機能 • サポートシステムとの統合 45
  • 44. ダウンロードして試してみてください • https://ccp.cloudera.com/display/support /downloads • 弊社Webサイトのトップページから、 「RESOURCES」 -> 「Download Cloudera Manager」 と辿ってください 46
  • 45. 今日話したこと • Hadoopとは? • Clouderaが提供するHadoopディストリ ビューション • Hadoopの運用について • Cloudera Managerのご紹介 47
  • 46. 48