SlideShare una empresa de Scribd logo
1 de 28
Descargar para leer sin conexión
1© Cloudera, Inc. All rights reserved.
Impala - Hadoop⽤用の最⾼高の
分析エンジン
嶋内  翔, Cloudera株式会社
2© Cloudera, Inc. All rights reserved.
⾃自⼰己紹介
•  セールスエンジニア
•  2011年年4⽉月にClouderaの最初の⽇日本⼈人社員として⼊入社
•  お客様がCloudera製品を活⽤用できるように⼀一緒に議論論するのがメインの仕
事
• 実際は技術に関係する業務は全部⾏行行っている
•  email: sho@cloudera.com
•  twitter: @shiumachi
3© Cloudera, Inc. All rights reserved.
Hadoop⽤用分析エンジンの要件
複数のユーザによる同時利利⽤用時の性能 思考と同等の速度度で共同作業する
互換性
BIツールやSQLなどの使い慣れたインタフェースが使
えること
ユーザビリティ 様々なアプリケーションから連携可能
柔軟性
全てのデータに対し他のHadoopフレームワークと連
携してクエリを実⾏行行できること
Hadoop ネイティブ
フレームワーク全体で⼀一貫したリソース管理理、メタ
データ、セキュリティ、運⽤用管理理ができること
4© Cloudera, Inc. All rights reserved.
•  ビッグデータのためのインタラク
ティブBI / 分析
•  データの発⾒見見
•  探索索型分析
•  定常クエリ⽤用データストア
⼀一般的な使い⽅方
セキュリティと運⽤用管理理
プロセス
取込み
Sqoop,  Flume
変換
MapReduce,  
Hive,  Pig,  
Spark
モデル
機械学習
SAS,  R,  Spark,  
Mahout
サーブ
NoSQL  データ
ベース
HBase
ストリーミング
Spark  
Streaming
ディスカバー
分析データベー
ス
Impala
検索索
Solr
無制限のストレージ              HDFS,  HBase
YARN,  Cloudera  Manager,
Cloudera  Navigator
データ処理理と分析のための単⼀一プラットフォーム
5© Cloudera, Inc. All rights reserved.
Cloudera  Impalaとは?
•  Hadoop  クラスタのためのオープンソースのMPP  SQL  クエリエンジン
• http://impala.io/
•  Cloudera  /  MapR  /  Amazon  /  Oracle  がサポートを提供
•  HDFS  や  HBase  上のデータに対し、仮想的なビューとしてテーブルを作
成することができる
• スキーマは  Hive  メタストアに保存
•  ODBC  /  JDBC  で接続可能
•  Kerberos  /  LDAP  で認証可能
6© Cloudera, Inc. All rights reserved.
Impala のアーキテクチャ
HDFS	
  DN	
  
Query	
  Exec	
  Engine	
  
Query	
  Coordinator	
  
Query	
  Planner	
  
HBase	
   HDFS	
  DN	
  
Query	
  Exec	
  Engine	
  
Query	
  Coordinator	
  
Query	
  Planner	
  
HBase	
  HDFS	
  DN	
  
Query	
  Exec	
  Engine	
  
Query	
  Coordinator	
  
Query	
  Planner	
  
HBase	
  
ODBC	
  /	
  JDBC	
  
SQL	
  App	
  
クライアント・インタフェース	
   メタデータ	
  
Hive	
  Metastore	
   HDFS	
  NN	
   State	
  Store	
  Catalogd	
  
7© Cloudera, Inc. All rights reserved.
Impala  1.x  のバージョン履履歴
•  Impala  1.0  (2013/04)
•  SQL-‐‑‒92  サポート  (サブクエリ除く)
•  ネイティブHadoopファイルフォーマット
•  Parquet、Avro、テキスト、SequenceFileなど
•  Kerberos認証
•  ODBC  /  JDBC  ドライバ
•  Impala  1.1
•  Apache  Sentry  を使ったRBAC(ロールベースアクセス制御
•  Impala  1.2
•  UDF  /  UDAF
•  コストベースのJOIN順序最適化
•  Impala  1.3  /  CDH  5.0
•  リソース管理理機能
•  Impala  1.4  CDH  5.1  (2014/07)
•  SQL  の拡張  (DECIMAL、  ORDER  BY  without  LIMIT、etc.)
•  HDFS  キャッシング
8© Cloudera, Inc. All rights reserved.
Impala  2.0  (2014/10)
•  SQL互換性の拡張
• SQL:2003  分析/ウィンドウ関数
• サブクエリ(WHERE句句内、EXISTS、IN)
• CHAR  /  VARCHAR
• GRANT  /  REVOKE  (Sentry  使⽤用)
•  Hash  Table  を  disk  へ書き出し可能に
• join  and  aggregate  tables  の制限が不不要に
9© Cloudera, Inc. All rights reserved.
SQL-‐‑‒on-‐‑‒Hadoopベンチマーク  (2014/09)
•  ⽐比較対象
•  Impala  1.4.0
•  Presto  0.74
•  Stinger  phase  3  (Hive  0.13.0)
•  Spark  SQL  1.1
•  ベンチマーク⼿手法
•  TPC-‐‑‒DS
•  Impala  ⽤用  TPC-‐‑‒DS  ベンチマークツール  https://github.com/cloudera/impala-‐‑‒tpcds-‐‑‒kit
•  同⼀一ハードウェアに対し同⼀一⼿手順でのテスト
•  公平な⽐比較のための細かい調整
•  コストベース最適化なしの  SQL-‐‑‒92  形式の  JOIN  
•  Presto  ⽤用に  JVM  のチューニング
•  それぞれのエンジンに最適なファイルフォーマットを使⽤用
•  詳細はこちら  
http://blog.cloudera.com/blog/2014/09/new-‐‑‒benchmarks-‐‑‒for-‐‑‒sql-‐‑‒on-‐‑‒hadoop-‐‑‒impala-‐‑‒1-‐‑‒4-‐‑‒widens-‐‑‒the-‐‑‒
performance-‐‑‒gap/
10© Cloudera, Inc. All rights reserved.
Impala  ベンチマーク:  マルチユーザ
11© Cloudera, Inc. All rights reserved.
Impala  ベンチマーク:  スループット
12© Cloudera, Inc. All rights reserved.
技術トピック
13© Cloudera, Inc. All rights reserved.
分析 / ウィンドウ関数
•  2.0 以降降でのサポート
•  サポートされる関数
• RANK() / DENSE_RANK()
• FIRST_VALUE() / LAST_VALUE()
• LAG() / LEAD()
• ROW_NUMBER()
14© Cloudera, Inc. All rights reserved.
解析関数の例例  
select stock_symbol, closing_date, closing_price,!
lag(closing_price,1) over (partition by stock_symbol order by closing_date) as "yesterday closing"!
from stock_ticker!
order by closing_date;!
+--------------+---------------------+---------------+-------------------+!
| stock_symbol | closing_date | closing_price | yesterday closing |!
+--------------+---------------------+---------------+-------------------+!
| JDR | 2014-09-13 00:00:00 | 12.86 | NULL |!
| JDR | 2014-09-14 00:00:00 | 12.89 | 12.86 |!
| JDR | 2014-09-15 00:00:00 | 12.94 | 12.89 |!
| JDR | 2014-09-16 00:00:00 | 12.55 | 12.94 |!
| JDR | 2014-09-17 00:00:00 | 14.03 | 12.55 |!
| JDR | 2014-09-18 00:00:00 | 14.75 | 14.03 |!
| JDR | 2014-09-19 00:00:00 | 13.98 | 14.75 |!
+--------------+---------------------+---------------+-------------------+!
⽇日毎に終値と前⽇日の終値を出⼒力力
15© Cloudera, Inc. All rights reserved.
HBase 連携
•  Impala は  HBase のテーブルに対し SELECT や INSERT を実⾏行行可能
•  ユースケース
•  巨⼤大なファクトテーブルをImpalaに持ち、より⼩小さいディメンジョンテーブルをHBase で
持つ
•  ⾼高速にインクリメントされるカウンタをHBaseに保存する
•  例例: WebサイトのPVや、SNS の投稿での投票の数など
•  ⾮非常に幅広い(そして通常は疎な)テーブルをHBaseで持つ
•  例例: オンラインサービスのユーザ情報
•  1⾏行行インサートも可能
•  INSERT … VALUES
ImpalaHBase
external
systems
put SELECT * FROM hbase_tbl …
INSERT / INSERT … VALUESget, scan
16© Cloudera, Inc. All rights reserved.
アドミッションコントロール
•  ⾼高速・軽量量なリソース管理理機構
•  並列列ワークロードに対するリソースの過剰利利⽤用を避ける
• 設定した限界値を超えたらクエリはキューイングされる
•  全  impalad で動作
• SPOF なし
17© Cloudera, Inc. All rights reserved.
アドミッションコントロール
•  設定可能なリソースプール
•  クエリの最⼤大並列列実⾏行行数
•  キューの最⼤大⻑⾧長
•  プールのメモリ総量量
•  設定⽅方法は2通り
•  Cloudera Manager の「動的リソースプール」
•  fair-scheduler.xml と llama-site.xml を⼿手動編集する
18© Cloudera, Inc. All rights reserved.
アドミッションコントロールの例例
並列列実⾏行行可能な
クエリ数
クエリキューの
最⼤大⻑⾧長
100 10
10 1
最⼤大メモリ
1000 GB
100 GB
Group A
Group B
19© Cloudera, Inc. All rights reserved.
Hue Web UI (CDHに付属)
20© Cloudera, Inc. All rights reserved.
連携機能
•  JDBC  /  ODBC  ドライバ
• 各種BIツールと連携可能
•  MicroStrategy,  QlikView、SAS、Tableau  など
出典: https://zoomdata.zendesk.com/hc/en-us/articles/203813488-Date-and-Time-Formats-Supported-By-Zoomdata
21© Cloudera, Inc. All rights reserved.
Impala  を試す
•  デモサイト(ログイン不不要)
•  http://demo.gethue.com/
•  Quick  Start  VM  (全部⼊入りVMイメージ)
•  http://www.cloudera.com/content/cloudera/en/downloads/quickstart_̲vms/cdh-‐‑‒5-‐‑‒3-‐‑‒x.html
•  Cloudera  Live
•  有償(14⽇日間無料料)だが4ノードの完全なクラスタで試⽤用可能
•  Tableau、ZoomDataとの連携も試⽤用可能
•  http://www.cloudera.com/content/cloudera/en/products-‐‑‒and-‐‑‒services/cloudera-‐‑‒live.html
•  Cloudera  Director  
•  AWS上でインスタンスまで含めてクラスタの構築・管理理が可能
•  http://www.cloudera.com/content/cloudera/en/downloads/cloudera-‐‑‒director/1-‐‑‒1-‐‑‒0.html
•  Amazon  EMR
•  http://docs.aws.amazon.com/ja_̲jp/ElasticMapReduce/latest/DeveloperGuide/emr-‐‑‒impala.html
22© Cloudera, Inc. All rights reserved.
Thank	
  you	
  
23© Cloudera, Inc. All rights reserved.
もっと深い技術トピック
24© Cloudera, Inc. All rights reserved.
Impala  クラスタのサイジング
•  サイジングガイド
• http://www.cloudera.com/content/cloudera/en/documentation/
core/latest/topics/impala_̲cluster_̲sizing.html
• ノード:  CPU12コア、メモリ64GB、2TB  HDD  x  12本
• 10並列列で15TBのデータに対し、クエリを流流すときに平均20秒で結果を
返したい場合には20ノードほど必要になる、という概算は可能
• 正確なサイジングは必ず実データに対し実クエリを流流して計測すること
•  スキーマの設計、クエリパターンによってメモリ消費量量が変わるので詳細
はドキュメント参照のこと
25© Cloudera, Inc. All rights reserved.
Impala  のチューニング
•  ⽂文字列列型ではなく数値型を使う
• ⽂文字列列型:  メモリ消費、ディスク容量量、計算速度度いずれも効率率率悪い
•  パーティション数
• 多くても10万まで。少ない⽅方がいい
• http://www.slideshare.net/cloudera/the-‐‑‒impala-‐‑‒
cookbook-‐‑‒42530186
•  Parquet  
• 読み込みは速いが書き込みは遅いということに注意
• read-‐‑‒onceデータの場合は  SequenceFile  +  Snappy  を使おう
26© Cloudera, Inc. All rights reserved.
もっともっと
深い技術トピック
27© Cloudera, Inc. All rights reserved.
http://www.cidrdb.org/cidr2015/Papers/CIDR15_Paper28.pdf
28© Cloudera, Inc. All rights reserved.
http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf

Más contenido relacionado

La actualidad más candente

「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015Cloudera Japan
 
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013Cloudera Japan
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Cloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
HBaseサポート最前線 #hbase_ca
HBaseサポート最前線 #hbase_caHBaseサポート最前線 #hbase_ca
HBaseサポート最前線 #hbase_caCloudera Japan
 
エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27Cloudera Japan
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014Cloudera Japan
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpCloudera Japan
 
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Yukinori Suda
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltToshihiro Suzuki
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wIntroduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wCloudera Japan
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング Cloudera Japan
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloudera Japan
 
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebminingImpala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebminingSho Shimauchi
 
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCloudera Japan
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_caCloudera Japan
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りYukinori Suda
 

La actualidad más candente (20)

「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013CDH5最新情報 #cwt2013
CDH5最新情報 #cwt2013
 
Evolution of Impala #hcj2014
Evolution of Impala #hcj2014Evolution of Impala #hcj2014
Evolution of Impala #hcj2014
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
HBaseサポート最前線 #hbase_ca
HBaseサポート最前線 #hbase_caHBaseサポート最前線 #hbase_ca
HBaseサポート最前線 #hbase_ca
 
エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejp
 
Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話Cloudera Impalaをサービスに組み込むときに苦労した話
Cloudera Impalaをサービスに組み込むときに苦労した話
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakaltKuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wIntroduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 
Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016Cloud Native Hadoop #cwt2016
Cloud Native Hadoop #cwt2016
 
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebminingImpala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
 
CDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokubenCDHの歴史とCDH5新機能概要 #at_tokuben
CDHの歴史とCDH5新機能概要 #at_tokuben
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_ca
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
 

Destacado

基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015Cloudera Japan
 
Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2Cloudera Japan
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015Cloudera Japan
 
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015Cloudera Japan
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015Cloudera Japan
 
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用)  #cwt2013Cloudera Manager 5 (hadoop運用)  #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013Cloudera Japan
 
Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Cloudera Japan
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 

Destacado (11)

基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015
 
Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2Hadoopの標準GUI Hueの最新情報2
Hadoopの標準GUI Hueの最新情報2
 
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
 
基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
 
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Manager 5 (hadoop運用)  #cwt2013Cloudera Manager 5 (hadoop運用)  #cwt2013
Cloudera Manager 5 (hadoop運用) #cwt2013
 
Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015Spark徹底入門 #cwt2015
Spark徹底入門 #cwt2015
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 

Similar a Impala概要 道玄坂LT祭り 20150312 #dogenzakalt

JAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
JAWS-UG Santo 2014-07-05 Drupal on PaaS CloudJAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
JAWS-UG Santo 2014-07-05 Drupal on PaaS CloudANNAI_LLC
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera Japan
 
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)Kyoko Ohtagaki
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例terurou
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Cloudera Japan
 
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)オラクルエンジニア通信
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~Masanori Itoh
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2Dell TechCenter Japan
 
Datastax Enterpriseをはじめよう
Datastax EnterpriseをはじめようDatastax Enterpriseをはじめよう
Datastax EnterpriseをはじめようYuki Morishita
 
CDH4セミナー資料
CDH4セミナー資料 CDH4セミナー資料
CDH4セミナー資料 Cloudera Japan
 
SQL Beginners Day #1 - SQL Server および Azure SQL のインストールと管理
SQL Beginners Day #1 - SQL Server および Azure SQL のインストールと管理SQL Beginners Day #1 - SQL Server および Azure SQL のインストールと管理
SQL Beginners Day #1 - SQL Server および Azure SQL のインストールと管理Oshitari_kochi
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Japan
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Cloudera Japan
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng Jiang
 
ゾウ使いへの第一歩
ゾウ使いへの第一歩ゾウ使いへの第一歩
ゾウ使いへの第一歩Fumito Ito
 
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編GoAzure
 

Similar a Impala概要 道玄坂LT祭り 20150312 #dogenzakalt (20)

JAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
JAWS-UG Santo 2014-07-05 Drupal on PaaS CloudJAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
JAWS-UG Santo 2014-07-05 Drupal on PaaS Cloud
 
Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017Cloudera in the Cloud #CWT2017
Cloudera in the Cloud #CWT2017
 
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
2014.07.05 Drupal PaaS でASWを活用する(Kyoko Ohtagaki)
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
スマートフォン×Cassandraによるハイパフォーマンス基盤の構築事例
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
 
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
オラクル・データベース・クラウド~さらなる進化のご紹介(Oracle Cloud Days Tokyo 2015)
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~
 
Open stack reference architecture v1 2
Open stack reference architecture v1 2Open stack reference architecture v1 2
Open stack reference architecture v1 2
 
Couchbaseの紹介 2015/03/05
Couchbaseの紹介 2015/03/05Couchbaseの紹介 2015/03/05
Couchbaseの紹介 2015/03/05
 
Datastax Enterpriseをはじめよう
Datastax EnterpriseをはじめようDatastax Enterpriseをはじめよう
Datastax Enterpriseをはじめよう
 
CDH4セミナー資料
CDH4セミナー資料 CDH4セミナー資料
CDH4セミナー資料
 
GDLC11 oracle-ai
GDLC11 oracle-aiGDLC11 oracle-ai
GDLC11 oracle-ai
 
SQL Beginners Day #1 - SQL Server および Azure SQL のインストールと管理
SQL Beginners Day #1 - SQL Server および Azure SQL のインストールと管理SQL Beginners Day #1 - SQL Server および Azure SQL のインストールと管理
SQL Beginners Day #1 - SQL Server および Azure SQL のインストールと管理
 
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadedaCloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
ゾウ使いへの第一歩
ゾウ使いへの第一歩ゾウ使いへの第一歩
ゾウ使いへの第一歩
 
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
 

Más de Cloudera Japan

機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Cloudera Japan
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方Cloudera Japan
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Cloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 

Más de Cloudera Japan (10)

機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側Apache Kuduを使った分析システムの裏側
Apache Kuduを使った分析システムの裏側
 
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
 
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 

Último

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 

Último (8)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 

Impala概要 道玄坂LT祭り 20150312 #dogenzakalt

  • 1. 1© Cloudera, Inc. All rights reserved. Impala - Hadoop⽤用の最⾼高の 分析エンジン 嶋内  翔, Cloudera株式会社
  • 2. 2© Cloudera, Inc. All rights reserved. ⾃自⼰己紹介 •  セールスエンジニア •  2011年年4⽉月にClouderaの最初の⽇日本⼈人社員として⼊入社 •  お客様がCloudera製品を活⽤用できるように⼀一緒に議論論するのがメインの仕 事 • 実際は技術に関係する業務は全部⾏行行っている •  email: sho@cloudera.com •  twitter: @shiumachi
  • 3. 3© Cloudera, Inc. All rights reserved. Hadoop⽤用分析エンジンの要件 複数のユーザによる同時利利⽤用時の性能 思考と同等の速度度で共同作業する 互換性 BIツールやSQLなどの使い慣れたインタフェースが使 えること ユーザビリティ 様々なアプリケーションから連携可能 柔軟性 全てのデータに対し他のHadoopフレームワークと連 携してクエリを実⾏行行できること Hadoop ネイティブ フレームワーク全体で⼀一貫したリソース管理理、メタ データ、セキュリティ、運⽤用管理理ができること
  • 4. 4© Cloudera, Inc. All rights reserved. •  ビッグデータのためのインタラク ティブBI / 分析 •  データの発⾒見見 •  探索索型分析 •  定常クエリ⽤用データストア ⼀一般的な使い⽅方 セキュリティと運⽤用管理理 プロセス 取込み Sqoop,  Flume 変換 MapReduce,   Hive,  Pig,   Spark モデル 機械学習 SAS,  R,  Spark,   Mahout サーブ NoSQL  データ ベース HBase ストリーミング Spark   Streaming ディスカバー 分析データベー ス Impala 検索索 Solr 無制限のストレージ              HDFS,  HBase YARN,  Cloudera  Manager, Cloudera  Navigator データ処理理と分析のための単⼀一プラットフォーム
  • 5. 5© Cloudera, Inc. All rights reserved. Cloudera  Impalaとは? •  Hadoop  クラスタのためのオープンソースのMPP  SQL  クエリエンジン • http://impala.io/ •  Cloudera  /  MapR  /  Amazon  /  Oracle  がサポートを提供 •  HDFS  や  HBase  上のデータに対し、仮想的なビューとしてテーブルを作 成することができる • スキーマは  Hive  メタストアに保存 •  ODBC  /  JDBC  で接続可能 •  Kerberos  /  LDAP  で認証可能
  • 6. 6© Cloudera, Inc. All rights reserved. Impala のアーキテクチャ HDFS  DN   Query  Exec  Engine   Query  Coordinator   Query  Planner   HBase   HDFS  DN   Query  Exec  Engine   Query  Coordinator   Query  Planner   HBase  HDFS  DN   Query  Exec  Engine   Query  Coordinator   Query  Planner   HBase   ODBC  /  JDBC   SQL  App   クライアント・インタフェース   メタデータ   Hive  Metastore   HDFS  NN   State  Store  Catalogd  
  • 7. 7© Cloudera, Inc. All rights reserved. Impala  1.x  のバージョン履履歴 •  Impala  1.0  (2013/04) •  SQL-‐‑‒92  サポート  (サブクエリ除く) •  ネイティブHadoopファイルフォーマット •  Parquet、Avro、テキスト、SequenceFileなど •  Kerberos認証 •  ODBC  /  JDBC  ドライバ •  Impala  1.1 •  Apache  Sentry  を使ったRBAC(ロールベースアクセス制御 •  Impala  1.2 •  UDF  /  UDAF •  コストベースのJOIN順序最適化 •  Impala  1.3  /  CDH  5.0 •  リソース管理理機能 •  Impala  1.4  CDH  5.1  (2014/07) •  SQL  の拡張  (DECIMAL、  ORDER  BY  without  LIMIT、etc.) •  HDFS  キャッシング
  • 8. 8© Cloudera, Inc. All rights reserved. Impala  2.0  (2014/10) •  SQL互換性の拡張 • SQL:2003  分析/ウィンドウ関数 • サブクエリ(WHERE句句内、EXISTS、IN) • CHAR  /  VARCHAR • GRANT  /  REVOKE  (Sentry  使⽤用) •  Hash  Table  を  disk  へ書き出し可能に • join  and  aggregate  tables  の制限が不不要に
  • 9. 9© Cloudera, Inc. All rights reserved. SQL-‐‑‒on-‐‑‒Hadoopベンチマーク  (2014/09) •  ⽐比較対象 •  Impala  1.4.0 •  Presto  0.74 •  Stinger  phase  3  (Hive  0.13.0) •  Spark  SQL  1.1 •  ベンチマーク⼿手法 •  TPC-‐‑‒DS •  Impala  ⽤用  TPC-‐‑‒DS  ベンチマークツール  https://github.com/cloudera/impala-‐‑‒tpcds-‐‑‒kit •  同⼀一ハードウェアに対し同⼀一⼿手順でのテスト •  公平な⽐比較のための細かい調整 •  コストベース最適化なしの  SQL-‐‑‒92  形式の  JOIN   •  Presto  ⽤用に  JVM  のチューニング •  それぞれのエンジンに最適なファイルフォーマットを使⽤用 •  詳細はこちら   http://blog.cloudera.com/blog/2014/09/new-‐‑‒benchmarks-‐‑‒for-‐‑‒sql-‐‑‒on-‐‑‒hadoop-‐‑‒impala-‐‑‒1-‐‑‒4-‐‑‒widens-‐‑‒the-‐‑‒ performance-‐‑‒gap/
  • 10. 10© Cloudera, Inc. All rights reserved. Impala  ベンチマーク:  マルチユーザ
  • 11. 11© Cloudera, Inc. All rights reserved. Impala  ベンチマーク:  スループット
  • 12. 12© Cloudera, Inc. All rights reserved. 技術トピック
  • 13. 13© Cloudera, Inc. All rights reserved. 分析 / ウィンドウ関数 •  2.0 以降降でのサポート •  サポートされる関数 • RANK() / DENSE_RANK() • FIRST_VALUE() / LAST_VALUE() • LAG() / LEAD() • ROW_NUMBER()
  • 14. 14© Cloudera, Inc. All rights reserved. 解析関数の例例   select stock_symbol, closing_date, closing_price,! lag(closing_price,1) over (partition by stock_symbol order by closing_date) as "yesterday closing"! from stock_ticker! order by closing_date;! +--------------+---------------------+---------------+-------------------+! | stock_symbol | closing_date | closing_price | yesterday closing |! +--------------+---------------------+---------------+-------------------+! | JDR | 2014-09-13 00:00:00 | 12.86 | NULL |! | JDR | 2014-09-14 00:00:00 | 12.89 | 12.86 |! | JDR | 2014-09-15 00:00:00 | 12.94 | 12.89 |! | JDR | 2014-09-16 00:00:00 | 12.55 | 12.94 |! | JDR | 2014-09-17 00:00:00 | 14.03 | 12.55 |! | JDR | 2014-09-18 00:00:00 | 14.75 | 14.03 |! | JDR | 2014-09-19 00:00:00 | 13.98 | 14.75 |! +--------------+---------------------+---------------+-------------------+! ⽇日毎に終値と前⽇日の終値を出⼒力力
  • 15. 15© Cloudera, Inc. All rights reserved. HBase 連携 •  Impala は  HBase のテーブルに対し SELECT や INSERT を実⾏行行可能 •  ユースケース •  巨⼤大なファクトテーブルをImpalaに持ち、より⼩小さいディメンジョンテーブルをHBase で 持つ •  ⾼高速にインクリメントされるカウンタをHBaseに保存する •  例例: WebサイトのPVや、SNS の投稿での投票の数など •  ⾮非常に幅広い(そして通常は疎な)テーブルをHBaseで持つ •  例例: オンラインサービスのユーザ情報 •  1⾏行行インサートも可能 •  INSERT … VALUES ImpalaHBase external systems put SELECT * FROM hbase_tbl … INSERT / INSERT … VALUESget, scan
  • 16. 16© Cloudera, Inc. All rights reserved. アドミッションコントロール •  ⾼高速・軽量量なリソース管理理機構 •  並列列ワークロードに対するリソースの過剰利利⽤用を避ける • 設定した限界値を超えたらクエリはキューイングされる •  全  impalad で動作 • SPOF なし
  • 17. 17© Cloudera, Inc. All rights reserved. アドミッションコントロール •  設定可能なリソースプール •  クエリの最⼤大並列列実⾏行行数 •  キューの最⼤大⻑⾧長 •  プールのメモリ総量量 •  設定⽅方法は2通り •  Cloudera Manager の「動的リソースプール」 •  fair-scheduler.xml と llama-site.xml を⼿手動編集する
  • 18. 18© Cloudera, Inc. All rights reserved. アドミッションコントロールの例例 並列列実⾏行行可能な クエリ数 クエリキューの 最⼤大⻑⾧長 100 10 10 1 最⼤大メモリ 1000 GB 100 GB Group A Group B
  • 19. 19© Cloudera, Inc. All rights reserved. Hue Web UI (CDHに付属)
  • 20. 20© Cloudera, Inc. All rights reserved. 連携機能 •  JDBC  /  ODBC  ドライバ • 各種BIツールと連携可能 •  MicroStrategy,  QlikView、SAS、Tableau  など 出典: https://zoomdata.zendesk.com/hc/en-us/articles/203813488-Date-and-Time-Formats-Supported-By-Zoomdata
  • 21. 21© Cloudera, Inc. All rights reserved. Impala  を試す •  デモサイト(ログイン不不要) •  http://demo.gethue.com/ •  Quick  Start  VM  (全部⼊入りVMイメージ) •  http://www.cloudera.com/content/cloudera/en/downloads/quickstart_̲vms/cdh-‐‑‒5-‐‑‒3-‐‑‒x.html •  Cloudera  Live •  有償(14⽇日間無料料)だが4ノードの完全なクラスタで試⽤用可能 •  Tableau、ZoomDataとの連携も試⽤用可能 •  http://www.cloudera.com/content/cloudera/en/products-‐‑‒and-‐‑‒services/cloudera-‐‑‒live.html •  Cloudera  Director   •  AWS上でインスタンスまで含めてクラスタの構築・管理理が可能 •  http://www.cloudera.com/content/cloudera/en/downloads/cloudera-‐‑‒director/1-‐‑‒1-‐‑‒0.html •  Amazon  EMR •  http://docs.aws.amazon.com/ja_̲jp/ElasticMapReduce/latest/DeveloperGuide/emr-‐‑‒impala.html
  • 22. 22© Cloudera, Inc. All rights reserved. Thank  you  
  • 23. 23© Cloudera, Inc. All rights reserved. もっと深い技術トピック
  • 24. 24© Cloudera, Inc. All rights reserved. Impala  クラスタのサイジング •  サイジングガイド • http://www.cloudera.com/content/cloudera/en/documentation/ core/latest/topics/impala_̲cluster_̲sizing.html • ノード:  CPU12コア、メモリ64GB、2TB  HDD  x  12本 • 10並列列で15TBのデータに対し、クエリを流流すときに平均20秒で結果を 返したい場合には20ノードほど必要になる、という概算は可能 • 正確なサイジングは必ず実データに対し実クエリを流流して計測すること •  スキーマの設計、クエリパターンによってメモリ消費量量が変わるので詳細 はドキュメント参照のこと
  • 25. 25© Cloudera, Inc. All rights reserved. Impala  のチューニング •  ⽂文字列列型ではなく数値型を使う • ⽂文字列列型:  メモリ消費、ディスク容量量、計算速度度いずれも効率率率悪い •  パーティション数 • 多くても10万まで。少ない⽅方がいい • http://www.slideshare.net/cloudera/the-‐‑‒impala-‐‑‒ cookbook-‐‑‒42530186 •  Parquet   • 読み込みは速いが書き込みは遅いということに注意 • read-‐‑‒onceデータの場合は  SequenceFile  +  Snappy  を使おう
  • 26. 26© Cloudera, Inc. All rights reserved. もっともっと 深い技術トピック
  • 27. 27© Cloudera, Inc. All rights reserved. http://www.cidrdb.org/cidr2015/Papers/CIDR15_Paper28.pdf
  • 28. 28© Cloudera, Inc. All rights reserved. http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf