Enviar búsqueda
Cargar
Processing LTSV by Apache Pig
•
6 recomendaciones
•
1,341 vistas
T
Taku Miyakawa
Seguir
LTSV is a nice format for log files. I wrote an Pig plugin to load LTSV files.
Leer menos
Leer más
Denunciar
Compartir
Denunciar
Compartir
1 de 13
Descargar ahora
Descargar para leer sin conexión
Recomendados
Programming Hive Reading #3
Programming Hive Reading #3
moai kids
Ceph Day Tokyo - High Performance Layered Architecture
Ceph Day Tokyo - High Performance Layered Architecture
Ceph Community
Climb Forum 2019 Veeam v10最新情報とQoreStorのご紹介
Climb Forum 2019 Veeam v10最新情報とQoreStorのご紹介
株式会社クライム
Packagist
Packagist
Yasuo Harada
PostgreSQL共有バッファと関連ツール
PostgreSQL共有バッファと関連ツール
Masahiko Sawada
"Programming Hive" Reading #1
"Programming Hive" Reading #1
moai kids
Gr sakuraでtinet
Gr sakuraでtinet
Kazuhiro Takahashi
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
Yoshinori Nakanishi
Recomendados
Programming Hive Reading #3
Programming Hive Reading #3
moai kids
Ceph Day Tokyo - High Performance Layered Architecture
Ceph Day Tokyo - High Performance Layered Architecture
Ceph Community
Climb Forum 2019 Veeam v10最新情報とQoreStorのご紹介
Climb Forum 2019 Veeam v10最新情報とQoreStorのご紹介
株式会社クライム
Packagist
Packagist
Yasuo Harada
PostgreSQL共有バッファと関連ツール
PostgreSQL共有バッファと関連ツール
Masahiko Sawada
"Programming Hive" Reading #1
"Programming Hive" Reading #1
moai kids
Gr sakuraでtinet
Gr sakuraでtinet
Kazuhiro Takahashi
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
各スペシャリストがお届け!データベース最新情報セミナー -PostgreSQL10-
Yoshinori Nakanishi
ぼくの考えた最強のpipeline構成
ぼくの考えた最強のpipeline構成
Naoto Nishizono
PostgreSQL10徹底解説
PostgreSQL10徹底解説
Masahiko Sawada
New configuration of Erogamescape
New configuration of Erogamescape
hiroin0
MySQL カジュアル 福岡 03
MySQL カジュアル 福岡 03
Aya Komuro
分散ストレージ技術Cephの最新情報
分散ストレージ技術Cephの最新情報
Emma Haruka Iwao
CephとGluster次期バージョンでの新機能
CephとGluster次期バージョンでの新機能
Emma Haruka Iwao
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
Michio Katano
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
maebashi
PO ファイルで翻訳管理
PO ファイルで翻訳管理
Nozomu KURASAWA
FluentdとRedshiftの素敵な関係
FluentdとRedshiftの素敵な関係
moai kids
InfluxDB の概要 - sonots #tokyoinfluxdb
InfluxDB の概要 - sonots #tokyoinfluxdb
Naotoshi Seo
Postgre sql update_20170310
Postgre sql update_20170310
Haruka Takatsuka
アーキテクチャから理解するPostgreSQLのレプリケーション
アーキテクチャから理解するPostgreSQLのレプリケーション
Masahiko Sawada
PostgreSQL 9.6 新機能紹介
PostgreSQL 9.6 新機能紹介
Masahiko Sawada
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
OpenStack 101
OpenStack 101
Rongze Zhu
「今そこにある危機」を捉える ~ pg_stat_statements revisited
「今そこにある危機」を捉える ~ pg_stat_statements revisited
Uptime Technologies LLC (JP)
introduction of WalB
introduction of WalB
MITSUNARI Shigeo
Postgres Toolkitのご紹介
Postgres Toolkitのご紹介
Uptime Technologies LLC (JP)
Seastar in 歌舞伎座.tech#8「C++初心者会」
Seastar in 歌舞伎座.tech#8「C++初心者会」
Takuya ASADA
Kink: developing a programming language on the JVM
Kink: developing a programming language on the JVM
Taku Miyakawa
Kink の宣伝
Kink の宣伝
Taku Miyakawa
Más contenido relacionado
La actualidad más candente
ぼくの考えた最強のpipeline構成
ぼくの考えた最強のpipeline構成
Naoto Nishizono
PostgreSQL10徹底解説
PostgreSQL10徹底解説
Masahiko Sawada
New configuration of Erogamescape
New configuration of Erogamescape
hiroin0
MySQL カジュアル 福岡 03
MySQL カジュアル 福岡 03
Aya Komuro
分散ストレージ技術Cephの最新情報
分散ストレージ技術Cephの最新情報
Emma Haruka Iwao
CephとGluster次期バージョンでの新機能
CephとGluster次期バージョンでの新機能
Emma Haruka Iwao
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
Michio Katano
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
maebashi
PO ファイルで翻訳管理
PO ファイルで翻訳管理
Nozomu KURASAWA
FluentdとRedshiftの素敵な関係
FluentdとRedshiftの素敵な関係
moai kids
InfluxDB の概要 - sonots #tokyoinfluxdb
InfluxDB の概要 - sonots #tokyoinfluxdb
Naotoshi Seo
Postgre sql update_20170310
Postgre sql update_20170310
Haruka Takatsuka
アーキテクチャから理解するPostgreSQLのレプリケーション
アーキテクチャから理解するPostgreSQLのレプリケーション
Masahiko Sawada
PostgreSQL 9.6 新機能紹介
PostgreSQL 9.6 新機能紹介
Masahiko Sawada
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
OpenStack 101
OpenStack 101
Rongze Zhu
「今そこにある危機」を捉える ~ pg_stat_statements revisited
「今そこにある危機」を捉える ~ pg_stat_statements revisited
Uptime Technologies LLC (JP)
introduction of WalB
introduction of WalB
MITSUNARI Shigeo
Postgres Toolkitのご紹介
Postgres Toolkitのご紹介
Uptime Technologies LLC (JP)
Seastar in 歌舞伎座.tech#8「C++初心者会」
Seastar in 歌舞伎座.tech#8「C++初心者会」
Takuya ASADA
La actualidad más candente
(20)
ぼくの考えた最強のpipeline構成
ぼくの考えた最強のpipeline構成
PostgreSQL10徹底解説
PostgreSQL10徹底解説
New configuration of Erogamescape
New configuration of Erogamescape
MySQL カジュアル 福岡 03
MySQL カジュアル 福岡 03
分散ストレージ技術Cephの最新情報
分散ストレージ技術Cephの最新情報
CephとGluster次期バージョンでの新機能
CephとGluster次期バージョンでの新機能
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
HBase×Impalaで作るアドテク「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
Fluentdでログを集めてGlusterFSに保存してMapReduceで集計
PO ファイルで翻訳管理
PO ファイルで翻訳管理
FluentdとRedshiftの素敵な関係
FluentdとRedshiftの素敵な関係
InfluxDB の概要 - sonots #tokyoinfluxdb
InfluxDB の概要 - sonots #tokyoinfluxdb
Postgre sql update_20170310
Postgre sql update_20170310
アーキテクチャから理解するPostgreSQLのレプリケーション
アーキテクチャから理解するPostgreSQLのレプリケーション
PostgreSQL 9.6 新機能紹介
PostgreSQL 9.6 新機能紹介
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
OpenStack 101
OpenStack 101
「今そこにある危機」を捉える ~ pg_stat_statements revisited
「今そこにある危機」を捉える ~ pg_stat_statements revisited
introduction of WalB
introduction of WalB
Postgres Toolkitのご紹介
Postgres Toolkitのご紹介
Seastar in 歌舞伎座.tech#8「C++初心者会」
Seastar in 歌舞伎座.tech#8「C++初心者会」
Destacado
Kink: developing a programming language on the JVM
Kink: developing a programming language on the JVM
Taku Miyakawa
Kink の宣伝
Kink の宣伝
Taku Miyakawa
Quasar: Actor Model and Light Weight Threads on Java
Quasar: Actor Model and Light Weight Threads on Java
Taku Miyakawa
Java Quine Golf
Java Quine Golf
Taku Miyakawa
Kink: プロトタイプベースの俺々 JVM 言語
Kink: プロトタイプベースの俺々 JVM 言語
Taku Miyakawa
Java オブジェクトの内部構造
Java オブジェクトの内部構造
Taku Miyakawa
Kink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based language
Taku Miyakawa
Summary of "Hacking", 0x351-0x354
Summary of "Hacking", 0x351-0x354
Taku Miyakawa
コルーチンの実装について
コルーチンの実装について
Taku Miyakawa
擬似乱数生成器の評価
擬似乱数生成器の評価
Taku Miyakawa
Hadoop jobbuilder
Hadoop jobbuilder
Taku Miyakawa
Java 7 invokedynamic の概要
Java 7 invokedynamic の概要
Taku Miyakawa
金勘定のためのBigDecimalそしてMoney and Currency API
金勘定のためのBigDecimalそしてMoney and Currency API
Taku Miyakawa
Javaのログ出力: 道具と考え方
Javaのログ出力: 道具と考え方
Taku Miyakawa
ラムダと invokedynamic の蜜月
ラムダと invokedynamic の蜜月
Taku Miyakawa
Destacado
(15)
Kink: developing a programming language on the JVM
Kink: developing a programming language on the JVM
Kink の宣伝
Kink の宣伝
Quasar: Actor Model and Light Weight Threads on Java
Quasar: Actor Model and Light Weight Threads on Java
Java Quine Golf
Java Quine Golf
Kink: プロトタイプベースの俺々 JVM 言語
Kink: プロトタイプベースの俺々 JVM 言語
Java オブジェクトの内部構造
Java オブジェクトの内部構造
Kink: invokedynamic on a prototype-based language
Kink: invokedynamic on a prototype-based language
Summary of "Hacking", 0x351-0x354
Summary of "Hacking", 0x351-0x354
コルーチンの実装について
コルーチンの実装について
擬似乱数生成器の評価
擬似乱数生成器の評価
Hadoop jobbuilder
Hadoop jobbuilder
Java 7 invokedynamic の概要
Java 7 invokedynamic の概要
金勘定のためのBigDecimalそしてMoney and Currency API
金勘定のためのBigDecimalそしてMoney and Currency API
Javaのログ出力: 道具と考え方
Javaのログ出力: 道具と考え方
ラムダと invokedynamic の蜜月
ラムダと invokedynamic の蜜月
Similar a Processing LTSV by Apache Pig
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
infinite_loop
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
Yukinori Suda
Hadoop on LXC
Hadoop on LXC
俊夫 森
Hadoop事始め
Hadoop事始め
You&I
Fluentd casual
Fluentd casual
oranie Narut
OSC2011Tokyo/Fall OpenStack Swift入門
OSC2011Tokyo/Fall OpenStack Swift入門
irix_jp
Wakame-vdc 開発苦労談
Wakame-vdc 開発苦労談
Masahito Yoshida
Mysql casial01
Mysql casial01
matsuo kenji
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
NTT DATA Technology & Innovation
What's new in open shift container platform 4.7 japan_20210318
What's new in open shift container platform 4.7 japan_20210318
Yuhki Hanada
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
Satoshi Iijima
5ステップで始めるPostgreSQLレプリケーション@hbstudy#13
5ステップで始めるPostgreSQLレプリケーション@hbstudy#13
Uptime Technologies LLC (JP)
PostgreSQL安定運用のコツ2009 @hbstudy#5
PostgreSQL安定運用のコツ2009 @hbstudy#5
Uptime Technologies LLC (JP)
OpenStack Object Storage; Usage
OpenStack Object Storage; Usage
irix_jp
aptのマニュアルをpo4a化した話
aptのマニュアルをpo4a化した話
Nozomu KURASAWA
Webサーバ勉強会 LT資料
Webサーバ勉強会 LT資料
学 松崎
Openstack+Ceph設定ガイド
Openstack+Ceph設定ガイド
OSSラボ株式会社
Qlik ReplicateでApache Kafkaをターゲットとして使用する
Qlik ReplicateでApache Kafkaをターゲットとして使用する
QlikPresalesJapan
CDH4.1オーバービュー
CDH4.1オーバービュー
Cloudera Japan
Hive undocumented feature
Hive undocumented feature
tamtam180
Similar a Processing LTSV by Apache Pig
(20)
ゲームのインフラをAwsで実戦tips全て見せます
ゲームのインフラをAwsで実戦tips全て見せます
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
Hadoop on LXC
Hadoop on LXC
Hadoop事始め
Hadoop事始め
Fluentd casual
Fluentd casual
OSC2011Tokyo/Fall OpenStack Swift入門
OSC2011Tokyo/Fall OpenStack Swift入門
Wakame-vdc 開発苦労談
Wakame-vdc 開発苦労談
Mysql casial01
Mysql casial01
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
What's new in open shift container platform 4.7 japan_20210318
What's new in open shift container platform 4.7 japan_20210318
Flumeを活用したAmebaにおける大規模ログ収集システム
Flumeを活用したAmebaにおける大規模ログ収集システム
5ステップで始めるPostgreSQLレプリケーション@hbstudy#13
5ステップで始めるPostgreSQLレプリケーション@hbstudy#13
PostgreSQL安定運用のコツ2009 @hbstudy#5
PostgreSQL安定運用のコツ2009 @hbstudy#5
OpenStack Object Storage; Usage
OpenStack Object Storage; Usage
aptのマニュアルをpo4a化した話
aptのマニュアルをpo4a化した話
Webサーバ勉強会 LT資料
Webサーバ勉強会 LT資料
Openstack+Ceph設定ガイド
Openstack+Ceph設定ガイド
Qlik ReplicateでApache Kafkaをターゲットとして使用する
Qlik ReplicateでApache Kafkaをターゲットとして使用する
CDH4.1オーバービュー
CDH4.1オーバービュー
Hive undocumented feature
Hive undocumented feature
Processing LTSV by Apache Pig
1.
LTSV を Pig
で処理する話 2013-03-04 LT at 第2回初心者向け分散処理勉強会 @miyakawa_taku
2.
1 要旨 • Apache Pig
で LTSV ファイルを読み込むプラ グインを作りました • Hadoop 上で LTSV ファイルが簡単に扱える ようになるから素敵です
3.
2 Pig
4.
3 Pig • データフローを記述して Hadoop
の MapReduce ジョブをぶっ放すツールです • Pig でデータを前処理して Hive のテーブルに 突っ込んだりします • 分散 awk みたいな感覚です
5.
4 Pig の例: 部署ごと平均給与の計算
山田 生産 190 営業 235 田中 営業 320 Pig 人事 252 中橋 生産 240 生産 220 -- ロード emp = LOAD 'emp.txt' AS (name, dept, salary); -- 計算 emp_by_dept = GROUP emp BY dept; avgsalary_by_dept = FOREACH emp_by_dept GENERATE group AS dept, AVG(emp.salary) -- 保存 STORE avgsalary_by_dept INTO 'avgsalary_by_dept';
6.
5 LTSV
7.
6 LTSV: Labeled Tab-separated
Values • 2月8日に突如流行 → 数日で収束しました • ログ用のファイルフォーマットです • タブ区切りの各列を「<ラベル>:<値>」にします host:host1.example.org req:GET /index.html ua:Opera/9.80 host:host1.example.org req:GET /favicon.ico ua:Opera/9.80 host:pc.example.com req:GET /news.html ua:Mozilla/5.0 • 書式が一目瞭然 • awk でパースできる: FS="¥t", split($i,p,":") いいところ • Apache や nginx で出力設定が簡単 • 仕様変更で値を追加しても大丈夫 注意点 • タブや改行を含む値は出力できない
8.
7 LTSV / Pig
9.
8 Pig で LTSV
が読めるようにする • 出したログに Hive でクエリを投げたい ⇒ Pig で前処理したい ⇒ Pig で LTSV を読むプラグインを作りました
10.
9 Pig で LTSV
を読むプラグイン 必要な値の -- ロード ラベルを指定 access = LOAD 'access.log' USING org.ltsv.pig.LTSVLoader('host, ua'); -- ホスト, UA ごとのアクセス数を計算 access_by_host_ua = GROUP access BY (host, ua); count_by_host_ua = FOREACH access_by_host_ua GENERATE group.host, group.ua, COUNT(access); -- 出力 DUMP count_by_host_ua;
11.
10 〆め
12.
11 結論 • Pig を使うと
Hadoop での並列データ処理が 簡単に書けます • LTSV は人間にも機械にもやさしいログフォー マットです • Pig で LTSV が読めるのでログを LTSV でバカ スカ出して Hadoop に突っ込んでおけば幸せ になれます
13.
12 参考 • pig-ltsv-storage: プラグインのリポジトリ
– https://bitbucket.org/miyakawa_taku/pig-ltsv- storage • PIG-3215: PiggyBank (Pig のプラグイン集) に LTSVLoader を追加する issue – https://issues.apache.org/jira/browse/PIG-3215 • このスライド – http://www.slideshare.net/miyakawataku/processi ng-ltsv-by-pig
Descargar ahora