SlideShare una empresa de Scribd logo
1 de 21
マーケティング向け大規模ログ解析事例紹介 Large-Scale Log Analysis for the Marketing   NTT コミュニケーションズ株式会社 先端 IP アーキテクチャセンタ 原 謙治 2011 年 9 月 26 日
Who am I? 先端 IP アーキテクチャセンタは 技術 / サービス開発を担当 技術開発 クラウドサービス 開発の事例を紹介 NTT コミュニケーションズ 先端 IP アーキテクチャセンタ Net Marketing Analysis & DB Technology 担当 原 謙治 運用・保守 設計・構築 営業 事業企画・推進 スタッフ サービス開発 CUSTOMER RETENTION [ 顧客との 信頼関係の維持 ] DELIVERY [ 宣伝 / 営業 / デリバリ ] SUPPORT [ 現場をサポート ] CREATION [ 技術 / サービス開発 ]
BizCITY: Cloud Service provided by NTT Communications データセンタ間高速バックボーン Global NW セキュアコネクティビティ Internet / IP 電話網 VPN サービス            ICT アウトソーシング Fire Wall ギャランティ バースト ベストエフォート 国内拠点 海外拠点 Biz ホスティング 仮想サーバ ホスティングサービス Biz メール 大容量 Web メール スケジューラ等 SaaS アプリケーション CRM / SFA  等 Internet Biz ストレージ 大容量 ファイルサーバ マルチレイヤマーケティング ソリューション Biz マーケティング ネット マーケティング 高速モバイル アクセス モバイルシンクライアント セキュアリモートアクセス         ユビキタスオフィス PC リモートアクセス 携帯リモートアクセス ユビキタス IP 電話 大規模データストア 大規模データ解析 Biz ストレージ 大容量 ファイルサーバ マルチレイヤマーケティング ソリューション Biz マーケティング ネット マーケティング
Big Datas in BizCITY Biz ストレージに保存した データの分散処理 各種ログデータ、 CGM データの 大規模分散処理 高セキュリティ・大容量の ストレージを提供することで 運用コストを削減 ユーザ行動ログからマーケティング 情報を抽出して企業活動を支援 解析用大規模データ ストア用大規模データ Biz ストレージ 大容量 ファイルサーバ マルチレイヤマーケティング ソリューション Biz マーケティング ネット マーケティング Hadoop クラスタを利用して 各種大規模データの分散処理を実現 大規模分散処理 対象領域 データの用途 サービスの特長 連携も視野
Hadoop in Biz Marketing “ Web access Analysis ”  visualizes internet-users ’  behaviors. “ Buzz Finder ”  supports marketing activity using customers ’  feedbacks in social media. 大規模 Web アクセスログを解析してユーザ行動情報を抽出 大規模 CGM データを解析してクチコミ情報を抽出 データクロール 検索語収集 データクロール 企業メッセージが正しく ユーザに伝わっているか? 広告宣伝の効果はどうか? ネット上で自社の悪評が流れていないか? 自社商品の改善ポイント、 差別化ポイントは何か? マーケティング担当様 広告宣伝担当様 広報・総務担当様 商品開発担当様 自社ブランドの 評判を分析 広告・宣伝後の 評判を分析 自社名当の 評判を分析 自社 / 他社商品の 評判を比較 書き込み 検索利用 PaaS 型サービスへ向けた 運用コスト削減のための高速化 Blog データ規模増大への対応 Hadoop を利用 Hadoop を利用
Hadoop in BuzzFinder 1 レコードあたりのデータが大きい CGM DB (Twitter, Blog など ) PostgreSQL レコード数が少ない ( 数百万 / 日 ) Map 処理が中心←大部分が日本語解析 Import CGM データ HDFS ワード抽出 関連語抽出 ポジネガ語抽出 位置情報抽出 検索 Index 作成 Map 抽出 Word 関連語 ポジネガ語 位置情報 検索 Index HDFS キーワード辞書 PostgreSQL export 集計 DB PostgreSQL 処理の特徴 export 抽出 DB PostgreSQL 抽出ワード集計 関連語集計 HDFS ポジネガ分布集計 位置分布集計 集計 Reduce 日本語 解析 Map CGM 解析 データ HDFS リッチインデクシング技術 * を利用して日本語解析 * リッチインデクシング技術 : NTT 研究所が開発した日本語解析技術 資料末尾に参考 URL
Results of BuzzFinder(1/3) 福島第一原発から 大量の白煙が噴出 95,271 ツイート 毎月 11 日は震災についての話題が増える キーワード「震災」「原発」のトレンド分析結果 (6 月~ 8 月の Tweet) ここ 3 ヶ月でも減少の傾向は見られない。(まだまだホットなキーワード) トピック毎のソーシャルメディア上での反応のリニアな変化を確認
Results of BuzzFinder(2/3) 「原発」に関する地域特性 (1 週間 ) 基本的には人口分布に比例する。 被災地および節電の影響がある関東からの発信が多いことがわかる。(ブログ分析でもほぼ同様の結果)
Results of BuzzFinder(3/3) 「原発」に関するポジネガの変化 2011 年 4 月末 2011 年 8 月末 原発に関する評判は震災直後よりもわずかであるが悪化している。 ポジネガは一般的にはポジが多い( 7 割から 8 割) ネガ発言が 5 割超の危険領域。
Hadoop in Biz Marketing “ Web access Analysis ”  visualizes internet-users ’  behaviors. “ Buzz Finder ”  supports marketing activity using customers ’  feedbacks in social media. 大規模 Web アクセスログを解析してユーザ行動情報を抽出 大規模 CGM データを解析してクチコミ情報を抽出 データクロール 検索語収集 データクロール 企業メッセージが正しく ユーザに伝わっているか? 広告宣伝の効果はどうか? ネット上で自社の悪評が流れていないか? 自社商品の改善ポイント、 差別化ポイントは何か? マーケティング担当様 広告宣伝担当様 広報・総務担当様 商品開発担当様 自社ブランドの 評判を分析 広告・宣伝後の 評判を分析 自社名当の 評判を分析 自社 / 他社商品の 評判を比較 書き込み 検索利用 PaaS 型サービスへ向けた 運用コスト削減のための高速化 Hadoop を利用 Hadoop を利用 データ規模増大への対応
Hadoop in Web Access Analysis アクセスログ サイト情報 HDFS 1 レコードあたりのデータが小さい クリックログ export レコード数が多い ( 数千万 / 日 ) Reduce 処理が頻発← Shuffle コストが高い HDFS 関連 サイト 抽出 Map 処理の特徴 集計 DB export PostgreSQL セッション 分類 セッション データ HDFS Map&Reduce サイト分類 Map サイト毎 ランディング クエリ集計 ランディング クエリ集計 Reduce ランディングクエリの頻度集計データ 集計 Reduce HDFS 関連 サイト 集計 サイト間のアクセス相関集計データ JOIN Map&Reduce
Fast Map-Reduce for PaaS Services 典型的な Map/Reduce 処理として マーケティングの集計処理 と アクセス解析の OLAP 処理 ( 多数の join がある処理 ) の高速化を実施 アクセス解析やマーケティング解析を行う上で Shuffle コストが大きくなるため大量のマシンが必要 速度が同等 通常の Hadoop Cluster 高速な Hadoop Cluster マシン数 を削減 Shuffle コストを下げてマシン数を削減するために Map/Reduce の典型的な処理を高速化
Strategies for Shuffle Cost Reduction “ PJoin ” **  reduces the shuffle costs in join processing Join with Semi-Join View 複数の分析処理で共通的なシャッフル処理を事前処理して分析処理時のコストを削減 *, **  “ Map Multi-Reduce ” および “ PJoin ” は NTT 研究所が開発した MapReduce 高速化技術 “ Map Multi-Reduce ” *  reduces shuffle costs of map-reduce operations. Record Reduce Map タスクにおいて Reduce を事前実行し中間データを削減 Local Reduce 同一ノードの Map 出力結果を Reduce して Shuffle 対象データを削減
Map Multi-Reduce/Record Reduce 入力データ Map  関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ 通常の MapReduce Record reduce  利用 入力データ Map  関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ Record reduce record reduce  を事前実行 Map タスクにおいて Reduce を事前実行し中間データを削減
Map Multi-Reduce/Local Reduce User Program worker worker worker Input Data fork fork fork Master worker worker assign map assign reduce local  write remote read, sort Output  File 0 Output  File 1 Split 1 Split 0 Split 2 Split 3 Split 4 read worker worker worker worker worker assign local reduce マシン プロセス ファイル 同一ノードの Map 出力結果を Reduce して Shuffle 対象データを削減 Local Reduce  タスク Local Reduce  タスク Local Reduce  タスク Web アクセスログ解析のクリックログ集計処理で Record Reduce と Local Reduce により 2.2 倍の速度向上を確認
PJoin/Join with Semi-Join View Query execution siteinfo  a siteinfo _  accesses  1 accesses  processing +  準結合 mapper … siteinfo _  accesses  n accesses  n … accesses  1 accesses  processing +  準結合 Joining with  siteinfo reducer … Joining with  siteinfo siteinfo  z Pre-computation siteinfo accesses hash(x) hash(y) … siteinfo  b siteinfo  a siteinfo  z accesses  1 accesses  n siteinfo _  accesses  n siteinfo _  accesses  1 … hash(y) siteinfo  primary key & foreign key  (accesses   primary key)  アクセスログ サイト毎の 詳細情報 テーブルの事前シャッフル実行,準結合中間データの事前生成 mapper  で準結合処理後に, reducer  で残処理を実行 DFS read shuffle
Results of PJoin 1TB のアクセスログ処理で Pjoin の速度性能を検証 Hive で処理した 50 台と本技術を適用した 20 台が 同等の性能であることを確認 実行した HiveQL insert overwrite table q1_result select count(distinct s_sessionseqid) from clckstrm c join page p on c.c_pageseqid = p.p_pageseqid and p.p_url like '%blog.goo.ne.jp%' join session_info s on s.s_clckstrmseqid = c.c_clckstrmseqid and s.s_referer like ‘%*%';
Our Hadoop Cluster ,[object Object],[object Object],[object Object],[object Object],Hadoop Cluster(250 コア程度 ) 設備や効果測定の観点で下記のような環境を整備 Namenode ・・・ ・・・ ラック 1( LOC1 ) ラック 2( LOC1 ) ラック 3 ( LOC2 ) 広域 WAN(50km) LACP により 4GB の帯域を確保 処理時間 マシン台数 10 台目で WAN 越え
Summary ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]
Contacts ,[object Object],[object Object],[object Object],[object Object]
参考 :  リッチインデクシング技術参考 URL ,[object Object],[object Object],[object Object],[object Object],[object Object]

Más contenido relacionado

Similar a マーケティング向け大規模ログ解析事例紹介

Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介
Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介
Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介Kenji Hara
 
ERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすかERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすかRyuji Enoki
 
Cloud Native and Agile Approach
Cloud Native and Agile ApproachCloud Native and Agile Approach
Cloud Native and Agile ApproachShinya Yanagihara
 
BIG DATA サービス と ツール
BIG DATA サービス と ツールBIG DATA サービス と ツール
BIG DATA サービス と ツールNgoc Dao
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐Rakuten Group, Inc.
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムRecruit Technologies
 
MicrosoftによるAIビジネスへの取組み
MicrosoftによるAIビジネスへの取組みMicrosoftによるAIビジネスへの取組み
MicrosoftによるAIビジネスへの取組みKosuke Fujimoto
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現インフラジスティックス・ジャパン株式会社
 
基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」Cybozucommunity
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとはMakoto Shimizu
 
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)Takeshi Fukuhara
 
クラウド鎖国からクラウド維新へ
クラウド鎖国からクラウド維新へクラウド鎖国からクラウド維新へ
クラウド鎖国からクラウド維新へCybozucommunity
 
Tech Ed 2009 Japan T3-309 Microsoft Business Productivity Online Services 技術概要
Tech Ed 2009 Japan T3-309 Microsoft Business Productivity Online Services 技術概要Tech Ed 2009 Japan T3-309 Microsoft Business Productivity Online Services 技術概要
Tech Ed 2009 Japan T3-309 Microsoft Business Productivity Online Services 技術概要kumo2010
 
デブサミ2013【14-E-2】パフォーマンス・チューニングに革命をもたらす最新テクノロジー - トランザクショントレース
デブサミ2013【14-E-2】パフォーマンス・チューニングに革命をもたらす最新テクノロジー - トランザクショントレースデブサミ2013【14-E-2】パフォーマンス・チューニングに革命をもたらす最新テクノロジー - トランザクショントレース
デブサミ2013【14-E-2】パフォーマンス・チューニングに革命をもたらす最新テクノロジー - トランザクショントレースDevelopers Summit
 
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...Boss4434
 

Similar a マーケティング向け大規模ログ解析事例紹介 (20)

Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介
Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介
Hadoop Conference Japan 2011 Fall: マーケティング向け大規模ログ解析事例紹介
 
Hadoopカンファレンス2013
Hadoopカンファレンス2013Hadoopカンファレンス2013
Hadoopカンファレンス2013
 
ERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすかERPのデータをフロントシステムでどう活かすか
ERPのデータをフロントシステムでどう活かすか
 
Cloud Native and Agile Approach
Cloud Native and Agile ApproachCloud Native and Agile Approach
Cloud Native and Agile Approach
 
BIG DATA サービス と ツール
BIG DATA サービス と ツールBIG DATA サービス と ツール
BIG DATA サービス と ツール
 
Force.com開発基礎
Force.com開発基礎Force.com開発基礎
Force.com開発基礎
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
 
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
 
MicrosoftによるAIビジネスへの取組み
MicrosoftによるAIビジネスへの取組みMicrosoftによるAIビジネスへの取組み
MicrosoftによるAIビジネスへの取組み
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
楽天エンジニアライフ
楽天エンジニアライフ楽天エンジニアライフ
楽天エンジニアライフ
 
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
Web アプリケーションにおけるクライアントサイドのデータハンドリングと可視化の実現
 
基調講演「データのグループウェア化」
基調講演「データのグループウェア化」基調講演「データのグループウェア化」
基調講演「データのグループウェア化」
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
 
クラウド鎖国からクラウド維新へ
クラウド鎖国からクラウド維新へクラウド鎖国からクラウド維新へ
クラウド鎖国からクラウド維新へ
 
Tech Ed 2009 Japan T3-309 Microsoft Business Productivity Online Services 技術概要
Tech Ed 2009 Japan T3-309 Microsoft Business Productivity Online Services 技術概要Tech Ed 2009 Japan T3-309 Microsoft Business Productivity Online Services 技術概要
Tech Ed 2009 Japan T3-309 Microsoft Business Productivity Online Services 技術概要
 
デブサミ2013【14-E-2】パフォーマンス・チューニングに革命をもたらす最新テクノロジー - トランザクショントレース
デブサミ2013【14-E-2】パフォーマンス・チューニングに革命をもたらす最新テクノロジー - トランザクショントレースデブサミ2013【14-E-2】パフォーマンス・チューニングに革命をもたらす最新テクノロジー - トランザクショントレース
デブサミ2013【14-E-2】パフォーマンス・チューニングに革命をもたらす最新テクノロジー - トランザクショントレース
 
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
Aws summits2014 サイバーエージェント_ユーザーの趣味嗜好に適した広告配信システムdynalystができるまでad_techstudioでの...
 

マーケティング向け大規模ログ解析事例紹介

  • 1. マーケティング向け大規模ログ解析事例紹介 Large-Scale Log Analysis for the Marketing NTT コミュニケーションズ株式会社 先端 IP アーキテクチャセンタ 原 謙治 2011 年 9 月 26 日
  • 2. Who am I? 先端 IP アーキテクチャセンタは 技術 / サービス開発を担当 技術開発 クラウドサービス 開発の事例を紹介 NTT コミュニケーションズ 先端 IP アーキテクチャセンタ Net Marketing Analysis & DB Technology 担当 原 謙治 運用・保守 設計・構築 営業 事業企画・推進 スタッフ サービス開発 CUSTOMER RETENTION [ 顧客との 信頼関係の維持 ] DELIVERY [ 宣伝 / 営業 / デリバリ ] SUPPORT [ 現場をサポート ] CREATION [ 技術 / サービス開発 ]
  • 3. BizCITY: Cloud Service provided by NTT Communications データセンタ間高速バックボーン Global NW セキュアコネクティビティ Internet / IP 電話網 VPN サービス           ICT アウトソーシング Fire Wall ギャランティ バースト ベストエフォート 国内拠点 海外拠点 Biz ホスティング 仮想サーバ ホスティングサービス Biz メール 大容量 Web メール スケジューラ等 SaaS アプリケーション CRM / SFA 等 Internet Biz ストレージ 大容量 ファイルサーバ マルチレイヤマーケティング ソリューション Biz マーケティング ネット マーケティング 高速モバイル アクセス モバイルシンクライアント セキュアリモートアクセス         ユビキタスオフィス PC リモートアクセス 携帯リモートアクセス ユビキタス IP 電話 大規模データストア 大規模データ解析 Biz ストレージ 大容量 ファイルサーバ マルチレイヤマーケティング ソリューション Biz マーケティング ネット マーケティング
  • 4. Big Datas in BizCITY Biz ストレージに保存した データの分散処理 各種ログデータ、 CGM データの 大規模分散処理 高セキュリティ・大容量の ストレージを提供することで 運用コストを削減 ユーザ行動ログからマーケティング 情報を抽出して企業活動を支援 解析用大規模データ ストア用大規模データ Biz ストレージ 大容量 ファイルサーバ マルチレイヤマーケティング ソリューション Biz マーケティング ネット マーケティング Hadoop クラスタを利用して 各種大規模データの分散処理を実現 大規模分散処理 対象領域 データの用途 サービスの特長 連携も視野
  • 5. Hadoop in Biz Marketing “ Web access Analysis ” visualizes internet-users ’ behaviors. “ Buzz Finder ” supports marketing activity using customers ’ feedbacks in social media. 大規模 Web アクセスログを解析してユーザ行動情報を抽出 大規模 CGM データを解析してクチコミ情報を抽出 データクロール 検索語収集 データクロール 企業メッセージが正しく ユーザに伝わっているか? 広告宣伝の効果はどうか? ネット上で自社の悪評が流れていないか? 自社商品の改善ポイント、 差別化ポイントは何か? マーケティング担当様 広告宣伝担当様 広報・総務担当様 商品開発担当様 自社ブランドの 評判を分析 広告・宣伝後の 評判を分析 自社名当の 評判を分析 自社 / 他社商品の 評判を比較 書き込み 検索利用 PaaS 型サービスへ向けた 運用コスト削減のための高速化 Blog データ規模増大への対応 Hadoop を利用 Hadoop を利用
  • 6. Hadoop in BuzzFinder 1 レコードあたりのデータが大きい CGM DB (Twitter, Blog など ) PostgreSQL レコード数が少ない ( 数百万 / 日 ) Map 処理が中心←大部分が日本語解析 Import CGM データ HDFS ワード抽出 関連語抽出 ポジネガ語抽出 位置情報抽出 検索 Index 作成 Map 抽出 Word 関連語 ポジネガ語 位置情報 検索 Index HDFS キーワード辞書 PostgreSQL export 集計 DB PostgreSQL 処理の特徴 export 抽出 DB PostgreSQL 抽出ワード集計 関連語集計 HDFS ポジネガ分布集計 位置分布集計 集計 Reduce 日本語 解析 Map CGM 解析 データ HDFS リッチインデクシング技術 * を利用して日本語解析 * リッチインデクシング技術 : NTT 研究所が開発した日本語解析技術 資料末尾に参考 URL
  • 7. Results of BuzzFinder(1/3) 福島第一原発から 大量の白煙が噴出 95,271 ツイート 毎月 11 日は震災についての話題が増える キーワード「震災」「原発」のトレンド分析結果 (6 月~ 8 月の Tweet) ここ 3 ヶ月でも減少の傾向は見られない。(まだまだホットなキーワード) トピック毎のソーシャルメディア上での反応のリニアな変化を確認
  • 8. Results of BuzzFinder(2/3) 「原発」に関する地域特性 (1 週間 ) 基本的には人口分布に比例する。 被災地および節電の影響がある関東からの発信が多いことがわかる。(ブログ分析でもほぼ同様の結果)
  • 9. Results of BuzzFinder(3/3) 「原発」に関するポジネガの変化 2011 年 4 月末 2011 年 8 月末 原発に関する評判は震災直後よりもわずかであるが悪化している。 ポジネガは一般的にはポジが多い( 7 割から 8 割) ネガ発言が 5 割超の危険領域。
  • 10. Hadoop in Biz Marketing “ Web access Analysis ” visualizes internet-users ’ behaviors. “ Buzz Finder ” supports marketing activity using customers ’ feedbacks in social media. 大規模 Web アクセスログを解析してユーザ行動情報を抽出 大規模 CGM データを解析してクチコミ情報を抽出 データクロール 検索語収集 データクロール 企業メッセージが正しく ユーザに伝わっているか? 広告宣伝の効果はどうか? ネット上で自社の悪評が流れていないか? 自社商品の改善ポイント、 差別化ポイントは何か? マーケティング担当様 広告宣伝担当様 広報・総務担当様 商品開発担当様 自社ブランドの 評判を分析 広告・宣伝後の 評判を分析 自社名当の 評判を分析 自社 / 他社商品の 評判を比較 書き込み 検索利用 PaaS 型サービスへ向けた 運用コスト削減のための高速化 Hadoop を利用 Hadoop を利用 データ規模増大への対応
  • 11. Hadoop in Web Access Analysis アクセスログ サイト情報 HDFS 1 レコードあたりのデータが小さい クリックログ export レコード数が多い ( 数千万 / 日 ) Reduce 処理が頻発← Shuffle コストが高い HDFS 関連 サイト 抽出 Map 処理の特徴 集計 DB export PostgreSQL セッション 分類 セッション データ HDFS Map&Reduce サイト分類 Map サイト毎 ランディング クエリ集計 ランディング クエリ集計 Reduce ランディングクエリの頻度集計データ 集計 Reduce HDFS 関連 サイト 集計 サイト間のアクセス相関集計データ JOIN Map&Reduce
  • 12. Fast Map-Reduce for PaaS Services 典型的な Map/Reduce 処理として マーケティングの集計処理 と アクセス解析の OLAP 処理 ( 多数の join がある処理 ) の高速化を実施 アクセス解析やマーケティング解析を行う上で Shuffle コストが大きくなるため大量のマシンが必要 速度が同等 通常の Hadoop Cluster 高速な Hadoop Cluster マシン数 を削減 Shuffle コストを下げてマシン数を削減するために Map/Reduce の典型的な処理を高速化
  • 13. Strategies for Shuffle Cost Reduction “ PJoin ” ** reduces the shuffle costs in join processing Join with Semi-Join View 複数の分析処理で共通的なシャッフル処理を事前処理して分析処理時のコストを削減 *, ** “ Map Multi-Reduce ” および “ PJoin ” は NTT 研究所が開発した MapReduce 高速化技術 “ Map Multi-Reduce ” * reduces shuffle costs of map-reduce operations. Record Reduce Map タスクにおいて Reduce を事前実行し中間データを削減 Local Reduce 同一ノードの Map 出力結果を Reduce して Shuffle 対象データを削減
  • 14. Map Multi-Reduce/Record Reduce 入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ 通常の MapReduce Record reduce 利用 入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ Record reduce record reduce を事前実行 Map タスクにおいて Reduce を事前実行し中間データを削減
  • 15. Map Multi-Reduce/Local Reduce User Program worker worker worker Input Data fork fork fork Master worker worker assign map assign reduce local write remote read, sort Output File 0 Output File 1 Split 1 Split 0 Split 2 Split 3 Split 4 read worker worker worker worker worker assign local reduce マシン プロセス ファイル 同一ノードの Map 出力結果を Reduce して Shuffle 対象データを削減 Local Reduce タスク Local Reduce タスク Local Reduce タスク Web アクセスログ解析のクリックログ集計処理で Record Reduce と Local Reduce により 2.2 倍の速度向上を確認
  • 16. PJoin/Join with Semi-Join View Query execution siteinfo a siteinfo _ accesses 1 accesses processing + 準結合 mapper … siteinfo _ accesses n accesses n … accesses 1 accesses processing + 準結合 Joining with siteinfo reducer … Joining with siteinfo siteinfo z Pre-computation siteinfo accesses hash(x) hash(y) … siteinfo b siteinfo a siteinfo z accesses 1 accesses n siteinfo _ accesses n siteinfo _ accesses 1 … hash(y) siteinfo primary key & foreign key (accesses primary key) アクセスログ サイト毎の 詳細情報 テーブルの事前シャッフル実行,準結合中間データの事前生成 mapper で準結合処理後に, reducer で残処理を実行 DFS read shuffle
  • 17. Results of PJoin 1TB のアクセスログ処理で Pjoin の速度性能を検証 Hive で処理した 50 台と本技術を適用した 20 台が 同等の性能であることを確認 実行した HiveQL insert overwrite table q1_result select count(distinct s_sessionseqid) from clckstrm c join page p on c.c_pageseqid = p.p_pageseqid and p.p_url like '%blog.goo.ne.jp%' join session_info s on s.s_clckstrmseqid = c.c_clckstrmseqid and s.s_referer like ‘%*%';
  • 18.
  • 19.
  • 20.
  • 21.