マーケティング向け大規模ログ解析事例紹介

マーケティング向け大規模ログ解析事例紹介 Large-Scale Log Analysis for the Marketing NTT コミュニケーションズ株式会社先端 IP アーキテクチャセンタ原謙治 2011 年 9 月 26 日

Who am I? 先端 IP アーキテクチャセンタは技術 / サービス開発を担当技術開発クラウドサービス開発の事例を紹介 NTT コミュニケーションズ先端 IP アーキテクチャセンタ Net Marketing Analysis & DB Technology 担当原謙治運用・保守設計・構築営業事業企画・推進スタッフサービス開発 CUSTOMER RETENTION [ 顧客との信頼関係の維持 ] DELIVERY [ 宣伝 / 営業 / デリバリ ] SUPPORT [ 現場をサポート ] CREATION [ 技術 / サービス開発 ]

BizCITY: Cloud Service provided by NTT Communications データセンタ間高速バックボーン Global NW セキュアコネクティビティ Internet ／ IP 電話網 VPN サービス　　　　　　　　　 ICT アウトソーシング Fire Wall ギャランティバーストベストエフォート国内拠点海外拠点 Biz ホスティング仮想サーバホスティングサービス Biz メール大容量 Web メールｽｹｼﾞｭｰﾗ等 SaaS ｱﾌﾟﾘｹｰｼｮﾝ CRM ／ SFA 等 Internet Biz ストレージ大容量ファイルサーバﾏﾙﾁﾚｲﾔﾏｰｹﾃｨﾝｸﾞｿﾘｭｰｼｮﾝ Biz マーケティングネットマーケティング高速モバイルアクセスモバイルシンクラｲｱﾝﾄセキュアリモートアクセス　　　　　　　　ユビキタスオフィス PC リモートアクセス携帯リモートアクセスユビキタス IP 電話大規模データストア大規模データ解析 Biz ストレージ大容量ファイルサーバﾏﾙﾁﾚｲﾔﾏｰｹﾃｨﾝｸﾞｿﾘｭｰｼｮﾝ Biz マーケティングネットマーケティング

Big Datas in BizCITY Biz ストレージに保存したデータの分散処理各種ログデータ、 CGM データの大規模分散処理高セキュリティ・大容量のストレージを提供することで運用コストを削減ユーザ行動ログからマーケティング情報を抽出して企業活動を支援解析用大規模データストア用大規模データ Biz ストレージ大容量ファイルサーバﾏﾙﾁﾚｲﾔﾏｰｹﾃｨﾝｸﾞｿﾘｭｰｼｮﾝ Biz マーケティングネットマーケティング Hadoop クラスタを利用して各種大規模データの分散処理を実現大規模分散処理対象領域データの用途サービスの特長連携も視野

Hadoop in Biz Marketing “ Web access Analysis ” visualizes internet-users ’ behaviors. “ Buzz Finder ” supports marketing activity using customers ’ feedbacks in social media. 大規模 Web アクセスログを解析してユーザ行動情報を抽出大規模 CGM データを解析してクチコミ情報を抽出データクロール検索語収集データクロール企業メッセージが正しくユーザに伝わっているか？広告宣伝の効果はどうか？ネット上で自社の悪評が流れていないか？自社商品の改善ポイント、差別化ポイントは何か？マーケティング担当様広告宣伝担当様広報・総務担当様商品開発担当様自社ブランドの評判を分析広告・宣伝後の評判を分析自社名当の評判を分析自社 / 他社商品の評判を比較書き込み検索利用 PaaS 型サービスへ向けた運用コスト削減のための高速化 Blog データ規模増大への対応 Hadoop を利用 Hadoop を利用

Hadoop in BuzzFinder 1 レコードあたりのデータが大きい CGM DB (Twitter, Blog など ) PostgreSQL レコード数が少ない ( 数百万 / 日 ) Map 処理が中心←大部分が日本語解析 Import CGM データ HDFS ワード抽出関連語抽出ポジネガ語抽出位置情報抽出検索 Index 作成 Map 抽出 Word 関連語ポジネガ語位置情報検索 Index HDFS キーワード辞書 PostgreSQL export 集計 DB PostgreSQL 処理の特徴 export 抽出 DB PostgreSQL 抽出ワード集計関連語集計 HDFS ポジネガ分布集計位置分布集計集計 Reduce 日本語解析 Map CGM 解析データ HDFS リッチインデクシング技術 * を利用して日本語解析 * リッチインデクシング技術 : NTT 研究所が開発した日本語解析技術資料末尾に参考 URL

Results of BuzzFinder(1/3) 福島第一原発から大量の白煙が噴出 95,271 ツイート毎月 11 日は震災についての話題が増えるキーワード「震災」「原発」のトレンド分析結果 (6 月～ 8 月の Tweet) ここ 3 ヶ月でも減少の傾向は見られない。（まだまだホットなキーワード）トピック毎のソーシャルメディア上での反応のリニアな変化を確認

Results of BuzzFinder(2/3) 「原発」に関する地域特性 (1 週間 ) 基本的には人口分布に比例する。被災地および節電の影響がある関東からの発信が多いことがわかる。（ブログ分析でもほぼ同様の結果）

Results of BuzzFinder(3/3) 「原発」に関するポジネガの変化 2011 年 4 月末 2011 年 8 月末原発に関する評判は震災直後よりもわずかであるが悪化している。ポジネガは一般的にはポジが多い（ 7 割から 8 割）ネガ発言が 5 割超の危険領域。

Hadoop in Biz Marketing “ Web access Analysis ” visualizes internet-users ’ behaviors. “ Buzz Finder ” supports marketing activity using customers ’ feedbacks in social media. 大規模 Web アクセスログを解析してユーザ行動情報を抽出大規模 CGM データを解析してクチコミ情報を抽出データクロール検索語収集データクロール企業メッセージが正しくユーザに伝わっているか？広告宣伝の効果はどうか？ネット上で自社の悪評が流れていないか？自社商品の改善ポイント、差別化ポイントは何か？マーケティング担当様広告宣伝担当様広報・総務担当様商品開発担当様自社ブランドの評判を分析広告・宣伝後の評判を分析自社名当の評判を分析自社 / 他社商品の評判を比較書き込み検索利用 PaaS 型サービスへ向けた運用コスト削減のための高速化 Hadoop を利用 Hadoop を利用データ規模増大への対応

Hadoop in Web Access Analysis アクセスログサイト情報 HDFS 1 レコードあたりのデータが小さいクリックログ export レコード数が多い ( 数千万 / 日 ) Reduce 処理が頻発← Shuffle コストが高い HDFS 関連サイト抽出 Map 処理の特徴集計 DB export PostgreSQL セッション分類セッションデータ HDFS Map&Reduce サイト分類 Map サイト毎ランディングクエリ集計ランディングクエリ集計 Reduce ランディングクエリの頻度集計データ集計 Reduce HDFS 関連サイト集計サイト間のアクセス相関集計データ JOIN Map&Reduce

Fast Map-Reduce for PaaS Services 典型的な Map/Reduce 処理としてマーケティングの集計処理とアクセス解析の OLAP 処理 ( 多数の join がある処理 ) の高速化を実施アクセス解析やマーケティング解析を行う上で Shuffle コストが大きくなるため大量のマシンが必要速度が同等通常の Hadoop Cluster 高速な Hadoop Cluster マシン数を削減 Shuffle コストを下げてマシン数を削減するために Map/Reduce の典型的な処理を高速化

Strategies for Shuffle Cost Reduction “ PJoin ” ** reduces the shuffle costs in join processing Join with Semi-Join View 複数の分析処理で共通的なシャッフル処理を事前処理して分析処理時のコストを削減 *, ** “ Map Multi-Reduce ” および “ PJoin ” は NTT 研究所が開発した MapReduce 高速化技術 “ Map Multi-Reduce ” * reduces shuffle costs of map-reduce operations. Record Reduce Map タスクにおいて Reduce を事前実行し中間データを削減 Local Reduce 同一ノードの Map 出力結果を Reduce して Shuffle 対象データを削減

Map Multi-Reduce/Record Reduce 入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ通常の MapReduce Record reduce 利用入力データ Map 関数 MapOutputBuffer sort&spill Spill files mergeParts 出力データ Record reduce record reduce を事前実行 Map タスクにおいて Reduce を事前実行し中間データを削減

Map Multi-Reduce/Local Reduce User Program worker worker worker Input Data fork fork fork Master worker worker assign map assign reduce local write remote read, sort Output File 0 Output File 1 Split 1 Split 0 Split 2 Split 3 Split 4 read worker worker worker worker worker assign local reduce マシンプロセスファイル同一ノードの Map 出力結果を Reduce して Shuffle 対象データを削減 Local Reduce タスク Local Reduce タスク Local Reduce タスク Web アクセスログ解析のクリックログ集計処理で Record Reduce と Local Reduce により 2.2 倍の速度向上を確認

PJoin/Join with Semi-Join View Query execution siteinfo a siteinfo _ accesses 1 accesses processing + 準結合 mapper … siteinfo _ accesses n accesses n … accesses 1 accesses processing + 準結合 Joining with siteinfo reducer … Joining with siteinfo siteinfo z Pre-computation siteinfo accesses hash(x) hash(y) … siteinfo b siteinfo a siteinfo z accesses 1 accesses n siteinfo _ accesses n siteinfo _ accesses 1 … hash(y) siteinfo primary key & foreign key (accesses primary key) アクセスログサイト毎の詳細情報テーブルの事前シャッフル実行，準結合中間データの事前生成 mapper で準結合処理後に， reducer で残処理を実行 DFS read shuffle

Results of PJoin 1TB のアクセスログ処理で Pjoin の速度性能を検証 Hive で処理した 50 台と本技術を適用した 20 台が同等の性能であることを確認実行した HiveQL insert overwrite table q1_result select count(distinct s_sessionseqid) from clckstrm c join page p on c.c_pageseqid = p.p_pageseqid and p.p_url like '%blog.goo.ne.jp%' join session_info s on s.s_clckstrmseqid = c.c_clckstrmseqid and s.s_referer like ‘%*%';

Our Hadoop Cluster ,[object Object],[object Object],[object Object],[object Object],Hadoop Cluster(250 コア程度 ) 設備や効果測定の観点で下記のような環境を整備 Namenode ・・・・・・ラック 1( LOC1 ) ラック 2( LOC1 ) ラック 3 ( LOC2 ) 広域 WAN(50km) LACP により 4GB の帯域を確保処理時間マシン台数 10 台目で WAN 越え

Summary ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Contacts ,[object Object],[object Object],[object Object],[object Object]

参考 : リッチインデクシング技術参考 URL ,[object Object],[object Object],[object Object],[object Object],[object Object]

マーケティング向け大規模ログ解析事例紹介

Recomendados

Recomendados

Más contenido relacionado

Similar a マーケティング向け大規模ログ解析事例紹介

Similar a マーケティング向け大規模ログ解析事例紹介 (20)

マーケティング向け大規模ログ解析事例紹介