SlideShare una empresa de Scribd logo
1 de 32
Descargar para leer sin conexión
楽天における
楽天におけるHadoop活用と、
  における       活用と
             活用
  BigDataのビジョン
         の



  楽 天 株 式 会 社   森   正 弥   1
Introduction


• 森 正弥 (もり まさや)
           まさや)
• 楽天株式会社 執行役員
• 楽天技術研究所 所長
• 職掌
 – 開発部署のマネジメント                   Masaya Mori
 – 研究開発の推進・統括                  Twitter: @emasha




                                                  2
Rakuten Group




                3
1年間で1兆円以上
 年間で 兆円以上
 年間




            4
サービス別会員数*1




             5
楽天経済圏

楽天スーパーポイント
楽天スーパーポイント
                     共通ID
                     共通ID
  ラクーポン
                     共通決済




                            6
グループビジネスの拡大と国際展開


1997年
1997年   1998年
        1998年    1999年
                 1999年     2000年
                           2000年      2001年
                                      2001年   2002年
                                              2002年   2003
                                                      2003年     2004
                                                                2004年




2005
2005年    2006
         2006年     2007
                   2007年      2008
                              2008年       2009
                                          2009年   2010年
                                                  2010年       2011年
                                                              2011年
                                                                11




                                                                      7
国際展開

■楽天グループの国際展開
 楽天グループの
   グループ




                      8
For BigData: Hadoop




                      9
BigDataへの取組み

■楽天にあるBig Data
 楽天にあるBig
   にある

                 • 70,000,000+ 会員
                 • 85,000,000+ 商品情報
                 • 80,000,000+ 購買情報
                 • 68,000,000+ レビュー、口コミ
                               レビュー、
                 • 3,000,000+ 1ヶ月あたりの宿泊情報
                               ヶ あたりの宿泊情報
                 • 30,000+ 市場出店店舗
                 • 60,000+ 登録ホテル
                            登録ホテル
                 • 銀行、クレジットカード情報
                   銀行、クレジットカード情報   情報….
                 • 1日あたり数百ギガバイト以上のTransaction
                    日あたり数百ギガバイト以上
                             数百ギガバイト以上の
                   DataやAccess Log
                 • etc etc etc


                     上記は国内のみのデータ量
                     上記は国内のみのデータ量!
                          のみのデータ                10
Total size
                                                          M
                                                           on
                                                             th
                                                              -Y
                                                             Ju ear




                         – 2年で2倍
                                                             De n- 9
                                                                c 7
                                                             Ju - 97
                                                             De n- 9
                                                                c 8
                                                             Ju - 98
                                                                n
                                                             De - 99
                                                                c
                                                             Ju - 99
                                                                n
                                                             Ja - 00
                                                               n
                                                             Ju -0 0
                                                                n
                                                             De - 01
                                                                c




                         – 会員は1ヶ月で20万増える
                                                             Ju - 01
                                                             De n- 0
                                                                c 2

                                           データは指数関数的に増加
                                                             Ju - 02
                                                             De n- 0
                                                                c 3




     レコード10億ごえDBなんてのも
                                                             Ju - 03
                                                             De n- 0
                                                                c 4
                                                             Ju - 04
                                                                n
                                                             De - 05
                                                                c
                                                             Ju - 05
                                                                n
                                                             De - 06
                                                                c
                                                             Ju - 06
                                                                n
                                                             De - 07
                                                                c
                                                             Ju - 07
                                                             De n- 0
                                                                c 8
                                                                                                   Big Data Problem in Rakuten




                                                             Ju - 08
                                                             De n- 0
                                                                c 9
                                                             Ju - 09
                                                                       2 years




                                                                n
                                                             De - 1
                                                                c- 0
                                                                  10
                                                                                 x2




                         は一苦労
                        分析・利活用

11
Hadoop 活用

■楽天でのHadoop導入状況
 楽天でのHadoop導入状況
   でのHadoop




               • 商品ランキング     • MD情報,注文情報分析
               (楽天市場)         (楽天市場)

               • ジャンルランキング   • お勧め検索機能強化
               (楽天市場)         (楽天市場)

               • ログ分析 for    • 次世代サーチ
                              (楽天市場)
 • レコメンドエンジン     パーソナライズ
                             • ログデータ格納と分析
  (楽天市場)       • レコメンドエンジン
               (楽天市場)          (楽天トラベル)

                                             12
レコメンドでの活用
                         レコメンドでの活用
                              での
2009年以来、全商品レコメンドにてHadoop活用
70台規模のクラスタで、商品間の類似度計算や購買データをかけ
あわせた計算を実施
 MyRakuten                  IchibaTOP
  - Recommend all item        - Browsing-History × Recommend all item




                                   購買データ・数億件
                                     十数億GB                         13
ログ分析プラットフォーム:
   ログ分析プラットフォーム Mebius
     分析プラットフォーム
様々なサービスのアクセスログ・検索ログを統合的に解析するプラットフォーム
ユーザーの傾向分析をしたり、レコメンド・サービス改善に活用
 user                Services
                  Rakuten Service
                       Services


                     Mebius
               Load, Transform, Classify
  tables   Log Analysis Platform
       Various API                  Web UI
      Data Cooperate              Ad Hoc Query
                                           Staff
    Rakuten APPs                                   14
楽天プロダクトランキング
               楽天プロダクトランキング
■処理内容
・ランキングデータ集計     サーチエンジン         購買履歴          製品マスタDB
                                              製品マスタDB
                                                マスタ
・製品ページ用データ生成

■データ量
  データ量                                       製品名    製品コード
               検索ワード   価格     売上件数   売上高
・1日/1億レコード
・1日/300GB      レビュー    商品件数   売上率    購買時間帯   スペック    発売日

■M/R 処理時間
・1時間半

■ノード数
  ノード数
・70台




                                                            15
検索での関連語提示や辞書構築での活用
                検索での関連語提示や辞書構築での活用
                  での関連語提示     での


クラスターから検索解析用のHiveにつなげ
関連語の提示や辞書構築等での活用



月 250GBのデータを解析

                                                    suggest batch
                                                    server

                                                                                      Suggest
                                                                                       Index


                                        sync analyzed                  update search index
                                        data
    Shared Hadoop
       Cluster          NGS Hive                        dictionary batch          検索エンジン
                                                        Server
                    NGS common
                                                                                      Dictionary
                    platform for hive                                                   Index

                                                                           update search index
                                                                                                   16
楽天トラベルでの活用
                    楽天トラベルでの活用
                      トラベルでの



                           Access Logs

       1                        Hiveでデータのサマリー
       AccessLogを           2
                                を作成しDWHへ
       Hadoopクラスターへ
       取り込む



Rakuten
Hadoop Cluster
                                DWH
                    ・・・・・
                 ・・・・・ ビジネス施策やランキング、
                      レコメンドへの応用
                                                17
Hadoop 活用

■楽天でのHadoop導入状況
 楽天でのHadoop導入状況
   でのHadoop




               • 商品ランキング     • MD情報,注文情報分析
               (楽天市場)         (楽天市場)

               • ジャンルランキング   • お勧め検索機能強化
               (楽天市場)         (楽天市場)

               • ログ分析 for    • 次世代サーチ
                              (楽天市場)
 • レコメンドエンジン     パーソナライズ
                             • ログデータ格納と分析
  (楽天市場)       • レコメンドエンジン
               (楽天市場)          (楽天トラベル)

                                             18
For BigData: Rakuten Super DB




                                19
全体像


 会員属性        集約               加工・集計・分析
                                  デモグラフィック
 購入履歴                              基本属性)
                                  (基本属性)
                                  ジオグラフィック
アンケート              Rakuten        (地理情報)
                                   地理情報)
                   Super DB       ビヘイビア
カード情報
                                   行動)
                                  (行動)

スーパーポイント                        サイコグラフィック
                   データ提供
                   データ提供           心理的属性)
                                  (心理的属性)
                  アプリケーション
楽天クーポン                        ・パーソナライズ
                               ・リコメンデーション
 ログイン
                               ・行動ターゲティング広告
              DB       ファイル
 外部データ                         ・営業支援
(Mosaic 等)                     ・・・・
                                      利用        20
レコメンデーション技術の
         レコメンデーション技術の自社開発
                  技術


大量なデータをいかすレコメンドの自社開発


                   自社レコメンデーション
                     エンジン開発
  楽天
スーパーDB
         +

レコメンデーション/パーソナライゼーションされたコンテンツ
レコメンデーション/パーソナライゼーションされたコンテンツ
                     された
       の提供により、購買転換率UP
         提供により 購買転換率UP
           により、
                                 21
【レコメンド・エンジン】
 レコメンド・エンジン】




               22
【レコメンド・エンジン】 楽天グループへ横展開
        レコメンド・エンジン】 楽天グループ
                      グループへ




楽天市場                楽天レンタル
                    楽天レンタル




楽天ブックス
楽天ブックス         楽天ダウンロード
               楽天ダウンロード
                                 23
レコメンデーションプラットフォーム
                     TOHO

            サービス特性毎にレコメンドロジックをカスタマイズ可能な
            サービス特性毎にレコメンドロジックをカスタマイズ可能な、
                特性毎                 可能
TOHO        楽天経済圏の
            楽天経済圏のレコメンデーションプラットフォーム

スーパーDB
スーパー             レコメンデーション         各サービスでの
                                    サービスでの
                  プラットフォーム         レコメンド展開
                                   レコメンド展開
商品・サービスDB
商品・サービスDB


 顧客属性DB
 顧客属性DB
                 【各種レコメンドロジック】
                  各種レコメンドロジック】
                    レコメンドロジック
                  協調フィルタリング
 購買履歴DB
 購買履歴DB
                   リターゲティング
                    バスケット
 閲覧履歴DB
 閲覧履歴DB
                    グループ相関
                   コンテンツベース
各サービス

サービス独自DB
サービス独自DB
    独自
                                             24
メール配信の最適化
■メール配信エンジンシステム連携
 メール配信エンジンシステム連携
    配信エンジンシステム
SPDBの集約/分析データをメール配信システムに自動連携
効果:
メール配信システムからSPDBの属性をセグメント指定をすることで、
精度の高いパーソナライズの実現→効果的なメールプロモーションが可能となる。
                セグメント指定、配信管理
                セグメント指定、
                     指定             特定ジャンル購買者・見込者へのアプローチ
                                    特定ジャンル購買者・見込者へのアプローチ
                                      ジャンル購買者    への




                                        特定クラスタ会員へのアプローチ
                                        特定クラスタ会員へのアプローチ
                                          クラスタ会員への
 Rakuten
 Super DB



                                        特定サービス利用者へのアプローチ
                                        特定サービス利用者へのアプローチ
                                          サービス利用者への




                                                          25
スーパーDBの利用方法・効果
■パーソナライズ(バナー)
 パーソナライズ(バナー)
顧客をセグメント化し、適切なバナーを出し分け




                            ク
                        0.7%リ                                                                                            GORAリテンション
効果例:                    0.6%
                            ッ                                                                                            コントロールグループ
                            ク
ゴルフ予約サービスGORAの既存顧客の         率
                        0.5%
リテンションを目的とし、GORAを過去数ヶ   0.4%
月以内に利用したことがあるが、直近利      0.3%
用のないユーザにバナーを露出したところ、                                                                  大幅アップ
                                                                                       大幅アップ
                        0.2%
クリック率 数倍の効果!
クリック率で数倍の効果!            0.1%
                        0.0%
                                08/08/08




                                                                 08/08/11
                                                                            08/08/12
                                                                                        08/08/13
                                                                                                   08/08/14




                                                                                                                                    08/08/17
                                                                                                                                               08/08/18
                                                                                                                                                          08/08/19
                                                                                                                                                                     08/08/20
                                           08/08/09
                                                      08/08/10




                                                                                                              08/08/15
                                                                                                                         08/08/16
                                                                                                                                                                           26
スーパーDBの利用方法・効果
■BIツールの提供と利用促進
 BIツールの提供と
   ツール
SPDBの集約/分析データをBIツールで利用可能とすることで分析者を拡大
→BICCへの取り組みへ




                                       27
スーパーDBの利用方法・効果
■クロスユースの進展
 クロスユースの
スーパーDBを利用したパーソナライゼーション等によりクロスユースが増加




                        p
                     %U
                 7 .8




                                      28
For the future




                 29
SuperDB ☓ Hadoop Infrastructure

■SPDBとの連携について
 SPDBとの連携について
     との連携




                                            Rakuten
                                            Super DB




                        Member   Purchase     Card     Point   Service




                                                                         30
データの研究目的での提供
■アカデミックへの貢献
 アカデミックへの貢献
       への
楽天の様々なデータを大学、公的研究機関に公開

  楽天技術研究所-楽天データ公開
  http://rit.rakuten.co.jp/rdr/index.html
•楽天市場の全商品データ(約5000万商品)、レビューデータ(約1660万レビュー)
•楽天トラベルの施設データ(11,468施設)、レビューデータ(35万レビュー、34万評価)
•楽天GORAの施設データ(1,669施設)、レビューデータ(32万レビュー)

<商品データ>        <レビュー> 2011年追加!   <宿泊評価>     <ゴルフ場データ>




                                                        31
Thank You!

  If you like big data:
www.rakuten.co.jp/recruit
       for job info!        32

Más contenido relacionado

Destacado

Devsumi2012フィードバック オープニング
Devsumi2012フィードバック オープニングDevsumi2012フィードバック オープニング
Devsumi2012フィードバック オープニングRakuten Group, Inc.
 
楽天テクノロジーカンファレン2009 基調講演
楽天テクノロジーカンファレン2009 基調講演楽天テクノロジーカンファレン2009 基調講演
楽天テクノロジーカンファレン2009 基調講演Rakuten Group, Inc.
 
楽天WEB APIワークショップ@東工大
楽天WEB APIワークショップ@東工大楽天WEB APIワークショップ@東工大
楽天WEB APIワークショップ@東工大rakuten-webservice
 
楽天のアクセス解析とスマートフォンへの取組み マルチデバイス時代に向け、アクセス解析の可能性と課題を探る
楽天のアクセス解析とスマートフォンへの取組み マルチデバイス時代に向け、アクセス解析の可能性と課題を探る楽天のアクセス解析とスマートフォンへの取組み マルチデバイス時代に向け、アクセス解析の可能性と課題を探る
楽天のアクセス解析とスマートフォンへの取組み マルチデバイス時代に向け、アクセス解析の可能性と課題を探るMariko Nishimura
 
ROMA のアーキテクチャと社内事例
ROMA のアーキテクチャと社内事例ROMA のアーキテクチャと社内事例
ROMA のアーキテクチャと社内事例Rakuten Group, Inc.
 
楽天テクノロジーカンファレンス2016 の見どころ 日本語版
楽天テクノロジーカンファレンス2016 の見どころ 日本語版楽天テクノロジーカンファレンス2016 の見どころ 日本語版
楽天テクノロジーカンファレンス2016 の見どころ 日本語版Rakuten Group, Inc.
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworksKimihiko Kitase
 
楽天トラベルとSpring(Spring Day 2016)
楽天トラベルとSpring(Spring Day 2016)楽天トラベルとSpring(Spring Day 2016)
楽天トラベルとSpring(Spring Day 2016)Rakuten Group, Inc.
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-Makoto SHIMURA
 
楽天トラベルの開発プロセスに関して
楽天トラベルの開発プロセスに関して楽天トラベルの開発プロセスに関して
楽天トラベルの開発プロセスに関してRakuten Group, Inc.
 
エンジニアだけどもっとユーザーに価値を届けたいからスクラムマスター始めました
エンジニアだけどもっとユーザーに価値を届けたいからスクラムマスター始めましたエンジニアだけどもっとユーザーに価値を届けたいからスクラムマスター始めました
エンジニアだけどもっとユーザーに価値を届けたいからスクラムマスター始めましたYusuke Amano
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーションYuya Unno
 
DATA WAREHOUSING
DATA WAREHOUSINGDATA WAREHOUSING
DATA WAREHOUSINGKing Julian
 

Destacado (15)

Devsumi2012フィードバック オープニング
Devsumi2012フィードバック オープニングDevsumi2012フィードバック オープニング
Devsumi2012フィードバック オープニング
 
楽天テクノロジーカンファレン2009 基調講演
楽天テクノロジーカンファレン2009 基調講演楽天テクノロジーカンファレン2009 基調講演
楽天テクノロジーカンファレン2009 基調講演
 
楽天WEB APIワークショップ@東工大
楽天WEB APIワークショップ@東工大楽天WEB APIワークショップ@東工大
楽天WEB APIワークショップ@東工大
 
楽天のアクセス解析とスマートフォンへの取組み マルチデバイス時代に向け、アクセス解析の可能性と課題を探る
楽天のアクセス解析とスマートフォンへの取組み マルチデバイス時代に向け、アクセス解析の可能性と課題を探る楽天のアクセス解析とスマートフォンへの取組み マルチデバイス時代に向け、アクセス解析の可能性と課題を探る
楽天のアクセス解析とスマートフォンへの取組み マルチデバイス時代に向け、アクセス解析の可能性と課題を探る
 
ROMA のアーキテクチャと社内事例
ROMA のアーキテクチャと社内事例ROMA のアーキテクチャと社内事例
ROMA のアーキテクチャと社内事例
 
楽天テクノロジーカンファレンス2016 の見どころ 日本語版
楽天テクノロジーカンファレンス2016 の見どころ 日本語版楽天テクノロジーカンファレンス2016 の見どころ 日本語版
楽天テクノロジーカンファレンス2016 の見どころ 日本語版
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
 
Hiveを高速化するLLAP
Hiveを高速化するLLAPHiveを高速化するLLAP
Hiveを高速化するLLAP
 
楽天トラベルとSpring(Spring Day 2016)
楽天トラベルとSpring(Spring Day 2016)楽天トラベルとSpring(Spring Day 2016)
楽天トラベルとSpring(Spring Day 2016)
 
2014.04.03 楽天Koboのマーケティング戦略
2014.04.03 楽天Koboのマーケティング戦略2014.04.03 楽天Koboのマーケティング戦略
2014.04.03 楽天Koboのマーケティング戦略
 
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
 
楽天トラベルの開発プロセスに関して
楽天トラベルの開発プロセスに関して楽天トラベルの開発プロセスに関して
楽天トラベルの開発プロセスに関して
 
エンジニアだけどもっとユーザーに価値を届けたいからスクラムマスター始めました
エンジニアだけどもっとユーザーに価値を届けたいからスクラムマスター始めましたエンジニアだけどもっとユーザーに価値を届けたいからスクラムマスター始めました
エンジニアだけどもっとユーザーに価値を届けたいからスクラムマスター始めました
 
深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション深層学習による機械とのコミュニケーション
深層学習による機械とのコミュニケーション
 
DATA WAREHOUSING
DATA WAREHOUSINGDATA WAREHOUSING
DATA WAREHOUSING
 

Más de Rakuten Group, Inc.

コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話Rakuten Group, Inc.
 
楽天における安全な秘匿情報管理への道のり
楽天における安全な秘匿情報管理への道のり楽天における安全な秘匿情報管理への道のり
楽天における安全な秘匿情報管理への道のりRakuten Group, Inc.
 
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...Rakuten Group, Inc.
 
DataSkillCultureを浸透させる楽天の取り組み
DataSkillCultureを浸透させる楽天の取り組みDataSkillCultureを浸透させる楽天の取り組み
DataSkillCultureを浸透させる楽天の取り組みRakuten Group, Inc.
 
大規模なリアルタイム監視の導入と展開
大規模なリアルタイム監視の導入と展開大規模なリアルタイム監視の導入と展開
大規模なリアルタイム監視の導入と展開Rakuten Group, Inc.
 
楽天における大規模データベースの運用
楽天における大規模データベースの運用楽天における大規模データベースの運用
楽天における大規模データベースの運用Rakuten Group, Inc.
 
楽天サービスを支えるネットワークインフラストラクチャー
楽天サービスを支えるネットワークインフラストラクチャー楽天サービスを支えるネットワークインフラストラクチャー
楽天サービスを支えるネットワークインフラストラクチャーRakuten Group, Inc.
 
楽天の規模とクラウドプラットフォーム統括部の役割
楽天の規模とクラウドプラットフォーム統括部の役割楽天の規模とクラウドプラットフォーム統括部の役割
楽天の規模とクラウドプラットフォーム統括部の役割Rakuten Group, Inc.
 
Rakuten Services and Infrastructure Team.pdf
Rakuten Services and Infrastructure Team.pdfRakuten Services and Infrastructure Team.pdf
Rakuten Services and Infrastructure Team.pdfRakuten Group, Inc.
 
The Data Platform Administration Handling the 100 PB.pdf
The Data Platform Administration Handling the 100 PB.pdfThe Data Platform Administration Handling the 100 PB.pdf
The Data Platform Administration Handling the 100 PB.pdfRakuten Group, Inc.
 
Supporting Internal Customers as Technical Account Managers.pdf
Supporting Internal Customers as Technical Account Managers.pdfSupporting Internal Customers as Technical Account Managers.pdf
Supporting Internal Customers as Technical Account Managers.pdfRakuten Group, Inc.
 
Making Cloud Native CI_CD Services.pdf
Making Cloud Native CI_CD Services.pdfMaking Cloud Native CI_CD Services.pdf
Making Cloud Native CI_CD Services.pdfRakuten Group, Inc.
 
How We Defined Our Own Cloud.pdf
How We Defined Our Own Cloud.pdfHow We Defined Our Own Cloud.pdf
How We Defined Our Own Cloud.pdfRakuten Group, Inc.
 
Travel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech infoTravel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech infoRakuten Group, Inc.
 
Travel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech infoTravel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech infoRakuten Group, Inc.
 
Introduction of GORA API Group technology
Introduction of GORA API Group technologyIntroduction of GORA API Group technology
Introduction of GORA API Group technologyRakuten Group, Inc.
 
100PBを越えるデータプラットフォームの実情
100PBを越えるデータプラットフォームの実情100PBを越えるデータプラットフォームの実情
100PBを越えるデータプラットフォームの実情Rakuten Group, Inc.
 
社内エンジニアを支えるテクニカルアカウントマネージャー
社内エンジニアを支えるテクニカルアカウントマネージャー社内エンジニアを支えるテクニカルアカウントマネージャー
社内エンジニアを支えるテクニカルアカウントマネージャーRakuten Group, Inc.
 

Más de Rakuten Group, Inc. (20)

コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
 
楽天における安全な秘匿情報管理への道のり
楽天における安全な秘匿情報管理への道のり楽天における安全な秘匿情報管理への道のり
楽天における安全な秘匿情報管理への道のり
 
What Makes Software Green?
What Makes Software Green?What Makes Software Green?
What Makes Software Green?
 
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
Simple and Effective Knowledge-Driven Query Expansion for QA-Based Product At...
 
DataSkillCultureを浸透させる楽天の取り組み
DataSkillCultureを浸透させる楽天の取り組みDataSkillCultureを浸透させる楽天の取り組み
DataSkillCultureを浸透させる楽天の取り組み
 
大規模なリアルタイム監視の導入と展開
大規模なリアルタイム監視の導入と展開大規模なリアルタイム監視の導入と展開
大規模なリアルタイム監視の導入と展開
 
楽天における大規模データベースの運用
楽天における大規模データベースの運用楽天における大規模データベースの運用
楽天における大規模データベースの運用
 
楽天サービスを支えるネットワークインフラストラクチャー
楽天サービスを支えるネットワークインフラストラクチャー楽天サービスを支えるネットワークインフラストラクチャー
楽天サービスを支えるネットワークインフラストラクチャー
 
楽天の規模とクラウドプラットフォーム統括部の役割
楽天の規模とクラウドプラットフォーム統括部の役割楽天の規模とクラウドプラットフォーム統括部の役割
楽天の規模とクラウドプラットフォーム統括部の役割
 
Rakuten Services and Infrastructure Team.pdf
Rakuten Services and Infrastructure Team.pdfRakuten Services and Infrastructure Team.pdf
Rakuten Services and Infrastructure Team.pdf
 
The Data Platform Administration Handling the 100 PB.pdf
The Data Platform Administration Handling the 100 PB.pdfThe Data Platform Administration Handling the 100 PB.pdf
The Data Platform Administration Handling the 100 PB.pdf
 
Supporting Internal Customers as Technical Account Managers.pdf
Supporting Internal Customers as Technical Account Managers.pdfSupporting Internal Customers as Technical Account Managers.pdf
Supporting Internal Customers as Technical Account Managers.pdf
 
Making Cloud Native CI_CD Services.pdf
Making Cloud Native CI_CD Services.pdfMaking Cloud Native CI_CD Services.pdf
Making Cloud Native CI_CD Services.pdf
 
How We Defined Our Own Cloud.pdf
How We Defined Our Own Cloud.pdfHow We Defined Our Own Cloud.pdf
How We Defined Our Own Cloud.pdf
 
Travel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech infoTravel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech info
 
Travel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech infoTravel & Leisure Platform Department's tech info
Travel & Leisure Platform Department's tech info
 
OWASPTop10_Introduction
OWASPTop10_IntroductionOWASPTop10_Introduction
OWASPTop10_Introduction
 
Introduction of GORA API Group technology
Introduction of GORA API Group technologyIntroduction of GORA API Group technology
Introduction of GORA API Group technology
 
100PBを越えるデータプラットフォームの実情
100PBを越えるデータプラットフォームの実情100PBを越えるデータプラットフォームの実情
100PBを越えるデータプラットフォームの実情
 
社内エンジニアを支えるテクニカルアカウントマネージャー
社内エンジニアを支えるテクニカルアカウントマネージャー社内エンジニアを支えるテクニカルアカウントマネージャー
社内エンジニアを支えるテクニカルアカウントマネージャー
 

Último

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 

Último (9)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 

楽天におけるHadoop活用と、Big Dataのビジョン

  • 1. 楽天における 楽天におけるHadoop活用と、 における 活用と 活用 BigDataのビジョン の 楽 天 株 式 会 社 森 正 弥 1
  • 2. Introduction • 森 正弥 (もり まさや) まさや) • 楽天株式会社 執行役員 • 楽天技術研究所 所長 • 職掌 – 開発部署のマネジメント Masaya Mori – 研究開発の推進・統括 Twitter: @emasha 2
  • 6. 楽天経済圏 楽天スーパーポイント 楽天スーパーポイント 共通ID 共通ID ラクーポン 共通決済 6
  • 7. グループビジネスの拡大と国際展開 1997年 1997年 1998年 1998年 1999年 1999年 2000年 2000年 2001年 2001年 2002年 2002年 2003 2003年 2004 2004年 2005 2005年 2006 2006年 2007 2007年 2008 2008年 2009 2009年 2010年 2010年 2011年 2011年 11 7
  • 10. BigDataへの取組み ■楽天にあるBig Data 楽天にあるBig にある • 70,000,000+ 会員 • 85,000,000+ 商品情報 • 80,000,000+ 購買情報 • 68,000,000+ レビュー、口コミ レビュー、 • 3,000,000+ 1ヶ月あたりの宿泊情報 ヶ あたりの宿泊情報 • 30,000+ 市場出店店舗 • 60,000+ 登録ホテル 登録ホテル • 銀行、クレジットカード情報 銀行、クレジットカード情報 情報…. • 1日あたり数百ギガバイト以上のTransaction 日あたり数百ギガバイト以上 数百ギガバイト以上の DataやAccess Log • etc etc etc 上記は国内のみのデータ量 上記は国内のみのデータ量! のみのデータ 10
  • 11. Total size M on th -Y Ju ear – 2年で2倍 De n- 9 c 7 Ju - 97 De n- 9 c 8 Ju - 98 n De - 99 c Ju - 99 n Ja - 00 n Ju -0 0 n De - 01 c – 会員は1ヶ月で20万増える Ju - 01 De n- 0 c 2 データは指数関数的に増加 Ju - 02 De n- 0 c 3 レコード10億ごえDBなんてのも Ju - 03 De n- 0 c 4 Ju - 04 n De - 05 c Ju - 05 n De - 06 c Ju - 06 n De - 07 c Ju - 07 De n- 0 c 8 Big Data Problem in Rakuten Ju - 08 De n- 0 c 9 Ju - 09 2 years n De - 1 c- 0 10 x2 は一苦労 分析・利活用 11
  • 12. Hadoop 活用 ■楽天でのHadoop導入状況 楽天でのHadoop導入状況 でのHadoop • 商品ランキング • MD情報,注文情報分析 (楽天市場) (楽天市場) • ジャンルランキング • お勧め検索機能強化 (楽天市場) (楽天市場) • ログ分析 for • 次世代サーチ (楽天市場) • レコメンドエンジン パーソナライズ • ログデータ格納と分析 (楽天市場) • レコメンドエンジン (楽天市場) (楽天トラベル) 12
  • 13. レコメンドでの活用 レコメンドでの活用 での 2009年以来、全商品レコメンドにてHadoop活用 70台規模のクラスタで、商品間の類似度計算や購買データをかけ あわせた計算を実施 MyRakuten IchibaTOP - Recommend all item - Browsing-History × Recommend all item 購買データ・数億件 十数億GB 13
  • 14. ログ分析プラットフォーム: ログ分析プラットフォーム Mebius 分析プラットフォーム 様々なサービスのアクセスログ・検索ログを統合的に解析するプラットフォーム ユーザーの傾向分析をしたり、レコメンド・サービス改善に活用 user Services Rakuten Service Services Mebius Load, Transform, Classify tables Log Analysis Platform Various API Web UI Data Cooperate Ad Hoc Query Staff Rakuten APPs 14
  • 15. 楽天プロダクトランキング 楽天プロダクトランキング ■処理内容 ・ランキングデータ集計 サーチエンジン 購買履歴 製品マスタDB 製品マスタDB マスタ ・製品ページ用データ生成 ■データ量 データ量 製品名 製品コード 検索ワード 価格 売上件数 売上高 ・1日/1億レコード ・1日/300GB レビュー 商品件数 売上率 購買時間帯 スペック 発売日 ■M/R 処理時間 ・1時間半 ■ノード数 ノード数 ・70台 15
  • 16. 検索での関連語提示や辞書構築での活用 検索での関連語提示や辞書構築での活用 での関連語提示 での クラスターから検索解析用のHiveにつなげ 関連語の提示や辞書構築等での活用 月 250GBのデータを解析 suggest batch server Suggest Index sync analyzed update search index data Shared Hadoop Cluster NGS Hive dictionary batch 検索エンジン Server NGS common Dictionary platform for hive Index update search index 16
  • 17. 楽天トラベルでの活用 楽天トラベルでの活用 トラベルでの Access Logs 1 Hiveでデータのサマリー AccessLogを 2 を作成しDWHへ Hadoopクラスターへ 取り込む Rakuten Hadoop Cluster DWH ・・・・・ ・・・・・ ビジネス施策やランキング、 レコメンドへの応用 17
  • 18. Hadoop 活用 ■楽天でのHadoop導入状況 楽天でのHadoop導入状況 でのHadoop • 商品ランキング • MD情報,注文情報分析 (楽天市場) (楽天市場) • ジャンルランキング • お勧め検索機能強化 (楽天市場) (楽天市場) • ログ分析 for • 次世代サーチ (楽天市場) • レコメンドエンジン パーソナライズ • ログデータ格納と分析 (楽天市場) • レコメンドエンジン (楽天市場) (楽天トラベル) 18
  • 19. For BigData: Rakuten Super DB 19
  • 20. 全体像 会員属性 集約 加工・集計・分析 デモグラフィック 購入履歴 基本属性) (基本属性) ジオグラフィック アンケート Rakuten (地理情報) 地理情報) Super DB ビヘイビア カード情報 行動) (行動) スーパーポイント サイコグラフィック データ提供 データ提供 心理的属性) (心理的属性) アプリケーション 楽天クーポン ・パーソナライズ ・リコメンデーション ログイン ・行動ターゲティング広告 DB ファイル 外部データ ・営業支援 (Mosaic 等) ・・・・ 利用 20
  • 21. レコメンデーション技術の レコメンデーション技術の自社開発 技術 大量なデータをいかすレコメンドの自社開発 自社レコメンデーション エンジン開発 楽天 スーパーDB + レコメンデーション/パーソナライゼーションされたコンテンツ レコメンデーション/パーソナライゼーションされたコンテンツ された の提供により、購買転換率UP 提供により 購買転換率UP により、 21
  • 23. 【レコメンド・エンジン】 楽天グループへ横展開 レコメンド・エンジン】 楽天グループ グループへ 楽天市場 楽天レンタル 楽天レンタル 楽天ブックス 楽天ブックス 楽天ダウンロード 楽天ダウンロード 23
  • 24. レコメンデーションプラットフォーム TOHO サービス特性毎にレコメンドロジックをカスタマイズ可能な サービス特性毎にレコメンドロジックをカスタマイズ可能な、 特性毎 可能 TOHO 楽天経済圏の 楽天経済圏のレコメンデーションプラットフォーム スーパーDB スーパー レコメンデーション 各サービスでの サービスでの プラットフォーム レコメンド展開 レコメンド展開 商品・サービスDB 商品・サービスDB 顧客属性DB 顧客属性DB 【各種レコメンドロジック】 各種レコメンドロジック】 レコメンドロジック 協調フィルタリング 購買履歴DB 購買履歴DB リターゲティング バスケット 閲覧履歴DB 閲覧履歴DB グループ相関 コンテンツベース 各サービス サービス独自DB サービス独自DB 独自 24
  • 25. メール配信の最適化 ■メール配信エンジンシステム連携 メール配信エンジンシステム連携 配信エンジンシステム SPDBの集約/分析データをメール配信システムに自動連携 効果: メール配信システムからSPDBの属性をセグメント指定をすることで、 精度の高いパーソナライズの実現→効果的なメールプロモーションが可能となる。 セグメント指定、配信管理 セグメント指定、 指定 特定ジャンル購買者・見込者へのアプローチ 特定ジャンル購買者・見込者へのアプローチ ジャンル購買者 への 特定クラスタ会員へのアプローチ 特定クラスタ会員へのアプローチ クラスタ会員への Rakuten Super DB 特定サービス利用者へのアプローチ 特定サービス利用者へのアプローチ サービス利用者への 25
  • 26. スーパーDBの利用方法・効果 ■パーソナライズ(バナー) パーソナライズ(バナー) 顧客をセグメント化し、適切なバナーを出し分け ク 0.7%リ GORAリテンション 効果例: 0.6% ッ コントロールグループ ク ゴルフ予約サービスGORAの既存顧客の 率 0.5% リテンションを目的とし、GORAを過去数ヶ 0.4% 月以内に利用したことがあるが、直近利 0.3% 用のないユーザにバナーを露出したところ、 大幅アップ 大幅アップ 0.2% クリック率 数倍の効果! クリック率で数倍の効果! 0.1% 0.0% 08/08/08 08/08/11 08/08/12 08/08/13 08/08/14 08/08/17 08/08/18 08/08/19 08/08/20 08/08/09 08/08/10 08/08/15 08/08/16 26
  • 27. スーパーDBの利用方法・効果 ■BIツールの提供と利用促進 BIツールの提供と ツール SPDBの集約/分析データをBIツールで利用可能とすることで分析者を拡大 →BICCへの取り組みへ 27
  • 30. SuperDB ☓ Hadoop Infrastructure ■SPDBとの連携について SPDBとの連携について との連携 Rakuten Super DB Member Purchase Card Point Service 30
  • 31. データの研究目的での提供 ■アカデミックへの貢献 アカデミックへの貢献 への 楽天の様々なデータを大学、公的研究機関に公開 楽天技術研究所-楽天データ公開 http://rit.rakuten.co.jp/rdr/index.html •楽天市場の全商品データ(約5000万商品)、レビューデータ(約1660万レビュー) •楽天トラベルの施設データ(11,468施設)、レビューデータ(35万レビュー、34万評価) •楽天GORAの施設データ(1,669施設)、レビューデータ(32万レビュー) <商品データ> <レビュー> 2011年追加! <宿泊評価> <ゴルフ場データ> 31
  • 32. Thank You! If you like big data: www.rakuten.co.jp/recruit for job info! 32