SlideShare una empresa de Scribd logo
1 de 26
Descargar para leer sin conexión
ABSによる市場環境を考慮した
      協調フィルタリング手法の評価

            ○梅田 卓志, 小山友介, 出口弘
           東京工業大学大学院 知能システム科学専攻
              umeda07[At]cs.dis.titech.ac.jp



rrds2008                        http://degulab.cs.dis.titech.ac.jp/~umeda07/
発表の流れ

      1.   目的と方法論
      2.   モデル
      3.   シミュレーション設定と結果
      4.   結論と今後の課題
      5.   参考文献,QA等




                    2
rrds2008                http://degulab.cs.dis.titech.ac.jp/~umeda07/
1. 目的と方法論




                                                      3
rrds2008        http://degulab.cs.dis.titech.ac.jp/~umeda07/
1-1. 背景
                  日米のEC市場規模(兆円)
    180                                        E-Commerce市場規模が増加
                                   162         • 前年比21.7%増
    160                 148
            140
    140
    120                                  104
    100           92          95
                                               レコメンド機能を導入するサイトが
     80
     60                増加傾向                    増加
                                               • 特に協調フィルタリング手法
     40
     20
      0
             2005           2006    2007       カスタマイズの必要性
                                               • 個別の市場構造に応じたパラメータ設定が必須
                       日本     米国               • Cold-Start問題・Gray Sheep問題
           消費者行動, 商品の特徴 etc…


                                           4
rrds2008                                       http://degulab.cs.dis.titech.ac.jp/~umeda07/
1-2. 目的
           –   なぜ協調フィルタリング
               か?:
                •   最もポピュラー                  なぜ協調フィルタリング?
     協調フィルタリング手法に
                •   特にユーザベース手法            •最もポピュラー
                    に焦点
     ついて、ABS(Agent Based
       – なぜABSか?:                         • Amazonなど
          • 市場構造を考慮可能
      Simulation)手法を用い
       – 分析内容:
          • ネイバー数と市場構造
     て、市場構造を考慮した
            の関係
          • ネイバー数:パラメータ                             What’s ABS?
     評価&パラメータ調整を実
            の1つ
                                          • 自律的なエージェントを相互作用
                施                         させて何が生じるか調べる
                                          • 主体の異質性や相互作用がモ
                                          デル化可能
                                          • 今回は、レコメンドアルゴリズム+
                                          消費者行動に適用


      現場のwebシステム担当者が、レコメンド機能を導入す
       る際のパラメータ設定の指針になることを目指す

                                    5
rrds2008                                http://degulab.cs.dis.titech.ac.jp/~umeda07/
1-3. 方法論
                    方法論                               メリット


         協調               •ABS で              市場構造を考慮可能
       フィルタリング            モデル化            •   消費者行動・属性に応じた最
           既存のモデル         •レコメンド              適パラメータ
                          アルゴリズ           •   商品特性(人気度合など)に
                                              応じた分析
        市場構造              ム+仮想的
      (商品・消費者)            な消費者
                                              環境変化を考慮可能
                          を計算機            •   レコメンドによって消費者の
                          内に再現                嗜好が変化した場合
                                          •   新商品の随時追加
                                          •   ColdStart問題

           市場構造別に、協調フィル
                                                     容易性
           タリング手法の精度評価&                   •   事前にデータが無くても良い
           最適パラメータ探索                      •   様々な仮定をおいたWhat-If
                                              分析も可能


                               6
rrds2008                           http://degulab.cs.dis.titech.ac.jp/~umeda07/
1-5. 他の方法論との比較

              容易性       市場構造              環境変化


      クロス
    バリデーション    ○            ×                    ×



     被験者実験     ×            ○                    △



   提案する方法論                  ○




                    7
rrds2008                 http://degulab.cs.dis.titech.ac.jp/~umeda07/
※ 詳細は、配布資料をご覧ください。

    2. モデル




                                                               8
rrds2008                 http://degulab.cs.dis.titech.ac.jp/~umeda07/
2-1. モデルの全体像

                                   商品は、1カテゴリに分類される
            消費者   購入
  消費者
  モデル             推薦
•カテゴリに対す                            EC Site
 る選好を保持           購入            • 商品1(カテゴリ1)
           消費者                  • 商品2(カテゴリ2)
                  推薦            • 商品3(カテゴリ3)

                  購入

            消費者   推薦
                                               レコメンド
                                                モデル
                                          協調フィルタリング手法
                                           (ユーザベース手法 )

                       9
rrds2008                   http://degulab.cs.dis.titech.ac.jp/~umeda07/
2-2. 消費者モデル
                                                  購入決定基準
              購入決定確率           w1
                                      商品p が選好とマッチしているか

    [ある確率で]       未購入商         w2 商品p が直前にレコメンドされたか
     商品を購入        品pの重み
                               w3
                                             商品p の人気度合

                 未購入商品の「重み」から、購入商品を決定




    [毎期]               未購入商品の中から、1商品について、
  レコメンドされる                 レコメンドを受ける



                          10
rrds2008                            http://degulab.cs.dis.titech.ac.jp/~umeda07/
2-3. レコメンドモデル
                   商品1   商品2          ・・・         商品p
                                                                  コサイン
  1.       消費者1    1     0            ・・・         V1,p            距離w1,2
類似度の高      消費者2    0     1            ・・・         V2,p            を計算
い消費者を
 確定                                        ネイバー数
           自分と似た消費者のうち、上位何人
           消費者1と類似度が高い消費者= NE1 = { 消費者2, 消費者3,..}
               分を計算に用いるか
           消費者2と類似度が高い消費者= NE2 = { 消費者1, 消費者5,…}

   2.      消費者uの商品pに対する
各消費者に      「重み」を計算する                    消費者u,iのコサイン距離(類似度)
ついて、各未
購入商品の                                   消費者iが商品pを購入している場
重みを算出                                     合は1, 未購入の場合は0


   3.       「重み」が最大である商品をレコメンド
レコメンド商
 品の決定             自分と似た人が購入している商品を、レコメンドする

                             11
rrds2008                          http://degulab.cs.dis.titech.ac.jp/~umeda07/
2-4. 評価指標

                      分母の中で、消費者uの選好
   時刻tにおける消費者uの精度 =
                        とマッチしている商品
                       |レコメンドされた商品 |




           この値を、全消費者について平均した値を、
               時刻tにおける精度 とする




                      12
rrds2008                   http://degulab.cs.dis.titech.ac.jp/~umeda07/
ここからは、pptをご覧ください。配布資料とは内容が異なります。

    3. シミュレーション結果
       • 選好分布での比較
       • 購入決定基準での比較
       • 購入頻度での比較




                                                             13
rrds2008                http://degulab.cs.dis.titech.ac.jp/~umeda07/
3-1. シミュレーションの共通設定
            パラメータ名    パラメータ値
 共通         消費者数      1000人
            時間        50期
            カテゴリ数     10
                                                          23×14
            商品数       2000個
                                                          通りの
 シナリオ毎 購入決定基準         {選好重視,トレンド追随混入}                     シナリオ
 に設定   選好分布           {クラスタ型, ランダム型}
            購入頻度      {均質型, 異質型}
            ネイバー数     {5,15,25,25,45,…., 200}

           実験方法

   • 1シナリオ10回試行し、平均値を用いる
   • 様々な市場構造下で,ネイバー数を変化させた実験

                     14
rrds2008                   http://degulab.cs.dis.titech.ac.jp/~umeda07/
3-1. 選好分布の影響(1/2)
                                   問題意識

  •   消費者が複数のカテゴリを選好する場合,うまく消費者をクラスタリングできない
  •   Gray Sheep問題との関連


                                   実験設定

           パラメータ設定                            クラスタ型
      パラメータ名   パラメータ値                     1           2                3
      購入決定基準 選好重視型                            1             2               3
                                                  1             2               3
      選好分布     ・クラスタ型
               ・ランダム型
      購入頻度     均質型                            ランダム型
      ネイバー数    {5,15,25,…., 200}         1,2 1,3                2,3
                                           1,4        2,1             3,1

                                    15
rrds2008                                  http://degulab.cs.dis.titech.ac.jp/~umeda07/
3-2. 選好分布の影響(2/2)
             選好分布:クラスタ型                      選好分布:ランダム型                   ネイバー数
           0.9                            0.9                                     5
             ネイバー数が
           0.8                            0.8                                     15
           0.7尐ない場合                       0.7 ネイバー数が                              25
実          0.6                            0.6 尐ない場合                               35
                                                                                  45
験          0.5                            0.5
                                                                                  50
結          0.4                            0.4                                     75
果          0.3                            0.3                                     100
           0.2                            0.2                                     125
           0.1                            0.1                                     150
                                                                                  175
             0   10   20   30   40   50     0    10     20    30    40    50      200
                      時刻                                     時刻


      • 選好のクラスタ化の有無によらず、ネイバー数が尐ない場合に高い精度
考           Because:ネイバー数が増加することで、ノイズ(自分と異なる選好を持つ消費者
察           のデータ)を含んでしまう。
      • 選好のクラスタ化が緩む→ 精度が下がる
      •先行研究での同規模の交差検定の結果とも一致→モデルの妥当性
                                     16
rrds2008                                   http://degulab.cs.dis.titech.ac.jp/~umeda07/
3-3. 購入決定基準の影響(1/2)
                                   問題意識

  •    トレンド追随型消費者がレコメンドに与える影響は?
       – トレンド追随型消費者の影響で、自分の選好に従う消費者へのレコメンド精度が落ちる?
  •    具体例:音楽市場
       – 自分の趣味に忠実・ニッチ志向の消費者
       – とりあえずオリコン上位に出てきそうな楽曲をチェックする消費者


                                   実験設定

             パラメータ設定
                                    トレンド      •(w1, w2, w3) = ( 0.5, 0.1 , 0.4)
      パラメータ名    パラメータ値
                                    追随型       •流行に敏感な人
      購入決定基準    トレンド追随混入            30 %
      選好分布      ・クラスタ型
                ・ランダム型
                                   一般型        •(w1, w2, w3) = ( 0.9, 0.1 , 0.0)
      購入頻度      均質型
                                   70 %       •流行を気にしない人
      ネイバー数     {5,10,15,…., 70}

                                    17
rrds2008                                 http://degulab.cs.dis.titech.ac.jp/~umeda07/
3-3. 購入決定基準の影響(2/2)
             購入決定基準:トレンド追随混入                              購入決定基準:トレンド追随混入
             選好分布:クラスタ型                                   選好分布:ランダム型
       0.7                                     0.7                              ネイバー数
実                                                                                       5
験      0.5                                     0.5                                      15
結                                                                                       25
果      0.3                                     0.3                                      35

       0.1                                     0.1                                      45

             0   10   20   30   40   50               0    10   20    30   40   50
                           時刻                                        時刻




      • 精度が下がる
考            – 最適なネイバー数の場合における精度が大幅に減尐
察            – Because:トレンド追随型の消費者が、一般の消費者が類似度の
              ミーハーが多いと、趣味のあうひとを見つけるのが困難になる
               高い消費者を見つけるにあたって、障害になる

                                          18
rrds2008                                             http://degulab.cs.dis.titech.ac.jp/~umeda07/
3-5. 購入頻度の影響(1/3)
                                   問題意識

  •    購入頻度の異質性がレコメンドにあたえる影響は?
       – 消費者の購入頻度によって、最適なパラメータは異なってくる?
  •    「尐しの優良顧客」と「大量の非優良顧客」が混在する環境
       – 優良顧客の選好の影響をつよく受け、非優良顧客に対するレコメンド精度が下がる?



                                   実験設定

             パラメータ設定
      パラメータ名    パラメータ値              優良          •購入決定確率 = 0.8
      購入決定基準    選好重視型               20 %        • よくものを買う人
      選好分布      ・クラスタ型
                ・ランダム型
      購入頻度      異質型
                                   非優良          •購入決定確率 = 0.2
                                                •ふつうの人
      ネイバー数     {5,10,15,…., 70}   80 %
                                    19
rrds2008                                   http://degulab.cs.dis.titech.ac.jp/~umeda07/
3-5. 購入頻度の影響(2/3)
                                購入頻度:異質型/選好分布:クラスタ型
                 0.8                                            0.8
                 0.7                                            0.7




                                                     非優良顧客の精度
                                                                                                   ネイバー数
       優良顧客の精度


                 0.6                                            0.6
                 0.5                                            0.5                                  5
実
                 0.4                                            0.4                                  15
験
結                0.3                                            0.3                                  25
果                0.2                                            0.2                                  35
                 0.1                                            0.1                                  45
                  0                                              0
                       0   10   20   30   40   50                     0   10   20   30   40   50
                                時刻                                             時刻


       •         購入頻度が異質かつ選好分布がクラスタ型の場合:初期はネイバー数が
                 大きい方が良い
考                  Because:初期のデータがスパースな環境では、非優良顧客に対するレコメンドは、
察                   一部の優良顧客の選好に引っ張られてしまう。逆に優良顧客に対するレコメンドは、
                    大量の非優良顧客との選好類似度を誤って認識する可能性がある。したがい、や
                    や多めのネイバー数を確保したほうがよいのでは?
       •         購入頻度:均質の場合と比較し、精度が低め
                                                    20
rrds2008                                                         http://degulab.cs.dis.titech.ac.jp/~umeda07/
3-5. 購入頻度の影響(3/3)
                              購入頻度:異質型/選好分布:ランダム型
               0.6                                           0.6
                                                                                                ネイバー数




                                                  非優良顧客の精度
               0.5                                           0.5
     優良顧客の精度




                                                             0.4                                  5
実              0.4
験                                                                                                 15
               0.3                                           0.3
結                                                                                                 35
果              0.2                                           0.2                                  45

               0.1                                           0.1
                     0   10   20   30   40   50                    0   10   20   30   40   50
                              時刻                                            時刻


        • 購入頻度が異質かつ選好分布がランダム型の場合:ネイ
          バー数が尐ない方が良い
考
察                     Because:クラスタ型の場合と比較し、自分と同じ選好を保持す
                       る消費者が尐ないため
        • 精度が低め
                                             21
rrds2008                                                     http://degulab.cs.dis.titech.ac.jp/~umeda07/
4. 結論と今後の課題




                                                   22
rrds2008      http://degulab.cs.dis.titech.ac.jp/~umeda07/
4-1. 結論
       •ABSによる市場構造を考慮したレコメンドのパラメータ
       設定方法を提案
       •市場構造により、 精度が下がる場合がある
       •市場構造に応じた協調フィルタリングのパラメータ調
       整を実施し、特異なケースをあきらかにした
           基本的にネイバー数は小さな値の方が良いが、市場構造
           や時期によっては異なる場合がある(下記は相対的な結果)
       市場構造     時期       選好分布        精度              ネイバー数
       通常時                           高               尐
       優良顧客,非   システム導    クラスタ型       低               多
       優良顧客が    入時       ランダム型                       尐
       存在(クラス
       タ型)      一定期間以    クラスタ型
                降        ランダム型
       トレンド追随   システム導
       型消費者が    入時                   低
       存在       一定期間以
                降
                           23
rrds2008                         http://degulab.cs.dis.titech.ac.jp/~umeda07/
4-2. 今後の課題
  • より詳細な原因の分析
      – 今回の「特異なケース」について原因を、ミクロレベルで考える
        必要性
  • 人数・商品数に対する感度分析
      – 人数によって結果が異なる場合がある
      – 人数や商品数の結果への影響を明確化した上で、今回のよう
        な実験を評価すべき
  • 他の評価指標の利用
      – 運営者サイドからみた指標
      – 商品の多様性
  • 計算を減らした場合の影響
  • リアルな市場構造の再現
  • 他手法の評価
      – アイテムベース手法等、別の方法での分析


                       24
rrds2008                    http://degulab.cs.dis.titech.ac.jp/~umeda07/
主たる参考文献
  1.   経済産業省,「平成19年度我が国のIT利活用に関する調査研究」(電子商取引に関する市場
       調査),2008年
  2.   Resnick,M.,Iacovou,N.,Suchak,M.,Bergstorm,P. and Riedl,J.1994 GroupLens: an open
       architechture for collaborative filtering of netnews. In Proc.9th ACM Conf.on Computer-Supported
       Cooperative Work,pp.175-186,NewYork;ACM Press
  3.   Breese,J.S.,Heckerman,D.and Kadie,C. 1998 Empirical analysis of predictive algorithms for
       collaborative filtering. In Proc. 14th Conf. on Uncertainty in Artificial Intelligence, pp 43-52, San
       Francisco, CA:Morgan Kaufman
  4.   K. Goldberg et al.,”Eigentaste: A Consant Time Collaborative Filtering Algorithm,”Information
       Retrieval J.,vol. 4, no.2,July 2001,pp 133-151.
  5.   Linden,G., Smith,B.,and York,J : Amazon.com recommendations: Item-to-Item collaborative
       filtering, IEEE Internet Computing,Vol.4,No.1 (2003)
  6.   Sarwar,B.,Karypis ,G.,Konstan.J. and Riedl,J.:Item-based collaborative filtering recommendation
       algorithms, Proc.of the 10th International World Wide Web Conference(2001)
  7.   Zhang,T. and Iyengar, V.S.2002 Recommender Systems using linear classifiers. J.Machine Learn.
       Res.2, pp.313-334
  8.    清水拓也, 土方嘉徳, 西田正吾,”発見性を考慮した協調フィルタリングアルゴリズムに関する複
       数方式の検討”,DEWS2007
  9.    Herlocker,J.,Konstan,J., Terveen,L., and Riedl,J.: Evaluating collaborative filtering recommender
       systems, ACM Transacions on Information Systems, Vol.22, No.1, pp.5-53(2004)




                                                    25
rrds2008                                                   http://degulab.cs.dis.titech.ac.jp/~umeda07/
ご静聴、ありがとうございました。
    • 現場での意見を参考にしたいと考えています。
    • 研究の進捗は、研究室内ウェブサイトにて随時公開しております。是
    非、ご意見・ご感想等おきかせいただければ幸いです。
    • 興味のある方は、ぜひご連絡ください。また、会場でもお気軽にお声
    をかけていただければ幸いです。
    • Mail: umekoumeda@gmail.com




                                                           26
rrds2008              http://degulab.cs.dis.titech.ac.jp/~umeda07/

Más contenido relacionado

La actualidad más candente

Using morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic researchUsing morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic research
Yoichiro Hasebe
 
CEO-017-領導力21法則Ok
CEO-017-領導力21法則OkCEO-017-領導力21法則Ok
CEO-017-領導力21法則Ok
handbook
 
CRE-004-引領企業創新
CRE-004-引領企業創新CRE-004-引領企業創新
CRE-004-引領企業創新
handbook
 
廢水處理專責人員訓練簡章
廢水處理專責人員訓練簡章廢水處理專責人員訓練簡章
廢水處理專責人員訓練簡章
5045033
 
IE-036-豐田生產方式
IE-036-豐田生產方式IE-036-豐田生產方式
IE-036-豐田生產方式
handbook
 
HR-002-土地管理學系職涯路徑圖
HR-002-土地管理學系職涯路徑圖HR-002-土地管理學系職涯路徑圖
HR-002-土地管理學系職涯路徑圖
handbook
 
Hr 002 土地管理學系職涯路徑圖
Hr 002 土地管理學系職涯路徑圖Hr 002 土地管理學系職涯路徑圖
Hr 002 土地管理學系職涯路徑圖
handbook
 
PMT-005-生產作業管理 製程選擇與設施佈置
PMT-005-生產作業管理 製程選擇與設施佈置PMT-005-生產作業管理 製程選擇與設施佈置
PMT-005-生產作業管理 製程選擇與設施佈置
handbook
 
數位城邦計畫2006
數位城邦計畫2006數位城邦計畫2006
數位城邦計畫2006
Alex Lee
 
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
handbook
 
PMT-012-總合生產計劃
PMT-012-總合生產計劃PMT-012-總合生產計劃
PMT-012-總合生產計劃
handbook
 
CEO-033-平衡計分卡與策略地圖
CEO-033-平衡計分卡與策略地圖CEO-033-平衡計分卡與策略地圖
CEO-033-平衡計分卡與策略地圖
handbook
 
PMT-013-總合生產計劃
PMT-013-總合生產計劃PMT-013-總合生產計劃
PMT-013-總合生產計劃
handbook
 

La actualidad más candente (20)

PFI会社案内
PFI会社案内PFI会社案内
PFI会社案内
 
Cellphone Wallet Service Trends in Japan
Cellphone Wallet Service Trends in JapanCellphone Wallet Service Trends in Japan
Cellphone Wallet Service Trends in Japan
 
Using morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic researchUsing morphological n-gram and regex for linguistic research
Using morphological n-gram and regex for linguistic research
 
enNetforum Wakamatsu Presentation
enNetforum Wakamatsu PresentationenNetforum Wakamatsu Presentation
enNetforum Wakamatsu Presentation
 
enNetforum Fukuoka Panelist
enNetforum Fukuoka PanelistenNetforum Fukuoka Panelist
enNetforum Fukuoka Panelist
 
CEO-017-領導力21法則Ok
CEO-017-領導力21法則OkCEO-017-領導力21法則Ok
CEO-017-領導力21法則Ok
 
CRE-004-引領企業創新
CRE-004-引領企業創新CRE-004-引領企業創新
CRE-004-引領企業創新
 
廢水處理專責人員訓練簡章
廢水處理專責人員訓練簡章廢水處理專責人員訓練簡章
廢水處理專責人員訓練簡章
 
IE-036-豐田生產方式
IE-036-豐田生產方式IE-036-豐田生產方式
IE-036-豐田生產方式
 
HR-002-土地管理學系職涯路徑圖
HR-002-土地管理學系職涯路徑圖HR-002-土地管理學系職涯路徑圖
HR-002-土地管理學系職涯路徑圖
 
Hr 002 土地管理學系職涯路徑圖
Hr 002 土地管理學系職涯路徑圖Hr 002 土地管理學系職涯路徑圖
Hr 002 土地管理學系職涯路徑圖
 
株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北株式会社 花みずき工房 きらりタウン浜北
株式会社 花みずき工房 きらりタウン浜北
 
PMT-005-生產作業管理 製程選擇與設施佈置
PMT-005-生產作業管理 製程選擇與設施佈置PMT-005-生產作業管理 製程選擇與設施佈置
PMT-005-生產作業管理 製程選擇與設施佈置
 
數位城邦計畫2006
數位城邦計畫2006數位城邦計畫2006
數位城邦計畫2006
 
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
CEO-032-平衡計分卡概念與實務簡述(鴻海案例)
 
Okayama_1
Okayama_1Okayama_1
Okayama_1
 
PMT-012-總合生產計劃
PMT-012-總合生產計劃PMT-012-總合生產計劃
PMT-012-總合生產計劃
 
CEO-033-平衡計分卡與策略地圖
CEO-033-平衡計分卡與策略地圖CEO-033-平衡計分卡與策略地圖
CEO-033-平衡計分卡與策略地圖
 
台灣經濟新藍圖系列之二 - 產業再造及全球連結
台灣經濟新藍圖系列之二 - 產業再造及全球連結台灣經濟新藍圖系列之二 - 產業再造及全球連結
台灣經濟新藍圖系列之二 - 產業再造及全球連結
 
PMT-013-總合生產計劃
PMT-013-總合生產計劃PMT-013-總合生產計劃
PMT-013-總合生產計劃
 

Más de umekoumeda (6)

Video Recommender in Viki (VikiでのVideoレコメンド事例)
Video Recommender in Viki (VikiでのVideoレコメンド事例)Video Recommender in Viki (VikiでのVideoレコメンド事例)
Video Recommender in Viki (VikiでのVideoレコメンド事例)
 
Self Introduction
Self IntroductionSelf Introduction
Self Introduction
 
Jaws2008 Presen2
Jaws2008 Presen2Jaws2008 Presen2
Jaws2008 Presen2
 
Summerseminar 2007
Summerseminar 2007Summerseminar 2007
Summerseminar 2007
 
夏ゼミプレゼン 4xp
夏ゼミプレゼン 4xp夏ゼミプレゼン 4xp
夏ゼミプレゼン 4xp
 
夏ゼミプレゼン 4xp
夏ゼミプレゼン 4xp夏ゼミプレゼン 4xp
夏ゼミプレゼン 4xp
 

rrds08

  • 1. ABSによる市場環境を考慮した 協調フィルタリング手法の評価 ○梅田 卓志, 小山友介, 出口弘 東京工業大学大学院 知能システム科学専攻 umeda07[At]cs.dis.titech.ac.jp rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 2. 発表の流れ 1. 目的と方法論 2. モデル 3. シミュレーション設定と結果 4. 結論と今後の課題 5. 参考文献,QA等 2 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 3. 1. 目的と方法論 3 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 4. 1-1. 背景 日米のEC市場規模(兆円) 180 E-Commerce市場規模が増加 162 • 前年比21.7%増 160 148 140 140 120 104 100 92 95 レコメンド機能を導入するサイトが 80 60 増加傾向 増加 • 特に協調フィルタリング手法 40 20 0 2005 2006 2007 カスタマイズの必要性 • 個別の市場構造に応じたパラメータ設定が必須 日本 米国 • Cold-Start問題・Gray Sheep問題 消費者行動, 商品の特徴 etc… 4 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 5. 1-2. 目的 – なぜ協調フィルタリング か?: • 最もポピュラー なぜ協調フィルタリング? 協調フィルタリング手法に • 特にユーザベース手法 •最もポピュラー に焦点 ついて、ABS(Agent Based – なぜABSか?: • Amazonなど • 市場構造を考慮可能 Simulation)手法を用い – 分析内容: • ネイバー数と市場構造 て、市場構造を考慮した の関係 • ネイバー数:パラメータ What’s ABS? 評価&パラメータ調整を実 の1つ • 自律的なエージェントを相互作用 施 させて何が生じるか調べる • 主体の異質性や相互作用がモ デル化可能 • 今回は、レコメンドアルゴリズム+ 消費者行動に適用 現場のwebシステム担当者が、レコメンド機能を導入す る際のパラメータ設定の指針になることを目指す 5 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 6. 1-3. 方法論 方法論 メリット 協調 •ABS で 市場構造を考慮可能 フィルタリング モデル化 • 消費者行動・属性に応じた最 既存のモデル •レコメンド 適パラメータ アルゴリズ • 商品特性(人気度合など)に 応じた分析 市場構造 ム+仮想的 (商品・消費者) な消費者 環境変化を考慮可能 を計算機 • レコメンドによって消費者の 内に再現 嗜好が変化した場合 • 新商品の随時追加 • ColdStart問題 市場構造別に、協調フィル 容易性 タリング手法の精度評価& • 事前にデータが無くても良い 最適パラメータ探索 • 様々な仮定をおいたWhat-If 分析も可能 6 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 7. 1-5. 他の方法論との比較 容易性 市場構造 環境変化 クロス バリデーション ○ × × 被験者実験 × ○ △ 提案する方法論 ○ 7 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 8. ※ 詳細は、配布資料をご覧ください。 2. モデル 8 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 9. 2-1. モデルの全体像 商品は、1カテゴリに分類される 消費者 購入 消費者 モデル 推薦 •カテゴリに対す EC Site る選好を保持 購入 • 商品1(カテゴリ1) 消費者 • 商品2(カテゴリ2) 推薦 • 商品3(カテゴリ3) 購入 消費者 推薦 レコメンド モデル 協調フィルタリング手法 (ユーザベース手法 ) 9 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 10. 2-2. 消費者モデル 購入決定基準 購入決定確率 w1 商品p が選好とマッチしているか [ある確率で] 未購入商 w2 商品p が直前にレコメンドされたか 商品を購入 品pの重み w3 商品p の人気度合 未購入商品の「重み」から、購入商品を決定 [毎期] 未購入商品の中から、1商品について、 レコメンドされる レコメンドを受ける 10 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 11. 2-3. レコメンドモデル 商品1 商品2 ・・・ 商品p コサイン 1. 消費者1 1 0 ・・・ V1,p 距離w1,2 類似度の高 消費者2 0 1 ・・・ V2,p を計算 い消費者を 確定 ネイバー数 自分と似た消費者のうち、上位何人 消費者1と類似度が高い消費者= NE1 = { 消費者2, 消費者3,..} 分を計算に用いるか 消費者2と類似度が高い消費者= NE2 = { 消費者1, 消費者5,…} 2. 消費者uの商品pに対する 各消費者に 「重み」を計算する 消費者u,iのコサイン距離(類似度) ついて、各未 購入商品の 消費者iが商品pを購入している場 重みを算出 合は1, 未購入の場合は0 3. 「重み」が最大である商品をレコメンド レコメンド商 品の決定 自分と似た人が購入している商品を、レコメンドする 11 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 12. 2-4. 評価指標 分母の中で、消費者uの選好 時刻tにおける消費者uの精度 = とマッチしている商品 |レコメンドされた商品 | この値を、全消費者について平均した値を、 時刻tにおける精度 とする 12 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 13. ここからは、pptをご覧ください。配布資料とは内容が異なります。 3. シミュレーション結果 • 選好分布での比較 • 購入決定基準での比較 • 購入頻度での比較 13 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 14. 3-1. シミュレーションの共通設定 パラメータ名 パラメータ値 共通 消費者数 1000人 時間 50期 カテゴリ数 10 23×14 商品数 2000個 通りの シナリオ毎 購入決定基準 {選好重視,トレンド追随混入} シナリオ に設定 選好分布 {クラスタ型, ランダム型} 購入頻度 {均質型, 異質型} ネイバー数 {5,15,25,25,45,…., 200} 実験方法 • 1シナリオ10回試行し、平均値を用いる • 様々な市場構造下で,ネイバー数を変化させた実験 14 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 15. 3-1. 選好分布の影響(1/2) 問題意識 • 消費者が複数のカテゴリを選好する場合,うまく消費者をクラスタリングできない • Gray Sheep問題との関連 実験設定 パラメータ設定 クラスタ型 パラメータ名 パラメータ値 1 2 3 購入決定基準 選好重視型 1 2 3 1 2 3 選好分布 ・クラスタ型 ・ランダム型 購入頻度 均質型 ランダム型 ネイバー数 {5,15,25,…., 200} 1,2 1,3 2,3 1,4 2,1 3,1 15 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 16. 3-2. 選好分布の影響(2/2) 選好分布:クラスタ型 選好分布:ランダム型 ネイバー数 0.9 0.9 5 ネイバー数が 0.8 0.8 15 0.7尐ない場合 0.7 ネイバー数が 25 実 0.6 0.6 尐ない場合 35 45 験 0.5 0.5 50 結 0.4 0.4 75 果 0.3 0.3 100 0.2 0.2 125 0.1 0.1 150 175 0 10 20 30 40 50 0 10 20 30 40 50 200 時刻 時刻 • 選好のクラスタ化の有無によらず、ネイバー数が尐ない場合に高い精度 考 Because:ネイバー数が増加することで、ノイズ(自分と異なる選好を持つ消費者 察 のデータ)を含んでしまう。 • 選好のクラスタ化が緩む→ 精度が下がる •先行研究での同規模の交差検定の結果とも一致→モデルの妥当性 16 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 17. 3-3. 購入決定基準の影響(1/2) 問題意識 • トレンド追随型消費者がレコメンドに与える影響は? – トレンド追随型消費者の影響で、自分の選好に従う消費者へのレコメンド精度が落ちる? • 具体例:音楽市場 – 自分の趣味に忠実・ニッチ志向の消費者 – とりあえずオリコン上位に出てきそうな楽曲をチェックする消費者 実験設定 パラメータ設定 トレンド •(w1, w2, w3) = ( 0.5, 0.1 , 0.4) パラメータ名 パラメータ値 追随型 •流行に敏感な人 購入決定基準 トレンド追随混入 30 % 選好分布 ・クラスタ型 ・ランダム型 一般型 •(w1, w2, w3) = ( 0.9, 0.1 , 0.0) 購入頻度 均質型 70 % •流行を気にしない人 ネイバー数 {5,10,15,…., 70} 17 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 18. 3-3. 購入決定基準の影響(2/2) 購入決定基準:トレンド追随混入 購入決定基準:トレンド追随混入 選好分布:クラスタ型 選好分布:ランダム型 0.7 0.7 ネイバー数 実 5 験 0.5 0.5 15 結 25 果 0.3 0.3 35 0.1 0.1 45 0 10 20 30 40 50 0 10 20 30 40 50 時刻 時刻 • 精度が下がる 考 – 最適なネイバー数の場合における精度が大幅に減尐 察 – Because:トレンド追随型の消費者が、一般の消費者が類似度の ミーハーが多いと、趣味のあうひとを見つけるのが困難になる 高い消費者を見つけるにあたって、障害になる 18 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 19. 3-5. 購入頻度の影響(1/3) 問題意識 • 購入頻度の異質性がレコメンドにあたえる影響は? – 消費者の購入頻度によって、最適なパラメータは異なってくる? • 「尐しの優良顧客」と「大量の非優良顧客」が混在する環境 – 優良顧客の選好の影響をつよく受け、非優良顧客に対するレコメンド精度が下がる? 実験設定 パラメータ設定 パラメータ名 パラメータ値 優良 •購入決定確率 = 0.8 購入決定基準 選好重視型 20 % • よくものを買う人 選好分布 ・クラスタ型 ・ランダム型 購入頻度 異質型 非優良 •購入決定確率 = 0.2 •ふつうの人 ネイバー数 {5,10,15,…., 70} 80 % 19 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 20. 3-5. 購入頻度の影響(2/3) 購入頻度:異質型/選好分布:クラスタ型 0.8 0.8 0.7 0.7 非優良顧客の精度 ネイバー数 優良顧客の精度 0.6 0.6 0.5 0.5 5 実 0.4 0.4 15 験 結 0.3 0.3 25 果 0.2 0.2 35 0.1 0.1 45 0 0 0 10 20 30 40 50 0 10 20 30 40 50 時刻 時刻 • 購入頻度が異質かつ選好分布がクラスタ型の場合:初期はネイバー数が 大きい方が良い 考  Because:初期のデータがスパースな環境では、非優良顧客に対するレコメンドは、 察 一部の優良顧客の選好に引っ張られてしまう。逆に優良顧客に対するレコメンドは、 大量の非優良顧客との選好類似度を誤って認識する可能性がある。したがい、や や多めのネイバー数を確保したほうがよいのでは? • 購入頻度:均質の場合と比較し、精度が低め 20 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 21. 3-5. 購入頻度の影響(3/3) 購入頻度:異質型/選好分布:ランダム型 0.6 0.6 ネイバー数 非優良顧客の精度 0.5 0.5 優良顧客の精度 0.4 5 実 0.4 験 15 0.3 0.3 結 35 果 0.2 0.2 45 0.1 0.1 0 10 20 30 40 50 0 10 20 30 40 50 時刻 時刻 • 購入頻度が異質かつ選好分布がランダム型の場合:ネイ バー数が尐ない方が良い 考 察  Because:クラスタ型の場合と比較し、自分と同じ選好を保持す る消費者が尐ないため • 精度が低め 21 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 22. 4. 結論と今後の課題 22 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 23. 4-1. 結論 •ABSによる市場構造を考慮したレコメンドのパラメータ 設定方法を提案 •市場構造により、 精度が下がる場合がある •市場構造に応じた協調フィルタリングのパラメータ調 整を実施し、特異なケースをあきらかにした 基本的にネイバー数は小さな値の方が良いが、市場構造 や時期によっては異なる場合がある(下記は相対的な結果) 市場構造 時期 選好分布 精度 ネイバー数 通常時 高 尐 優良顧客,非 システム導 クラスタ型 低 多 優良顧客が 入時 ランダム型 尐 存在(クラス タ型) 一定期間以 クラスタ型 降 ランダム型 トレンド追随 システム導 型消費者が 入時 低 存在 一定期間以 降 23 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 24. 4-2. 今後の課題 • より詳細な原因の分析 – 今回の「特異なケース」について原因を、ミクロレベルで考える 必要性 • 人数・商品数に対する感度分析 – 人数によって結果が異なる場合がある – 人数や商品数の結果への影響を明確化した上で、今回のよう な実験を評価すべき • 他の評価指標の利用 – 運営者サイドからみた指標 – 商品の多様性 • 計算を減らした場合の影響 • リアルな市場構造の再現 • 他手法の評価 – アイテムベース手法等、別の方法での分析 24 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 25. 主たる参考文献 1. 経済産業省,「平成19年度我が国のIT利活用に関する調査研究」(電子商取引に関する市場 調査),2008年 2. Resnick,M.,Iacovou,N.,Suchak,M.,Bergstorm,P. and Riedl,J.1994 GroupLens: an open architechture for collaborative filtering of netnews. In Proc.9th ACM Conf.on Computer-Supported Cooperative Work,pp.175-186,NewYork;ACM Press 3. Breese,J.S.,Heckerman,D.and Kadie,C. 1998 Empirical analysis of predictive algorithms for collaborative filtering. In Proc. 14th Conf. on Uncertainty in Artificial Intelligence, pp 43-52, San Francisco, CA:Morgan Kaufman 4. K. Goldberg et al.,”Eigentaste: A Consant Time Collaborative Filtering Algorithm,”Information Retrieval J.,vol. 4, no.2,July 2001,pp 133-151. 5. Linden,G., Smith,B.,and York,J : Amazon.com recommendations: Item-to-Item collaborative filtering, IEEE Internet Computing,Vol.4,No.1 (2003) 6. Sarwar,B.,Karypis ,G.,Konstan.J. and Riedl,J.:Item-based collaborative filtering recommendation algorithms, Proc.of the 10th International World Wide Web Conference(2001) 7. Zhang,T. and Iyengar, V.S.2002 Recommender Systems using linear classifiers. J.Machine Learn. Res.2, pp.313-334 8. 清水拓也, 土方嘉徳, 西田正吾,”発見性を考慮した協調フィルタリングアルゴリズムに関する複 数方式の検討”,DEWS2007 9. Herlocker,J.,Konstan,J., Terveen,L., and Riedl,J.: Evaluating collaborative filtering recommender systems, ACM Transacions on Information Systems, Vol.22, No.1, pp.5-53(2004) 25 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/
  • 26. ご静聴、ありがとうございました。 • 現場での意見を参考にしたいと考えています。 • 研究の進捗は、研究室内ウェブサイトにて随時公開しております。是 非、ご意見・ご感想等おきかせいただければ幸いです。 • 興味のある方は、ぜひご連絡ください。また、会場でもお気軽にお声 をかけていただければ幸いです。 • Mail: umekoumeda@gmail.com 26 rrds2008 http://degulab.cs.dis.titech.ac.jp/~umeda07/