KDD2014_study

Modeling delayed feedback in display advertising @KDD 2014勉強会
坪坂正志
m.tsubosaka@gmail.com
2014/9/23
KDD 2014勉強会
1

今日紹介する論文
•Modeling delayed feedback in display advertising
–Olivier Chapelle (Criteo)
•ディスプレイ広告において広告を表示した時のコンバージョン率を予測する
•ログから学習を行おうとするときにコンバージョンの発生には遅れが生じるため実際は正例なのに負例として扱ってしまうという問題が発生する
•このため時間遅れをモデル化したコンバージョン予測モデルを提案する
KDD 2014勉強会
2

CPA payment modelとコンバージョン率の予測
•広告配信業者は広告主からは1回のコンバージョンにつきいくらという契約で行う
•一方媒体の方に広告を出す際には1インプレッションいくらかという契約で行う
•このため1インプレッションをいくらで買うかを決めるためには1インプレッションあたりの広告主からもらえる金額の期待値を計算する必要がある
•その期待値は次の式で計算できる
–eCPM = CPA × P(click) × P(conversion | click)
–P(conversion | click)をモデル化するのが今回の論文のメインテーマ
KDD 2014勉強会
3
広告主
媒体
インプレッションいくらで買い取り
クリック/コンバージョン一回につき課金

コンバージョン予測における課題
•クリック予測においては通常ユーザはインプレッションの後すぐに広告をクリックするかクリックしないかのどちらかである
–このためクリック予測の問題においては通常の回帰問題として扱える
–難しさとしてはインプレッションは一日数十億と膨大でスケールする機械学習のロジックをいかに作るかが重要となってくる
•コンバージョン予測についてはユーザは広告をクリックしてもすぐにコンバージョンするわけではないので通常の回帰問題として定式化することができない
–一方データ数はユーザのクリック数はそこまで多くないのでデータの数はそこまでもない
KDD 2014勉強会
4

遅れが発生する場合の問題点
•通常のデータを扱うようにクリック後コンバージョンしているデータを正例として、していないデータを負例とすると学習期間中にコンバージョンしていないデータが本当は正例なのに負例として扱われる
KDD 2014勉強会
5
学習期間
click
click
click
conv
conv
学習期間中にコンバージョンしなかったので負例として扱われる
コンバージョンしてるので正例として扱う
コンバージョンしてないので負例として扱う

遅れが発生する場合の問題点
•先行研究としてはランダムにラベルが欠損するという問題設定はいくつか存在する
•しかし時間遅れが発生する場合学習期間中の最近のデータほど誤って正例なのに負例として扱われるというバイアスが発生してくる
•このため時間遅れを扱うようなモデルを作る必要がある
KDD 2014勉強会
6

コンバージョン遅れについての分析
•実際のデータを見たところクリック後1日以内にコンバージョンするデータは全体の半分
•13%のデータは2週間後にコンバージョンが発生している
KDD 2014勉強会
7

新規キャンペーン
•ディスプレイ広告においては常に新しいキャンペーンが入ってくる
•新規キャンペーンのためにも常にモデルを更新する必要がある
–コンバージョンの遅れを考慮してデータが30日貯まるまで待つという運用ではパフォーマンスに与える影響が大きい
KDD 2014勉強会
8

コンバージョン遅れのモデル
•クリック後ユーザがコンバージョンしなかった場合に二つの場合を考える
•1. ユーザはその後コンバージョンしない
•2. ユーザはその後コンバージョンするが十分な時間がたっていない
KDD 2014勉強会
9

•上の話を定式化すると
•X : 特徴量ベクトル
•Y : コンバージョンが発生したかどうか
•C : クリックしたユーザがコンバージョンするかどうか
•D : クリックからコンバージョンにかかる時間
•E : クリック後にかかった時間
•Y=0  C = 0 or E < D
•Y=1 => C=1
•ログ上で観測されるのは(풙푖,푦푖,푒푖)の3つ組, 푦푖=1のときは푑푖,푐푖も観測されている
KDD 2014勉強会
10

•ユーザがコンバージョンする確率はロジスティック回帰モデルを使って
•푃퐶=1푋=풙=푝풙푖= 11+exp⁡(−풘푐⋅풙)
•とする
•時間遅れについては平均휆푥の指数分布に従うとする
•푃퐷=푑푋=풙,퐶=1=휆풙exp⁡(−휆풙푑)
•ただし휆풙=exp(풘푑⋅풙)>0とする
•このモデルでのパラメータは二つの重みベクトル풘푐, 풘푑となる
KDD 2014勉強会
11

モデルからの確率
•観測されているコンバージョンイベントについての確率は
•푃푌=1,퐷=푑푖푋=푥푖,퐸=푒푖
•=푃퐷=푑푖푋=푥푖,퐶=1푃(퐶=1|푋=푥푖)
•=휆푥푖exp−휆푥푖푑푖푝(푥푖)
•となる
KDD 2014勉強会
12

モデルからの確率
•コンバージョンが観測されてないイベントについての確率は
•푃푌=0푋=푥푖,퐸=푒푖
–=푃푌=0퐶=0,푋=푥푖,퐸=푒푖푃퐶=0푋=푥푖
–+⁡푃푌=0퐶=1,푋=푥푖,퐸=푒푖푃(퐶=1|푋=푥푖)
–1−푝푥푖+푝푥푖⁡푃푌=0퐶=1,푋=푥푖,퐸=푒푖
•最後のユーザはコンバージョンするがまだコンバージョンに至ってないという確率は
–푃푌=0퐶=1,푋=푥푖,퐸=푒푖
–=푃퐷>퐸퐶=1,푋=푥푖,퐸=푒푖= 휆푥exp(−휆푥푡)푑푡 ∞ 푒푖
–exp(−휆푥푒푖)⁡
KDD 2014勉強会
13

最適化について
•提案モデルについてはパラメータベクトルの推定とユーザがコンバージョンするかどうかの観測されない隠れ変数であるCの推定の二つが必要となっている
•こういったときに最適な方法としてEMアルゴリズムを用いる
–詳細については論文4章を参照
–Eステップで푃(퐶=1|푋=푥푖,푌=푦푖)を計算し
–Mステップでパラメータベクトルの最適化を行う
KDD 2014勉強会
14

関連研究
•Learning classifiers from only positive and unlabeled data, KDD 2008
–正例とラベルがないデータのみあるときの学習について
–本研究と違ってラベルなしのデータについてラベルがランダムに欠落しているという仮定をおいている
–ラベルなしデータについては正例と負例が一定率で混在しているという定式化
–本研究では時間が経っているデータはネガティブサンプルに近い形で扱えるような定式化を行っている
•生存時間解析
–生存時間解析においては患者はいずれ死ぬので、本研究において常にC=1という仮定をおいたのと同じになっている
KDD 2014勉強会
15

実験 (Toy example)
•データをコンバージョン率を10%, コンバージョンまでにかかる時間を平均4日の指数分布に従って発生させる
•このときコンバージョン率を単純にコンバージョン数をデータの数で割って推定したものと比較した
•本論文での提案手法であるDFM(Delayed feedback model)がより短期間で真の値に収束している
KDD 2014勉強会
16

コンバージョンの遅れについて
•実際のデータを使ってDelayが指数分布に従うかどうかを検証した
•正確にはモデルは特徴量ベクトルxの条件つき分布であるがこれを検証するにはデータ量が少なすぎるのでキャンペーンのみで条件付けを行った
•また現実のデータは指数分布と違うところもある
–24時間での周期性(ユーザがブラウザを使う時間に周期があるため)
–短い時間でコンバージョンする率を過少評価して、長い時間でコンバージョンする率を過大評価している
KDD 2014勉強会
17

比較手法
•NAIVE
–学習期間においてコンバージョンしたデータを正例として、そうでないデータを負例としてコンバージョン率を学習する
•ORACLE
–データの学習期間より先の時間のデータをみてコンバージョンしたかどうかを確認して、それも正例として扱う
•SHIFTED
–訓練データには30日前のものを使ってクリック後コンバージョンしたかどうかが正しく分かるようにする
•RESCALE
–NAIVEと同じであるが推定したコンバージョン率を正例の欠損率で割ってやる
KDD 2014勉強会
18

比較手法
•STC (Short term conversion model)
–本論文で比較のために作ったヒューリスティックな手法
–1 一日以内にコンバージョンする確率をモデル化
•푃(퐶=1,퐷≤1|푋=푥)
–2 一日以内にコンバージョンするデータとすべてのコンバージョンについての比率を計算する
• 푃(퐶=1,퐷≤1|푋=푥) 푃(퐶=1|푋=푥) =푃(퐷≤1|퐶=1,푋=푥)
•1については直近のデータから学習できる
•2についてはコンバージョンデータの中から一日以内にコンバージョンするかどうかの二値分類モデルとなっている
•2については過去ログが必要となるがこの値はある程度ロバストである
KDD 2014勉強会
19

実験
•実験においてテストデータは7日間のデータを用いた、このとき学習は過去3週間のデータから毎日行った
–データ数は約6M件、詳細については以下のURLで公開されている
–http://labs.criteo.com/tag/dataset/
•データは二種類用意して、全てのキャンペーンに関するものとRecentという過去データよりテストデータの方が出現数が多いキャンペーンに関するもののみのデータを使った
•実験の評価にはNLL(Average Negative log-likelihood)を使った
–ROCを使わないのは確率を推定することも重要となっているため
KDD 2014勉強会
20

実験結果
•Oracleとの比較を行ったさいに提案手法である DFMが最もOracleとの差分が小さかった
•またNAIVEは特にRecentなデータに対して予測精度が悪い
–多くの正例を負例として扱うため
KDD 2014勉強会
21

結論
•本論文ではコンバージョン率の推定の際にコンバージョンの遅れをモデル化した手法を提案した
•推定は単純な勾配法で行え、しかもいくつかのベースラインより高い精度となっている
•本手法は広告領域だけではなく他の領域でも使うことのできる汎用的な方法となっている
KDD 2014勉強会
22

KDD2014_study

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (7)

Similar a KDD2014_study

Similar a KDD2014_study (7)

Más de 正志坪坂

Más de 正志坪坂 (20)

KDD2014_study

KDD2014_study

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Destacado

Destacado (7)

Similar a KDD2014_study

Similar a KDD2014_study (7)

Más de 正志 坪坂

Más de 正志 坪坂 (20)

KDD2014_study

Más de 正志坪坂

Más de 正志坪坂 (20)