Enviar búsqueda
Cargar
KDD2014_study
•
23 recomendaciones
•
4,331 vistas
正志 坪坂
Seguir
KDD 2014勉強会資料 Modeling delayed feedback in display advertising
Leer menos
Leer más
Ciencias
Denunciar
Compartir
Denunciar
Compartir
1 de 22
Descargar ahora
Descargar para leer sin conexión
Recomendados
多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジー
KLab Inc. / Tech
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
BrainPad Inc.
幾何を使った統計のはなし
幾何を使った統計のはなし
Toru Imai
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
Recomendados
多目的強凸最適化のパレート集合のトポロジー
多目的強凸最適化のパレート集合のトポロジー
KLab Inc. / Tech
ブレインパッドにおける機械学習プロジェクトの進め方
ブレインパッドにおける機械学習プロジェクトの進め方
BrainPad Inc.
幾何を使った統計のはなし
幾何を使った統計のはなし
Toru Imai
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada
グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
失敗から学ぶ機械学習応用
失敗から学ぶ機械学習応用
Hiroyuki Masuda
全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
ohken
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
Takeshi Mikami
Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析
Hiroaki Sengoku
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
西岡 賢一郎
SimGAN 輪講資料
SimGAN 輪講資料
Genki Mori
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
Shunji Umetani
数理モデリングからはじめるPython数理最適化 PyData.Tokyo 2017/6/28 Retty Inc. Iwanaga Jiro
数理モデリングからはじめるPython数理最適化 PyData.Tokyo 2017/6/28 Retty Inc. Iwanaga Jiro
Jiro Iwanaga
最適化超入門
最適化超入門
Takami Sato
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
AlphaGoのしくみ
AlphaGoのしくみ
Hiroyuki Yoshida
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Deep Learning JP
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
LLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみた
KunihiroSugiyama1
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
The Japan DataScientist Society
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
Akira Taniguchi
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
正志 坪坂
【Zansa】物理学はWebデータ分析に使えるか
【Zansa】物理学はWebデータ分析に使えるか
Zansa
Más contenido relacionado
La actualidad más candente
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
Takeshi Mikami
Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析
Hiroaki Sengoku
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
西岡 賢一郎
SimGAN 輪講資料
SimGAN 輪講資料
Genki Mori
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
Shunji Umetani
数理モデリングからはじめるPython数理最適化 PyData.Tokyo 2017/6/28 Retty Inc. Iwanaga Jiro
数理モデリングからはじめるPython数理最適化 PyData.Tokyo 2017/6/28 Retty Inc. Iwanaga Jiro
Jiro Iwanaga
最適化超入門
最適化超入門
Takami Sato
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
Deep Learning Lab(ディープラーニング・ラボ)
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
Takashi J OZAKI
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
AlphaGoのしくみ
AlphaGoのしくみ
Hiroyuki Yoshida
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Deep Learning JP
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
LLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみた
KunihiroSugiyama1
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
Deep Learning JP
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
The Japan DataScientist Society
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
Akira Taniguchi
La actualidad más candente
(20)
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
K meansによるクラスタリングの解説と具体的なクラスタリングの活用方法の紹介
Pythonではじめるロケーションデータ解析
Pythonではじめるロケーションデータ解析
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
SimGAN 輪講資料
SimGAN 輪講資料
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
数理モデリングからはじめるPython数理最適化 PyData.Tokyo 2017/6/28 Retty Inc. Iwanaga Jiro
数理モデリングからはじめるPython数理最適化 PyData.Tokyo 2017/6/28 Retty Inc. Iwanaga Jiro
最適化超入門
最適化超入門
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Data-Centric AIの紹介
Data-Centric AIの紹介
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
AlphaGoのしくみ
AlphaGoのしくみ
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
LLM+LangChainで特許調査・分析に取り組んでみた
LLM+LangChainで特許調査・分析に取り組んでみた
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
データサイエンティスト協会 木曜勉強会 #09 『意志の力が拓くシステム~最適化の適用事例から見たデータ活用システムの現在と未来~』
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
Destacado
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
正志 坪坂
【Zansa】物理学はWebデータ分析に使えるか
【Zansa】物理学はWebデータ分析に使えるか
Zansa
Sano web広告最適化20131018v3
Sano web広告最適化20131018v3
Masakazu Sano
20140213 web×マス広告の統合分析第3部_公開用
20140213 web×マス広告の統合分析第3部_公開用
Cyberagent
機械学習モデルの列挙
機械学習モデルの列挙
Satoshi Hara
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
Yahoo!デベロッパーネットワーク
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
michiaki ito
Destacado
(7)
Tokyowebmining ctr-predict
Tokyowebmining ctr-predict
【Zansa】物理学はWebデータ分析に使えるか
【Zansa】物理学はWebデータ分析に使えるか
Sano web広告最適化20131018v3
Sano web広告最適化20131018v3
20140213 web×マス広告の統合分析第3部_公開用
20140213 web×マス広告の統合分析第3部_公開用
機械学習モデルの列挙
機械学習モデルの列挙
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
Similar a KDD2014_study
Real time bidding algorithms for performance-based display ad allocation
Real time bidding algorithms for performance-based display ad allocation
shima o
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
Masakazu Sano
Real time bid optimization with smooth budget delivery in online advertising
Real time bid optimization with smooth budget delivery in online advertising
shima o
Joint optimization of bid and budget allocation in sponsored search
Joint optimization of bid and budget allocation in sponsored search
shima o
Estimating conversionrateindisplayadvertisingfrompastperformancedata
Estimating conversionrateindisplayadvertisingfrompastperformancedata
Masanao Ochi
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
Keiku322
Estimating conversion rate in display advertising from past performance data
Estimating conversion rate in display advertising from past performance data
shima o
Similar a KDD2014_study
(7)
Real time bidding algorithms for performance-based display ad allocation
Real time bidding algorithms for performance-based display ad allocation
Sano tokyowebmining 201625_v04
Sano tokyowebmining 201625_v04
Real time bid optimization with smooth budget delivery in online advertising
Real time bid optimization with smooth budget delivery in online advertising
Joint optimization of bid and budget allocation in sponsored search
Joint optimization of bid and budget allocation in sponsored search
Estimating conversionrateindisplayadvertisingfrompastperformancedata
Estimating conversionrateindisplayadvertisingfrompastperformancedata
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
Estimating conversion rate in display advertising from past performance data
Estimating conversion rate in display advertising from past performance data
Más de 正志 坪坂
Recsys2018 unbiased
Recsys2018 unbiased
正志 坪坂
WSDM2018Study
WSDM2018Study
正志 坪坂
Recsys2016勉強会
Recsys2016勉強会
正志 坪坂
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
正志 坪坂
Deeplearning輪読会
Deeplearning輪読会
正志 坪坂
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
正志 坪坂
Deeplearning勉強会20160220
Deeplearning勉強会20160220
正志 坪坂
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
正志 坪坂
Recsys2015
Recsys2015
正志 坪坂
KDD 2015読み会
KDD 2015読み会
正志 坪坂
Recsys2014 recruit
Recsys2014 recruit
正志 坪坂
EMNLP2014_reading
EMNLP2014_reading
正志 坪坂
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
正志 坪坂
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
正志 坪坂
Introduction to contexual bandit
Introduction to contexual bandit
正志 坪坂
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
正志 坪坂
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
正志 坪坂
Tokyowebmining2012
Tokyowebmining2012
正志 坪坂
static index pruningについて
static index pruningについて
正志 坪坂
NIPS 2012 読む会
NIPS 2012 読む会
正志 坪坂
Más de 正志 坪坂
(20)
Recsys2018 unbiased
Recsys2018 unbiased
WSDM2018Study
WSDM2018Study
Recsys2016勉強会
Recsys2016勉強会
KDD 2016勉強会 Deep crossing
KDD 2016勉強会 Deep crossing
Deeplearning輪読会
Deeplearning輪読会
WSDM 2016勉強会 Geographic Segmentation via latent factor model
WSDM 2016勉強会 Geographic Segmentation via latent factor model
Deeplearning勉強会20160220
Deeplearning勉強会20160220
OnlineMatching勉強会第一回
OnlineMatching勉強会第一回
Recsys2015
Recsys2015
KDD 2015読み会
KDD 2015読み会
Recsys2014 recruit
Recsys2014 recruit
EMNLP2014_reading
EMNLP2014_reading
Riak Search 2.0を使ったデータ集計
Riak Search 2.0を使ったデータ集計
Contexual bandit @TokyoWebMining
Contexual bandit @TokyoWebMining
Introduction to contexual bandit
Introduction to contexual bandit
確率モデルを使ったグラフクラスタリング
確率モデルを使ったグラフクラスタリング
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
Tokyowebmining2012
Tokyowebmining2012
static index pruningについて
static index pruningについて
NIPS 2012 読む会
NIPS 2012 読む会
KDD2014_study
1.
Modeling delayed feedback
in display advertising @KDD 2014勉強会 坪坂 正志 m.tsubosaka@gmail.com 2014/9/23 KDD 2014勉強会 1
2.
今日紹介する論文 •Modeling delayed
feedback in display advertising –Olivier Chapelle (Criteo) •ディスプレイ広告において広告を表示した時のコ ンバージョン率を予測する •ログから学習を行おうとするときにコンバージョ ンの発生には遅れが生じるため実際は正例な のに負例として扱ってしまうという問題が発生す る •このため時間遅れをモデル化したコンバージョン 予測モデルを提案する KDD 2014勉強会 2
3.
CPA payment modelと
コンバージョン率の予測 •広告配信業者は広告主からは1回のコンバージョンにつきいくらという契 約で行う •一方媒体の方に広告を出す際には1インプレッションいくらかという契約 で行う •このため1インプレッションをいくらで買うかを決めるためには1インプレッ ションあたりの広告主からもらえる金額の期待値を計算する必要がある •その期待値は次の式で計算できる –eCPM = CPA × P(click) × P(conversion | click) –P(conversion | click)をモデル化するのが今回の論文のメインテーマ KDD 2014勉強会 3 広告主 媒体 インプレッションい くらで買い取り クリック/コンバージョン 一回につき課金
4.
コンバージョン予測における課題 •クリック予測においては通常ユーザはインプレッション の後すぐに広告をクリックするかクリックしないかのど
ちらかである –このためクリック予測の問題においては通常の回帰問題 として扱える –難しさとしてはインプレッションは一日数十億と膨大でス ケールする機械学習のロジックをいかに作るかが重要と なってくる •コンバージョン予測についてはユーザは広告をクリッ クしてもすぐにコンバージョンするわけではないので通 常の回帰問題として定式化することができない –一方データ数はユーザのクリック数はそこまで多くないの でデータの数はそこまでもない KDD 2014勉強会 4
5.
遅れが発生する場合の問題点 •通常のデータを扱うようにクリック後コンバージョンしてい るデータを正例として、していないデータを負例とすると学
習期間中にコンバージョンしていないデータが本当は正例 なのに負例として扱われる KDD 2014勉強会 5 学習期間 click click click conv conv 学習期間中にコンバージョ ンしなかったので負例とし て扱われる コンバージョンしてるので 正例として扱う コンバージョンしてないの で負例として扱う
6.
遅れが発生する場合の問題点 •先行研究としてはランダムにラベルが欠損す るという問題設定はいくつか存在する
•しかし時間遅れが発生する場合学習期間中 の最近のデータほど誤って正例なのに負例と して扱われるというバイアスが発生してくる •このため時間遅れを扱うようなモデルを作る 必要がある KDD 2014勉強会 6
7.
コンバージョン遅れについての分析 •実際のデータを見たところクリック後1日以内 にコンバージョンするデータは全体の半分
•13%のデータは2週間後にコンバージョンが発 生している KDD 2014勉強会 7
8.
新規キャンペーン •ディスプレイ広告においては常に新しいキャンペーンが 入ってくる
•新規キャンペーンのためにも常にモデルを更新する必要 がある –コンバージョンの遅れを考慮してデータが30日貯まるまで待つ という運用ではパフォーマンスに与える影響が大きい KDD 2014勉強会 8
9.
コンバージョン遅れのモデル •クリック後ユーザがコンバージョンしなかった 場合に二つの場合を考える
•1. ユーザはその後コンバージョンしない •2. ユーザはその後コンバージョンするが十分 な時間がたっていない KDD 2014勉強会 9
10.
コンバージョン遅れのモデル •上の話を定式化すると •X
: 特徴量ベクトル •Y : コンバージョンが発生したかどうか •C : クリックしたユーザがコンバージョンするかどうか •D : クリックからコンバージョンにかかる時間 •E : クリック後にかかった時間 •Y=0 C = 0 or E < D •Y=1 => C=1 •ログ上で観測されるのは(풙푖,푦푖,푒푖)の3つ組, 푦푖=1の ときは푑푖,푐푖も観測されている KDD 2014勉強会 10
11.
コンバージョン遅れのモデル •ユーザがコンバージョンする確率はロジスティック回 帰モデルを使って
•푃퐶=1푋=풙=푝풙푖= 11+exp(−풘푐⋅풙) •とする •時間遅れについては平均휆푥の指数分布に従うとす る •푃퐷=푑푋=풙,퐶=1=휆풙exp(−휆풙푑) •ただし휆풙=exp(풘푑⋅풙)>0とする •このモデルでのパラメータは二つの重みベクトル풘푐, 풘푑となる KDD 2014勉強会 11
12.
モデルからの確率 •観測されているコンバージョンイベントについ ての確率は
•푃푌=1,퐷=푑푖푋=푥푖,퐸=푒푖 •=푃퐷=푑푖푋=푥푖,퐶=1푃(퐶=1|푋=푥푖) •=휆푥푖exp−휆푥푖푑푖푝(푥푖) •となる KDD 2014勉強会 12
13.
モデルからの確率 •コンバージョンが観測されてないイベントについての確率は •푃푌=0푋=푥푖,퐸=푒푖
–=푃푌=0퐶=0,푋=푥푖,퐸=푒푖푃퐶=0푋=푥푖 –+푃푌=0퐶=1,푋=푥푖,퐸=푒푖푃(퐶=1|푋=푥푖) –1−푝푥푖+푝푥푖푃푌=0퐶=1,푋=푥푖,퐸=푒푖 •最後のユーザはコンバージョンするがまだコンバージョンに 至ってないという確率は –푃푌=0퐶=1,푋=푥푖,퐸=푒푖 –=푃퐷>퐸퐶=1,푋=푥푖,퐸=푒푖= 휆푥exp(−휆푥푡)푑푡 ∞ 푒푖 –exp(−휆푥푒푖) KDD 2014勉強会 13
14.
最適化について •提案モデルについてはパラメータベクトルの 推定とユーザがコンバージョンするかどうか
の観測されない隠れ変数であるCの推定の二 つが必要となっている •こういったときに最適な方法としてEMアルゴリ ズムを用いる –詳細については論文4章を参照 –Eステップで푃(퐶=1|푋=푥푖,푌=푦푖)を計算し –Mステップでパラメータベクトルの最適化を行う KDD 2014勉強会 14
15.
関連研究 •Learning classifiers
from only positive and unlabeled data, KDD 2008 –正例とラベルがないデータのみあるときの学習について –本研究と違ってラベルなしのデータについてラベルがラン ダムに欠落しているという仮定をおいている –ラベルなしデータについては正例と負例が一定率で混在 しているという定式化 –本研究では時間が経っているデータはネガティブサンプ ルに近い形で扱えるような定式化を行っている •生存時間解析 –生存時間解析においては患者はいずれ死ぬので、本研 究において常にC=1という仮定をおいたのと同じになって いる KDD 2014勉強会 15
16.
実験 (Toy example)
•データをコンバージョン率を10%, コンバージョンまでにかかる時間 を平均4日の指数分布に従って発生させる •このときコンバージョン率を単純にコンバージョン数をデータの数 で割って推定したものと比較した •本論文での提案手法であるDFM(Delayed feedback model)がより 短期間で真の値に収束している KDD 2014勉強会 16
17.
コンバージョンの遅れについて •実際のデータを使ってDelayが指数分布に従うかどうかを検証した •正確にはモデルは特徴量ベクトルxの条件つき分布であるがこれを検証
するにはデータ量が少なすぎるのでキャンペーンのみで条件付けを行っ た •また現実のデータは指数分布と違うところもある –24時間での周期性(ユーザがブラウザを使う時間に周期があるため) –短い時間でコンバージョンする率を過少評価して、長い時間でコンバージョン する率を過大評価している KDD 2014勉強会 17
18.
比較手法 •NAIVE –学習期間においてコンバージョンしたデータを正例として、そう
でないデータを負例としてコンバージョン率を学習する •ORACLE –データの学習期間より先の時間のデータをみてコンバージョン したかどうかを確認して、それも正例として扱う •SHIFTED –訓練データには30日前のものを使ってクリック後コンバージョン したかどうかが正しく分かるようにする •RESCALE –NAIVEと同じであるが推定したコンバージョン率を正例の欠損 率で割ってやる KDD 2014勉強会 18
19.
比較手法 •STC (Short
term conversion model) –本論文で比較のために作ったヒューリスティックな手法 –1 一日以内にコンバージョンする確率をモデル化 •푃(퐶=1,퐷≤1|푋=푥) –2 一日以内にコンバージョンするデータとすべてのコンバージョ ンについての比率を計算する • 푃(퐶=1,퐷≤1|푋=푥) 푃(퐶=1|푋=푥) =푃(퐷≤1|퐶=1,푋=푥) •1については直近のデータから学習できる •2についてはコンバージョンデータの中から一日以内にコ ンバージョンするかどうかの二値分類モデルとなっている •2については過去ログが必要となるがこの値はある程度ロ バストである KDD 2014勉強会 19
20.
実験 •実験においてテストデータは7日間のデータを用いた、この とき学習は過去3週間のデータから毎日行った
–データ数は約6M件、詳細については以下のURLで公開されて いる –http://labs.criteo.com/tag/dataset/ •データは二種類用意して、全てのキャンペーンに関するも のとRecentという過去データよりテストデータの方が出現 数が多いキャンペーンに関するもののみのデータを使った •実験の評価にはNLL(Average Negative log-likelihood)を 使った –ROCを使わないのは確率を推定することも重要となっているた め KDD 2014勉強会 20
21.
実験結果 •Oracleとの比較を行ったさいに提案手法である DFMが最もOracleとの差分が小さかった
•またNAIVEは特にRecentなデータに対して予測 精度が悪い –多くの正例を負例として扱うため KDD 2014勉強会 21
22.
結論 •本論文ではコンバージョン率の推定の際にコ ンバージョンの遅れをモデル化した手法を提
案した •推定は単純な勾配法で行え、しかもいくつか のベースラインより高い精度となっている •本手法は広告領域だけではなく他の領域で も使うことのできる汎用的な方法となっている KDD 2014勉強会 22
Descargar ahora