確率的バンディット問題
- 5. 確率的バンディット問題
アーム数: 𝐾, ラウンド数: 𝑇
予測者(システム)は各ラ
ウンド 𝑡=1,2,…Tに、アーム
𝐼𝑡 ∈ {1, . . , 𝐾}を選択し、報
酬𝑋𝐼 𝑡 𝑡 を受け取る.
目的: 総報酬の最大化
Maximize 𝑡=1
𝑇
𝑋𝐼 𝑡 (𝑡)
5
(image from
http://www.directgamesroom.com )
arm
- 9. バンディット問題の最適戦略
各アームの期待報酬を 𝜇1 > 𝜇2 > 𝜇3 > ⋯ > 𝜇 𝐾とす
る(注. アルゴリズムはこの順番を知らない)
もし{𝜇𝑖}を全て知っているなら
→常に𝜇1を選び続けるのが最善
Tラウンドでの期待累計報酬=𝜇1 𝑇
・実際は各アームの期待報酬を知らないので、それ
ぞれの期待報酬を類推しながらアームを選んでいく
必要がある
9
- 10. 探索と活用のトレードオフ
探索:全アームを均等に調べる
→𝜇1, … . , 𝜇 𝐾を正確に推定したい
活用:一番良いアームを選びたい
→アームの報酬予測を{ 𝜇𝑖}とすると、argmaxi 𝜇𝑖を引く
→高い確率でargmaxi 𝜇𝑖 = 𝜇1だが、稀にそれ以外のアー
ムがたまたま良いように見えてしまうことがある
良いアルゴリズム=探索と活用をバランスできるアルゴ
リズム
10
- 15. Cramer-Chernoffの定理
確率分布𝜇𝑖の推定値 𝜇𝑖 =
1
𝑁(𝑖) 𝑠=1
𝑁(𝑖)
𝑋𝑖,𝑠 に対して
Pr 𝜇𝑖 > 𝑎 ≤ exp −𝑁 𝑖 sup
𝜃
𝜃𝑎 − 𝜆 𝜃 ,
where 𝜆 𝜃 = 𝑙𝑜𝑔𝐸[exp 𝜃𝑋𝑖],
Bernoulli分布なら sup
𝜃
𝜃𝑎 − 𝜆 𝜃 = 𝑑 𝜇𝑖, 𝑎 なので
以下のChernoffのバウンドが得られる
Pr 𝜇𝑖 > 𝜇1 ≤ exp(−𝑁(𝑖)𝑑 𝜇𝑖, 𝜇1 )
15
- 20. UCB1のregret
アームを引く数:𝐸 𝑁 𝑇 𝑖 ≤
8log(𝑇)
𝜇1−𝜇 𝑖
2
Regret:
𝐸 𝑅 𝑖 =
𝑖≠1
(𝜇1 − 𝜇𝑖)𝐸 𝑁 𝑇 𝑖 ≤
𝑖≠1
8log(𝑇)
(𝜇1 − 𝜇𝑖)
UCB1はRegretがO(log 𝑇 )のアルゴリズム
20
- 21. UCB1のregret
(再掲)𝐸 𝑁 𝑇 𝑖 ≤
8log(𝑇)
𝜇1−𝜇 𝑖
2
Pinskerの不等式 𝑑 𝑝, 𝑞 ≥ 2 𝜇1 − 𝜇𝑖
2により
8log(𝑇)
𝜇1 − 𝜇𝑖
2
≥
16 log 𝑇
𝑑 𝜇𝑖, 𝜇1
>
log 𝑇
𝑑(𝜇𝑖, 𝜇1)
というわけで、UCB1のregretはtightではない
これ以降紹介する3つのアルゴリズムは以下の点で最適
lim
𝑇→∞
𝐸 𝑁𝑖(𝑇) / log 𝑇 →
1
𝑑(𝜇𝑖, 𝜇1)
21
- 22. DMED (Deterministic Minimum Empirical Divergence)
[Honda&Takemura 2010]
アームiの経験分布 𝐹𝑖と一番経験平均が高いアー
ムの経験平均 𝜇𝑖∗の間のKL divergenceが
𝑑 𝐹𝑖, 𝜇𝑖∗ ≤ log 𝑡 /𝑇𝑖(𝑡)程度のアームを「最適で
ある可能性があるアームのリスト」として持つ
𝑑 𝐹𝑖, 𝜇𝑖∗ は双対問題𝑑′ 𝐹𝑖, 𝜇𝑖∗ が数値的に (e.g.
Newton法、二分法)解けて、双対問題の解と主
問題の解が一致
22
- 23. KL-UCB [Garivier+ 2011]
UCBの信頼上限をKL divergenceをもとに厳密化
各ラウンドで、次のKL-UCB indexが最大のアームを
選ぶ
𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖
= max
𝑞∈[ 𝜇 𝑖,1]
{𝑁𝑖 𝑑 𝜇𝑖, 𝑞 ≤ log 𝑡 + 3log(log 𝑡 )}
𝑢𝑖 = 𝜇𝑖からdivergenceがlog 𝑡 /𝑁𝑖 程度の値
・𝐵 𝐾𝐿−𝑈𝐶𝐵 𝑖 は数値的に解ける
・3log(log 𝑡 )項は理論的な産物(実際必要かどうか
は不明)
23
- 24. Thompson sampling [Thompson 1933]
Bayes推定+Posterior sampling
1. 各アームiの報酬の確率分布を初期化(𝛼𝑖 = 1, 𝛽𝑖 = 1)
2. 各ラウンドで確率分布のposteriorからサンプルし、そのサンプルの最大
なものを選ぶ
𝜃𝑖 ∼ 𝐵𝑒𝑡𝑎(𝛼𝑖, 𝛽𝑖), and 𝐼 𝑡 =argmax 𝜃𝑖
3. 報酬を見て確率分布を更新
If 𝑋𝐼 𝑡 𝑡 =1 then 𝛼𝑖=𝛼𝑖+1 else 𝛽𝑖=𝛽𝑖+1
太古から知られているアルゴリズムだが、最適性の証明はごく最近
[Agrawal&Goyal 2011, Kaufmann+2012]
24