Learning over Sequences of Decisions with Reinforcement Learning

Learning over Sequences of Decisions

CEO / Co-Founder Conductrics
www.conductrics.com
Past: Database Marketing
Education: Artificial Intelligence & Economics
twitter:@mgershoff, @conductrics
Email:matt@conductrics.com
www.conductrics.com/blog
Who is this guy?

AI in the News
www.Conductrics.com
@conductrics

AI is …?
www.Conductrics.com
@conductrics

What’s In it For You
www.Conductrics.com
@conductrics

• Reinforcement Learning (RL):
• AB Testing
www.Conductrics.com
@conductrics

• AB Testing
• Attribution
www.Conductrics.com
@conductrics

• AB Testing
• Attribution
• Predictive Targeting
www.Conductrics.com
@conductrics

• AB Testing
• Attribution
• An RL Solution from AI
www.Conductrics.com
@conductrics

• AB Testing
• Attribution
• An RL Solution from AI
• Tell EveryoneYou Know AI!!!
www.Conductrics.com
@conductrics

What is
Reinforcement
Learning?
www.Conductrics.com
@conductrics

Reinforcement
Learning is a
Problem not a
Solution
www.Conductrics.com
@conductrics

Reinforcement Learning Problem:
Learn to make a Sequence
of Decisions by Trial &
Error in order to Achieve
some Goal(s)
www.Conductrics.com
@conductrics

Reinforcement Learning Example:
www.Conductrics.com
@conductrics

Reinforcement Learning
www.Conductrics.com
@conductrics

www.Conductrics.com
@conductrics

19
AB
Testing
Sequential
Decisions
Targeting
Part 1: AB TEST = Trial & Error Learning
www.Conductrics.com
@conductrics

Single Location Decisions/AB Test
Home
Page
Hero
Decision
Point
Decision
Simple
Image
Fancy
Version
Fancy
Version
RL Agent
www.Conductrics.com
@conductrics

Page A
Location
www.Conductrics.com
@conductrics

A
B
Page A
Location Decision
www.Conductrics.com
@conductrics

A
B
Page A Convert
Location Decision Objective/Payoff

A
B
Page A Convert
www.Conductrics.com
@conductrics

A
B
Page A Convert
Don’t
Convert

A
B
Page A Convert
Don’t
Convert
www.Conductrics.com
@conductrics

How to Solve:
A
B
Page A Convert
Don’t
Convert

How to Solve:
1. AB/MV Testing
A
B
Page A Convert
Don’t
Convert
www.Conductrics.com
@conductrics

How to Solve:
1. AB/MV Testing
2. Multi-Arm Bandit
A
B
Page A Convert
Don’t
Convert

Only need Conversion Data
Option Value
A 5%
B 6%
www.Conductrics.com
@conductrics

31
Part 2: Attribution as Sequential Decisions
AB
Testing
Attribution
Targeting
www.Conductrics.com
@conductrics

Single Location Compound: MVT
Home
Page
Banner
Hero
Decision
Point
Decision #1
Decision #2
Banner A
Banner B
Banner C
Simple
Image
Fancy
Version
Banner C
Fancy
Version
RL Agent
Search
Results
Special
Offers
CheckoutSignup
Home
Page
www.Conductrics.com
@conductrics

Sequential Decisions -> Dynamics
Enter
Site
Page 1
Page 2
www.Conductrics.com
@conductrics

Enter
Site
Page 1
Page 2 C D
A B
www.Conductrics.com
@conductrics

Enter
Site
Exit Site
Page 1
Page 2 C D
A B

Enter
Site
Exit SiteGoal
Page 1
Page 2 C D
A B
www.Conductrics.com
@conductrics

Enter
Site
Exit SiteGoal
Page 1
Page 2 C D
A B
www.Conductrics.com
@conductrics
So far just AB Testing

Enter
Site
Exit SiteGoal
Page 1
Page 2 C D
A B
www.Conductrics.com
@conductrics
Now add Dynamics

Enter
Site
Exit SiteGoal
Page 1
Page 2 C D
A B
Transitions = Dynamics
www.Conductrics.com
@conductrics

1. Conversion Rates
Option Value
Page1:A 3%
Page1:B 4%
Page2:C 10%
Page2:D 12%
Sequential Decisions

1. Conversion Rates
2. Transition Frequencies
Page:Action Page 1 Page 2
Page1:A - 30%
Page1:B - 20%
Page2:C 2% -
Page2:D 1% -
www.Conductrics.com
@conductrics

This is Complicated!

How to Assign Value?
Backward Calculation:
AssignValues BACK to
events AFTER the
Conversion
www.Conductrics.com
@conductrics

Agent
Calculating Attribution: Backward Looking
Search
Results
Special
Offers
Signup
Home
Page

How Does Google Do it?
www.Conductrics.com
@conductrics

How to Assign Value?
Backward Calculation:
Is this the ONLY way?
www.Conductrics.com
@conductrics

Q Learning
ሿ𝑸 𝒔 𝒕, 𝒂 𝒕 + 𝜶[𝒓 𝒕+𝟏 + 𝜸 ∗ 𝒎𝒂𝒙 𝒂 𝑸 𝒔 𝒕+𝟏, 𝒂 𝒕 − 𝑸 𝒔 𝒕, 𝒂 𝒕
www.Conductrics.com
@conductrics

Q Learning

Forward View: Q Learning
www.Conductrics.com
@conductrics

Analytics Interpretation of Q-Learning
1)Treat Landing on the Next Page like a
regular conversion!
www.Conductrics.com
@conductrics

Analytics Interpretation of Q-Learning
1)Treat Landing on the Next Page like a
regular conversion!
2)Use the estimates at the next step as the
conversion value!
www.Conductrics.com
@conductrics

A B
1) Take an action
www.Conductrics.com
@conductrics

A
1) Take an action – Pick A
www.Conductrics.com
@conductrics

A
2) Measure what user does after
www.Conductrics.com
@conductrics

2) Do they Convert?
$10
Page 1 A
www.Conductrics.com
@conductrics

2) Yes!
$10
Page 1 A
www.Conductrics.com
@conductrics

ሿ𝑸 𝒔 𝒕, 𝒂 𝒕 + 𝜶[𝒓 𝒕+𝟏 + 𝜸 ∗ 𝒎𝒂𝒙 𝒂 𝑸 𝒔𝒕+𝟏, 𝒂 𝒕 − 𝑸 𝒔 𝒕, 𝒂 𝒕
2) Set r =$10
$10
Page 1 A
www.Conductrics.com
@conductrics

EXACTLY the SAME as AB TESTING
$10
Page 1 A
www.Conductrics.com
@conductrics

3) Do they next go to Page 2?
Goal
Page 1 A
Page 2

3) Yes!
Goal
Page 1
Page 2
A
www.Conductrics.com
@conductrics

3) Yes! Now in Dynamic part of Path
Goal
Page 1
Page 2
A
www.Conductrics.com
@conductrics

C D
4) Check Current Estimated Values ‘C’ & ‘D’
www.Conductrics.com
@conductrics

Of course initially C=$0; D=$0
Page 2 C D
$0 $0
www.Conductrics.com
@conductrics

But lets just assume a mean of C=$1; D=$5
Page 2 C D
$1 $5
www.Conductrics.com
@conductrics

4) Set max(Q(st,at)) = $5
Page 2 C D
$1 $5
www.Conductrics.com
@conductrics

1. 𝛄 𝐢𝐬 the 𝐝𝐢𝐬𝐜𝐨𝐮𝐧𝐭 𝐫𝐚𝐭𝐞
2. Related to Google’s Half Life
3. 7 day half life  0.9
www.Conductrics.com
@conductrics

5) 𝐏𝐚𝐠𝐞𝟏: 𝐀 = 𝟏 + 𝟎. 𝟗 ∗ 𝟓
Goal
Page 1
Page 2
A
www.Conductrics.com
@conductrics

Direct Credit: $1.0
Attribution Credit: $4.5
www.Conductrics.com
@conductrics

Direct Credit: $1.0
Attribution Credit: $4.5
Total Page1|A: $5.5
www.Conductrics.com
@conductrics

5) 𝐂𝐫𝐞𝐝𝐢𝐭 𝐏𝐚𝐠𝐞𝟏: 𝐀 = 𝟓. 𝟓
Goal
Page 1
Page 2
A
www.Conductrics.com
@conductrics

Attribution in just two simple steps:
www.Conductrics.com
@conductrics

1)Treat Landing on Next Page like a regular
conversion!
www.Conductrics.com
@conductrics

1)Treat Landing on Next Page like a regular
conversion!
2)Use Predictions of future values at the
next step as the conversion value!
www.Conductrics.com
@conductrics

1)Treat Landing on Next Page exactly like a
conversion!
2)Use estimates at the next step as the conversion
value!
3)This is guaranteed to converge to optimum result!!!
www.Conductrics.com
@conductrics

79
Part 3: Targeting
Trial &
Error
Learning
Sequential
Decisions
Targeting
www.Conductrics.com
@conductrics

Targeting = Decision Logic
IF [Customer]
THEN
[Experiences?]
www.Conductrics.com
@conductrics

Q Learning + Targeting
User: Is a New User and from Rural area
Page 1
Page 2
A
www.Conductrics.com
@conductrics

User: Is a New User and from Rural area
Page 1
Page 2
A
www.Conductrics.com
@conductrics

Attribution calculation depends on [Rural;New]
Page 1
Page 2
A
www.Conductrics.com
@conductrics

84
www.Conductrics.com
@conductrics
At Page2: Evaluate Value New & Rural Customer

85
www.Conductrics.com
@conductrics

86
www.Conductrics.com
@conductrics

87
www.Conductrics.com
@conductrics

88
Predicted Value=43%
www.Conductrics.com
@conductrics

Page 1
Page 2
A
𝐏𝐚𝐠𝐞𝟏: 𝐀 = 𝟎 + 𝟎. 𝟗 ∗ 𝟒𝟑%
www.Conductrics.com
@conductrics

90
Case Study: Web & Call Center
Optimize Marketing Site and Call Center
IVR
1. WebSite
• Initial Offer
• Online Chat option
2. Call Center
• Choice of IVR prompts
Result: Call Center Conversion by 26%
Increased average call value by $9.28www.Conductrics.com
@conductrics

Sales drive
Optimization
User Features
•Time of Day
•Geo-Data
•Browser Data
Get Decision
Website IVR
Options
Response
IVR Prompts: A;B;C;….
Get Decision
Call Agent
IVR ‘Rewards’
Web Decision
Case Study: Web and Call Center
www.Conductrics.com
@conductrics

Application
Layer
Targeted Multi-Touch Optimization
Touch-Point 1
User
2) Option
Response
3) Touch-Point Transition
1) Option
Request
Local Options
Optimizer
F1
F2
Fn
S
Local Model 1
Touch-Point 2
User
7) Option
Response
4) Option
Request
Local Options
Optimizer
F1
F2
Fn
S
Local Model 25) Calculates Attribution Credit
and sends to Model1
8)Conversion
6) Update Local Model1 using
credit as a conversion
9) Update
Local Model2 using
conversion value
• Attribution Credit enables Local Optimizers to Solve
Global Multi-Touch Optimization
www.Conductrics.com
@conductrics

1) Attribution can be solved by
hacking ‘AB Testing’ (Q-Learning)
2) Extended Attribution to include
decisions/experiments
3) Looked into the eye of AI and Lived
What did we Do/Learn?
www.Conductrics.com
@conductrics

References
www.Conductrics.com
@conductrics
1) https://conductrics.com/data-
science-resources-2
2) http://videolectures.net/mlss09uk_
littman_rl (model based RL)
3) https://en.wikipedia.org/wiki/Mar
kov_decision_process

Thank you!
www.Conductrics.com
@conductrics

Learning over Sequences of Decisions with Reinforcement Learning

Recomendados

Recomendados

Más contenido relacionado

Similar a Learning over Sequences of Decisions with Reinforcement Learning

Similar a Learning over Sequences of Decisions with Reinforcement Learning (20)

Último

Último (20)

Learning over Sequences of Decisions with Reinforcement Learning