Evaluacion de sistemas de recomendacion

Evaluación de sistemas
de recomendación
Luis Brassara (luis.brassara@almundo.com)

Introducción a los sistemas
de recomendación
• Qué es un sistema de recomendación?

de recomendación
• Familias de sistemas de recomendación (content
based filtering vs collaborative filtering)

de recomendación
• Content based filtering:
Le gusta
Similar

• Collaborative filtering:
de recomendación
SimilarLe gusta Le gusta

de recomendación
• Feedback del usuario (explícito vs implícito)

de recomendación
• Modelo: utility matrix

de recomendación
3
4
4
5
?
?? ?
?
2
3 5

Slope one
• Collaborative filtering

Slope one
• Se basa en las diferencias promedio entre los
rankings de los productos

Slope one
• Se basa en las diferencias promedio entre los
rankings de los productos
• Uno de los más triviales, pero…

Slope one
3
4 4.5
3.5
3 + 0.5 = 3.5

Slope one
3
4.5
?
?
25
34
4
−2

Slope one
3
4.5
?
25
34
4
4.5 − 2 = 2.5
2.5

Slope one
3
4.5
?
?
25
34
4
−1

Slope one
3
4.5
?
25
34
4
4 − 1 = 3
3

Slope one
3
4.5
?
2.5 + 3
2
= 2.75
25
24
4 2.75

Weighted slope one
3
4.5
?
2.5 ⋅ 2 + 3 ⋅ 1
3
= 2.66
25
24
4 2.66

Evaluación de sistemas de
recomendación
• Como medir que tan bien estamos
recomendando?

Evaluación de sistemas de
recomendación
• Como medir que tan bien estamos
recomendando?
• Métricas offline vs métricas online

Métricas online
• Click-through rate (CTR)

Métricas online
• Conversion rate (CR)

Métricas online
• Corto y largo plazo (Lifetime value o LTV)

Métricas online
• Corto y largo plazo (Lifetime value o LTV)
• A/B testing vs Multi armed bandits

Métricas offline
• Probar en producción tiene un costo

Métricas offline
• Lleva tiempo alcanzar significancia estadística

Métricas offline
• Lleva tiempo alcanzar significancia estadística
• Permiten selección preliminar de
hiperparámetros y modelos

Train & test set
• Como separar los datos para train y test de los
modelos?

Train & test set
modelos?
• No separar por usuarios completos…

Train & test set
modelos?
• No separar por usuarios completos…
• Separar por interacciones de usuarios con
productos!

Root squared mean error
(RSME)
1. Antes de entrenar el modelo guardar algunos
ratings conocidos para validación

(RSME)
4.5
?
?
35
24
4
4

(RSME)
4.5
?
?
35
4
4
?
?

(RSME)
2. Entrenar el modelo

(RSME)
4.5
35
4
4
3
53
5
(4)
(2)

(RSME)
3. Calcular el RSME entre los N ratings que
guardamos para validación y los ratings que el
modelo predijo para esas posiciones
RMSE =
∑𝑖=1
𝑁
(𝑦
̂
𝑖 − 𝑦𝑖)2
𝑁

(RSME)
4.5
35
4
4
3
53
5
RMSE =
(3 − 4)2 + (5 − 2)2
2
= 2.24
(4)
(2)

(RSME)
• Métricas similares: Mean Absolute Error (MAE),
Mean Squared Error (MSE)

(RSME)
• Métricas similares: Mean Absolute Error (MAE),
Mean Squared Error (MSE)
• Muy popular en la literatura de machine learning
para regresiones o clasificadores, pero…

Relevancia
• En general no nos interesa tanto predecir el
rating exacto de un usuario hacia un producto…

Relevancia
• En general no nos interesa tanto predecir el
rating exacto de un usuario hacia un producto…
• Nos interesa si un producto es relevante o no
para el usuario!

Reformulando el problema
• Pensemos en la recomendación como elegir un
conjunto de productos para el usuario

• Idealmente, queremos que todos los productos
en el conjunto sean relevantes para el usuario

• Idealmente, queremos que todos los productos
en el conjunto sean relevantes para el usuario
• Pensandolo como conjuntos…

Recomendados Relevantes

Los tenía que recomendar
y los recomendó

No los tenía que recomendar
y los recomendó

Lo tenía que recomendar
y no lo recomendó

Precision vs Recall
Precision =
|Relevantes ∩ Recomendados|
|Recomendados|

Precision vs Recall
Precision =
|Recomendados|
=
3
5

Precision vs Recall
Recall =
|Relevantes|

Precision vs Recall
Recall =
|Relevantes|
=
3
4

Precision vs Recall
• Existe un trade-off…

Precision vs Recall
𝐹𝑚𝑒𝑎𝑠𝑢𝑟𝑒 =
2
1
recall
+
1
precision
= 2 ⋅
precision ⋅ rec
precision + re
• Se suele usar el promedio (armónico) entre
precision y recall como balance entre ambas

Precision vs Recall
• Métricas similares: Receiver operating
characteristic (ROC)

Contexto
• Las recomendaciones se pueden mostrar en
distintos contextos (home, checkout, thank you
page, etc)

page, etc)
• Cada contexto tiene un propósito distinto
(inspirational, cross-selling, etc)
Contexto

page, etc)
• Cada contexto tiene un propósito distinto
(inspirational, cross-selling, etc)
• Y también una presentación distinta (carrousel
con K recomendaciones vs. scroll infinito)
Contexto

Precision at K
• Vimos que en algunos contextos siempre se
recomiendan exactamente K productos

Precision at K
• Tienen sentido precision y recall que tienen en
cuenta todo el conjunto de recomendaciones?

Precision at K
• Tienen sentido precision y recall que tienen en
cuenta todo el conjunto de recomendaciones?
• Precision at K (o Precision@K) es la precision
limitándose a los primeros K productos
recomendados

Orden
• En general nos importa el orden en que el
usuario ve las recomendaciones

Orden
• En general nos importa el orden en que el
usuario ve las recomendaciones
• Tienen sentido las métricas anteriores para
conjuntos para evaluar sistemas de
recomendación que devuelven listas?

Normalized Discounted
Cumulative Gain (nDCG)

• Se suele tardar varios meses en memorizar las
siglas, pero…

• Cumulative Gain:
CG = ∑
𝑖=1
𝑘
𝑟𝑒𝑙𝑖

• Discounted Cumulative Gain:
DCG = ∑
𝑖=1
𝑘 𝑟𝑒𝑙𝑖
log2(𝑖 + 1)

1 2 3

1 2 3
DCG =
1
log2(2)
+
1
log2(3)
+
1
log2(4)
= 2.13

DCG =
1
log2(2)
+
1
log2(3)
+
0
log2(4)
= 1.63
1 2 3

1 2 3
DCG =
1
log2(2)
+
0
log2(3)
+
1
log2(4)
= 1.50

1 2 3
DCG =
0
log2(2)
+
1
log2(3)
+
1
log2(4)
= 1.13

• Normalized Discounted Cumulative Gain:
nDCG =
𝐷𝐶𝐺
𝐼𝐷𝐶𝐺

• Normalized Discounted Cumulative Gain:
nDCG =
𝐷𝐶𝐺
𝐼𝐷𝐶𝐺
DCG de recomendación
ideal para el usuario
DCG de nuestra recomendación

• Métricas similares: Mean Reciprocal Rank
(MRR), Mean Average Precision (MAP)

Otras cualidades deseables
• Novelty / Serendipity
• Diversity
• Coverage
• Son medibles?

Evaluacion de sistemas de recomendacion

Evaluacion de sistemas de recomendacion

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Evaluacion de sistemas de recomendacion

Similar a Evaluacion de sistemas de recomendacion (20)

Último

Último (10)

Evaluacion de sistemas de recomendacion

Notas del editor