Los autores comparan tres métodos de recomendación basados en contenido: uno sin ponderación de atributos, otro con ponderación TF-IDF y su propuesto método PABED. Evaluaron los sistemas usando el conjunto de datos Movielens, midiendo precisión, recall y tiempo. Los resultados mostraron que la ponderación mejora los resultados y que PABED supera a TF-IDF en efectividad y eficiencia para valores altos de k recomendaciones.
How to use Redis with MuleSoft. A quick start presentation.
Evaluación de un Método de Ponderación de Atributos Multivaluados en Sistemas de Recomendación Basados en Contenido
1. Evaluación de un método de ponderación de atributos
multivaluados en sistemas de recomendación basados en
contenido
Manuel Barranco, Jorge Castro, Luis Martínez
Universidad de Jaén
23 de diciembre de 2011
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 1 / 20
2. Índice
1 Introducción
Sistemas de recomendación basados en contenido
2 Sistemas de recomendación
Ponderación de atributos
3 Ponderación de Atributos Basada en Entropía y Dependencia
4 Evaluación de los sistemas
Experimentación
Conjunto de datos
Resultados
5 Conclusiones
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 2 / 20
3. Propósito y objetivos
Propósito
Comparar la ecacia y eciencia empíricas del SRBC PABED con
otros modelos clásicos de recomendación basada en contenido.
Objetivos
Implementar el modelo booleano de SRBC sin pesado de atributos.
Implementar el modelo booleano de SRBC con pesado de atributos
basado en TF-IDF.
Implementar el modelo propuesto con ponderación de atributos
multivaluados basado en la entropía y medidas de dependencia
(PABED).
Realizar una comparativa de ecacia y eciencia de los SRBC
implementados.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 3 / 20
4. Sistemas de recomendación
Motivación
Problema
Gran volumen de información que hace al usuario se sienta desbordado a la
hora de elegir un libro, una película, etc.
Solución
Realizar un ltrado de los productos de una base de datos en funcion de los
gustos de cada usuario.
Sistemas de recomendación
Sistemas que ltran la información y presentan sólo aquellos elementos que
puedan tener una mayor coincidencia con los intereses o necesidades de
cada usuario.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 4 / 20
5. Sistemas de recomendación
Tipos de sistemas de recomendación
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 5 / 20
6. Sistemas de recomendación basados en contenido
Tareas de un SRBC
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 6 / 20
7. Sistemas de recomendación basados en contenido
Tareas de un SRBC
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 7 / 20
8. Sistemas de recomendación basados en contenido
Modelado de perles booleano
Cada par (atributo,valor) será un nuevo atributo.
El valor es 1 si aparece la característica y 0 si no aparece.
Tabla: Atributos booleanos
A B C
Tabla: Atributos multivaluados Jazz 1 0 0
A B C Country 0 1 1
Categoría Jazz Country Country Inglés 1 0 0
Idioma Inglés Español Francés Español 0 1 0
Año de publ. 1962 1960 1962 Francés 0 0 1
1960 0 1 0
1962 1 0 1
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 8 / 20
9. Sistemas de recomendación basados en contenido
Cálculo de los periles de usuario
Tabla: Valoraciones de preferencia
I1 I2 I3 I4 I5 I6
U1 - 4 - - 5 -
Tabla: Atributos de los productos U2 - 3 - 4 - -
U3 - - - - - 4
F1 F2 F3 F4 U4 5 - 3 - - -
I1 0 1 0 0
I2 1 1 0 0
I3 0 1 1 0
I4 0 0 1 0 Tabla: Perles de usuarios
I5 1 1 1 0
I6 0 0 0 1 F1 F2 F3 F4
U1 2 2 1 0
U2 1 2 0 0
U3 0 0 0 1
U4 0 2 1 0
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 9 / 20
10. Sistemas de recomendación basados en contenido
Ponderación de atributos
Ponderación de atributos
W (u , cj ) = DInterU (cj ) ∗ SIntraU (u , cj )
DInterU (cj ): Disimilitud inter-usuarios.
SIntraU (u , cj ): Similitud intra-usuario.
Ponderación de atributos con TF-IDF
W (u , cj ) = FF (u , cj ) ∗ IUF (cj ).
IUF (cj ) = log UFUc ) , donde UF (cj ) es el número de usuarios que
| |
( j
valoraron algún producto con la característica cj .
FF (u , cj ), frecuencia del atributo cj para el conjunto de items
valorados positivamente por el usuario u .
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 10 / 20
11. Atributos booleanos frente a atributos multivaluados
Tabla: Atributos booleanos
A B C
Jazz 1 0 0 Tabla: Atributos multivaluados
Country 0 1 1 A B C
Inglés 1 0 0 Categoría Jazz Country Country
Español 0 1 0 Idioma Inglés Español Francés
Francés 0 0 1 Año de publ. 1962 1960 1962
1960 0 1 0
1962 1 0 1
En el modelado de atributos booleano se pierde información.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 11 / 20
12. Ponderación de Atributos Basada en Entropía y Dependencia
Medidas de similitud intra-usuario
Pesado de atributos
W (u , cj ) = DInterU (cj ) ∗ SIntraU (u , cj )
DInterU (cj ): Disimilitud inter-usuarios.
SIntraU (u , cj ): Similitud intra-usuario.
Entropía
H (x ) = − i p (xi ) log2 (p (xi ))
Atributos numéricos: correlación Atributos nominales: contingencia
Coeciente de correlación de V de Cramer: grado de dependencia.
pearson: relación lineal.
PCCuj = σσXYY VCuj = χ2
n∗min(I −1,J −1)
X σ
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 12 / 20
13. Ponderación de Atributos Basada en Entropía y Dependencia
Esquema
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 13 / 20
14. Evaluación de los sistemas
Experimentación
Comparativa
SRBC con modelo booleano sin pesado de atributos.
SRBC con modelo booleano con pesado de atributos TF-IDF.
SRBC con modelo multivaluado con pesado de atributos PABED.
Ejecuciones
50 ejecuciones, validación cruzada de 5 particiones.
k = {1,5,10,50,100}.
Métricas
Precisión, recall y f1-medida.
Tiempo de ejecución.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 14 / 20
15. Evaluación de los sistemas
Conjunto de datos
Movilens
Volumen de datos
69878 usuarios.
9768 productos (películas).
9464734 valoraciones (mín. 20 valoraciones por usuario).
Escasez de datos: 98.6 %
Du ={1,2,3,4,5}.
Contenido de los productos
Características numéricas: {Año}.
Características nominales: {Género, Director,País}.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 15 / 20
16. Evaluación de los sistemas
Resultados
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 16 / 20
17. Evaluación de los sistemas
Resultados
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 17 / 20
18. Evaluación de los sistemas
Resultados
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 18 / 20
19. Evaluación de los sistemas
Resultados
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 19 / 20
20. Conclusiones
La ponderación de atributos mejora los resultados de los SRBC.
PABED mejora a TFIDF con valores de k altos.
La eciencia de PABED es considerablemente mejor que la de TFIDF.
Barranco,Castro,Martínez (UJaén) Evaluación PABED 23 de diciembre de 2011 20 / 20