Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistemas de recomendación)

Ricardo Moya García. (Mapas gráﬁcos para la visualización de relaciones en sistemas de recomendación) 2
Artículo
Hernando,A., Moya, R., Ortega, F., & Bobadilla, J. (2013).
Hierarchical Graph Maps forVisualization of Collaborative
Recommender Systems
Journal of Information Sciences, 40(1), 97-106.
(JCR Impact factor: 1.087. Q2)

• Introducción y contexto
• Motivación, hipótesis y objetivos
• Ejemplo del método propuesto
• Técnicas y métricas de similaridad
• Caso de estudio
• Conclusiones y trabajos futuros
Índice

• Caso de estudio
Índice

• Los sistemas de recomendación (SR) son sistemas
inteligentes capaces de realizar recomendaciones
personalizadas a usuarios registrados en el sistema.
• Se necesita conocer los gustos de los usuarios para
poder realizar recomendaciones personalizadas.
• El tipo de ítems a recomendar por un SR es muy
variado: películas, libros, artículos, etc.
• Nacen como consecuencia del denominado “problema
de la sobrecarga de información” que hay en Internet.
Introducción

• La tarea de averiguar los gustos de los usuarios
y encontrar aquellos ítems que más se ajusta a
sus gustos ha requerido del uso de técnicas de
Machine Learning:
Introducción
Knn (K-Vecinos) Redes Neuronales Modelos Bayesianos
Descomposición matricial Modelos probabilísticos

Texto del título
Ricardo Moya García. (Mapas gráficos para la visualización de relaciones en sistemas de recomendación)
Métodos Híbridos
Sistemas de Recomendación
Filtrado
Demográfico
Filtrado Basado
en Contenido
Filtrado
Colaborativo
Basados en
Memoria
Basados en
Modelos
Basados en
Memoria
Basados en
Modelos
7
Clasificación

• La tendencia de los SR corre paralela a la propia
evolución de la web.
• Inicio de la Web: Los SR se nutrían únicamente de
información explicita de los usuarios.
• Web 2.0: Utilizan información de redes sociales (amigos,
followers, etc.), su comportamiento, participación en
blogs, foros, etc.
• Web 3.0: Incorporan más información: Internet of things,
ubicuidad, parámetros de salud, compras, hábitos, etc.
Tendencias

• Caso de estudio
Índice

• El número de usuarios no registrados que
acceden a un SR es muchísimo mayor que el de
los usuarios registrados.
• Gran parte de las investigaciones en el campo
de los SR se han centrado en el cálculo de
recomendaciones a usuarios registrados.
• Esta tesis se centra fundamentalmente en los
usuarios no registrados.
Motivación

Motivación

Si bien es cierto que los SR no pueden realizar
recomendaciones personalizadas a usuarios no registrados, sí
que es posible que el SR pueda ofrecer un modelo de
inferencia sencillo de interpretar que permita a un usuario
no registrado inferir por él mismo las propias
recomendaciones a partir de sus gustos.
Hipótesis

• Para que este modelo de inferencia tenga sentido, debe
cumplir los siguientes puntos:
1. El modelo de inferencia no debe estar basado en ecuaciones
matemáticas.
2. El modelo de inferencia debe estar basado en un tipo de
razonamiento similar al razonamiento humano.
3. La inferencia en el modelo propuesto debe proporcionar
recomendaciones lo más similares posibles a algún mecanismo
de recomendación conocido.
4. La inferencia debe estar basada en modelos visuales.
Hipótesis

• Los sistemas de inferencia basado en reglas
cumplen:
1. Se basan en un razonamiento muy cercano al humano
(Modus ponens, Modus tollens)
2. No se usan ecuaciones matemáticas complejas.
Modelo basado en reglas

Ejemplo
Hecho 1 En general suele gustar la película “Ocho apellidos vascos”
Regla 1 Si te gusta la película “La isla mínima”, entonces probablemente te
gustará la película “El niño”
Hecho II
Usuario no registrado
Me gusta bastante la película “La isla mínima”
Inferencia
Usuario no registrado
Sería interesante ver la película “Ocho apellidos vascos”
(Hecho I)
Sería interesante ver la película “El niño”
(Regla I y Hecho II)

1. Inferencia compleja para el usuario: El SR tiene que
ofrecer una gran cantidad de reglas y hechos.
2. Basado en representación textual: El usuario tiene
que leerse una gran cantidad de reglas y hechos para
poder sacar sus propias conclusiones.
Inconvenientes

• Solventa los inconvenientes de los modelos
basados en reglas:
1. No se deﬁnen inﬁnidad de reglas y hechos.
2. Es un modelo visual (no implica lectura para el
usuario)
Modelo basado en grafos

• Se propone un grafo no dirigido con las siguientes
características:
1. Vértices: representarán a los ítems del SR y deﬁnirán una cantidad
asociado al ítem i que indicarán el grado de conﬁanza del hecho:
Hecho: “En general suele gustar el ítem i”
2. Aristas: Dados dos ítems i,j; existe una arista entre dos vértices
asociados a estos dos ítems si existe la regla del tipo:
Regla: “Si te gusta el ítem i, entonces ‘probablemente’ te gustará el ítem j”
La longitud de la arista equivaldrá al grado de incertidumbre de la
regla (‘probablemente’,‘es posible’,‘quizás’, etc.)
Modelo basado en grafos

• El grafo obtenido en general no es
plano (las aristas se cruzan).
• No se puede representar con la
longitud de la arista el grado de
incertidumbre de las reglas.
Modelos basados en grafos
Inconvenientes

• Construir un subgrafo a partir del grafo de relaciones entre
ítems con las reglas más significativas (con mayor grado de
confianza).
• Dentro de los tipos de subgrafos, se han considerado los árboles
de recubrimiento mínimo (ARM) ya que:
1. Son grafos planos.
2. Las aristas no se cruzan entre ellas.
3. Con la longitud de las aristas se puede representar el grado de confianza.
4. El problema de los ARM ha sido muy estudiado y es muy conocido en el
campo de la algorítmica.
Modelo definitivo

Modelo deﬁnitivo
Ejemplo
Hecho En general suele gustar el item “I4”
Regla
Si te gusta el item “I2”, entonces probablemente
te gustará el ítem “I5”

Modelo deﬁnitivo
Ejemplo del caso de estudio: RS-IST

• La tesis propuesta puede encuadrarse dentro del
área de visualización en Machine Learning.
• Existen técnicas destinadas a la visualización de
datos como: PC A, Kernel PC A, Mapas
autoorganizados, técnicas de clustering, etc.
• Estas técnicas no son adecuadas para representar
los ítems de un SR ya que aunque representan en el
plano los datos, no establecen relaciones entre los
datos y por tanto no proporcionan un modelo de
inferencia.
Métodos de visualización en
Machine Learning

• Caso de estudio
Índice

Texto del título
Método
Calcular importancia del item
Calcular distancias entre items
Calcular el ARM
Calcular la ﬁabilidad de las similaridades

Texto del título
importancia(I1) = 2
importancia(I2) = 3
importancia(I6) = 2
importancia(I3) = 2
importancia(I4) = -2
importancia(I5) = -1
26
Método
Paso I: Cálculo de la importancia de un ítem
Usuarios
Items U1 U2 U3 U4 U5
I1 4 5 4 1
I2 3 5 4
I3 1 5 5
I4 1 4 3 2
I5 2 4 3 2
I6 5

Texto del título
Método
Paso I: Cálculo de la importancia de un ítem
Items
I1 I2 I3 I4 I5 I6
Importancia 2 3 2 -2 -1 2

Texto del título
Método
Paso II: Cálculo de distancias entre ítems
Usuarios
Items
U1 U2 U3 U4 U5
I1 4 5 4 1
I2 3 5 4
I3 1 5 5
I4 1 4 3 2
I5 2 4 3 2
I6 5
I1 I2 I3 I4 I5 I6
I1 x 0.02 0.53 0.33 0.13 x
I2 x 0.06 0.16 0.06 x
I3 x 0.46 0.46 1
I4 x 0.02 0.06
I5 x 0.06
I6 x
Distancias

Texto del título
Método
Paso II: Cálculo de distancias entre ítems
I1 I2 I3 I4 I5 I6
I1 x 0.02 0.53 0.33 0.13 x
I2 x 0.06 0.16 0.06 x
I3 x 0.46 0.46 1
I4 x 0.02 0.06
I5 x 0.06
I6 x
Distancias

Texto del título
Método
Paso III: Cálculo del árbol de recubrimiento mínimo

Texto del título
Método
Paso IV: Cálculo de la ﬁabilidad de las similaridades
Usuarios
Items
U1 U2 U3 U4 U5
I1 4 5 4 1
I2 3 5 4
I3 1 5 5
I4 1 4 3 2
I5 2 4 3 2
I6 5
I1 I2 I3 I4 I5 I6
I1 x 0.02 0.53 0.33 0.13 x
I2 x 0.06 0.16 0.06 x
I3 x 0.46 0.46 1
I4 x 0.02 0.06
I5 x 0.06
I6 x
Distancias
I1 I2 I3 I4 I5 I6
I1 x 0.75 0.40 0.60 0.60 0
I2 x 0.40 0.40 0.40 0
I3 x 0.75 0.75 0.33
I4 x 1 0.25
I5 x 0.25
I6 x
Fiabilidad

Texto del título
Método
I1 I2 I3 I4 I5 I6
I1 x 0.02 0.53 0.33 0.13 x
I2 x 0.06 0.16 0.06 x
I3 x 0.46 0.46 1
I4 x 0.02 0.06
I5 x 0.06
I6 x
Distancias
I1 I2 I3 I4 I5 I6
I1 x 0.75 0.40 0.60 0.60 0
I2 x 0.40 0.40 0.40 0
I3 x 0.75 0.75 0.33
I4 x 1 0.25
I5 x 0.25
I6 x
Fiabilidad
Fiabilidad 1 - 0.8 0.79 - 0.6 0.59 - 0.4 0.39 - 0.2 0.19 - 0
Color Rojo Naranja Verde Morado Azul
Tramos de ﬁabilidad
I1 I2 I3 I4 I5 I6
I1 x 0.02 0.53 0.33 0.13 x
I2 x 0.06 0.16 0.06 x
I3 x 0.46 0.46 1
I4 x 0.02 0.06
I5 x 0.06
I6 x
Distancias
I1 I2 I3 I4 I5 I6
I1 x 0.75 0.40 0.60 0.60 0
I2 x 0.40 0.40 0.40 0
I3 x 0.75 0.75 0.33
I4 x 1 0.25
I5 x 0.25
I6 x
Fiabilidad

Texto del título
Método
I1 I2 I3 I4 I5 I6
I1 x 0.02 0.53 0.33 0.13 x
I2 x 0.06 0.16 0.06 x
I3 x 0.46 0.46 1
I4 x 0.02 0.06
I5 x 0.06
I6 x
Distancias

Resultado y conclusiones
Regla Si te gusta el ítem “I5”, entonces probablemente te gustará el ítem “I4”
Regla Si te gusta el ítem “I5”, entonces es posible que te guste el ítem “I2”
Regla Si te gusta el ítem “I5”, entonces quizás te guste el ítem “I6”

• Caso de estudio
Índice

Texto del título
Método
Calcular importancia del item
Calcular distancias entre items
Calcular el ARM
Calcular la ﬁabilidad de las similaridades

Texto del título
SR basados en contenido
Basados en Memoria Basados en Modelos
SR basados en vectores
de palabras
LSI PLSI LDA
Filtrado Basado en Contenido
No probabilísticos Probabilísticos

• Preprocesamiento de la descripción de los ítems:
• Eliminar preposiciones, artículos, etc.
• Sustituir plurales, diminutivos, etc. a su palabra raíz.
• Se trabaja con una matriz de apariciones de
palabras en los ítems (palabras/items).
SR basados en contenido
Items
Palabras
I1 I2 I3 I4 I5
Fútbol 3 0 2 0 0
Política 0 0 4 4 2

• Calculan las recomendaciones basándose en el
cálculo de distancias entre cada par de vectores
de apariciones de palabras en los ítems.
SR basados en vectores de
palabras
Items
Palabras
I1 I2 I3 I4 I5
Fútbol 3 0 2 0 0
Política 0 0 4 4 2
I1 I2 I3 I4 I5
I1 0 3.0 4.1 5.0 3.6
I2 3.0 0 4.5 4 2
I3 4.1 4.5 0 2 2.8
I4 5.0 4 2 0 2
I5 3.6 2 2.8 2 0
Distancia Euclidea
I1 I2 I3 I4 I5
I1 0 3.0 4.1 5.0 3.6
I2 3.0 0 4.5 4 2
I3 4.1 4.5 0 2 2.8
I4 5.0 4 2 0 2
I5 3.6 2 2.8 2 0
Distancia Euclidea

• Técnica de factorización matricial basada en la
técnica matemática del SVD.
• Extrae (a partir de la matriz de apariciones de
palabras en ítems) una serie de factores latentes
que caracterizan a las palabras y los documentos.
• A partir de esos factores latentes podemos calcular
las similaridades entre los ítems o las palabras.
LSIPublicación
Deerwester.S, Dumais.ST, Furnas.GW, Landauer.TK, and Harshman.R. Indexing by latent
semantic analysis. Journal of the American Society for Information Science, page 391, 1990.

LSI
Teorema de Eckart-Young

Texto del título
Cálculo de distancias
Para SR basados en vectores de palabras y LSI
SR basados en vectores
de palabras
LSI
Métrica de similaridad basada en ángulos (Coseno)

• El PLSI es una evolución del LSI al que se le añado un
modelo probabilístico.
• Descompone la matriz de apariciones de palabras/ítems
en dos matrices que van a tener un signiﬁcado
probabilístico.
• Los items y las palabras están caracterizados por una
distribución de probabilidad en el que se indica con que
grado un item o palabra pertenecen a un tema u otro.
PLSIPublicación
Hofmann.T. Probabilistic latent semantic indexing. International Computer Science
Institute, 1999.

PLSI
Conjunto de temas: z ∈ Z = {z1,...,zk}
Conjunto de palabras: w ∈ W = {w1,...,wn}
Conjunto de documentos: d ∈ D = {d1,...,dm}
Estudiar similaridades entre items
Probabilidad de que un documento pertenezca
a un determinado tema.

PLSI
Ejemplo
Items
Palabras
I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11
Balón 3 2
Fútbol 2 6 8 1 1
Liga 3 1
CR7 6 7
Messi 1 2 5
Política 4 4 4 1 1
PP 6 3 1
PSOE 4 6 1
ZP 3 5 1 1 1
Rajoy 5 1 1 1 1
Dinero 1 4 4
FMI 5 4 4
UE 4 4 3
PIB 3 1 1
Ibex 2
K = 3
Temas
Fútbol Política Economía
I1 1.00 0 0
I2 1.00 0 0
I3 1.00 0 0
I4 0 1.00 0
I5 0 1.00 0
I6 0 1.00 0
I7 0 0 1.00
I8 0 0 1.00
I9 0 0.21 0.79
I10 0.33 0.33 0.33
I11 0.40 0.60 0
P (z | d)

• Modelo probabilístico que se enmarca dentro de los modelos
generativos ya que trata de describir como se crea un documento.
• Al igual que el PLSI, el LDA calcula dos matrices de probabilidad P(w|z) y
P(z|θ).
• La diferencia radica en como se calculan las matrices de probabilidad:
• LDA: Cada ítem esta representado por un vector que sigue una
distribución de Dirichlet.
• PLSI: Cada ítem esta representado por un vector que sigue una
distribución categórica.
LDAPublicación
Blei.D, Ng.A, and Jordan.M. Latent dirichlet allocation. the Journal of machine Learning
research, pages 993–1022, 2003.

LDA
Probabilidad de que un documento pertenezca
a un determinado tema.

LDA
Ejemplo
Items
Palabras
I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11
Balón 3 2
Fútbol 2 6 8 1 1
Liga 3 1
CR7 6 7
Messi 1 2 5
Política 4 4 4 1 1
PP 6 3 1
PSOE 4 6 1
ZP 3 5 1 1 1
Rajoy 5 1 1 1 1
Dinero 1 4 4
FMI 5 4 4
UE 4 4 3
PIB 3 1 1
Ibex 2
K = 3 Temas
Fútbol Política Economía
I1 15.01 0.01 0.01
I2 15.01 0.01 0.01
I3 15.01 0.01 0.01
I4 0.01 15.01 0.01
I5 0.01 15.01 0.01
I6 0.01 15.01 0.01
I7 0.01 0.01 15.01
I8 0.01 2.01 13.01
I9 0.01 4.01 11.01
I10 1.01 1.01 1.01
I11 2.01 3.01 0.01
P (z | θ)

Texto del título
Para SR basados en modelos probabilísticos
PLSI LDA
Métrica de similaridad entre distribuciones de probabilidad
Kullback-Liebler (KL)

Texto del título
SR basados en ﬁltrado
colaborativo
Basados en Memoria Basados en Modelos
Knn (K-Vecinos) Factorización Matricial
Filtrado Colaborativo

• Se toma como base la matriz de votos que los
usuarios han emitido sobre los ítems
• El ﬁltrado colaborativo consiste en ver que
usuarios (o ítems) son similares al usuario (o
ítem) activo al que se ha de recomendar.
SR basados en ﬁltrado
colaborativo
Items
Usuarios
I1 I2 I3 I4 I5 I6
U1 4 3 1 2
U2 1 4 4 5
U3 5 5
U4 4 4 5 3 3
U5 1 5 2 2

K-Vecinos
Esquema general
Calcular la similaridad
Buscar los k vecinos
Predecir votaciones
Elegir items recomendados

• Uno de los pasos más importantes es el de
calcular la similaridad entre usuarios o ítems.
• Se han propuesto varias métricas de similaridad
• Tradicionales: MSD, Coseno, Correlación
• Destacadas: JMSD, Singularidades
• La distancia se calcula como:
Para la técnica de los K-Vecinos
dist(I1,I2) = 1 - sim(I1,I2)

• Una de las técnicas más importantes utilizadas
en los SR basados en factorización matricial es el
basado en SVD aplicado a los SR basados en FC.
• Esta técnica tiene como ﬁnalidad la de obtener
una serie de factores latentes que caractericen a
los usuario y a los ítems.
• A partir de estos factores se pueden calcular la
similaridad en usuarios o entre ítems.
SR basados en factorización
matricial

SVD aplicado a FC

• Para el cálculo de similaridades entre usuario o
entre ítems a partir de sus factores latentes, se
puede utilizar cualquiera de las métricas
basadas en distancias o en ángulos como el
MSD, Coseno, Correlación, etc.
• De igual forma la distancia se calcula como:
Para el SVD
dist(I1,I2) = 1 - sim(I1,I2)

• Caso de estudio
Índice

Métodos Híbridos
Filtrado
Demográﬁco
Filtrado Basado
en Contenido
Filtrado
Colaborativo
Basados en
Memoria
Basados en
Modelos
Basados en
Memoria
Basados en
Modelos
Filtrado
Colaborativo
Basados en
Memoria
59
Caso de estudio

Base de datos
MovieLens
Número de usuarios 6.040
Número de ítems 3.900
Número de votaciones 1.000.209 (1M)
Escala 1 - 5

RS-IST
Visión general
películas más populares

Texto del título
RS-IST
Películas más populares
Hecho En general suele gustar la película “ ”

Texto del título
RS-IST
Ejemplo de inferencia
Loca academia de policía
Loca academia de policía 2
Loca academia de policía 4
Loca academia
de policía 5
Loca academia
de policía 3

Texto del título
RS-IST
Ejemplo (Muchos vértices adyacentes)

• Caso de estudio
Índice

• Se ha presentado un modelo de inferencia sencillo para
usuarios no registrados.
• Se ha presentado un modelo de visualización para los
ítems de un SR en los que es posible estudiar sus
similaridades.
• Como caso de estudio, se ha probado el modelo propuesto
con la base de datos de MovieLens 1M.
• Con el RS-IST resultante ha sido posible determinar que
ítems (películas) han sido votadas de forma similar,
pudiendo así “explicar las recomendaciones al estilo ítem”.
Conclusiones

• Estudiar posibles formas de generar árboles personalizados para usuarios
de los que se tiene cierta información sobre su perﬁl, gustos, etc.
• Introducir otras medidas de ﬁabilidad.
• Comparar las diferentes estructuras de árboles al aplicar diferentes
medidas de similaridad entre ítems.
• Incorporar una etapa de pre-clasterización.
• Recuperación de información en las diferentes áreas en las que existen
sistemas de recomendación basados en memoria (redes sociales, blogs,
etc.), para poder aplicar más características a los árboles.
• Árboles dirigidos (Poliárboles).
• Aplicar este concepto a otros grafos planos (mallas).
Trabajos futuros

Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistemas de recomendación)

Recomendados

Recomendados

Más contenido relacionado

Similar a Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistemas de recomendación)

Similar a Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistemas de recomendación) (20)

Último

Último (15)

Tesis Doctoral (Mapas gráficos para la visualización de relaciones en sistemas de recomendación)