El documento describe un modelo de clasificación de imágenes basado en bolsas de palabras visuales (BoV) con variables latentes. Propone un clasificador estructural que aprende asignaciones de "palabras visuales" a parches de imagen y un clasificador multiclase al mismo tiempo. El modelo se optimiza usando un esquema similar a EM y la implementación se basa en la API Latent-SVM.