3. Problema
- Colección de documentos editoriales sin clasificación de
tema
- Contamos con una taxonomía creada por los editores del
grupo para ‘etiquetar’ el contenido —~4,000 etiquetas—
- Queremos clasificar el contenido con las etiquetas de la
taxonomía de manera automática
4. ¿Por qué es importante?
- SEO = $$$
- Recomendación de contenidos similares - usuarios
- Recomendación de contenidos similares - editores
- Organización de contenido digital en la empresa
- Ontología
5. Information Retrieval (IR)
Un sistema de recuperación de información IR está compuesto
por 3 elementos:
- Una colección de documentos
- Una consulta (con uno más términos)
- Ordenar la colección de acuerdo a una medida de
relevancia con respecto a la consulta realizada
7. Algoritmos de IR
- Algebráicos
- Similitud Jaccard, Distancia coseno, TF-IDF, LSI
- Probabilísticos
- BM25, BM25F, LDA
- Machine Learning
- Modelos supervisados de clasificación, Deep Learning
8. TF-IDF
tft,d
Frecuencia del término t en el documento d
N Tamaño de la colección de documentos
df Número de documentos de la colección en los que
aparece el término t
10. ¿Por qué BM25?
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en un documento
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en la consulta
- Permite controlar el efecto que tiene la longitud del
documento
11. Modelo para etiquetado de contenido
- Query de consulta: El contenido generado por el editor
- Colección de documentos: las ~4,000 etiquetas
- Métrica de relevancia: BM25
¿Por qué se configuró de esta manera?
- Nivel de abstracción (podado de etiquetas): Revisión de
cada nivel (sin stopwords)
- pares: al menos 50% debe estar presente en el contenido
- impares: al menos el 60% debe estar presente en el contenido
14. Resultados
Al menos el 50% de las veces se
seleccionó la recomendación de
BM25 sobre la de TF/IDF
Desempeño de BM25: 47% de los documentos totales de una
colección, verificados por 5 personas.
17. conclusiones
+ BM25 tiene mejor desempeño que TF/IDF
+ BM25 tiene recomendaciones más específicas
+ 24% BM25 = TF/IDF
+ Errores de BM25 asociados a Tema y no especificidad (60%)
+ Sección con más error: Salud → hay pocas etiquetas en la
taxonomía, poca especificidad