Etiquetado de contenido editorial con bm25

Etiquetado de contenidos
editoriales con BM25
Liliana Millán
liliana.millan@gmail.com
Twitter: @silil3
http://sg.com.mx/dataday #datadaymx

Agenda
+ Problema
+ Justificación
+ IR
+ TF/IDF
+ BM25
+ Modelo
+ Demo
+ Resultados
+ Producción
+ Conclusiones

Problema
- Colección de documentos editoriales sin clasificación de
tema
- Contamos con una taxonomía creada por los editores del
grupo para ‘etiquetar’ el contenido —~4,000 etiquetas—
- Queremos clasificar el contenido con las etiquetas de la
taxonomía de manera automática

¿Por qué es importante?
- SEO = $$$
- Recomendación de contenidos similares - usuarios
- Recomendación de contenidos similares - editores
- Organización de contenido digital en la empresa
- Ontología

Information Retrieval (IR)
Un sistema de recuperación de información IR está compuesto
por 3 elementos:
- Una colección de documentos
- Una consulta (con uno más términos)
- Ordenar la colección de acuerdo a una medida de
relevancia con respecto a la consulta realizada

Algoritmos de IR
- Algebráicos
- Similitud Jaccard, Distancia coseno, TF-IDF, LSI
- Probabilísticos
- BM25, BM25F, LDA
- Machine Learning
- Modelos supervisados de clasificación, Deep Learning

TF-IDF
tft,d
Frecuencia del término t en el documento d
N Tamaño de la colección de documentos
df Número de documentos de la colección en los que
aparece el término t

¿Por qué BM25?
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en un documento
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en la consulta
- Permite controlar el efecto que tiene la longitud del
documento

Modelo para etiquetado de contenido
- Query de consulta: El contenido generado por el editor
- Colección de documentos: las ~4,000 etiquetas
- Métrica de relevancia: BM25
¿Por qué se configuró de esta manera?
- Nivel de abstracción (podado de etiquetas): Revisión de
cada nivel (sin stopwords)
- pares: al menos 50% debe estar presente en el contenido
- impares: al menos el 60% debe estar presente en el contenido

Resultados
60% la recomendación
de BM25 fue
seleccionada sobre la
de TF/IDF

Resultados
Al menos el 50% de las veces se
seleccionó la recomendación de
BM25 sobre la de TF/IDF
Desempeño de BM25: 47% de los documentos totales de una
colección, verificados por 5 personas.

conclusiones
+ BM25 tiene mejor desempeño que TF/IDF
+ BM25 tiene recomendaciones más específicas
+ 24% BM25 = TF/IDF
+ Errores de BM25 asociados a Tema y no especificidad (60%)
+ Sección con más error: Salud → hay pocas etiquetas en la
taxonomía, poca especificidad

Preguntas
???
Liliana Millán: liliana.millan@gmail.com

Etiquetado de contenido editorial con bm25

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (15)

Similar a Etiquetado de contenido editorial con bm25

Similar a Etiquetado de contenido editorial con bm25 (20)

Último

Último (20)

Etiquetado de contenido editorial con bm25