SlideShare una empresa de Scribd logo
1 de 18
Descargar para leer sin conexión
Etiquetado de contenidos
editoriales con BM25
Liliana Millán
liliana.millan@gmail.com
Twitter: @silil3
http://sg.com.mx/dataday #datadaymx
Agenda
+ Problema
+ Justificación
+ IR
+ TF/IDF
+ BM25
+ Modelo
+ Demo
+ Resultados
+ Producción
+ Conclusiones
Problema
- Colección de documentos editoriales sin clasificación de
tema
- Contamos con una taxonomía creada por los editores del
grupo para ‘etiquetar’ el contenido —~4,000 etiquetas—
- Queremos clasificar el contenido con las etiquetas de la
taxonomía de manera automática
¿Por qué es importante?
- SEO = $$$
- Recomendación de contenidos similares - usuarios
- Recomendación de contenidos similares - editores
- Organización de contenido digital en la empresa
- Ontología
Information Retrieval (IR)
Un sistema de recuperación de información IR está compuesto
por 3 elementos:
- Una colección de documentos
- Una consulta (con uno más términos)
- Ordenar la colección de acuerdo a una medida de
relevancia con respecto a la consulta realizada
Google, el IR por default
Algoritmos de IR
- Algebráicos
- Similitud Jaccard, Distancia coseno, TF-IDF, LSI
- Probabilísticos
- BM25, BM25F, LDA
- Machine Learning
- Modelos supervisados de clasificación, Deep Learning
TF-IDF
tft,d
Frecuencia del término t en el documento d
N Tamaño de la colección de documentos
df Número de documentos de la colección en los que
aparece el término t
BM25
¿Por qué BM25?
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en un documento
- Permite controlar el efecto que tiene la frecuencia con
la que aparece un término en la consulta
- Permite controlar el efecto que tiene la longitud del
documento
Modelo para etiquetado de contenido
- Query de consulta: El contenido generado por el editor
- Colección de documentos: las ~4,000 etiquetas
- Métrica de relevancia: BM25
¿Por qué se configuró de esta manera?
- Nivel de abstracción (podado de etiquetas): Revisión de
cada nivel (sin stopwords)
- pares: al menos 50% debe estar presente en el contenido
- impares: al menos el 60% debe estar presente en el contenido
Demo
Resultados
60% la recomendación
de BM25 fue
seleccionada sobre la
de TF/IDF
Resultados
Al menos el 50% de las veces se
seleccionó la recomendación de
BM25 sobre la de TF/IDF
Desempeño de BM25: 47% de los documentos totales de una
colección, verificados por 5 personas.
Producción - batch
Producción - on line
conclusiones
+ BM25 tiene mejor desempeño que TF/IDF
+ BM25 tiene recomendaciones más específicas
+ 24% BM25 = TF/IDF
+ Errores de BM25 asociados a Tema y no especificidad (60%)
+ Sección con más error: Salud → hay pocas etiquetas en la
taxonomía, poca especificidad
Preguntas
???
Liliana Millán: liliana.millan@gmail.com

Más contenido relacionado

Destacado

Destacado (15)

Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública Medio ambiente construido y su relación con la salud pública
Medio ambiente construido y su relación con la salud pública
 
Conservando empleos analíticos en México
Conservando empleos analíticos en México Conservando empleos analíticos en México
Conservando empleos analíticos en México
 
¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?¿Quién es Amazon Web Services?
¿Quién es Amazon Web Services?
 
Pentaho Data Integration: El ataque del Data Science
Pentaho Data Integration: El ataque del Data Science Pentaho Data Integration: El ataque del Data Science
Pentaho Data Integration: El ataque del Data Science
 
Lo que Piensan los Ahorradores Mexicanos
 Lo que Piensan los Ahorradores Mexicanos  Lo que Piensan los Ahorradores Mexicanos
Lo que Piensan los Ahorradores Mexicanos
 
AnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web ServicAnalyticZ … De la A a la Z con Amazon Web Servic
AnalyticZ … De la A a la Z con Amazon Web Servic
 
Diseñando un Big Pipeline para Big Data
Diseñando un Big Pipeline para Big DataDiseñando un Big Pipeline para Big Data
Diseñando un Big Pipeline para Big Data
 
Big Data Fortaleciendo Decisiones Empresariales
Big Data Fortaleciendo Decisiones Empresariales Big Data Fortaleciendo Decisiones Empresariales
Big Data Fortaleciendo Decisiones Empresariales
 
Estadística Bayesiana y Programación Probabilística
Estadística Bayesiana y Programación ProbabilísticaEstadística Bayesiana y Programación Probabilística
Estadística Bayesiana y Programación Probabilística
 
Data Day - Procuracion de justicia
Data Day  - Procuracion de justiciaData Day  - Procuracion de justicia
Data Day - Procuracion de justicia
 
JVM Reactive Programming
JVM Reactive ProgrammingJVM Reactive Programming
JVM Reactive Programming
 
Mexican Landscape of DS & AI
Mexican Landscape of DS & AIMexican Landscape of DS & AI
Mexican Landscape of DS & AI
 
Rapidminer: La clave para la innovación en la ciencia de los datos
Rapidminer: La clave para la innovación en la ciencia de los datosRapidminer: La clave para la innovación en la ciencia de los datos
Rapidminer: La clave para la innovación en la ciencia de los datos
 
Entrepreneurship with Data, Machine Learning and AI
Entrepreneurship with Data, Machine Learning and AIEntrepreneurship with Data, Machine Learning and AI
Entrepreneurship with Data, Machine Learning and AI
 
Estadistica y Machine Learning para Todos
Estadistica y Machine Learning para TodosEstadistica y Machine Learning para Todos
Estadistica y Machine Learning para Todos
 

Similar a Etiquetado de contenido editorial con bm25

Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Ketty Rodriguez
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
selyo23
 
Clasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores socialesClasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores sociales
Nicolás Tourné
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
Cristianbike_
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
valerydlahoz
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
sandravane14
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
sergiodelta3
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
danirg
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
Lina Ruiz
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
Gyo Reales
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
selyo23
 
Bases de datos_conceptos(2)
Bases de datos_conceptos(2)Bases de datos_conceptos(2)
Bases de datos_conceptos(2)
alejandraordonez
 

Similar a Etiquetado de contenido editorial con bm25 (20)

Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
Admi 4005 BúSquedas IntroduccióN 26 De Agosto 2009
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Incremental Methods for Context-Based Web Retrieval
Incremental Methods for Context-Based Web RetrievalIncremental Methods for Context-Based Web Retrieval
Incremental Methods for Context-Based Web Retrieval
 
Clasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores socialesClasificación de Páginas web usando Marcadores sociales
Clasificación de Páginas web usando Marcadores sociales
 
Métodos de búsqueda en internet
Métodos de búsqueda en internetMétodos de búsqueda en internet
Métodos de búsqueda en internet
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos
Bases de datos_conceptosBases de datos_conceptos
Bases de datos_conceptos
 
Bases de datos_conceptos(2)
Bases de datos_conceptos(2)Bases de datos_conceptos(2)
Bases de datos_conceptos(2)
 

Último

ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
IrisMoreno27
 
PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
CelesteRolon2
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
BESTTech1
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
JC Díaz Herrera
 

Último (20)

Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .COMUNICADO PARA TODO TIPO DE REUNIONES .
COMUNICADO PARA TODO TIPO DE REUNIONES .
 
ETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministroETICA EN LA CADENAS la cadena de suministro
ETICA EN LA CADENAS la cadena de suministro
 
Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1Alfredo Gabriel Rodriguez Yajure Tarea#1
Alfredo Gabriel Rodriguez Yajure Tarea#1
 
Panorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATOPanorama Sociodemográfico de México 2020: GUANAJUATO
Panorama Sociodemográfico de México 2020: GUANAJUATO
 
PLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorarPLAN ANUAL DE PROYECTO 2020. para mejorar
PLAN ANUAL DE PROYECTO 2020. para mejorar
 
Los idiomas más hablados en el mundo (2024).pdf
Los idiomas más hablados en el mundo  (2024).pdfLos idiomas más hablados en el mundo  (2024).pdf
Los idiomas más hablados en el mundo (2024).pdf
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
procedimiento paran la planificación en los centros educativos tipo v(multig...
procedimiento  paran la planificación en los centros educativos tipo v(multig...procedimiento  paran la planificación en los centros educativos tipo v(multig...
procedimiento paran la planificación en los centros educativos tipo v(multig...
 
Conversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latinoConversacion.pptx en guarani boliviano latino
Conversacion.pptx en guarani boliviano latino
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
Principales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto RicoPrincipales Retos Demográficos de Puerto Rico
Principales Retos Demográficos de Puerto Rico
 
PIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos añosPIB PERÚ datos y análisis de los últimos años
PIB PERÚ datos y análisis de los últimos años
 
Análisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.pptAnálisis del Modo y Efecto de Fallas AMEF.ppt
Análisis del Modo y Efecto de Fallas AMEF.ppt
 
EPIDEMIO CANCER PULMON resumen nnn.pptx
EPIDEMIO CANCER PULMON  resumen nnn.pptxEPIDEMIO CANCER PULMON  resumen nnn.pptx
EPIDEMIO CANCER PULMON resumen nnn.pptx
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 

Etiquetado de contenido editorial con bm25

  • 1. Etiquetado de contenidos editoriales con BM25 Liliana Millán liliana.millan@gmail.com Twitter: @silil3 http://sg.com.mx/dataday #datadaymx
  • 2. Agenda + Problema + Justificación + IR + TF/IDF + BM25 + Modelo + Demo + Resultados + Producción + Conclusiones
  • 3. Problema - Colección de documentos editoriales sin clasificación de tema - Contamos con una taxonomía creada por los editores del grupo para ‘etiquetar’ el contenido —~4,000 etiquetas— - Queremos clasificar el contenido con las etiquetas de la taxonomía de manera automática
  • 4. ¿Por qué es importante? - SEO = $$$ - Recomendación de contenidos similares - usuarios - Recomendación de contenidos similares - editores - Organización de contenido digital en la empresa - Ontología
  • 5. Information Retrieval (IR) Un sistema de recuperación de información IR está compuesto por 3 elementos: - Una colección de documentos - Una consulta (con uno más términos) - Ordenar la colección de acuerdo a una medida de relevancia con respecto a la consulta realizada
  • 6. Google, el IR por default
  • 7. Algoritmos de IR - Algebráicos - Similitud Jaccard, Distancia coseno, TF-IDF, LSI - Probabilísticos - BM25, BM25F, LDA - Machine Learning - Modelos supervisados de clasificación, Deep Learning
  • 8. TF-IDF tft,d Frecuencia del término t en el documento d N Tamaño de la colección de documentos df Número de documentos de la colección en los que aparece el término t
  • 10. ¿Por qué BM25? - Permite controlar el efecto que tiene la frecuencia con la que aparece un término en un documento - Permite controlar el efecto que tiene la frecuencia con la que aparece un término en la consulta - Permite controlar el efecto que tiene la longitud del documento
  • 11. Modelo para etiquetado de contenido - Query de consulta: El contenido generado por el editor - Colección de documentos: las ~4,000 etiquetas - Métrica de relevancia: BM25 ¿Por qué se configuró de esta manera? - Nivel de abstracción (podado de etiquetas): Revisión de cada nivel (sin stopwords) - pares: al menos 50% debe estar presente en el contenido - impares: al menos el 60% debe estar presente en el contenido
  • 12. Demo
  • 13. Resultados 60% la recomendación de BM25 fue seleccionada sobre la de TF/IDF
  • 14. Resultados Al menos el 50% de las veces se seleccionó la recomendación de BM25 sobre la de TF/IDF Desempeño de BM25: 47% de los documentos totales de una colección, verificados por 5 personas.
  • 17. conclusiones + BM25 tiene mejor desempeño que TF/IDF + BM25 tiene recomendaciones más específicas + 24% BM25 = TF/IDF + Errores de BM25 asociados a Tema y no especificidad (60%) + Sección con más error: Salud → hay pocas etiquetas en la taxonomía, poca especificidad