Evaluación de sistemas de monitorización de
     contenidos generados por usuarios

  Enrique Amigó, Damiano Spina                  Bernardino Beotas
    Grupo PLN y RI de la UNED                     Grupo ALMA
  {enrique,damiano}@lsi.uned.es               b.beotas@almatech.es
            nlp.uned.es                        www.grupoalma.com




             Workshop on Opinion Mining and Sentiment Analysis
                               CAEPIA 2009
                              Sevilla, España
Evaluación de sistemas de monitorización de
contenidos generados por usuarios (UGCs)

 Introducción
   › Gestión de reputación online
   › Informe de monitorización
 Estado del arte
   › Modelos para la monitorización de temas
   › Evaluación de modelos
 Propuesta de metodología de evaluación
 Conclusiones y posibilidades futuras


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
UGCs y Gestión de reputación online


 Contenido Generado por Usuario
   › User Generated Content (UGC)
   › Blogs, Foros, Sitios de valoraciones, redes sociales




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
UGCs y Gestión de reputación online


 Contenido Generado por Usuario
    › User Generated Content (UGC)
    › Blogs, Foros, Sitios de valoraciones, redes sociales
 Gestión de la reputación online (Online Reputation Management, ORM)
    › Auditoría de imagen
               Fotografía: la entidad en la Web
    › Monitorización
               Alertas
               Análisis continuo
    › Definición de Estrategia
               Participación en las conversaciones
               Generación de Contenido




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
UGCs y Gestión de reputación online


 Contenido Generado por Usuario
    › User Generated Content (UGC)
    › Blogs, Foros, Sitios de valoraciones, redes sociales
 Gestión de la reputación online (Online Reputation Management, ORM)
    › Auditoría de imagen
               Fotografía: la entidad en la Web
    › Monitorización
               Alertas
               Análisis continuo
    › Definición de Estrategia
               Participación en las conversaciones
               Generación de Contenido




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Monitorización de la reputación online




                 UGCs




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización de la reputación online




                 UGCs


                                                                                     Informe de
                                                                                    monitorización




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                 Grupo ALMA
   nlp.uned.es                                                                             www.grupoalma.com
El informe de monitorización


 Informe de monitorización
   › Opiniones más relevantes en un intervalo de tiempo
   › Estructurado por fuentes
   › Referencias a los documentos




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
El informe de monitorización


 Informe de monitorización
   › Opiniones más relevantes en un intervalo de tiempo
   › Estructurado por fuentes
   › Referencias a los documentos
 Relevancia de un documento
   › Polaridad a nivel de reputación
              "Las acciones de X han bajado un 40%"
   › Autoridad de la fuente
              Nº de comentarios, posicionamiento en buscadores, nº de visitas…
   › Novedad
   › Propagabilidad



   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                Factual




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                    Grupo ALMA
   nlp.uned.es                                                                                www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                               Opinión                    Factual
                                                                         Ambigüedad (IR)                         Opinion Mining &
                                                                                                                 Sentiment Analysis
                              TREC Blog Track,
                                MOAT NTCIR                                  Subjetividad
  Feature-based
  Opinion mining                                                              Polaridad                          SemEval2007

                                         Swotti                              Frecuencia

                                                                                 Temas

                                                                           Temporalidad

                                                                              Autoridad




     Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
     nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad

                                                                           Frecuencia

                  BlogPulse, Technorati                                        Temas

                                                                         Temporalidad
                        Herramientas                                        Autoridad
                            SEO




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad
                                                                                                               Monitorización de
                                                                           Frecuencia                          temas

             distribución de términos,                                         Temas
             modelos probabilísticos
                                                                         Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad
                                                                                                               Monitorización de
                                                                           Frecuencia                          temas


                                                                               Temas
            Informe de
           monitorización                                                Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad
                                                                                                               Monitorización de
                                                                           Frecuencia                          temas


                                                                               Temas
            Informe de
           monitorización                                                Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                              Opinión                   Factual
                                                                       Ambigüedad (IR)                     Opinion Mining &
                                                                                                           Sentiment Analysis
                                                                          Subjetividad                     Análisis de la
                                                                                                           blogosfera
                                                                            Polaridad
                                                                                                           Monitorización de
                                                                           Frecuencia                      temas


                                                                               Temas
            Informe de
           monitorización                                                Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                    Grupo ALMA
   nlp.uned.es                                                                                www.grupoalma.com
Monitorización: ¿Qué tienen en cuenta los expertos?
                                                             Opinión                    Factual
                                                                       Ambigüedad (IR)                         Opinion Mining &
                                                                                                               Sentiment Analysis
                                                                          Subjetividad                         Análisis de la
                                                                                                               blogosfera
                                                                            Polaridad
                                                                                                               Monitorización de
                                                                           Frecuencia                          temas


                                                                               Temas
            Informe de
           monitorización                                                Temporalidad

                                                                            Autoridad




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural                        Grupo ALMA
   nlp.uned.es                                                                                    www.grupoalma.com
Requisitos del problema


 Requisitos
   › Agregación
              Identificación de temas tratados en las opiniones
              Conocer los temas nuevos y las tendencias
   › Temporalidad
              Identificación de fenómenos temporales
              Novedad
   › Interpretabilidad
              Interpretar los temas identificados
   › Accesibilidad
              Exploración de documentos asociados a los temas
              Selección de documentos para el informe de monitorización


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Estado del arte


 Modelos para la monitorización de temas
   › Tema ≈ término
               tfcidf (Gruhl et al., 2004)



   › Tema ≈ variable oculta en una red bayesiana
               pLSI (Chou & Chen, 2008)
               Mixture models (Mei et al., 2006)
               Topics Over Time (Wang & McCallum, 2006)
               Dynamic Topic Model (Blei & Lafferty, 2006)
               Multiscale Topic Tomography (Nallapati et al., 2007)




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Estado del arte


 Metodologías de evaluación
   › Evaluación cualitativa de los resultados
               Subjetiva
               No permite comparar modelos
   › Evaluación intrínseca
               No permiten evaluar todos los requisitos
               Métricas de clustering
               Perplejidad -> sólo modelos probabilísticos
   › Evaluación extrínseca
               Temas extraídos automaticamente vs. Temas extraídos manualmente
                   – Gold standard para subtemas
               Topic Detection and Tracking (TDT)
                   – Centrada en eventos periodísticos
                   – documento-evento: relación uno-a-uno

    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Propuesta de metodología de evaluación




                               P(x|y): distribución de probabilidad de x dada una instancia de la variable y.

 Métricas:
   › Temporalidad y agregación
   › Accesibilidad
   › Capacidad predictiva e Interpretabilidad


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Métrica 1: Temporalidad


 Identificación de fenómenos temporales
 Documentos conectados por un tema deberían de estar
  temporalmente próximos
 Dos documentos están conectados si hablan de un mismo
  tema




                                 : Distancia temporal entre los documentos d y d’


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Métrica 2: Agregación


 Capacidad de agrupar documentos que comparten un mismo
  tema
 Documentos explícitamente relacionados deberían de
  compartir temas
 Relaciones explícitas:
   › Fuente
                                                           ’
                                                      <da,da> : explícitamente relacionados
   › Autor                                            <db,d’ > : no explícitamente relacionados
                                                           c
   › Enlaces




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Métrica 3: Accesibilidad


 Capacidad de dar acceso a los n documentos más relevantes
  de cada tema
 Anotación de los expertos
 Curvas de precisión y cobertura
 : conjunto de los n documentos con mayor P(d|θ) de cada
  tema
 : conjunto de documentos relevantes según el experto




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Métrica 4: Capacidad predictiva


 Capacidad de predecir el comportamiento de los temas en un
  futuro próximo

 P(t|θ)

 Evaluación indirecta                        (Wang & McCallum, 2006)
   › Un modelo capaz de predecir la fecha de un documento tiene más
     capacidad predictiva en general
   › P(t|d)




   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Métrica 5: Interpretabilidad


 Capacidad de generar temas interpretables por el usuario

 P(w| θ)

 No es posible anotar manualmente todas las palabras
  representativas posibles

 Evaluación manual con usuarios de prueba




    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Conclusiones


 Factores importantes para la
  monitorización de la reputación online
   › autoridad, polaridad, novedad, propagabilidad
   › Contenido Generados por Usuarios (UGCs)


 Esbozo de una metodología de evaluación
   › Comparar modelos de monitorización de temas

   › Temporalidad y agregación
   › Accesibilidad
   › Capacidad predictiva e interpretabilidad


   Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
   nlp.uned.es                                                                      www.grupoalma.com
Posibilidades futuras


 Aplicar métricas a modelos existentes de monitorización de
  temas (temporalidad y agregación)
 Definir un modelo que tenga en cuenta la autoridad de las
  fuentes
 Definir una metodología de anotación para aplicar la métrica
  de accesibilidad
 Aplicación de las métricas capacidad predictiva e
  interpretabilidad
   › Definición de interfaces de usuario comunes para los modelos
     existentes



    Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural          Grupo ALMA
    nlp.uned.es                                                                      www.grupoalma.com
Evaluación de sistemas de monitorización de contenidos
                 generados por usuarios


                      ¡Muchas gracias!

  Enrique Amigó, Damiano Spina                  Bernardino Beotas
    Grupo PLN y RI de la UNED                     Grupo ALMA
  {enrique,damiano}@lsi.uned.es               b.beotas@almatech.es
            nlp.uned.es                       www.grupoalma.com




            Workshop on Opinion Mining and Sentiment Analysis
                              CAEPIA 2009
                             Sevilla, España

Evaluación de sistemas de monitorización de contenidos generados por usuarios

  • 1.
    Evaluación de sistemasde monitorización de contenidos generados por usuarios Enrique Amigó, Damiano Spina Bernardino Beotas Grupo PLN y RI de la UNED Grupo ALMA {enrique,damiano}@lsi.uned.es b.beotas@almatech.es nlp.uned.es www.grupoalma.com Workshop on Opinion Mining and Sentiment Analysis CAEPIA 2009 Sevilla, España
  • 2.
    Evaluación de sistemasde monitorización de contenidos generados por usuarios (UGCs)  Introducción › Gestión de reputación online › Informe de monitorización  Estado del arte › Modelos para la monitorización de temas › Evaluación de modelos  Propuesta de metodología de evaluación  Conclusiones y posibilidades futuras Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 3.
    UGCs y Gestiónde reputación online  Contenido Generado por Usuario › User Generated Content (UGC) › Blogs, Foros, Sitios de valoraciones, redes sociales Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 4.
    UGCs y Gestiónde reputación online  Contenido Generado por Usuario › User Generated Content (UGC) › Blogs, Foros, Sitios de valoraciones, redes sociales  Gestión de la reputación online (Online Reputation Management, ORM) › Auditoría de imagen Fotografía: la entidad en la Web › Monitorización Alertas Análisis continuo › Definición de Estrategia Participación en las conversaciones Generación de Contenido Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 5.
    UGCs y Gestiónde reputación online  Contenido Generado por Usuario › User Generated Content (UGC) › Blogs, Foros, Sitios de valoraciones, redes sociales  Gestión de la reputación online (Online Reputation Management, ORM) › Auditoría de imagen Fotografía: la entidad en la Web › Monitorización Alertas Análisis continuo › Definición de Estrategia Participación en las conversaciones Generación de Contenido Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 6.
    Monitorización de lareputación online UGCs Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 7.
    Monitorización de lareputación online UGCs Informe de monitorización Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 8.
    El informe demonitorización  Informe de monitorización › Opiniones más relevantes en un intervalo de tiempo › Estructurado por fuentes › Referencias a los documentos Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 9.
    El informe demonitorización  Informe de monitorización › Opiniones más relevantes en un intervalo de tiempo › Estructurado por fuentes › Referencias a los documentos  Relevancia de un documento › Polaridad a nivel de reputación "Las acciones de X han bajado un 40%" › Autoridad de la fuente Nº de comentarios, posicionamiento en buscadores, nº de visitas… › Novedad › Propagabilidad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 10.
    Monitorización: ¿Qué tienenen cuenta los expertos? Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 11.
    Monitorización: ¿Qué tienenen cuenta los expertos? Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 12.
    Monitorización: ¿Qué tienenen cuenta los expertos? Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 13.
    Monitorización: ¿Qué tienenen cuenta los expertos? Opinión Factual Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 14.
    Monitorización: ¿Qué tienenen cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis TREC Blog Track, MOAT NTCIR Subjetividad Feature-based Opinion mining Polaridad SemEval2007 Swotti Frecuencia Temas Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 15.
    Monitorización: ¿Qué tienenen cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Frecuencia BlogPulse, Technorati Temas Temporalidad Herramientas Autoridad SEO Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 16.
    Monitorización: ¿Qué tienenen cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas distribución de términos, Temas modelos probabilísticos Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 17.
    Monitorización: ¿Qué tienenen cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas Temas Informe de monitorización Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 18.
    Monitorización: ¿Qué tienenen cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas Temas Informe de monitorización Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 19.
    Monitorización: ¿Qué tienenen cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas Temas Informe de monitorización Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 20.
    Monitorización: ¿Qué tienenen cuenta los expertos? Opinión Factual Ambigüedad (IR) Opinion Mining & Sentiment Analysis Subjetividad Análisis de la blogosfera Polaridad Monitorización de Frecuencia temas Temas Informe de monitorización Temporalidad Autoridad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 21.
    Requisitos del problema Requisitos › Agregación Identificación de temas tratados en las opiniones Conocer los temas nuevos y las tendencias › Temporalidad Identificación de fenómenos temporales Novedad › Interpretabilidad Interpretar los temas identificados › Accesibilidad Exploración de documentos asociados a los temas Selección de documentos para el informe de monitorización Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 22.
    Estado del arte Modelos para la monitorización de temas › Tema ≈ término tfcidf (Gruhl et al., 2004) › Tema ≈ variable oculta en una red bayesiana pLSI (Chou & Chen, 2008) Mixture models (Mei et al., 2006) Topics Over Time (Wang & McCallum, 2006) Dynamic Topic Model (Blei & Lafferty, 2006) Multiscale Topic Tomography (Nallapati et al., 2007) Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 23.
    Estado del arte Metodologías de evaluación › Evaluación cualitativa de los resultados Subjetiva No permite comparar modelos › Evaluación intrínseca No permiten evaluar todos los requisitos Métricas de clustering Perplejidad -> sólo modelos probabilísticos › Evaluación extrínseca Temas extraídos automaticamente vs. Temas extraídos manualmente – Gold standard para subtemas Topic Detection and Tracking (TDT) – Centrada en eventos periodísticos – documento-evento: relación uno-a-uno Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 24.
    Propuesta de metodologíade evaluación P(x|y): distribución de probabilidad de x dada una instancia de la variable y.  Métricas: › Temporalidad y agregación › Accesibilidad › Capacidad predictiva e Interpretabilidad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 25.
    Métrica 1: Temporalidad Identificación de fenómenos temporales  Documentos conectados por un tema deberían de estar temporalmente próximos  Dos documentos están conectados si hablan de un mismo tema : Distancia temporal entre los documentos d y d’ Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 26.
    Métrica 2: Agregación Capacidad de agrupar documentos que comparten un mismo tema  Documentos explícitamente relacionados deberían de compartir temas  Relaciones explícitas: › Fuente ’ <da,da> : explícitamente relacionados › Autor <db,d’ > : no explícitamente relacionados c › Enlaces Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 27.
    Métrica 3: Accesibilidad Capacidad de dar acceso a los n documentos más relevantes de cada tema  Anotación de los expertos  Curvas de precisión y cobertura  : conjunto de los n documentos con mayor P(d|θ) de cada tema  : conjunto de documentos relevantes según el experto Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 28.
    Métrica 4: Capacidadpredictiva  Capacidad de predecir el comportamiento de los temas en un futuro próximo  P(t|θ)  Evaluación indirecta (Wang & McCallum, 2006) › Un modelo capaz de predecir la fecha de un documento tiene más capacidad predictiva en general › P(t|d) Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 29.
    Métrica 5: Interpretabilidad Capacidad de generar temas interpretables por el usuario  P(w| θ)  No es posible anotar manualmente todas las palabras representativas posibles  Evaluación manual con usuarios de prueba Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 30.
    Conclusiones  Factores importantespara la monitorización de la reputación online › autoridad, polaridad, novedad, propagabilidad › Contenido Generados por Usuarios (UGCs)  Esbozo de una metodología de evaluación › Comparar modelos de monitorización de temas › Temporalidad y agregación › Accesibilidad › Capacidad predictiva e interpretabilidad Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 31.
    Posibilidades futuras  Aplicarmétricas a modelos existentes de monitorización de temas (temporalidad y agregación)  Definir un modelo que tenga en cuenta la autoridad de las fuentes  Definir una metodología de anotación para aplicar la métrica de accesibilidad  Aplicación de las métricas capacidad predictiva e interpretabilidad › Definición de interfaces de usuario comunes para los modelos existentes Grupo UNED en Recuperación de Información y Procesamiento del Lenguaje Natural Grupo ALMA nlp.uned.es www.grupoalma.com
  • 32.
    Evaluación de sistemasde monitorización de contenidos generados por usuarios ¡Muchas gracias! Enrique Amigó, Damiano Spina Bernardino Beotas Grupo PLN y RI de la UNED Grupo ALMA {enrique,damiano}@lsi.uned.es b.beotas@almatech.es nlp.uned.es www.grupoalma.com Workshop on Opinion Mining and Sentiment Analysis CAEPIA 2009 Sevilla, España