SlideShare una empresa de Scribd logo
1 de 26
ONLINE REPUTATION
MANAGEMENT: AUTOMATIC
SUMMARIZATION ON TWITTER.
Máster en lenguajes y sistemas informáticos
avanzados
UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA
TRABAJO FIN DE MASTER
1
MOTIVACIÓN
 La reputación en la red es la primera imagen de
una persona o compañía y las redes sociales
juegan un papel importante.
 La información sobre compañías se transmite en
cuestión de segundos y con ello las pudiendo
afectarles.
2
MOTIVACIÓN
¿Qué es la Reputación Online?
 La reputación online es el reflejo del prestigio o
estima de una persona o marca en Internet.
 La reputación sólo es parcialmente controlable ya
que se crea y recrea a partir de las percepciones
que conforman un estado de opinión.
3
CONTEXTUALIZACIÓN DEL
PROBLEMA
 Las compañías deben analizar toda la
información de la red rápidamente para:
 Dar respuesta.
 Cambiar las estrategias empresariales.
 Realizar modificaciones a un producto etc.
 Existen muchas aplicaciones en la web que
permiten estudiar el comportamiento de los
usuarios en la red.  Costes
4
CONTEXTUALIZACIÓN DEL
PROBLEMA
COMMUNITY MANAGER
 En el ámbito de las relaciones públicas ha
tomado forma la figura del Responsable de
comunidad (Community Manager), encargado
de:
 Gestionar profesionalmente los aspectos relacionados
con la presencia en redes y medios sociales, y por lo
tanto,
 Construir y mantener la reputación online de la
empresa.
 Crear, analizar, entender y direccionar la
información.
 Crear estrategias de comunicación digital.
 Establecer una comunicación transparente.
5
CONTEXTUALIZACIÓN DEL
PROBLEMA
ANÁLISIS DE LA REPUTACIÓN
 Es necesario hacer una exhaustivo análisis
cualitativo y cuantitativo plasmado en un
informe de Reputación:
 ¿Qué se habla de la marca? – Opiniones significativas en los que se
habla de la empresa.
 ¿Dónde se habla de la marca? – Los canales en que se menciona la
marca.
 ¿Quién habla de la marca? – Datos socio demográficos e influentes.
 ¿Cuándo se habla de la marca? – Fechas y periodos de tiempo
 ¿Cómo se habla de la marca? – Sentimiento de la menciones
 ¿Cuánto se habla de la marca? – Cifras y porcentajes que miden los
resultados cuantitativamente.
6
CONTEXTUALIZACIÓN DEL
PROBLEMA
DIMENSIONES
 El usuario final tiene que ver la información de
manera clara y ordenada  la información aparece
clasificada en dimensiones.
 Las dimensiones de estos resúmenes se traducen a las
diferentes áreas de interés que tiene una empresa.
 Dimensiones del modelo RepTrak del Reputation
Institute:
 Oferta de Productos/ Servicios
 Innovación
 Entorno de trabajo
 Ciudadanía
 Integridad
 Liderazgo
 Finanzas. 7
HIPÓTESIS Y OBJETIVOS
Objetivo principal:
Generar un resumen de alta compresión sobre
entradas de microblog (Twitter) que permita el
análisis de la reputación de una compañía por
parte de expertos en comunicación.
Hipótesis:
El análisis de la reputación en el dominio
empresarial posee un conjunto de dimensiones
reputacionales que se pueden explotar en la
elaboración automática de un resumen.
8
MEDIOS DE DIFUSIÓN ONLINE
9
TWITTER
 Plataforma microblogging que permite a sus
usuarios publicar en línea pequeños fragmentos
de texto.
 Más de 500 millones de usuarios, 65 millones de
Tuits al día y más de 800.000 peticiones de
búsqueda diarias.
 Características:
 Se permiten un máximo de 140 caracteres.
 Meta-datos:
 Mención a un usuario: @
 Hashtag: #
 Retuit: RT 10
SISTEMAS DE ACCESO A LA
INFORMACIÓN EN TWITTER
 Sankaranarayanan et al. (2009): un sistema de
identificación de noticias de última hora
construyendo un sistema de procesamiento de
noticias de Twitter.
 Efron (2011): introducción a los problemas que
encuentran los investigadores y desarrolladores
de la Recuperación de Información de sistemas
(IR) en la configuración de los microblogs.
11
RESUMEN AUTOMÁTICO EN
TWITTER
Resumen: un texto que se produce a partir de uno
o más textos, que transmite la información
importante al texto original.
Características de Twitter como fuente para el
resumen automático:
 Longitud
 Twitts ilegibles
 Diversidad de usuarios
 Hipervínculos
 Redundante
12
DESARROLLO DE LA SOLUCIÓN
La solución se centra en el resumen automático
de Tuits para las compañías incorporando
conocimiento a priori para posteriormente aplicar
un algoritmo de eliminación de redundancia.
13
DESARROLLO DE LA SOLUCIÓN
CLASIFICACIÓN POR DIMENSIONES
Dimensiones reputacionales:
14
DESARROLLO DE LA SOLUCIÓN
CLASIFICACIÓN POR DIMENSIONES
15
DESARROLLO DE LA SOLUCIÓN
CLASIFICACIÓN POR DIMENSIONES
16
DESARROLLO DE LA SOLUCIÓN
CLASIFICACIÓN POR DIMENSIONES
Gazzeters o Lexicones:
Representan un conocimiento a priori que reduce la
necesidad de un corpus de entrenamiento sobre el que
basar las decisiones del sistema.
Extraídos de unos determinados glosarios para cada
dimensión:
 Glosario financiero del Grupo Santander.
 Glosario sobre Política Económica y Social del Ministerio
de Economía y Finanzas.
 Glosario de términos sobre ciencia, tecnología e innovación
de la UNESCO.
 Glosario de términos del Servicio Público de Empleo
Estatal.
 …
17
DESARROLLO DE LA SOLUCIÓN
CALCULO DE RELEVANCIA
Un Tuit es importante si:
 Trata sobre alguna dimensión de la empresa.
 Número de retuits: Se asume que un Tuit con muchos
retuits contiene información relevante.
 Redundancia: si algo se ha comentado por varias
personas, esta será considerada como información
relevante.
 Menciones y hashtags: Los usuarios experienciados y
influenciables, hacen menciones a otros usuarios o
temas en sus Tuits. 18
DESARROLLO DE LA SOLUCIÓN
ELIMINACIÓN DE REDUNDANCIA
 El sistema elimina aquellos Tuits que tengan
cierta redundancia con un Tuit anterior.
 Para ello, se considera el número de palabras
solapadas en ambos Tuits , sin considerar
stopwords, es decir, términos sin contenido
semántico (determinantes, preposiciones, etc).
19
EXPERIMENTOS Y EVALUACIÓN
EXPERIMENTOS PREVIOS
 Los primeros experimentos realizados han sido con los
conjuntos de datos que ya estaban disponibles para el
proyecto.
 Existía una serie de corpus que contenía un conjunto de
Tuits relacionados con dos compañías. Estos han sido
procesados y clasificados por el sistema para obtener los
más relevantes generando así un resumen.
 Se han realizado comparaciones entre los dos informes
para ver la cobertura del modelo.
20
EXPERIMENTOS Y EVALUACIÓN
EXPERIMENTOS SOBRE DATOS ANOTADOS EN REPLAB
 El corpus que se utiliza en Replab se compone de
una colección de Tuits que se refieren a un
conjunto seleccionado de entidades del sector de
la automoción y banca.
 El rastreo se realizó durante el período
comprendido entre el 1 de junio de 2012 hasta el
31 de diciembre 2012 utilizando el nombre
canónico de la entidad en su consulta.
 Para este experimento se han seleccionado 19
entidades en total.
21
EXPERIMENTOS Y EVALUACIÓN
EXPERIMENTOS PREVIOS
 Cada una de las gráficas muestra los resultados
para distintos grados de compresión,
determinados por el umbral de similitud aplicado
en el proceso de eliminación de redundancia
22
EXPERIMENTOS Y EVALUACIÓN
EXPERIMENTOS PREVIOS
23
EXPERIMENTOS Y EVALUACIÓN
EXPERIMENTOS PREVIOS
 El filtro de clasificación por dimensiones permite
un grado de compresión del 3% cubriendo un 20%
de los topics de alta relevancia.
 Obtenemos una menor cobertura sobre topics de
alta y media prioridad pero con un grado mucho
mayor de compresión.
24
CONCLUSIONES
 Es la primera vez que se aplican técnicas de
resumen después de introducir información
supervisada.
 Los informes que se generan aplicando la
clasificación por dimensiones cubren topics
relevantes de un periodo de tiempo determinado.
 Se ha abierto un camino que dará lugar a otros
estudios más avanzados o derivados.
25
LÍNEAS FUTURAS
 Mejora de la ampliación de la terminología
(gazetteers) al Inglés o incluso ampliarla a
algunos idiomas concretos.
 Lematización: llevar a cabo un análisis
morfológico antes de clasificar los Tuits.
 La utilización de URLs para enriquecer el
resumen.
26

Más contenido relacionado

Similar a Online reputation managment. Twitter

Tesis de Grado - Sistema de Gestión de Producción Creativa
Tesis de Grado - Sistema de Gestión de Producción CreativaTesis de Grado - Sistema de Gestión de Producción Creativa
Tesis de Grado - Sistema de Gestión de Producción CreativaGilberto Ramos Amarilla
 
Estudio Balance de Expresiones Online
Estudio Balance de Expresiones OnlineEstudio Balance de Expresiones Online
Estudio Balance de Expresiones OnlineLLYC
 
Desayuno: Cómo optimizar la satisfacción de sus clientes y reducir los costos...
Desayuno: Cómo optimizar la satisfacción de sus clientes y reducir los costos...Desayuno: Cómo optimizar la satisfacción de sus clientes y reducir los costos...
Desayuno: Cómo optimizar la satisfacción de sus clientes y reducir los costos...amdia
 
Metodologìa integradora de procesos empresariales
Metodologìa integradora de procesos empresarialesMetodologìa integradora de procesos empresariales
Metodologìa integradora de procesos empresarialesLesber DC
 
Como Integrar Social Media en su Organización
Como Integrar Social Media en su OrganizaciónComo Integrar Social Media en su Organización
Como Integrar Social Media en su Organizaciónc-builder
 
Em bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementaciónEm bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementaciónEdison_Medina
 
"Planificación, Diseño y Desarrollo de los Sistemas de Información. ”
"Planificación, Diseño y Desarrollo de los Sistemas de Información. ” "Planificación, Diseño y Desarrollo de los Sistemas de Información. ”
"Planificación, Diseño y Desarrollo de los Sistemas de Información. ” CARMEN VIEJO DÍAZ
 
Metodologia integradora de procesos empresariales1
Metodologia integradora de procesos empresariales1Metodologia integradora de procesos empresariales1
Metodologia integradora de procesos empresariales1yohanaperez_alarcon
 
Metodologia integradora de procesos empresariales1
Metodologia integradora de procesos empresariales1Metodologia integradora de procesos empresariales1
Metodologia integradora de procesos empresariales1trircy
 
Trabajo word informatica 2[1]
Trabajo word informatica 2[1]Trabajo word informatica 2[1]
Trabajo word informatica 2[1]leidy300
 
Trabajo word informatica 2[1]
Trabajo word informatica 2[1]Trabajo word informatica 2[1]
Trabajo word informatica 2[1]djkamy01
 
Tarea sistemas definición conceptos- final (1)
Tarea sistemas  definición conceptos- final (1)Tarea sistemas  definición conceptos- final (1)
Tarea sistemas definición conceptos- final (1)Roberto Avendaño
 
Hootsuite y otras herramientas de gestión - social media tools
Hootsuite y otras herramientas de gestión - social media toolsHootsuite y otras herramientas de gestión - social media tools
Hootsuite y otras herramientas de gestión - social media toolsVincent Chavy
 
Sesion 05 erp
Sesion 05 erpSesion 05 erp
Sesion 05 erpmydraw
 
SIE - Tarea nº 1
SIE - Tarea nº 1SIE - Tarea nº 1
SIE - Tarea nº 1alejomv88
 

Similar a Online reputation managment. Twitter (20)

Tesis de Grado - Sistema de Gestión de Producción Creativa
Tesis de Grado - Sistema de Gestión de Producción CreativaTesis de Grado - Sistema de Gestión de Producción Creativa
Tesis de Grado - Sistema de Gestión de Producción Creativa
 
Estudio Balance de Expresiones Online
Estudio Balance de Expresiones OnlineEstudio Balance de Expresiones Online
Estudio Balance de Expresiones Online
 
Definición de KPI
Definición de KPIDefinición de KPI
Definición de KPI
 
Sistemas estrategicos
Sistemas estrategicosSistemas estrategicos
Sistemas estrategicos
 
Desayuno: Cómo optimizar la satisfacción de sus clientes y reducir los costos...
Desayuno: Cómo optimizar la satisfacción de sus clientes y reducir los costos...Desayuno: Cómo optimizar la satisfacción de sus clientes y reducir los costos...
Desayuno: Cómo optimizar la satisfacción de sus clientes y reducir los costos...
 
Social Network Solution
Social Network SolutionSocial Network Solution
Social Network Solution
 
Metodologìa integradora de procesos empresariales
Metodologìa integradora de procesos empresarialesMetodologìa integradora de procesos empresariales
Metodologìa integradora de procesos empresariales
 
Como Integrar Social Media en su Organización
Como Integrar Social Media en su OrganizaciónComo Integrar Social Media en su Organización
Como Integrar Social Media en su Organización
 
Em bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementaciónEm bi un repaso por la metodología de implementación
Em bi un repaso por la metodología de implementación
 
"Planificación, Diseño y Desarrollo de los Sistemas de Información. ”
"Planificación, Diseño y Desarrollo de los Sistemas de Información. ” "Planificación, Diseño y Desarrollo de los Sistemas de Información. ”
"Planificación, Diseño y Desarrollo de los Sistemas de Información. ”
 
Metodologia integradora de procesos empresariales1
Metodologia integradora de procesos empresariales1Metodologia integradora de procesos empresariales1
Metodologia integradora de procesos empresariales1
 
Metodologia integradora de procesos empresariales1
Metodologia integradora de procesos empresariales1Metodologia integradora de procesos empresariales1
Metodologia integradora de procesos empresariales1
 
Trabajo word informatica 2[1]
Trabajo word informatica 2[1]Trabajo word informatica 2[1]
Trabajo word informatica 2[1]
 
Trabajo word informatica 2[1]
Trabajo word informatica 2[1]Trabajo word informatica 2[1]
Trabajo word informatica 2[1]
 
Lectura 3 mype
Lectura 3 mypeLectura 3 mype
Lectura 3 mype
 
Tarea sistemas definición conceptos- final (1)
Tarea sistemas  definición conceptos- final (1)Tarea sistemas  definición conceptos- final (1)
Tarea sistemas definición conceptos- final (1)
 
Tarea sistema
Tarea sistemaTarea sistema
Tarea sistema
 
Hootsuite y otras herramientas de gestión - social media tools
Hootsuite y otras herramientas de gestión - social media toolsHootsuite y otras herramientas de gestión - social media tools
Hootsuite y otras herramientas de gestión - social media tools
 
Sesion 05 erp
Sesion 05 erpSesion 05 erp
Sesion 05 erp
 
SIE - Tarea nº 1
SIE - Tarea nº 1SIE - Tarea nº 1
SIE - Tarea nº 1
 

Online reputation managment. Twitter

  • 1. ONLINE REPUTATION MANAGEMENT: AUTOMATIC SUMMARIZATION ON TWITTER. Máster en lenguajes y sistemas informáticos avanzados UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA TRABAJO FIN DE MASTER 1
  • 2. MOTIVACIÓN  La reputación en la red es la primera imagen de una persona o compañía y las redes sociales juegan un papel importante.  La información sobre compañías se transmite en cuestión de segundos y con ello las pudiendo afectarles. 2
  • 3. MOTIVACIÓN ¿Qué es la Reputación Online?  La reputación online es el reflejo del prestigio o estima de una persona o marca en Internet.  La reputación sólo es parcialmente controlable ya que se crea y recrea a partir de las percepciones que conforman un estado de opinión. 3
  • 4. CONTEXTUALIZACIÓN DEL PROBLEMA  Las compañías deben analizar toda la información de la red rápidamente para:  Dar respuesta.  Cambiar las estrategias empresariales.  Realizar modificaciones a un producto etc.  Existen muchas aplicaciones en la web que permiten estudiar el comportamiento de los usuarios en la red.  Costes 4
  • 5. CONTEXTUALIZACIÓN DEL PROBLEMA COMMUNITY MANAGER  En el ámbito de las relaciones públicas ha tomado forma la figura del Responsable de comunidad (Community Manager), encargado de:  Gestionar profesionalmente los aspectos relacionados con la presencia en redes y medios sociales, y por lo tanto,  Construir y mantener la reputación online de la empresa.  Crear, analizar, entender y direccionar la información.  Crear estrategias de comunicación digital.  Establecer una comunicación transparente. 5
  • 6. CONTEXTUALIZACIÓN DEL PROBLEMA ANÁLISIS DE LA REPUTACIÓN  Es necesario hacer una exhaustivo análisis cualitativo y cuantitativo plasmado en un informe de Reputación:  ¿Qué se habla de la marca? – Opiniones significativas en los que se habla de la empresa.  ¿Dónde se habla de la marca? – Los canales en que se menciona la marca.  ¿Quién habla de la marca? – Datos socio demográficos e influentes.  ¿Cuándo se habla de la marca? – Fechas y periodos de tiempo  ¿Cómo se habla de la marca? – Sentimiento de la menciones  ¿Cuánto se habla de la marca? – Cifras y porcentajes que miden los resultados cuantitativamente. 6
  • 7. CONTEXTUALIZACIÓN DEL PROBLEMA DIMENSIONES  El usuario final tiene que ver la información de manera clara y ordenada  la información aparece clasificada en dimensiones.  Las dimensiones de estos resúmenes se traducen a las diferentes áreas de interés que tiene una empresa.  Dimensiones del modelo RepTrak del Reputation Institute:  Oferta de Productos/ Servicios  Innovación  Entorno de trabajo  Ciudadanía  Integridad  Liderazgo  Finanzas. 7
  • 8. HIPÓTESIS Y OBJETIVOS Objetivo principal: Generar un resumen de alta compresión sobre entradas de microblog (Twitter) que permita el análisis de la reputación de una compañía por parte de expertos en comunicación. Hipótesis: El análisis de la reputación en el dominio empresarial posee un conjunto de dimensiones reputacionales que se pueden explotar en la elaboración automática de un resumen. 8
  • 10. TWITTER  Plataforma microblogging que permite a sus usuarios publicar en línea pequeños fragmentos de texto.  Más de 500 millones de usuarios, 65 millones de Tuits al día y más de 800.000 peticiones de búsqueda diarias.  Características:  Se permiten un máximo de 140 caracteres.  Meta-datos:  Mención a un usuario: @  Hashtag: #  Retuit: RT 10
  • 11. SISTEMAS DE ACCESO A LA INFORMACIÓN EN TWITTER  Sankaranarayanan et al. (2009): un sistema de identificación de noticias de última hora construyendo un sistema de procesamiento de noticias de Twitter.  Efron (2011): introducción a los problemas que encuentran los investigadores y desarrolladores de la Recuperación de Información de sistemas (IR) en la configuración de los microblogs. 11
  • 12. RESUMEN AUTOMÁTICO EN TWITTER Resumen: un texto que se produce a partir de uno o más textos, que transmite la información importante al texto original. Características de Twitter como fuente para el resumen automático:  Longitud  Twitts ilegibles  Diversidad de usuarios  Hipervínculos  Redundante 12
  • 13. DESARROLLO DE LA SOLUCIÓN La solución se centra en el resumen automático de Tuits para las compañías incorporando conocimiento a priori para posteriormente aplicar un algoritmo de eliminación de redundancia. 13
  • 14. DESARROLLO DE LA SOLUCIÓN CLASIFICACIÓN POR DIMENSIONES Dimensiones reputacionales: 14
  • 15. DESARROLLO DE LA SOLUCIÓN CLASIFICACIÓN POR DIMENSIONES 15
  • 16. DESARROLLO DE LA SOLUCIÓN CLASIFICACIÓN POR DIMENSIONES 16
  • 17. DESARROLLO DE LA SOLUCIÓN CLASIFICACIÓN POR DIMENSIONES Gazzeters o Lexicones: Representan un conocimiento a priori que reduce la necesidad de un corpus de entrenamiento sobre el que basar las decisiones del sistema. Extraídos de unos determinados glosarios para cada dimensión:  Glosario financiero del Grupo Santander.  Glosario sobre Política Económica y Social del Ministerio de Economía y Finanzas.  Glosario de términos sobre ciencia, tecnología e innovación de la UNESCO.  Glosario de términos del Servicio Público de Empleo Estatal.  … 17
  • 18. DESARROLLO DE LA SOLUCIÓN CALCULO DE RELEVANCIA Un Tuit es importante si:  Trata sobre alguna dimensión de la empresa.  Número de retuits: Se asume que un Tuit con muchos retuits contiene información relevante.  Redundancia: si algo se ha comentado por varias personas, esta será considerada como información relevante.  Menciones y hashtags: Los usuarios experienciados y influenciables, hacen menciones a otros usuarios o temas en sus Tuits. 18
  • 19. DESARROLLO DE LA SOLUCIÓN ELIMINACIÓN DE REDUNDANCIA  El sistema elimina aquellos Tuits que tengan cierta redundancia con un Tuit anterior.  Para ello, se considera el número de palabras solapadas en ambos Tuits , sin considerar stopwords, es decir, términos sin contenido semántico (determinantes, preposiciones, etc). 19
  • 20. EXPERIMENTOS Y EVALUACIÓN EXPERIMENTOS PREVIOS  Los primeros experimentos realizados han sido con los conjuntos de datos que ya estaban disponibles para el proyecto.  Existía una serie de corpus que contenía un conjunto de Tuits relacionados con dos compañías. Estos han sido procesados y clasificados por el sistema para obtener los más relevantes generando así un resumen.  Se han realizado comparaciones entre los dos informes para ver la cobertura del modelo. 20
  • 21. EXPERIMENTOS Y EVALUACIÓN EXPERIMENTOS SOBRE DATOS ANOTADOS EN REPLAB  El corpus que se utiliza en Replab se compone de una colección de Tuits que se refieren a un conjunto seleccionado de entidades del sector de la automoción y banca.  El rastreo se realizó durante el período comprendido entre el 1 de junio de 2012 hasta el 31 de diciembre 2012 utilizando el nombre canónico de la entidad en su consulta.  Para este experimento se han seleccionado 19 entidades en total. 21
  • 22. EXPERIMENTOS Y EVALUACIÓN EXPERIMENTOS PREVIOS  Cada una de las gráficas muestra los resultados para distintos grados de compresión, determinados por el umbral de similitud aplicado en el proceso de eliminación de redundancia 22
  • 24. EXPERIMENTOS Y EVALUACIÓN EXPERIMENTOS PREVIOS  El filtro de clasificación por dimensiones permite un grado de compresión del 3% cubriendo un 20% de los topics de alta relevancia.  Obtenemos una menor cobertura sobre topics de alta y media prioridad pero con un grado mucho mayor de compresión. 24
  • 25. CONCLUSIONES  Es la primera vez que se aplican técnicas de resumen después de introducir información supervisada.  Los informes que se generan aplicando la clasificación por dimensiones cubren topics relevantes de un periodo de tiempo determinado.  Se ha abierto un camino que dará lugar a otros estudios más avanzados o derivados. 25
  • 26. LÍNEAS FUTURAS  Mejora de la ampliación de la terminología (gazetteers) al Inglés o incluso ampliarla a algunos idiomas concretos.  Lematización: llevar a cabo un análisis morfológico antes de clasificar los Tuits.  La utilización de URLs para enriquecer el resumen. 26