2. MOTIVACIÓN
La reputación en la red es la primera imagen de
una persona o compañía y las redes sociales
juegan un papel importante.
La información sobre compañías se transmite en
cuestión de segundos y con ello las pudiendo
afectarles.
2
3. MOTIVACIÓN
¿Qué es la Reputación Online?
La reputación online es el reflejo del prestigio o
estima de una persona o marca en Internet.
La reputación sólo es parcialmente controlable ya
que se crea y recrea a partir de las percepciones
que conforman un estado de opinión.
3
4. CONTEXTUALIZACIÓN DEL
PROBLEMA
Las compañías deben analizar toda la
información de la red rápidamente para:
Dar respuesta.
Cambiar las estrategias empresariales.
Realizar modificaciones a un producto etc.
Existen muchas aplicaciones en la web que
permiten estudiar el comportamiento de los
usuarios en la red. Costes
4
5. CONTEXTUALIZACIÓN DEL
PROBLEMA
COMMUNITY MANAGER
En el ámbito de las relaciones públicas ha
tomado forma la figura del Responsable de
comunidad (Community Manager), encargado
de:
Gestionar profesionalmente los aspectos relacionados
con la presencia en redes y medios sociales, y por lo
tanto,
Construir y mantener la reputación online de la
empresa.
Crear, analizar, entender y direccionar la
información.
Crear estrategias de comunicación digital.
Establecer una comunicación transparente.
5
6. CONTEXTUALIZACIÓN DEL
PROBLEMA
ANÁLISIS DE LA REPUTACIÓN
Es necesario hacer una exhaustivo análisis
cualitativo y cuantitativo plasmado en un
informe de Reputación:
¿Qué se habla de la marca? – Opiniones significativas en los que se
habla de la empresa.
¿Dónde se habla de la marca? – Los canales en que se menciona la
marca.
¿Quién habla de la marca? – Datos socio demográficos e influentes.
¿Cuándo se habla de la marca? – Fechas y periodos de tiempo
¿Cómo se habla de la marca? – Sentimiento de la menciones
¿Cuánto se habla de la marca? – Cifras y porcentajes que miden los
resultados cuantitativamente.
6
7. CONTEXTUALIZACIÓN DEL
PROBLEMA
DIMENSIONES
El usuario final tiene que ver la información de
manera clara y ordenada la información aparece
clasificada en dimensiones.
Las dimensiones de estos resúmenes se traducen a las
diferentes áreas de interés que tiene una empresa.
Dimensiones del modelo RepTrak del Reputation
Institute:
Oferta de Productos/ Servicios
Innovación
Entorno de trabajo
Ciudadanía
Integridad
Liderazgo
Finanzas. 7
8. HIPÓTESIS Y OBJETIVOS
Objetivo principal:
Generar un resumen de alta compresión sobre
entradas de microblog (Twitter) que permita el
análisis de la reputación de una compañía por
parte de expertos en comunicación.
Hipótesis:
El análisis de la reputación en el dominio
empresarial posee un conjunto de dimensiones
reputacionales que se pueden explotar en la
elaboración automática de un resumen.
8
10. TWITTER
Plataforma microblogging que permite a sus
usuarios publicar en línea pequeños fragmentos
de texto.
Más de 500 millones de usuarios, 65 millones de
Tuits al día y más de 800.000 peticiones de
búsqueda diarias.
Características:
Se permiten un máximo de 140 caracteres.
Meta-datos:
Mención a un usuario: @
Hashtag: #
Retuit: RT 10
11. SISTEMAS DE ACCESO A LA
INFORMACIÓN EN TWITTER
Sankaranarayanan et al. (2009): un sistema de
identificación de noticias de última hora
construyendo un sistema de procesamiento de
noticias de Twitter.
Efron (2011): introducción a los problemas que
encuentran los investigadores y desarrolladores
de la Recuperación de Información de sistemas
(IR) en la configuración de los microblogs.
11
12. RESUMEN AUTOMÁTICO EN
TWITTER
Resumen: un texto que se produce a partir de uno
o más textos, que transmite la información
importante al texto original.
Características de Twitter como fuente para el
resumen automático:
Longitud
Twitts ilegibles
Diversidad de usuarios
Hipervínculos
Redundante
12
13. DESARROLLO DE LA SOLUCIÓN
La solución se centra en el resumen automático
de Tuits para las compañías incorporando
conocimiento a priori para posteriormente aplicar
un algoritmo de eliminación de redundancia.
13
14. DESARROLLO DE LA SOLUCIÓN
CLASIFICACIÓN POR DIMENSIONES
Dimensiones reputacionales:
14
17. DESARROLLO DE LA SOLUCIÓN
CLASIFICACIÓN POR DIMENSIONES
Gazzeters o Lexicones:
Representan un conocimiento a priori que reduce la
necesidad de un corpus de entrenamiento sobre el que
basar las decisiones del sistema.
Extraídos de unos determinados glosarios para cada
dimensión:
Glosario financiero del Grupo Santander.
Glosario sobre Política Económica y Social del Ministerio
de Economía y Finanzas.
Glosario de términos sobre ciencia, tecnología e innovación
de la UNESCO.
Glosario de términos del Servicio Público de Empleo
Estatal.
…
17
18. DESARROLLO DE LA SOLUCIÓN
CALCULO DE RELEVANCIA
Un Tuit es importante si:
Trata sobre alguna dimensión de la empresa.
Número de retuits: Se asume que un Tuit con muchos
retuits contiene información relevante.
Redundancia: si algo se ha comentado por varias
personas, esta será considerada como información
relevante.
Menciones y hashtags: Los usuarios experienciados y
influenciables, hacen menciones a otros usuarios o
temas en sus Tuits. 18
19. DESARROLLO DE LA SOLUCIÓN
ELIMINACIÓN DE REDUNDANCIA
El sistema elimina aquellos Tuits que tengan
cierta redundancia con un Tuit anterior.
Para ello, se considera el número de palabras
solapadas en ambos Tuits , sin considerar
stopwords, es decir, términos sin contenido
semántico (determinantes, preposiciones, etc).
19
20. EXPERIMENTOS Y EVALUACIÓN
EXPERIMENTOS PREVIOS
Los primeros experimentos realizados han sido con los
conjuntos de datos que ya estaban disponibles para el
proyecto.
Existía una serie de corpus que contenía un conjunto de
Tuits relacionados con dos compañías. Estos han sido
procesados y clasificados por el sistema para obtener los
más relevantes generando así un resumen.
Se han realizado comparaciones entre los dos informes
para ver la cobertura del modelo.
20
21. EXPERIMENTOS Y EVALUACIÓN
EXPERIMENTOS SOBRE DATOS ANOTADOS EN REPLAB
El corpus que se utiliza en Replab se compone de
una colección de Tuits que se refieren a un
conjunto seleccionado de entidades del sector de
la automoción y banca.
El rastreo se realizó durante el período
comprendido entre el 1 de junio de 2012 hasta el
31 de diciembre 2012 utilizando el nombre
canónico de la entidad en su consulta.
Para este experimento se han seleccionado 19
entidades en total.
21
22. EXPERIMENTOS Y EVALUACIÓN
EXPERIMENTOS PREVIOS
Cada una de las gráficas muestra los resultados
para distintos grados de compresión,
determinados por el umbral de similitud aplicado
en el proceso de eliminación de redundancia
22
24. EXPERIMENTOS Y EVALUACIÓN
EXPERIMENTOS PREVIOS
El filtro de clasificación por dimensiones permite
un grado de compresión del 3% cubriendo un 20%
de los topics de alta relevancia.
Obtenemos una menor cobertura sobre topics de
alta y media prioridad pero con un grado mucho
mayor de compresión.
24
25. CONCLUSIONES
Es la primera vez que se aplican técnicas de
resumen después de introducir información
supervisada.
Los informes que se generan aplicando la
clasificación por dimensiones cubren topics
relevantes de un periodo de tiempo determinado.
Se ha abierto un camino que dará lugar a otros
estudios más avanzados o derivados.
25
26. LÍNEAS FUTURAS
Mejora de la ampliación de la terminología
(gazetteers) al Inglés o incluso ampliarla a
algunos idiomas concretos.
Lematización: llevar a cabo un análisis
morfológico antes de clasificar los Tuits.
La utilización de URLs para enriquecer el
resumen.
26