El documento resume dos artículos y dos proyectos relacionados con la minería de opiniones publicados en la revista SEPLN. El primer artículo describe un método no supervisado para generar listas de aspectos de opinión en nuevos dominios utilizando propagación doble y reglas basadas en dependencias sintácticas. El segundo artículo presenta ML-SentiCon, un recurso multilingüe que contiene lexicones semánticos de polaridad a nivel de lemas. Los proyectos se enfocan en el análisis semántico de
1. 1
*Departamento de Sistemas Informáticos y Computación, Universidad Politécnica de
Valencia, Camino de Vera, Valencia, 46022. El autor es estudiante de 3º curso del grado de
ingeniería informática -Computación-
Minería de opiniones
Alberto Donet* , J. Ángel González*, Renato Strazzulla*, Nataniel Renzo*
Departamento de Sistemas Informáticos y Computación
Universidad Politécnica de Valencia
Marzo 2015
Resumen
La minería de opiniones es un campo de las ciencias de la computación referido al proceso
que intenta descubrir opiniones en grandes volúmenes de conjuntos de datos para
procesarlas y emplearlas en la toma de decisiones estratégicas. En el presente documento
realizaremos una síntesis sobre un conjunto de documentos relacionados con dicha área
publicados en el número 53 de la revista SEPLN entre los que se encuentran 2 proyectos,
que tienen como objetivo el análisis de tendencias y temáticas a través de opiniones y
sentimientos y el almacenamiento, análisis y visualización de la gran cantidad de
información que los ciudadanos exponen en las redes sociales como Twitter, además de 2
artículos en los que se analizarán la adquisición de opiniones no supervisada basada en
aspectos y un recurso denominado ML-SentiCon que contiene un conjunto de lexicones de
polaridades semánticas a nivel de lemas para diversos idiomas.
PALABRAS CLAVE: opiniones, análisis, minería de opiniones
Abstract
Opinions mining is a field of computer science referred to the process that attempts to discover
opinions on large volumes of data sets to process and use them for making strategic decisions.
In this document we will make a summary of a set of documents related to the published area
number 53 of the SEPLN magazine which are 2 projects, which are aimed at the analysis of the
trends and issues through opinions and feelings and the storage, analysis and visualization of the
large amount of information that citizens are exposed in social networks such as Twitter as well
as 2 articles which will analyse the acquisition of opinions not supervised based on aspects and
a so-called ML-SentiCon resource that contains a set of semantic polarity lexicons at the level
of slogans for different languages.
KEYWORDS: opinions, analysis, opinions mining
2. 2
Índice
1. Artículos
1.1 Adquisición no supervisada de términos para minería de opiniones
1.1.1 SemEval 2014 Task 4
1.1.2 Enfoque para generación de listas de aspectos
1.1.2.1 Obtención de textos
1.1.2.2 Doble propagación
1.1.2.3 Reglas de propagación
1.1.3 Ranking - filtrado
1.1.4 Términos multipalabra
1.2 ML-SentiCon
1.2.1 Otros métodos
1.2.2 Synsets,ventajas y desventajas
1.2.3 Lexicones en español
1.2.4 Polaridad en synsets
1.2.4.1 Nivel individual
1.2.4.2 Nivel global
1.2.5 ML-SentiCon
1.2.5.1 Capas
2. Proyectos
2.1 Análisis semántico de la opinión en las redes sociales
2.1.1 Arquitectura
2.1.2 Análisis de datos
2.1.3 Output del sistema
2.2 Proyecto ATTOS
2.2.1 Objetivos
2.2.2 Subproyectos
2.2.3 Arquitectura
2.2.4 Resultados y contribuciones
3. Conclusiones
4. Bibliografía
3. 3
1. Artículos
Comenzaremos el presente trabajo
realizando una síntesis de los artículos a
analizar, publicados en el número 53 de
la revista SEPLN. Primero trataremos la
adquisición no supervisada de términos
de aspecto en diversos dominios para
minería de opiniones basada en aspectos,
lo que permitirá detectar aspectos de
opinión, su categoría y su polaridad
(págs. 121-128 del número 53 del
SEPLN) y continuaremos realizando una
síntesis de ML-SentiCon, un lexicón
multilingüe de polaridades semánticas a
nivel de lemas (págs. 113-120 del
número 53 del SEPLN), viendo, aparte de
sus características básicas, su utilidad
para el análisis de la subjetividad.
1.1 Adquisición no supervisada de
términos para minería de
opiniones
Existen dos tipos de sistemas de minería
de opiniones: los supervisados y los no-
supervisados o semi-supervisados.
Debido a la cantidad de trabajo necesario
para la preparación en aquellos que son
supervisados, la dificultad que presentan
para aplicarlos en otros dominios o
lenguajes es muy grande, por lo que se
pretende utilizar aquellos no-
supervisados, que se basan en aspectos.
Utilizando SemEval 2014 Task 4 es
posible detectar esos aspectos de
opinión, así como su categoría y
polaridad, en frases; lo que permite
generar una lista de aspectos de dominio
para un nuevo dominio usando una
colección de documentos.
1.1.1. SemEval 2014 Task 4
SemEval consiste en una serie de
evaluaciones sobre tareas de análisis
semántico computacional que evolucionó
desde la serie de evaluaciones Senseval.
Como se ha comentado en la
introducción, nos centraremos en
sistemas no supervisados basados en
aspectos (debido a la complejidad de
aplicación de aquellos sistemas
supervisados), empleando las 4 tareas
presentadas en el taller SemEval 2014
(Task 4) que nos permitirán detectar
aspectos de opinión en diversos
dominios. Para ello, provee de 2
conjuntos de datos para entrenamiento
(training datasets) relacionados con
opiniones sobre restaurantes y opiniones
sobre ordenadores portátiles, constando
ambos de más de 3000 frases. La tarea de
procesamiento de dichos conjuntos,
como hemos dicho, se dividirá en 4
subtareas entre las que encontramos:
Subtarea 1: Extracción de términos
de aspecto, que identificará
entidades en las frases y retornará
una lista con los términos de
aspecto detectados.
Subtarea 2: Detección de la
polaridad en diversos niveles
(postivo, negativo, neutral y
conflictivo)
Subtarea 3: Clasificación de los
términos de aspecto obtenidos en
la subtarea 1 en una serie de
categorías predefinidas (comida,
servicio, precio, ambiente,
anécdotas y misceláneo)
Subtarea 4: Análoga a la tarea 2,
pero determinando la polaridad en
función de las categorías de
aspecto.
1.1.2. Enfoque para generación de
listas de aspectos
El principal objetivo consiste en poder
construir una lista de términos de
aspecto para un dominio nuevo, así como
los objetivos de opinión. Esta lista será
un recurso potencial con la función de
4. 4
realizar un análisis de sentimientos
basado en los objetivos de opinión y los
términos de aspecto. Como ejemplo, en
un texto relacionado con restaurantes,
una lista de vinos o el menú del
restaurante pueden ser aspectos. O en un
dominio de telefonía, el procesador y la
batería. Como vemos, dependiendo del
dominio, el conjunto de términos de
aspecto va cambiando. Para poder
extraer la lista de aspectos,
necesitaremos una gran colección de
textos sin etiquetar referentes al dominio
que queramos analizar.
1.1.2.1. Obtención de textos
Como se ha comentado en el apartado
1.1.1. se partirá de 2 conjuntos de datos
de entrenamiento basados en revisiones
de restaurantes y de laptops. Tales
conjuntos de datos han sido obtenidos
mediante software de extracción de
información de sitios web que simulan el
comportamiento del humano durante la
navegación (conocido como web-
scraping, algo similar al web-spidering
ejecutado por los robots de los motores
de búsqueda encargados de indexar
contenido web) de sitios web de críticas
de restaurantes y laptops. No se ha
realizado ningún tipo de preproceso
sobre los textos extraídos, extrayendo de
los propios textos un conjunto de listas
de entidades. Para ello se han dividido
las frases utilizando las herramientas
Stanford NLP y se han almacenado los
resultados en ficheros XML, obteniendo
un conjunto de 25,000 frases que serán
usadas junto con las 6,000 mencionadas
en apartados anteriores (3,000 de
restaurantes y 3,000 laptops) para
extraer listas de términos de aspecto.
1.1.2.2. Doble propagación
Para realizar la obtención/ampliación de
objetivos de opinión utilizaremos la
doble propagación. Este método consiste
en utilizar una lista de semillas inicial de
términos de aspecto y de objetivos de
opinión para propagarlas a través de un
conjunto de datos cumpliendo una serie
de reglas respecto a la propagación (las
cuales comentaremos en el próximo
apartado). El método recibe el nombre de
doble propagación porque se emplean
los términos de aspecto para descubrir
nuevos objetivos de opinión, y a su vez se
emplean los objetivos de opinión para
descubrir nuevos términos de aspecto.
El objetivo es extraer los aspectos y las
palabras de opinión y clasificarlas como
palabras de polaridad de sentimiento
negativo o positivo. En este caso, solo se
usarán sustantivos como términos de
aspecto, y adjetivos como objetivos de
opinión. Esta es una importante
restricción que limita al proceso, puesto
que se basará tan solo en la obtención de
opiniones explícitas (por ejemplo: “el
procesador del móvil es rápido”) y dejará
de lado aquellas opiniones que se
encuentren implícitamente en el texto
(como pudiera ser: “el teléfono cabe en el
bolsillo”, lo que claramente es una buena
opinión referente al tamaño y a su
movilidad). Para poder extraer esas
opiniones explícitas se deberá usar otro
conjunto de técnicas y enfoques.
Durante el proceso de propagación se
aplican varias reglas para obtener
nuevos términos de aspecto o objetivos
de opinión, los cuales serán añadidos al
conjunto inicial determinado para
expandirlo. Cuando se descubren nuevas
palabras, éstas son utilizadas para la
activación de las reglas de propagación,
así que en la siguiente iteración pueden
aparecer palabras nuevas. El proceso
está guiado por las reglas de
propagación. Cuando una palabra
coincide con una regla y la activa, la
palabra se añade al conjunto
correspondiente. El proceso termina
cuando no se descubre ninguna palabra
durante una iteración.
1.1.2.3. Reglas de propagación
Las reglas de propagación serán
empleadas para extraer nuevos términos
5. 5
de aspecto y nuevas palabras de opinión,
si una determinada palabra no encaja en
ninguna de estas categorías se
considerará como any word - cualquier
palabra -. Tales reglas de propagación
están basadas en relaciones de
dependencia y en restricciones que
modelan el discurso (POS) y su
aplicación puede ser observada en la
figura Table 1.
Primero será necesario comentar la
tabla, en ella , T significa términos de
aspecto, O hace referencia a las palabras
de opinión y W a cualquier palabra. La
primera columna identifica
unívocamente a cada regla asociándole
un identificador.
En la segunda columna se observan las
dependencias y se emplean varios tipos
de dependencias: amod (adjetivo
modificador), dobj (objeto directo), sub
(sujeto) y conj (conjunción).
En la tercera, identificamos las
restricciones adicionales asociadas a
cada regla (POS).
Finalmente, en la cuarta columna se
representa el conjunto de nuevas
palabras (palabras de opinión o términos
de aspecto) que será añadido.
Para obtener los árboles de dependencia,
los lemas y las etiquetas de las
restricciones (POS) se han empleado,
como en apartados anteriores, las
herramientas Stanford NLP. Las palabras
semilla empleadas para iniciar el proceso
son good y bad, añadidas inicialmente al
conjunto de palabras de opinión (los
términos de aspecto inicialmente están
vacíos), de esta forma la inicialización no
es dependiente del dominio y las reglas
de propagación funcionan
correctamente.
El proceso es iterativo y funciona de la
siguiente forma. Se analiza cada frase de
conjunto de datos, obteniendo su árbol
de dependencia, es entonces cuando se
lanzarán las reglas. Si alguna palabra y su
dependencia disparan la regla y se
cumplen las condiciones necesarias, la
palabra se añadirá al conjunto
correspondiente (términos de aspecto o
palabras de opinión). Así, el proceso
continúa linea a linea realizando el
mismo proceso y añadiendo palabras a
sus respectivos conjuntos hasta que se
procesen todas las frases, cuando esto
ocurra, si los conjuntos siguen igual que
en la iteración anterior (no se ha añadido
ninguna palabra) el proceso finaliza, en
caso contrario se vuelve a repetir el
mismo proceso desde la primera frase
pero ahora con los conjuntos
“enriquecidos” (ya no solo con las
palabras good y bad).
1.1.3 Ranking - filtrado
Aunque el algoritmo nos permite obtener
la lista tanto de términos de aspecto
como de los objetivos de opinión, vamos
a centrarnos en los términos de aspecto.
Puesto que obtendremos una gran
cantidad de términos, incluidos aquellos
que son muy poco usuales ,por ejemplo
porque son términos muy específicos y
en un idioma distinto al analizado, es
necesario realizar un ranking de todos
los términos de aspecto para mantener
los más importantes al comienzo y los
menos importantes al final de la lista.
Para poder hacer el ranking de la lista de
aspectos, es necesario modelar las reglas
de propagación como un grafo. Cada
nueva palabra que se descubre mediante
una regla de propagación se añade al
grafo como un nuevo vértice, y esa regla
utilizada se añade como una conexión
entre la palabra origen y la palabra que
ha sido descubierta.
6. 6
La imagen anterior representa una
pequeña porción de un grafo obtenido
por el proceso de doble propagación. Si
observamos la imagen, podemos ver que
los aspectos y los objetivos de opinión se
diferencian unos vértices de otros
mediante diferenciación de colores.
Además contando los vértices que
contienen una misma palabra es posible
saber las veces que ha aparecido en los
textos. Las palabras se identifican
mediante su lema y una etiqueta de la
posición en la que aparecen. Además,
contando las veces que aparece una
conexión con una regla podemos saber la
veces que esa regla se ha aplicado.
El grafo es tratado como un grafo
bidireccional puesto que en una conexión
la regla se puede aplicar en ambas
direcciones. Al grafo se le aplica el
algoritmo PageRank para asignar a cada
vértice un valor, de forma que los
términos de aspecto son ordenados en
base a ese valor asociado siendo el
término más importante aquel que tenga
un valor asociado mayor al resto
(ejemplo de tabla de ranking en la
imagen “Table 2” del siguiente apartado).
El algoritmo PageRank utiliza la siguiente
fórmula de asignación de valor:
donde PR(A) será el valor asociado al
vértice ‘A’, PR(i) serán los valores
asociados a cada vértice ‘i’ que está
conectado con el vértice ‘A’, C(i) es el
número de conexiones del vértice ‘i’ y d
es un valor de amortiguación entre 0 y 1.
El proceso de doble propagación
introduce en el conjunto términos no
deseados, como pudieran ser términos
que tienen una alta frecuencia de
aparición y que están relacionados con
muchos términos, por lo que tienen un
valor asociado muy alto y aparecen en las
primeras posiciones del ranking (por
ejemplo: la palabra “cosa” aparece en
multitud de ocasiones, “es una cosa
buena”). Para deshacernos de esos
términos es necesario realizar un filtrado
que elimine estos términos de forma
automática. Una opción simple es
realizar el pesado de los términos por
TF-IDF para identificar los términos y
posteriormente añadirlos a la lista
modificable de stopwords. Esta lista
contendrá, además de las stopwords
básicas, los términos que no deberán ser
términos de aspecto en ningún dominio.
De esta forma, sólo será necesario pasar
a los textos la lista de stopwords
modificada y quedarnos con aquellos
términos potencialmente interesantes.
1.1.4 Términos multipalabra
Hasta ahora no habíamos considerado
esta casuística, sin embargo es posible
que los términos de opinión no estén
formados por una única palabra,
situación que puede ser crítica en
algunos dominios e irrelevante en otros.
Por ejemplo, en uno de los dominios que
se han tratado en el taller (laptops),
como se puede observar en la figura
Table 2, el término de opinión con un
mayor ranking es battery life.
7. 7
Esto es común que ocurra en dominios
muy especializados debido al amplio
vocabulario técnico que usualmente
combina varias palabras e.g. disco duro,
memoria principal, …
Para mejorar la efectividad en términos
de precisión y cobertura de los conjuntos
generados, dichos términos de aspecto
compuestos por más de una palabra
deben ser detectados e incluidos en los
conjuntos resultados. Para ello ya se han
empleado diversas técnicas que tienen
como objetivo incrementar la cobertura
evitando añadir términos incorrectos,
como podrían ser los términos de
aspecto compuestos fragmentados en las
palabras que los componen.
Una de esas técnicas es usar WordNet
(gran base de datos de palabras del
Inglés - sustantivos, verbos, adjetivos,
adverbios -) y unas reglas simples. Cada
vez que se va a procesar una palabra en
el algoritmo de doble propagación se
comprueba la combinación de esa
palabra con la siguiente. Si alguna
condición de las siguientes se satisface
entonces se trata ambas palabras como si
fuera una única:
Si la palabra n y la palabra n+1
son sustantivos y la combinación
es una entrada de WordNet o de
Wikipedia. (Ej.: battery life)
Si la palabra n es un adjetivo y la
palabra n+1 es un sustantivo, y la
combinación de ambas es una
entrada en WordNet. (Ej.: hot
dog).
Si la palabra n es un adjetivo y la
palabra n+1 es un sustantivo, y la
palabra n es un adjetivo
relacional en WordNet. (Ej.:
Indian food).
Es posible utilizar la técnica empleando
una base de datos de palabras distintas
de WordNet dependiendo del lenguaje
que vayamos a analizar.
Otra técnica puede ser la utilización de
patrones simples. De manera que se
pueden guardar combinaciones de 2, 3 o
más términos para su tratamiento como
una única palabra. Una regla referente a
esta técnica puede ser: A de N, que indica
que cuando dos sustantivos se
encuentren separados por “de”, esos
términos se tratarán como uno solo.
1.2 ML-SentiCon
Hoy en día la cantidad de opiniones en
internet con valor para organizaciones y
empresas es inmensa y siempre esta en
aumento esto hace que su procesamiento
se imposible de forma manual, lo que ha
hecho necesario el desarrollo de métodos
para poder analizar estas opiniones y
poder clasificarlas según su polaridad
(Negativa/Positiva), para ello se utilizan
lexicones, estos clasifican las palabras
con una polaridad a priori resultado de
analizar las palabras sin ningún contexto,
los lexicones se organizan por capas con
una relación cantidad de
palabras/seguridad, teniendo pocas
palabras las primeras capas pero
asegurando que la polaridad asignada a
estas sea más segura.
8. 8
1.2.1. Otros métodos
Muchos métodos se han utilizado para la
clasificación de la polaridad de las
palabrasa lo largo de los años cada uno
con diferentes métodos para ello a
continuación pasaremos a analizarlos.
General Inquirer: primer lexicon
con valores subjetivos , formado
por lemas(unidades semánticas),
es construido de forma manual y
contiene aproximadamente 4206
lemas etiquetados con una
polaridad dependiendo de la
información que se posee de
dicho lema, esta es sintactica,
semantica y pragmatica.
MPQA Subjectivity Lexicon:
utiliza, General Inquirer para
obtener palabras con valor
subjetivo a partir de los lemas de
General Inquirer y un tesaurus
(lista de sinónimos), la obtención
de las palabras es automática
pero la polaridades fueron
anotadas manualmente, pese a
ser una mejora al introducir
palabras flexionadas y no solo
lemas, no posee términos
formados por más de una
palabra.
Bing Liu’s Opinión Lexicon: esta
construido de forma automática
pero la polaridad de las palabras
son actualizadas de forma
manual, contiene palabras
flexionadas con faltas de
ortografía y expresiones
informales de internet .
SentiWordNet: está construido
sobre WordNet por lo que utiliza
synsets(conjunto de palabras con
un mismo significado) a los
cuales asigna un valor para medir
su negatividad o positividad este
proceso se hace de forma
automática mediante unos
conjuntos de synsets que se
utilizan de ejemplo, el hecho de
que este método esté basado en
synsets hace que a los textos se
les tenga que aplicar una
herramienta de desambiguación
aunque estos tienen poca tasa de
éxito, otra solución es calcular la
polaridad utilizando todos los
synsets posibles.
1.2.2. Synsets, ventajas y
desventajas
A continuación vamos a comentar la
ventajas y desventajas que presenta la
utilización de synsets en los lexicones.
Ventajas: Los synsets nos
aportan muchas ventajas a la
hora de calcular la polaridad de
las palabras, por ejemplo el hecho
de que todas las palabras y lemas
en un mismo synset tienen el
mismo significado por lo que
podemos asignar una misma
polaridad a un gran conjunto de
palabras lo cual es mucho más
eficaz que tener que ir asignando
polaridad a palabras una a una ,
además estos synsets pueden
actualizarse añadiendo más
palabras porque el número de
palabras de las cuales se tiene
una polaridad definida no para de
aumentar y se adapta a la
aparición de nuevas palabras o
términos, cuando la polaridad de
una palabra debe ser cambiada se
puede cambiar la del synset y así
cambiar al mismo tiempo todas
las palabras con el mismo
significado semántico
Desventajas: El principal
problema es la polisemia es decir
la dificultad de considerar una
palabra en un synset u otro ya
que una misma palabra puede
tener diferentes significados por
tanto pertenecer a diferentes
synsets, para solucionar esto se
pueden usar diferentes métodos
el primero sería aplicar una
herramienta para saber de forma
9. 9
clara qué significado tiene la
palabra en cuestión, la mayoría
de estas herramientas son poco
eficaces, otra solución pasa por
utilizar todos los synsets donde
esta palabra aparece y calcular
una polaridad diferente a nivel de
palabra o lema.
1.2.3. Lexicones en español
A continuación comentaremos la
expansión de los lexicones en otros
idiomas son por ejemplo el frances,
hindu, arabe, alemán y particularmente
en español.
En español se han intentado muchos
métodos para crear lexicones, por
ejemplo la utilización de un diccionario
bilingüe y de google translator, no se
aportaron los resultados de estos dos
lexicones, también se intentó la creación
de un lexicón en español mediante la
traducción del Bing Liu’s Opinión Lexicon
corrigiendo manualmente la expresiones
informales, tampoco se reportaron los
resultados de su prueba, por último se
utilizó el MPQA Subjectivity Lexicon y el
SentiWordNet pero tomando un
WordNet en español , el resultado fue
90% de accuracy para MPQA Subjectivity
Lexicon y 74% para SentiWordNet.
1.2.4. Polaridad en synsets
Se han introducido mejoras significativas
en cada una de las etapas del método
SentiWordNet 3.0. Basándose en el
método empleado por (Baccianella, Esuli,
y Sebastiani, 2010), el método se divide
en dos partes: cálculo individual de la
polaridad, y cálculo global de la polaridad
a partir de los valores obtenidos en la
primera etapa.
Una vez obtenido este recurso, se evalúa
el lexicon tanto a nivel de synsets, como a
nivel de lemas, con valores de precisión y
volumen para el lexicon en español
superiores a los de (Pérez-Rosas, Banea,
y Mihalcea, 2012).
Se han calculado valores reales entre 0 y
1 de positividad, negatividad y
objetividad para cada uno de los synsets
de WordNet 3.0.
1.2.4.1. Nivel individual
Se parte de distintos conjuntos de
synsets considerados a priori positivos,
negativos o neutros (se ha utilizado
también WordNet-Affect como fuente de
semillas positivas y negativas).
Los clasificadores entrenados a partir de
las distintas fuentes de información,
fueron combinados en una etapa de
meta-aprendizaje, y usando dos
algoritmos de clasificación distintos, llega
a la construcción de clasificadores
ternarios, capaces de decidir si un synset
es positivo, negativo o neutro a partir de
los textos de sus glosas
Finalmente se obtienen tres
clasificadores regresionales capaces de
inducir valores de positividad,
negatividad y objetividad en el intervalo
[0, 1].
1.2.4.2. Nivel global
Trata de refinar los valores de
positividad y negatividad asignados a
cada synset, a partir de distintos tipos de
relaciones entre ellos. Estas relaciones se
modelan mediante un grafo en el que los
synsets son nodos y las aristas dirigidas
indican la relación entre los valores de
positividad y negatividad de dichos
synsets. De hecho se construyen dos
tipos de grafos distintos: uno a partir de
las glosas y otro a partir de las relaciones
semánticas.
Los grafos incluyen aristas con peso
positivo, que representan una
transferencia directa entre los valores de
positividad y negatividad de los synsets
conectados, y aristas con peso negativo,
que indican una transferencia cruzada
entre ambos tipos de valores.
Se aplica entonces al grafo un algoritmo
de recorrido aleatorio (cada nodo es un
10. 10
valor numérico), que permite computar
los valores finales de positividad y
negatividad en una sola ejecución. Los
valores “fluyen” a lo largo del grafo a
través de las aristas, hasta que el
algoritmo obtenga valores finales para
los nodos, que dependen de los valores
iniciales y de las relaciones existentes
entre los nodos a nivel global.
1.2.5. ML-SentiCon
Por último vamos a explicar el
funcionamiento de ML-SentiCon y su
organización mediante capas, ML-
SentiCon es un conjunto de lexicones de
diferentes idiomas conseguidos gracias a
la conexión de lemas en otros idiomas a
sysnsets ya presentes, con una jerarquía
de capas para clasificar los lemas en
orden de fiabilidad.
1.2.5.1. Capas
En WordNet cada synset representa un
conjunto de lemas, estos lemas tienen
asignada una polaridad que es el
resultado de la polaridad positiva menos
la polaridad negativa, una vez conseguida
esta polaridad se le asigna a cada lema
formando una tupla lemas-polaridad, a
su vez cada lema puede tener más de un
synset asociado en este caso su polaridad
será la media de la polaridad de los
synsets que lo referencian, estos lemas
formarán las capas siendo las dos
primeras formadas por lemas
pertenecientes a synsets usados en
entrenamiento por lo que tienen una
fiabilidad mayor, el resto de capas se
forman por lemas con valores de
polaridad tanto negativos como
positivos, a la hora de asignar un lema a
una capa o a otra lo que se valora es su
valor absoluto así la cantidad de lemas
que componen cada capa sigue una
progresión geométrica, para conseguir
lexicones del resto de idiomas es
necesario utilizar WordNets de otros
idiomas en este caso los synsets se
encuentran en Multilingual Central
Repository 3.0 además se ha utilizado
EuroWordNet para conseguir una
cantidad mayor de lemas
Una vez realizadas las pruebas de
fiabilidad en dos lexicones uno en inglés
y el otro español podemos obtener
conclusiones interesantes, el lexicon en
ingles es mas fiable lo cual es un
resultado lógico ya que la obtención del
lexicon español ha sido realizada por
métodos semi-automáticos sin embargo
esta diferencia es bastante reducida en
las primeras capas estando entre el 1% y
el 2% en la primera y entre 12% y 13%
en la última, además si comparamos el
número de palabras de cada lema la la
impresión es aún más positiva.
2. Proyectos
Una vez mencionados los artículos de
referencia cuyos conceptos dan lugar a
una serie de aplicaciones fuera del
ámbito académico, realizaremos una
síntesis de 2 proyectos que representan
el panorama actual de la minería de
opiniones, entre los que se encuentran el
proyecto ATTOS con la intención de
procesar de forma automática la gran
cantidad de información existente en la
web y emplearla en la toma de decisiones
estratégicas, así como el análisis
semántico de la opinión de los
ciudadanos en redes sociales en la ciudad
del futuro cuyo objetivo final es
proporcionar a los administradores
públicos una herramienta potente para
entender las tendencias de
comportamiento y la opinión acerca de
los servicios que ofrecen.
2.1. Análisis semántico de la
opinión en las redes sociales
El ciudadano es el principal usuario de
los servicios de la ciudad pero también es
un sensor proactivo capaz de generar
grandes cantidades de datos con
información útil de su grado de
satisfacción sobre su entorno. Sin
embargo se necesita procesar y anotar
11. 11
los datos de forma automatizada para
lograr que estos sean relevantes y poder
utilizar un modelo de abstracción. El
objetivo último es proporcionar a los
administradores públicos una
herramienta potente para entender las
tendencias de comportamiento, la
opinión acerca de los servicios que
ofrecen y proveer de un sistema de alerta
que consiga mejorar la eficiencia de los
servicios de emergencia.
2.1.1. Arquitectura
La arquitectura es muy sencilla. El
"datawarehouse" es el componente
principal basado sobre Elasticsearch
donde se almacenan todos los datos. Los
"recolectores" son un conjunto de
procesos que sirven para acceder a las
APIs de Twitter y filtrar los datos según
diferentes parámetros de búsqueda y
luego hay los "consumidores" que anotan
los mensajes de Twitter utilizando las
APIs de Textalytic. Este proceso de
anotación semántica constituye el cuello
de botella del sistema por lo tanto se
utiliza una cola con prioridad a la
información más reciente. El último
componente es el "sistema de
visualización" que explota los datos
generados.
2.1.2. Análisis de datos
Primero se hace un etiquetado semántico
para el caso particular: fragmentos
cortos de texto, con capitalización
inadecuada, faltas de ortografía,
emoticonos, abreviaturas, etc.
El segundo paso es la clasificación
automática que sigue dos modelos
específicos: "SocialMedia" que define los
temas generales de clasificación,
proporcionando mayor precisión cuando
se evalúan textos que proceden de redes
sociales y "CitizenSensor" orientado a las
características propias del ciudadano
como sensor de eventos de la ciudad,
teniendo en cuenta aspectos como su
ubicación, eventos que ocurren en la
ciudad o posibles catástrofes o alertas.
La extracción de entidades combina
varias técnicas de procesamiento de
lenguaje natural y permite al sistema de
identificar distintos tipos de elementos:
entidades nombradas (personas,
organizaciones, lugares, etc.), conceptos,
expresiones temporales, expresiones
monetarias y URIs.
En otro nivel de análisis semántico, se
realiza el análisis de sentimiento que
determina si el texto expresa un
sentimiento positivo, neutral o negativo.
También se utiliza la información del
usuario en Twitter para analizar las
características demográficas, basándose
en n-gramas.
2.1.3. Output del sistema
Las capacidades de almacenamiento del
sistema permiten analizar los datos en
tiempo real, aplicar algoritmos de
minería de datos sobre los datos
almacenados mediante técnicas de
perfilado y clustering para identificar
distintos grupos de ciudadanos que se
encuentran en la ciudad, comparar
singularidades entre los grupos
detectados, etc.
Los mensajes anotados por el sistema se
almacenan en formato JSON y las
consultas se realizan a través de una
interfaz web que permite ejecutar
consultas complejas de manera
estructurada y presenta información de
alto nivel, agregada y resumida. Además
se puede personalizar la consola según
necesidades específicas, trámite el utilizo
de widget.
Actualmente se está investigando para
explorar el análisis de movilidad en la
ciudad, la detección de los temas más
relevantes a nivel de barrios o zonas, y
realizar un análisis de reputación o
personalidad de marca.
12. 12
2.2 Proyecto ATTOS
Es necesario afrontar el tratamiento de la
gran cantidad de información existente
en la web, información textual en
formatos muy variados y expresada de
forma espontánea y subjetiva sin la
corrección de los textos normativos. Con
la intención de procesar de forma
automática toda esta información y
utilizarla en la toma de decisiones
estratégicas surge el proyecto ATTOS
(análisis de tendencias y temáticas a
través de opiniones y sentimientos), con
3 grandes objetivos: creación y mejora de
técnicas y herramientas de modelado de
lenguaje subjetivo, desarrollo de
sistemas inteligentes que recuperen,
traten y comprendan este lenguaje y la
unificación de dichos recursos en una
plataforma web de monitorización. El
seguimiento del proyecto se puede
visualizar en: ATTOS.
2.2.1 Objetivos
ATTOS plantea 3 objetivos específicos
para la consecución de un objetivo
global. Estos objetivos son:
Crear, adaptar y mejorar las
técnicas y herramientas de
modelado del lenguaje informal y
subjetivo, - empleado en la
expresión de opiniones y lejos de
ser similar a los textos
normativos - así como el
tratamiento del lenguaje
emocional y la aplicación de
dichas técnicas en entornos
reales y concretos.
Desarrollar sistemas inteligentes
capaces de recuperar, tratar,
comprender y descubrir
información subjetiva valorando
el contexto en el que se ha
expuesto tal información.
Integrar todos los recursos
anteriores en una plataforma
web de monitorización,
demostrando su validez sobre
ámbitos concretos, promoviendo
además las líneas de
investigación que surjan del
proyecto mediante la
organización de actividades
académicas, congresos y talleres.
2.2.2 Subproyectos
Se propusieron 3 subproyectos
complementarios entre si para la
consecución de los objetivos
mencionados en el apartado anterior, un
subproyecto para el cumplimiento de
cada objetivo.
El subproyecto ATTOS - Análisis de
Tendencias y Temáticas a través de
Opiniones y Sentimientos - se encargará
del 3º objetivo, construyendo la
plataforma de procesamiento que
integrará las técnicas y recursos
desarrolladas por todos los equipos del
proyecto global (contando los demás
subproyectos) para la explotación de la
información subjetiva.
El subproyecto SOTTA - Semantic Opinion
Techniques for Tendencies Analysis - se
encargará del 1º objetivo, pretendiendo
desarrollar una herramienta de análisis
de tendencias en función a los diferentes
usuarios que incorpore un conjunto de
técnicas que permitan identificar
características de los textos subjetivos.
El subproyecto ACOGEUS - Análisis de
COntenidos GEnerados por USuarios -
encargado del 2º objetivo, pretenderá
desarrollar sistemas que identifiquen y
recuperen información subjetiva de
diversos dominios.
2.2.3 Arquitectura
El sistema comentado debe incorporar
técnicas y métodos que descubran la
subjetividad en distintas dimensiones
(emocional, temporal, espacial, …), para
su desarrollo se ha optado por una
arquitectura modular capaz de extraer
indicadores de utilidad mediante el
13. 13
proceso de diversas fuentes online
empleando técnicas de lenguaje natural.
Los distintos módulos que componen el
sistema son los siguientes:
Se partirá de diversas fuentes online de
las que se extraerán opiniones, véase
Twitter,Amazon, etc en la parte izquierda
de la figura 1.
Posteriormente, mediante el desarrollo y
la adaptación de recursos, herramientas
y técnicas de PLH (preprocesamiento y
subsistemas) se realizará un tratamiento
de la información subjetiva así como su
especialización en diversos dominios de
aplicación, teniendo en cuenta también
características de los perfiles de usuario
que exponen dichas opiniones
(reputación, opiniones de otros usuarios,
…). Algunos de estos subsistemas ya han
sido tratados en otras asignaturas o en el
presente trabajo como puede ser la
extracción de características y la
detección de la polaridad.
Finalmente se desarrollará una
plataforma online de visualización y
presentación de los resultados,
planteando también actividades de
evaluación de la utilidad de la plataforma
(promoción, coordinación, foros de
evaluación) y creando un plan de
diseminación de los resultados obtenidos
para lograr un nivel aceptable de
difusión. A pesar de la sencillez aparente
de la arquitectura, hay que afrontar
diversos problemas como la creciente
cantidad de información, siendo ésta
muy variada y sin la precisión y
correctitud de los textos
ortográficamente correctos y por tanto
difícil de procesar.
2.2.4 Resultados y contribuciones
Los trabajos realizados durante el
desarrollo del proyecto han dado lugar a
una serie contribuciones en revistas,
congresos y eventos. Entre ellos
podemos destacar:
La definición de un método para
obtener de forma automática
consultas que varíen en función
de un conjunto de hashtags
semilla obtenidos de Twitter.
Interesante para obtener tweets
relacionados con temáticas
específicas.
Un sistema de identificación de
opiniones con su valoración
(positividad o negatividad)
correspondiente.
Una metodología que permite
adaptar lexicones de palabras de
opinión a un dominio concreto.
Un método de desambiguación (a
nivel de sentido de las palabras)
que tiene en cuenta la
información del contexto, útil
para clasificadores de polaridad.
Un método de detección de la
subjetividad a nivel de oraciones
basado en la desambiguación del
sentido de las palabras que
conforman la oración.
3. Conclusiones
La minería de opiniones o análisis de
sentimientos es un área de conocimiento
que se encuentra en constante
crecimiento, a pesar de encontrarse en
un estado todavía prematuro debido a la
complejidad de las técnicas necesarias
para conseguir los objetivos perseguidos
como la generación de lexicones en
14. 14
idiomas diferentes del inglés (ML-
Senticon) , definir reglas adecuadas para
la extracción de términos de aspecto o
determinar la subjetividad, la polaridad y
las tendencias en un determinado texto
no normativo, incluyendo también la
dificultad de procesar dicho texto
Así, ya que la denominada Web 2.0 lo ha
socializado todo, se ha observado un
nicho de aplicación de estas técnicas
sobre redes sociales como Twitter para
tareas como recomendaciones en función
de las preferencias de usuarios y
determinación de estados de ánimo, así
como la utilización por parte de las
empresas de dichas técnicas para tomar
decisiones estratégicas en base a los
resultados obtenidos.
Con todo lo dicho, se ha puesto de
manifiesto a lo largo de este artículo que
no hay duda sobre la revolución que
implicarán estas tecnologías en el
desarrollo de Internet cuando alcancen
un nivel de desarrollo considerable, sin
embargo, ¿será para beneficio de los
usuarios o irá orientada la utilización de
éstas técnicas para incrementar más aun
el control sobre nosotros?.
4. Bibliografía
Androutsopoulos, I., Galanis,
D.,Manandhar, S., Papageorgiou, H.,
Pavlopoulos, J. & Pontiki, A. (2014) Task
Description: Aspect Based Sentiment
Analysis (ABSA). SemEval-2014. Task 4.
Recuperado el 13 de Abril de 2015 de:
http://alt.qcri.org/semeval2014/task4/
Boldrini, E., Cruz Marta, F., Díaz Galiano,
M.c., Díaz Madrigal, V. J., De Salamanca
Ros, F., García Cumbreras, M.A., García
Vallejo, F. C., García Vega, M., Gómez
Soriano, J.M., Guillén Espejo, A., Gutierrez
Vazquez, Y., Jiménez Zafra, S.M..,
Martínez Cámara, E., Martín Valdivia, M.,
Monroy Tenorio, F., Montejo Ráez, A.,
Moreda Pozo, P., Muñoz Guillena, R.,
Navarro Colado, B., Ortega Rodríguez, F.J.,
Perea Ortega, J.M., Suárez Cueto, A.,
Troyano Jiménez, J.A. y Ureña López, L.A.
(2013) ATTOS: Análisis de Tendencias y
Temáticas a través de Opiniones y
Sentimientos. Recuperado el 13 de Abril
de 2015, de: http://gplsi.dlsi.ua.es/attos/
García Pablos, A., Cuadros, M., Rigau, G., &
Gaines, S. (2014). Unsupervised
acquisition of domain aspect terms for
Aspect Based Opinion Mining.
Procesamiento Del Lenguaje Natural, 53,
121-128. Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/inde
x.php/pln/article/view/5044/2932
Cruz, F., Troyano, J., Pontes, B., & Ortega,
F. (2014). ML-SentiCon: Un lexicón
multilingüe de polaridades semánticas a
nivel de lemas. Procesamiento Del
Lenguaje Natural, 53, 113-120.
Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/inde
x.php/pln/article/view/5041/2929
PageRank (n.d) En Wikipedia.
Recuperado el 13 de Abril de 2015, de:
http://es.wikipedia.org/wiki/PageRank#
Algoritmo
15. 15
Princeton University (2015) What is
WordNet? WordNet. A lexical datbase for
English. Recuperado el 13 de Abril de
2015, de:
https://wordnet.princeton.edu/
SemEval (n.d) En Wikipedia. Recuperado
el 13 de Abril de 2015 de:
http://en.wikipedia.org/wiki/SemEval
Ureña López, L., Muñoz Guillena, R.,
Troyano Jiménez, J., & Martín Valdivia, M.
(2014). ATTOS: Análisis de Tendencias y
Temáticas a través de Opiniones y
Sentimientos. Procesamiento Del
Lenguaje Natural, 53, 151-154.
Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/i
ndex.php/pln/article/view/5062/2950
Villena-Román, J., Luna-Cobos, A., &
González Cristóbal, J. (2014). Análisis
Semántico de la Opinión de los
Ciudadanos en Redes Sociales en la
Ciudad del Futuro. Procesamiento Del
Lenguaje Natural, 53, 159-162.
Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/i
ndex.php/pln/article/view/5064/2952