SlideShare una empresa de Scribd logo
1
*Departamento de Sistemas Informáticos y Computación, Universidad Politécnica de
Valencia, Camino de Vera, Valencia, 46022. El autor es estudiante de 3º curso del grado de
ingeniería informática -Computación-
Minería de opiniones
Alberto Donet* , J. Ángel González*, Renato Strazzulla*, Nataniel Renzo*
Departamento de Sistemas Informáticos y Computación
Universidad Politécnica de Valencia
Marzo 2015
Resumen
La minería de opiniones es un campo de las ciencias de la computación referido al proceso
que intenta descubrir opiniones en grandes volúmenes de conjuntos de datos para
procesarlas y emplearlas en la toma de decisiones estratégicas. En el presente documento
realizaremos una síntesis sobre un conjunto de documentos relacionados con dicha área
publicados en el número 53 de la revista SEPLN entre los que se encuentran 2 proyectos,
que tienen como objetivo el análisis de tendencias y temáticas a través de opiniones y
sentimientos y el almacenamiento, análisis y visualización de la gran cantidad de
información que los ciudadanos exponen en las redes sociales como Twitter, además de 2
artículos en los que se analizarán la adquisición de opiniones no supervisada basada en
aspectos y un recurso denominado ML-SentiCon que contiene un conjunto de lexicones de
polaridades semánticas a nivel de lemas para diversos idiomas.
PALABRAS CLAVE: opiniones, análisis, minería de opiniones
Abstract
Opinions mining is a field of computer science referred to the process that attempts to discover
opinions on large volumes of data sets to process and use them for making strategic decisions.
In this document we will make a summary of a set of documents related to the published area
number 53 of the SEPLN magazine which are 2 projects, which are aimed at the analysis of the
trends and issues through opinions and feelings and the storage, analysis and visualization of the
large amount of information that citizens are exposed in social networks such as Twitter as well
as 2 articles which will analyse the acquisition of opinions not supervised based on aspects and
a so-called ML-SentiCon resource that contains a set of semantic polarity lexicons at the level
of slogans for different languages.
KEYWORDS: opinions, analysis, opinions mining
2
Índice
1. Artículos
1.1 Adquisición no supervisada de términos para minería de opiniones
1.1.1 SemEval 2014 Task 4
1.1.2 Enfoque para generación de listas de aspectos
1.1.2.1 Obtención de textos
1.1.2.2 Doble propagación
1.1.2.3 Reglas de propagación
1.1.3 Ranking - filtrado
1.1.4 Términos multipalabra
1.2 ML-SentiCon
1.2.1 Otros métodos
1.2.2 Synsets,ventajas y desventajas
1.2.3 Lexicones en español
1.2.4 Polaridad en synsets
1.2.4.1 Nivel individual
1.2.4.2 Nivel global
1.2.5 ML-SentiCon
1.2.5.1 Capas
2. Proyectos
2.1 Análisis semántico de la opinión en las redes sociales
2.1.1 Arquitectura
2.1.2 Análisis de datos
2.1.3 Output del sistema
2.2 Proyecto ATTOS
2.2.1 Objetivos
2.2.2 Subproyectos
2.2.3 Arquitectura
2.2.4 Resultados y contribuciones
3. Conclusiones
4. Bibliografía
3
1. Artículos
Comenzaremos el presente trabajo
realizando una síntesis de los artículos a
analizar, publicados en el número 53 de
la revista SEPLN. Primero trataremos la
adquisición no supervisada de términos
de aspecto en diversos dominios para
minería de opiniones basada en aspectos,
lo que permitirá detectar aspectos de
opinión, su categoría y su polaridad
(págs. 121-128 del número 53 del
SEPLN) y continuaremos realizando una
síntesis de ML-SentiCon, un lexicón
multilingüe de polaridades semánticas a
nivel de lemas (págs. 113-120 del
número 53 del SEPLN), viendo, aparte de
sus características básicas, su utilidad
para el análisis de la subjetividad.
1.1 Adquisición no supervisada de
términos para minería de
opiniones
Existen dos tipos de sistemas de minería
de opiniones: los supervisados y los no-
supervisados o semi-supervisados.
Debido a la cantidad de trabajo necesario
para la preparación en aquellos que son
supervisados, la dificultad que presentan
para aplicarlos en otros dominios o
lenguajes es muy grande, por lo que se
pretende utilizar aquellos no-
supervisados, que se basan en aspectos.
Utilizando SemEval 2014 Task 4 es
posible detectar esos aspectos de
opinión, así como su categoría y
polaridad, en frases; lo que permite
generar una lista de aspectos de dominio
para un nuevo dominio usando una
colección de documentos.
1.1.1. SemEval 2014 Task 4
SemEval consiste en una serie de
evaluaciones sobre tareas de análisis
semántico computacional que evolucionó
desde la serie de evaluaciones Senseval.
Como se ha comentado en la
introducción, nos centraremos en
sistemas no supervisados basados en
aspectos (debido a la complejidad de
aplicación de aquellos sistemas
supervisados), empleando las 4 tareas
presentadas en el taller SemEval 2014
(Task 4) que nos permitirán detectar
aspectos de opinión en diversos
dominios. Para ello, provee de 2
conjuntos de datos para entrenamiento
(training datasets) relacionados con
opiniones sobre restaurantes y opiniones
sobre ordenadores portátiles, constando
ambos de más de 3000 frases. La tarea de
procesamiento de dichos conjuntos,
como hemos dicho, se dividirá en 4
subtareas entre las que encontramos:
 Subtarea 1: Extracción de términos
de aspecto, que identificará
entidades en las frases y retornará
una lista con los términos de
aspecto detectados.
 Subtarea 2: Detección de la
polaridad en diversos niveles
(postivo, negativo, neutral y
conflictivo)
 Subtarea 3: Clasificación de los
términos de aspecto obtenidos en
la subtarea 1 en una serie de
categorías predefinidas (comida,
servicio, precio, ambiente,
anécdotas y misceláneo)
 Subtarea 4: Análoga a la tarea 2,
pero determinando la polaridad en
función de las categorías de
aspecto.
1.1.2. Enfoque para generación de
listas de aspectos
El principal objetivo consiste en poder
construir una lista de términos de
aspecto para un dominio nuevo, así como
los objetivos de opinión. Esta lista será
un recurso potencial con la función de
4
realizar un análisis de sentimientos
basado en los objetivos de opinión y los
términos de aspecto. Como ejemplo, en
un texto relacionado con restaurantes,
una lista de vinos o el menú del
restaurante pueden ser aspectos. O en un
dominio de telefonía, el procesador y la
batería. Como vemos, dependiendo del
dominio, el conjunto de términos de
aspecto va cambiando. Para poder
extraer la lista de aspectos,
necesitaremos una gran colección de
textos sin etiquetar referentes al dominio
que queramos analizar.
1.1.2.1. Obtención de textos
Como se ha comentado en el apartado
1.1.1. se partirá de 2 conjuntos de datos
de entrenamiento basados en revisiones
de restaurantes y de laptops. Tales
conjuntos de datos han sido obtenidos
mediante software de extracción de
información de sitios web que simulan el
comportamiento del humano durante la
navegación (conocido como web-
scraping, algo similar al web-spidering
ejecutado por los robots de los motores
de búsqueda encargados de indexar
contenido web) de sitios web de críticas
de restaurantes y laptops. No se ha
realizado ningún tipo de preproceso
sobre los textos extraídos, extrayendo de
los propios textos un conjunto de listas
de entidades. Para ello se han dividido
las frases utilizando las herramientas
Stanford NLP y se han almacenado los
resultados en ficheros XML, obteniendo
un conjunto de 25,000 frases que serán
usadas junto con las 6,000 mencionadas
en apartados anteriores (3,000 de
restaurantes y 3,000 laptops) para
extraer listas de términos de aspecto.
1.1.2.2. Doble propagación
Para realizar la obtención/ampliación de
objetivos de opinión utilizaremos la
doble propagación. Este método consiste
en utilizar una lista de semillas inicial de
términos de aspecto y de objetivos de
opinión para propagarlas a través de un
conjunto de datos cumpliendo una serie
de reglas respecto a la propagación (las
cuales comentaremos en el próximo
apartado). El método recibe el nombre de
doble propagación porque se emplean
los términos de aspecto para descubrir
nuevos objetivos de opinión, y a su vez se
emplean los objetivos de opinión para
descubrir nuevos términos de aspecto.
El objetivo es extraer los aspectos y las
palabras de opinión y clasificarlas como
palabras de polaridad de sentimiento
negativo o positivo. En este caso, solo se
usarán sustantivos como términos de
aspecto, y adjetivos como objetivos de
opinión. Esta es una importante
restricción que limita al proceso, puesto
que se basará tan solo en la obtención de
opiniones explícitas (por ejemplo: “el
procesador del móvil es rápido”) y dejará
de lado aquellas opiniones que se
encuentren implícitamente en el texto
(como pudiera ser: “el teléfono cabe en el
bolsillo”, lo que claramente es una buena
opinión referente al tamaño y a su
movilidad). Para poder extraer esas
opiniones explícitas se deberá usar otro
conjunto de técnicas y enfoques.
Durante el proceso de propagación se
aplican varias reglas para obtener
nuevos términos de aspecto o objetivos
de opinión, los cuales serán añadidos al
conjunto inicial determinado para
expandirlo. Cuando se descubren nuevas
palabras, éstas son utilizadas para la
activación de las reglas de propagación,
así que en la siguiente iteración pueden
aparecer palabras nuevas. El proceso
está guiado por las reglas de
propagación. Cuando una palabra
coincide con una regla y la activa, la
palabra se añade al conjunto
correspondiente. El proceso termina
cuando no se descubre ninguna palabra
durante una iteración.
1.1.2.3. Reglas de propagación
Las reglas de propagación serán
empleadas para extraer nuevos términos
5
de aspecto y nuevas palabras de opinión,
si una determinada palabra no encaja en
ninguna de estas categorías se
considerará como any word - cualquier
palabra -. Tales reglas de propagación
están basadas en relaciones de
dependencia y en restricciones que
modelan el discurso (POS) y su
aplicación puede ser observada en la
figura Table 1.
Primero será necesario comentar la
tabla, en ella , T significa términos de
aspecto, O hace referencia a las palabras
de opinión y W a cualquier palabra. La
primera columna identifica
unívocamente a cada regla asociándole
un identificador.
En la segunda columna se observan las
dependencias y se emplean varios tipos
de dependencias: amod (adjetivo
modificador), dobj (objeto directo), sub
(sujeto) y conj (conjunción).
En la tercera, identificamos las
restricciones adicionales asociadas a
cada regla (POS).
Finalmente, en la cuarta columna se
representa el conjunto de nuevas
palabras (palabras de opinión o términos
de aspecto) que será añadido.
Para obtener los árboles de dependencia,
los lemas y las etiquetas de las
restricciones (POS) se han empleado,
como en apartados anteriores, las
herramientas Stanford NLP. Las palabras
semilla empleadas para iniciar el proceso
son good y bad, añadidas inicialmente al
conjunto de palabras de opinión (los
términos de aspecto inicialmente están
vacíos), de esta forma la inicialización no
es dependiente del dominio y las reglas
de propagación funcionan
correctamente.
El proceso es iterativo y funciona de la
siguiente forma. Se analiza cada frase de
conjunto de datos, obteniendo su árbol
de dependencia, es entonces cuando se
lanzarán las reglas. Si alguna palabra y su
dependencia disparan la regla y se
cumplen las condiciones necesarias, la
palabra se añadirá al conjunto
correspondiente (términos de aspecto o
palabras de opinión). Así, el proceso
continúa linea a linea realizando el
mismo proceso y añadiendo palabras a
sus respectivos conjuntos hasta que se
procesen todas las frases, cuando esto
ocurra, si los conjuntos siguen igual que
en la iteración anterior (no se ha añadido
ninguna palabra) el proceso finaliza, en
caso contrario se vuelve a repetir el
mismo proceso desde la primera frase
pero ahora con los conjuntos
“enriquecidos” (ya no solo con las
palabras good y bad).
1.1.3 Ranking - filtrado
Aunque el algoritmo nos permite obtener
la lista tanto de términos de aspecto
como de los objetivos de opinión, vamos
a centrarnos en los términos de aspecto.
Puesto que obtendremos una gran
cantidad de términos, incluidos aquellos
que son muy poco usuales ,por ejemplo
porque son términos muy específicos y
en un idioma distinto al analizado, es
necesario realizar un ranking de todos
los términos de aspecto para mantener
los más importantes al comienzo y los
menos importantes al final de la lista.
Para poder hacer el ranking de la lista de
aspectos, es necesario modelar las reglas
de propagación como un grafo. Cada
nueva palabra que se descubre mediante
una regla de propagación se añade al
grafo como un nuevo vértice, y esa regla
utilizada se añade como una conexión
entre la palabra origen y la palabra que
ha sido descubierta.
6
La imagen anterior representa una
pequeña porción de un grafo obtenido
por el proceso de doble propagación. Si
observamos la imagen, podemos ver que
los aspectos y los objetivos de opinión se
diferencian unos vértices de otros
mediante diferenciación de colores.
Además contando los vértices que
contienen una misma palabra es posible
saber las veces que ha aparecido en los
textos. Las palabras se identifican
mediante su lema y una etiqueta de la
posición en la que aparecen. Además,
contando las veces que aparece una
conexión con una regla podemos saber la
veces que esa regla se ha aplicado.
El grafo es tratado como un grafo
bidireccional puesto que en una conexión
la regla se puede aplicar en ambas
direcciones. Al grafo se le aplica el
algoritmo PageRank para asignar a cada
vértice un valor, de forma que los
términos de aspecto son ordenados en
base a ese valor asociado siendo el
término más importante aquel que tenga
un valor asociado mayor al resto
(ejemplo de tabla de ranking en la
imagen “Table 2” del siguiente apartado).
El algoritmo PageRank utiliza la siguiente
fórmula de asignación de valor:
donde PR(A) será el valor asociado al
vértice ‘A’, PR(i) serán los valores
asociados a cada vértice ‘i’ que está
conectado con el vértice ‘A’, C(i) es el
número de conexiones del vértice ‘i’ y d
es un valor de amortiguación entre 0 y 1.
El proceso de doble propagación
introduce en el conjunto términos no
deseados, como pudieran ser términos
que tienen una alta frecuencia de
aparición y que están relacionados con
muchos términos, por lo que tienen un
valor asociado muy alto y aparecen en las
primeras posiciones del ranking (por
ejemplo: la palabra “cosa” aparece en
multitud de ocasiones, “es una cosa
buena”). Para deshacernos de esos
términos es necesario realizar un filtrado
que elimine estos términos de forma
automática. Una opción simple es
realizar el pesado de los términos por
TF-IDF para identificar los términos y
posteriormente añadirlos a la lista
modificable de stopwords. Esta lista
contendrá, además de las stopwords
básicas, los términos que no deberán ser
términos de aspecto en ningún dominio.
De esta forma, sólo será necesario pasar
a los textos la lista de stopwords
modificada y quedarnos con aquellos
términos potencialmente interesantes.
1.1.4 Términos multipalabra
Hasta ahora no habíamos considerado
esta casuística, sin embargo es posible
que los términos de opinión no estén
formados por una única palabra,
situación que puede ser crítica en
algunos dominios e irrelevante en otros.
Por ejemplo, en uno de los dominios que
se han tratado en el taller (laptops),
como se puede observar en la figura
Table 2, el término de opinión con un
mayor ranking es battery life.
7
Esto es común que ocurra en dominios
muy especializados debido al amplio
vocabulario técnico que usualmente
combina varias palabras e.g. disco duro,
memoria principal, …
Para mejorar la efectividad en términos
de precisión y cobertura de los conjuntos
generados, dichos términos de aspecto
compuestos por más de una palabra
deben ser detectados e incluidos en los
conjuntos resultados. Para ello ya se han
empleado diversas técnicas que tienen
como objetivo incrementar la cobertura
evitando añadir términos incorrectos,
como podrían ser los términos de
aspecto compuestos fragmentados en las
palabras que los componen.
Una de esas técnicas es usar WordNet
(gran base de datos de palabras del
Inglés - sustantivos, verbos, adjetivos,
adverbios -) y unas reglas simples. Cada
vez que se va a procesar una palabra en
el algoritmo de doble propagación se
comprueba la combinación de esa
palabra con la siguiente. Si alguna
condición de las siguientes se satisface
entonces se trata ambas palabras como si
fuera una única:
 Si la palabra n y la palabra n+1
son sustantivos y la combinación
es una entrada de WordNet o de
Wikipedia. (Ej.: battery life)
 Si la palabra n es un adjetivo y la
palabra n+1 es un sustantivo, y la
combinación de ambas es una
entrada en WordNet. (Ej.: hot
dog).
 Si la palabra n es un adjetivo y la
palabra n+1 es un sustantivo, y la
palabra n es un adjetivo
relacional en WordNet. (Ej.:
Indian food).
Es posible utilizar la técnica empleando
una base de datos de palabras distintas
de WordNet dependiendo del lenguaje
que vayamos a analizar.
Otra técnica puede ser la utilización de
patrones simples. De manera que se
pueden guardar combinaciones de 2, 3 o
más términos para su tratamiento como
una única palabra. Una regla referente a
esta técnica puede ser: A de N, que indica
que cuando dos sustantivos se
encuentren separados por “de”, esos
términos se tratarán como uno solo.
1.2 ML-SentiCon
Hoy en día la cantidad de opiniones en
internet con valor para organizaciones y
empresas es inmensa y siempre esta en
aumento esto hace que su procesamiento
se imposible de forma manual, lo que ha
hecho necesario el desarrollo de métodos
para poder analizar estas opiniones y
poder clasificarlas según su polaridad
(Negativa/Positiva), para ello se utilizan
lexicones, estos clasifican las palabras
con una polaridad a priori resultado de
analizar las palabras sin ningún contexto,
los lexicones se organizan por capas con
una relación cantidad de
palabras/seguridad, teniendo pocas
palabras las primeras capas pero
asegurando que la polaridad asignada a
estas sea más segura.
8
1.2.1. Otros métodos
Muchos métodos se han utilizado para la
clasificación de la polaridad de las
palabrasa lo largo de los años cada uno
con diferentes métodos para ello a
continuación pasaremos a analizarlos.
 General Inquirer: primer lexicon
con valores subjetivos , formado
por lemas(unidades semánticas),
es construido de forma manual y
contiene aproximadamente 4206
lemas etiquetados con una
polaridad dependiendo de la
información que se posee de
dicho lema, esta es sintactica,
semantica y pragmatica.
 MPQA Subjectivity Lexicon:
utiliza, General Inquirer para
obtener palabras con valor
subjetivo a partir de los lemas de
General Inquirer y un tesaurus
(lista de sinónimos), la obtención
de las palabras es automática
pero la polaridades fueron
anotadas manualmente, pese a
ser una mejora al introducir
palabras flexionadas y no solo
lemas, no posee términos
formados por más de una
palabra.
 Bing Liu’s Opinión Lexicon: esta
construido de forma automática
pero la polaridad de las palabras
son actualizadas de forma
manual, contiene palabras
flexionadas con faltas de
ortografía y expresiones
informales de internet .
 SentiWordNet: está construido
sobre WordNet por lo que utiliza
synsets(conjunto de palabras con
un mismo significado) a los
cuales asigna un valor para medir
su negatividad o positividad este
proceso se hace de forma
automática mediante unos
conjuntos de synsets que se
utilizan de ejemplo, el hecho de
que este método esté basado en
synsets hace que a los textos se
les tenga que aplicar una
herramienta de desambiguación
aunque estos tienen poca tasa de
éxito, otra solución es calcular la
polaridad utilizando todos los
synsets posibles.
1.2.2. Synsets, ventajas y
desventajas
A continuación vamos a comentar la
ventajas y desventajas que presenta la
utilización de synsets en los lexicones.
 Ventajas: Los synsets nos
aportan muchas ventajas a la
hora de calcular la polaridad de
las palabras, por ejemplo el hecho
de que todas las palabras y lemas
en un mismo synset tienen el
mismo significado por lo que
podemos asignar una misma
polaridad a un gran conjunto de
palabras lo cual es mucho más
eficaz que tener que ir asignando
polaridad a palabras una a una ,
además estos synsets pueden
actualizarse añadiendo más
palabras porque el número de
palabras de las cuales se tiene
una polaridad definida no para de
aumentar y se adapta a la
aparición de nuevas palabras o
términos, cuando la polaridad de
una palabra debe ser cambiada se
puede cambiar la del synset y así
cambiar al mismo tiempo todas
las palabras con el mismo
significado semántico
 Desventajas: El principal
problema es la polisemia es decir
la dificultad de considerar una
palabra en un synset u otro ya
que una misma palabra puede
tener diferentes significados por
tanto pertenecer a diferentes
synsets, para solucionar esto se
pueden usar diferentes métodos
el primero sería aplicar una
herramienta para saber de forma
9
clara qué significado tiene la
palabra en cuestión, la mayoría
de estas herramientas son poco
eficaces, otra solución pasa por
utilizar todos los synsets donde
esta palabra aparece y calcular
una polaridad diferente a nivel de
palabra o lema.
1.2.3. Lexicones en español
A continuación comentaremos la
expansión de los lexicones en otros
idiomas son por ejemplo el frances,
hindu, arabe, alemán y particularmente
en español.
En español se han intentado muchos
métodos para crear lexicones, por
ejemplo la utilización de un diccionario
bilingüe y de google translator, no se
aportaron los resultados de estos dos
lexicones, también se intentó la creación
de un lexicón en español mediante la
traducción del Bing Liu’s Opinión Lexicon
corrigiendo manualmente la expresiones
informales, tampoco se reportaron los
resultados de su prueba, por último se
utilizó el MPQA Subjectivity Lexicon y el
SentiWordNet pero tomando un
WordNet en español , el resultado fue
90% de accuracy para MPQA Subjectivity
Lexicon y 74% para SentiWordNet.
1.2.4. Polaridad en synsets
Se han introducido mejoras significativas
en cada una de las etapas del método
SentiWordNet 3.0. Basándose en el
método empleado por (Baccianella, Esuli,
y Sebastiani, 2010), el método se divide
en dos partes: cálculo individual de la
polaridad, y cálculo global de la polaridad
a partir de los valores obtenidos en la
primera etapa.
Una vez obtenido este recurso, se evalúa
el lexicon tanto a nivel de synsets, como a
nivel de lemas, con valores de precisión y
volumen para el lexicon en español
superiores a los de (Pérez-Rosas, Banea,
y Mihalcea, 2012).
Se han calculado valores reales entre 0 y
1 de positividad, negatividad y
objetividad para cada uno de los synsets
de WordNet 3.0.
1.2.4.1. Nivel individual
Se parte de distintos conjuntos de
synsets considerados a priori positivos,
negativos o neutros (se ha utilizado
también WordNet-Affect como fuente de
semillas positivas y negativas).
Los clasificadores entrenados a partir de
las distintas fuentes de información,
fueron combinados en una etapa de
meta-aprendizaje, y usando dos
algoritmos de clasificación distintos, llega
a la construcción de clasificadores
ternarios, capaces de decidir si un synset
es positivo, negativo o neutro a partir de
los textos de sus glosas
Finalmente se obtienen tres
clasificadores regresionales capaces de
inducir valores de positividad,
negatividad y objetividad en el intervalo
[0, 1].
1.2.4.2. Nivel global
Trata de refinar los valores de
positividad y negatividad asignados a
cada synset, a partir de distintos tipos de
relaciones entre ellos. Estas relaciones se
modelan mediante un grafo en el que los
synsets son nodos y las aristas dirigidas
indican la relación entre los valores de
positividad y negatividad de dichos
synsets. De hecho se construyen dos
tipos de grafos distintos: uno a partir de
las glosas y otro a partir de las relaciones
semánticas.
Los grafos incluyen aristas con peso
positivo, que representan una
transferencia directa entre los valores de
positividad y negatividad de los synsets
conectados, y aristas con peso negativo,
que indican una transferencia cruzada
entre ambos tipos de valores.
Se aplica entonces al grafo un algoritmo
de recorrido aleatorio (cada nodo es un
10
valor numérico), que permite computar
los valores finales de positividad y
negatividad en una sola ejecución. Los
valores “fluyen” a lo largo del grafo a
través de las aristas, hasta que el
algoritmo obtenga valores finales para
los nodos, que dependen de los valores
iniciales y de las relaciones existentes
entre los nodos a nivel global.
1.2.5. ML-SentiCon
Por último vamos a explicar el
funcionamiento de ML-SentiCon y su
organización mediante capas, ML-
SentiCon es un conjunto de lexicones de
diferentes idiomas conseguidos gracias a
la conexión de lemas en otros idiomas a
sysnsets ya presentes, con una jerarquía
de capas para clasificar los lemas en
orden de fiabilidad.
1.2.5.1. Capas
En WordNet cada synset representa un
conjunto de lemas, estos lemas tienen
asignada una polaridad que es el
resultado de la polaridad positiva menos
la polaridad negativa, una vez conseguida
esta polaridad se le asigna a cada lema
formando una tupla lemas-polaridad, a
su vez cada lema puede tener más de un
synset asociado en este caso su polaridad
será la media de la polaridad de los
synsets que lo referencian, estos lemas
formarán las capas siendo las dos
primeras formadas por lemas
pertenecientes a synsets usados en
entrenamiento por lo que tienen una
fiabilidad mayor, el resto de capas se
forman por lemas con valores de
polaridad tanto negativos como
positivos, a la hora de asignar un lema a
una capa o a otra lo que se valora es su
valor absoluto así la cantidad de lemas
que componen cada capa sigue una
progresión geométrica, para conseguir
lexicones del resto de idiomas es
necesario utilizar WordNets de otros
idiomas en este caso los synsets se
encuentran en Multilingual Central
Repository 3.0 además se ha utilizado
EuroWordNet para conseguir una
cantidad mayor de lemas
Una vez realizadas las pruebas de
fiabilidad en dos lexicones uno en inglés
y el otro español podemos obtener
conclusiones interesantes, el lexicon en
ingles es mas fiable lo cual es un
resultado lógico ya que la obtención del
lexicon español ha sido realizada por
métodos semi-automáticos sin embargo
esta diferencia es bastante reducida en
las primeras capas estando entre el 1% y
el 2% en la primera y entre 12% y 13%
en la última, además si comparamos el
número de palabras de cada lema la la
impresión es aún más positiva.
2. Proyectos
Una vez mencionados los artículos de
referencia cuyos conceptos dan lugar a
una serie de aplicaciones fuera del
ámbito académico, realizaremos una
síntesis de 2 proyectos que representan
el panorama actual de la minería de
opiniones, entre los que se encuentran el
proyecto ATTOS con la intención de
procesar de forma automática la gran
cantidad de información existente en la
web y emplearla en la toma de decisiones
estratégicas, así como el análisis
semántico de la opinión de los
ciudadanos en redes sociales en la ciudad
del futuro cuyo objetivo final es
proporcionar a los administradores
públicos una herramienta potente para
entender las tendencias de
comportamiento y la opinión acerca de
los servicios que ofrecen.
2.1. Análisis semántico de la
opinión en las redes sociales
El ciudadano es el principal usuario de
los servicios de la ciudad pero también es
un sensor proactivo capaz de generar
grandes cantidades de datos con
información útil de su grado de
satisfacción sobre su entorno. Sin
embargo se necesita procesar y anotar
11
los datos de forma automatizada para
lograr que estos sean relevantes y poder
utilizar un modelo de abstracción. El
objetivo último es proporcionar a los
administradores públicos una
herramienta potente para entender las
tendencias de comportamiento, la
opinión acerca de los servicios que
ofrecen y proveer de un sistema de alerta
que consiga mejorar la eficiencia de los
servicios de emergencia.
2.1.1. Arquitectura
La arquitectura es muy sencilla. El
"datawarehouse" es el componente
principal basado sobre Elasticsearch
donde se almacenan todos los datos. Los
"recolectores" son un conjunto de
procesos que sirven para acceder a las
APIs de Twitter y filtrar los datos según
diferentes parámetros de búsqueda y
luego hay los "consumidores" que anotan
los mensajes de Twitter utilizando las
APIs de Textalytic. Este proceso de
anotación semántica constituye el cuello
de botella del sistema por lo tanto se
utiliza una cola con prioridad a la
información más reciente. El último
componente es el "sistema de
visualización" que explota los datos
generados.
2.1.2. Análisis de datos
Primero se hace un etiquetado semántico
para el caso particular: fragmentos
cortos de texto, con capitalización
inadecuada, faltas de ortografía,
emoticonos, abreviaturas, etc.
El segundo paso es la clasificación
automática que sigue dos modelos
específicos: "SocialMedia" que define los
temas generales de clasificación,
proporcionando mayor precisión cuando
se evalúan textos que proceden de redes
sociales y "CitizenSensor" orientado a las
características propias del ciudadano
como sensor de eventos de la ciudad,
teniendo en cuenta aspectos como su
ubicación, eventos que ocurren en la
ciudad o posibles catástrofes o alertas.
La extracción de entidades combina
varias técnicas de procesamiento de
lenguaje natural y permite al sistema de
identificar distintos tipos de elementos:
entidades nombradas (personas,
organizaciones, lugares, etc.), conceptos,
expresiones temporales, expresiones
monetarias y URIs.
En otro nivel de análisis semántico, se
realiza el análisis de sentimiento que
determina si el texto expresa un
sentimiento positivo, neutral o negativo.
También se utiliza la información del
usuario en Twitter para analizar las
características demográficas, basándose
en n-gramas.
2.1.3. Output del sistema
Las capacidades de almacenamiento del
sistema permiten analizar los datos en
tiempo real, aplicar algoritmos de
minería de datos sobre los datos
almacenados mediante técnicas de
perfilado y clustering para identificar
distintos grupos de ciudadanos que se
encuentran en la ciudad, comparar
singularidades entre los grupos
detectados, etc.
Los mensajes anotados por el sistema se
almacenan en formato JSON y las
consultas se realizan a través de una
interfaz web que permite ejecutar
consultas complejas de manera
estructurada y presenta información de
alto nivel, agregada y resumida. Además
se puede personalizar la consola según
necesidades específicas, trámite el utilizo
de widget.
Actualmente se está investigando para
explorar el análisis de movilidad en la
ciudad, la detección de los temas más
relevantes a nivel de barrios o zonas, y
realizar un análisis de reputación o
personalidad de marca.
12
2.2 Proyecto ATTOS
Es necesario afrontar el tratamiento de la
gran cantidad de información existente
en la web, información textual en
formatos muy variados y expresada de
forma espontánea y subjetiva sin la
corrección de los textos normativos. Con
la intención de procesar de forma
automática toda esta información y
utilizarla en la toma de decisiones
estratégicas surge el proyecto ATTOS
(análisis de tendencias y temáticas a
través de opiniones y sentimientos), con
3 grandes objetivos: creación y mejora de
técnicas y herramientas de modelado de
lenguaje subjetivo, desarrollo de
sistemas inteligentes que recuperen,
traten y comprendan este lenguaje y la
unificación de dichos recursos en una
plataforma web de monitorización. El
seguimiento del proyecto se puede
visualizar en: ATTOS.
2.2.1 Objetivos
ATTOS plantea 3 objetivos específicos
para la consecución de un objetivo
global. Estos objetivos son:
 Crear, adaptar y mejorar las
técnicas y herramientas de
modelado del lenguaje informal y
subjetivo, - empleado en la
expresión de opiniones y lejos de
ser similar a los textos
normativos - así como el
tratamiento del lenguaje
emocional y la aplicación de
dichas técnicas en entornos
reales y concretos.
 Desarrollar sistemas inteligentes
capaces de recuperar, tratar,
comprender y descubrir
información subjetiva valorando
el contexto en el que se ha
expuesto tal información.
 Integrar todos los recursos
anteriores en una plataforma
web de monitorización,
demostrando su validez sobre
ámbitos concretos, promoviendo
además las líneas de
investigación que surjan del
proyecto mediante la
organización de actividades
académicas, congresos y talleres.
2.2.2 Subproyectos
Se propusieron 3 subproyectos
complementarios entre si para la
consecución de los objetivos
mencionados en el apartado anterior, un
subproyecto para el cumplimiento de
cada objetivo.
El subproyecto ATTOS - Análisis de
Tendencias y Temáticas a través de
Opiniones y Sentimientos - se encargará
del 3º objetivo, construyendo la
plataforma de procesamiento que
integrará las técnicas y recursos
desarrolladas por todos los equipos del
proyecto global (contando los demás
subproyectos) para la explotación de la
información subjetiva.
El subproyecto SOTTA - Semantic Opinion
Techniques for Tendencies Analysis - se
encargará del 1º objetivo, pretendiendo
desarrollar una herramienta de análisis
de tendencias en función a los diferentes
usuarios que incorpore un conjunto de
técnicas que permitan identificar
características de los textos subjetivos.
El subproyecto ACOGEUS - Análisis de
COntenidos GEnerados por USuarios -
encargado del 2º objetivo, pretenderá
desarrollar sistemas que identifiquen y
recuperen información subjetiva de
diversos dominios.
2.2.3 Arquitectura
El sistema comentado debe incorporar
técnicas y métodos que descubran la
subjetividad en distintas dimensiones
(emocional, temporal, espacial, …), para
su desarrollo se ha optado por una
arquitectura modular capaz de extraer
indicadores de utilidad mediante el
13
proceso de diversas fuentes online
empleando técnicas de lenguaje natural.
Los distintos módulos que componen el
sistema son los siguientes:
Se partirá de diversas fuentes online de
las que se extraerán opiniones, véase
Twitter,Amazon, etc en la parte izquierda
de la figura 1.
Posteriormente, mediante el desarrollo y
la adaptación de recursos, herramientas
y técnicas de PLH (preprocesamiento y
subsistemas) se realizará un tratamiento
de la información subjetiva así como su
especialización en diversos dominios de
aplicación, teniendo en cuenta también
características de los perfiles de usuario
que exponen dichas opiniones
(reputación, opiniones de otros usuarios,
…). Algunos de estos subsistemas ya han
sido tratados en otras asignaturas o en el
presente trabajo como puede ser la
extracción de características y la
detección de la polaridad.
Finalmente se desarrollará una
plataforma online de visualización y
presentación de los resultados,
planteando también actividades de
evaluación de la utilidad de la plataforma
(promoción, coordinación, foros de
evaluación) y creando un plan de
diseminación de los resultados obtenidos
para lograr un nivel aceptable de
difusión. A pesar de la sencillez aparente
de la arquitectura, hay que afrontar
diversos problemas como la creciente
cantidad de información, siendo ésta
muy variada y sin la precisión y
correctitud de los textos
ortográficamente correctos y por tanto
difícil de procesar.
2.2.4 Resultados y contribuciones
Los trabajos realizados durante el
desarrollo del proyecto han dado lugar a
una serie contribuciones en revistas,
congresos y eventos. Entre ellos
podemos destacar:
 La definición de un método para
obtener de forma automática
consultas que varíen en función
de un conjunto de hashtags
semilla obtenidos de Twitter.
Interesante para obtener tweets
relacionados con temáticas
específicas.
 Un sistema de identificación de
opiniones con su valoración
(positividad o negatividad)
correspondiente.
 Una metodología que permite
adaptar lexicones de palabras de
opinión a un dominio concreto.
 Un método de desambiguación (a
nivel de sentido de las palabras)
que tiene en cuenta la
información del contexto, útil
para clasificadores de polaridad.
 Un método de detección de la
subjetividad a nivel de oraciones
basado en la desambiguación del
sentido de las palabras que
conforman la oración.
3. Conclusiones
La minería de opiniones o análisis de
sentimientos es un área de conocimiento
que se encuentra en constante
crecimiento, a pesar de encontrarse en
un estado todavía prematuro debido a la
complejidad de las técnicas necesarias
para conseguir los objetivos perseguidos
como la generación de lexicones en
14
idiomas diferentes del inglés (ML-
Senticon) , definir reglas adecuadas para
la extracción de términos de aspecto o
determinar la subjetividad, la polaridad y
las tendencias en un determinado texto
no normativo, incluyendo también la
dificultad de procesar dicho texto
Así, ya que la denominada Web 2.0 lo ha
socializado todo, se ha observado un
nicho de aplicación de estas técnicas
sobre redes sociales como Twitter para
tareas como recomendaciones en función
de las preferencias de usuarios y
determinación de estados de ánimo, así
como la utilización por parte de las
empresas de dichas técnicas para tomar
decisiones estratégicas en base a los
resultados obtenidos.
Con todo lo dicho, se ha puesto de
manifiesto a lo largo de este artículo que
no hay duda sobre la revolución que
implicarán estas tecnologías en el
desarrollo de Internet cuando alcancen
un nivel de desarrollo considerable, sin
embargo, ¿será para beneficio de los
usuarios o irá orientada la utilización de
éstas técnicas para incrementar más aun
el control sobre nosotros?.
4. Bibliografía
Androutsopoulos, I., Galanis,
D.,Manandhar, S., Papageorgiou, H.,
Pavlopoulos, J. & Pontiki, A. (2014) Task
Description: Aspect Based Sentiment
Analysis (ABSA). SemEval-2014. Task 4.
Recuperado el 13 de Abril de 2015 de:
http://alt.qcri.org/semeval2014/task4/
Boldrini, E., Cruz Marta, F., Díaz Galiano,
M.c., Díaz Madrigal, V. J., De Salamanca
Ros, F., García Cumbreras, M.A., García
Vallejo, F. C., García Vega, M., Gómez
Soriano, J.M., Guillén Espejo, A., Gutierrez
Vazquez, Y., Jiménez Zafra, S.M..,
Martínez Cámara, E., Martín Valdivia, M.,
Monroy Tenorio, F., Montejo Ráez, A.,
Moreda Pozo, P., Muñoz Guillena, R.,
Navarro Colado, B., Ortega Rodríguez, F.J.,
Perea Ortega, J.M., Suárez Cueto, A.,
Troyano Jiménez, J.A. y Ureña López, L.A.
(2013) ATTOS: Análisis de Tendencias y
Temáticas a través de Opiniones y
Sentimientos. Recuperado el 13 de Abril
de 2015, de: http://gplsi.dlsi.ua.es/attos/
García Pablos, A., Cuadros, M., Rigau, G., &
Gaines, S. (2014). Unsupervised
acquisition of domain aspect terms for
Aspect Based Opinion Mining.
Procesamiento Del Lenguaje Natural, 53,
121-128. Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/inde
x.php/pln/article/view/5044/2932
Cruz, F., Troyano, J., Pontes, B., & Ortega,
F. (2014). ML-SentiCon: Un lexicón
multilingüe de polaridades semánticas a
nivel de lemas. Procesamiento Del
Lenguaje Natural, 53, 113-120.
Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/inde
x.php/pln/article/view/5041/2929
PageRank (n.d) En Wikipedia.
Recuperado el 13 de Abril de 2015, de:
http://es.wikipedia.org/wiki/PageRank#
Algoritmo
15
Princeton University (2015) What is
WordNet? WordNet. A lexical datbase for
English. Recuperado el 13 de Abril de
2015, de:
https://wordnet.princeton.edu/
SemEval (n.d) En Wikipedia. Recuperado
el 13 de Abril de 2015 de:
http://en.wikipedia.org/wiki/SemEval
Ureña López, L., Muñoz Guillena, R.,
Troyano Jiménez, J., & Martín Valdivia, M.
(2014). ATTOS: Análisis de Tendencias y
Temáticas a través de Opiniones y
Sentimientos. Procesamiento Del
Lenguaje Natural, 53, 151-154.
Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/i
ndex.php/pln/article/view/5062/2950
Villena-Román, J., Luna-Cobos, A., &
González Cristóbal, J. (2014). Análisis
Semántico de la Opinión de los
Ciudadanos en Redes Sociales en la
Ciudad del Futuro. Procesamiento Del
Lenguaje Natural, 53, 159-162.
Recuperado de
http://journal.sepln.org/sepln/ojs/ojs/i
ndex.php/pln/article/view/5064/2952

Más contenido relacionado

Destacado

кто прав, кто виноват. шолохов родинка
кто прав, кто виноват. шолохов родинкакто прав, кто виноват. шолохов родинка
кто прав, кто виноват. шолохов родинка
Olga Antropova
 

Destacado (6)

Seldon - Open Sourcing a Predictive API - Data Science London #ds_ldn
Seldon - Open Sourcing a Predictive API - Data Science London #ds_ldnSeldon - Open Sourcing a Predictive API - Data Science London #ds_ldn
Seldon - Open Sourcing a Predictive API - Data Science London #ds_ldn
 
Windows xp vs apple
Windows xp vs appleWindows xp vs apple
Windows xp vs apple
 
Mapa mental/ evolución de la informatica
Mapa mental/ evolución de la informaticaMapa mental/ evolución de la informatica
Mapa mental/ evolución de la informatica
 
602 1 гдз к уч. русский язык 2кл. зелениной, хохловой-2012 -40с
602 1  гдз к уч. русский язык 2кл. зелениной, хохловой-2012 -40с602 1  гдз к уч. русский язык 2кл. зелениной, хохловой-2012 -40с
602 1 гдз к уч. русский язык 2кл. зелениной, хохловой-2012 -40с
 
W3C HTML5 CT Forum 2016 - Revisited
W3C HTML5 CT Forum 2016 - RevisitedW3C HTML5 CT Forum 2016 - Revisited
W3C HTML5 CT Forum 2016 - Revisited
 
кто прав, кто виноват. шолохов родинка
кто прав, кто виноват. шолохов родинкакто прав, кто виноват. шолохов родинка
кто прав, кто виноват. шолохов родинка
 

Similar a Minería de opiniones

Procesos de analisis de sistemas
Procesos de analisis de sistemasProcesos de analisis de sistemas
Procesos de analisis de sistemas
César Barragán
 
Unidad ii (analisis de sistemas) cuestionario
Unidad ii (analisis de sistemas) cuestionarioUnidad ii (analisis de sistemas) cuestionario
Unidad ii (analisis de sistemas) cuestionario
gregoryj733
 
Proceso de análisis
Proceso de análisisProceso de análisis
Proceso de análisis
Jesus Peralta
 

Similar a Minería de opiniones (20)

Analisis y diseno_oo
Analisis y diseno_ooAnalisis y diseno_oo
Analisis y diseno_oo
 
Jaguilar estructura del analisis
Jaguilar estructura del analisisJaguilar estructura del analisis
Jaguilar estructura del analisis
 
Anderson sanchez
Anderson sanchezAnderson sanchez
Anderson sanchez
 
Agreement management in conceptualization of new terms in dictionaries: a sem...
Agreement management in conceptualization of new terms in dictionaries: a sem...Agreement management in conceptualization of new terms in dictionaries: a sem...
Agreement management in conceptualization of new terms in dictionaries: a sem...
 
Patrones de comportamiento iterator, strategy, command, observer y visitor
Patrones de comportamiento iterator, strategy, command, observer y visitorPatrones de comportamiento iterator, strategy, command, observer y visitor
Patrones de comportamiento iterator, strategy, command, observer y visitor
 
Fundamentos y metodos de analisis de requerimientos
Fundamentos y metodos de analisis de requerimientosFundamentos y metodos de analisis de requerimientos
Fundamentos y metodos de analisis de requerimientos
 
Procesos de analisis de sistemas
Procesos de analisis de sistemasProcesos de analisis de sistemas
Procesos de analisis de sistemas
 
Unidad ii (analisis de sistemas) cuestionario
Unidad ii (analisis de sistemas) cuestionarioUnidad ii (analisis de sistemas) cuestionario
Unidad ii (analisis de sistemas) cuestionario
 
Dylan slider
Dylan sliderDylan slider
Dylan slider
 
Programa trimestre 1
Programa trimestre 1Programa trimestre 1
Programa trimestre 1
 
Infotecnología
InfotecnologíaInfotecnología
Infotecnología
 
Sem Perio2009 Mela Motores Semanticos
Sem Perio2009 Mela Motores SemanticosSem Perio2009 Mela Motores Semanticos
Sem Perio2009 Mela Motores Semanticos
 
QUE ES UML
QUE ES UMLQUE ES UML
QUE ES UML
 
informatica
informaticainformatica
informatica
 
Informe sistema experto (3) entrega final
Informe sistema experto (3) entrega finalInforme sistema experto (3) entrega final
Informe sistema experto (3) entrega final
 
Metodologías para el Diseño de Sistemas
Metodologías para el Diseño de SistemasMetodologías para el Diseño de Sistemas
Metodologías para el Diseño de Sistemas
 
Proceso de análisis
Proceso de análisisProceso de análisis
Proceso de análisis
 
Clasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos EvolutivosClasificacion Supervisada Y Algoritmos Evolutivos
Clasificacion Supervisada Y Algoritmos Evolutivos
 
República bolivariana de venezuela
República bolivariana de venezuelaRepública bolivariana de venezuela
República bolivariana de venezuela
 
Analisis y Desarrollo de Sistemas de Información
Analisis y Desarrollo de Sistemas de Información Analisis y Desarrollo de Sistemas de Información
Analisis y Desarrollo de Sistemas de Información
 

Último

NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOLNORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
Pol Peña Quispe
 
PETROLEO triptico para estudiantes de educacion
PETROLEO triptico para estudiantes de educacionPETROLEO triptico para estudiantes de educacion
PETROLEO triptico para estudiantes de educacion
ctrlc3
 
BOTAnica mesias orland role.pptx1 ciclo agropecuaria
BOTAnica mesias orland role.pptx1 ciclo agropecuariaBOTAnica mesias orland role.pptx1 ciclo agropecuaria
BOTAnica mesias orland role.pptx1 ciclo agropecuaria
mesiassalazarpresent
 
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptxtema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
DianaSG6
 
699423025-ANALISIS-DE-TRABAJO-SEGURO-ATS-PPT.ppt
699423025-ANALISIS-DE-TRABAJO-SEGURO-ATS-PPT.ppt699423025-ANALISIS-DE-TRABAJO-SEGURO-ATS-PPT.ppt
699423025-ANALISIS-DE-TRABAJO-SEGURO-ATS-PPT.ppt
eduardosanchezyauri1
 

Último (20)

Becas de UOC _ Caja Ingenieros 2024-25.pdf
Becas de UOC _ Caja Ingenieros 2024-25.pdfBecas de UOC _ Caja Ingenieros 2024-25.pdf
Becas de UOC _ Caja Ingenieros 2024-25.pdf
 
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOSAnálisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
Análisis Combinatorio ,EJERCICIOS Y PROBLEMAS RESUELTOS
 
monografia sobre puentes 1234456785432o5
monografia sobre puentes 1234456785432o5monografia sobre puentes 1234456785432o5
monografia sobre puentes 1234456785432o5
 
UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.
UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.
UNIVERSIDAD NACIONAL ALTIPLANO PUNO - FACULTAD DE INGENIERIA MECANICA ELECTRICA.
 
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptxTEMA 11.  FLUIDOS-HIDROSTATICA.TEORIApptx
TEMA 11. FLUIDOS-HIDROSTATICA.TEORIApptx
 
DESVIACION
DESVIACION DESVIACION
DESVIACION
 
Sistemas de posicionamiento global (G.P.S.).pdf
Sistemas de posicionamiento global (G.P.S.).pdfSistemas de posicionamiento global (G.P.S.).pdf
Sistemas de posicionamiento global (G.P.S.).pdf
 
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOLNORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
NORMATIVA AMERICANA ASME B30.5-2021 ESPAÑOL
 
Diagrama de flujo "Resolución de problemas".pdf
Diagrama de flujo "Resolución de problemas".pdfDiagrama de flujo "Resolución de problemas".pdf
Diagrama de flujo "Resolución de problemas".pdf
 
Vehiculo para niños con paralisis cerebral
Vehiculo para niños con paralisis cerebralVehiculo para niños con paralisis cerebral
Vehiculo para niños con paralisis cerebral
 
Ergonomía_MÉTODO_ROSA. Evaluación de puesto de trabajo de oficina - coworking
Ergonomía_MÉTODO_ROSA. Evaluación de puesto de trabajo de oficina - coworkingErgonomía_MÉTODO_ROSA. Evaluación de puesto de trabajo de oficina - coworking
Ergonomía_MÉTODO_ROSA. Evaluación de puesto de trabajo de oficina - coworking
 
Efecto. Fotovoltaico y paneles.pdf
Efecto.     Fotovoltaico  y  paneles.pdfEfecto.     Fotovoltaico  y  paneles.pdf
Efecto. Fotovoltaico y paneles.pdf
 
GUIA DE SEGURIDAD PARA MAQUINAS Y HERRAMIENTAS
GUIA DE SEGURIDAD PARA MAQUINAS Y HERRAMIENTASGUIA DE SEGURIDAD PARA MAQUINAS Y HERRAMIENTAS
GUIA DE SEGURIDAD PARA MAQUINAS Y HERRAMIENTAS
 
PETROLEO triptico para estudiantes de educacion
PETROLEO triptico para estudiantes de educacionPETROLEO triptico para estudiantes de educacion
PETROLEO triptico para estudiantes de educacion
 
BOTAnica mesias orland role.pptx1 ciclo agropecuaria
BOTAnica mesias orland role.pptx1 ciclo agropecuariaBOTAnica mesias orland role.pptx1 ciclo agropecuaria
BOTAnica mesias orland role.pptx1 ciclo agropecuaria
 
Instalación de GLPI en Debian Linux paso a paso
Instalación de GLPI en Debian Linux paso a pasoInstalación de GLPI en Debian Linux paso a paso
Instalación de GLPI en Debian Linux paso a paso
 
CONTROL DE MOTORES DE CORRIENTE ALTERNA PPT
CONTROL DE MOTORES DE CORRIENTE ALTERNA  PPTCONTROL DE MOTORES DE CORRIENTE ALTERNA  PPT
CONTROL DE MOTORES DE CORRIENTE ALTERNA PPT
 
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptxtema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
tema-6.4-calculo-de-la-potencia-requerida-para-transporte-de-solidos-.pptx
 
&PLC Ladder.pdf automatización industrial
&PLC Ladder.pdf automatización industrial&PLC Ladder.pdf automatización industrial
&PLC Ladder.pdf automatización industrial
 
699423025-ANALISIS-DE-TRABAJO-SEGURO-ATS-PPT.ppt
699423025-ANALISIS-DE-TRABAJO-SEGURO-ATS-PPT.ppt699423025-ANALISIS-DE-TRABAJO-SEGURO-ATS-PPT.ppt
699423025-ANALISIS-DE-TRABAJO-SEGURO-ATS-PPT.ppt
 

Minería de opiniones

  • 1. 1 *Departamento de Sistemas Informáticos y Computación, Universidad Politécnica de Valencia, Camino de Vera, Valencia, 46022. El autor es estudiante de 3º curso del grado de ingeniería informática -Computación- Minería de opiniones Alberto Donet* , J. Ángel González*, Renato Strazzulla*, Nataniel Renzo* Departamento de Sistemas Informáticos y Computación Universidad Politécnica de Valencia Marzo 2015 Resumen La minería de opiniones es un campo de las ciencias de la computación referido al proceso que intenta descubrir opiniones en grandes volúmenes de conjuntos de datos para procesarlas y emplearlas en la toma de decisiones estratégicas. En el presente documento realizaremos una síntesis sobre un conjunto de documentos relacionados con dicha área publicados en el número 53 de la revista SEPLN entre los que se encuentran 2 proyectos, que tienen como objetivo el análisis de tendencias y temáticas a través de opiniones y sentimientos y el almacenamiento, análisis y visualización de la gran cantidad de información que los ciudadanos exponen en las redes sociales como Twitter, además de 2 artículos en los que se analizarán la adquisición de opiniones no supervisada basada en aspectos y un recurso denominado ML-SentiCon que contiene un conjunto de lexicones de polaridades semánticas a nivel de lemas para diversos idiomas. PALABRAS CLAVE: opiniones, análisis, minería de opiniones Abstract Opinions mining is a field of computer science referred to the process that attempts to discover opinions on large volumes of data sets to process and use them for making strategic decisions. In this document we will make a summary of a set of documents related to the published area number 53 of the SEPLN magazine which are 2 projects, which are aimed at the analysis of the trends and issues through opinions and feelings and the storage, analysis and visualization of the large amount of information that citizens are exposed in social networks such as Twitter as well as 2 articles which will analyse the acquisition of opinions not supervised based on aspects and a so-called ML-SentiCon resource that contains a set of semantic polarity lexicons at the level of slogans for different languages. KEYWORDS: opinions, analysis, opinions mining
  • 2. 2 Índice 1. Artículos 1.1 Adquisición no supervisada de términos para minería de opiniones 1.1.1 SemEval 2014 Task 4 1.1.2 Enfoque para generación de listas de aspectos 1.1.2.1 Obtención de textos 1.1.2.2 Doble propagación 1.1.2.3 Reglas de propagación 1.1.3 Ranking - filtrado 1.1.4 Términos multipalabra 1.2 ML-SentiCon 1.2.1 Otros métodos 1.2.2 Synsets,ventajas y desventajas 1.2.3 Lexicones en español 1.2.4 Polaridad en synsets 1.2.4.1 Nivel individual 1.2.4.2 Nivel global 1.2.5 ML-SentiCon 1.2.5.1 Capas 2. Proyectos 2.1 Análisis semántico de la opinión en las redes sociales 2.1.1 Arquitectura 2.1.2 Análisis de datos 2.1.3 Output del sistema 2.2 Proyecto ATTOS 2.2.1 Objetivos 2.2.2 Subproyectos 2.2.3 Arquitectura 2.2.4 Resultados y contribuciones 3. Conclusiones 4. Bibliografía
  • 3. 3 1. Artículos Comenzaremos el presente trabajo realizando una síntesis de los artículos a analizar, publicados en el número 53 de la revista SEPLN. Primero trataremos la adquisición no supervisada de términos de aspecto en diversos dominios para minería de opiniones basada en aspectos, lo que permitirá detectar aspectos de opinión, su categoría y su polaridad (págs. 121-128 del número 53 del SEPLN) y continuaremos realizando una síntesis de ML-SentiCon, un lexicón multilingüe de polaridades semánticas a nivel de lemas (págs. 113-120 del número 53 del SEPLN), viendo, aparte de sus características básicas, su utilidad para el análisis de la subjetividad. 1.1 Adquisición no supervisada de términos para minería de opiniones Existen dos tipos de sistemas de minería de opiniones: los supervisados y los no- supervisados o semi-supervisados. Debido a la cantidad de trabajo necesario para la preparación en aquellos que son supervisados, la dificultad que presentan para aplicarlos en otros dominios o lenguajes es muy grande, por lo que se pretende utilizar aquellos no- supervisados, que se basan en aspectos. Utilizando SemEval 2014 Task 4 es posible detectar esos aspectos de opinión, así como su categoría y polaridad, en frases; lo que permite generar una lista de aspectos de dominio para un nuevo dominio usando una colección de documentos. 1.1.1. SemEval 2014 Task 4 SemEval consiste en una serie de evaluaciones sobre tareas de análisis semántico computacional que evolucionó desde la serie de evaluaciones Senseval. Como se ha comentado en la introducción, nos centraremos en sistemas no supervisados basados en aspectos (debido a la complejidad de aplicación de aquellos sistemas supervisados), empleando las 4 tareas presentadas en el taller SemEval 2014 (Task 4) que nos permitirán detectar aspectos de opinión en diversos dominios. Para ello, provee de 2 conjuntos de datos para entrenamiento (training datasets) relacionados con opiniones sobre restaurantes y opiniones sobre ordenadores portátiles, constando ambos de más de 3000 frases. La tarea de procesamiento de dichos conjuntos, como hemos dicho, se dividirá en 4 subtareas entre las que encontramos:  Subtarea 1: Extracción de términos de aspecto, que identificará entidades en las frases y retornará una lista con los términos de aspecto detectados.  Subtarea 2: Detección de la polaridad en diversos niveles (postivo, negativo, neutral y conflictivo)  Subtarea 3: Clasificación de los términos de aspecto obtenidos en la subtarea 1 en una serie de categorías predefinidas (comida, servicio, precio, ambiente, anécdotas y misceláneo)  Subtarea 4: Análoga a la tarea 2, pero determinando la polaridad en función de las categorías de aspecto. 1.1.2. Enfoque para generación de listas de aspectos El principal objetivo consiste en poder construir una lista de términos de aspecto para un dominio nuevo, así como los objetivos de opinión. Esta lista será un recurso potencial con la función de
  • 4. 4 realizar un análisis de sentimientos basado en los objetivos de opinión y los términos de aspecto. Como ejemplo, en un texto relacionado con restaurantes, una lista de vinos o el menú del restaurante pueden ser aspectos. O en un dominio de telefonía, el procesador y la batería. Como vemos, dependiendo del dominio, el conjunto de términos de aspecto va cambiando. Para poder extraer la lista de aspectos, necesitaremos una gran colección de textos sin etiquetar referentes al dominio que queramos analizar. 1.1.2.1. Obtención de textos Como se ha comentado en el apartado 1.1.1. se partirá de 2 conjuntos de datos de entrenamiento basados en revisiones de restaurantes y de laptops. Tales conjuntos de datos han sido obtenidos mediante software de extracción de información de sitios web que simulan el comportamiento del humano durante la navegación (conocido como web- scraping, algo similar al web-spidering ejecutado por los robots de los motores de búsqueda encargados de indexar contenido web) de sitios web de críticas de restaurantes y laptops. No se ha realizado ningún tipo de preproceso sobre los textos extraídos, extrayendo de los propios textos un conjunto de listas de entidades. Para ello se han dividido las frases utilizando las herramientas Stanford NLP y se han almacenado los resultados en ficheros XML, obteniendo un conjunto de 25,000 frases que serán usadas junto con las 6,000 mencionadas en apartados anteriores (3,000 de restaurantes y 3,000 laptops) para extraer listas de términos de aspecto. 1.1.2.2. Doble propagación Para realizar la obtención/ampliación de objetivos de opinión utilizaremos la doble propagación. Este método consiste en utilizar una lista de semillas inicial de términos de aspecto y de objetivos de opinión para propagarlas a través de un conjunto de datos cumpliendo una serie de reglas respecto a la propagación (las cuales comentaremos en el próximo apartado). El método recibe el nombre de doble propagación porque se emplean los términos de aspecto para descubrir nuevos objetivos de opinión, y a su vez se emplean los objetivos de opinión para descubrir nuevos términos de aspecto. El objetivo es extraer los aspectos y las palabras de opinión y clasificarlas como palabras de polaridad de sentimiento negativo o positivo. En este caso, solo se usarán sustantivos como términos de aspecto, y adjetivos como objetivos de opinión. Esta es una importante restricción que limita al proceso, puesto que se basará tan solo en la obtención de opiniones explícitas (por ejemplo: “el procesador del móvil es rápido”) y dejará de lado aquellas opiniones que se encuentren implícitamente en el texto (como pudiera ser: “el teléfono cabe en el bolsillo”, lo que claramente es una buena opinión referente al tamaño y a su movilidad). Para poder extraer esas opiniones explícitas se deberá usar otro conjunto de técnicas y enfoques. Durante el proceso de propagación se aplican varias reglas para obtener nuevos términos de aspecto o objetivos de opinión, los cuales serán añadidos al conjunto inicial determinado para expandirlo. Cuando se descubren nuevas palabras, éstas son utilizadas para la activación de las reglas de propagación, así que en la siguiente iteración pueden aparecer palabras nuevas. El proceso está guiado por las reglas de propagación. Cuando una palabra coincide con una regla y la activa, la palabra se añade al conjunto correspondiente. El proceso termina cuando no se descubre ninguna palabra durante una iteración. 1.1.2.3. Reglas de propagación Las reglas de propagación serán empleadas para extraer nuevos términos
  • 5. 5 de aspecto y nuevas palabras de opinión, si una determinada palabra no encaja en ninguna de estas categorías se considerará como any word - cualquier palabra -. Tales reglas de propagación están basadas en relaciones de dependencia y en restricciones que modelan el discurso (POS) y su aplicación puede ser observada en la figura Table 1. Primero será necesario comentar la tabla, en ella , T significa términos de aspecto, O hace referencia a las palabras de opinión y W a cualquier palabra. La primera columna identifica unívocamente a cada regla asociándole un identificador. En la segunda columna se observan las dependencias y se emplean varios tipos de dependencias: amod (adjetivo modificador), dobj (objeto directo), sub (sujeto) y conj (conjunción). En la tercera, identificamos las restricciones adicionales asociadas a cada regla (POS). Finalmente, en la cuarta columna se representa el conjunto de nuevas palabras (palabras de opinión o términos de aspecto) que será añadido. Para obtener los árboles de dependencia, los lemas y las etiquetas de las restricciones (POS) se han empleado, como en apartados anteriores, las herramientas Stanford NLP. Las palabras semilla empleadas para iniciar el proceso son good y bad, añadidas inicialmente al conjunto de palabras de opinión (los términos de aspecto inicialmente están vacíos), de esta forma la inicialización no es dependiente del dominio y las reglas de propagación funcionan correctamente. El proceso es iterativo y funciona de la siguiente forma. Se analiza cada frase de conjunto de datos, obteniendo su árbol de dependencia, es entonces cuando se lanzarán las reglas. Si alguna palabra y su dependencia disparan la regla y se cumplen las condiciones necesarias, la palabra se añadirá al conjunto correspondiente (términos de aspecto o palabras de opinión). Así, el proceso continúa linea a linea realizando el mismo proceso y añadiendo palabras a sus respectivos conjuntos hasta que se procesen todas las frases, cuando esto ocurra, si los conjuntos siguen igual que en la iteración anterior (no se ha añadido ninguna palabra) el proceso finaliza, en caso contrario se vuelve a repetir el mismo proceso desde la primera frase pero ahora con los conjuntos “enriquecidos” (ya no solo con las palabras good y bad). 1.1.3 Ranking - filtrado Aunque el algoritmo nos permite obtener la lista tanto de términos de aspecto como de los objetivos de opinión, vamos a centrarnos en los términos de aspecto. Puesto que obtendremos una gran cantidad de términos, incluidos aquellos que son muy poco usuales ,por ejemplo porque son términos muy específicos y en un idioma distinto al analizado, es necesario realizar un ranking de todos los términos de aspecto para mantener los más importantes al comienzo y los menos importantes al final de la lista. Para poder hacer el ranking de la lista de aspectos, es necesario modelar las reglas de propagación como un grafo. Cada nueva palabra que se descubre mediante una regla de propagación se añade al grafo como un nuevo vértice, y esa regla utilizada se añade como una conexión entre la palabra origen y la palabra que ha sido descubierta.
  • 6. 6 La imagen anterior representa una pequeña porción de un grafo obtenido por el proceso de doble propagación. Si observamos la imagen, podemos ver que los aspectos y los objetivos de opinión se diferencian unos vértices de otros mediante diferenciación de colores. Además contando los vértices que contienen una misma palabra es posible saber las veces que ha aparecido en los textos. Las palabras se identifican mediante su lema y una etiqueta de la posición en la que aparecen. Además, contando las veces que aparece una conexión con una regla podemos saber la veces que esa regla se ha aplicado. El grafo es tratado como un grafo bidireccional puesto que en una conexión la regla se puede aplicar en ambas direcciones. Al grafo se le aplica el algoritmo PageRank para asignar a cada vértice un valor, de forma que los términos de aspecto son ordenados en base a ese valor asociado siendo el término más importante aquel que tenga un valor asociado mayor al resto (ejemplo de tabla de ranking en la imagen “Table 2” del siguiente apartado). El algoritmo PageRank utiliza la siguiente fórmula de asignación de valor: donde PR(A) será el valor asociado al vértice ‘A’, PR(i) serán los valores asociados a cada vértice ‘i’ que está conectado con el vértice ‘A’, C(i) es el número de conexiones del vértice ‘i’ y d es un valor de amortiguación entre 0 y 1. El proceso de doble propagación introduce en el conjunto términos no deseados, como pudieran ser términos que tienen una alta frecuencia de aparición y que están relacionados con muchos términos, por lo que tienen un valor asociado muy alto y aparecen en las primeras posiciones del ranking (por ejemplo: la palabra “cosa” aparece en multitud de ocasiones, “es una cosa buena”). Para deshacernos de esos términos es necesario realizar un filtrado que elimine estos términos de forma automática. Una opción simple es realizar el pesado de los términos por TF-IDF para identificar los términos y posteriormente añadirlos a la lista modificable de stopwords. Esta lista contendrá, además de las stopwords básicas, los términos que no deberán ser términos de aspecto en ningún dominio. De esta forma, sólo será necesario pasar a los textos la lista de stopwords modificada y quedarnos con aquellos términos potencialmente interesantes. 1.1.4 Términos multipalabra Hasta ahora no habíamos considerado esta casuística, sin embargo es posible que los términos de opinión no estén formados por una única palabra, situación que puede ser crítica en algunos dominios e irrelevante en otros. Por ejemplo, en uno de los dominios que se han tratado en el taller (laptops), como se puede observar en la figura Table 2, el término de opinión con un mayor ranking es battery life.
  • 7. 7 Esto es común que ocurra en dominios muy especializados debido al amplio vocabulario técnico que usualmente combina varias palabras e.g. disco duro, memoria principal, … Para mejorar la efectividad en términos de precisión y cobertura de los conjuntos generados, dichos términos de aspecto compuestos por más de una palabra deben ser detectados e incluidos en los conjuntos resultados. Para ello ya se han empleado diversas técnicas que tienen como objetivo incrementar la cobertura evitando añadir términos incorrectos, como podrían ser los términos de aspecto compuestos fragmentados en las palabras que los componen. Una de esas técnicas es usar WordNet (gran base de datos de palabras del Inglés - sustantivos, verbos, adjetivos, adverbios -) y unas reglas simples. Cada vez que se va a procesar una palabra en el algoritmo de doble propagación se comprueba la combinación de esa palabra con la siguiente. Si alguna condición de las siguientes se satisface entonces se trata ambas palabras como si fuera una única:  Si la palabra n y la palabra n+1 son sustantivos y la combinación es una entrada de WordNet o de Wikipedia. (Ej.: battery life)  Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la combinación de ambas es una entrada en WordNet. (Ej.: hot dog).  Si la palabra n es un adjetivo y la palabra n+1 es un sustantivo, y la palabra n es un adjetivo relacional en WordNet. (Ej.: Indian food). Es posible utilizar la técnica empleando una base de datos de palabras distintas de WordNet dependiendo del lenguaje que vayamos a analizar. Otra técnica puede ser la utilización de patrones simples. De manera que se pueden guardar combinaciones de 2, 3 o más términos para su tratamiento como una única palabra. Una regla referente a esta técnica puede ser: A de N, que indica que cuando dos sustantivos se encuentren separados por “de”, esos términos se tratarán como uno solo. 1.2 ML-SentiCon Hoy en día la cantidad de opiniones en internet con valor para organizaciones y empresas es inmensa y siempre esta en aumento esto hace que su procesamiento se imposible de forma manual, lo que ha hecho necesario el desarrollo de métodos para poder analizar estas opiniones y poder clasificarlas según su polaridad (Negativa/Positiva), para ello se utilizan lexicones, estos clasifican las palabras con una polaridad a priori resultado de analizar las palabras sin ningún contexto, los lexicones se organizan por capas con una relación cantidad de palabras/seguridad, teniendo pocas palabras las primeras capas pero asegurando que la polaridad asignada a estas sea más segura.
  • 8. 8 1.2.1. Otros métodos Muchos métodos se han utilizado para la clasificación de la polaridad de las palabrasa lo largo de los años cada uno con diferentes métodos para ello a continuación pasaremos a analizarlos.  General Inquirer: primer lexicon con valores subjetivos , formado por lemas(unidades semánticas), es construido de forma manual y contiene aproximadamente 4206 lemas etiquetados con una polaridad dependiendo de la información que se posee de dicho lema, esta es sintactica, semantica y pragmatica.  MPQA Subjectivity Lexicon: utiliza, General Inquirer para obtener palabras con valor subjetivo a partir de los lemas de General Inquirer y un tesaurus (lista de sinónimos), la obtención de las palabras es automática pero la polaridades fueron anotadas manualmente, pese a ser una mejora al introducir palabras flexionadas y no solo lemas, no posee términos formados por más de una palabra.  Bing Liu’s Opinión Lexicon: esta construido de forma automática pero la polaridad de las palabras son actualizadas de forma manual, contiene palabras flexionadas con faltas de ortografía y expresiones informales de internet .  SentiWordNet: está construido sobre WordNet por lo que utiliza synsets(conjunto de palabras con un mismo significado) a los cuales asigna un valor para medir su negatividad o positividad este proceso se hace de forma automática mediante unos conjuntos de synsets que se utilizan de ejemplo, el hecho de que este método esté basado en synsets hace que a los textos se les tenga que aplicar una herramienta de desambiguación aunque estos tienen poca tasa de éxito, otra solución es calcular la polaridad utilizando todos los synsets posibles. 1.2.2. Synsets, ventajas y desventajas A continuación vamos a comentar la ventajas y desventajas que presenta la utilización de synsets en los lexicones.  Ventajas: Los synsets nos aportan muchas ventajas a la hora de calcular la polaridad de las palabras, por ejemplo el hecho de que todas las palabras y lemas en un mismo synset tienen el mismo significado por lo que podemos asignar una misma polaridad a un gran conjunto de palabras lo cual es mucho más eficaz que tener que ir asignando polaridad a palabras una a una , además estos synsets pueden actualizarse añadiendo más palabras porque el número de palabras de las cuales se tiene una polaridad definida no para de aumentar y se adapta a la aparición de nuevas palabras o términos, cuando la polaridad de una palabra debe ser cambiada se puede cambiar la del synset y así cambiar al mismo tiempo todas las palabras con el mismo significado semántico  Desventajas: El principal problema es la polisemia es decir la dificultad de considerar una palabra en un synset u otro ya que una misma palabra puede tener diferentes significados por tanto pertenecer a diferentes synsets, para solucionar esto se pueden usar diferentes métodos el primero sería aplicar una herramienta para saber de forma
  • 9. 9 clara qué significado tiene la palabra en cuestión, la mayoría de estas herramientas son poco eficaces, otra solución pasa por utilizar todos los synsets donde esta palabra aparece y calcular una polaridad diferente a nivel de palabra o lema. 1.2.3. Lexicones en español A continuación comentaremos la expansión de los lexicones en otros idiomas son por ejemplo el frances, hindu, arabe, alemán y particularmente en español. En español se han intentado muchos métodos para crear lexicones, por ejemplo la utilización de un diccionario bilingüe y de google translator, no se aportaron los resultados de estos dos lexicones, también se intentó la creación de un lexicón en español mediante la traducción del Bing Liu’s Opinión Lexicon corrigiendo manualmente la expresiones informales, tampoco se reportaron los resultados de su prueba, por último se utilizó el MPQA Subjectivity Lexicon y el SentiWordNet pero tomando un WordNet en español , el resultado fue 90% de accuracy para MPQA Subjectivity Lexicon y 74% para SentiWordNet. 1.2.4. Polaridad en synsets Se han introducido mejoras significativas en cada una de las etapas del método SentiWordNet 3.0. Basándose en el método empleado por (Baccianella, Esuli, y Sebastiani, 2010), el método se divide en dos partes: cálculo individual de la polaridad, y cálculo global de la polaridad a partir de los valores obtenidos en la primera etapa. Una vez obtenido este recurso, se evalúa el lexicon tanto a nivel de synsets, como a nivel de lemas, con valores de precisión y volumen para el lexicon en español superiores a los de (Pérez-Rosas, Banea, y Mihalcea, 2012). Se han calculado valores reales entre 0 y 1 de positividad, negatividad y objetividad para cada uno de los synsets de WordNet 3.0. 1.2.4.1. Nivel individual Se parte de distintos conjuntos de synsets considerados a priori positivos, negativos o neutros (se ha utilizado también WordNet-Affect como fuente de semillas positivas y negativas). Los clasificadores entrenados a partir de las distintas fuentes de información, fueron combinados en una etapa de meta-aprendizaje, y usando dos algoritmos de clasificación distintos, llega a la construcción de clasificadores ternarios, capaces de decidir si un synset es positivo, negativo o neutro a partir de los textos de sus glosas Finalmente se obtienen tres clasificadores regresionales capaces de inducir valores de positividad, negatividad y objetividad en el intervalo [0, 1]. 1.2.4.2. Nivel global Trata de refinar los valores de positividad y negatividad asignados a cada synset, a partir de distintos tipos de relaciones entre ellos. Estas relaciones se modelan mediante un grafo en el que los synsets son nodos y las aristas dirigidas indican la relación entre los valores de positividad y negatividad de dichos synsets. De hecho se construyen dos tipos de grafos distintos: uno a partir de las glosas y otro a partir de las relaciones semánticas. Los grafos incluyen aristas con peso positivo, que representan una transferencia directa entre los valores de positividad y negatividad de los synsets conectados, y aristas con peso negativo, que indican una transferencia cruzada entre ambos tipos de valores. Se aplica entonces al grafo un algoritmo de recorrido aleatorio (cada nodo es un
  • 10. 10 valor numérico), que permite computar los valores finales de positividad y negatividad en una sola ejecución. Los valores “fluyen” a lo largo del grafo a través de las aristas, hasta que el algoritmo obtenga valores finales para los nodos, que dependen de los valores iniciales y de las relaciones existentes entre los nodos a nivel global. 1.2.5. ML-SentiCon Por último vamos a explicar el funcionamiento de ML-SentiCon y su organización mediante capas, ML- SentiCon es un conjunto de lexicones de diferentes idiomas conseguidos gracias a la conexión de lemas en otros idiomas a sysnsets ya presentes, con una jerarquía de capas para clasificar los lemas en orden de fiabilidad. 1.2.5.1. Capas En WordNet cada synset representa un conjunto de lemas, estos lemas tienen asignada una polaridad que es el resultado de la polaridad positiva menos la polaridad negativa, una vez conseguida esta polaridad se le asigna a cada lema formando una tupla lemas-polaridad, a su vez cada lema puede tener más de un synset asociado en este caso su polaridad será la media de la polaridad de los synsets que lo referencian, estos lemas formarán las capas siendo las dos primeras formadas por lemas pertenecientes a synsets usados en entrenamiento por lo que tienen una fiabilidad mayor, el resto de capas se forman por lemas con valores de polaridad tanto negativos como positivos, a la hora de asignar un lema a una capa o a otra lo que se valora es su valor absoluto así la cantidad de lemas que componen cada capa sigue una progresión geométrica, para conseguir lexicones del resto de idiomas es necesario utilizar WordNets de otros idiomas en este caso los synsets se encuentran en Multilingual Central Repository 3.0 además se ha utilizado EuroWordNet para conseguir una cantidad mayor de lemas Una vez realizadas las pruebas de fiabilidad en dos lexicones uno en inglés y el otro español podemos obtener conclusiones interesantes, el lexicon en ingles es mas fiable lo cual es un resultado lógico ya que la obtención del lexicon español ha sido realizada por métodos semi-automáticos sin embargo esta diferencia es bastante reducida en las primeras capas estando entre el 1% y el 2% en la primera y entre 12% y 13% en la última, además si comparamos el número de palabras de cada lema la la impresión es aún más positiva. 2. Proyectos Una vez mencionados los artículos de referencia cuyos conceptos dan lugar a una serie de aplicaciones fuera del ámbito académico, realizaremos una síntesis de 2 proyectos que representan el panorama actual de la minería de opiniones, entre los que se encuentran el proyecto ATTOS con la intención de procesar de forma automática la gran cantidad de información existente en la web y emplearla en la toma de decisiones estratégicas, así como el análisis semántico de la opinión de los ciudadanos en redes sociales en la ciudad del futuro cuyo objetivo final es proporcionar a los administradores públicos una herramienta potente para entender las tendencias de comportamiento y la opinión acerca de los servicios que ofrecen. 2.1. Análisis semántico de la opinión en las redes sociales El ciudadano es el principal usuario de los servicios de la ciudad pero también es un sensor proactivo capaz de generar grandes cantidades de datos con información útil de su grado de satisfacción sobre su entorno. Sin embargo se necesita procesar y anotar
  • 11. 11 los datos de forma automatizada para lograr que estos sean relevantes y poder utilizar un modelo de abstracción. El objetivo último es proporcionar a los administradores públicos una herramienta potente para entender las tendencias de comportamiento, la opinión acerca de los servicios que ofrecen y proveer de un sistema de alerta que consiga mejorar la eficiencia de los servicios de emergencia. 2.1.1. Arquitectura La arquitectura es muy sencilla. El "datawarehouse" es el componente principal basado sobre Elasticsearch donde se almacenan todos los datos. Los "recolectores" son un conjunto de procesos que sirven para acceder a las APIs de Twitter y filtrar los datos según diferentes parámetros de búsqueda y luego hay los "consumidores" que anotan los mensajes de Twitter utilizando las APIs de Textalytic. Este proceso de anotación semántica constituye el cuello de botella del sistema por lo tanto se utiliza una cola con prioridad a la información más reciente. El último componente es el "sistema de visualización" que explota los datos generados. 2.1.2. Análisis de datos Primero se hace un etiquetado semántico para el caso particular: fragmentos cortos de texto, con capitalización inadecuada, faltas de ortografía, emoticonos, abreviaturas, etc. El segundo paso es la clasificación automática que sigue dos modelos específicos: "SocialMedia" que define los temas generales de clasificación, proporcionando mayor precisión cuando se evalúan textos que proceden de redes sociales y "CitizenSensor" orientado a las características propias del ciudadano como sensor de eventos de la ciudad, teniendo en cuenta aspectos como su ubicación, eventos que ocurren en la ciudad o posibles catástrofes o alertas. La extracción de entidades combina varias técnicas de procesamiento de lenguaje natural y permite al sistema de identificar distintos tipos de elementos: entidades nombradas (personas, organizaciones, lugares, etc.), conceptos, expresiones temporales, expresiones monetarias y URIs. En otro nivel de análisis semántico, se realiza el análisis de sentimiento que determina si el texto expresa un sentimiento positivo, neutral o negativo. También se utiliza la información del usuario en Twitter para analizar las características demográficas, basándose en n-gramas. 2.1.3. Output del sistema Las capacidades de almacenamiento del sistema permiten analizar los datos en tiempo real, aplicar algoritmos de minería de datos sobre los datos almacenados mediante técnicas de perfilado y clustering para identificar distintos grupos de ciudadanos que se encuentran en la ciudad, comparar singularidades entre los grupos detectados, etc. Los mensajes anotados por el sistema se almacenan en formato JSON y las consultas se realizan a través de una interfaz web que permite ejecutar consultas complejas de manera estructurada y presenta información de alto nivel, agregada y resumida. Además se puede personalizar la consola según necesidades específicas, trámite el utilizo de widget. Actualmente se está investigando para explorar el análisis de movilidad en la ciudad, la detección de los temas más relevantes a nivel de barrios o zonas, y realizar un análisis de reputación o personalidad de marca.
  • 12. 12 2.2 Proyecto ATTOS Es necesario afrontar el tratamiento de la gran cantidad de información existente en la web, información textual en formatos muy variados y expresada de forma espontánea y subjetiva sin la corrección de los textos normativos. Con la intención de procesar de forma automática toda esta información y utilizarla en la toma de decisiones estratégicas surge el proyecto ATTOS (análisis de tendencias y temáticas a través de opiniones y sentimientos), con 3 grandes objetivos: creación y mejora de técnicas y herramientas de modelado de lenguaje subjetivo, desarrollo de sistemas inteligentes que recuperen, traten y comprendan este lenguaje y la unificación de dichos recursos en una plataforma web de monitorización. El seguimiento del proyecto se puede visualizar en: ATTOS. 2.2.1 Objetivos ATTOS plantea 3 objetivos específicos para la consecución de un objetivo global. Estos objetivos son:  Crear, adaptar y mejorar las técnicas y herramientas de modelado del lenguaje informal y subjetivo, - empleado en la expresión de opiniones y lejos de ser similar a los textos normativos - así como el tratamiento del lenguaje emocional y la aplicación de dichas técnicas en entornos reales y concretos.  Desarrollar sistemas inteligentes capaces de recuperar, tratar, comprender y descubrir información subjetiva valorando el contexto en el que se ha expuesto tal información.  Integrar todos los recursos anteriores en una plataforma web de monitorización, demostrando su validez sobre ámbitos concretos, promoviendo además las líneas de investigación que surjan del proyecto mediante la organización de actividades académicas, congresos y talleres. 2.2.2 Subproyectos Se propusieron 3 subproyectos complementarios entre si para la consecución de los objetivos mencionados en el apartado anterior, un subproyecto para el cumplimiento de cada objetivo. El subproyecto ATTOS - Análisis de Tendencias y Temáticas a través de Opiniones y Sentimientos - se encargará del 3º objetivo, construyendo la plataforma de procesamiento que integrará las técnicas y recursos desarrolladas por todos los equipos del proyecto global (contando los demás subproyectos) para la explotación de la información subjetiva. El subproyecto SOTTA - Semantic Opinion Techniques for Tendencies Analysis - se encargará del 1º objetivo, pretendiendo desarrollar una herramienta de análisis de tendencias en función a los diferentes usuarios que incorpore un conjunto de técnicas que permitan identificar características de los textos subjetivos. El subproyecto ACOGEUS - Análisis de COntenidos GEnerados por USuarios - encargado del 2º objetivo, pretenderá desarrollar sistemas que identifiquen y recuperen información subjetiva de diversos dominios. 2.2.3 Arquitectura El sistema comentado debe incorporar técnicas y métodos que descubran la subjetividad en distintas dimensiones (emocional, temporal, espacial, …), para su desarrollo se ha optado por una arquitectura modular capaz de extraer indicadores de utilidad mediante el
  • 13. 13 proceso de diversas fuentes online empleando técnicas de lenguaje natural. Los distintos módulos que componen el sistema son los siguientes: Se partirá de diversas fuentes online de las que se extraerán opiniones, véase Twitter,Amazon, etc en la parte izquierda de la figura 1. Posteriormente, mediante el desarrollo y la adaptación de recursos, herramientas y técnicas de PLH (preprocesamiento y subsistemas) se realizará un tratamiento de la información subjetiva así como su especialización en diversos dominios de aplicación, teniendo en cuenta también características de los perfiles de usuario que exponen dichas opiniones (reputación, opiniones de otros usuarios, …). Algunos de estos subsistemas ya han sido tratados en otras asignaturas o en el presente trabajo como puede ser la extracción de características y la detección de la polaridad. Finalmente se desarrollará una plataforma online de visualización y presentación de los resultados, planteando también actividades de evaluación de la utilidad de la plataforma (promoción, coordinación, foros de evaluación) y creando un plan de diseminación de los resultados obtenidos para lograr un nivel aceptable de difusión. A pesar de la sencillez aparente de la arquitectura, hay que afrontar diversos problemas como la creciente cantidad de información, siendo ésta muy variada y sin la precisión y correctitud de los textos ortográficamente correctos y por tanto difícil de procesar. 2.2.4 Resultados y contribuciones Los trabajos realizados durante el desarrollo del proyecto han dado lugar a una serie contribuciones en revistas, congresos y eventos. Entre ellos podemos destacar:  La definición de un método para obtener de forma automática consultas que varíen en función de un conjunto de hashtags semilla obtenidos de Twitter. Interesante para obtener tweets relacionados con temáticas específicas.  Un sistema de identificación de opiniones con su valoración (positividad o negatividad) correspondiente.  Una metodología que permite adaptar lexicones de palabras de opinión a un dominio concreto.  Un método de desambiguación (a nivel de sentido de las palabras) que tiene en cuenta la información del contexto, útil para clasificadores de polaridad.  Un método de detección de la subjetividad a nivel de oraciones basado en la desambiguación del sentido de las palabras que conforman la oración. 3. Conclusiones La minería de opiniones o análisis de sentimientos es un área de conocimiento que se encuentra en constante crecimiento, a pesar de encontrarse en un estado todavía prematuro debido a la complejidad de las técnicas necesarias para conseguir los objetivos perseguidos como la generación de lexicones en
  • 14. 14 idiomas diferentes del inglés (ML- Senticon) , definir reglas adecuadas para la extracción de términos de aspecto o determinar la subjetividad, la polaridad y las tendencias en un determinado texto no normativo, incluyendo también la dificultad de procesar dicho texto Así, ya que la denominada Web 2.0 lo ha socializado todo, se ha observado un nicho de aplicación de estas técnicas sobre redes sociales como Twitter para tareas como recomendaciones en función de las preferencias de usuarios y determinación de estados de ánimo, así como la utilización por parte de las empresas de dichas técnicas para tomar decisiones estratégicas en base a los resultados obtenidos. Con todo lo dicho, se ha puesto de manifiesto a lo largo de este artículo que no hay duda sobre la revolución que implicarán estas tecnologías en el desarrollo de Internet cuando alcancen un nivel de desarrollo considerable, sin embargo, ¿será para beneficio de los usuarios o irá orientada la utilización de éstas técnicas para incrementar más aun el control sobre nosotros?. 4. Bibliografía Androutsopoulos, I., Galanis, D.,Manandhar, S., Papageorgiou, H., Pavlopoulos, J. & Pontiki, A. (2014) Task Description: Aspect Based Sentiment Analysis (ABSA). SemEval-2014. Task 4. Recuperado el 13 de Abril de 2015 de: http://alt.qcri.org/semeval2014/task4/ Boldrini, E., Cruz Marta, F., Díaz Galiano, M.c., Díaz Madrigal, V. J., De Salamanca Ros, F., García Cumbreras, M.A., García Vallejo, F. C., García Vega, M., Gómez Soriano, J.M., Guillén Espejo, A., Gutierrez Vazquez, Y., Jiménez Zafra, S.M.., Martínez Cámara, E., Martín Valdivia, M., Monroy Tenorio, F., Montejo Ráez, A., Moreda Pozo, P., Muñoz Guillena, R., Navarro Colado, B., Ortega Rodríguez, F.J., Perea Ortega, J.M., Suárez Cueto, A., Troyano Jiménez, J.A. y Ureña López, L.A. (2013) ATTOS: Análisis de Tendencias y Temáticas a través de Opiniones y Sentimientos. Recuperado el 13 de Abril de 2015, de: http://gplsi.dlsi.ua.es/attos/ García Pablos, A., Cuadros, M., Rigau, G., & Gaines, S. (2014). Unsupervised acquisition of domain aspect terms for Aspect Based Opinion Mining. Procesamiento Del Lenguaje Natural, 53, 121-128. Recuperado de http://journal.sepln.org/sepln/ojs/ojs/inde x.php/pln/article/view/5044/2932 Cruz, F., Troyano, J., Pontes, B., & Ortega, F. (2014). ML-SentiCon: Un lexicón multilingüe de polaridades semánticas a nivel de lemas. Procesamiento Del Lenguaje Natural, 53, 113-120. Recuperado de http://journal.sepln.org/sepln/ojs/ojs/inde x.php/pln/article/view/5041/2929 PageRank (n.d) En Wikipedia. Recuperado el 13 de Abril de 2015, de: http://es.wikipedia.org/wiki/PageRank# Algoritmo
  • 15. 15 Princeton University (2015) What is WordNet? WordNet. A lexical datbase for English. Recuperado el 13 de Abril de 2015, de: https://wordnet.princeton.edu/ SemEval (n.d) En Wikipedia. Recuperado el 13 de Abril de 2015 de: http://en.wikipedia.org/wiki/SemEval Ureña López, L., Muñoz Guillena, R., Troyano Jiménez, J., & Martín Valdivia, M. (2014). ATTOS: Análisis de Tendencias y Temáticas a través de Opiniones y Sentimientos. Procesamiento Del Lenguaje Natural, 53, 151-154. Recuperado de http://journal.sepln.org/sepln/ojs/ojs/i ndex.php/pln/article/view/5062/2950 Villena-Román, J., Luna-Cobos, A., & González Cristóbal, J. (2014). Análisis Semántico de la Opinión de los Ciudadanos en Redes Sociales en la Ciudad del Futuro. Procesamiento Del Lenguaje Natural, 53, 159-162. Recuperado de http://journal.sepln.org/sepln/ojs/ojs/i ndex.php/pln/article/view/5064/2952