SlideShare una empresa de Scribd logo
1 de 69
Descargar para leer sin conexión
Universidad de Oriente
Facultad de Matemática y Computación
Departamento de Computación
Trabajo de Diploma
Empleo de Algoritmos de
Agrupamiento como Métodos de
Condensado en Minería de Textos
Presentado en opción al Título de
Licenciado en Ciencia de la Computación
Autor:
José Antonio Molinet Berenguer
Dirigido por:
MSc. Adrian Fonseca Bruzón
Dr. C. Reynaldo Gil García
Santiago de Cuba, Mayo 2010
A mi hermano y mis padres
Por ser mis guías para llegar hasta aquí
Agradecimientos
Mi mayor agradecimiento en la vida siempre será a mis padres y mi hermano, por brindarme su amor
y apoyo constantemente. Por confiar en mí y demostrarlo sin reservas. Por soportar tantos años de
estar fuera y ayudarme a mí a soportarlos también.
Esta tesis sería una obra inconclusa sin la presencia de Adrian, desde hace años ya, para evocar toda
mi voluntad. Su ayuda como tutor ha sido decisiva para este trabajo, pero su amistad ha sido
transcendental para mi vida.
Son años de comprensión, convivencia y muchas fiestas más las que nos unieron. Los amigos que están
y los que ya se han ido (de diferentes formas) pero que nunca se olvidan. A Luis Manuel, que todavía
le debo un viaje a Gibara, este es tu trabajo de diploma también.
A algunos que cuando empezamos no sabíamos cuando acabar, pero que cambiamos muchas
historias. A Gustavo y su familia por considerarme parte de ellos. A los amigos que siempre hemos
estado ahí, sin crear una jerarquía: Eubis y Victor los primeros en recibirme. Yidier y los inagotables
problemas del mundo. Reinier y sus temas sorpresivos, solo válidos para Elisabeth. Shippuden (o José
por su nombre científico) de insaciables ganas de ayudar (con la comida) a los mareados. Eduardo y
su búsqueda del juego perfecto, o la manera perfecta de jugarlo. A Packy por sus cuerdas desafinadas
en la última nota sin perjudicar las primeras. A Erick, la especialidad de la casa según los eruditos de
la cocina y la incondicionalidad según los corazones (afirmado por Dai, compañera de todos y peso
completo en sinceridad). A Adriana, mástil y proa de los náufragos de espíritu. A Frank veterano de
aventuras y a Silvia. A Pedro, Papote, Lorena y sus compañeras, Yuri y todos los que están al pie de
página. A los viejos compañeros del D, de las peñas, festivales. A mis compañeros del aula. A José
Ramón y Fleitas por soportar mi música y llegar a gustarle.
Especial, como ella, es mi agradecimiento para mi novia Darling, quien ha estado a mi lado
literalmente hasta el último segundo de la realización de esta Tesis. Su presencia diaria y su apoyo,
fueron la base de toda mi expresión y el desenlace de todas mis dudas. A su mamá le hago extensivo mi
agradecimiento, por su sonrisa encantadora y llena de esperanza.
Parte importante del desarrollo de este trabajo es debido a la ayuda de los profesores de CERPAMID,
los cuales permiten la superación de varios estudiantes, gracias por esta oportunidad. A la profesora
Aurora por ser el ejemplo a seguir por todo estudiante. Al profesor Gil por permitirme su
conocimiento. De manera general a todos los trabajadores de CERPAMID y de DATYS, por
acogernos en sus instalaciones y hacernos sentir parte de ellos.
Quisiera agradecer también a todos aquellos profesores o estudiantes con los que he compartido
estos años y me han ayudado a formarme como profesional y ser humano.
I
Resumen
En la Minería de Textos, los clasificadores basados en vecindad han sido extensamente
aplicados por sus buenos resultados y relativa facilidad de implementación. Uno de los
aspectos singularmente negativos asociados a las distintas variantes conocidas de este tipo de
clasificadores radica en la necesidad de disponer de un conjunto de entrenamiento
relativamente grande. Esto conlleva a que el cálculo de los vecinos sea computacionalmente
costoso, lo que podría imposibilitar su empleo en determinadas aplicaciones reales donde es
necesaria una respuesta rápida por parte del clasificador. Con el objetivo de eliminar este
inconveniente, en este trabajo se propone el empleo de algoritmos de agrupamiento para
reducir la talla del conjunto de entrenamiento de los clasificadores basados en vecindad. Para
probar la propuesta se realizaron un número grande de experimentos con colecciones de
documentos de referencia internacional. Los resultados obtenidos, al aplicar nuestra propuesta
a las tareas de Categorización de Documentos y el Filtrado Adaptativo de Documentos,
muestran que la propuesta aquí presentada al ser comparada con los métodos de condensado
tradicionales obtiene resultados similares o superiores de clasificación, pero reduce
considerablemente más el conjunto de entrenamiento inicial.
II
Abstract
In Text Mining, Nearest Neighbors classifiers have been widely used because of their good
performance and relative simplicity of implementation. A negative point of these classifiers is
the need for a large number of samples in the training set to obtain good results. Due to this
need, the calculation of the nearest neighbors is computationally expensive and may restrict its
application in some real problems which require a rapid response by the classifier. In order to
eliminate this inconvenient, in this work we propose to employ a clustering algorithm to
reduce the size of the training set for neighborhood-based classifiers. To test the proposal, a
large number of experiments were conducted using reference document collections. The
results obtained in Text Categorization and Adaptive Document Filtering, show that our
proposal, when compared to traditional condensing algorithms, obtains similar or better results
in classification, and additionally it achieves a better reduction of the initial training set.
III
Índice
Introducción................................................................................................................................ 1 
Capítulo 1.................................................................................................................................... 3 
1.1  Conceptos Fundamentales............................................................................................ 3 
1.1.1  Formulación General de un Problema de Clasificación Supervisada................... 4 
1.1.2  Representación de los Documentos ...................................................................... 5 
1.1.2.1  Esquemas de pesado de términos.......................................................................... 6 
1.1.3  Medida de semejanza............................................................................................ 7 
1.2  Clasificadores basados en Criterios de Vecindad ........................................................ 7 
1.2.1  Construcción de la Vecindad................................................................................ 8 
1.2.1.1  Vecindad de los k vecinos más cercanos .............................................................. 8 
1.2.1.2  Vecindad αβ.......................................................................................................... 9 
1.2.2  Métodos de Votación.......................................................................................... 11 
1.2.3  Reglas de Decisión.............................................................................................. 12 
1.3  Métodos de Condensado ............................................................................................ 12 
1.3.1  Condensado del Vecino más Cercano ................................................................ 13 
1.3.2  Reducido del Vecino más Cercano..................................................................... 15 
1.3.3  Subconjunto Consistente Mínimo....................................................................... 16 
1.3.4  Subconjunto Selectivo Modificado..................................................................... 18 
1.4  Algoritmos de Agrupamiento..................................................................................... 19 
1.4.1  Algoritmos de pasada simple.............................................................................. 20 
1.4.1.1  Algoritmo SinglePass ......................................................................................... 20 
1.4.2  Algoritmos basados en grafos............................................................................. 22 
1.4.2.1  Algoritmo GLC................................................................................................... 23 
1.4.2.2  Algoritmo Compacto Incremental ...................................................................... 24 
1.4.2.3  Algoritmo Estrellas Grado.................................................................................. 26 
1.5  Filtrado Adaptativo de Documento............................................................................ 28 
IV
1.5.1  Esquema General de un Sistema de Filtrado Adaptativo de Documentos ......... 29 
1.5.2  Estructura de un Sistema de Filtrado Adaptativo de Documentos ..................... 30 
1.5.3  Algoritmo de Filtrado Adaptativo de Documentos............................................. 31 
Capítulo 2.................................................................................................................................. 34 
2.1  Algoritmos de Agrupamiento como métodos de condensado.................................... 36 
2.2  Experimentos.............................................................................................................. 39 
2.2.1  Medidas de Evaluación....................................................................................... 39 
2.2.2  Categorización de Documentos .......................................................................... 40 
2.2.2.1  Colecciones de Prueba........................................................................................ 40 
2.2.2.2  Descripción de los experimentos ........................................................................ 42 
2.2.2.3  Resultados experimentales.................................................................................. 43 
2.2.2.4  Conclusiones....................................................................................................... 51 
2.2.3  Filtrado Adaptativo de Documentos................................................................... 51 
2.2.3.1  Colecciones de Prueba........................................................................................ 52 
2.2.3.2  Descripción de los experimentos ........................................................................ 53 
2.2.3.3  Resultados experimentales.................................................................................. 53 
2.2.3.4  Conclusiones....................................................................................................... 56 
Conclusiones............................................................................................................................. 57 
Recomendaciones ..................................................................................................................... 58 
Referencias Bibliográficas........................................................................................................ 59 
 
1
Introducción
El empleo de Internet, como forma principal de comunicación e intercambio en el mundo, ha
propiciado un aumento constante del volumen de información que circula en la red. La mayor
parte de esta información se encuentra almacenada en forma textual no estructurada, por
ejemplo, noticias periodísticas, correos electrónicos, foros de discusión, informes médicos,
actas de reuniones, artículos científicos, libros, páginas Web, etc. El acelerado crecimiento de
la información presente en Internet impide su análisis de forma manual o la realización de una
exploración efectiva. Para facilitar a los usuarios la obtención de la información que necesitan,
en un tiempo razonable, es imprescindible el desarrollo de técnicas que permitan el
procesamiento automático y eficiente de esta información.
Los primeros esfuerzos encaminados a resolver este problema dieron surgimiento a la Minería
de Textos. La cual toma auge a mediados de los años noventa producto del incremento de la
información disponible en medios electrónicos. Hoy día se considera que más de un 80% de la
información disponible en Internet se encuentra almacenada en forma textual. La Minería de
Textos es una disciplina dentro del Reconocimiento de Patrones que tiene por objetivo
descubrir el conocimiento que no existe de forma explícita en los documentos, sino que surge
de relacionar el contenido de varios de ellos.
Entre las tareas de la Minería de Textos encontramos:
Categorización de Documentos.
Agrupamiento de Documentos.
Filtrado de Información.
La Categorización de Documentos (o Clasificación de Documentos) consiste en asignar a un
documento una o más categorías (tópicos, asuntos) previamente definidas. Esta tarea se basa
en la disponibilidad de un conjunto inicial de documentos clasificados en estas categorías
(conjunto de entrenamiento). La Categorización de Documentos es un componente importante
en la gestión de información, en tareas como el filtrado de spam, la clasificación en tiempo
real del correo electrónico, el direccionamiento de documentos, la clasificación de páginas
web, entre otras.
El Agrupamiento de Documentos es una las técnicas más utilizadas para descubrir
conocimientos. El objetivo de esta tarea consiste en obtener una estructuración de un conjunto
de documentos en grupos de forma tal que los documentos dentro de un mismo grupo posean
Introducción
2
un alto grado de semejanza y los pertenecientes a grupos diferentes sean poco semejantes entre
sí. Entre los diferentes contextos en que se aplica esta tarea se encuentran la Recuperación de
Información y el seguimiento y detección de sucesos en un flujo continuo de noticias.
El Filtrado de Información es el proceso de recuperar de un flujo de documentos, aquellos que
satisfacen las necesidades de información de un usuario (perfil de usuario). Existe un conjunto
de Sistemas de Filtrado de Documentos que poseen la propiedad de poder recibir información
de los usuarios indicando cuándo un documento ha sido incorrectamente recuperado, los
cuales son conocidos como Sistemas de Filtrado Adaptativo de Documentos. Estos sistemas
son capaces de actualizar el perfil de los usuarios, permitiéndoles obtener una mayor
efectividad en su desempeño.
Varios han sido los clasificadores que se han aplicado en el área de la Minería de Textos.
Entre los más empleados se encuentran los basados en vecindad, debido a su relativa
simplicidad de implementación y los buenos resultados que obtienen durante el proceso de
clasificación. Estos algoritmos poseen el inconveniente de requerir de un conjunto de
entrenamiento relativamente grande. Esta condición conlleva a un elevado costo
computacional y provoca que su aplicación se vea limitada en ciertos entornos reales en los
cuales se requiere de una respuesta rápida por parte del clasificador. Por otro lado, es probable
que en el conjunto de entrenamiento exista gran cantidad de información redundante no
necesaria para el proceso de clasificación.
En la Minería de Datos este problema se ha estudiado y se han obtenido algoritmos que
permiten eliminar del conjunto de entrenamiento aquellas muestras redundantes, conocidos
por el nombre de Algoritmos de Condensado. Sin embargo, en la Minería de Textos este
problema no ha sido abordado con igual intensidad. De forma general, el objetivo para
cualquier procedimiento de condensado, consistirá en descartar del conjunto de entrenamiento
toda la información que no sea relevante para el proceso de clasificación.
Este trabajo tiene por objetivo evaluar el desempeño de los algoritmos de agrupamiento al
emplearlos para reducir el conjunto de entrenamiento de los clasificadores basados en
vecindad al ser aplicados a la Minería de Textos.
El presente Trabajo de Diploma está estructurado de la siguiente forma: Introducción, dos
capítulos, conclusiones y bibliografía. El primer capítulo es una pequeña revisión bibliográfica
en la que se exponen los conceptos y algoritmos fundamentales que permitirán al lector
entender el resto de la tesis. En el capítulo dos se expone nuestra propuesta de emplear
algoritmos de agrupamientos para reducir el conjunto de entrenamiento y se muestran los
resultados experimentales obtenidos al aplicarla en las tareas de Categorización de
Documentos y el Filtrado Adaptativo de Documentos.
3
Capítulo 1
Fundamentos Teóricos
En el presente capítulo se exponen los principales aspectos teóricos que se emplean en nuestro
trabajo. En primer lugar, se especifican los conceptos fundamentales en los que se basan los
distintos algoritmos aquí tratados. Se explican dos variantes de los clasificadores basados en
vecindad. Además, se detallan algunos de los algoritmos de condensado más aplicados en la
Minería de Datos y se analizan sus principales ventajas y limitaciones. A continuación, se
muestran los algoritmos de agrupamiento que serán empleados en nuestra propuesta, se
clasifican atendiendo a determinados criterios y se analizan sus beneficios y desventajas. Por
último, se describe la tarea de Filtrado Adaptativo de Documentos y se explica el algoritmo
empleado en el presente trabajo.
1.1 Conceptos Fundamentales
Entre los problemas fundamentales del Reconocimiento de Patrones se encuentran la
Clasificación Supervisada y la Clasificación No Supervisada. En un problema de clasificación
supervisada existe un universo de objetos dividido en clases y se dispone de muestras de cada
una de ellas. Se persigue entonces, determinar a qué clases corresponde un nuevo objeto. Los
algoritmos que realizan este proceso son conocidos como clasificadores. Por el contrario, en
un problema de clasificación no supervisada se desconocen las clases en que se distribuye el
universo de objetos y no se poseen muestras de ellas. Se tiene como objetivo entonces,
estructurar el conjunto de objetos en grupos. Los algoritmos que realizan esta tarea son
conocidos como algoritmos de agrupamiento.
Dentro del Reconocimiento de Patrones existen 3 aproximaciones fundamentales en función
del tipo de espacio de representación utilizado y de cómo se estructura la información
correspondiente a cada representación. El Reconocimiento Sintáctico o Estructural de Formas
[Fuyama, 1982], el cual define explícitamente la estructura de las características asociadas a
los modelos, así como las relaciones permitidas entre ellas. El segundo grupo corresponde al
Reconocimiento Lógico Combinatorio [Shulcloper, 1995]. Este enfoque se basa en la idea de
que la modelación del problema debe ser lo más cercana posible a la realidad del mismo, sin
hacer suposiciones que carezcan de fundamento. La última vertiente corresponde al
Capítulo1. Fundamentos Teóricos
4
Reconocimiento Estadístico de Formas [Devroye, 1996]. En él se asume que el espacio de
representación posee una estructura de espacio vectorial.
Dentro del Reconocimiento Estadístico de Formas se suele hacer distinción entre las
aproximaciones paramétricas y las no paramétricas. En el primer caso, se asume un
conocimiento a priori sobre la forma funcional de las distribuciones de probabilidad de cada
clase sobre el espacio de representación, por el contrario, las aproximaciones no paramétricas
no suponen ninguna forma de las distribuciones de probabilidad sobre el espacio de
representación.
Dentro de los clasificadores estadísticos no paramétricos es necesario destacar las
aproximaciones basadas en criterios de vecindad. Los clasificadores basados en criterios de
vecindad suponen que los objetos se ubican en el espacio de representación de forma tal que
los objetos pertenecientes a la misma clase están más cercanos entre sí que a objetos de otras
clases. Bajo esta óptica, los esquemas de clasificación únicamente exigirán la definición de
una cierta medida de similitud entre los distintos elementos del espacio de representación, es
decir, que éste sea métrico (o, pseudo-métrico).
La principal ventaja que presenta la clasificación basada en criterios de vecindad respecto a
otros métodos no paramétricos, es su simplicidad conceptual, que podría resumirse como: la
clasificación de un nuevo objeto se puede estimar en función de la clasificación conocida de
los objetos dentro de un entorno suficientemente pequeño al nuevo objeto.
1.1.1 Formulación General de un Problema de Clasificación Supervisada
En general, cualquier problema de clasificación supervisada abordado con un enfoque
estadístico se podrá caracterizar del siguiente modo:
Sea E el espacio de representación de un determinado problema de clasificación, en el cual se
tienen M clases, Ω = {ω1, ω2,…, ωM}, de manera que formen una partición de E. Además, se
dispone de N prototipos (o muestras pre-clasificadas) pertenecientes al espacio, las cuales se
tomarán como conjunto de entrenamiento (CE), el que a su vez se representará como:
CE = {X, Ω} = {(x1, ω1), (x2, ω2),…, (xN, ωN)}
El problema consistirá en dado una nueva muestra x de E, estadísticamente independiente del
conjunto {X, Ω}, la cual puede estar contenida en cualquiera de las M clases, determinar a qué
clase del espacio pertenece. Este procedimiento es conocido como Regla de Clasificación o
Clasificador y se representa como:
δ: E Ω, δ(x) = ωi i = 1,…, M
Capítulo1. Fundamentos Teóricos
5
Existen distintas alternativas para expresar un determinado clasificador δ. Una de las
representaciones está dada en términos de un conjunto de funciones discriminantes, Di(x) i =
1,…, M, es decir, una por cada clase en el espacio E [Duda, 1973]. En este caso, el clasificador
se puede expresar de la siguiente manera:
δ(x) = ωi Di(x) > Dj(x) j≠ i i, j = 1,…, M
Por tanto, el clasificador asigna el objeto x a la clase o partición ωi del espacio de
representación E cuya función discriminante asociada Di(x), sea mayor. Debemos señalar que
existen determinadas zonas del espacio en las que distintas funciones discriminantes pueden
tomar el mismo valor, es decir, particiones del espacio que podrían pertenecer con la misma
probabilidad a más de una clase. Estas zonas o regiones indefinidas se denominan fronteras de
decisión, correspondiendo a los casos donde se cumple la siguiente igualdad:
Di(x) = Dj(x) j ≠ i i, j = 1,…, M
En el caso de los clasificadores basados en criterios de vecindad, la definición de una regla de
clasificación δ se basa en la distribución de los prototipos del conjunto CE en un entorno de x
suficientemente pequeño.
1.1.2 Representación de los Documentos
Los objetos tratados en la Minería de Textos son documentos textuales. Debido a que los
distintos algoritmos que se analizarán serán aplicados en esta área, es preciso contar con una
forma consistente de representar los documentos (su contenido). En este sentido, el
formalismo más utilizado es el modelo vectorial [Salton, 1989]. En este modelo cada
documento de la colección ξ está representado por un vector m-dimensional (m es el cardinal
del conjunto de términos distintos presentes en la colección de documentos), en el que cada
componente representa el peso del término asociado a esa dimensión, esto es, d = (w1,…, wm).
El peso wi representa una estimación (usualmente estadística, aunque no necesariamente) de la
utilidad del término como descriptor del documento, es decir, de la utilidad para distinguir ese
documento del resto de los documentos de la colección [Greengrass, 2001]. El peso del
término ti en el documento d se representa como w(ti, d). Si ti no aparece en d entonces su peso
es 0. Un término recibe un peso de 0 en los documentos en los cuales éste no ocurre.
Normalmente los términos muy comunes y los poco frecuentes son eliminados y las formas
diferentes de una palabra son reducidas a su forma canónica. Para tomar en consideración
documentos de diferentes longitudes, es usual que los vectores sean normalizados, aplicando
diferentes técnicas de normalización. La mayoría de los vectores de documentos son dispersos.
Capítulo1. Fundamentos Teóricos
6
1.1.2.1 Esquemas de pesado de términos
De las diferentes técnicas existentes para determinar el peso de los términos de un documento,
las siguientes son algunas de las más empleadas:
Booleano: Los pesos wi {0,1} indican la presencia o ausencia del término ti en el
documento.
Frecuencia de un término o TF (Term Frequency) [Salton 1989]: Cada término tiene
una importancia proporcional a la cantidad de veces que aparece en un documento,
denotado por TF(ti, d). El peso del término ti en el documento d es w(ti, d) = TF(ti, d).
Hay que señalar que es muy importante normalizar de alguna manera la frecuencia de
un término en un documento para moderar el efecto de las altas frecuencias y para
compensar la longitud del documento (en documentos más largos, previsiblemente
aparecerá más veces cada término). Una de las técnicas más usada es la normalización
por la longitud, que consiste en dividir cada frecuencia por la longitud del documento.
Otra variante es la normalización del coseno, donde se divide cada valor por la norma
euclidiana del vector del documento.
TF-IDF: Mientras el factor TF tiene que ver con la frecuencia de un término en un
documento, el IDF (Inverse Document Frequency) tiene que ver con la frecuencia de
un término en la colección de documentos. Así, la importancia de un término es
inversamente proporcional al número de documentos que lo contiene:
w(ti, d) = TF(ti, d) IDF(ti)
IDF(ti) = log
donde df(ti) es el número de documentos de la colección ξ que contienen al menos una
vez al término ti y N representa el total de documentos de la colección ξ. Es decir,
mientras menos documentos contengan al término ti mayor es su IDF(ti). El factor
TF(ti, d) contribuye a mejorar la relevancia y el factor IDF(ti) contribuye a mejorar la
precisión, pues representa la especificidad del término, distinguiendo los documentos
en los que éste aparece de aquellos en los que no aparece.
ltc: El pesado ltc [Salton, 1989] es una variante del esquema TF-IDF y se define como:
ltc = 1 log , log
Capítulo1. Fundamentos Teóricos
7
1.1.3 Medida de semejanza
Para determinar cuándo dos documentos son “parecidos” y cuándo no, es necesario definir una
medida de semejanza que exprese el grado de parecido entre ellos. En la Minería de Textos es
muy usual el empleo de la medida del coseno. Esta medida se define de la siguiente forma:
sem(di, dj) = cos(di, dj) = =
∑
∑ ∑
donde es la k-ésima componente del vector que representa al documento di, o sea w(tk, di),
es decir, el peso del término tk en el documento di. El valor de esta medida se encuentra en el
rango [0,1], de forma tal que mientras más cerca se encuentre del máximo, sem(di, dj) 1,
más semejantes son los documentos di y dj.
1.2 Clasificadores basados en Criterios de Vecindad
En la Minería de Textos son ampliamente utilizados los clasificadores basados en criterios de
vecindad. Estos clasificadores generalmente involucran tres pasos [Gil, 2006]:
(i) Encontrar la vecindad V(d) del documento d a clasificar, en el conjunto de
entrenamiento CE.
(ii) Cálculo del voto. Cada clase ωi Ω, emite un voto Ψ(ωi) por el documento a
clasificar.
(iii) Aplicar una regla de decisión Γ(d), en función a los votos emitidos por cada una de las
clases.
El primer paso asume la definición de una vecindad que permita determinar las muestras del
conjunto de entrenamiento que se considerarán para clasificar un nuevo documento d. Luego,
basado en las muestras seleccionadas en el primer paso, cada clase emite un voto por el
documento d. Por último, se aplica una regla de decisión para determinar en base a los votos
de cada clase a cuál pertenece el nuevo documento. Debido a que cada uno de estos pasos
puede realizarse de diferentes formas, combinarlos da origen a distintas reglas de clasificación
o clasificadores.
Un aspecto a tener en cuenta es que la efectividad de estos clasificadores solamente se verá
condicionada por la disponibilidad de un número suficientemente grande de prototipos en el
Capítulo1. Fundamentos Teóricos
8
conjunto de entrenamiento y que éstos hayan sido, como cabría esperar, correctamente
clasificados. Desde un punto de vista práctico, la necesidad de disponer de un elevado número
de prototipos para una aplicación efectiva de esta regla, puede llegar a convertirse en un serio
inconveniente en cuanto al coste computacional requerido para buscar, dentro del conjunto de
entrenamiento, los prototipos que conformarán la vecindad.
1.2.1 Construcción de la Vecindad
El clasificador del vecino más cercano (Nearest Neighbour, NN) es uno de los métodos
estadísticos no paramétricos más conocidos y extensamente usados. Como extensión de este
surge el clasificador de los k vecinos más cercanos (k-Nearest Neighbour, k-NN), el cual
considera para clasificar un nuevo documento no sólo el documento más cercano, sino los k
documentos más cercanos a él. Con el objetivo de eliminar la restricción que impone k-NN al
fijar un número de vecinos aparece el clasificador αβ-NN, el cual sólo considera aquellos
documentos que estén suficientemente cerca del documento a clasificar.
1.2.1.1 Vecindad de los k vecinos más cercanos
Uno de los clasificadores más difundidos en la literatura es la regla k-NN [Fix, 1951]. La idea
fundamental sobre la que se apoya este clasificador es que muestras de una misma clase
probablemente se encontrarán próximas en el espacio de representación. Para calcular la
vecindad de un documento d considera un cierto número de prototipos (k) que se encuentren
en un entorno suficientemente próximo a d.
A partir de un cierto conjunto de entrenamiento, CE = {(d1, ω1), (d2, ω2),…, (dN, ωN)}, se
puede definir la vecindad Vk(d) de un documento d E como el conjunto de prototipos que
cumple:
Vk(d)
|Vk(d)| = k
p Vk(d), q - Vk(d) sem(p, d) > sem(q, d)
donde =
La expresión sem(· , ·) hace referencia a la semejanza entre dos documentos y es el
conjunto de prototipos por cada clase. En definitiva, el significado de esta expresión se puede
resumir en que la vecindad está conformada por los k prototipos, del conjunto de
entrenamiento, más semejantes al nuevo documento d.
En
En
es e
1.2
Uno
pre
los
la fig. 1.1 se
la misma ci
el nuevo doc
Figura 1.1: V
.1.2 Vecin
o de los pri
fijar un núm
siguientes in
(i) Los k v
(fig. 1.2
(ii) Es posib
espacio
a d y e
vecinos
e muestra un
, cj y ck son
cumento a se
Vecindad cal
dad αβ
incipales inc
mero k de do
nconvenient
ecinos más c
2(a)).
ble que los k
de represen
el resto no
alejados de
n ejemplo de
las clases e
er clasificado
culada media
convenientes
ocumentos a
tes:
cercanos pu
k vecinos má
ntación, lo qu
se encuentre
cisivos en la
el cálculo de
en las que es
o.
ante el clasific
s que presen
tener en cu
eden estar d
ás cercanos n
ue provoca
en lo sufici
a clasificació
Ca
e la vecindad
stá dividido e
cador de los k
nta el clasifi
uenta para ca
demasiado lej
no estén hom
que pocos v
entemente c
ón.
apítulo1. Fu
d mediante e
el espacio d
k vecinos más
icador k-NN
alcular la vec
ejos del docu
mogéneamen
vecinos sean
cerca (fig. 1
undamentos T
el clasificado
e representa
s cercanos (k =
N es la nece
cindad, la cu
umento d a c
nte distribuid
realmente s
1.2(b)), siend
Teóricos
9
or k-NN.
ación y d
= 6).
sidad de
ual sufre
clasificar
dos en el
similares
do estos
Capítulo1. Fundamentos Teóricos
10
(a) (b)
Figura 1.2: Inconvenientes de la vecindad de los k vecinos más cercanos.
El clasificador αβ-NN [Gil, 2006] aborda estos problemas y sólo considera los prototipos que
se encuentran en un área lo suficientemente cercana y pequeña a la muestra d a ser clasificada.
A diferencia del clasificador k-NN, el número de vecinos que forman parte de la vecindad no
es fijo y los prototipos cuya semejanza con d es muy pequeña son descartados.
En el conjunto de entrenamiento CE = {(d1, ω1), (d2, ω2),…, (dN, ωN)}, se puede definir la
vecindad Vαβ (d) de un documento d E como el conjunto de prototipos que cumple:
Vαβ (d)
p Vαβ (d) sem(p, d)
p Vαβ (d) sem(p, d) sem(d, q) α
donde = y sem(d, q) =max … ,
Esta vecindad (fig. 1.3) tiene en cuenta a todos los prototipos que se encuentran en una región
esférica con centro en d. Para poder definir esta región se utilizan los parámetros α y β.
Figura 1.3: Vecindad αβ.
Capítulo1. Fundamentos Teóricos
11
Durante el proceso de construcción de la vecindad todos aquellos prototipos del conjunto de
entrenamiento cuya semejanza con d sea inferior a β son descartados. Para garantizar que en la
vecindad de d sólo estén aquellos prototipos muy similares a él el radio de la región se ajusta
automáticamente a partir del vecino más similar a d (representado por el punto blanco en la
figura 1.3). Este radio es igual a la diferencia entre el parámetro α y el valor de la semejanza
entre d y su vecino más cercano. En la figura, sólo los prototipos que se encuentren en la
región sombreada formarán parte de la vecindad de d.
1.2.2 Métodos de Votación
Los métodos de votación asignan un voto por cada clase. El voto de una clase permite valorar
cuán probable es que el documento a clasificar pertenezca a ella. El cálculo del voto se realiza
teniendo en cuenta los elementos contenidos en la vecindad. Diferentes esquemas de votación
han sido empleados en la literatura, a continuación se relacionan algunos de ellos.
Ψ(ωi) = ∑ (d, p) (1.1) Ψ(ωi) =
∑ ,
(1.2)
Ψ(ωi) =
∑ ,
∑ ,
(1.3)
Donde i representa la clase, (d) los documentos de la clase i que pertenecen a la
vecindad de d, sem(· , ·) la semejanza entre dos documentos y Ni el número de documentos en
(d).
El método de votación de la expresión 1.1 define el voto de una clase como la suma de las
semejanzas entre el documento a clasificar d y los elementos de la clase que pertenecen a la
vecindad. De esta forma, el voto de una clase depende del número de elementos de la clase
que pertenecen a la vecindad y de cuán semejantes sean estos al documento a clasificar.
En la expresión 1.2 el voto de una clase se calcula como el promedio de las semejanzas entre
el documento a clasificar y los documentos de la clase que pertenecen a la vecindad. En este
método, a diferencia del anterior, no influye el número de documentos que posea la clase en la
vecindad, sino cuán semejantes son estos al documento a clasificar. Esto impide que un
número elevado de documentos poco semejantes a d determinen su clasificación.
Capítulo1. Fundamentos Teóricos
12
En el caso de la expresión 1.3 el voto de una clase se obtiene al dividir las semejanzas de d
con los elementos de la clase en la vecindad entre el total de semejanzas de d con los
elementos de la vecindad.
1.2.3 Reglas de Decisión
Una vez calculado el voto de cada una de las clases, se aplica una regla de decisión que
permita determinar a cuáles clases pertenece el documento d. A continuación se expondrán
algunas de estas reglas.
La regla Mayoría Simple considera que el documento pertenece a aquella clase cuyo voto es
mayor al de las demás:
Γ(d) = ω’ ω Ω, Ψ(ω’) > Ψ(ω) (1.4)
La expresión 1.5 surge como una extensión de la regla anterior introduciendo un umbral
mínimo exigido al voto de la clase para clasificar al nuevo documento.
Γ(d) = ω’ Ψ(ω’) > y ω Ω, Ψ(ω’) > (ω) (1.5)
Esta regla no tiene en cuenta el hecho de que un documento puede abordar más de una
temática a la vez. Para dar solución a este problema se emplea la expresión:
Γ(d) = {ω Ω | Ψ(ω) > } (1.6)
Esta regla permite el uso de los clasificadores basados en vecindad en entornos donde existe
solapamiento entre las diferentes clases del espacio.
1.3 Métodos de Condensado
Uno de los aspectos negativos que presentan los distintos clasificadores basados en vecindad
radica en la necesidad de disponer de un elevado número de prototipos para su entrenamiento.
Este hecho provoca que el proceso de búsqueda de los vecinos más cercanos sea
computacionalmente costoso, limitando su aplicación en determinados problemas prácticos
donde se requiere una respuesta rápida por parte del clasificador.
Con el objetivo de ampliar el campo de aplicaciones reales de las distintas reglas basadas en
criterios de vecindad se han desarrollado diversas técnicas. Una de las alternativas más
Capítulo1. Fundamentos Teóricos
13
empleadas para acelerar el cálculo de la vecindad consiste en reducir el número de prototipos
en el conjunto de entrenamiento sin originar un incremento del correspondiente error de
clasificación. Estos métodos son conocidos como Algoritmos de Condensado, los cuales han
sido ampliamente abordados en la Minería de Datos, pero no se ha estudiado con igual
intensidad su aplicación en la Minería de Textos. Por ello, en este epígrafe nos referiremos a
objetos de forma general y no a documentos.
De forma general, el objetivo de los métodos de condensado es reducir significativamente la
cantidad de objetos en el conjunto de entrenamiento, con la menor afectación posible a la
eficacia del clasificador.
En dependencia de la estrategia seguida por los métodos de condensado para construir el
nuevo conjunto de entrenamiento, estos pueden ser clasificados en: incrementales,
decrementales o por lotes [Wilson, 2000]. Los primeros inician con el conjunto condensado
vacío y van agregando a este aquellos prototipos que cumplan un determinado criterio. Por el
contrario, los que emplean una estrategia decremental o por lotes, tendrán inicialmente en el
conjunto condensado todos los elementos del conjunto de entrenamiento y en cada paso
determinan que prototipos o conjuntos de estos eliminar.
Según el origen de los objetos del conjunto condensado, estos métodos se pueden clasificar en:
métodos de selección o de reemplazo [Bezdek, 2001]. Los primeros escogen los prototipos del
conjunto de entrenamiento original, mientras que el resto, obtienen nuevos objetos aplicando
sobre los elementos del conjunto de entrenamiento inicial una determinada función de
transformación.
1.3.1 Condensado del Vecino más Cercano
El Condensado del Vecino más Cercano (Condensed Nearest Neighbors, CNN) [Hart, 1968]
es considerado en la literatura como la primera propuesta formal de condensado para la regla
de clasificación NN (Nearest Neighbour). Este método ha sido ampliamente usado tanto en
investigaciones científicas como en aplicaciones prácticas. Según este método, un conjunto
condensado deberá cumplir las propiedades de ser reducido y consistente. Se entiende por
consistente un conjunto S X donde X ≠ , si al utilizar al subconjunto S como conjunto de
entrenamiento, se puede clasificar correctamente a todo el conjunto X.
El algoritmo CNN se clasifica dentro de los métodos de selección incremental. El mismo se
basa en la siguiente idea: para clasificar correctamente los objetos de una clase sólo es
necesario mantener aquellos elementos cercanos a la frontera de decisión. De esta forma, se
eliminan todos los elementos del interior de la clase, sin afectar la consistencia del conjunto
condensado.
Capítulo1. Fundamentos Teóricos
14
Este algoritmo comienza seleccionando de manera aleatoria un objeto correspondiente a cada
una de las distintas clases y se añaden a S (inicialmente S es un conjunto vacío).
Posteriormente, cada elemento en el conjunto de entrenamiento X es clasificado con la regla
NN empleando únicamente los objetos de S. Cuando un objeto es clasificado erróneamente,
entonces éste se añade a S para garantizar que será clasificado correctamente. El proceso se
repite hasta que no existan objetos en X que sean clasificados de manera errónea.
El algoritmo CNN puede ser descrito por los siguientes pasos:
Algoritmo: Condensed Nearest Neighbors (CNN)
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: R X
2- Sea S conjunto formado inicialmente por un prototipo por clase.
3- Repetir:
3.1- Para cada prototipo xi R:
3.1.1- Si xi es mal clasificado utilizando la regla NN y los objetos
del conjunto S entonces hacer:
R = R - {xi}
S = S {xi}
4- Hasta que no haya cambios en R o R =
5- Devolver S
Para quedarse con los elementos fronterizos, el algoritmo propuesto por Hart agrega al
conjunto S los prototipos que fueron mal clasificados por la regla NN. Considera que si un
elemento es incorrectamente clasificado, se deberá probablemente al hecho de encontrarse
próximo a la frontera de decisión.
Este algoritmo es muy sencillo de implementar y rápido (su coste computacional es lineal con
respecto a la talla de X en cada iteración); en la práctica, se obtiene un conjunto consistente
después de muy pocas iteraciones. Por otra parte, la talla del conjunto condensado resulta, en
Capítulo1. Fundamentos Teóricos
15
la mayoría de los casos, considerablemente pequeña comparada con el tamaño del conjunto
original, siempre y cuando en éste no exista solapamiento entre las regiones de clases distintas.
Entre los aspectos negativos de este algoritmo se puede señalar que:
1. No es posible afirmar que se obtiene el subconjunto consistente mínimo del conjunto
original, pues su construcción depende del orden en que se analicen los prototipos del
conjunto inicial, pudiéndose obtener diferentes resultados en cada corrida y de
distintos tamaños, siendo todos consistentes.
2. Este método es sensible al ruido (objetos que pertenecen a una clase pero se
encuentran en el espacio de otra), ya que todo prototipo ruidoso será clasificado
erróneamente y por tanto será incluido en el conjunto condensado S, impidiendo una
reducción considerable sin aportar información relevante al clasificador.
1.3.2 Reducido del Vecino más Cercano
El algoritmo Reducido del Vecino más Cercano (Reduced Nearest Neighbors, RNN) [Gates,
1972] realiza una extensión decremental del algoritmo CNN. El RNN es un procedimiento de
condensado iterativo con el fin de eliminar de un conjunto consistente, obtenido a partir del
algoritmo CNN, aquellos prototipos que no resulten necesarios para mantener la propiedad de
consistencia.
En este algoritmo se aplica primeramente el algoritmo CNN al conjunto de entrenamiento X.
Luego, del conjunto S obtenido, se elimina cada objeto que no sea necesario para clasificar
correctamente todos los elementos del conjunto original X. Este es un método de selección
que emplea una estrategia decremental para construir el nuevo conjunto de entrenamiento.
El algoritmo RNN se puede escribir de la siguiente forma:
Algoritmo: Reduced Nearest Neighbors (RNN)
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: S , T X
2- Aplicar el algoritmo CNN al conjunto T
3- Para cada prototipo si S (conjunto resultante del paso anterior)
Capítulo1. Fundamentos Teóricos
16
3.1- S = S - {si}
3.2- Para cada prototipo xi X:
3.2.1- Si xi es mal clasificado utilizando la regla NN y los objetos
del conjunto S entonces hacer:
S = S {si} e ir al Paso3
4- Devolver S
Este método de condensado, en la mayoría de los casos, reduce más el conjunto de
entrenamiento que el algoritmo CNN, aunque las diferencias suelen ser poco significativas.
Además, no asegura que el subconjunto consistente que se obtiene es mínimo y los resultados
que se logran durante el proceso de clasificación son similares a los obtenidos por el algoritmo
CNN. Este método, al igual que el CNN, depende del orden de presentación de los objetos y es
sensible a la presencia de ruido.
1.3.3 Subconjunto Consistente Mínimo
Un paso importante para la obtención del subconjunto mínimo consistente fue dado en
[Dasarathy, 1994], donde se presenta el algoritmo Subconjunto Consistente Mínimo (Minimal
Consistent Subset, MCS). El mismo se basa en el concepto de subconjunto de vecinos más
cercanos de clase diferente (Nearest Unlike Neighbour Subset, NUNS) [Dasarathy, 1991]. En
el algoritmo MCS la consistencia se asegura al considerar que, para clasificar correctamente
un elemento del conjunto de entrenamiento, sólo es necesario tener en el conjunto condensado
una muestra de su misma clase que sea más cercana a él que su vecino más cercano de clase
diferente (Nearest Unlike Neighbour, NUN).
Este algoritmo consiste en seleccionar aquellos elementos que aseguren la correcta
clasificación (según la regla NN) de la mayor cantidad de objetos de su clase. Primero se
calcula el número de objetos que soporta cada elemento del conjunto de entrenamiento (un
objeto y soporta a uno x, si la distancia entre y y x es inferior a la distancia entre x y su NUN).
Estos elementos son ordenados descendentemente según la cantidad de objetos que soportan, y
el primero es elegido. Luego se eliminan los objetos que ya son soportados por el seleccionado
y se repite el paso anterior, hasta que ya no puedan eliminarse más objetos. En este conjunto
resultante, varios objetos ya fueron eliminados, por lo que los NUN posiblemente cambiaron y
se repite todo el proceso nuevamente con los nuevos objetos.
Una forma de expresar el algoritmo MCS puede ser la siguiente:
Capítulo1. Fundamentos Teóricos
17
Algoritmo: Minimal Consistent Subset (MCS)
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: S , T X
2- Para cada prototipo xi X:
2.1- , inicializar el conjunto de objetos que soporta
3- Para cada prototipo xi X:
3.1- Calcular el vecino más cercano de clase diferente de xi en T ( )
3.2- Calcular los prototipos de T más cercanos a xi que ( )
3.3- Para cada prototipo yi :
3.3.1- = {xi}
3.4- Si = {xi}:
3.4.1- S = S {xi}
4- El prototipo que soporte un mayor número de objetos se agrega a :
4.1- mvs max | |
4.2- S = S {xi}
5- Para cada prototipo vi Vmvs:
5.1- Para cada prototipo xi X:
5.1.1- Si vi : = - {vi}
6- Si queda algún prototipo xi tal que , ir a 4
7- Mientras |T|>|S| hacer: T S, S e ir a 2
Este es un método de selección que se vale de una estrategia incremental para construir el
conjunto condensado. El mismo no depende del orden en que se presenten los objetos y
obtiene un conjunto consistente, que aunque no es siempre el mínimo, sí es de cardinal
pequeño (en [Wilfong, 1991] se demostró que encontrar el conjunto consistente mínimo es un
problema NP-completo). Además, su sensibilidad al ruido es inferior a los métodos
Capítulo1. Fundamentos Teóricos
18
anteriormente explicados. Como aspecto negativo se le puede señalar que modifica
ligeramente, en algunos casos, las fronteras de decisión entre las clases.
1.3.4 Subconjunto Selectivo Modificado
El algoritmo Subconjunto Selectivo Modificado (Modified Selective Subset, MSS)
[Barandela, 2005] es una modificación realizada al algoritmo Subconjunto Selectivo (SS)
propuesto en [Ritter, 1975]. En este último se extiende el concepto de conjunto consistente
agregando una condición más fuerte, conocida como propiedad selectiva. Esta propiedad
permite obtener el conjunto condensado de forma independiente al orden de presentación de
los objetos. Surge así el concepto de conjunto selectivo, el cual se puede expresar de la
siguiente manera:
Un subconjunto T del conjunto de entrenamiento CE es un subconjunto selectivo (SS), si
satisface las siguientes condiciones:
(i) T es consistente.
(ii) Todos los prototipos en el conjunto de entrenamiento original están más cercanos a un
vecino selectivo (un miembro de SS) de la misma clase que a cualquier prototipo de
una clase diferente.
El algoritmo SS tiene como objetivo calcular el subconjunto selectivo mínimo del conjunto de
entrenamiento. Para ello se basa, a parte del concepto de conjunto selectivo, en otras
definiciones. Entre ellas se encuentra la del vecino relacionado, en la misma se plantea que un
prototipo xj es un vecino relacionado con otro prototipo xi, ambos de la misma clase, si xj es
más cercano a xi que el enemigo más cercano de xi. En la literatura, el enemigo más cercano es
nombrado también NUN (vecino más cercano de clase diferente, por sus siglas en inglés). Otra
definición utilizada es la de vecindad relativa, en la cual se considera como vecindad relativa
de xi al conjunto de todos los vecinos relacionados con xi, siendo representada mediante Yi.
Haciendo uso de las definiciones anteriores, el subconjunto selectivo mínimo se puede
expresar como el subconjunto más pequeño del conjunto de entrenamiento, el cual contiene al
menos un miembro de Yi para cada prototipo xi del conjunto de entrenamiento.
El propósito de MSS es obtener un subconjunto selectivo, no necesariamente el mínimo, con
prototipos más cercanos a la frontera de decisión que los obtenidos por SS y con menor costo
computacional. Para ello sustituye el concepto de subconjunto selectivo por el de subconjunto
selectivo modificado. El cual se puede expresar como el subconjunto del conjunto de
entrenamiento CE que contiene, para todo xi del CE, aquel elemento de Yi más cercano al NUN
de xi.
Capítulo1. Fundamentos Teóricos
19
Para obtener el conjunto condensado S, el algoritmo MSS, por cada clase ωi en que se divide
el conjunto de entrenamiento X, busca el vecino más cercano de clase diferente de cada
prototipo xi que la conforma ( ). Luego calcula la vecindad relativa Yi de cada xi y
agrega a S el prototipo de Yi más cerca a .
El algoritmo MSS está conformado por los siguientes pasos:
Algoritmo: Modified Selective Subset (MSS)
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: S
2- Para cada clase ωi Ω (clases en que se divide X):
2.1- Para cada prototipo xi de la clase ωi:
2.1.1- Calcular el enemigo más cercano de xi ( )
2.1.2- Calcular la vecindad relativa de xi (Yi)
2.1.3- Sea xj Yi, el vecino relacionado de xi más cercano a :
S = S {xj}
Este algoritmo selecciona objetos del conjunto de entrenamiento original y construye el
conjunto condensado de forma incremental. Su resultado no depende del orden de
presentación de los objetos y aunque no obtiene siempre un conjunto selectivo menor que el
SS, sí asegura una mejor representación de las fronteras de decisión que este, lo que permite
lograr mejores resultados en la clasificación. Este método al igual que los anteriores no
considera el caso de solapamiento entre las clases y su desempeño puede verse afectado por la
presencia de ruido en el conjunto de entrenamiento.
1.4 Algoritmos de Agrupamiento
Los algoritmos de agrupamiento se han empleado en un gran número de tareas de la Minería
de Textos. En este epígrafe se mostrarán algunos de los más utilizados en esta área, los cuales
formarán parte de nuestra propuesta.
Capítulo1. Fundamentos Teóricos
20
El objetivo de los algoritmos de agrupamiento es, dado un conjunto de n documentos descritos
a través de m rasgos, crear particiones o cubrimientos de este conjunto. La estructuración
obtenida debe cumplir que la semejanza de los documentos dentro de un mismo grupo sea
máxima mientras que la semejanza entre los documentos pertenecientes a grupos diferentes
sea mínima. El problema así planteado es NP-duro, pues para obtener la solución hay que
buscar todas las combinaciones posibles de grupos a formar. Por ejemplo, la cantidad de
particiones de tamaño k de un conjunto de n documentos es aproximadamente igual
!
[Duda,
1973]. En la práctica se utilizan distintas heurísticas que tratan de maximizar la semejanza
intra-grupo y/o minimizar la semejanza inter-grupo.
Debido a la gran diversidad de algoritmos de agrupamiento existentes se han creado varias
clasificaciones de los mismos atendiendo a distintos aspectos. Atendiendo a la forma en que
procesan los documentos, los algoritmos de agrupamientos se pueden clasificar en: estáticos,
incrementales o dinámicos. Considerando la pertenencia de los documentos a los grupos en:
disjuntos o solapados. También se pueden clasificar atendiendo al mecanismo en que se basan
para agrupar, quedando divididos en: algoritmos de pasada simple, basados en grafos, de
optimización, basados en densidad o basados en árboles.
1.4.1 Algoritmos de pasada simple
Los algoritmos de pasada simple procesan los documentos uno a uno y los comparan con los
grupos existentes. Si existen grupos que cumplan cierto criterio de semejanza con el nuevo
documento, éste se coloca en el grupo más semejante. En caso contrario, se crea un nuevo
grupo con ese documento. También existen variantes que colocan al nuevo documento en
todos aquellos grupos que satisfacen el criterio de semejanza, creando grupos solapados en
lugar de disjuntos. En general, estos algoritmos definen una función de semejanza entre un
documento y un grupo y fijan un cierto umbral para controlar la asignación de los documentos
a los grupos.
1.4.1.1 Algoritmo SinglePass
El SinglePass [Hill, 1968] es el más utilizado de la familia de los algoritmos de agrupamientos
de pasada simple. Este algoritmo calcula la semejanza del nuevo documento con cada grupo a
través de su representante, el cual se calcula como la media de los documentos pertenecientes
al grupo. Si no existen grupos cuya semejanza es mayor que un umbral β, se crea un grupo que
contiene solamente al nuevo documento. En caso contrario, el nuevo documento se asigna al
grupo más semejante.
Capítulo1. Fundamentos Teóricos
21
Este algoritmo se puede describir por los siguientes pasos:
Algoritmo: SinglePass
Entrada: C Colección de documentos a agrupar
β Umbral mínimo de semejanza
Salida: G Conjunto de grupos
Método:
1- Inicialización: G
2- Para cada documento di C:
2.1- MS (grupos semejantes a di)
2.2- Para cada grupo gj G:
2.2.1- Calcular la semejanza entre di y el representante de gj
2.2.2- Si dicha semejanza es mayor que β, entonces:
MS = MS {gj}
2.3- Si MS ≠ , colocar di en el gj MS cuyo representante fue el más
semejante a di:
gj = gj {di}
Si no, formar un nuevo grupo con di:
gk = {di}
2.4- G = G {gk}
Una variante de este algoritmo consiste en agregar el nuevo documento a todos los grupos con
cuyos representantes posee una semejanza mayor que el umbral. Obteniendo grupos solapados
en vez de disjuntos.
Este algoritmo presenta como principal ventaja el ser muy rápido, pues posee una complejidad
lineal (O(n)) con respecto al número de documentos. Sus principales limitaciones son: la
dependencia de los grupos del orden de presentación de los documentos, la asignación de los
documentos a los grupos es irrevocable y se restringe la forma de los grupos a esféricas o
elipsoidales.
Capítulo1. Fundamentos Teóricos
22
1.4.2 Algoritmos basados en grafos
Los algoritmos de agrupamiento basados en grafos, construyen un cubrimiento de un subgrafo
del grafo de semejanzas. Estos algoritmos permiten trabajar con documentos descritos por
variables cuantitativas y cualitativas mezcladas, incluso con ausencia de información y no
imponen restricciones a la función de semejanza entre documentos.
Se llama grafo de semejanzas al grafo completo donde los vértices son los documentos a
agrupar y las aristas se etiquetan con las semejanzas entre los documentos. Dos documentos
cuya semejanza es mayor o igual que un cierto umbral β (definido por el usuario) se
denominan β-semejantes [Shulcloper, 2002]. Si un documento no es β-semejante con ningún
otro documento se denomina β-aislado. Muchos algoritmos de agrupamiento de este tipo se
basan en la construcción del grafo de β-semejanza (fig. 1.4(a)). Este grafo es un subgrafo del
grafo de semejanzas donde se eliminan las aristas con peso menor que β, es decir, sólo están
conectados los documentos β-semejantes.
Del grafo de semejanzas se puede obtener además el grafo de máxima β-semejanza (fig.
1.4(b)), el cual es un grafo orientado donde los vértices son los documentos a agrupar y existe
un arco del vértice di al vértice dj si se cumple que dj es el documento más semejante a di y
dicha semejanza supera el umbral β (dj es el más β-semejante a di). Denotaremos como max-S
(fig. 1.4(c)) al grafo que se obtiene del grafo de máxima β-semejanza ignorando la orientación
de sus arcos.
(a) Grafo de β-semejanza, (b) Grafo de máxima (c) Grafo max-S.
donde β = 0,4. β-semejanza.
Figura 1.4: Grafos basados en la β-semejanza.
Capítulo1. Fundamentos Teóricos
23
1.4.2.1 Algoritmo GLC
Dentro de los algoritmos de agrupamientos basados en grafos el GLC [Shulcloper, 2002] se
destaca por su simplicidad conceptual. Este algoritmo obtiene de forma incremental las
componentes conexas del grafo de β-semejanza. Cada vez que llega un nuevo documento, se
compara con los documentos de los grupos existentes. Si el nuevo documento no es β-
semejante con ningún documento de los grupos existentes, se crea un nuevo grupo unitario
con ese documento. En caso contrario, todos los grupos para los cuales existe al menos un
documento β-semejante con el nuevo documento se unen y forman un nuevo grupo al que se
agrega también el nuevo documento.
El algoritmo GLC está conformado por los siguientes pasos:
Algoritmo: GLC
Entrada: C Colección de documentos a agrupar
β Umbral mínimo de semejanza
Salida: G Conjunto de grupos
Método:
1- Inicialización: G
2- Para cada documento di C:
2.1- L (lista de grupos a unir)
2.2- Para cada grupo gk G:
2.2.1- Para cada documento dj gk:
2.2.1.1- Calcular la semejanza entre di y el dj.
2.2.1.2- Si dicha semejanza es mayor que β, entonces:
L = L {gk}, ir a 2.2
2.3- Si L ≠ , unir todos los grupos que están en L en un grupo
y agregar di a él
Sino, formar un nuevo grupo con di: gk = {di}
2.4- G = G {gk}
Capítulo1. Fundamentos Teóricos
24
Este algoritmo tiene una complejidad temporal, en el peor de los casos, de O(n2
), pues para
cada nuevo documento hay que calcular su semejanza con los restantes. No obstante, es bueno
destacar que en este algoritmo, en muchos casos, no se requiere comparar al nuevo documento
con todos los documentos de los grupos existentes. Esto es debido a que en cuanto se
encuentra en un grupo con un documento β-semejante al nuevo, no se necesita comparar con
los restantes documentos de dicho grupo, por lo que, en el mejor de los casos, su complejidad
es O(n).
El algoritmo GLC es independiente del orden de presentación de los documentos y no impone
restricciones a la forma de los grupos obtenidos. Su mayor limitación es que las componentes
conexas sobre el grafo de β-semejanza presentan un elevado efecto de encadenamiento, por lo
que pueden obtenerse grupos de documentos poco cohesionados, esto es, grupos con formas
“alargadas" que incluyan documentos poco semejantes.
1.4.2.2 Algoritmo Compacto Incremental
El algoritmo de agrupamiento Compacto Incremental [Pons, 2002] obtiene de forma
incremental los conjuntos compactos de una colección de documentos. Los conjuntos
compactos coinciden con las componentes conexas del grafo max-S. Este algoritmo almacena
para cada documento su máxima β-semejanza (MaxSem), los documentos que son los más β-
semejantes a él (AEl) y los documentos de los que él es su más β-semejante (DeEl).
Cada vez que se presenta un nuevo documento, se calcula su semejanza con los documentos
de los grupos existentes y se actualiza el grafo. La llegada del nuevo documento puede
provocar cambios en el agrupamiento, pues algunos de los conjuntos compactos existentes
pierden esta propiedad y surgen otros nuevos. Por tanto, al finalizar la actualización del grafo
de máxima β-semejanza, se reconstruyen los conjuntos compactos a partir del nuevo
documento y de los documentos que pertenecen a los grupos que pueden perder la propiedad
de ser compacto. Los conjuntos compactos que no tienen documentos conectados con el nuevo
documento no se modifican.
Durante la actualización del grafo max-S, el algoritmo construye los siguientes conjuntos:
GruposAProcesar: Un grupo pertenece a este conjunto si tiene algún documento d’ que
cumple las condiciones siguientes:
(i) El nuevo documento es el más β-semejante a d’ y los documentos existentes que eran
sus más β-semejantes dejan de serlo.
Capítulo1. Fundamentos Teóricos
25
(ii) d´ tenía al menos dos documentos que eran sus más β-semejantes o d´ es el más β-
semejante a uno o más documento de ese grupo.
A este conjunto pertenecen los grupos que potencialmente pueden dejar de ser compactos
cuando se eliminan de ellos los documentos d´ que cumplen las condiciones anteriores y, por
lo tanto, deben ser reconstruidos.
DocumentosAUnir: Un documento d´ pertenece a este conjunto si cumple las condiciones
siguientes:
(i) El nuevo documento es el más β-semejante a d´ y el único documento más β-semejante
a d´ deja de serlo.
(ii) d´ no es el más β-semejante a ningún documento de su grupo.
Los elementos incorporados al conjunto DocumentosAUnir pertenecerán al mismo grupo que
el nuevo documento.
GruposAUnir: Un grupo pertenece a este conjunto si no pertenece a GruposAProcesar y tiene
al menos un documento d´ que cumple una de las condiciones siguientes:
(i) d´ es el más β-semejante al nuevo documento.
(ii) El nuevo documento se incorpora al conjunto de documentos más β-semejantes a d´, es
decir, el nuevo documento está conectado con d´ y no se rompe ningún arco de d´ en el
grafo de máxima β-semejanza.
Todos los documentos que pertenecen a los grupos del conjunto GruposAUnir formarán parte
del mismo grupo que el nuevo documento.
El algoritmo Compacto Incremental se puede describir entonces como:
Algoritmo: Compacto Incremental
Entrada: C Colección de documentos a agrupar
β Umbral mínimo de semejanza
Salida: G Conjunto de grupos
Método:
1- Inicialización: G
2- Para cada documento di C:
2.1- Actualización del grafo de máxima β-semejanza
Capítulo1. Fundamentos Teóricos
26
2.1.1- Calcular la semejanza con cada documento existente
2.1.2- Calcular MaxSem(di), AEl(di), DeEl(di) y actualizarlos en los
documentos que se modifican
2.1.3- Crear los conjuntos GruposAProcesar, GruposAUnir y
DocumentosAUnir. Cada vez que se incorpora un documento a
DocumentosAUnir se elimina del grupo al que pertenecía
2.2- Reconstrucción de los conjuntos compactos
2.2.1- Sea C el conjunto formado por el nuevo documento y todos los
documentos que pertenecen a los grupos de GruposAProcesar
2.2.2- Formar los conjuntos compactos existentes entre los documentos
de C y añadirlos a la lista de grupos existentes
2.2.3- Añadir al conjunto compacto al que pertenece el nuevo
documento, todos los documentos de DocumentosAUnir y todos
los que pertenecen a los grupos de GruposAUnir
2.2.4- Eliminar los grupos de GruposAProcesar y de GruposAUnir de la
lista de grupos existentes
Este algoritmo tiene una complejidad temporal, en el peor de los casos, de O(n2
), pues para
cada nuevo documento hay que calcular su semejanza con los restantes. Los grupos que
descubre este algoritmo poseen formas arbitrarias y el agrupamiento obtenido no depende del
orden de presentación de los documentos y es poco sensible al parámetro de entrada β.
Además, los grupos formados son disjuntos y más cohesionados y pequeños que los formados
por las componentes conexas basadas solamente en la β-semejanza, lo cual reduce
considerablemente el efecto de encadenamiento.
1.4.2.3 Algoritmo Estrellas Grado
El algoritmo Estrellas Grado [Gil, 2008] trata de obtener de forma incremental el conjunto
dominante mínimo del grafo de β-semejanzas. El cual es el menor subconjunto de vértices del
grafo, tal que, todos los vértices del grafo están en él o tienen al menos un vecino. A los
elementos del conjunto dominante mínimo se les denomina estrellas y a sus vecinos satélites.
Obtener el conjunto dominante mínimo es un problema NP-duro. Por tanto, el algoritmo
Capítulo1. Fundamentos Teóricos
27
utiliza una estrategia voraz (greedy) para construir un cubrimiento del grafo de β-semejanza
mediante subgrafos en forma de estrella.
La estrategia utilizada para encontrar el conjunto dominante mínimo consiste en seleccionar
los vértices que cubren al mayor número de vértices que no han sido cubiertos previamente.
Un grafo en forma de estrella de k + 1 vértices consiste en una estrella, que formará parte del
conjunto dominante, y k satélites. Cada subgrafo en forma de estrella del grafo de β-semejanza
forma un grupo (fig. 1.5). Los documentos de mayor conectividad en el grafo son estrellas.
Los documentos aislados también son estrellas.
Figura 1.5: Subgrafos con forma de estrella, donde A, B, C (estrellas) son vértices que
pertenecen al conjunto dominante encontrado y el resto de los vértices son satélites.
El algoritmo Estrellas Grado se puede describir por los pasos:
Algoritmo: Estrellas Grado
Entrada: C Colección de documentos a agrupar
β Umbral mínimo de semejanza
Salida: G Conjunto de grupos
Método:
1- Inicialización: G , Q (Cola de documentos a ser analizados)
2- Para cada documento di C:
2.1- Actualizar el grafo de β-semejanza, sea NA el conjunto
de las nuevas aristas
2.2- Q = Q {di}
2.3- Agregar a Q todas las vértices s tal que v, v’, (v, v’) NA
y v sea vecino de s. Agregar a Q todos los vecinos de s y
si s es una estrella marcarla como satélite
Capítulo1. Fundamentos Teóricos
28
2.4- Mientras Q ≠ :
2.4.1- Extraigo de Q el vértice v de mayor grado
2.4.2- Si v es satélite y no tiene ninguna estrella vecina de grado
mayor, hacer:
2.4.2.1- Marcar a v como estrella
2.4.2.2- Si v tiene estrellas vecinas de menor grado,
marcarlas como satélites y poner en Q todos los
vecinos de dichas estrellas
Este algoritmo garantiza una semejanza de al menos β entre la estrella y todos los documentos
del grupo (sus satélites), pero el valor de semejanza no se garantiza entre los satélites. La
complejidad temporal de este algoritmo es O(n2
), pues hay que calcular la semejanza entre
todos los documentos. Los grupos obtenidos son solapados, pues un documento puede ser
satélite de más de una estrellas y dos estrellas ser vecinas. Los grupos obtenidos no dependen
del orden de presentación de los documentos. Además, este algoritmo no presenta el efecto de
encadenamiento.
1.5 Filtrado Adaptativo de Documento
Un Sistema de Filtrado de Documentos monitorea un flujo de información textual con el
objetivo de encontrar aquellos documentos que satisfacen las necesidades de información de
un usuario. Estos sistemas, por cada nuevo documento deben determinar si entregan o no el
documento al usuario en función de cuánto empareja la información del documento con la
necesidad de información expresada por el usuario.
Los sistemas de Filtrado Adaptativo de Documentos son sistemas de filtrado capaces de
actualizar su conocimiento sobre la necesidad de información del usuario. Para ello, se basan
en la retroalimentación explícita o implícita del mismo. Esta retroalimentación provee al
sistema de muestras que le permiten ajustar el perfil del usuario (representación de la
necesidad informacional expresada por el usuario), facilitando así el aprendizaje en línea.
En un entorno real, inicialmente el conocimiento que se tiene de la necesidad de información
del usuario es muy escaso, por tal razón, se espera que los sistemas de Filtrado Adaptativo de
Documentos sean capaces de comenzar su tarea de clasificación con muy pocas muestras de
entrenamiento. Esto hace que la tarea sea particularmente difícil, debido a que los algoritmos
Capítulo1. Fundamentos Teóricos
29
tradicionales de aprendizaje requieren de un número considerable de muestras para la
construcción del clasificador.
1.5.1 Esquema General de un Sistema de Filtrado Adaptativo de
Documentos
En la siguiente imagen se puede apreciar el esquema general de un sistema de Filtrado
Adaptativo de Documentos, aunque en la misma sólo se muestra un solo usuario con el fin de
facilitar su comprensión, estos sistema pueden manipular las necesidades de varios usuarios
simultáneamente.
Figura 1.6: Esquema general de un sistema de Filtrado Adaptativo de Documentos.
Cuando un usuario tiene una nueva necesidad de información debe brindar al sistema algunos
documentos de ejemplos que aborden la temática de su interés. Con estos documentos el
sistema crea un nuevo perfil para comenzar a dar atención a esta solicitud. A medida que van
arribando nuevos documentos, el sistema analiza cada uno de ellos y brinda al usuario
aquellos documentos para los cuales determinó que su contenido concuerda con la
información almacenada en el perfil. Es importante destacar que el usuario tiene acceso sólo a
los documentos que el sistema recupera como relevantes para el perfil. El usuario debe leer los
documentos brindados y retroalimentar al sistema de forma explícita identificando cuáles de
los documentos recuperados realmente se ajustan a su necesidad de información y cuáles no.
En una aplicación real, el sistema puede aprovechar determinadas acciones del usuario, como
puede ser borrar un documento sin leerlo o salvarlo a disco, para utilizarla como
Capítulo1. Fundamentos Teóricos
30
retroalimentación implícita. El sistema con esta retroalimentación se mantiene actualizando el
perfil de forma constante.
La retroalimentación permite al sistema actualizar de forma constante el perfil y de esta
manera obtener nuevas muestras de entrenamiento para el aprendizaje en línea. Estos sistemas
deben ser capaces de aprovechar al máximo la retroalimentación brindada, con vistas a obtener
un perfil que realmente se ajuste a los intereses de información del usuario, evitando
abrumarlo con información irrelevante y “falsas alarmas”.
1.5.2 Estructura de un Sistema de Filtrado Adaptativo de Documentos
Varios enfoques relacionados con el Filtrado Adaptativo han sido reportados en la literatura.
Estos enfoques se dividen en dos grandes grupos, los que afrontan el problema como una tarea
de Recuperación de Información más actualización de umbral y los que lo afrontan como una
tarea de Categorización de Textos. Entre los sistemas desarrollados para el Filtrado Adaptativo
de Documentos podemos destacar el sistema del Consorcio KerMIT [Cancedda, 2003], el
sistema de la Academia de Ciencias de China [Xu, 2002], LR Rocchio [Zhang, 2004],
CLARIT [Zhai, 1998], entre otros. Se considera que las componentes principales de un
Sistema de Filtrado Adaptativo de Documentos son las siguientes [Fonseca, 2008]:
Un modelo de representación de los documentos.
Un modelo de representación del perfil.
Un algoritmo de clasificación.
Un método de actualización del perfil.
El modelo vectorial [Salton, 1989] ha sido uno de los modelos de representación de
documentos más empleados en la tarea del filtrado adaptativo. Una representación alternativa
que ha ido alcanzando un gran auge es la basada en los modelos de lenguaje. Un modelo de
lenguaje M permite estimar la probabilidad de observar o generar una frase s con dicho
modelo.
La mayoría de los Sistemas de Filtrado Adaptativo de Documentos representan el perfil por
medio de un vector, el cual se construye a partir de las muestras de entrenamiento
suministradas al sistema. La construcción de este vector, en muchos casos, se realiza
utilizando centroides, asumiendo que los documentos se encuentran homogéneamente
distribuidos a su alrededor. Otros sistemas representan el perfil por medio de un conjunto de
Capítulo1. Fundamentos Teóricos
31
documentos. Esta representación les permite poder aprender la distribución de los documentos
que forman el perfil. Por último, los sistemas que utilizan modelos de lenguaje representan el
perfil por medio de dos modelos, uno construido a partir de las muestras relevantes y otro
construido a partir de las muestras no relevantes.
Varios algoritmos de clasificación han sido utilizados en los sistemas de Filtrado Adaptativo
de Documentos para determinar cuándo entregar o no un documento al usuario. Entre los más
utilizados encontramos el algoritmo de Rocchio [Allan, 1996], el algoritmo de Winnow
[Littlestone, 1988], las máquinas de vectores soporte (SVM - Support Vector Machines)
[Vapnik, 1995] y el clasificador k-NN [Fix, 1951].
Los métodos de actualización del perfil constituyen un elemento fundamental en los Sistemas
de Filtrado Adaptativo de Documentos. Estos métodos permiten al sistema ajustarse mejor a
las necesidades de información del usuario y con ello poder aumentar su efectividad. De forma
general, este proceso incluye un conjunto de tareas entre las que se encuentran la actualización
de la representación de los documentos que pertenecen al perfil, la actualización de estructuras
internas del sistema, el ajuste de los umbrales y parámetros que utiliza el algoritmo, entrenar
nuevamente el clasificador utilizado, entre otras. No en todos los casos se realizan todas estas
tareas. En dependencia del tipo de representación del perfil utilizada y del clasificador
empleado en el sistema serán los pasos que debe seguir el algoritmo para realizar la
actualización del perfil de usuario.
1.5.3 Algoritmo de Filtrado Adaptativo de Documentos
El algoritmo propuesto en [Fonseca, 2008] pertenece al grupo de enfoques que afrontan el
problema del filtrado adaptativo como una tarea de Categorización de Textos. Este algoritmo
enfrenta el problema de la distribución irregular de los documentos representando el perfil por
medio de un conjunto de documentos. De esta forma el algoritmo es capaz de aprender la
distribución de los documentos en el perfil. El conjunto de documentos que conforman cada
perfil está dividido en dos clases: Relevantes y No Relevantes. Estas clases se construyen
empleando los documentos de muestras iniciales y aquellos con los cuales el usuario
retroalimenta al sistema. Para representar los documentos se utiliza el modelo vectorial y el
peso de un término t en un documento d se calcula mediante la expresión:
w(t, d) = 1 log ,
Capítulo1. Fundamentos Teóricos
32
donde TF(t, d) representa la frecuencia del término t en el documento d, dfR (ti) y dfNR(ti)
representan la cantidad de documentos relevantes y no relevantes respectivamente que
contienen al menos una vez al término ti. NR y NNR representan el total de documentos
relevantes y no relevantes respectivamente en el perfil.
Este algoritmo utiliza un clasificador basado en vecindad. Para calcular la vecindad es
empleada la regla αβ-NN. El cálculo del voto y la regla de decisión están dados por las
expresiones 1.1 del epígrafe 1.2.2 y 1.6 del epígrafe 1.2.3 respectivamente. Cada vez que llega
un nuevo documento se clasifica utilizando como conjunto de entrenamiento los documentos
de las clases Relevantes y No Relevantes que representan al perfil. Si el clasificador asigna el
documento a la clase Relevante, este es entregado al usuario. Este proceso se realiza para cada
perfil presente en el sistema.
El perfil se actualiza cada vez que el usuario brinda retroalimentación al sistema indicando
cuándo un documento recuperado es realmente relevante o no. Durante el proceso de
actualización se adiciona el documento a la clase correspondiente, Relevante o No Relevante,
y se calcula el peso de los términos en los documentos.
De forma general, el proceso de filtrado según el método propuesto en [Fonseca, 2008] se
puede expresar por el siguiente algoritmo:
I. Construcción de los perfiles iniciales P
Por cada perfil P:
i. Construir la clase Relevante con los documentos asignados por el usuario
La clase No Relevante estará inicialmente vacía
ii. Calcular el peso de cada término de los documentos presentes en el perfil
II. Proceso de clasificación.
Por cada documento d que arriba:
Por cada perfil P:
i. Para cada término t d calcular su peso
ii. Construir la vecindad αβ
iii. Calcular el voto de cada clase (Relevante y No Relevante)
iv. Si al aplicar la regla de decisión se asigna d a la clase Relevante, entregar
d al usuario
III. Actualización de los perfiles P
Para cada perfil P en el que se tiene retroalimentación del documento d:
Capítulo1. Fundamentos Teóricos
33
i. Asignar d a la clase correspondiente
ii. Actualizar el peso de los términos de todos los documentos del perfil
Este algoritmo considera que la representación de los documentos en un perfil no debe
suponer una distribución homogénea de los mismos y que la clasificación de un nuevo
documento solo está determinada por los documentos del perfil suficientemente cercanos a él.
Además, que el peso de un término está influenciado por su frecuencia en el documento al que
pertenece, pero también por su frecuencia entre los documentos de las clases Relevante y No
Relevante.
34
Capítulo 2
Empleo de Algoritmos de Agrupamiento como
métodos de condensado
Los clasificadores basados en vecindad han sido extensamente empleados en las tareas de
Minería de Textos gracias a su relativa simplicidad de implementación y los buenos resultados
que obtienen durante el proceso de clasificación. Uno de los aspectos singularmente negativos
asociados a las distintas variantes conocidas de este tipo de clasificadores radica en la
necesidad de disponer de un conjunto de entrenamiento relativamente grande con el fin de
obtener buenos resultados. Esto conlleva a que el cálculo de la vecindad sea
computacionalmente costoso, lo que podría imposibilitar su aplicación en determinados
problemas reales donde es necesaria una respuesta rápida por parte del clasificador.
Con el objetivo de acelerar el cálculo de los vecinos más cercanos se han desarrollado una
amplia variedad de técnicas, entre ellas, los métodos de condensado. Estos permiten reducir la
talla del conjunto de entrenamiento sin que se produzca un incremento significativo del error
de clasificación. Los métodos de condensado eliminan la redundancia de información,
presente en el conjunto de entrenamiento original, construyendo un nuevo conjunto de
entrenamiento (conjunto condensado) donde sólo estén aquellos prototipos que aporten
información relevante al clasificador.
(a) Conjunto de entrenamiento inicial (b) Conjunto condensado
Figura 2.1: Al aplicar un método de condensado sobre (a) se eliminan todos los
documentos del interior de las clases, obteniéndose un nuevo conjunto (b) donde sólo
estén los documentos cercanos a la frontera de decisión. Las líneas discontinuas
representan la frontera de decisión.
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
35
La mayoría de los algoritmos de condensado tratan de mantener en el conjunto de
entrenamiento sólo aquellos documentos que son muy cercanos a las fronteras de decisión,
como se muestra en la fig. 2.1. Se basan en el hecho de que para clasificar correctamente un
nuevo documento sólo es necesario tener bien definidas las fronteras de decisión entre las
distintas clases o categorías.
Estos algoritmos de condensado son sensibles al ruido. La presencia de documentos ruidosos
provoca que las fronteras de decisión obtenidas estén alejadas de las reales y sean muy
irregulares, afectando la reducción del conjunto de entrenamiento y el posterior desempeño de
los clasificadores. En la fig. 2.2 (b) se muestra el conjunto obtenido al aplicar un método de
condensado sobre un conjunto de entrenamiento con documentos ruidosos (fig. 2.2(a)).
(a) Conjunto de entrenamiento (b) Conjunto condensado
Figura 2.2: Sensibilidad al ruido de los métodos de condensado. Las líneas discontinuas
representan la frontera de decisión real y las líneas continuas las obtenidas por el
algoritmo.
Algunos algoritmos tratan de evitar la presencia de ruido empleando técnicas de edición antes
de condensar el conjunto de entrenamiento. Los algoritmos de edición intentan eliminar del
conjunto de entrenamiento aquellos prototipos erróneamente etiquetados y, al mismo tiempo,
limpiar los posibles solapamientos entre regiones de clases distintas [Vázquez, 2008]. Pero
esto a su vez impide su aplicación en colecciones de documento que presentan un alto grado
de solapamiento entre las clases.
Los métodos de condensado son incapaces de eliminar el desbalance entre las clases
(presencia de un número mucho mayor de documentos en unas clases que en otras), tal como
se muestra en la fig. 2.3. Las categorías más representadas generalmente poseen un mayor
número de documentos cercanos a la frontera de decisión que otras. Esto provoca que al
aplicar un algoritmo de condensado, el cual obtiene un conjunto compuesto por los
documentos cercanos a la frontera, se mantenga el desbalance entre las clases.
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
36
(a) Conjunto de entrenamiento (b) Conjunto condensado
Figura 2.3: En (a) una clase está representada por un número mayor de documentos que
otra. Al aplicar un método de condensado sobre (a) se obtiene un conjunto (b) que
mantiene el desbalance entre las clases.
El desempeño de los algoritmos de condensado, al ser aplicados a colecciones de documentos,
se ve afectado producto de la alta dimensionalidad propia de los documentos textuales
(elevado número de rasgos o características que lo describen) y por la presencia de un gran
número de clases. En estos casos las fronteras de decisión son muy complejas y resulta difícil
representarlas. Por último, destacar que la gran mayoría de los métodos de condensados
asumen como clasificador la regla del vecino más cercano (NN), sin considerar otras reglas
basadas en vecindad.
2.1 Algoritmos de Agrupamiento como métodos de condensado
Las algoritmos de condensado se han empleado con éxito en colecciones de datos
estructurados. Sin embargo, no se ha estudiado con igual intensidad el comportamiento de
estos algoritmos en la Minería de Textos.
En las colecciones de documentos el conjunto de muestras de una clase o categoría puede estar
dividido en varias subclases más específicas que responden a la temática original. Los
métodos de condensado tradicionales basan su desempeño en determinar cuáles son los
documentos más cercanos a las fronteras de decisión, pero no tienen en cuenta la estructura de
las clases en el espacio de representación. Esto conlleva a que las categorías que estén
formadas por varias zonas en el espacio no sean correctamente representadas por los
documentos escogidos para conformar el nuevo conjunto de entrenamiento.
Con el objetivo de considerar la estructura de las clases se propone un nuevo método de
condensado. El mismo determina cada una de las subclases en que se divide una clase y
elimina toda la información empleada para representar dichas zonas que resulte redundante.
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
37
Nuestra propuesta consiste en aplicar un algoritmo de agrupamiento al conjunto de muestras
de cada clase. El conjunto de entrenamiento condensado estará compuesto por los centroides
de los grupos obtenidos en cada una de las clases. En este trabajo consideramos el centroide de
un grupo como la media de los objetos pertenecientes al grupo.
Al aplicar un algoritmo de agrupamiento sobre el conjunto de muestras de una clase este
obtiene los grupos de objetos que abordan un subtema común. Por ello, al sustituir este grupo
de documentos por el centroide se reduce el número de muestras y se mantiene la
representatividad del subtema en la matriz de aprendizaje final. De esta forma se reduce el
conjunto de entrenamiento del clasificador manteniendo la estructura interna de cada una de
las clases del problema.
Para resumir, los pasos de nuestra propuesta se muestran en el siguiente algoritmo:
Entrada: X Conjunto de entrenamiento
Salida: S Conjunto condensado
Método:
1- Inicialización: S
2- Para cada clase ωi Ω (clases en que se divide X):
2.1- R = {di | di ωi} conjunto de prototipos de la clase ωi
2.2- G = Agrupamiento (R), aplicar un algoritmo de agrupamiento
al conjunto R
2.3- Para cada grupo gi G:
2.3.1- ci = Centroide (gi), ci es el centroide del grupo gi
2.3.2- Etiquetar ci como prototipo de la clase ωi
2.3.3- S = S {ci}
A diferencia de los métodos de condensado tradicionales; esta propuesta no asume
independencia entre las clases ni basa su funcionamiento en búsqueda de documentos cercanos
a la frontera de decisión, sino que reduce el conjunto de entrenamiento respetando la estructura
de la clase. Esto conlleva a que pueda ser aplicada en colecciones de documentos donde existe
solapamiento entre las diferentes clases del problema. Por otro lado, el empleo de algoritmos
de agrupamiento provoca que la propuesta sea menos sensible a la presencia de objetos
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
38
ruidosos en el conjunto de entrenamiento. La fig. 2.4 muestra su desempeño ante la presencia
de ruido en el conjunto de entrenamiento. En la misma se puede observar que la frontera
obtenida es menos irregular que la obtenida por los métodos tradicionales.
(a) (b) (c)
Figura 2.4: En (a) y (b) se muestran las regiones que conforman a cada una de las clases y
la frontera de decisión obtenida por un algoritmo de condensado tradicional. En (c)
aparece el conjunto de entrenamiento después de aplicar nuestra propuesta y la frontera de
decisión obtenida.
El desbalance entre las clases es un problema común en la Minería de Textos que afecta el
desempeño de los clasificadores basados en vecindad. En esta propuesta, el número de
muestras presentes en el conjunto reducido estará condicionado, únicamente, por el número de
grupos diferentes obtenidos. Esto conlleva a que en el conjunto condensado obtenido el
desbalance entre las clases sea inferior al existente en el conjunto de entrenamiento inicial
como se puede apreciar en la fig. 2.5.
(a) (b)
Figura 2.5: Reducción del desbalance entre las clases. En (a) se muestra el conjunto de
entrenamiento inicial y las subclases de cada una de las clases. En (b) se tiene el resultado
de aplicar el método propuesto.
En la fig. 2.5 (a) se muestra un conjunto de entrenamiento en el que existe desbalance entre
sus dos categorías. Al aplicar nuestra propuesta se descubren las distintas regiones de cada
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
39
clase y se obtienen las nuevas muestras que representarán a estas (fig. 2.5 (b)). Nótese que en
la fig. 2.5 (a) la relación entre las clases era de 13 y 7, mientras que luego de aplicar la
reducción la relación es de 5 y 4.
2.2 Experimentos
En este epígrafe se describen los experimentos realizados con el objetivo de evaluar la
efectividad del método propuesto en dos de las tareas de la Minería de Textos: la
Categorización de Documentos y el Filtrado Adaptativo de Documentos.
2.2.1 Medidas de Evaluación
Entre las medidas de evaluación más empleadas se encuentra la medida F1 [Rijsbergen, 1979],
en ella se comparan las clases obtenidas manualmente por un experto con las obtenidas al
aplicar un método de clasificación.
La medida F1 combina los factores de relevancia y precisión empleados en el área de
Recuperación de Información. La relevancia y la precisión se pueden definir para una clase o
tópico como [Yang, 1999]:
relevancia si 0. En otro caso, está indefinida.
precisión si 0. En otro caso, está indefinida.
Donde es el número de documentos de la clase que fueron clasificados correctamente, la
cantidad que se clasificaron en la clase sin pertenecer a ella y c el número de documentos que
conforman el tópico, según la clasificación manual, pero no fueron clasificados en él. La
medida F1 se define entonces para una clase como:
F1 2 ·
· ó
ó
La fórmula anterior indica el grado de similitud por clase entre la clasificación manual y la
obtenida por el método. La calidad global se analizó tomando en cuenta las medidas: F1micro-
promediada (F1-Micro) y F1macro-promediada (F1-Macro). La medida F1-Micro da el
mismo peso a cada documento, por tanto, se considera un promedio por documento. Mientras
que la medida F1-Macro da un peso similar a cada tópico, por lo que se considera un
promedio por tópico.
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
40
La medida F1-Micro se calcula de la siguiente forma:
F1-Micro 2 ·
· ó
ó
micro-relevancia ∑
micro-precisión
1
∑ ó1
donde Nclases corresponde a la cantidad de clases.
La medida F1-Macro se calcula como la media de la medida F1 para cada clase:
F1-Macro ∑ 1
Cuanto mayor sea el valor de estas medidas mejor será la calidad de la clasificación lograda
por el método.
2.2.2 Categorización de Documentos
En la Categorización de Documentos, la fase de aprendizaje del clasificador se realiza una sola
vez antes de comenzar el proceso de clasificación. Los experimentos realizados estuvieron
enfocados en comparar los algoritmos de condensado tradicionales y nuestra propuesta en
cuanto a:
a) los resultados obtenidos por los clasificadores basados en vecindad al emplear el
conjunto de entrenamiento obtenido por el algoritmo de condensado.
b) reducción del conjunto de entrenamiento.
Adicionalmente, se compararon los resultados de nuestra propuesta contra los alcanzados por
el clasificador con el conjunto de entrenamiento inicial.
2.2.2.1 Colecciones de Prueba
Para evaluar la calidad del algoritmo propuesto se utilizaron 18 colecciones de documentos en
los idiomas español e inglés, provenientes de diversas fuentes. En la tabla 2.1 se muestran las
principales características de cada una de estas colecciones.
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
41
Colección Fuente
Cantidad de Docs.
Dimensión
Tópicos
Entren. Prueba Cantidad Tamaño Prom.
reu10 Reuters 5920 2313 18486 10 910
reu90 Reuters 7058 2740 32928 90 136
reu115 Reuters 7063 2740 32940 115 107
tdt TDT2 6589 3235 55112 193 58
eln TREC-4 3841 1987 84344 50 158
afp TREC-5 469 226 12575 25 32
classic CLUTO 2366 4730 41681 4 1773
hitech CLUTO 760 1530 22498 6 383
k1a CLUTO 785 1554 21839 20 117
k1b CLUTO 781 1557 21839 6 390
la12 CLUTO 2094 4184 30125 6 1046
new3 CLUTO 3181 6376 70822 44 217
ohscal CLUTO 3725 7436 11465 10 1116
re0 CLUTO 505 998 2886 13 115
re1 CLUTO 560 1096 3758 25 66
reviews CLUTO 1358 2710 36746 5 813
sports CLUTO 2863 5717 27673 7 1225
wap CLUTO 528 1031 8460 20 78
Tabla 2.1: Descripción de las colecciones de prueba.
Las colecciones reu10, reu90 y reu115 [Debole, 2005] son los subconjuntos más empleados
de la colección Reuters-215781
distribución 1.0. La colección Reuters-21578 está compuesta
por 12902 noticias en idioma inglés clasificadas en 135 categorías relacionadas con la
economía. Esta colección se divide (según la división “ModApté”) en un conjunto de
entrenamiento de 9603 documentos y en un conjunto de prueba de 3299 documentos. La
colección reu10 está compuesta por las 10 clases con el mayor número de documentos de
entrenamiento. La reu90 contiene las 90 clases que presentan al menos un documento en el
conjunto de entrenamiento y uno en el de prueba. Por último, la reu115 posee las 115 clases
que tienen al menos un documento en el conjunto de entrenamiento.
La colección tdt corresponde a la TDT2 versión 4.0 [NIST, 1998] que se emplea en las
competencias internacionales de Detección y Seguimiento de Tópicos. Esta colección contiene
1
 Disponible en http://kdd.ics.uci.edu. 
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
42
9824 noticias en inglés divididas en 193 tópicos, publicadas en 1998 por dos agencias de
noticias, dos programas de radio y dos programas de televisión. La colección eln, empleada en
la TREC-4 [Robertson, 1995], está conformada por 5829 artículos en español agrupados en 50
categorías, publicados por el periódico mexicano “El Norte” en el año 1994. La colección afp
proviene de la conferencia TREC-52
y contiene artículos periodísticos escritos en español,
publicados por la agencia de noticias AFP entre los años 1994 y 1996, clasificados en 25
tópicos. De esta colección disponemos solamente de los 695 artículos publicados en el año
1994.
El resto de las colecciones fueron seleccionadas de la herramienta CLUTO suministrada por el
Dr. C. George Karypis [Karypis, 2004] y pueden ser descargadas desde su web3
. Estas
colecciones presentan la característica de traer el peso de cada término de un documento, por
lo que no es necesario aplicar ningún esquema de pesado para obtenerlo.
En la tabla 2.1 la tercera y cuarta columnas contienen el número de documentos presentes en
el conjunto de entrenamiento y en el conjunto de prueba respectivamente. La columna
nombrada “Dimensión” contiene la cantidad de términos diferentes presentes en la colección.
La última columna se refiere a la cantidad promedio de documentos por tópico.
En las colecciones tdt, eln y afp se tomó la tercera parte de los documentos como conjunto de
prueba y el resto como conjunto de entrenamiento, las clases que tenían menos de tres
documentos fueron eliminadas. En la colecciones reu10, reu90 y reu115 se respetó la división
“ModApté”. En las demás colecciones se tomó la tercera parte como conjunto de
entrenamiento y el resto como conjunto de prueba. El dividir las colecciones de distintas
formas permite obtener una mayor representatividad de los posibles casos reales.
La selección de colecciones de diferentes tamaños y dimensiones nos permitió estudiar el
comportamiento de nuestra propuesta y los métodos tradicionales de condensados ante
colecciones de documentos con características variadas.
2.2.2.2 Descripción de los experimentos
Con el objetivo de evaluar el desempeño del método propuesto se comparó este con los
algoritmos CNN, RNN, MCS y MSS. Para ello, se aplicaron los métodos mencionados al
2
Text REtrieval Conference. http://trec.nist.gov. 
3
http://glaros.dtc.umn.edu/gkhome/fetch/sw/cluto/datasets.tar.gz
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
43
conjunto de entrenamiento de cada colección y el conjunto condensado obtenido se empleó
para clasificar los documentos de prueba.
En los experimentos se emplearon los clasificadores k-NN y αβ-NN. En ellos, el voto fue
calculado por la expresión 1.3 del epígrafe 1.2.2 y la regla de decisión por la expresión 1.6 del
epígrafe 1.2.3. Los algoritmos de agrupamiento empleados en nuestro método, para descubrir
los grupos por clase, fueron: GLC, Compacto Incremental, Estrellas Grado y SinglePass (con
solapamiento). De esta forma se pudo evaluar el comportamiento de la propuesta al utilizar
distintos esquemas de agrupamiento.
Para representar los documentos se utilizó el conocido modelo vectorial. En algunas
colecciones los términos ya poseían un peso determinado, en el resto, se empleó para calcular
el peso de cada término el esquema TF con la normalización del coseno. La semejanza entre
dos documentos se calculó con la medida del coseno.
Se asignó diferentes valores a los parámetros de cada algoritmo para que los resultados
experimentales reflejaran su mejor desempeño. En el clasificador k-NN al parámetro k se le
asignaron los valores 1, 3, 5, 7, 9, 11, 13 y 15. En la regla αβ-NN los valores de α fueron 0.02,
0.05, 0.07, 0.1, 0.15, 0.2, 0.25 y 0.3 y el valor de β se fijó en 0.1, pues su función es sólo
garantizar que los documentos muy lejanos no influyan en la clasificación. Al umbral μ
utilizado por la regla de decisión se le asignaron los valores 0.15, 0.2, 0.25, 0.3 y 0.35. El
valor del parámetro β en los algoritmos de agrupamiento se tomó igual a 0.25. Luego, para
cada algoritmo, se escogió la combinación de parámetros que permitió obtener los mejores
resultados.
Para estimar la calidad de la clasificación se emplearon las medidas F1-Micro y F1-Macro. La
eficacia de los métodos de condensado en cuanto a compresión del conjunto de entrenamiento
se determinó por el porciento de reducción del mismo. El cual se calcula como la razón entre
el número de muestras eliminadas y el total original.
2.2.2.3 Resultados experimentales
En este subepígrafe se describen los resultados obtenidos en los experimentos. Primero se
mostrarán las tablas que contienen los resultados de la clasificación y luego los porcientos de
reducción logrados por cada método de condensado en las distintas colecciones.
En las tablas, la columna “Sin Cond.” hace referencia a la clasificación lograda sin
modificarse el conjunto de entrenamiento. El resto de las columnas, con nombre de algoritmo,
muestran la clasificación conseguida cuando los conjuntos de entrenamiento son condensados
por el método correspondiente. En el caso de las columnas que hacen referencia a los
Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado
44
algoritmos de agrupamiento, corresponde a usar estos dentro de nuestra propuesta. La fila
“Prom.” se refiere al promedio de los resultados obtenidos por los algoritmos en cada
colección. El mejor resultado en cada colección es resaltado en negrita (considerando
solamente los métodos de condensado).
En las tablas 2.2 y 2.3 se muestran los valores de F1-Micro y F1-Macro respectivamente,
alcanzados por el clasificador k-NN con los diferentes conjuntos de entrenamiento.
Colecc.
Sin
Cond.
Estrella Compacto GLC SinglePass CNN RNN MCS MSS
reu10 0.82 0.83 0.8 0.65 0.83 0.81 0.81 0.77 0.8
reu90 0.46 0.44 0.4 0.32 0.45 0.45 0.45 0.44 0.45
re115 0.45 0.42 0.4 0.31 0.44 0.46 0.44 0.43 0.45
tdt 0.82 0.78 0.77 0.75 0.81 0.78 0.77 0.76 0.78
eln 0.6 0.58 0.55 0.35 0.59 0.57 0.57 0.55 0.58
afp 0.79 0.79 0.8 0.78 0.77 0.72 0.74 0.73 0.77
classic 0.93 0.91 0.9 0.66 0.93 0.9 0.88 0.89 0.92
hitech 0.67 0.67 0.68 0.57 0.68 0.64 0.64 0.64 0.67
k1a 0.64 0.65 0.64 0.58 0.64 0.61 0.61 0.61 0.64
k1b 0.87 0.82 0.89 0.72 0.87 0.85 0.84 0.86 0.84
la12 0.77 0.75 0.8 0.64 0.78 0.78 0.76 0.76 0.75
new3 0.78 0.75 0.76 0.56 0.78 0.76 0.75 0.75 0.77
ohscal 0.65 0.64 0.63 0.49 0.65 0.63 0.61 0.63 0.64
re0 0.71 0.67 0.66 0.59 0.68 0.67 0.67 0.68 0.71
re1 0.65 0.65 0.67 0.55 0.67 0.64 0.65 0.63 0.64
reviews 0.89 0.89 0.91 0.78 0.9 0.88 0.87 0.88 0.86
sports 0.94 0.94 0.93 0.73 0.93 0.91 0.89 0.91 0.93
wap 0.63 0.64 0.63 0.59 0.64 0.62 0.6 0.62 0.63
Prom. 0.726 0.712 0.712 0.59 0.724 0.704 0.696 0.697 0.712
Tabla 2.2: Valores de la medida F1-Micro obtenidos con el clasificador k-NN.
Según los datos reflejados en la tabla 2.2, al emplear el algoritmo SinglePass en nuestra
propuesta se obtiene en 10 colecciones mejores resultados en la clasificación que los logrados
por el resto de los métodos de condensados. Además, supera en 5 colecciones los valores
alcanzados sin reducir el conjunto de entrenamiento. Por su parte, los algoritmos Compacto y
Estrella muestran un desempeño equivalente, superando en 6 y 4 colecciones respectivamente
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining
Thesis Text Mining

Más contenido relacionado

Similar a Thesis Text Mining

Sistema de Recomendación Contextual Basado en Ontologías para Ambientes Organ...
Sistema de Recomendación Contextual Basado en Ontologías para Ambientes Organ...Sistema de Recomendación Contextual Basado en Ontologías para Ambientes Organ...
Sistema de Recomendación Contextual Basado en Ontologías para Ambientes Organ...Gabriel Gonzalez Serna
 
Sistema de seguimiento_y_monitoreo_de_proyectos_orientados_resultados_cadelp
Sistema de seguimiento_y_monitoreo_de_proyectos_orientados_resultados_cadelpSistema de seguimiento_y_monitoreo_de_proyectos_orientados_resultados_cadelp
Sistema de seguimiento_y_monitoreo_de_proyectos_orientados_resultados_cadelpVlady Tintaya
 
tesis de arquitectura
tesis de arquitecturatesis de arquitectura
tesis de arquitecturajose camacho
 
Tesis final2
Tesis final2Tesis final2
Tesis final2xioan
 
Soluciones+de+software+libre+para+el+desarrollo+de+aplicaciones.desbloqueado
Soluciones+de+software+libre+para+el+desarrollo+de+aplicaciones.desbloqueadoSoluciones+de+software+libre+para+el+desarrollo+de+aplicaciones.desbloqueado
Soluciones+de+software+libre+para+el+desarrollo+de+aplicaciones.desbloqueadoRmz Muñoz Zarazua
 
T-UCSG-PRE-TEC-AGRO-24.pdf
T-UCSG-PRE-TEC-AGRO-24.pdfT-UCSG-PRE-TEC-AGRO-24.pdf
T-UCSG-PRE-TEC-AGRO-24.pdfJheisonCastillo
 
Algoritmos para el problema de árbol de expansión mínima robusto con datos in...
Algoritmos para el problema de árbol de expansión mínima robusto con datos in...Algoritmos para el problema de árbol de expansión mínima robusto con datos in...
Algoritmos para el problema de árbol de expansión mínima robusto con datos in...Francisco Pérez
 
Efecto de aplicación de la metodología BIM 3D en la optimización del costo di...
Efecto de aplicación de la metodología BIM 3D en la optimización del costo di...Efecto de aplicación de la metodología BIM 3D en la optimización del costo di...
Efecto de aplicación de la metodología BIM 3D en la optimización del costo di...JuanJimenes9
 
Diseño e Implementacion del Sistema de Control para la Automatizacion del Pro...
Diseño e Implementacion del Sistema de Control para la Automatizacion del Pro...Diseño e Implementacion del Sistema de Control para la Automatizacion del Pro...
Diseño e Implementacion del Sistema de Control para la Automatizacion del Pro...SetiFidiasFernndez
 
Trabajo degrado joel kevin orellana
Trabajo degrado   joel kevin orellanaTrabajo degrado   joel kevin orellana
Trabajo degrado joel kevin orellanaRodrigoSilva1283
 
Resolución de Sistemas de Ecuaciones Polinomiales utilizandolasBases de Gröbn...
Resolución de Sistemas de Ecuaciones Polinomiales utilizandolasBases de Gröbn...Resolución de Sistemas de Ecuaciones Polinomiales utilizandolasBases de Gröbn...
Resolución de Sistemas de Ecuaciones Polinomiales utilizandolasBases de Gröbn...Cliffor Jerry Herrera Castrillo
 
Cancinos andrea proceso de seleccion
Cancinos andrea proceso de seleccionCancinos andrea proceso de seleccion
Cancinos andrea proceso de seleccionEILLENMILAGROSVEGASA1
 

Similar a Thesis Text Mining (20)

Sistema de Recomendación Contextual Basado en Ontologías para Ambientes Organ...
Sistema de Recomendación Contextual Basado en Ontologías para Ambientes Organ...Sistema de Recomendación Contextual Basado en Ontologías para Ambientes Organ...
Sistema de Recomendación Contextual Basado en Ontologías para Ambientes Organ...
 
000156461
000156461000156461
000156461
 
Sistema de seguimiento_y_monitoreo_de_proyectos_orientados_resultados_cadelp
Sistema de seguimiento_y_monitoreo_de_proyectos_orientados_resultados_cadelpSistema de seguimiento_y_monitoreo_de_proyectos_orientados_resultados_cadelp
Sistema de seguimiento_y_monitoreo_de_proyectos_orientados_resultados_cadelp
 
tesis de arquitectura
tesis de arquitecturatesis de arquitectura
tesis de arquitectura
 
Thesis Evolutionary Many-Objective Optimization
Thesis Evolutionary Many-Objective OptimizationThesis Evolutionary Many-Objective Optimization
Thesis Evolutionary Many-Objective Optimization
 
Tesis
TesisTesis
Tesis
 
Tesis final2
Tesis final2Tesis final2
Tesis final2
 
Tesis (1).pdf
Tesis (1).pdfTesis (1).pdf
Tesis (1).pdf
 
Soluciones+de+software+libre+para+el+desarrollo+de+aplicaciones.desbloqueado
Soluciones+de+software+libre+para+el+desarrollo+de+aplicaciones.desbloqueadoSoluciones+de+software+libre+para+el+desarrollo+de+aplicaciones.desbloqueado
Soluciones+de+software+libre+para+el+desarrollo+de+aplicaciones.desbloqueado
 
Aspecto caracteristicas
Aspecto caracteristicasAspecto caracteristicas
Aspecto caracteristicas
 
T-UCSG-PRE-TEC-AGRO-24.pdf
T-UCSG-PRE-TEC-AGRO-24.pdfT-UCSG-PRE-TEC-AGRO-24.pdf
T-UCSG-PRE-TEC-AGRO-24.pdf
 
Algoritmos para el problema de árbol de expansión mínima robusto con datos in...
Algoritmos para el problema de árbol de expansión mínima robusto con datos in...Algoritmos para el problema de árbol de expansión mínima robusto con datos in...
Algoritmos para el problema de árbol de expansión mínima robusto con datos in...
 
Efecto de aplicación de la metodología BIM 3D en la optimización del costo di...
Efecto de aplicación de la metodología BIM 3D en la optimización del costo di...Efecto de aplicación de la metodología BIM 3D en la optimización del costo di...
Efecto de aplicación de la metodología BIM 3D en la optimización del costo di...
 
Estilos de aprendizaje madrid
Estilos de aprendizaje madridEstilos de aprendizaje madrid
Estilos de aprendizaje madrid
 
Diseño e Implementacion del Sistema de Control para la Automatizacion del Pro...
Diseño e Implementacion del Sistema de Control para la Automatizacion del Pro...Diseño e Implementacion del Sistema de Control para la Automatizacion del Pro...
Diseño e Implementacion del Sistema de Control para la Automatizacion del Pro...
 
Trabajo degrado joel kevin orellana
Trabajo degrado   joel kevin orellanaTrabajo degrado   joel kevin orellana
Trabajo degrado joel kevin orellana
 
Resolución de Sistemas de Ecuaciones Polinomiales utilizandolasBases de Gröbn...
Resolución de Sistemas de Ecuaciones Polinomiales utilizandolasBases de Gröbn...Resolución de Sistemas de Ecuaciones Polinomiales utilizandolasBases de Gröbn...
Resolución de Sistemas de Ecuaciones Polinomiales utilizandolasBases de Gröbn...
 
Guía de elaboración de un proyecto
Guía de elaboración de un proyectoGuía de elaboración de un proyecto
Guía de elaboración de un proyecto
 
Cancinos andrea proceso de seleccion
Cancinos andrea proceso de seleccionCancinos andrea proceso de seleccion
Cancinos andrea proceso de seleccion
 
Programa de adiestramiento basado en las tic
Programa de adiestramiento basado en las ticPrograma de adiestramiento basado en las tic
Programa de adiestramiento basado en las tic
 

Thesis Text Mining

  • 1. Universidad de Oriente Facultad de Matemática y Computación Departamento de Computación Trabajo de Diploma Empleo de Algoritmos de Agrupamiento como Métodos de Condensado en Minería de Textos Presentado en opción al Título de Licenciado en Ciencia de la Computación Autor: José Antonio Molinet Berenguer Dirigido por: MSc. Adrian Fonseca Bruzón Dr. C. Reynaldo Gil García Santiago de Cuba, Mayo 2010
  • 2. A mi hermano y mis padres Por ser mis guías para llegar hasta aquí
  • 3. Agradecimientos Mi mayor agradecimiento en la vida siempre será a mis padres y mi hermano, por brindarme su amor y apoyo constantemente. Por confiar en mí y demostrarlo sin reservas. Por soportar tantos años de estar fuera y ayudarme a mí a soportarlos también. Esta tesis sería una obra inconclusa sin la presencia de Adrian, desde hace años ya, para evocar toda mi voluntad. Su ayuda como tutor ha sido decisiva para este trabajo, pero su amistad ha sido transcendental para mi vida. Son años de comprensión, convivencia y muchas fiestas más las que nos unieron. Los amigos que están y los que ya se han ido (de diferentes formas) pero que nunca se olvidan. A Luis Manuel, que todavía le debo un viaje a Gibara, este es tu trabajo de diploma también. A algunos que cuando empezamos no sabíamos cuando acabar, pero que cambiamos muchas historias. A Gustavo y su familia por considerarme parte de ellos. A los amigos que siempre hemos estado ahí, sin crear una jerarquía: Eubis y Victor los primeros en recibirme. Yidier y los inagotables problemas del mundo. Reinier y sus temas sorpresivos, solo válidos para Elisabeth. Shippuden (o José por su nombre científico) de insaciables ganas de ayudar (con la comida) a los mareados. Eduardo y su búsqueda del juego perfecto, o la manera perfecta de jugarlo. A Packy por sus cuerdas desafinadas en la última nota sin perjudicar las primeras. A Erick, la especialidad de la casa según los eruditos de la cocina y la incondicionalidad según los corazones (afirmado por Dai, compañera de todos y peso completo en sinceridad). A Adriana, mástil y proa de los náufragos de espíritu. A Frank veterano de aventuras y a Silvia. A Pedro, Papote, Lorena y sus compañeras, Yuri y todos los que están al pie de página. A los viejos compañeros del D, de las peñas, festivales. A mis compañeros del aula. A José Ramón y Fleitas por soportar mi música y llegar a gustarle. Especial, como ella, es mi agradecimiento para mi novia Darling, quien ha estado a mi lado literalmente hasta el último segundo de la realización de esta Tesis. Su presencia diaria y su apoyo, fueron la base de toda mi expresión y el desenlace de todas mis dudas. A su mamá le hago extensivo mi agradecimiento, por su sonrisa encantadora y llena de esperanza. Parte importante del desarrollo de este trabajo es debido a la ayuda de los profesores de CERPAMID, los cuales permiten la superación de varios estudiantes, gracias por esta oportunidad. A la profesora Aurora por ser el ejemplo a seguir por todo estudiante. Al profesor Gil por permitirme su conocimiento. De manera general a todos los trabajadores de CERPAMID y de DATYS, por acogernos en sus instalaciones y hacernos sentir parte de ellos. Quisiera agradecer también a todos aquellos profesores o estudiantes con los que he compartido estos años y me han ayudado a formarme como profesional y ser humano.
  • 4. I Resumen En la Minería de Textos, los clasificadores basados en vecindad han sido extensamente aplicados por sus buenos resultados y relativa facilidad de implementación. Uno de los aspectos singularmente negativos asociados a las distintas variantes conocidas de este tipo de clasificadores radica en la necesidad de disponer de un conjunto de entrenamiento relativamente grande. Esto conlleva a que el cálculo de los vecinos sea computacionalmente costoso, lo que podría imposibilitar su empleo en determinadas aplicaciones reales donde es necesaria una respuesta rápida por parte del clasificador. Con el objetivo de eliminar este inconveniente, en este trabajo se propone el empleo de algoritmos de agrupamiento para reducir la talla del conjunto de entrenamiento de los clasificadores basados en vecindad. Para probar la propuesta se realizaron un número grande de experimentos con colecciones de documentos de referencia internacional. Los resultados obtenidos, al aplicar nuestra propuesta a las tareas de Categorización de Documentos y el Filtrado Adaptativo de Documentos, muestran que la propuesta aquí presentada al ser comparada con los métodos de condensado tradicionales obtiene resultados similares o superiores de clasificación, pero reduce considerablemente más el conjunto de entrenamiento inicial.
  • 5. II Abstract In Text Mining, Nearest Neighbors classifiers have been widely used because of their good performance and relative simplicity of implementation. A negative point of these classifiers is the need for a large number of samples in the training set to obtain good results. Due to this need, the calculation of the nearest neighbors is computationally expensive and may restrict its application in some real problems which require a rapid response by the classifier. In order to eliminate this inconvenient, in this work we propose to employ a clustering algorithm to reduce the size of the training set for neighborhood-based classifiers. To test the proposal, a large number of experiments were conducted using reference document collections. The results obtained in Text Categorization and Adaptive Document Filtering, show that our proposal, when compared to traditional condensing algorithms, obtains similar or better results in classification, and additionally it achieves a better reduction of the initial training set.
  • 6. III Índice Introducción................................................................................................................................ 1  Capítulo 1.................................................................................................................................... 3  1.1  Conceptos Fundamentales............................................................................................ 3  1.1.1  Formulación General de un Problema de Clasificación Supervisada................... 4  1.1.2  Representación de los Documentos ...................................................................... 5  1.1.2.1  Esquemas de pesado de términos.......................................................................... 6  1.1.3  Medida de semejanza............................................................................................ 7  1.2  Clasificadores basados en Criterios de Vecindad ........................................................ 7  1.2.1  Construcción de la Vecindad................................................................................ 8  1.2.1.1  Vecindad de los k vecinos más cercanos .............................................................. 8  1.2.1.2  Vecindad αβ.......................................................................................................... 9  1.2.2  Métodos de Votación.......................................................................................... 11  1.2.3  Reglas de Decisión.............................................................................................. 12  1.3  Métodos de Condensado ............................................................................................ 12  1.3.1  Condensado del Vecino más Cercano ................................................................ 13  1.3.2  Reducido del Vecino más Cercano..................................................................... 15  1.3.3  Subconjunto Consistente Mínimo....................................................................... 16  1.3.4  Subconjunto Selectivo Modificado..................................................................... 18  1.4  Algoritmos de Agrupamiento..................................................................................... 19  1.4.1  Algoritmos de pasada simple.............................................................................. 20  1.4.1.1  Algoritmo SinglePass ......................................................................................... 20  1.4.2  Algoritmos basados en grafos............................................................................. 22  1.4.2.1  Algoritmo GLC................................................................................................... 23  1.4.2.2  Algoritmo Compacto Incremental ...................................................................... 24  1.4.2.3  Algoritmo Estrellas Grado.................................................................................. 26  1.5  Filtrado Adaptativo de Documento............................................................................ 28 
  • 7. IV 1.5.1  Esquema General de un Sistema de Filtrado Adaptativo de Documentos ......... 29  1.5.2  Estructura de un Sistema de Filtrado Adaptativo de Documentos ..................... 30  1.5.3  Algoritmo de Filtrado Adaptativo de Documentos............................................. 31  Capítulo 2.................................................................................................................................. 34  2.1  Algoritmos de Agrupamiento como métodos de condensado.................................... 36  2.2  Experimentos.............................................................................................................. 39  2.2.1  Medidas de Evaluación....................................................................................... 39  2.2.2  Categorización de Documentos .......................................................................... 40  2.2.2.1  Colecciones de Prueba........................................................................................ 40  2.2.2.2  Descripción de los experimentos ........................................................................ 42  2.2.2.3  Resultados experimentales.................................................................................. 43  2.2.2.4  Conclusiones....................................................................................................... 51  2.2.3  Filtrado Adaptativo de Documentos................................................................... 51  2.2.3.1  Colecciones de Prueba........................................................................................ 52  2.2.3.2  Descripción de los experimentos ........................................................................ 53  2.2.3.3  Resultados experimentales.................................................................................. 53  2.2.3.4  Conclusiones....................................................................................................... 56  Conclusiones............................................................................................................................. 57  Recomendaciones ..................................................................................................................... 58  Referencias Bibliográficas........................................................................................................ 59   
  • 8. 1 Introducción El empleo de Internet, como forma principal de comunicación e intercambio en el mundo, ha propiciado un aumento constante del volumen de información que circula en la red. La mayor parte de esta información se encuentra almacenada en forma textual no estructurada, por ejemplo, noticias periodísticas, correos electrónicos, foros de discusión, informes médicos, actas de reuniones, artículos científicos, libros, páginas Web, etc. El acelerado crecimiento de la información presente en Internet impide su análisis de forma manual o la realización de una exploración efectiva. Para facilitar a los usuarios la obtención de la información que necesitan, en un tiempo razonable, es imprescindible el desarrollo de técnicas que permitan el procesamiento automático y eficiente de esta información. Los primeros esfuerzos encaminados a resolver este problema dieron surgimiento a la Minería de Textos. La cual toma auge a mediados de los años noventa producto del incremento de la información disponible en medios electrónicos. Hoy día se considera que más de un 80% de la información disponible en Internet se encuentra almacenada en forma textual. La Minería de Textos es una disciplina dentro del Reconocimiento de Patrones que tiene por objetivo descubrir el conocimiento que no existe de forma explícita en los documentos, sino que surge de relacionar el contenido de varios de ellos. Entre las tareas de la Minería de Textos encontramos: Categorización de Documentos. Agrupamiento de Documentos. Filtrado de Información. La Categorización de Documentos (o Clasificación de Documentos) consiste en asignar a un documento una o más categorías (tópicos, asuntos) previamente definidas. Esta tarea se basa en la disponibilidad de un conjunto inicial de documentos clasificados en estas categorías (conjunto de entrenamiento). La Categorización de Documentos es un componente importante en la gestión de información, en tareas como el filtrado de spam, la clasificación en tiempo real del correo electrónico, el direccionamiento de documentos, la clasificación de páginas web, entre otras. El Agrupamiento de Documentos es una las técnicas más utilizadas para descubrir conocimientos. El objetivo de esta tarea consiste en obtener una estructuración de un conjunto de documentos en grupos de forma tal que los documentos dentro de un mismo grupo posean
  • 9. Introducción 2 un alto grado de semejanza y los pertenecientes a grupos diferentes sean poco semejantes entre sí. Entre los diferentes contextos en que se aplica esta tarea se encuentran la Recuperación de Información y el seguimiento y detección de sucesos en un flujo continuo de noticias. El Filtrado de Información es el proceso de recuperar de un flujo de documentos, aquellos que satisfacen las necesidades de información de un usuario (perfil de usuario). Existe un conjunto de Sistemas de Filtrado de Documentos que poseen la propiedad de poder recibir información de los usuarios indicando cuándo un documento ha sido incorrectamente recuperado, los cuales son conocidos como Sistemas de Filtrado Adaptativo de Documentos. Estos sistemas son capaces de actualizar el perfil de los usuarios, permitiéndoles obtener una mayor efectividad en su desempeño. Varios han sido los clasificadores que se han aplicado en el área de la Minería de Textos. Entre los más empleados se encuentran los basados en vecindad, debido a su relativa simplicidad de implementación y los buenos resultados que obtienen durante el proceso de clasificación. Estos algoritmos poseen el inconveniente de requerir de un conjunto de entrenamiento relativamente grande. Esta condición conlleva a un elevado costo computacional y provoca que su aplicación se vea limitada en ciertos entornos reales en los cuales se requiere de una respuesta rápida por parte del clasificador. Por otro lado, es probable que en el conjunto de entrenamiento exista gran cantidad de información redundante no necesaria para el proceso de clasificación. En la Minería de Datos este problema se ha estudiado y se han obtenido algoritmos que permiten eliminar del conjunto de entrenamiento aquellas muestras redundantes, conocidos por el nombre de Algoritmos de Condensado. Sin embargo, en la Minería de Textos este problema no ha sido abordado con igual intensidad. De forma general, el objetivo para cualquier procedimiento de condensado, consistirá en descartar del conjunto de entrenamiento toda la información que no sea relevante para el proceso de clasificación. Este trabajo tiene por objetivo evaluar el desempeño de los algoritmos de agrupamiento al emplearlos para reducir el conjunto de entrenamiento de los clasificadores basados en vecindad al ser aplicados a la Minería de Textos. El presente Trabajo de Diploma está estructurado de la siguiente forma: Introducción, dos capítulos, conclusiones y bibliografía. El primer capítulo es una pequeña revisión bibliográfica en la que se exponen los conceptos y algoritmos fundamentales que permitirán al lector entender el resto de la tesis. En el capítulo dos se expone nuestra propuesta de emplear algoritmos de agrupamientos para reducir el conjunto de entrenamiento y se muestran los resultados experimentales obtenidos al aplicarla en las tareas de Categorización de Documentos y el Filtrado Adaptativo de Documentos.
  • 10. 3 Capítulo 1 Fundamentos Teóricos En el presente capítulo se exponen los principales aspectos teóricos que se emplean en nuestro trabajo. En primer lugar, se especifican los conceptos fundamentales en los que se basan los distintos algoritmos aquí tratados. Se explican dos variantes de los clasificadores basados en vecindad. Además, se detallan algunos de los algoritmos de condensado más aplicados en la Minería de Datos y se analizan sus principales ventajas y limitaciones. A continuación, se muestran los algoritmos de agrupamiento que serán empleados en nuestra propuesta, se clasifican atendiendo a determinados criterios y se analizan sus beneficios y desventajas. Por último, se describe la tarea de Filtrado Adaptativo de Documentos y se explica el algoritmo empleado en el presente trabajo. 1.1 Conceptos Fundamentales Entre los problemas fundamentales del Reconocimiento de Patrones se encuentran la Clasificación Supervisada y la Clasificación No Supervisada. En un problema de clasificación supervisada existe un universo de objetos dividido en clases y se dispone de muestras de cada una de ellas. Se persigue entonces, determinar a qué clases corresponde un nuevo objeto. Los algoritmos que realizan este proceso son conocidos como clasificadores. Por el contrario, en un problema de clasificación no supervisada se desconocen las clases en que se distribuye el universo de objetos y no se poseen muestras de ellas. Se tiene como objetivo entonces, estructurar el conjunto de objetos en grupos. Los algoritmos que realizan esta tarea son conocidos como algoritmos de agrupamiento. Dentro del Reconocimiento de Patrones existen 3 aproximaciones fundamentales en función del tipo de espacio de representación utilizado y de cómo se estructura la información correspondiente a cada representación. El Reconocimiento Sintáctico o Estructural de Formas [Fuyama, 1982], el cual define explícitamente la estructura de las características asociadas a los modelos, así como las relaciones permitidas entre ellas. El segundo grupo corresponde al Reconocimiento Lógico Combinatorio [Shulcloper, 1995]. Este enfoque se basa en la idea de que la modelación del problema debe ser lo más cercana posible a la realidad del mismo, sin hacer suposiciones que carezcan de fundamento. La última vertiente corresponde al
  • 11. Capítulo1. Fundamentos Teóricos 4 Reconocimiento Estadístico de Formas [Devroye, 1996]. En él se asume que el espacio de representación posee una estructura de espacio vectorial. Dentro del Reconocimiento Estadístico de Formas se suele hacer distinción entre las aproximaciones paramétricas y las no paramétricas. En el primer caso, se asume un conocimiento a priori sobre la forma funcional de las distribuciones de probabilidad de cada clase sobre el espacio de representación, por el contrario, las aproximaciones no paramétricas no suponen ninguna forma de las distribuciones de probabilidad sobre el espacio de representación. Dentro de los clasificadores estadísticos no paramétricos es necesario destacar las aproximaciones basadas en criterios de vecindad. Los clasificadores basados en criterios de vecindad suponen que los objetos se ubican en el espacio de representación de forma tal que los objetos pertenecientes a la misma clase están más cercanos entre sí que a objetos de otras clases. Bajo esta óptica, los esquemas de clasificación únicamente exigirán la definición de una cierta medida de similitud entre los distintos elementos del espacio de representación, es decir, que éste sea métrico (o, pseudo-métrico). La principal ventaja que presenta la clasificación basada en criterios de vecindad respecto a otros métodos no paramétricos, es su simplicidad conceptual, que podría resumirse como: la clasificación de un nuevo objeto se puede estimar en función de la clasificación conocida de los objetos dentro de un entorno suficientemente pequeño al nuevo objeto. 1.1.1 Formulación General de un Problema de Clasificación Supervisada En general, cualquier problema de clasificación supervisada abordado con un enfoque estadístico se podrá caracterizar del siguiente modo: Sea E el espacio de representación de un determinado problema de clasificación, en el cual se tienen M clases, Ω = {ω1, ω2,…, ωM}, de manera que formen una partición de E. Además, se dispone de N prototipos (o muestras pre-clasificadas) pertenecientes al espacio, las cuales se tomarán como conjunto de entrenamiento (CE), el que a su vez se representará como: CE = {X, Ω} = {(x1, ω1), (x2, ω2),…, (xN, ωN)} El problema consistirá en dado una nueva muestra x de E, estadísticamente independiente del conjunto {X, Ω}, la cual puede estar contenida en cualquiera de las M clases, determinar a qué clase del espacio pertenece. Este procedimiento es conocido como Regla de Clasificación o Clasificador y se representa como: δ: E Ω, δ(x) = ωi i = 1,…, M
  • 12. Capítulo1. Fundamentos Teóricos 5 Existen distintas alternativas para expresar un determinado clasificador δ. Una de las representaciones está dada en términos de un conjunto de funciones discriminantes, Di(x) i = 1,…, M, es decir, una por cada clase en el espacio E [Duda, 1973]. En este caso, el clasificador se puede expresar de la siguiente manera: δ(x) = ωi Di(x) > Dj(x) j≠ i i, j = 1,…, M Por tanto, el clasificador asigna el objeto x a la clase o partición ωi del espacio de representación E cuya función discriminante asociada Di(x), sea mayor. Debemos señalar que existen determinadas zonas del espacio en las que distintas funciones discriminantes pueden tomar el mismo valor, es decir, particiones del espacio que podrían pertenecer con la misma probabilidad a más de una clase. Estas zonas o regiones indefinidas se denominan fronteras de decisión, correspondiendo a los casos donde se cumple la siguiente igualdad: Di(x) = Dj(x) j ≠ i i, j = 1,…, M En el caso de los clasificadores basados en criterios de vecindad, la definición de una regla de clasificación δ se basa en la distribución de los prototipos del conjunto CE en un entorno de x suficientemente pequeño. 1.1.2 Representación de los Documentos Los objetos tratados en la Minería de Textos son documentos textuales. Debido a que los distintos algoritmos que se analizarán serán aplicados en esta área, es preciso contar con una forma consistente de representar los documentos (su contenido). En este sentido, el formalismo más utilizado es el modelo vectorial [Salton, 1989]. En este modelo cada documento de la colección ξ está representado por un vector m-dimensional (m es el cardinal del conjunto de términos distintos presentes en la colección de documentos), en el que cada componente representa el peso del término asociado a esa dimensión, esto es, d = (w1,…, wm). El peso wi representa una estimación (usualmente estadística, aunque no necesariamente) de la utilidad del término como descriptor del documento, es decir, de la utilidad para distinguir ese documento del resto de los documentos de la colección [Greengrass, 2001]. El peso del término ti en el documento d se representa como w(ti, d). Si ti no aparece en d entonces su peso es 0. Un término recibe un peso de 0 en los documentos en los cuales éste no ocurre. Normalmente los términos muy comunes y los poco frecuentes son eliminados y las formas diferentes de una palabra son reducidas a su forma canónica. Para tomar en consideración documentos de diferentes longitudes, es usual que los vectores sean normalizados, aplicando diferentes técnicas de normalización. La mayoría de los vectores de documentos son dispersos.
  • 13. Capítulo1. Fundamentos Teóricos 6 1.1.2.1 Esquemas de pesado de términos De las diferentes técnicas existentes para determinar el peso de los términos de un documento, las siguientes son algunas de las más empleadas: Booleano: Los pesos wi {0,1} indican la presencia o ausencia del término ti en el documento. Frecuencia de un término o TF (Term Frequency) [Salton 1989]: Cada término tiene una importancia proporcional a la cantidad de veces que aparece en un documento, denotado por TF(ti, d). El peso del término ti en el documento d es w(ti, d) = TF(ti, d). Hay que señalar que es muy importante normalizar de alguna manera la frecuencia de un término en un documento para moderar el efecto de las altas frecuencias y para compensar la longitud del documento (en documentos más largos, previsiblemente aparecerá más veces cada término). Una de las técnicas más usada es la normalización por la longitud, que consiste en dividir cada frecuencia por la longitud del documento. Otra variante es la normalización del coseno, donde se divide cada valor por la norma euclidiana del vector del documento. TF-IDF: Mientras el factor TF tiene que ver con la frecuencia de un término en un documento, el IDF (Inverse Document Frequency) tiene que ver con la frecuencia de un término en la colección de documentos. Así, la importancia de un término es inversamente proporcional al número de documentos que lo contiene: w(ti, d) = TF(ti, d) IDF(ti) IDF(ti) = log donde df(ti) es el número de documentos de la colección ξ que contienen al menos una vez al término ti y N representa el total de documentos de la colección ξ. Es decir, mientras menos documentos contengan al término ti mayor es su IDF(ti). El factor TF(ti, d) contribuye a mejorar la relevancia y el factor IDF(ti) contribuye a mejorar la precisión, pues representa la especificidad del término, distinguiendo los documentos en los que éste aparece de aquellos en los que no aparece. ltc: El pesado ltc [Salton, 1989] es una variante del esquema TF-IDF y se define como: ltc = 1 log , log
  • 14. Capítulo1. Fundamentos Teóricos 7 1.1.3 Medida de semejanza Para determinar cuándo dos documentos son “parecidos” y cuándo no, es necesario definir una medida de semejanza que exprese el grado de parecido entre ellos. En la Minería de Textos es muy usual el empleo de la medida del coseno. Esta medida se define de la siguiente forma: sem(di, dj) = cos(di, dj) = = ∑ ∑ ∑ donde es la k-ésima componente del vector que representa al documento di, o sea w(tk, di), es decir, el peso del término tk en el documento di. El valor de esta medida se encuentra en el rango [0,1], de forma tal que mientras más cerca se encuentre del máximo, sem(di, dj) 1, más semejantes son los documentos di y dj. 1.2 Clasificadores basados en Criterios de Vecindad En la Minería de Textos son ampliamente utilizados los clasificadores basados en criterios de vecindad. Estos clasificadores generalmente involucran tres pasos [Gil, 2006]: (i) Encontrar la vecindad V(d) del documento d a clasificar, en el conjunto de entrenamiento CE. (ii) Cálculo del voto. Cada clase ωi Ω, emite un voto Ψ(ωi) por el documento a clasificar. (iii) Aplicar una regla de decisión Γ(d), en función a los votos emitidos por cada una de las clases. El primer paso asume la definición de una vecindad que permita determinar las muestras del conjunto de entrenamiento que se considerarán para clasificar un nuevo documento d. Luego, basado en las muestras seleccionadas en el primer paso, cada clase emite un voto por el documento d. Por último, se aplica una regla de decisión para determinar en base a los votos de cada clase a cuál pertenece el nuevo documento. Debido a que cada uno de estos pasos puede realizarse de diferentes formas, combinarlos da origen a distintas reglas de clasificación o clasificadores. Un aspecto a tener en cuenta es que la efectividad de estos clasificadores solamente se verá condicionada por la disponibilidad de un número suficientemente grande de prototipos en el
  • 15. Capítulo1. Fundamentos Teóricos 8 conjunto de entrenamiento y que éstos hayan sido, como cabría esperar, correctamente clasificados. Desde un punto de vista práctico, la necesidad de disponer de un elevado número de prototipos para una aplicación efectiva de esta regla, puede llegar a convertirse en un serio inconveniente en cuanto al coste computacional requerido para buscar, dentro del conjunto de entrenamiento, los prototipos que conformarán la vecindad. 1.2.1 Construcción de la Vecindad El clasificador del vecino más cercano (Nearest Neighbour, NN) es uno de los métodos estadísticos no paramétricos más conocidos y extensamente usados. Como extensión de este surge el clasificador de los k vecinos más cercanos (k-Nearest Neighbour, k-NN), el cual considera para clasificar un nuevo documento no sólo el documento más cercano, sino los k documentos más cercanos a él. Con el objetivo de eliminar la restricción que impone k-NN al fijar un número de vecinos aparece el clasificador αβ-NN, el cual sólo considera aquellos documentos que estén suficientemente cerca del documento a clasificar. 1.2.1.1 Vecindad de los k vecinos más cercanos Uno de los clasificadores más difundidos en la literatura es la regla k-NN [Fix, 1951]. La idea fundamental sobre la que se apoya este clasificador es que muestras de una misma clase probablemente se encontrarán próximas en el espacio de representación. Para calcular la vecindad de un documento d considera un cierto número de prototipos (k) que se encuentren en un entorno suficientemente próximo a d. A partir de un cierto conjunto de entrenamiento, CE = {(d1, ω1), (d2, ω2),…, (dN, ωN)}, se puede definir la vecindad Vk(d) de un documento d E como el conjunto de prototipos que cumple: Vk(d) |Vk(d)| = k p Vk(d), q - Vk(d) sem(p, d) > sem(q, d) donde = La expresión sem(· , ·) hace referencia a la semejanza entre dos documentos y es el conjunto de prototipos por cada clase. En definitiva, el significado de esta expresión se puede resumir en que la vecindad está conformada por los k prototipos, del conjunto de entrenamiento, más semejantes al nuevo documento d.
  • 16. En En es e 1.2 Uno pre los la fig. 1.1 se la misma ci el nuevo doc Figura 1.1: V .1.2 Vecin o de los pri fijar un núm siguientes in (i) Los k v (fig. 1.2 (ii) Es posib espacio a d y e vecinos e muestra un , cj y ck son cumento a se Vecindad cal dad αβ incipales inc mero k de do nconvenient ecinos más c 2(a)). ble que los k de represen el resto no alejados de n ejemplo de las clases e er clasificado culada media convenientes ocumentos a tes: cercanos pu k vecinos má ntación, lo qu se encuentre cisivos en la el cálculo de en las que es o. ante el clasific s que presen tener en cu eden estar d ás cercanos n ue provoca en lo sufici a clasificació Ca e la vecindad stá dividido e cador de los k nta el clasifi uenta para ca demasiado lej no estén hom que pocos v entemente c ón. apítulo1. Fu d mediante e el espacio d k vecinos más icador k-NN alcular la vec ejos del docu mogéneamen vecinos sean cerca (fig. 1 undamentos T el clasificado e representa s cercanos (k = N es la nece cindad, la cu umento d a c nte distribuid realmente s 1.2(b)), siend Teóricos 9 or k-NN. ación y d = 6). sidad de ual sufre clasificar dos en el similares do estos
  • 17. Capítulo1. Fundamentos Teóricos 10 (a) (b) Figura 1.2: Inconvenientes de la vecindad de los k vecinos más cercanos. El clasificador αβ-NN [Gil, 2006] aborda estos problemas y sólo considera los prototipos que se encuentran en un área lo suficientemente cercana y pequeña a la muestra d a ser clasificada. A diferencia del clasificador k-NN, el número de vecinos que forman parte de la vecindad no es fijo y los prototipos cuya semejanza con d es muy pequeña son descartados. En el conjunto de entrenamiento CE = {(d1, ω1), (d2, ω2),…, (dN, ωN)}, se puede definir la vecindad Vαβ (d) de un documento d E como el conjunto de prototipos que cumple: Vαβ (d) p Vαβ (d) sem(p, d) p Vαβ (d) sem(p, d) sem(d, q) α donde = y sem(d, q) =max … , Esta vecindad (fig. 1.3) tiene en cuenta a todos los prototipos que se encuentran en una región esférica con centro en d. Para poder definir esta región se utilizan los parámetros α y β. Figura 1.3: Vecindad αβ.
  • 18. Capítulo1. Fundamentos Teóricos 11 Durante el proceso de construcción de la vecindad todos aquellos prototipos del conjunto de entrenamiento cuya semejanza con d sea inferior a β son descartados. Para garantizar que en la vecindad de d sólo estén aquellos prototipos muy similares a él el radio de la región se ajusta automáticamente a partir del vecino más similar a d (representado por el punto blanco en la figura 1.3). Este radio es igual a la diferencia entre el parámetro α y el valor de la semejanza entre d y su vecino más cercano. En la figura, sólo los prototipos que se encuentren en la región sombreada formarán parte de la vecindad de d. 1.2.2 Métodos de Votación Los métodos de votación asignan un voto por cada clase. El voto de una clase permite valorar cuán probable es que el documento a clasificar pertenezca a ella. El cálculo del voto se realiza teniendo en cuenta los elementos contenidos en la vecindad. Diferentes esquemas de votación han sido empleados en la literatura, a continuación se relacionan algunos de ellos. Ψ(ωi) = ∑ (d, p) (1.1) Ψ(ωi) = ∑ , (1.2) Ψ(ωi) = ∑ , ∑ , (1.3) Donde i representa la clase, (d) los documentos de la clase i que pertenecen a la vecindad de d, sem(· , ·) la semejanza entre dos documentos y Ni el número de documentos en (d). El método de votación de la expresión 1.1 define el voto de una clase como la suma de las semejanzas entre el documento a clasificar d y los elementos de la clase que pertenecen a la vecindad. De esta forma, el voto de una clase depende del número de elementos de la clase que pertenecen a la vecindad y de cuán semejantes sean estos al documento a clasificar. En la expresión 1.2 el voto de una clase se calcula como el promedio de las semejanzas entre el documento a clasificar y los documentos de la clase que pertenecen a la vecindad. En este método, a diferencia del anterior, no influye el número de documentos que posea la clase en la vecindad, sino cuán semejantes son estos al documento a clasificar. Esto impide que un número elevado de documentos poco semejantes a d determinen su clasificación.
  • 19. Capítulo1. Fundamentos Teóricos 12 En el caso de la expresión 1.3 el voto de una clase se obtiene al dividir las semejanzas de d con los elementos de la clase en la vecindad entre el total de semejanzas de d con los elementos de la vecindad. 1.2.3 Reglas de Decisión Una vez calculado el voto de cada una de las clases, se aplica una regla de decisión que permita determinar a cuáles clases pertenece el documento d. A continuación se expondrán algunas de estas reglas. La regla Mayoría Simple considera que el documento pertenece a aquella clase cuyo voto es mayor al de las demás: Γ(d) = ω’ ω Ω, Ψ(ω’) > Ψ(ω) (1.4) La expresión 1.5 surge como una extensión de la regla anterior introduciendo un umbral mínimo exigido al voto de la clase para clasificar al nuevo documento. Γ(d) = ω’ Ψ(ω’) > y ω Ω, Ψ(ω’) > (ω) (1.5) Esta regla no tiene en cuenta el hecho de que un documento puede abordar más de una temática a la vez. Para dar solución a este problema se emplea la expresión: Γ(d) = {ω Ω | Ψ(ω) > } (1.6) Esta regla permite el uso de los clasificadores basados en vecindad en entornos donde existe solapamiento entre las diferentes clases del espacio. 1.3 Métodos de Condensado Uno de los aspectos negativos que presentan los distintos clasificadores basados en vecindad radica en la necesidad de disponer de un elevado número de prototipos para su entrenamiento. Este hecho provoca que el proceso de búsqueda de los vecinos más cercanos sea computacionalmente costoso, limitando su aplicación en determinados problemas prácticos donde se requiere una respuesta rápida por parte del clasificador. Con el objetivo de ampliar el campo de aplicaciones reales de las distintas reglas basadas en criterios de vecindad se han desarrollado diversas técnicas. Una de las alternativas más
  • 20. Capítulo1. Fundamentos Teóricos 13 empleadas para acelerar el cálculo de la vecindad consiste en reducir el número de prototipos en el conjunto de entrenamiento sin originar un incremento del correspondiente error de clasificación. Estos métodos son conocidos como Algoritmos de Condensado, los cuales han sido ampliamente abordados en la Minería de Datos, pero no se ha estudiado con igual intensidad su aplicación en la Minería de Textos. Por ello, en este epígrafe nos referiremos a objetos de forma general y no a documentos. De forma general, el objetivo de los métodos de condensado es reducir significativamente la cantidad de objetos en el conjunto de entrenamiento, con la menor afectación posible a la eficacia del clasificador. En dependencia de la estrategia seguida por los métodos de condensado para construir el nuevo conjunto de entrenamiento, estos pueden ser clasificados en: incrementales, decrementales o por lotes [Wilson, 2000]. Los primeros inician con el conjunto condensado vacío y van agregando a este aquellos prototipos que cumplan un determinado criterio. Por el contrario, los que emplean una estrategia decremental o por lotes, tendrán inicialmente en el conjunto condensado todos los elementos del conjunto de entrenamiento y en cada paso determinan que prototipos o conjuntos de estos eliminar. Según el origen de los objetos del conjunto condensado, estos métodos se pueden clasificar en: métodos de selección o de reemplazo [Bezdek, 2001]. Los primeros escogen los prototipos del conjunto de entrenamiento original, mientras que el resto, obtienen nuevos objetos aplicando sobre los elementos del conjunto de entrenamiento inicial una determinada función de transformación. 1.3.1 Condensado del Vecino más Cercano El Condensado del Vecino más Cercano (Condensed Nearest Neighbors, CNN) [Hart, 1968] es considerado en la literatura como la primera propuesta formal de condensado para la regla de clasificación NN (Nearest Neighbour). Este método ha sido ampliamente usado tanto en investigaciones científicas como en aplicaciones prácticas. Según este método, un conjunto condensado deberá cumplir las propiedades de ser reducido y consistente. Se entiende por consistente un conjunto S X donde X ≠ , si al utilizar al subconjunto S como conjunto de entrenamiento, se puede clasificar correctamente a todo el conjunto X. El algoritmo CNN se clasifica dentro de los métodos de selección incremental. El mismo se basa en la siguiente idea: para clasificar correctamente los objetos de una clase sólo es necesario mantener aquellos elementos cercanos a la frontera de decisión. De esta forma, se eliminan todos los elementos del interior de la clase, sin afectar la consistencia del conjunto condensado.
  • 21. Capítulo1. Fundamentos Teóricos 14 Este algoritmo comienza seleccionando de manera aleatoria un objeto correspondiente a cada una de las distintas clases y se añaden a S (inicialmente S es un conjunto vacío). Posteriormente, cada elemento en el conjunto de entrenamiento X es clasificado con la regla NN empleando únicamente los objetos de S. Cuando un objeto es clasificado erróneamente, entonces éste se añade a S para garantizar que será clasificado correctamente. El proceso se repite hasta que no existan objetos en X que sean clasificados de manera errónea. El algoritmo CNN puede ser descrito por los siguientes pasos: Algoritmo: Condensed Nearest Neighbors (CNN) Entrada: X Conjunto de entrenamiento Salida: S Conjunto condensado Método: 1- Inicialización: R X 2- Sea S conjunto formado inicialmente por un prototipo por clase. 3- Repetir: 3.1- Para cada prototipo xi R: 3.1.1- Si xi es mal clasificado utilizando la regla NN y los objetos del conjunto S entonces hacer: R = R - {xi} S = S {xi} 4- Hasta que no haya cambios en R o R = 5- Devolver S Para quedarse con los elementos fronterizos, el algoritmo propuesto por Hart agrega al conjunto S los prototipos que fueron mal clasificados por la regla NN. Considera que si un elemento es incorrectamente clasificado, se deberá probablemente al hecho de encontrarse próximo a la frontera de decisión. Este algoritmo es muy sencillo de implementar y rápido (su coste computacional es lineal con respecto a la talla de X en cada iteración); en la práctica, se obtiene un conjunto consistente después de muy pocas iteraciones. Por otra parte, la talla del conjunto condensado resulta, en
  • 22. Capítulo1. Fundamentos Teóricos 15 la mayoría de los casos, considerablemente pequeña comparada con el tamaño del conjunto original, siempre y cuando en éste no exista solapamiento entre las regiones de clases distintas. Entre los aspectos negativos de este algoritmo se puede señalar que: 1. No es posible afirmar que se obtiene el subconjunto consistente mínimo del conjunto original, pues su construcción depende del orden en que se analicen los prototipos del conjunto inicial, pudiéndose obtener diferentes resultados en cada corrida y de distintos tamaños, siendo todos consistentes. 2. Este método es sensible al ruido (objetos que pertenecen a una clase pero se encuentran en el espacio de otra), ya que todo prototipo ruidoso será clasificado erróneamente y por tanto será incluido en el conjunto condensado S, impidiendo una reducción considerable sin aportar información relevante al clasificador. 1.3.2 Reducido del Vecino más Cercano El algoritmo Reducido del Vecino más Cercano (Reduced Nearest Neighbors, RNN) [Gates, 1972] realiza una extensión decremental del algoritmo CNN. El RNN es un procedimiento de condensado iterativo con el fin de eliminar de un conjunto consistente, obtenido a partir del algoritmo CNN, aquellos prototipos que no resulten necesarios para mantener la propiedad de consistencia. En este algoritmo se aplica primeramente el algoritmo CNN al conjunto de entrenamiento X. Luego, del conjunto S obtenido, se elimina cada objeto que no sea necesario para clasificar correctamente todos los elementos del conjunto original X. Este es un método de selección que emplea una estrategia decremental para construir el nuevo conjunto de entrenamiento. El algoritmo RNN se puede escribir de la siguiente forma: Algoritmo: Reduced Nearest Neighbors (RNN) Entrada: X Conjunto de entrenamiento Salida: S Conjunto condensado Método: 1- Inicialización: S , T X 2- Aplicar el algoritmo CNN al conjunto T 3- Para cada prototipo si S (conjunto resultante del paso anterior)
  • 23. Capítulo1. Fundamentos Teóricos 16 3.1- S = S - {si} 3.2- Para cada prototipo xi X: 3.2.1- Si xi es mal clasificado utilizando la regla NN y los objetos del conjunto S entonces hacer: S = S {si} e ir al Paso3 4- Devolver S Este método de condensado, en la mayoría de los casos, reduce más el conjunto de entrenamiento que el algoritmo CNN, aunque las diferencias suelen ser poco significativas. Además, no asegura que el subconjunto consistente que se obtiene es mínimo y los resultados que se logran durante el proceso de clasificación son similares a los obtenidos por el algoritmo CNN. Este método, al igual que el CNN, depende del orden de presentación de los objetos y es sensible a la presencia de ruido. 1.3.3 Subconjunto Consistente Mínimo Un paso importante para la obtención del subconjunto mínimo consistente fue dado en [Dasarathy, 1994], donde se presenta el algoritmo Subconjunto Consistente Mínimo (Minimal Consistent Subset, MCS). El mismo se basa en el concepto de subconjunto de vecinos más cercanos de clase diferente (Nearest Unlike Neighbour Subset, NUNS) [Dasarathy, 1991]. En el algoritmo MCS la consistencia se asegura al considerar que, para clasificar correctamente un elemento del conjunto de entrenamiento, sólo es necesario tener en el conjunto condensado una muestra de su misma clase que sea más cercana a él que su vecino más cercano de clase diferente (Nearest Unlike Neighbour, NUN). Este algoritmo consiste en seleccionar aquellos elementos que aseguren la correcta clasificación (según la regla NN) de la mayor cantidad de objetos de su clase. Primero se calcula el número de objetos que soporta cada elemento del conjunto de entrenamiento (un objeto y soporta a uno x, si la distancia entre y y x es inferior a la distancia entre x y su NUN). Estos elementos son ordenados descendentemente según la cantidad de objetos que soportan, y el primero es elegido. Luego se eliminan los objetos que ya son soportados por el seleccionado y se repite el paso anterior, hasta que ya no puedan eliminarse más objetos. En este conjunto resultante, varios objetos ya fueron eliminados, por lo que los NUN posiblemente cambiaron y se repite todo el proceso nuevamente con los nuevos objetos. Una forma de expresar el algoritmo MCS puede ser la siguiente:
  • 24. Capítulo1. Fundamentos Teóricos 17 Algoritmo: Minimal Consistent Subset (MCS) Entrada: X Conjunto de entrenamiento Salida: S Conjunto condensado Método: 1- Inicialización: S , T X 2- Para cada prototipo xi X: 2.1- , inicializar el conjunto de objetos que soporta 3- Para cada prototipo xi X: 3.1- Calcular el vecino más cercano de clase diferente de xi en T ( ) 3.2- Calcular los prototipos de T más cercanos a xi que ( ) 3.3- Para cada prototipo yi : 3.3.1- = {xi} 3.4- Si = {xi}: 3.4.1- S = S {xi} 4- El prototipo que soporte un mayor número de objetos se agrega a : 4.1- mvs max | | 4.2- S = S {xi} 5- Para cada prototipo vi Vmvs: 5.1- Para cada prototipo xi X: 5.1.1- Si vi : = - {vi} 6- Si queda algún prototipo xi tal que , ir a 4 7- Mientras |T|>|S| hacer: T S, S e ir a 2 Este es un método de selección que se vale de una estrategia incremental para construir el conjunto condensado. El mismo no depende del orden en que se presenten los objetos y obtiene un conjunto consistente, que aunque no es siempre el mínimo, sí es de cardinal pequeño (en [Wilfong, 1991] se demostró que encontrar el conjunto consistente mínimo es un problema NP-completo). Además, su sensibilidad al ruido es inferior a los métodos
  • 25. Capítulo1. Fundamentos Teóricos 18 anteriormente explicados. Como aspecto negativo se le puede señalar que modifica ligeramente, en algunos casos, las fronteras de decisión entre las clases. 1.3.4 Subconjunto Selectivo Modificado El algoritmo Subconjunto Selectivo Modificado (Modified Selective Subset, MSS) [Barandela, 2005] es una modificación realizada al algoritmo Subconjunto Selectivo (SS) propuesto en [Ritter, 1975]. En este último se extiende el concepto de conjunto consistente agregando una condición más fuerte, conocida como propiedad selectiva. Esta propiedad permite obtener el conjunto condensado de forma independiente al orden de presentación de los objetos. Surge así el concepto de conjunto selectivo, el cual se puede expresar de la siguiente manera: Un subconjunto T del conjunto de entrenamiento CE es un subconjunto selectivo (SS), si satisface las siguientes condiciones: (i) T es consistente. (ii) Todos los prototipos en el conjunto de entrenamiento original están más cercanos a un vecino selectivo (un miembro de SS) de la misma clase que a cualquier prototipo de una clase diferente. El algoritmo SS tiene como objetivo calcular el subconjunto selectivo mínimo del conjunto de entrenamiento. Para ello se basa, a parte del concepto de conjunto selectivo, en otras definiciones. Entre ellas se encuentra la del vecino relacionado, en la misma se plantea que un prototipo xj es un vecino relacionado con otro prototipo xi, ambos de la misma clase, si xj es más cercano a xi que el enemigo más cercano de xi. En la literatura, el enemigo más cercano es nombrado también NUN (vecino más cercano de clase diferente, por sus siglas en inglés). Otra definición utilizada es la de vecindad relativa, en la cual se considera como vecindad relativa de xi al conjunto de todos los vecinos relacionados con xi, siendo representada mediante Yi. Haciendo uso de las definiciones anteriores, el subconjunto selectivo mínimo se puede expresar como el subconjunto más pequeño del conjunto de entrenamiento, el cual contiene al menos un miembro de Yi para cada prototipo xi del conjunto de entrenamiento. El propósito de MSS es obtener un subconjunto selectivo, no necesariamente el mínimo, con prototipos más cercanos a la frontera de decisión que los obtenidos por SS y con menor costo computacional. Para ello sustituye el concepto de subconjunto selectivo por el de subconjunto selectivo modificado. El cual se puede expresar como el subconjunto del conjunto de entrenamiento CE que contiene, para todo xi del CE, aquel elemento de Yi más cercano al NUN de xi.
  • 26. Capítulo1. Fundamentos Teóricos 19 Para obtener el conjunto condensado S, el algoritmo MSS, por cada clase ωi en que se divide el conjunto de entrenamiento X, busca el vecino más cercano de clase diferente de cada prototipo xi que la conforma ( ). Luego calcula la vecindad relativa Yi de cada xi y agrega a S el prototipo de Yi más cerca a . El algoritmo MSS está conformado por los siguientes pasos: Algoritmo: Modified Selective Subset (MSS) Entrada: X Conjunto de entrenamiento Salida: S Conjunto condensado Método: 1- Inicialización: S 2- Para cada clase ωi Ω (clases en que se divide X): 2.1- Para cada prototipo xi de la clase ωi: 2.1.1- Calcular el enemigo más cercano de xi ( ) 2.1.2- Calcular la vecindad relativa de xi (Yi) 2.1.3- Sea xj Yi, el vecino relacionado de xi más cercano a : S = S {xj} Este algoritmo selecciona objetos del conjunto de entrenamiento original y construye el conjunto condensado de forma incremental. Su resultado no depende del orden de presentación de los objetos y aunque no obtiene siempre un conjunto selectivo menor que el SS, sí asegura una mejor representación de las fronteras de decisión que este, lo que permite lograr mejores resultados en la clasificación. Este método al igual que los anteriores no considera el caso de solapamiento entre las clases y su desempeño puede verse afectado por la presencia de ruido en el conjunto de entrenamiento. 1.4 Algoritmos de Agrupamiento Los algoritmos de agrupamiento se han empleado en un gran número de tareas de la Minería de Textos. En este epígrafe se mostrarán algunos de los más utilizados en esta área, los cuales formarán parte de nuestra propuesta.
  • 27. Capítulo1. Fundamentos Teóricos 20 El objetivo de los algoritmos de agrupamiento es, dado un conjunto de n documentos descritos a través de m rasgos, crear particiones o cubrimientos de este conjunto. La estructuración obtenida debe cumplir que la semejanza de los documentos dentro de un mismo grupo sea máxima mientras que la semejanza entre los documentos pertenecientes a grupos diferentes sea mínima. El problema así planteado es NP-duro, pues para obtener la solución hay que buscar todas las combinaciones posibles de grupos a formar. Por ejemplo, la cantidad de particiones de tamaño k de un conjunto de n documentos es aproximadamente igual ! [Duda, 1973]. En la práctica se utilizan distintas heurísticas que tratan de maximizar la semejanza intra-grupo y/o minimizar la semejanza inter-grupo. Debido a la gran diversidad de algoritmos de agrupamiento existentes se han creado varias clasificaciones de los mismos atendiendo a distintos aspectos. Atendiendo a la forma en que procesan los documentos, los algoritmos de agrupamientos se pueden clasificar en: estáticos, incrementales o dinámicos. Considerando la pertenencia de los documentos a los grupos en: disjuntos o solapados. También se pueden clasificar atendiendo al mecanismo en que se basan para agrupar, quedando divididos en: algoritmos de pasada simple, basados en grafos, de optimización, basados en densidad o basados en árboles. 1.4.1 Algoritmos de pasada simple Los algoritmos de pasada simple procesan los documentos uno a uno y los comparan con los grupos existentes. Si existen grupos que cumplan cierto criterio de semejanza con el nuevo documento, éste se coloca en el grupo más semejante. En caso contrario, se crea un nuevo grupo con ese documento. También existen variantes que colocan al nuevo documento en todos aquellos grupos que satisfacen el criterio de semejanza, creando grupos solapados en lugar de disjuntos. En general, estos algoritmos definen una función de semejanza entre un documento y un grupo y fijan un cierto umbral para controlar la asignación de los documentos a los grupos. 1.4.1.1 Algoritmo SinglePass El SinglePass [Hill, 1968] es el más utilizado de la familia de los algoritmos de agrupamientos de pasada simple. Este algoritmo calcula la semejanza del nuevo documento con cada grupo a través de su representante, el cual se calcula como la media de los documentos pertenecientes al grupo. Si no existen grupos cuya semejanza es mayor que un umbral β, se crea un grupo que contiene solamente al nuevo documento. En caso contrario, el nuevo documento se asigna al grupo más semejante.
  • 28. Capítulo1. Fundamentos Teóricos 21 Este algoritmo se puede describir por los siguientes pasos: Algoritmo: SinglePass Entrada: C Colección de documentos a agrupar β Umbral mínimo de semejanza Salida: G Conjunto de grupos Método: 1- Inicialización: G 2- Para cada documento di C: 2.1- MS (grupos semejantes a di) 2.2- Para cada grupo gj G: 2.2.1- Calcular la semejanza entre di y el representante de gj 2.2.2- Si dicha semejanza es mayor que β, entonces: MS = MS {gj} 2.3- Si MS ≠ , colocar di en el gj MS cuyo representante fue el más semejante a di: gj = gj {di} Si no, formar un nuevo grupo con di: gk = {di} 2.4- G = G {gk} Una variante de este algoritmo consiste en agregar el nuevo documento a todos los grupos con cuyos representantes posee una semejanza mayor que el umbral. Obteniendo grupos solapados en vez de disjuntos. Este algoritmo presenta como principal ventaja el ser muy rápido, pues posee una complejidad lineal (O(n)) con respecto al número de documentos. Sus principales limitaciones son: la dependencia de los grupos del orden de presentación de los documentos, la asignación de los documentos a los grupos es irrevocable y se restringe la forma de los grupos a esféricas o elipsoidales.
  • 29. Capítulo1. Fundamentos Teóricos 22 1.4.2 Algoritmos basados en grafos Los algoritmos de agrupamiento basados en grafos, construyen un cubrimiento de un subgrafo del grafo de semejanzas. Estos algoritmos permiten trabajar con documentos descritos por variables cuantitativas y cualitativas mezcladas, incluso con ausencia de información y no imponen restricciones a la función de semejanza entre documentos. Se llama grafo de semejanzas al grafo completo donde los vértices son los documentos a agrupar y las aristas se etiquetan con las semejanzas entre los documentos. Dos documentos cuya semejanza es mayor o igual que un cierto umbral β (definido por el usuario) se denominan β-semejantes [Shulcloper, 2002]. Si un documento no es β-semejante con ningún otro documento se denomina β-aislado. Muchos algoritmos de agrupamiento de este tipo se basan en la construcción del grafo de β-semejanza (fig. 1.4(a)). Este grafo es un subgrafo del grafo de semejanzas donde se eliminan las aristas con peso menor que β, es decir, sólo están conectados los documentos β-semejantes. Del grafo de semejanzas se puede obtener además el grafo de máxima β-semejanza (fig. 1.4(b)), el cual es un grafo orientado donde los vértices son los documentos a agrupar y existe un arco del vértice di al vértice dj si se cumple que dj es el documento más semejante a di y dicha semejanza supera el umbral β (dj es el más β-semejante a di). Denotaremos como max-S (fig. 1.4(c)) al grafo que se obtiene del grafo de máxima β-semejanza ignorando la orientación de sus arcos. (a) Grafo de β-semejanza, (b) Grafo de máxima (c) Grafo max-S. donde β = 0,4. β-semejanza. Figura 1.4: Grafos basados en la β-semejanza.
  • 30. Capítulo1. Fundamentos Teóricos 23 1.4.2.1 Algoritmo GLC Dentro de los algoritmos de agrupamientos basados en grafos el GLC [Shulcloper, 2002] se destaca por su simplicidad conceptual. Este algoritmo obtiene de forma incremental las componentes conexas del grafo de β-semejanza. Cada vez que llega un nuevo documento, se compara con los documentos de los grupos existentes. Si el nuevo documento no es β- semejante con ningún documento de los grupos existentes, se crea un nuevo grupo unitario con ese documento. En caso contrario, todos los grupos para los cuales existe al menos un documento β-semejante con el nuevo documento se unen y forman un nuevo grupo al que se agrega también el nuevo documento. El algoritmo GLC está conformado por los siguientes pasos: Algoritmo: GLC Entrada: C Colección de documentos a agrupar β Umbral mínimo de semejanza Salida: G Conjunto de grupos Método: 1- Inicialización: G 2- Para cada documento di C: 2.1- L (lista de grupos a unir) 2.2- Para cada grupo gk G: 2.2.1- Para cada documento dj gk: 2.2.1.1- Calcular la semejanza entre di y el dj. 2.2.1.2- Si dicha semejanza es mayor que β, entonces: L = L {gk}, ir a 2.2 2.3- Si L ≠ , unir todos los grupos que están en L en un grupo y agregar di a él Sino, formar un nuevo grupo con di: gk = {di} 2.4- G = G {gk}
  • 31. Capítulo1. Fundamentos Teóricos 24 Este algoritmo tiene una complejidad temporal, en el peor de los casos, de O(n2 ), pues para cada nuevo documento hay que calcular su semejanza con los restantes. No obstante, es bueno destacar que en este algoritmo, en muchos casos, no se requiere comparar al nuevo documento con todos los documentos de los grupos existentes. Esto es debido a que en cuanto se encuentra en un grupo con un documento β-semejante al nuevo, no se necesita comparar con los restantes documentos de dicho grupo, por lo que, en el mejor de los casos, su complejidad es O(n). El algoritmo GLC es independiente del orden de presentación de los documentos y no impone restricciones a la forma de los grupos obtenidos. Su mayor limitación es que las componentes conexas sobre el grafo de β-semejanza presentan un elevado efecto de encadenamiento, por lo que pueden obtenerse grupos de documentos poco cohesionados, esto es, grupos con formas “alargadas" que incluyan documentos poco semejantes. 1.4.2.2 Algoritmo Compacto Incremental El algoritmo de agrupamiento Compacto Incremental [Pons, 2002] obtiene de forma incremental los conjuntos compactos de una colección de documentos. Los conjuntos compactos coinciden con las componentes conexas del grafo max-S. Este algoritmo almacena para cada documento su máxima β-semejanza (MaxSem), los documentos que son los más β- semejantes a él (AEl) y los documentos de los que él es su más β-semejante (DeEl). Cada vez que se presenta un nuevo documento, se calcula su semejanza con los documentos de los grupos existentes y se actualiza el grafo. La llegada del nuevo documento puede provocar cambios en el agrupamiento, pues algunos de los conjuntos compactos existentes pierden esta propiedad y surgen otros nuevos. Por tanto, al finalizar la actualización del grafo de máxima β-semejanza, se reconstruyen los conjuntos compactos a partir del nuevo documento y de los documentos que pertenecen a los grupos que pueden perder la propiedad de ser compacto. Los conjuntos compactos que no tienen documentos conectados con el nuevo documento no se modifican. Durante la actualización del grafo max-S, el algoritmo construye los siguientes conjuntos: GruposAProcesar: Un grupo pertenece a este conjunto si tiene algún documento d’ que cumple las condiciones siguientes: (i) El nuevo documento es el más β-semejante a d’ y los documentos existentes que eran sus más β-semejantes dejan de serlo.
  • 32. Capítulo1. Fundamentos Teóricos 25 (ii) d´ tenía al menos dos documentos que eran sus más β-semejantes o d´ es el más β- semejante a uno o más documento de ese grupo. A este conjunto pertenecen los grupos que potencialmente pueden dejar de ser compactos cuando se eliminan de ellos los documentos d´ que cumplen las condiciones anteriores y, por lo tanto, deben ser reconstruidos. DocumentosAUnir: Un documento d´ pertenece a este conjunto si cumple las condiciones siguientes: (i) El nuevo documento es el más β-semejante a d´ y el único documento más β-semejante a d´ deja de serlo. (ii) d´ no es el más β-semejante a ningún documento de su grupo. Los elementos incorporados al conjunto DocumentosAUnir pertenecerán al mismo grupo que el nuevo documento. GruposAUnir: Un grupo pertenece a este conjunto si no pertenece a GruposAProcesar y tiene al menos un documento d´ que cumple una de las condiciones siguientes: (i) d´ es el más β-semejante al nuevo documento. (ii) El nuevo documento se incorpora al conjunto de documentos más β-semejantes a d´, es decir, el nuevo documento está conectado con d´ y no se rompe ningún arco de d´ en el grafo de máxima β-semejanza. Todos los documentos que pertenecen a los grupos del conjunto GruposAUnir formarán parte del mismo grupo que el nuevo documento. El algoritmo Compacto Incremental se puede describir entonces como: Algoritmo: Compacto Incremental Entrada: C Colección de documentos a agrupar β Umbral mínimo de semejanza Salida: G Conjunto de grupos Método: 1- Inicialización: G 2- Para cada documento di C: 2.1- Actualización del grafo de máxima β-semejanza
  • 33. Capítulo1. Fundamentos Teóricos 26 2.1.1- Calcular la semejanza con cada documento existente 2.1.2- Calcular MaxSem(di), AEl(di), DeEl(di) y actualizarlos en los documentos que se modifican 2.1.3- Crear los conjuntos GruposAProcesar, GruposAUnir y DocumentosAUnir. Cada vez que se incorpora un documento a DocumentosAUnir se elimina del grupo al que pertenecía 2.2- Reconstrucción de los conjuntos compactos 2.2.1- Sea C el conjunto formado por el nuevo documento y todos los documentos que pertenecen a los grupos de GruposAProcesar 2.2.2- Formar los conjuntos compactos existentes entre los documentos de C y añadirlos a la lista de grupos existentes 2.2.3- Añadir al conjunto compacto al que pertenece el nuevo documento, todos los documentos de DocumentosAUnir y todos los que pertenecen a los grupos de GruposAUnir 2.2.4- Eliminar los grupos de GruposAProcesar y de GruposAUnir de la lista de grupos existentes Este algoritmo tiene una complejidad temporal, en el peor de los casos, de O(n2 ), pues para cada nuevo documento hay que calcular su semejanza con los restantes. Los grupos que descubre este algoritmo poseen formas arbitrarias y el agrupamiento obtenido no depende del orden de presentación de los documentos y es poco sensible al parámetro de entrada β. Además, los grupos formados son disjuntos y más cohesionados y pequeños que los formados por las componentes conexas basadas solamente en la β-semejanza, lo cual reduce considerablemente el efecto de encadenamiento. 1.4.2.3 Algoritmo Estrellas Grado El algoritmo Estrellas Grado [Gil, 2008] trata de obtener de forma incremental el conjunto dominante mínimo del grafo de β-semejanzas. El cual es el menor subconjunto de vértices del grafo, tal que, todos los vértices del grafo están en él o tienen al menos un vecino. A los elementos del conjunto dominante mínimo se les denomina estrellas y a sus vecinos satélites. Obtener el conjunto dominante mínimo es un problema NP-duro. Por tanto, el algoritmo
  • 34. Capítulo1. Fundamentos Teóricos 27 utiliza una estrategia voraz (greedy) para construir un cubrimiento del grafo de β-semejanza mediante subgrafos en forma de estrella. La estrategia utilizada para encontrar el conjunto dominante mínimo consiste en seleccionar los vértices que cubren al mayor número de vértices que no han sido cubiertos previamente. Un grafo en forma de estrella de k + 1 vértices consiste en una estrella, que formará parte del conjunto dominante, y k satélites. Cada subgrafo en forma de estrella del grafo de β-semejanza forma un grupo (fig. 1.5). Los documentos de mayor conectividad en el grafo son estrellas. Los documentos aislados también son estrellas. Figura 1.5: Subgrafos con forma de estrella, donde A, B, C (estrellas) son vértices que pertenecen al conjunto dominante encontrado y el resto de los vértices son satélites. El algoritmo Estrellas Grado se puede describir por los pasos: Algoritmo: Estrellas Grado Entrada: C Colección de documentos a agrupar β Umbral mínimo de semejanza Salida: G Conjunto de grupos Método: 1- Inicialización: G , Q (Cola de documentos a ser analizados) 2- Para cada documento di C: 2.1- Actualizar el grafo de β-semejanza, sea NA el conjunto de las nuevas aristas 2.2- Q = Q {di} 2.3- Agregar a Q todas las vértices s tal que v, v’, (v, v’) NA y v sea vecino de s. Agregar a Q todos los vecinos de s y si s es una estrella marcarla como satélite
  • 35. Capítulo1. Fundamentos Teóricos 28 2.4- Mientras Q ≠ : 2.4.1- Extraigo de Q el vértice v de mayor grado 2.4.2- Si v es satélite y no tiene ninguna estrella vecina de grado mayor, hacer: 2.4.2.1- Marcar a v como estrella 2.4.2.2- Si v tiene estrellas vecinas de menor grado, marcarlas como satélites y poner en Q todos los vecinos de dichas estrellas Este algoritmo garantiza una semejanza de al menos β entre la estrella y todos los documentos del grupo (sus satélites), pero el valor de semejanza no se garantiza entre los satélites. La complejidad temporal de este algoritmo es O(n2 ), pues hay que calcular la semejanza entre todos los documentos. Los grupos obtenidos son solapados, pues un documento puede ser satélite de más de una estrellas y dos estrellas ser vecinas. Los grupos obtenidos no dependen del orden de presentación de los documentos. Además, este algoritmo no presenta el efecto de encadenamiento. 1.5 Filtrado Adaptativo de Documento Un Sistema de Filtrado de Documentos monitorea un flujo de información textual con el objetivo de encontrar aquellos documentos que satisfacen las necesidades de información de un usuario. Estos sistemas, por cada nuevo documento deben determinar si entregan o no el documento al usuario en función de cuánto empareja la información del documento con la necesidad de información expresada por el usuario. Los sistemas de Filtrado Adaptativo de Documentos son sistemas de filtrado capaces de actualizar su conocimiento sobre la necesidad de información del usuario. Para ello, se basan en la retroalimentación explícita o implícita del mismo. Esta retroalimentación provee al sistema de muestras que le permiten ajustar el perfil del usuario (representación de la necesidad informacional expresada por el usuario), facilitando así el aprendizaje en línea. En un entorno real, inicialmente el conocimiento que se tiene de la necesidad de información del usuario es muy escaso, por tal razón, se espera que los sistemas de Filtrado Adaptativo de Documentos sean capaces de comenzar su tarea de clasificación con muy pocas muestras de entrenamiento. Esto hace que la tarea sea particularmente difícil, debido a que los algoritmos
  • 36. Capítulo1. Fundamentos Teóricos 29 tradicionales de aprendizaje requieren de un número considerable de muestras para la construcción del clasificador. 1.5.1 Esquema General de un Sistema de Filtrado Adaptativo de Documentos En la siguiente imagen se puede apreciar el esquema general de un sistema de Filtrado Adaptativo de Documentos, aunque en la misma sólo se muestra un solo usuario con el fin de facilitar su comprensión, estos sistema pueden manipular las necesidades de varios usuarios simultáneamente. Figura 1.6: Esquema general de un sistema de Filtrado Adaptativo de Documentos. Cuando un usuario tiene una nueva necesidad de información debe brindar al sistema algunos documentos de ejemplos que aborden la temática de su interés. Con estos documentos el sistema crea un nuevo perfil para comenzar a dar atención a esta solicitud. A medida que van arribando nuevos documentos, el sistema analiza cada uno de ellos y brinda al usuario aquellos documentos para los cuales determinó que su contenido concuerda con la información almacenada en el perfil. Es importante destacar que el usuario tiene acceso sólo a los documentos que el sistema recupera como relevantes para el perfil. El usuario debe leer los documentos brindados y retroalimentar al sistema de forma explícita identificando cuáles de los documentos recuperados realmente se ajustan a su necesidad de información y cuáles no. En una aplicación real, el sistema puede aprovechar determinadas acciones del usuario, como puede ser borrar un documento sin leerlo o salvarlo a disco, para utilizarla como
  • 37. Capítulo1. Fundamentos Teóricos 30 retroalimentación implícita. El sistema con esta retroalimentación se mantiene actualizando el perfil de forma constante. La retroalimentación permite al sistema actualizar de forma constante el perfil y de esta manera obtener nuevas muestras de entrenamiento para el aprendizaje en línea. Estos sistemas deben ser capaces de aprovechar al máximo la retroalimentación brindada, con vistas a obtener un perfil que realmente se ajuste a los intereses de información del usuario, evitando abrumarlo con información irrelevante y “falsas alarmas”. 1.5.2 Estructura de un Sistema de Filtrado Adaptativo de Documentos Varios enfoques relacionados con el Filtrado Adaptativo han sido reportados en la literatura. Estos enfoques se dividen en dos grandes grupos, los que afrontan el problema como una tarea de Recuperación de Información más actualización de umbral y los que lo afrontan como una tarea de Categorización de Textos. Entre los sistemas desarrollados para el Filtrado Adaptativo de Documentos podemos destacar el sistema del Consorcio KerMIT [Cancedda, 2003], el sistema de la Academia de Ciencias de China [Xu, 2002], LR Rocchio [Zhang, 2004], CLARIT [Zhai, 1998], entre otros. Se considera que las componentes principales de un Sistema de Filtrado Adaptativo de Documentos son las siguientes [Fonseca, 2008]: Un modelo de representación de los documentos. Un modelo de representación del perfil. Un algoritmo de clasificación. Un método de actualización del perfil. El modelo vectorial [Salton, 1989] ha sido uno de los modelos de representación de documentos más empleados en la tarea del filtrado adaptativo. Una representación alternativa que ha ido alcanzando un gran auge es la basada en los modelos de lenguaje. Un modelo de lenguaje M permite estimar la probabilidad de observar o generar una frase s con dicho modelo. La mayoría de los Sistemas de Filtrado Adaptativo de Documentos representan el perfil por medio de un vector, el cual se construye a partir de las muestras de entrenamiento suministradas al sistema. La construcción de este vector, en muchos casos, se realiza utilizando centroides, asumiendo que los documentos se encuentran homogéneamente distribuidos a su alrededor. Otros sistemas representan el perfil por medio de un conjunto de
  • 38. Capítulo1. Fundamentos Teóricos 31 documentos. Esta representación les permite poder aprender la distribución de los documentos que forman el perfil. Por último, los sistemas que utilizan modelos de lenguaje representan el perfil por medio de dos modelos, uno construido a partir de las muestras relevantes y otro construido a partir de las muestras no relevantes. Varios algoritmos de clasificación han sido utilizados en los sistemas de Filtrado Adaptativo de Documentos para determinar cuándo entregar o no un documento al usuario. Entre los más utilizados encontramos el algoritmo de Rocchio [Allan, 1996], el algoritmo de Winnow [Littlestone, 1988], las máquinas de vectores soporte (SVM - Support Vector Machines) [Vapnik, 1995] y el clasificador k-NN [Fix, 1951]. Los métodos de actualización del perfil constituyen un elemento fundamental en los Sistemas de Filtrado Adaptativo de Documentos. Estos métodos permiten al sistema ajustarse mejor a las necesidades de información del usuario y con ello poder aumentar su efectividad. De forma general, este proceso incluye un conjunto de tareas entre las que se encuentran la actualización de la representación de los documentos que pertenecen al perfil, la actualización de estructuras internas del sistema, el ajuste de los umbrales y parámetros que utiliza el algoritmo, entrenar nuevamente el clasificador utilizado, entre otras. No en todos los casos se realizan todas estas tareas. En dependencia del tipo de representación del perfil utilizada y del clasificador empleado en el sistema serán los pasos que debe seguir el algoritmo para realizar la actualización del perfil de usuario. 1.5.3 Algoritmo de Filtrado Adaptativo de Documentos El algoritmo propuesto en [Fonseca, 2008] pertenece al grupo de enfoques que afrontan el problema del filtrado adaptativo como una tarea de Categorización de Textos. Este algoritmo enfrenta el problema de la distribución irregular de los documentos representando el perfil por medio de un conjunto de documentos. De esta forma el algoritmo es capaz de aprender la distribución de los documentos en el perfil. El conjunto de documentos que conforman cada perfil está dividido en dos clases: Relevantes y No Relevantes. Estas clases se construyen empleando los documentos de muestras iniciales y aquellos con los cuales el usuario retroalimenta al sistema. Para representar los documentos se utiliza el modelo vectorial y el peso de un término t en un documento d se calcula mediante la expresión: w(t, d) = 1 log ,
  • 39. Capítulo1. Fundamentos Teóricos 32 donde TF(t, d) representa la frecuencia del término t en el documento d, dfR (ti) y dfNR(ti) representan la cantidad de documentos relevantes y no relevantes respectivamente que contienen al menos una vez al término ti. NR y NNR representan el total de documentos relevantes y no relevantes respectivamente en el perfil. Este algoritmo utiliza un clasificador basado en vecindad. Para calcular la vecindad es empleada la regla αβ-NN. El cálculo del voto y la regla de decisión están dados por las expresiones 1.1 del epígrafe 1.2.2 y 1.6 del epígrafe 1.2.3 respectivamente. Cada vez que llega un nuevo documento se clasifica utilizando como conjunto de entrenamiento los documentos de las clases Relevantes y No Relevantes que representan al perfil. Si el clasificador asigna el documento a la clase Relevante, este es entregado al usuario. Este proceso se realiza para cada perfil presente en el sistema. El perfil se actualiza cada vez que el usuario brinda retroalimentación al sistema indicando cuándo un documento recuperado es realmente relevante o no. Durante el proceso de actualización se adiciona el documento a la clase correspondiente, Relevante o No Relevante, y se calcula el peso de los términos en los documentos. De forma general, el proceso de filtrado según el método propuesto en [Fonseca, 2008] se puede expresar por el siguiente algoritmo: I. Construcción de los perfiles iniciales P Por cada perfil P: i. Construir la clase Relevante con los documentos asignados por el usuario La clase No Relevante estará inicialmente vacía ii. Calcular el peso de cada término de los documentos presentes en el perfil II. Proceso de clasificación. Por cada documento d que arriba: Por cada perfil P: i. Para cada término t d calcular su peso ii. Construir la vecindad αβ iii. Calcular el voto de cada clase (Relevante y No Relevante) iv. Si al aplicar la regla de decisión se asigna d a la clase Relevante, entregar d al usuario III. Actualización de los perfiles P Para cada perfil P en el que se tiene retroalimentación del documento d:
  • 40. Capítulo1. Fundamentos Teóricos 33 i. Asignar d a la clase correspondiente ii. Actualizar el peso de los términos de todos los documentos del perfil Este algoritmo considera que la representación de los documentos en un perfil no debe suponer una distribución homogénea de los mismos y que la clasificación de un nuevo documento solo está determinada por los documentos del perfil suficientemente cercanos a él. Además, que el peso de un término está influenciado por su frecuencia en el documento al que pertenece, pero también por su frecuencia entre los documentos de las clases Relevante y No Relevante.
  • 41. 34 Capítulo 2 Empleo de Algoritmos de Agrupamiento como métodos de condensado Los clasificadores basados en vecindad han sido extensamente empleados en las tareas de Minería de Textos gracias a su relativa simplicidad de implementación y los buenos resultados que obtienen durante el proceso de clasificación. Uno de los aspectos singularmente negativos asociados a las distintas variantes conocidas de este tipo de clasificadores radica en la necesidad de disponer de un conjunto de entrenamiento relativamente grande con el fin de obtener buenos resultados. Esto conlleva a que el cálculo de la vecindad sea computacionalmente costoso, lo que podría imposibilitar su aplicación en determinados problemas reales donde es necesaria una respuesta rápida por parte del clasificador. Con el objetivo de acelerar el cálculo de los vecinos más cercanos se han desarrollado una amplia variedad de técnicas, entre ellas, los métodos de condensado. Estos permiten reducir la talla del conjunto de entrenamiento sin que se produzca un incremento significativo del error de clasificación. Los métodos de condensado eliminan la redundancia de información, presente en el conjunto de entrenamiento original, construyendo un nuevo conjunto de entrenamiento (conjunto condensado) donde sólo estén aquellos prototipos que aporten información relevante al clasificador. (a) Conjunto de entrenamiento inicial (b) Conjunto condensado Figura 2.1: Al aplicar un método de condensado sobre (a) se eliminan todos los documentos del interior de las clases, obteniéndose un nuevo conjunto (b) donde sólo estén los documentos cercanos a la frontera de decisión. Las líneas discontinuas representan la frontera de decisión.
  • 42. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 35 La mayoría de los algoritmos de condensado tratan de mantener en el conjunto de entrenamiento sólo aquellos documentos que son muy cercanos a las fronteras de decisión, como se muestra en la fig. 2.1. Se basan en el hecho de que para clasificar correctamente un nuevo documento sólo es necesario tener bien definidas las fronteras de decisión entre las distintas clases o categorías. Estos algoritmos de condensado son sensibles al ruido. La presencia de documentos ruidosos provoca que las fronteras de decisión obtenidas estén alejadas de las reales y sean muy irregulares, afectando la reducción del conjunto de entrenamiento y el posterior desempeño de los clasificadores. En la fig. 2.2 (b) se muestra el conjunto obtenido al aplicar un método de condensado sobre un conjunto de entrenamiento con documentos ruidosos (fig. 2.2(a)). (a) Conjunto de entrenamiento (b) Conjunto condensado Figura 2.2: Sensibilidad al ruido de los métodos de condensado. Las líneas discontinuas representan la frontera de decisión real y las líneas continuas las obtenidas por el algoritmo. Algunos algoritmos tratan de evitar la presencia de ruido empleando técnicas de edición antes de condensar el conjunto de entrenamiento. Los algoritmos de edición intentan eliminar del conjunto de entrenamiento aquellos prototipos erróneamente etiquetados y, al mismo tiempo, limpiar los posibles solapamientos entre regiones de clases distintas [Vázquez, 2008]. Pero esto a su vez impide su aplicación en colecciones de documento que presentan un alto grado de solapamiento entre las clases. Los métodos de condensado son incapaces de eliminar el desbalance entre las clases (presencia de un número mucho mayor de documentos en unas clases que en otras), tal como se muestra en la fig. 2.3. Las categorías más representadas generalmente poseen un mayor número de documentos cercanos a la frontera de decisión que otras. Esto provoca que al aplicar un algoritmo de condensado, el cual obtiene un conjunto compuesto por los documentos cercanos a la frontera, se mantenga el desbalance entre las clases.
  • 43. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 36 (a) Conjunto de entrenamiento (b) Conjunto condensado Figura 2.3: En (a) una clase está representada por un número mayor de documentos que otra. Al aplicar un método de condensado sobre (a) se obtiene un conjunto (b) que mantiene el desbalance entre las clases. El desempeño de los algoritmos de condensado, al ser aplicados a colecciones de documentos, se ve afectado producto de la alta dimensionalidad propia de los documentos textuales (elevado número de rasgos o características que lo describen) y por la presencia de un gran número de clases. En estos casos las fronteras de decisión son muy complejas y resulta difícil representarlas. Por último, destacar que la gran mayoría de los métodos de condensados asumen como clasificador la regla del vecino más cercano (NN), sin considerar otras reglas basadas en vecindad. 2.1 Algoritmos de Agrupamiento como métodos de condensado Las algoritmos de condensado se han empleado con éxito en colecciones de datos estructurados. Sin embargo, no se ha estudiado con igual intensidad el comportamiento de estos algoritmos en la Minería de Textos. En las colecciones de documentos el conjunto de muestras de una clase o categoría puede estar dividido en varias subclases más específicas que responden a la temática original. Los métodos de condensado tradicionales basan su desempeño en determinar cuáles son los documentos más cercanos a las fronteras de decisión, pero no tienen en cuenta la estructura de las clases en el espacio de representación. Esto conlleva a que las categorías que estén formadas por varias zonas en el espacio no sean correctamente representadas por los documentos escogidos para conformar el nuevo conjunto de entrenamiento. Con el objetivo de considerar la estructura de las clases se propone un nuevo método de condensado. El mismo determina cada una de las subclases en que se divide una clase y elimina toda la información empleada para representar dichas zonas que resulte redundante.
  • 44. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 37 Nuestra propuesta consiste en aplicar un algoritmo de agrupamiento al conjunto de muestras de cada clase. El conjunto de entrenamiento condensado estará compuesto por los centroides de los grupos obtenidos en cada una de las clases. En este trabajo consideramos el centroide de un grupo como la media de los objetos pertenecientes al grupo. Al aplicar un algoritmo de agrupamiento sobre el conjunto de muestras de una clase este obtiene los grupos de objetos que abordan un subtema común. Por ello, al sustituir este grupo de documentos por el centroide se reduce el número de muestras y se mantiene la representatividad del subtema en la matriz de aprendizaje final. De esta forma se reduce el conjunto de entrenamiento del clasificador manteniendo la estructura interna de cada una de las clases del problema. Para resumir, los pasos de nuestra propuesta se muestran en el siguiente algoritmo: Entrada: X Conjunto de entrenamiento Salida: S Conjunto condensado Método: 1- Inicialización: S 2- Para cada clase ωi Ω (clases en que se divide X): 2.1- R = {di | di ωi} conjunto de prototipos de la clase ωi 2.2- G = Agrupamiento (R), aplicar un algoritmo de agrupamiento al conjunto R 2.3- Para cada grupo gi G: 2.3.1- ci = Centroide (gi), ci es el centroide del grupo gi 2.3.2- Etiquetar ci como prototipo de la clase ωi 2.3.3- S = S {ci} A diferencia de los métodos de condensado tradicionales; esta propuesta no asume independencia entre las clases ni basa su funcionamiento en búsqueda de documentos cercanos a la frontera de decisión, sino que reduce el conjunto de entrenamiento respetando la estructura de la clase. Esto conlleva a que pueda ser aplicada en colecciones de documentos donde existe solapamiento entre las diferentes clases del problema. Por otro lado, el empleo de algoritmos de agrupamiento provoca que la propuesta sea menos sensible a la presencia de objetos
  • 45. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 38 ruidosos en el conjunto de entrenamiento. La fig. 2.4 muestra su desempeño ante la presencia de ruido en el conjunto de entrenamiento. En la misma se puede observar que la frontera obtenida es menos irregular que la obtenida por los métodos tradicionales. (a) (b) (c) Figura 2.4: En (a) y (b) se muestran las regiones que conforman a cada una de las clases y la frontera de decisión obtenida por un algoritmo de condensado tradicional. En (c) aparece el conjunto de entrenamiento después de aplicar nuestra propuesta y la frontera de decisión obtenida. El desbalance entre las clases es un problema común en la Minería de Textos que afecta el desempeño de los clasificadores basados en vecindad. En esta propuesta, el número de muestras presentes en el conjunto reducido estará condicionado, únicamente, por el número de grupos diferentes obtenidos. Esto conlleva a que en el conjunto condensado obtenido el desbalance entre las clases sea inferior al existente en el conjunto de entrenamiento inicial como se puede apreciar en la fig. 2.5. (a) (b) Figura 2.5: Reducción del desbalance entre las clases. En (a) se muestra el conjunto de entrenamiento inicial y las subclases de cada una de las clases. En (b) se tiene el resultado de aplicar el método propuesto. En la fig. 2.5 (a) se muestra un conjunto de entrenamiento en el que existe desbalance entre sus dos categorías. Al aplicar nuestra propuesta se descubren las distintas regiones de cada
  • 46. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 39 clase y se obtienen las nuevas muestras que representarán a estas (fig. 2.5 (b)). Nótese que en la fig. 2.5 (a) la relación entre las clases era de 13 y 7, mientras que luego de aplicar la reducción la relación es de 5 y 4. 2.2 Experimentos En este epígrafe se describen los experimentos realizados con el objetivo de evaluar la efectividad del método propuesto en dos de las tareas de la Minería de Textos: la Categorización de Documentos y el Filtrado Adaptativo de Documentos. 2.2.1 Medidas de Evaluación Entre las medidas de evaluación más empleadas se encuentra la medida F1 [Rijsbergen, 1979], en ella se comparan las clases obtenidas manualmente por un experto con las obtenidas al aplicar un método de clasificación. La medida F1 combina los factores de relevancia y precisión empleados en el área de Recuperación de Información. La relevancia y la precisión se pueden definir para una clase o tópico como [Yang, 1999]: relevancia si 0. En otro caso, está indefinida. precisión si 0. En otro caso, está indefinida. Donde es el número de documentos de la clase que fueron clasificados correctamente, la cantidad que se clasificaron en la clase sin pertenecer a ella y c el número de documentos que conforman el tópico, según la clasificación manual, pero no fueron clasificados en él. La medida F1 se define entonces para una clase como: F1 2 · · ó ó La fórmula anterior indica el grado de similitud por clase entre la clasificación manual y la obtenida por el método. La calidad global se analizó tomando en cuenta las medidas: F1micro- promediada (F1-Micro) y F1macro-promediada (F1-Macro). La medida F1-Micro da el mismo peso a cada documento, por tanto, se considera un promedio por documento. Mientras que la medida F1-Macro da un peso similar a cada tópico, por lo que se considera un promedio por tópico.
  • 47. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 40 La medida F1-Micro se calcula de la siguiente forma: F1-Micro 2 · · ó ó micro-relevancia ∑ micro-precisión 1 ∑ ó1 donde Nclases corresponde a la cantidad de clases. La medida F1-Macro se calcula como la media de la medida F1 para cada clase: F1-Macro ∑ 1 Cuanto mayor sea el valor de estas medidas mejor será la calidad de la clasificación lograda por el método. 2.2.2 Categorización de Documentos En la Categorización de Documentos, la fase de aprendizaje del clasificador se realiza una sola vez antes de comenzar el proceso de clasificación. Los experimentos realizados estuvieron enfocados en comparar los algoritmos de condensado tradicionales y nuestra propuesta en cuanto a: a) los resultados obtenidos por los clasificadores basados en vecindad al emplear el conjunto de entrenamiento obtenido por el algoritmo de condensado. b) reducción del conjunto de entrenamiento. Adicionalmente, se compararon los resultados de nuestra propuesta contra los alcanzados por el clasificador con el conjunto de entrenamiento inicial. 2.2.2.1 Colecciones de Prueba Para evaluar la calidad del algoritmo propuesto se utilizaron 18 colecciones de documentos en los idiomas español e inglés, provenientes de diversas fuentes. En la tabla 2.1 se muestran las principales características de cada una de estas colecciones.
  • 48. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 41 Colección Fuente Cantidad de Docs. Dimensión Tópicos Entren. Prueba Cantidad Tamaño Prom. reu10 Reuters 5920 2313 18486 10 910 reu90 Reuters 7058 2740 32928 90 136 reu115 Reuters 7063 2740 32940 115 107 tdt TDT2 6589 3235 55112 193 58 eln TREC-4 3841 1987 84344 50 158 afp TREC-5 469 226 12575 25 32 classic CLUTO 2366 4730 41681 4 1773 hitech CLUTO 760 1530 22498 6 383 k1a CLUTO 785 1554 21839 20 117 k1b CLUTO 781 1557 21839 6 390 la12 CLUTO 2094 4184 30125 6 1046 new3 CLUTO 3181 6376 70822 44 217 ohscal CLUTO 3725 7436 11465 10 1116 re0 CLUTO 505 998 2886 13 115 re1 CLUTO 560 1096 3758 25 66 reviews CLUTO 1358 2710 36746 5 813 sports CLUTO 2863 5717 27673 7 1225 wap CLUTO 528 1031 8460 20 78 Tabla 2.1: Descripción de las colecciones de prueba. Las colecciones reu10, reu90 y reu115 [Debole, 2005] son los subconjuntos más empleados de la colección Reuters-215781 distribución 1.0. La colección Reuters-21578 está compuesta por 12902 noticias en idioma inglés clasificadas en 135 categorías relacionadas con la economía. Esta colección se divide (según la división “ModApté”) en un conjunto de entrenamiento de 9603 documentos y en un conjunto de prueba de 3299 documentos. La colección reu10 está compuesta por las 10 clases con el mayor número de documentos de entrenamiento. La reu90 contiene las 90 clases que presentan al menos un documento en el conjunto de entrenamiento y uno en el de prueba. Por último, la reu115 posee las 115 clases que tienen al menos un documento en el conjunto de entrenamiento. La colección tdt corresponde a la TDT2 versión 4.0 [NIST, 1998] que se emplea en las competencias internacionales de Detección y Seguimiento de Tópicos. Esta colección contiene 1  Disponible en http://kdd.ics.uci.edu. 
  • 49. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 42 9824 noticias en inglés divididas en 193 tópicos, publicadas en 1998 por dos agencias de noticias, dos programas de radio y dos programas de televisión. La colección eln, empleada en la TREC-4 [Robertson, 1995], está conformada por 5829 artículos en español agrupados en 50 categorías, publicados por el periódico mexicano “El Norte” en el año 1994. La colección afp proviene de la conferencia TREC-52 y contiene artículos periodísticos escritos en español, publicados por la agencia de noticias AFP entre los años 1994 y 1996, clasificados en 25 tópicos. De esta colección disponemos solamente de los 695 artículos publicados en el año 1994. El resto de las colecciones fueron seleccionadas de la herramienta CLUTO suministrada por el Dr. C. George Karypis [Karypis, 2004] y pueden ser descargadas desde su web3 . Estas colecciones presentan la característica de traer el peso de cada término de un documento, por lo que no es necesario aplicar ningún esquema de pesado para obtenerlo. En la tabla 2.1 la tercera y cuarta columnas contienen el número de documentos presentes en el conjunto de entrenamiento y en el conjunto de prueba respectivamente. La columna nombrada “Dimensión” contiene la cantidad de términos diferentes presentes en la colección. La última columna se refiere a la cantidad promedio de documentos por tópico. En las colecciones tdt, eln y afp se tomó la tercera parte de los documentos como conjunto de prueba y el resto como conjunto de entrenamiento, las clases que tenían menos de tres documentos fueron eliminadas. En la colecciones reu10, reu90 y reu115 se respetó la división “ModApté”. En las demás colecciones se tomó la tercera parte como conjunto de entrenamiento y el resto como conjunto de prueba. El dividir las colecciones de distintas formas permite obtener una mayor representatividad de los posibles casos reales. La selección de colecciones de diferentes tamaños y dimensiones nos permitió estudiar el comportamiento de nuestra propuesta y los métodos tradicionales de condensados ante colecciones de documentos con características variadas. 2.2.2.2 Descripción de los experimentos Con el objetivo de evaluar el desempeño del método propuesto se comparó este con los algoritmos CNN, RNN, MCS y MSS. Para ello, se aplicaron los métodos mencionados al 2 Text REtrieval Conference. http://trec.nist.gov.  3 http://glaros.dtc.umn.edu/gkhome/fetch/sw/cluto/datasets.tar.gz
  • 50. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 43 conjunto de entrenamiento de cada colección y el conjunto condensado obtenido se empleó para clasificar los documentos de prueba. En los experimentos se emplearon los clasificadores k-NN y αβ-NN. En ellos, el voto fue calculado por la expresión 1.3 del epígrafe 1.2.2 y la regla de decisión por la expresión 1.6 del epígrafe 1.2.3. Los algoritmos de agrupamiento empleados en nuestro método, para descubrir los grupos por clase, fueron: GLC, Compacto Incremental, Estrellas Grado y SinglePass (con solapamiento). De esta forma se pudo evaluar el comportamiento de la propuesta al utilizar distintos esquemas de agrupamiento. Para representar los documentos se utilizó el conocido modelo vectorial. En algunas colecciones los términos ya poseían un peso determinado, en el resto, se empleó para calcular el peso de cada término el esquema TF con la normalización del coseno. La semejanza entre dos documentos se calculó con la medida del coseno. Se asignó diferentes valores a los parámetros de cada algoritmo para que los resultados experimentales reflejaran su mejor desempeño. En el clasificador k-NN al parámetro k se le asignaron los valores 1, 3, 5, 7, 9, 11, 13 y 15. En la regla αβ-NN los valores de α fueron 0.02, 0.05, 0.07, 0.1, 0.15, 0.2, 0.25 y 0.3 y el valor de β se fijó en 0.1, pues su función es sólo garantizar que los documentos muy lejanos no influyan en la clasificación. Al umbral μ utilizado por la regla de decisión se le asignaron los valores 0.15, 0.2, 0.25, 0.3 y 0.35. El valor del parámetro β en los algoritmos de agrupamiento se tomó igual a 0.25. Luego, para cada algoritmo, se escogió la combinación de parámetros que permitió obtener los mejores resultados. Para estimar la calidad de la clasificación se emplearon las medidas F1-Micro y F1-Macro. La eficacia de los métodos de condensado en cuanto a compresión del conjunto de entrenamiento se determinó por el porciento de reducción del mismo. El cual se calcula como la razón entre el número de muestras eliminadas y el total original. 2.2.2.3 Resultados experimentales En este subepígrafe se describen los resultados obtenidos en los experimentos. Primero se mostrarán las tablas que contienen los resultados de la clasificación y luego los porcientos de reducción logrados por cada método de condensado en las distintas colecciones. En las tablas, la columna “Sin Cond.” hace referencia a la clasificación lograda sin modificarse el conjunto de entrenamiento. El resto de las columnas, con nombre de algoritmo, muestran la clasificación conseguida cuando los conjuntos de entrenamiento son condensados por el método correspondiente. En el caso de las columnas que hacen referencia a los
  • 51. Capítulo2. Empleo de Algoritmos de Agrupamiento como métodos de condensado 44 algoritmos de agrupamiento, corresponde a usar estos dentro de nuestra propuesta. La fila “Prom.” se refiere al promedio de los resultados obtenidos por los algoritmos en cada colección. El mejor resultado en cada colección es resaltado en negrita (considerando solamente los métodos de condensado). En las tablas 2.2 y 2.3 se muestran los valores de F1-Micro y F1-Macro respectivamente, alcanzados por el clasificador k-NN con los diferentes conjuntos de entrenamiento. Colecc. Sin Cond. Estrella Compacto GLC SinglePass CNN RNN MCS MSS reu10 0.82 0.83 0.8 0.65 0.83 0.81 0.81 0.77 0.8 reu90 0.46 0.44 0.4 0.32 0.45 0.45 0.45 0.44 0.45 re115 0.45 0.42 0.4 0.31 0.44 0.46 0.44 0.43 0.45 tdt 0.82 0.78 0.77 0.75 0.81 0.78 0.77 0.76 0.78 eln 0.6 0.58 0.55 0.35 0.59 0.57 0.57 0.55 0.58 afp 0.79 0.79 0.8 0.78 0.77 0.72 0.74 0.73 0.77 classic 0.93 0.91 0.9 0.66 0.93 0.9 0.88 0.89 0.92 hitech 0.67 0.67 0.68 0.57 0.68 0.64 0.64 0.64 0.67 k1a 0.64 0.65 0.64 0.58 0.64 0.61 0.61 0.61 0.64 k1b 0.87 0.82 0.89 0.72 0.87 0.85 0.84 0.86 0.84 la12 0.77 0.75 0.8 0.64 0.78 0.78 0.76 0.76 0.75 new3 0.78 0.75 0.76 0.56 0.78 0.76 0.75 0.75 0.77 ohscal 0.65 0.64 0.63 0.49 0.65 0.63 0.61 0.63 0.64 re0 0.71 0.67 0.66 0.59 0.68 0.67 0.67 0.68 0.71 re1 0.65 0.65 0.67 0.55 0.67 0.64 0.65 0.63 0.64 reviews 0.89 0.89 0.91 0.78 0.9 0.88 0.87 0.88 0.86 sports 0.94 0.94 0.93 0.73 0.93 0.91 0.89 0.91 0.93 wap 0.63 0.64 0.63 0.59 0.64 0.62 0.6 0.62 0.63 Prom. 0.726 0.712 0.712 0.59 0.724 0.704 0.696 0.697 0.712 Tabla 2.2: Valores de la medida F1-Micro obtenidos con el clasificador k-NN. Según los datos reflejados en la tabla 2.2, al emplear el algoritmo SinglePass en nuestra propuesta se obtiene en 10 colecciones mejores resultados en la clasificación que los logrados por el resto de los métodos de condensados. Además, supera en 5 colecciones los valores alcanzados sin reducir el conjunto de entrenamiento. Por su parte, los algoritmos Compacto y Estrella muestran un desempeño equivalente, superando en 6 y 4 colecciones respectivamente