1. T´ecnicas de B´usqueda por similitud
Universidad Nacional de Trujillo
Ingenier´ıa inform´atica
Orlando Salazar Campos
Daniel Cam Urquizo
danielcam3@hotmail.com
Palabras claves
distancia, mala palabra, b´usqueda, similitud, t´ecnica, dimensi´on, operaciones
1 Concepto
Proporcionar soporte de indexaci´on para b´usquedas
similitud es un ´area importante donde a´un queda mu-
cho trabajo por hacer. Algunas de las l´ıneas de inves-
tigaci´on m´as prometedores se encuentran en el desar-
rollo de t´ecnicas para identificar las caracter´ısticas
importantes en las aplicaciones de manera que la
dimensi´on del dominio del problema puede ser re-
ducido. Una alternativa es encontrar una inmersi´on
de la funci´on de distancia en un espacio vectorial lo
que nos permite utilizar adecuadamente la amplia
gama de indexaci´on existentes y las t´ecnicas de ve-
cinos m´as cercanos.
2 T´ecnicas de b´usqueda
2.1 T´ecnica Dimension de Palabras
malas
Una soluci´on aparentemente sencilla de encontrar
el vecino m´as cercano es calcular un diagrama de
Voronoi para los puntos de datos ( una partici´on
del espacio en regiones en las que todas puntos de
la regi´on est´an m´as cerca de los datos asociados de
la regi´on punto que a cualquier otro punto de datos
) y, a continuaci´on, busque la regi´on de Voronoi cor-
respondiente al punto de consulta. Crece de forma
exponencial con su dimensi´on k de modo que para N
puntos, el tiempo para construir y los requisitos de
espacio puede crecer tan r´apidamente como θ(Nk/2).
Esto hace que su discutible la aplicabilidad.
Lo anterior es t´ıpico de los problemas que debemos
enfrentar cuando se trata de datos de grandes dimen-
siones. En t´erminos generales, las consultas multidi-
mensionales se vuelven cada vez m´as dif´ıcil a medida
que aumenta dimensionalidad. El problema se carac-
teriza como la dimensionalidad de la mala palabra de
la . Este t´ermino se utiliza para indicar que el n´umero
de muestras necesarias para estimar una funci´on arbi-
traria con un nivel dado de precisi´on crece exponen-
cialmente con el n´umero de variables (dimensiones)
que lo componen. Para la b´usqueda de similitud (la
b´usqueda de los vecinos m´as cercanos), esto significa
que el n´umero de objetos (puntos) en el conjunto de
datos que necesitan ser examinados en la derivaci´on
de la estimaci´on crece exponencialmente con la di-
mensi´on subyacente. La dimensionalidad de la mala
palabra tiene una influencia directa en la b´usqueda de
similitud en las dimensiones elevadas, ya que plantea
la cuesti´on de si es o no la b´usqueda del vecino m´as
cercano es a´un significativa, de tal dominio. En par-
ticular, dejando d denota una funci´on de distancia,
que no tiene que ser necesariamente un indicador de
que los vecinos m´as pr´oximos, la b´usqueda no es sig-
nificativa cuando la relaci´on de la varianza de la dis-
tancia entre dos puntos al azar p y q, dibujado partir
de los datos y la distribuci´on de la consulta, y la es-
perada distancia entre ellos converge a cero como la
dimensi´on k tiende a infinito - es decir,
lim
x→0
V ariance|d(p, q)|
Expected|d(p, q)|
= 0
2.2 Indexaci´on Multidimensional
Suponiendo que la dimensionalidad de la mala pal-
abra no entran en juego, las respuestas de consultas
se ven facilitadas por la clasificaci´on de los objetos so-
bre la base de algunos de sus valores de caracter´ısticas
y la construcci´on de los ´ındices adecuados. La alta
funci´on del espacio dimensional se indexa utilizando
una estructura de datos multidimensional ( denomi-
nado indexaci´on multidimensional) con las modifica-
ciones apropiadas para ajustarse al entorno del prob-
lema de alta dimensi´on. Similitud de b´usqueda que
encuentra objetos similares a un objeto de destino
se puede realizar con un rango de b´usqueda o una
b´usqueda del vecino m´as cercano en la estructura de
datos multidimensional . Sin embargo, a diferencia
de las aplicaciones de bases de datos espaciales que
la funci´on de la distancia entre dos objetos es general-
mente euclidiana, esto no es necesariamente el caso
1
2. de la funci´on de espacio de alta dimensi´on, donde la
funci´on de distancia puede incluso variar de consulta
para consultar en la misma funci´on. Buscar en es-
pacios de alta dimensi´on es mucho tiempo. Realizar
b´usquedas por rangos de dimensiones altas es mucho
m´as f´acil, desde el punto de vista de la complejidad
computacional, de la realizaci´on de consultas de simil-
itud como consultas de rango no implican el c´alculo
de la distancia. En particular, busca a trav´es de un
espacio indexado por lo general implican pruebas de
comparaci´on relativamente simples. Sin embargo, si
tenemos que examinar todos los nodos de ´ındice, el
proceso es m´as lento. Por el contrario, la similitud
de computaci´on en t´erminos de b´usqueda del vecino
m´as cercano hace uso de la distancia y el proceso
de c´alculo de la distancia puede ser computacional-
mente complejo. Por ejemplo, el c´alculo de la dis-
tancia euclidiana entre dos puntos en un espacio de
alta dimensi´on, por ejemplo d, requiere operaciones
de multiplicaci´on y d − 1 operaciones de adici´on, as´ı
como una operaci´on de ra´ız cuadrada (que puede ser
omitido). Tenga en cuenta tambi´en que la similitud
de computaci´on requiere la definici´on de lo que sig-
nifica que dos objetos sean similares, que no siempre
es tan obvio.
2.3 Indexaci´on basado en distancias
A menudo, la ´unica informaci´on que tenemos
disponible es una funci´on de distancia que indica el
grado de similitud ( o des - similitud ) entre todos
los pares de los N objetos. en general la funci´on de
distancia d es necesaria para obedecer la desigualdad
triangular, ser no negativo, y ser sim´etrica, en cuyo
caso se conoce como una m´etrica y tambi´en se conoce
como una distancia m´etrica. Sin embargo, a veces, la
funci´on de distancia no es un m´etrica. A menudo, el
grado de similitud es expresado usando una matriz de
similitud que contiene los valores de distancia entre
los objetos , para todos los pares posibles de los N
objetos. Dada una funci´on de distancia, por lo gen-
eral el ´ındice de objetos con respecto a su distancia
de unos pocos objetos seleccionados. Utilizamos el
t´ermino de indexaci´on basada en la distancia de de-
scribir tales m´etodos. Hay dos esquemas b´asicos de
partici´on: partici´on bola y la partici´on bola hiper-
plano generalizada. En partici´on bola, el conjunto
de datos se divide en base a distancias de un objeto
distinguido, a veces llamado un punto de vista, en el
subconjunto que est´a dentro y el subconjunto que est´a
fuera de una bola alrededor del objeto en la partici´on
hiperplano generalizada, dos objetos distinguidos p1
y p2 son elegida y el conjunto de datos se divide so-
bre la base de cu´al de los dos objetos distinguidos
es el m´as cercano, es decir, todos los objetos de un
subconjunto est´an m´as cerca de p1 a p2 que, mien-
tras que los objetos en el subgrupo B est´an m´as cerca
de p2. La asimetr´ıa de la partici´on de bola es una
desventaja potencial de este m´etodo que el exterior
shell tiende a ser muy estrecha para espacios m´etricos
utilizados normalmente en la b´usqueda de similitud
En contraste, la partici´on de hiperplano generalizada
es m´as sim´etrica , en la que ambas particiones forman
una ”bola ” alrededor de un objeto. La ventaja de
los m´etodos de indexaci´on basados en la distancia es
que c´alculos de distancia se utilizan para generar el
´ındice, pero una vez el ´ındice ha sido construido, las
consultas de similitud a menudo se pueden realizar
con un n´umero significativamente menor de c´alculos
de distancia de una exploraci´on secuencial de todo el
conjunto de datos. Por supuesto, en situaciones en
las que es posible que desee aplicar varias diferentes
medidas de distancia, entonces el inconveniente de las
t´ecnicas de indexaci´on basados en la distancia es que
requieren que el ´ındice ser´a reconstruido para cada
diferente distancia m´etrica, que puede ser no triv-
ial. Este no es el caso de los m´etodos de indexaci´on
multidimensionales que tienen la ventaja de sopor-
tar distancia m´etrica arbitrarias ( sin embargo, esta
comparaci´on no es del todo justo, ya que el supuesto,
cuando se utiliza basado en la distancia indexaci´on, es
que a menudo no tenemos valores de funciones como
por ejemplo, en secuencias de ADN).
3 Conclusiones
proporcionar soporte de indexaci´on para la b´usqueda
de similitud es una ´area importante donde a´un queda
mucho trabajo por hacer. Algunos de las l´ıneas de in-
vestigaci´on m´as prometedoras se encuentran en el de-
sarrollo de t´ecnicas para identificar las caracter´ısticas
importantes de la aplicaciones de manera que la di-
mensi´on del dominio del problema pueden ser re-
ducido. Una alternativa es encontrar una inmersi´on
para la disfunci´on de distancia en un espacio vec-
torial,lo que nos permite utilizar adecuadamente la
amplia gama de indexaci´on existentes y t´ecnicas de
vecinos m´as cercanos.
4 Referencia
4.1 webgraf´ıa
• Benjamin Bustos, B´usqueda por Simil-
itud de Modelos,2011. Disponible en:
urlhttp://noticias.terra.cl/tecnologia/bits-
ciencia-sociedad/blog/2012/05/22/busqueda-
por-similitud-de-modelos-3d/
• Pavel Zezula, Similarity Search - The Met-
ric Space Approach, 2012. Disponible en:
urlhttp://www.nmis.isti.cnr.it/amato/similarity-
search-book/
2