Tecnicas de busqueda por similitud de patrones

Técnicas de Búsqueda por similitud
Universidad Nacional de Trujillo
Ingenier´ıa informática
Orlando Salazar Campos
Daniel Cam Urquizo
danielcam3@hotmail.com
Palabras claves
distancia, mala palabra, búsqueda, similitud, técnica, dimensión, operaciones
1 Concepto
Proporcionar soporte de indexación para búsquedas
similitud es un área importante donde aún queda mu-
cho trabajo por hacer. Algunas de las l´ıneas de inves-
tigación más prometedores se encuentran en el desar-
rollo de técnicas para identificar las caracter´ısticas
importantes en las aplicaciones de manera que la
dimensión del dominio del problema puede ser re-
ducido. Una alternativa es encontrar una inmersión
de la función de distancia en un espacio vectorial lo
que nos permite utilizar adecuadamente la amplia
gama de indexación existentes y las técnicas de ve-
cinos más cercanos.
2 Técnicas de búsqueda
2.1 Técnica Dimension de Palabras
malas
Una solución aparentemente sencilla de encontrar
el vecino más cercano es calcular un diagrama de
Voronoi para los puntos de datos ( una partición
del espacio en regiones en las que todas puntos de
la región están más cerca de los datos asociados de
la región punto que a cualquier otro punto de datos
) y, a continuación, busque la región de Voronoi cor-
respondiente al punto de consulta. Crece de forma
exponencial con su dimensión k de modo que para N
puntos, el tiempo para construir y los requisitos de
espacio puede crecer tan rápidamente como θ(Nk/2).
Esto hace que su discutible la aplicabilidad.
Lo anterior es t´ıpico de los problemas que debemos
enfrentar cuando se trata de datos de grandes dimen-
siones. En términos generales, las consultas multidi-
mensionales se vuelven cada vez más dif´ıcil a medida
que aumenta dimensionalidad. El problema se carac-
teriza como la dimensionalidad de la mala palabra de
la . Este término se utiliza para indicar que el número
de muestras necesarias para estimar una función arbi-
traria con un nivel dado de precisión crece exponen-
cialmente con el número de variables (dimensiones)
que lo componen. Para la búsqueda de similitud (la
búsqueda de los vecinos más cercanos), esto significa
que el número de objetos (puntos) en el conjunto de
datos que necesitan ser examinados en la derivación
de la estimación crece exponencialmente con la di-
mensión subyacente. La dimensionalidad de la mala
palabra tiene una influencia directa en la búsqueda de
similitud en las dimensiones elevadas, ya que plantea
la cuestión de si es o no la búsqueda del vecino más
cercano es aún significativa, de tal dominio. En par-
ticular, dejando d denota una función de distancia,
que no tiene que ser necesariamente un indicador de
que los vecinos más próximos, la búsqueda no es sig-
nificativa cuando la relación de la varianza de la dis-
tancia entre dos puntos al azar p y q, dibujado partir
de los datos y la distribución de la consulta, y la es-
perada distancia entre ellos converge a cero como la
dimensión k tiende a infinito - es decir,
lim
x→0
V ariance|d(p, q)|
Expected|d(p, q)|
= 0
2.2 Indexación Multidimensional
Suponiendo que la dimensionalidad de la mala pal-
abra no entran en juego, las respuestas de consultas
se ven facilitadas por la clasificación de los objetos so-
bre la base de algunos de sus valores de caracter´ısticas
y la construcción de los ´ındices adecuados. La alta
función del espacio dimensional se indexa utilizando
una estructura de datos multidimensional ( denomi-
nado indexación multidimensional) con las modifica-
ciones apropiadas para ajustarse al entorno del prob-
lema de alta dimensión. Similitud de búsqueda que
encuentra objetos similares a un objeto de destino
se puede realizar con un rango de búsqueda o una
búsqueda del vecino más cercano en la estructura de
datos multidimensional . Sin embargo, a diferencia
de las aplicaciones de bases de datos espaciales que
la función de la distancia entre dos objetos es general-
mente euclidiana, esto no es necesariamente el caso
1

de la función de espacio de alta dimensión, donde la
función de distancia puede incluso variar de consulta
para consultar en la misma función. Buscar en es-
pacios de alta dimensión es mucho tiempo. Realizar
búsquedas por rangos de dimensiones altas es mucho
más fácil, desde el punto de vista de la complejidad
computacional, de la realización de consultas de simil-
itud como consultas de rango no implican el cálculo
de la distancia. En particular, busca a través de un
espacio indexado por lo general implican pruebas de
comparación relativamente simples. Sin embargo, si
tenemos que examinar todos los nodos de ´ındice, el
proceso es más lento. Por el contrario, la similitud
de computación en términos de búsqueda del vecino
más cercano hace uso de la distancia y el proceso
de cálculo de la distancia puede ser computacional-
mente complejo. Por ejemplo, el cálculo de la dis-
tancia euclidiana entre dos puntos en un espacio de
alta dimensión, por ejemplo d, requiere operaciones
de multiplicación y d − 1 operaciones de adición, as´ı
como una operación de ra´ız cuadrada (que puede ser
omitido). Tenga en cuenta también que la similitud
de computación requiere la definición de lo que sig-
nifica que dos objetos sean similares, que no siempre
es tan obvio.
2.3 Indexación basado en distancias
A menudo, la única información que tenemos
disponible es una función de distancia que indica el
grado de similitud ( o des - similitud ) entre todos
los pares de los N objetos. en general la función de
distancia d es necesaria para obedecer la desigualdad
triangular, ser no negativo, y ser simétrica, en cuyo
caso se conoce como una métrica y también se conoce
como una distancia métrica. Sin embargo, a veces, la
función de distancia no es un métrica. A menudo, el
grado de similitud es expresado usando una matriz de
similitud que contiene los valores de distancia entre
los objetos , para todos los pares posibles de los N
objetos. Dada una función de distancia, por lo gen-
eral el ´ındice de objetos con respecto a su distancia
de unos pocos objetos seleccionados. Utilizamos el
término de indexación basada en la distancia de de-
scribir tales métodos. Hay dos esquemas básicos de
partición: partición bola y la partición bola hiper-
plano generalizada. En partición bola, el conjunto
de datos se divide en base a distancias de un objeto
distinguido, a veces llamado un punto de vista, en el
subconjunto que está dentro y el subconjunto que está
fuera de una bola alrededor del objeto en la partición
hiperplano generalizada, dos objetos distinguidos p1
y p2 son elegida y el conjunto de datos se divide so-
bre la base de cuál de los dos objetos distinguidos
es el más cercano, es decir, todos los objetos de un
subconjunto están más cerca de p1 a p2 que, mien-
tras que los objetos en el subgrupo B están más cerca
de p2. La asimetr´ıa de la partición de bola es una
desventaja potencial de este método que el exterior
shell tiende a ser muy estrecha para espacios métricos
utilizados normalmente en la búsqueda de similitud
En contraste, la partición de hiperplano generalizada
es más simétrica , en la que ambas particiones forman
una ”bola ” alrededor de un objeto. La ventaja de
los métodos de indexación basados en la distancia es
que cálculos de distancia se utilizan para generar el
´ındice, pero una vez el ´ındice ha sido construido, las
consultas de similitud a menudo se pueden realizar
con un número significativamente menor de cálculos
de distancia de una exploración secuencial de todo el
conjunto de datos. Por supuesto, en situaciones en
las que es posible que desee aplicar varias diferentes
medidas de distancia, entonces el inconveniente de las
técnicas de indexación basados en la distancia es que
requieren que el ´ındice será reconstruido para cada
diferente distancia métrica, que puede ser no triv-
ial. Este no es el caso de los métodos de indexación
multidimensionales que tienen la ventaja de sopor-
tar distancia métrica arbitrarias ( sin embargo, esta
comparación no es del todo justo, ya que el supuesto,
cuando se utiliza basado en la distancia indexación, es
que a menudo no tenemos valores de funciones como
por ejemplo, en secuencias de ADN).
3 Conclusiones
proporcionar soporte de indexación para la búsqueda
de similitud es una área importante donde aún queda
mucho trabajo por hacer. Algunos de las l´ıneas de in-
vestigación más prometedoras se encuentran en el de-
sarrollo de técnicas para identificar las caracter´ısticas
importantes de la aplicaciones de manera que la di-
mensión del dominio del problema pueden ser re-
ducido. Una alternativa es encontrar una inmersión
para la disfunción de distancia en un espacio vec-
torial,lo que nos permite utilizar adecuadamente la
amplia gama de indexación existentes y técnicas de
vecinos más cercanos.
4 Referencia
4.1 webgraf´ıa
• Benjamin Bustos, Búsqueda por Simil-
itud de Modelos,2011. Disponible en:
urlhttp://noticias.terra.cl/tecnologia/bits-
ciencia-sociedad/blog/2012/05/22/busqueda-
por-similitud-de-modelos-3d/
• Pavel Zezula, Similarity Search - The Met-
ric Space Approach, 2012. Disponible en:
urlhttp://www.nmis.isti.cnr.it/amato/similarity-
search-book/
2

Tecnicas de busqueda por similitud de patrones

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (15)

Similar a Tecnicas de busqueda por similitud de patrones

Similar a Tecnicas de busqueda por similitud de patrones (20)

Más de Daniel Cam Urquizo

Más de Daniel Cam Urquizo (11)

Último

Último (6)

Tecnicas de busqueda por similitud de patrones