SlideShare una empresa de Scribd logo
1 de 2
Descargar para leer sin conexión
T´ecnicas de B´usqueda por similitud
Universidad Nacional de Trujillo
Ingenier´ıa inform´atica
Orlando Salazar Campos
Daniel Cam Urquizo
danielcam3@hotmail.com
Palabras claves
distancia, mala palabra, b´usqueda, similitud, t´ecnica, dimensi´on, operaciones
1 Concepto
Proporcionar soporte de indexaci´on para b´usquedas
similitud es un ´area importante donde a´un queda mu-
cho trabajo por hacer. Algunas de las l´ıneas de inves-
tigaci´on m´as prometedores se encuentran en el desar-
rollo de t´ecnicas para identificar las caracter´ısticas
importantes en las aplicaciones de manera que la
dimensi´on del dominio del problema puede ser re-
ducido. Una alternativa es encontrar una inmersi´on
de la funci´on de distancia en un espacio vectorial lo
que nos permite utilizar adecuadamente la amplia
gama de indexaci´on existentes y las t´ecnicas de ve-
cinos m´as cercanos.
2 T´ecnicas de b´usqueda
2.1 T´ecnica Dimension de Palabras
malas
Una soluci´on aparentemente sencilla de encontrar
el vecino m´as cercano es calcular un diagrama de
Voronoi para los puntos de datos ( una partici´on
del espacio en regiones en las que todas puntos de
la regi´on est´an m´as cerca de los datos asociados de
la regi´on punto que a cualquier otro punto de datos
) y, a continuaci´on, busque la regi´on de Voronoi cor-
respondiente al punto de consulta. Crece de forma
exponencial con su dimensi´on k de modo que para N
puntos, el tiempo para construir y los requisitos de
espacio puede crecer tan r´apidamente como θ(Nk/2).
Esto hace que su discutible la aplicabilidad.
Lo anterior es t´ıpico de los problemas que debemos
enfrentar cuando se trata de datos de grandes dimen-
siones. En t´erminos generales, las consultas multidi-
mensionales se vuelven cada vez m´as dif´ıcil a medida
que aumenta dimensionalidad. El problema se carac-
teriza como la dimensionalidad de la mala palabra de
la . Este t´ermino se utiliza para indicar que el n´umero
de muestras necesarias para estimar una funci´on arbi-
traria con un nivel dado de precisi´on crece exponen-
cialmente con el n´umero de variables (dimensiones)
que lo componen. Para la b´usqueda de similitud (la
b´usqueda de los vecinos m´as cercanos), esto significa
que el n´umero de objetos (puntos) en el conjunto de
datos que necesitan ser examinados en la derivaci´on
de la estimaci´on crece exponencialmente con la di-
mensi´on subyacente. La dimensionalidad de la mala
palabra tiene una influencia directa en la b´usqueda de
similitud en las dimensiones elevadas, ya que plantea
la cuesti´on de si es o no la b´usqueda del vecino m´as
cercano es a´un significativa, de tal dominio. En par-
ticular, dejando d denota una funci´on de distancia,
que no tiene que ser necesariamente un indicador de
que los vecinos m´as pr´oximos, la b´usqueda no es sig-
nificativa cuando la relaci´on de la varianza de la dis-
tancia entre dos puntos al azar p y q, dibujado partir
de los datos y la distribuci´on de la consulta, y la es-
perada distancia entre ellos converge a cero como la
dimensi´on k tiende a infinito - es decir,
lim
x→0
V ariance|d(p, q)|
Expected|d(p, q)|
= 0
2.2 Indexaci´on Multidimensional
Suponiendo que la dimensionalidad de la mala pal-
abra no entran en juego, las respuestas de consultas
se ven facilitadas por la clasificaci´on de los objetos so-
bre la base de algunos de sus valores de caracter´ısticas
y la construcci´on de los ´ındices adecuados. La alta
funci´on del espacio dimensional se indexa utilizando
una estructura de datos multidimensional ( denomi-
nado indexaci´on multidimensional) con las modifica-
ciones apropiadas para ajustarse al entorno del prob-
lema de alta dimensi´on. Similitud de b´usqueda que
encuentra objetos similares a un objeto de destino
se puede realizar con un rango de b´usqueda o una
b´usqueda del vecino m´as cercano en la estructura de
datos multidimensional . Sin embargo, a diferencia
de las aplicaciones de bases de datos espaciales que
la funci´on de la distancia entre dos objetos es general-
mente euclidiana, esto no es necesariamente el caso
1
de la funci´on de espacio de alta dimensi´on, donde la
funci´on de distancia puede incluso variar de consulta
para consultar en la misma funci´on. Buscar en es-
pacios de alta dimensi´on es mucho tiempo. Realizar
b´usquedas por rangos de dimensiones altas es mucho
m´as f´acil, desde el punto de vista de la complejidad
computacional, de la realizaci´on de consultas de simil-
itud como consultas de rango no implican el c´alculo
de la distancia. En particular, busca a trav´es de un
espacio indexado por lo general implican pruebas de
comparaci´on relativamente simples. Sin embargo, si
tenemos que examinar todos los nodos de ´ındice, el
proceso es m´as lento. Por el contrario, la similitud
de computaci´on en t´erminos de b´usqueda del vecino
m´as cercano hace uso de la distancia y el proceso
de c´alculo de la distancia puede ser computacional-
mente complejo. Por ejemplo, el c´alculo de la dis-
tancia euclidiana entre dos puntos en un espacio de
alta dimensi´on, por ejemplo d, requiere operaciones
de multiplicaci´on y d − 1 operaciones de adici´on, as´ı
como una operaci´on de ra´ız cuadrada (que puede ser
omitido). Tenga en cuenta tambi´en que la similitud
de computaci´on requiere la definici´on de lo que sig-
nifica que dos objetos sean similares, que no siempre
es tan obvio.
2.3 Indexaci´on basado en distancias
A menudo, la ´unica informaci´on que tenemos
disponible es una funci´on de distancia que indica el
grado de similitud ( o des - similitud ) entre todos
los pares de los N objetos. en general la funci´on de
distancia d es necesaria para obedecer la desigualdad
triangular, ser no negativo, y ser sim´etrica, en cuyo
caso se conoce como una m´etrica y tambi´en se conoce
como una distancia m´etrica. Sin embargo, a veces, la
funci´on de distancia no es un m´etrica. A menudo, el
grado de similitud es expresado usando una matriz de
similitud que contiene los valores de distancia entre
los objetos , para todos los pares posibles de los N
objetos. Dada una funci´on de distancia, por lo gen-
eral el ´ındice de objetos con respecto a su distancia
de unos pocos objetos seleccionados. Utilizamos el
t´ermino de indexaci´on basada en la distancia de de-
scribir tales m´etodos. Hay dos esquemas b´asicos de
partici´on: partici´on bola y la partici´on bola hiper-
plano generalizada. En partici´on bola, el conjunto
de datos se divide en base a distancias de un objeto
distinguido, a veces llamado un punto de vista, en el
subconjunto que est´a dentro y el subconjunto que est´a
fuera de una bola alrededor del objeto en la partici´on
hiperplano generalizada, dos objetos distinguidos p1
y p2 son elegida y el conjunto de datos se divide so-
bre la base de cu´al de los dos objetos distinguidos
es el m´as cercano, es decir, todos los objetos de un
subconjunto est´an m´as cerca de p1 a p2 que, mien-
tras que los objetos en el subgrupo B est´an m´as cerca
de p2. La asimetr´ıa de la partici´on de bola es una
desventaja potencial de este m´etodo que el exterior
shell tiende a ser muy estrecha para espacios m´etricos
utilizados normalmente en la b´usqueda de similitud
En contraste, la partici´on de hiperplano generalizada
es m´as sim´etrica , en la que ambas particiones forman
una ”bola ” alrededor de un objeto. La ventaja de
los m´etodos de indexaci´on basados en la distancia es
que c´alculos de distancia se utilizan para generar el
´ındice, pero una vez el ´ındice ha sido construido, las
consultas de similitud a menudo se pueden realizar
con un n´umero significativamente menor de c´alculos
de distancia de una exploraci´on secuencial de todo el
conjunto de datos. Por supuesto, en situaciones en
las que es posible que desee aplicar varias diferentes
medidas de distancia, entonces el inconveniente de las
t´ecnicas de indexaci´on basados en la distancia es que
requieren que el ´ındice ser´a reconstruido para cada
diferente distancia m´etrica, que puede ser no triv-
ial. Este no es el caso de los m´etodos de indexaci´on
multidimensionales que tienen la ventaja de sopor-
tar distancia m´etrica arbitrarias ( sin embargo, esta
comparaci´on no es del todo justo, ya que el supuesto,
cuando se utiliza basado en la distancia indexaci´on, es
que a menudo no tenemos valores de funciones como
por ejemplo, en secuencias de ADN).
3 Conclusiones
proporcionar soporte de indexaci´on para la b´usqueda
de similitud es una ´area importante donde a´un queda
mucho trabajo por hacer. Algunos de las l´ıneas de in-
vestigaci´on m´as prometedoras se encuentran en el de-
sarrollo de t´ecnicas para identificar las caracter´ısticas
importantes de la aplicaciones de manera que la di-
mensi´on del dominio del problema pueden ser re-
ducido. Una alternativa es encontrar una inmersi´on
para la disfunci´on de distancia en un espacio vec-
torial,lo que nos permite utilizar adecuadamente la
amplia gama de indexaci´on existentes y t´ecnicas de
vecinos m´as cercanos.
4 Referencia
4.1 webgraf´ıa
• Benjamin Bustos, B´usqueda por Simil-
itud de Modelos,2011. Disponible en:
urlhttp://noticias.terra.cl/tecnologia/bits-
ciencia-sociedad/blog/2012/05/22/busqueda-
por-similitud-de-modelos-3d/
• Pavel Zezula, Similarity Search - The Met-
ric Space Approach, 2012. Disponible en:
urlhttp://www.nmis.isti.cnr.it/amato/similarity-
search-book/
2

Más contenido relacionado

Destacado

Seguro edificio ocaso
Seguro edificio ocasoSeguro edificio ocaso
Seguro edificio ocaso
mayclacm
 
Negocio nuevo caratula_poliza_14579146_cis_19
Negocio nuevo caratula_poliza_14579146_cis_19Negocio nuevo caratula_poliza_14579146_cis_19
Negocio nuevo caratula_poliza_14579146_cis_19
Marcela Garay
 
Formulario registro apicultores_declarac_apiarios
Formulario registro apicultores_declarac_apiariosFormulario registro apicultores_declarac_apiarios
Formulario registro apicultores_declarac_apiarios
Ruralticnova
 
Documentos para la creacion de empresa protesis y ortesis
Documentos para la creacion de empresa   protesis y ortesisDocumentos para la creacion de empresa   protesis y ortesis
Documentos para la creacion de empresa protesis y ortesis
ponceguillermo71
 
Seguro de Incendio para la Micro, Pequeña y Mediana Empresa
Seguro de Incendio para la Micro, Pequeña y Mediana EmpresaSeguro de Incendio para la Micro, Pequeña y Mediana Empresa
Seguro de Incendio para la Micro, Pequeña y Mediana Empresa
Aseguradora Rural
 
Factura mago
Factura magoFactura mago
Factura mago
Alex123is
 

Destacado (15)

8 resolución 328 2006 aprobación del plan de seguro colectivo de accidentes...
8 resolución 328 2006 aprobación del plan de seguro colectivo de accidentes...8 resolución 328 2006 aprobación del plan de seguro colectivo de accidentes...
8 resolución 328 2006 aprobación del plan de seguro colectivo de accidentes...
 
Seguro edificio ocaso
Seguro edificio ocasoSeguro edificio ocaso
Seguro edificio ocaso
 
Negocio nuevo caratula_poliza_14579146_cis_19
Negocio nuevo caratula_poliza_14579146_cis_19Negocio nuevo caratula_poliza_14579146_cis_19
Negocio nuevo caratula_poliza_14579146_cis_19
 
Formulario registro apicultores_declarac_apiarios
Formulario registro apicultores_declarac_apiariosFormulario registro apicultores_declarac_apiarios
Formulario registro apicultores_declarac_apiarios
 
Poliza assa
Poliza assaPoliza assa
Poliza assa
 
Dispositivos que se usan para detectar el olor y el sabor y su aplicacion en ...
Dispositivos que se usan para detectar el olor y el sabor y su aplicacion en ...Dispositivos que se usan para detectar el olor y el sabor y su aplicacion en ...
Dispositivos que se usan para detectar el olor y el sabor y su aplicacion en ...
 
25 resolución 1237 1999 seguro de transporte
25 resolución 1237 1999 seguro de transporte25 resolución 1237 1999 seguro de transporte
25 resolución 1237 1999 seguro de transporte
 
15 resolución 765 2012 registro del plan de seguro colectivo de vida y cánc...
15 resolución 765 2012 registro del plan de seguro colectivo de vida y cánc...15 resolución 765 2012 registro del plan de seguro colectivo de vida y cánc...
15 resolución 765 2012 registro del plan de seguro colectivo de vida y cánc...
 
Documentos para la creacion de empresa protesis y ortesis
Documentos para la creacion de empresa   protesis y ortesisDocumentos para la creacion de empresa   protesis y ortesis
Documentos para la creacion de empresa protesis y ortesis
 
10 2012 anexo
10 2012 anexo10 2012 anexo
10 2012 anexo
 
Lr ig wfe7mu
Lr ig wfe7muLr ig wfe7mu
Lr ig wfe7mu
 
Seguro de Incendio para la Micro, Pequeña y Mediana Empresa
Seguro de Incendio para la Micro, Pequeña y Mediana EmpresaSeguro de Incendio para la Micro, Pequeña y Mediana Empresa
Seguro de Incendio para la Micro, Pequeña y Mediana Empresa
 
Factura mago
Factura magoFactura mago
Factura mago
 
Segurodetransporte[1][1][1]..Cont
Segurodetransporte[1][1][1]..ContSegurodetransporte[1][1][1]..Cont
Segurodetransporte[1][1][1]..Cont
 
7 resolución 242 2000 póliza de seguro de accidentes personales
7 resolución 242 2000 póliza de seguro de accidentes personales7 resolución 242 2000 póliza de seguro de accidentes personales
7 resolución 242 2000 póliza de seguro de accidentes personales
 

Similar a Tecnicas de busqueda por similitud de patrones

Introducción al análisis geoestadístico con geostatistical analyst
Introducción al análisis geoestadístico con geostatistical analystIntroducción al análisis geoestadístico con geostatistical analyst
Introducción al análisis geoestadístico con geostatistical analyst
Alberca Ambar
 
Cómo funciona kriging—ayuda arc gis desktop
Cómo funciona kriging—ayuda   arc gis desktopCómo funciona kriging—ayuda   arc gis desktop
Cómo funciona kriging—ayuda arc gis desktop
Libélula
 
Función de la evaluación de las particiones en bases de datos distribuidas or...
Función de la evaluación de las particiones en bases de datos distribuidas or...Función de la evaluación de las particiones en bases de datos distribuidas or...
Función de la evaluación de las particiones en bases de datos distribuidas or...
Alfonso Triana
 

Similar a Tecnicas de busqueda por similitud de patrones (20)

Medidas de dispersión empleando excel
Medidas de dispersión empleando excelMedidas de dispersión empleando excel
Medidas de dispersión empleando excel
 
Presentación Medidas de dispersión
Presentación Medidas de dispersiónPresentación Medidas de dispersión
Presentación Medidas de dispersión
 
PF4 SIG AnáIisis Espacial
PF4 SIG AnáIisis EspacialPF4 SIG AnáIisis Espacial
PF4 SIG AnáIisis Espacial
 
Introducción al análisis geoestadístico con geostatistical analyst
Introducción al análisis geoestadístico con geostatistical analystIntroducción al análisis geoestadístico con geostatistical analyst
Introducción al análisis geoestadístico con geostatistical analyst
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
UTILITARIOS GEOMÉTRICOS
UTILITARIOS GEOMÉTRICOSUTILITARIOS GEOMÉTRICOS
UTILITARIOS GEOMÉTRICOS
 
CRAFT
CRAFTCRAFT
CRAFT
 
Medidas de Dispersión
Medidas de DispersiónMedidas de Dispersión
Medidas de Dispersión
 
Cómo funciona kriging—ayuda arc gis desktop
Cómo funciona kriging—ayuda   arc gis desktopCómo funciona kriging—ayuda   arc gis desktop
Cómo funciona kriging—ayuda arc gis desktop
 
UABC, MYPA, Herramientas proyectuales: Matriz y diagrama de relaciones espaci...
UABC, MYPA, Herramientas proyectuales: Matriz y diagrama de relaciones espaci...UABC, MYPA, Herramientas proyectuales: Matriz y diagrama de relaciones espaci...
UABC, MYPA, Herramientas proyectuales: Matriz y diagrama de relaciones espaci...
 
Practicando análisis cibermétrico en redes de investigadores
Practicando análisis cibermétrico en redes de investigadoresPracticando análisis cibermétrico en redes de investigadores
Practicando análisis cibermétrico en redes de investigadores
 
Segmentacion imagenes
Segmentacion imagenesSegmentacion imagenes
Segmentacion imagenes
 
Tipos de modelos.pdf
Tipos de modelos.pdfTipos de modelos.pdf
Tipos de modelos.pdf
 
Presentacion nº3: MEDIDAS DE DISPERSIÓN
Presentacion nº3: MEDIDAS DE DISPERSIÓNPresentacion nº3: MEDIDAS DE DISPERSIÓN
Presentacion nº3: MEDIDAS DE DISPERSIÓN
 
Trabajo colaborativo 3
Trabajo colaborativo 3Trabajo colaborativo 3
Trabajo colaborativo 3
 
Trabajo colaborativo 3
Trabajo colaborativo 3Trabajo colaborativo 3
Trabajo colaborativo 3
 
Función de la evaluación de las particiones en bases de datos distribuidas or...
Función de la evaluación de las particiones en bases de datos distribuidas or...Función de la evaluación de las particiones en bases de datos distribuidas or...
Función de la evaluación de las particiones en bases de datos distribuidas or...
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 
Escalas de medición
Escalas de mediciónEscalas de medición
Escalas de medición
 
Medidas de dispersion
Medidas de dispersionMedidas de dispersion
Medidas de dispersion
 

Más de Daniel Cam Urquizo (11)

OOSE
OOSEOOSE
OOSE
 
Patrones de diseño y frameworks
Patrones de diseño y frameworksPatrones de diseño y frameworks
Patrones de diseño y frameworks
 
Patrones de Diseño y Frameworks
Patrones de Diseño y FrameworksPatrones de Diseño y Frameworks
Patrones de Diseño y Frameworks
 
8 reinas
8 reinas8 reinas
8 reinas
 
Sonido en el hombre
Sonido en el hombreSonido en el hombre
Sonido en el hombre
 
Clasificacion de sistemas de informacion
Clasificacion de sistemas de informacionClasificacion de sistemas de informacion
Clasificacion de sistemas de informacion
 
Base de datos multimedia
Base de datos multimediaBase de datos multimedia
Base de datos multimedia
 
Aplicacion de descriptores de sonido
Aplicacion de descriptores de sonidoAplicacion de descriptores de sonido
Aplicacion de descriptores de sonido
 
Aplicación grafica para aprendizaje multimedia sobre representación de patolo...
Aplicación grafica para aprendizaje multimedia sobre representación de patolo...Aplicación grafica para aprendizaje multimedia sobre representación de patolo...
Aplicación grafica para aprendizaje multimedia sobre representación de patolo...
 
Identificacion de voz usando wavelets
Identificacion de voz usando waveletsIdentificacion de voz usando wavelets
Identificacion de voz usando wavelets
 
proyeccion oblicua
proyeccion oblicuaproyeccion oblicua
proyeccion oblicua
 

Último

Evaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdfEvaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdf
GuillermoBarquero7
 
2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx
EncomiendasElSherpa
 

Último (6)

ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOSESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
ESCRITORIO DE WINDOWS 11 Y SUS ELEMENTOS
 
Evaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdfEvaluación del riesgo tecnologías informáticas.pdf
Evaluación del riesgo tecnologías informáticas.pdf
 
Caso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business CentralCaso de Exito LPL Projects Logistics Spain y Business Central
Caso de Exito LPL Projects Logistics Spain y Business Central
 
2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx2da. Clase Mecanografía e introducción a Excel (2).pptx
2da. Clase Mecanografía e introducción a Excel (2).pptx
 
Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200Caso de éxito de Hervian con el ERP Sage 200
Caso de éxito de Hervian con el ERP Sage 200
 
Trabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - OfimáticaTrabajo de Powerpoint - Unsaac - Ofimática
Trabajo de Powerpoint - Unsaac - Ofimática
 

Tecnicas de busqueda por similitud de patrones

  • 1. T´ecnicas de B´usqueda por similitud Universidad Nacional de Trujillo Ingenier´ıa inform´atica Orlando Salazar Campos Daniel Cam Urquizo danielcam3@hotmail.com Palabras claves distancia, mala palabra, b´usqueda, similitud, t´ecnica, dimensi´on, operaciones 1 Concepto Proporcionar soporte de indexaci´on para b´usquedas similitud es un ´area importante donde a´un queda mu- cho trabajo por hacer. Algunas de las l´ıneas de inves- tigaci´on m´as prometedores se encuentran en el desar- rollo de t´ecnicas para identificar las caracter´ısticas importantes en las aplicaciones de manera que la dimensi´on del dominio del problema puede ser re- ducido. Una alternativa es encontrar una inmersi´on de la funci´on de distancia en un espacio vectorial lo que nos permite utilizar adecuadamente la amplia gama de indexaci´on existentes y las t´ecnicas de ve- cinos m´as cercanos. 2 T´ecnicas de b´usqueda 2.1 T´ecnica Dimension de Palabras malas Una soluci´on aparentemente sencilla de encontrar el vecino m´as cercano es calcular un diagrama de Voronoi para los puntos de datos ( una partici´on del espacio en regiones en las que todas puntos de la regi´on est´an m´as cerca de los datos asociados de la regi´on punto que a cualquier otro punto de datos ) y, a continuaci´on, busque la regi´on de Voronoi cor- respondiente al punto de consulta. Crece de forma exponencial con su dimensi´on k de modo que para N puntos, el tiempo para construir y los requisitos de espacio puede crecer tan r´apidamente como θ(Nk/2). Esto hace que su discutible la aplicabilidad. Lo anterior es t´ıpico de los problemas que debemos enfrentar cuando se trata de datos de grandes dimen- siones. En t´erminos generales, las consultas multidi- mensionales se vuelven cada vez m´as dif´ıcil a medida que aumenta dimensionalidad. El problema se carac- teriza como la dimensionalidad de la mala palabra de la . Este t´ermino se utiliza para indicar que el n´umero de muestras necesarias para estimar una funci´on arbi- traria con un nivel dado de precisi´on crece exponen- cialmente con el n´umero de variables (dimensiones) que lo componen. Para la b´usqueda de similitud (la b´usqueda de los vecinos m´as cercanos), esto significa que el n´umero de objetos (puntos) en el conjunto de datos que necesitan ser examinados en la derivaci´on de la estimaci´on crece exponencialmente con la di- mensi´on subyacente. La dimensionalidad de la mala palabra tiene una influencia directa en la b´usqueda de similitud en las dimensiones elevadas, ya que plantea la cuesti´on de si es o no la b´usqueda del vecino m´as cercano es a´un significativa, de tal dominio. En par- ticular, dejando d denota una funci´on de distancia, que no tiene que ser necesariamente un indicador de que los vecinos m´as pr´oximos, la b´usqueda no es sig- nificativa cuando la relaci´on de la varianza de la dis- tancia entre dos puntos al azar p y q, dibujado partir de los datos y la distribuci´on de la consulta, y la es- perada distancia entre ellos converge a cero como la dimensi´on k tiende a infinito - es decir, lim x→0 V ariance|d(p, q)| Expected|d(p, q)| = 0 2.2 Indexaci´on Multidimensional Suponiendo que la dimensionalidad de la mala pal- abra no entran en juego, las respuestas de consultas se ven facilitadas por la clasificaci´on de los objetos so- bre la base de algunos de sus valores de caracter´ısticas y la construcci´on de los ´ındices adecuados. La alta funci´on del espacio dimensional se indexa utilizando una estructura de datos multidimensional ( denomi- nado indexaci´on multidimensional) con las modifica- ciones apropiadas para ajustarse al entorno del prob- lema de alta dimensi´on. Similitud de b´usqueda que encuentra objetos similares a un objeto de destino se puede realizar con un rango de b´usqueda o una b´usqueda del vecino m´as cercano en la estructura de datos multidimensional . Sin embargo, a diferencia de las aplicaciones de bases de datos espaciales que la funci´on de la distancia entre dos objetos es general- mente euclidiana, esto no es necesariamente el caso 1
  • 2. de la funci´on de espacio de alta dimensi´on, donde la funci´on de distancia puede incluso variar de consulta para consultar en la misma funci´on. Buscar en es- pacios de alta dimensi´on es mucho tiempo. Realizar b´usquedas por rangos de dimensiones altas es mucho m´as f´acil, desde el punto de vista de la complejidad computacional, de la realizaci´on de consultas de simil- itud como consultas de rango no implican el c´alculo de la distancia. En particular, busca a trav´es de un espacio indexado por lo general implican pruebas de comparaci´on relativamente simples. Sin embargo, si tenemos que examinar todos los nodos de ´ındice, el proceso es m´as lento. Por el contrario, la similitud de computaci´on en t´erminos de b´usqueda del vecino m´as cercano hace uso de la distancia y el proceso de c´alculo de la distancia puede ser computacional- mente complejo. Por ejemplo, el c´alculo de la dis- tancia euclidiana entre dos puntos en un espacio de alta dimensi´on, por ejemplo d, requiere operaciones de multiplicaci´on y d − 1 operaciones de adici´on, as´ı como una operaci´on de ra´ız cuadrada (que puede ser omitido). Tenga en cuenta tambi´en que la similitud de computaci´on requiere la definici´on de lo que sig- nifica que dos objetos sean similares, que no siempre es tan obvio. 2.3 Indexaci´on basado en distancias A menudo, la ´unica informaci´on que tenemos disponible es una funci´on de distancia que indica el grado de similitud ( o des - similitud ) entre todos los pares de los N objetos. en general la funci´on de distancia d es necesaria para obedecer la desigualdad triangular, ser no negativo, y ser sim´etrica, en cuyo caso se conoce como una m´etrica y tambi´en se conoce como una distancia m´etrica. Sin embargo, a veces, la funci´on de distancia no es un m´etrica. A menudo, el grado de similitud es expresado usando una matriz de similitud que contiene los valores de distancia entre los objetos , para todos los pares posibles de los N objetos. Dada una funci´on de distancia, por lo gen- eral el ´ındice de objetos con respecto a su distancia de unos pocos objetos seleccionados. Utilizamos el t´ermino de indexaci´on basada en la distancia de de- scribir tales m´etodos. Hay dos esquemas b´asicos de partici´on: partici´on bola y la partici´on bola hiper- plano generalizada. En partici´on bola, el conjunto de datos se divide en base a distancias de un objeto distinguido, a veces llamado un punto de vista, en el subconjunto que est´a dentro y el subconjunto que est´a fuera de una bola alrededor del objeto en la partici´on hiperplano generalizada, dos objetos distinguidos p1 y p2 son elegida y el conjunto de datos se divide so- bre la base de cu´al de los dos objetos distinguidos es el m´as cercano, es decir, todos los objetos de un subconjunto est´an m´as cerca de p1 a p2 que, mien- tras que los objetos en el subgrupo B est´an m´as cerca de p2. La asimetr´ıa de la partici´on de bola es una desventaja potencial de este m´etodo que el exterior shell tiende a ser muy estrecha para espacios m´etricos utilizados normalmente en la b´usqueda de similitud En contraste, la partici´on de hiperplano generalizada es m´as sim´etrica , en la que ambas particiones forman una ”bola ” alrededor de un objeto. La ventaja de los m´etodos de indexaci´on basados en la distancia es que c´alculos de distancia se utilizan para generar el ´ındice, pero una vez el ´ındice ha sido construido, las consultas de similitud a menudo se pueden realizar con un n´umero significativamente menor de c´alculos de distancia de una exploraci´on secuencial de todo el conjunto de datos. Por supuesto, en situaciones en las que es posible que desee aplicar varias diferentes medidas de distancia, entonces el inconveniente de las t´ecnicas de indexaci´on basados en la distancia es que requieren que el ´ındice ser´a reconstruido para cada diferente distancia m´etrica, que puede ser no triv- ial. Este no es el caso de los m´etodos de indexaci´on multidimensionales que tienen la ventaja de sopor- tar distancia m´etrica arbitrarias ( sin embargo, esta comparaci´on no es del todo justo, ya que el supuesto, cuando se utiliza basado en la distancia indexaci´on, es que a menudo no tenemos valores de funciones como por ejemplo, en secuencias de ADN). 3 Conclusiones proporcionar soporte de indexaci´on para la b´usqueda de similitud es una ´area importante donde a´un queda mucho trabajo por hacer. Algunos de las l´ıneas de in- vestigaci´on m´as prometedoras se encuentran en el de- sarrollo de t´ecnicas para identificar las caracter´ısticas importantes de la aplicaciones de manera que la di- mensi´on del dominio del problema pueden ser re- ducido. Una alternativa es encontrar una inmersi´on para la disfunci´on de distancia en un espacio vec- torial,lo que nos permite utilizar adecuadamente la amplia gama de indexaci´on existentes y t´ecnicas de vecinos m´as cercanos. 4 Referencia 4.1 webgraf´ıa • Benjamin Bustos, B´usqueda por Simil- itud de Modelos,2011. Disponible en: urlhttp://noticias.terra.cl/tecnologia/bits- ciencia-sociedad/blog/2012/05/22/busqueda- por-similitud-de-modelos-3d/ • Pavel Zezula, Similarity Search - The Met- ric Space Approach, 2012. Disponible en: urlhttp://www.nmis.isti.cnr.it/amato/similarity- search-book/ 2