Este documento describe diferentes tipos de buscadores y técnicas de búsqueda multimedia. Incluye buscadores para sitios individuales, buscadores verticales por tema o región, metabuscadores que consultan múltiples motores de búsqueda, y técnicas para buscar contenido multimedia como audio, imágenes y video basadas en características extraídas y similitud entre objetos.
6. SwishE
Otras opciones
MetaNames author (afecta resultados)
PropertyNames keywords
MinWordLimit 4 (abc no indexado)
WordCharacters a-zA-Z0-9
IgnoreLimits 30 100 (30% min 100 doc)
IgnoreWords a ante bajo cabe ...
6
7. Buscadores Verticales
ccTLD País + Sitios conocidos del país
Mayor cobertura, > 95%
– De la web pública indexable
Contexto controlado
– Posibilidad de lidiar con particularidades idiomáticas
– Posibilidad de realizar búsqueda local (ej.: teléfonos,
códigos, comunas, ciudades)
Restricción a un contexto regional
– Mejor precisión en las búsquedas
7
8. Búsqueda de noticias
Periodismo, valoración de una noticia
– Actualidad: debe ser nueva
– Cercanía o localidad.
– Prominencia de los actores/fechas/lugares
Valores cualitativos del contenido
– Suspenso o incógnita
– Conflicto
– Curiosidad
– Emoción
8
9. Búsqueda de noticias (2)
Actualidad
– Crawl frecuente
– Detectar fecha de primer cuasi-duplicado
Cercanía o localidad
– Colecciones de sitios controladas
– Colecciones de secciones controladas
– e.j.: diarios españoles, diarios de informática, etc.
Prominencia
– Número de cuasi-duplicados
– Elegir cuál cuasi-duplicado mostrar
9
13. Combinar rankings
Ej.: gimnasia
– 5 jueces
– Se elimina el peor y el mejor
– Se toma el promedio de los otros tres
{máxima, mínima} relevancia
Modelo lineal: promedio ponderado por
fiabilidad
– En la práctica no es mejor que promedio simple
Modelo no lineal: red neuronal
13
14. Búsqueda Multimedia
Distinto de “búsqueda de multimedios”
– Utilizar técnicas usuales de IR para encontrar archivos
en ciertos formatos
Características Especiales
– Objetos complejos
– Búsqueda casi siempre por similaridad => ranking
Espacios métricos.
– Maldición de la dimensionalidad.
14
15. Almacenamiento
Modelo de datos
– Datos conocidos sobre el elemento multimedia
Automatización
– Detección automática de razgos
– Razgos + Certeza
15
16. Lenguajes
3 tipos de predicado
Atributos
– filesize>2Kb
Estructura
– 3e compás 2o movimiento
Semántica
– mi la sol do ..., color, forma, textura, etc.
– Nunca dan match exacto.
16
17. Google
Texto alrededor, ALT, nombre archivo
17