SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
Extensiones a Buscadores
                        Referencias:
           Cap. 11 Modern Information Retrieval
                         swish-e.org
                          alexa.com
                        copernic.com
    clr.research.compaq.com/vision/multimedia/similarity/d
    research.phillips.com/generalinfo/special/audiofp.asp



                  Curso: Recuperación de Información – 2002/1

                                   -- ChaTo
1
Agenda

    Otros Buscadores
    –   Para un sitio
    –   Verticales
    –   Metabuscadores
    Búsqueda multimedia




2
Buscadores para un sitio

    Buscadores de colección pequeña
    –   Glimpse
    –   HT:Dig
    –   SwishE
    –   Excite Search
    –   MyWeb
    Actualización automática
    Indexación inteligente
    –   Datos estructurados y textos, XML
3
Simple Web Indexing System for Humans –
    Enhanced
    Archivo swish-e.conf
    IndexDir ~/public_www/docs/
    IndexFile ~/docs.idx
    IndexOnly .txt .html
    Crear indice (crontab)
    0 0 * * * swish-e -c ~/swishe-e.conf

4
Swish­E

    Buscar
    swish-e -w “casa” -f ~/docs.idx
    swish-e -w “casa” -p “keywords” -f ..
    Resultado:
    # Search words: casa
    # Number of hits: 3
    1000 ~/public_www/docs/home.html 251
    731 ~/public_www/docs/svc.html 193
    124 ~/public_www/docs/abt.html 913
5
Swish­E

    Otras opciones
    MetaNames author (afecta resultados)
    PropertyNames keywords
    MinWordLimit 4 (abc no indexado)
    WordCharacters a-zA-Z0-9
    IgnoreLimits 30 100 (30% min 100 doc)
    IgnoreWords a ante bajo cabe ...




6
Buscadores Verticales

    ccTLD País + Sitios conocidos del país
    Mayor cobertura, > 95%
    –   De la web pública indexable
    Contexto controlado
    –   Posibilidad de lidiar con particularidades idiomáticas
    –   Posibilidad de realizar búsqueda local (ej.: teléfonos,
        códigos, comunas, ciudades)
    Restricción a un contexto regional
    –   Mejor precisión en las búsquedas
7
Búsqueda de noticias

    Periodismo, valoración de una noticia
    –   Actualidad: debe ser nueva
    –   Cercanía o localidad.
    –   Prominencia de los actores/fechas/lugares
    Valores cualitativos del contenido
    –   Suspenso o incógnita
    –   Conflicto
    –   Curiosidad
    –   Emoción
8
Búsqueda de noticias (2)
    Actualidad
    –   Crawl frecuente
    –   Detectar fecha de primer cuasi-duplicado
    Cercanía o localidad
    –   Colecciones de sitios controladas
    –   Colecciones de secciones controladas
    –   e.j.: diarios españoles, diarios de informática, etc.
    Prominencia
    –   Número de cuasi-duplicados
    –   Elegir cuál cuasi-duplicado mostrar
9
Ejemplo: newsmap




10
Metabuscadores

     Conección directa del cliente
     –   Alexa
     –   Copérnico
     Conección indirecta
     –   Dogpile/Metasearch
     –   Timeout por cada buscador
     Problema:
     –   Mezclar los rankings

11
Copernic agent basic




12
Combinar rankings

     Ej.: gimnasia
     –   5 jueces
     –   Se elimina el peor y el mejor
     –   Se toma el promedio de los otros tres
     {máxima, mínima} relevancia
     Modelo lineal: promedio ponderado por
     fiabilidad
     –   En la práctica no es mejor que promedio simple
     Modelo no lineal: red neuronal
13
Búsqueda Multimedia

     Distinto de “búsqueda de multimedios”
     –   Utilizar técnicas usuales de IR para encontrar archivos
         en ciertos formatos
     Características Especiales
     –   Objetos complejos
     –   Búsqueda casi siempre por similaridad => ranking
     Espacios métricos.
     –   Maldición de la dimensionalidad.

14
Almacenamiento

     Modelo de datos
     –   Datos conocidos sobre el elemento multimedia
     Automatización
     –   Detección automática de razgos
     –   Razgos + Certeza




15
Lenguajes

     3 tipos de predicado
     Atributos
     –   filesize>2Kb
     Estructura
     –   3e compás 2o movimiento
     Semántica
     –   mi la sol do ..., color, forma, textura, etc.
     –   Nunca dan match exacto.

16
Google

     Texto alrededor, ALT, nombre archivo




17
All The Web




18
Audio FingerPrint

     Extraer razgos únicos
     Buscar inteligentemente
     Desafíos:
     –   Samples breves (3seg.)
     –   Samples con ruido
     –   Fingerprint pequeños
     Usos
     –   Como un servicio para usuarios comunes
     –   Commercial verification
19
FingerPrint

     Hashing criptográfico:cambia demasiado
     Perceptual hash o hashing robusto
     Similaridad con humanos




20
Similaridad imágenes

     Extracción de razgos
     –   Bitmaped
     –   Vectoriales
     Resistencia a transformaciones
     –   Escala, Rotación, Skew
     Solución general
     –   Búsqueda espacios k-dimensionales
     –   Lenta

21
Similaridad imágenes




22
Similaridad imágenes

     Consulta: proceso inverso
     –   Generar vector de descriptores y comparar




23

Más contenido relacionado

Similar a Buscadores verticales, metabuscadores y búsqueda multimedia

Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoJavier Mijail Espadas Pech
 
Análisis de Datos con MongoDB
Análisis de Datos con MongoDBAnálisis de Datos con MongoDB
Análisis de Datos con MongoDBAlejandro Mancilla
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosOscar Corcho
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosSandra Crucianelli
 
Inta Presenta 10 2008
Inta Presenta 10 2008Inta Presenta 10 2008
Inta Presenta 10 2008guestfc30c84
 
Conceptos Avanzados: Parte 3 - Conector de BI
Conceptos Avanzados: Parte 3 - Conector de BIConceptos Avanzados: Parte 3 - Conector de BI
Conceptos Avanzados: Parte 3 - Conector de BIMongoDB
 
#Aprender3C - Repositorios Digitales con Dspace
#Aprender3C - Repositorios Digitales con Dspace#Aprender3C - Repositorios Digitales con Dspace
#Aprender3C - Repositorios Digitales con DspaceAprender 3C
 
Piensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresPiensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresRafael Bermúdez Míguez
 
Jornadas gvSIG 2009
Jornadas gvSIG 2009Jornadas gvSIG 2009
Jornadas gvSIG 2009sabueso81
 
HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016Analytics10
 
Clase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos RelacionalesClase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos RelacionalesLester López Carrió
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisSandra Crucianelli
 
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...Neo4j
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de DatosLuisAzofeifa6
 

Similar a Buscadores verticales, metabuscadores y búsqueda multimedia (20)

Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Análisis de Datos con MongoDB
Análisis de Datos con MongoDBAnálisis de Datos con MongoDB
Análisis de Datos con MongoDB
 
Presentación: manejo y almacenamiento de bases de datos
Presentación: manejo y almacenamiento de bases de datosPresentación: manejo y almacenamiento de bases de datos
Presentación: manejo y almacenamiento de bases de datos
 
Bantaba
BantabaBantaba
Bantaba
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de Datos
 
Inta Presenta 10 2008
Inta Presenta 10 2008Inta Presenta 10 2008
Inta Presenta 10 2008
 
Conceptos Avanzados: Parte 3 - Conector de BI
Conceptos Avanzados: Parte 3 - Conector de BIConceptos Avanzados: Parte 3 - Conector de BI
Conceptos Avanzados: Parte 3 - Conector de BI
 
The holy grail
The holy grailThe holy grail
The holy grail
 
#Aprender3C - Repositorios Digitales con Dspace
#Aprender3C - Repositorios Digitales con Dspace#Aprender3C - Repositorios Digitales con Dspace
#Aprender3C - Repositorios Digitales con Dspace
 
Piensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresPiensa en grande: Big data para programadores
Piensa en grande: Big data para programadores
 
Jornadas gvSIG 2009
Jornadas gvSIG 2009Jornadas gvSIG 2009
Jornadas gvSIG 2009
 
HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016
 
Clase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos RelacionalesClase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos Relacionales
 
Analisis estadistico
Analisis estadisticoAnalisis estadistico
Analisis estadistico
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratis
 
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 

Más de Carlos Castillo (ChaTo)

Finding High Quality Content in Social Media
Finding High Quality Content in Social MediaFinding High Quality Content in Social Media
Finding High Quality Content in Social MediaCarlos Castillo (ChaTo)
 
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017Carlos Castillo (ChaTo)
 
Detecting Algorithmic Bias (keynote at DIR 2016)
Detecting Algorithmic Bias (keynote at DIR 2016)Detecting Algorithmic Bias (keynote at DIR 2016)
Detecting Algorithmic Bias (keynote at DIR 2016)Carlos Castillo (ChaTo)
 

Más de Carlos Castillo (ChaTo) (20)

Finding High Quality Content in Social Media
Finding High Quality Content in Social MediaFinding High Quality Content in Social Media
Finding High Quality Content in Social Media
 
When no clicks are good news
When no clicks are good newsWhen no clicks are good news
When no clicks are good news
 
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
 
Detecting Algorithmic Bias (keynote at DIR 2016)
Detecting Algorithmic Bias (keynote at DIR 2016)Detecting Algorithmic Bias (keynote at DIR 2016)
Detecting Algorithmic Bias (keynote at DIR 2016)
 
Discrimination Discovery
Discrimination DiscoveryDiscrimination Discovery
Discrimination Discovery
 
Fairness-Aware Data Mining
Fairness-Aware Data MiningFairness-Aware Data Mining
Fairness-Aware Data Mining
 
Big Crisis Data for ISPC
Big Crisis Data for ISPCBig Crisis Data for ISPC
Big Crisis Data for ISPC
 
Databeers: Big Crisis Data
Databeers: Big Crisis DataDatabeers: Big Crisis Data
Databeers: Big Crisis Data
 
Observational studies in social media
Observational studies in social mediaObservational studies in social media
Observational studies in social media
 
Natural experiments
Natural experimentsNatural experiments
Natural experiments
 
Content-based link prediction
Content-based link predictionContent-based link prediction
Content-based link prediction
 
Link prediction
Link predictionLink prediction
Link prediction
 
Recommender Systems
Recommender SystemsRecommender Systems
Recommender Systems
 
Graph Partitioning and Spectral Methods
Graph Partitioning and Spectral MethodsGraph Partitioning and Spectral Methods
Graph Partitioning and Spectral Methods
 
Finding Dense Subgraphs
Finding Dense SubgraphsFinding Dense Subgraphs
Finding Dense Subgraphs
 
Graph Evolution Models
Graph Evolution ModelsGraph Evolution Models
Graph Evolution Models
 
Link-Based Ranking
Link-Based RankingLink-Based Ranking
Link-Based Ranking
 
Text Indexing / Inverted Indices
Text Indexing / Inverted IndicesText Indexing / Inverted Indices
Text Indexing / Inverted Indices
 
Indexing
IndexingIndexing
Indexing
 
Text Summarization
Text SummarizationText Summarization
Text Summarization
 

Último

Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxAlexander López
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptMiguelAtencio10
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxJOSEMANUELHERNANDEZH11
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativaAdrianaMartnez618894
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA241531640
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxMariaBurgos55
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELmaryfer27m
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramDIDIERFERNANDOGUERRE
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 

Último (20)

Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptxGoogle-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
Google-Meet-como-herramienta-para-realizar-reuniones-virtuales.pptx
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
dokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.pptdokumen.tips_36274588-sistema-heui-eui.ppt
dokumen.tips_36274588-sistema-heui-eui.ppt
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
Hernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptxHernandez_Hernandez_Practica web de la sesion 11.pptx
Hernandez_Hernandez_Practica web de la sesion 11.pptx
 
definicion segun autores de matemáticas educativa
definicion segun autores de matemáticas  educativadefinicion segun autores de matemáticas  educativa
definicion segun autores de matemáticas educativa
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6    CREAR UN RECURSO MULTIMEDIAActividad integradora 6    CREAR UN RECURSO MULTIMEDIA
Actividad integradora 6 CREAR UN RECURSO MULTIMEDIA
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Segunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptxSegunda ley de la termodinámica TERMODINAMICA.pptx
Segunda ley de la termodinámica TERMODINAMICA.pptx
 
El uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFELEl uso delas tic en la vida cotidiana MFEL
El uso delas tic en la vida cotidiana MFEL
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Explorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ramExplorando la historia y funcionamiento de la memoria ram
Explorando la historia y funcionamiento de la memoria ram
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 

Buscadores verticales, metabuscadores y búsqueda multimedia

  • 1. Extensiones a Buscadores Referencias: Cap. 11 Modern Information Retrieval swish-e.org alexa.com copernic.com clr.research.compaq.com/vision/multimedia/similarity/d research.phillips.com/generalinfo/special/audiofp.asp Curso: Recuperación de Información – 2002/1 -- ChaTo 1
  • 2. Agenda Otros Buscadores – Para un sitio – Verticales – Metabuscadores Búsqueda multimedia 2
  • 3. Buscadores para un sitio Buscadores de colección pequeña – Glimpse – HT:Dig – SwishE – Excite Search – MyWeb Actualización automática Indexación inteligente – Datos estructurados y textos, XML 3
  • 4. Simple Web Indexing System for Humans – Enhanced Archivo swish-e.conf IndexDir ~/public_www/docs/ IndexFile ~/docs.idx IndexOnly .txt .html Crear indice (crontab) 0 0 * * * swish-e -c ~/swishe-e.conf 4
  • 5. Swish­E Buscar swish-e -w “casa” -f ~/docs.idx swish-e -w “casa” -p “keywords” -f .. Resultado: # Search words: casa # Number of hits: 3 1000 ~/public_www/docs/home.html 251 731 ~/public_www/docs/svc.html 193 124 ~/public_www/docs/abt.html 913 5
  • 6. Swish­E Otras opciones MetaNames author (afecta resultados) PropertyNames keywords MinWordLimit 4 (abc no indexado) WordCharacters a-zA-Z0-9 IgnoreLimits 30 100 (30% min 100 doc) IgnoreWords a ante bajo cabe ... 6
  • 7. Buscadores Verticales ccTLD País + Sitios conocidos del país Mayor cobertura, > 95% – De la web pública indexable Contexto controlado – Posibilidad de lidiar con particularidades idiomáticas – Posibilidad de realizar búsqueda local (ej.: teléfonos, códigos, comunas, ciudades) Restricción a un contexto regional – Mejor precisión en las búsquedas 7
  • 8. Búsqueda de noticias Periodismo, valoración de una noticia – Actualidad: debe ser nueva – Cercanía o localidad. – Prominencia de los actores/fechas/lugares Valores cualitativos del contenido – Suspenso o incógnita – Conflicto – Curiosidad – Emoción 8
  • 9. Búsqueda de noticias (2) Actualidad – Crawl frecuente – Detectar fecha de primer cuasi-duplicado Cercanía o localidad – Colecciones de sitios controladas – Colecciones de secciones controladas – e.j.: diarios españoles, diarios de informática, etc. Prominencia – Número de cuasi-duplicados – Elegir cuál cuasi-duplicado mostrar 9
  • 11. Metabuscadores Conección directa del cliente – Alexa – Copérnico Conección indirecta – Dogpile/Metasearch – Timeout por cada buscador Problema: – Mezclar los rankings 11
  • 13. Combinar rankings Ej.: gimnasia – 5 jueces – Se elimina el peor y el mejor – Se toma el promedio de los otros tres {máxima, mínima} relevancia Modelo lineal: promedio ponderado por fiabilidad – En la práctica no es mejor que promedio simple Modelo no lineal: red neuronal 13
  • 14. Búsqueda Multimedia Distinto de “búsqueda de multimedios” – Utilizar técnicas usuales de IR para encontrar archivos en ciertos formatos Características Especiales – Objetos complejos – Búsqueda casi siempre por similaridad => ranking Espacios métricos. – Maldición de la dimensionalidad. 14
  • 15. Almacenamiento Modelo de datos – Datos conocidos sobre el elemento multimedia Automatización – Detección automática de razgos – Razgos + Certeza 15
  • 16. Lenguajes 3 tipos de predicado Atributos – filesize>2Kb Estructura – 3e compás 2o movimiento Semántica – mi la sol do ..., color, forma, textura, etc. – Nunca dan match exacto. 16
  • 17. Google Texto alrededor, ALT, nombre archivo 17
  • 19. Audio FingerPrint Extraer razgos únicos Buscar inteligentemente Desafíos: – Samples breves (3seg.) – Samples con ruido – Fingerprint pequeños Usos – Como un servicio para usuarios comunes – Commercial verification 19
  • 20. FingerPrint Hashing criptográfico:cambia demasiado Perceptual hash o hashing robusto Similaridad con humanos 20
  • 21. Similaridad imágenes Extracción de razgos – Bitmaped – Vectoriales Resistencia a transformaciones – Escala, Rotación, Skew Solución general – Búsqueda espacios k-dimensionales – Lenta 21
  • 23. Similaridad imágenes Consulta: proceso inverso – Generar vector de descriptores y comparar 23