SlideShare una empresa de Scribd logo
1 de 23
Descargar para leer sin conexión
Extensiones a Buscadores
                        Referencias:
           Cap. 11 Modern Information Retrieval
                         swish-e.org
                          alexa.com
                        copernic.com
    clr.research.compaq.com/vision/multimedia/similarity/d
    research.phillips.com/generalinfo/special/audiofp.asp



                  Curso: Recuperación de Información – 2002/1

                                   -- ChaTo
1
Agenda

    Otros Buscadores
    –   Para un sitio
    –   Verticales
    –   Metabuscadores
    Búsqueda multimedia




2
Buscadores para un sitio

    Buscadores de colección pequeña
    –   Glimpse
    –   HT:Dig
    –   SwishE
    –   Excite Search
    –   MyWeb
    Actualización automática
    Indexación inteligente
    –   Datos estructurados y textos, XML
3
Simple Web Indexing System for Humans –
    Enhanced
    Archivo swish-e.conf
    IndexDir ~/public_www/docs/
    IndexFile ~/docs.idx
    IndexOnly .txt .html
    Crear indice (crontab)
    0 0 * * * swish-e -c ~/swishe-e.conf

4
Swish­E

    Buscar
    swish-e -w “casa” -f ~/docs.idx
    swish-e -w “casa” -p “keywords” -f ..
    Resultado:
    # Search words: casa
    # Number of hits: 3
    1000 ~/public_www/docs/home.html 251
    731 ~/public_www/docs/svc.html 193
    124 ~/public_www/docs/abt.html 913
5
Swish­E

    Otras opciones
    MetaNames author (afecta resultados)
    PropertyNames keywords
    MinWordLimit 4 (abc no indexado)
    WordCharacters a-zA-Z0-9
    IgnoreLimits 30 100 (30% min 100 doc)
    IgnoreWords a ante bajo cabe ...




6
Buscadores Verticales

    ccTLD País + Sitios conocidos del país
    Mayor cobertura, > 95%
    –   De la web pública indexable
    Contexto controlado
    –   Posibilidad de lidiar con particularidades idiomáticas
    –   Posibilidad de realizar búsqueda local (ej.: teléfonos,
        códigos, comunas, ciudades)
    Restricción a un contexto regional
    –   Mejor precisión en las búsquedas
7
Búsqueda de noticias

    Periodismo, valoración de una noticia
    –   Actualidad: debe ser nueva
    –   Cercanía o localidad.
    –   Prominencia de los actores/fechas/lugares
    Valores cualitativos del contenido
    –   Suspenso o incógnita
    –   Conflicto
    –   Curiosidad
    –   Emoción
8
Búsqueda de noticias (2)
    Actualidad
    –   Crawl frecuente
    –   Detectar fecha de primer cuasi-duplicado
    Cercanía o localidad
    –   Colecciones de sitios controladas
    –   Colecciones de secciones controladas
    –   e.j.: diarios españoles, diarios de informática, etc.
    Prominencia
    –   Número de cuasi-duplicados
    –   Elegir cuál cuasi-duplicado mostrar
9
Ejemplo: newsmap




10
Metabuscadores

     Conección directa del cliente
     –   Alexa
     –   Copérnico
     Conección indirecta
     –   Dogpile/Metasearch
     –   Timeout por cada buscador
     Problema:
     –   Mezclar los rankings

11
Copernic agent basic




12
Combinar rankings

     Ej.: gimnasia
     –   5 jueces
     –   Se elimina el peor y el mejor
     –   Se toma el promedio de los otros tres
     {máxima, mínima} relevancia
     Modelo lineal: promedio ponderado por
     fiabilidad
     –   En la práctica no es mejor que promedio simple
     Modelo no lineal: red neuronal
13
Búsqueda Multimedia

     Distinto de “búsqueda de multimedios”
     –   Utilizar técnicas usuales de IR para encontrar archivos
         en ciertos formatos
     Características Especiales
     –   Objetos complejos
     –   Búsqueda casi siempre por similaridad => ranking
     Espacios métricos.
     –   Maldición de la dimensionalidad.

14
Almacenamiento

     Modelo de datos
     –   Datos conocidos sobre el elemento multimedia
     Automatización
     –   Detección automática de razgos
     –   Razgos + Certeza




15
Lenguajes

     3 tipos de predicado
     Atributos
     –   filesize>2Kb
     Estructura
     –   3e compás 2o movimiento
     Semántica
     –   mi la sol do ..., color, forma, textura, etc.
     –   Nunca dan match exacto.

16
Google

     Texto alrededor, ALT, nombre archivo




17
All The Web




18
Audio FingerPrint

     Extraer razgos únicos
     Buscar inteligentemente
     Desafíos:
     –   Samples breves (3seg.)
     –   Samples con ruido
     –   Fingerprint pequeños
     Usos
     –   Como un servicio para usuarios comunes
     –   Commercial verification
19
FingerPrint

     Hashing criptográfico:cambia demasiado
     Perceptual hash o hashing robusto
     Similaridad con humanos




20
Similaridad imágenes

     Extracción de razgos
     –   Bitmaped
     –   Vectoriales
     Resistencia a transformaciones
     –   Escala, Rotación, Skew
     Solución general
     –   Búsqueda espacios k-dimensionales
     –   Lenta

21
Similaridad imágenes




22
Similaridad imágenes

     Consulta: proceso inverso
     –   Generar vector de descriptores y comparar




23

Más contenido relacionado

Similar a Buscadores verticales, metabuscadores y búsqueda multimedia

Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoJavier Mijail Espadas Pech
 
Análisis de Datos con MongoDB
Análisis de Datos con MongoDBAnálisis de Datos con MongoDB
Análisis de Datos con MongoDBAlejandro Mancilla
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosOscar Corcho
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosSandra Crucianelli
 
Inta Presenta 10 2008
Inta Presenta 10 2008Inta Presenta 10 2008
Inta Presenta 10 2008guestfc30c84
 
Conceptos Avanzados: Parte 3 - Conector de BI
Conceptos Avanzados: Parte 3 - Conector de BIConceptos Avanzados: Parte 3 - Conector de BI
Conceptos Avanzados: Parte 3 - Conector de BIMongoDB
 
#Aprender3C - Repositorios Digitales con Dspace
#Aprender3C - Repositorios Digitales con Dspace#Aprender3C - Repositorios Digitales con Dspace
#Aprender3C - Repositorios Digitales con DspaceAprender 3C
 
Piensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresPiensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresRafael Bermúdez Míguez
 
Jornadas gvSIG 2009
Jornadas gvSIG 2009Jornadas gvSIG 2009
Jornadas gvSIG 2009sabueso81
 
HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016Analytics10
 
Clase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos RelacionalesClase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos RelacionalesLester López Carrió
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosEduardo Castro
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisSandra Crucianelli
 
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...Neo4j
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de DatosLuisAzofeifa6
 

Similar a Buscadores verticales, metabuscadores y búsqueda multimedia (20)

Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académicoRetos actuales y futuros del Cómputo en la Nube - Un enfoque académico
Retos actuales y futuros del Cómputo en la Nube - Un enfoque académico
 
"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas"Casos de uso del Big Data" por Wolfram Rozas
"Casos de uso del Big Data" por Wolfram Rozas
 
Análisis de Datos con MongoDB
Análisis de Datos con MongoDBAnálisis de Datos con MongoDB
Análisis de Datos con MongoDB
 
Presentación: manejo y almacenamiento de bases de datos
Presentación: manejo y almacenamiento de bases de datosPresentación: manejo y almacenamiento de bases de datos
Presentación: manejo y almacenamiento de bases de datos
 
Bantaba
BantabaBantaba
Bantaba
 
Big Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los DatosBig Data - El Futuro a través de los Datos
Big Data - El Futuro a través de los Datos
 
Webinario sobre Periodismo de Datos
Webinario sobre Periodismo de DatosWebinario sobre Periodismo de Datos
Webinario sobre Periodismo de Datos
 
Inta Presenta 10 2008
Inta Presenta 10 2008Inta Presenta 10 2008
Inta Presenta 10 2008
 
Conceptos Avanzados: Parte 3 - Conector de BI
Conceptos Avanzados: Parte 3 - Conector de BIConceptos Avanzados: Parte 3 - Conector de BI
Conceptos Avanzados: Parte 3 - Conector de BI
 
The holy grail
The holy grailThe holy grail
The holy grail
 
#Aprender3C - Repositorios Digitales con Dspace
#Aprender3C - Repositorios Digitales con Dspace#Aprender3C - Repositorios Digitales con Dspace
#Aprender3C - Repositorios Digitales con Dspace
 
Piensa en grande: Big data para programadores
Piensa en grande: Big data para programadoresPiensa en grande: Big data para programadores
Piensa en grande: Big data para programadores
 
Jornadas gvSIG 2009
Jornadas gvSIG 2009Jornadas gvSIG 2009
Jornadas gvSIG 2009
 
HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016HPE Vertica Chile Desayuno Oct 2016
HPE Vertica Chile Desayuno Oct 2016
 
Clase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos RelacionalesClase 1: Diseño de Bases de Datos Relacionales
Clase 1: Diseño de Bases de Datos Relacionales
 
Analisis estadistico
Analisis estadisticoAnalisis estadistico
Analisis estadistico
 
Herramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de DatosHerramientas de Microsoft para el Científicos de Datos
Herramientas de Microsoft para el Científicos de Datos
 
Periodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratisPeriodismo de datos: Básico y con recursos gratis
Periodismo de datos: Básico y con recursos gratis
 
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
Graph Everywhere - Josep Taruella - Por qué Graph Data Science en tus modelos...
 
Conceptos en Ciencia de Datos
Conceptos en Ciencia de DatosConceptos en Ciencia de Datos
Conceptos en Ciencia de Datos
 

Más de Carlos Castillo (ChaTo)

Finding High Quality Content in Social Media
Finding High Quality Content in Social MediaFinding High Quality Content in Social Media
Finding High Quality Content in Social MediaCarlos Castillo (ChaTo)
 
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017Carlos Castillo (ChaTo)
 
Detecting Algorithmic Bias (keynote at DIR 2016)
Detecting Algorithmic Bias (keynote at DIR 2016)Detecting Algorithmic Bias (keynote at DIR 2016)
Detecting Algorithmic Bias (keynote at DIR 2016)Carlos Castillo (ChaTo)
 

Más de Carlos Castillo (ChaTo) (20)

Finding High Quality Content in Social Media
Finding High Quality Content in Social MediaFinding High Quality Content in Social Media
Finding High Quality Content in Social Media
 
When no clicks are good news
When no clicks are good newsWhen no clicks are good news
When no clicks are good news
 
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
Socia Media and Digital Volunteering in Disaster Management @ DSEM 2017
 
Detecting Algorithmic Bias (keynote at DIR 2016)
Detecting Algorithmic Bias (keynote at DIR 2016)Detecting Algorithmic Bias (keynote at DIR 2016)
Detecting Algorithmic Bias (keynote at DIR 2016)
 
Discrimination Discovery
Discrimination DiscoveryDiscrimination Discovery
Discrimination Discovery
 
Fairness-Aware Data Mining
Fairness-Aware Data MiningFairness-Aware Data Mining
Fairness-Aware Data Mining
 
Big Crisis Data for ISPC
Big Crisis Data for ISPCBig Crisis Data for ISPC
Big Crisis Data for ISPC
 
Databeers: Big Crisis Data
Databeers: Big Crisis DataDatabeers: Big Crisis Data
Databeers: Big Crisis Data
 
Observational studies in social media
Observational studies in social mediaObservational studies in social media
Observational studies in social media
 
Natural experiments
Natural experimentsNatural experiments
Natural experiments
 
Content-based link prediction
Content-based link predictionContent-based link prediction
Content-based link prediction
 
Link prediction
Link predictionLink prediction
Link prediction
 
Recommender Systems
Recommender SystemsRecommender Systems
Recommender Systems
 
Graph Partitioning and Spectral Methods
Graph Partitioning and Spectral MethodsGraph Partitioning and Spectral Methods
Graph Partitioning and Spectral Methods
 
Finding Dense Subgraphs
Finding Dense SubgraphsFinding Dense Subgraphs
Finding Dense Subgraphs
 
Graph Evolution Models
Graph Evolution ModelsGraph Evolution Models
Graph Evolution Models
 
Link-Based Ranking
Link-Based RankingLink-Based Ranking
Link-Based Ranking
 
Text Indexing / Inverted Indices
Text Indexing / Inverted IndicesText Indexing / Inverted Indices
Text Indexing / Inverted Indices
 
Indexing
IndexingIndexing
Indexing
 
Text Summarization
Text SummarizationText Summarization
Text Summarization
 

Último

ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 

Último (19)

ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 

Buscadores verticales, metabuscadores y búsqueda multimedia

  • 1. Extensiones a Buscadores Referencias: Cap. 11 Modern Information Retrieval swish-e.org alexa.com copernic.com clr.research.compaq.com/vision/multimedia/similarity/d research.phillips.com/generalinfo/special/audiofp.asp Curso: Recuperación de Información – 2002/1 -- ChaTo 1
  • 2. Agenda Otros Buscadores – Para un sitio – Verticales – Metabuscadores Búsqueda multimedia 2
  • 3. Buscadores para un sitio Buscadores de colección pequeña – Glimpse – HT:Dig – SwishE – Excite Search – MyWeb Actualización automática Indexación inteligente – Datos estructurados y textos, XML 3
  • 4. Simple Web Indexing System for Humans – Enhanced Archivo swish-e.conf IndexDir ~/public_www/docs/ IndexFile ~/docs.idx IndexOnly .txt .html Crear indice (crontab) 0 0 * * * swish-e -c ~/swishe-e.conf 4
  • 5. Swish­E Buscar swish-e -w “casa” -f ~/docs.idx swish-e -w “casa” -p “keywords” -f .. Resultado: # Search words: casa # Number of hits: 3 1000 ~/public_www/docs/home.html 251 731 ~/public_www/docs/svc.html 193 124 ~/public_www/docs/abt.html 913 5
  • 6. Swish­E Otras opciones MetaNames author (afecta resultados) PropertyNames keywords MinWordLimit 4 (abc no indexado) WordCharacters a-zA-Z0-9 IgnoreLimits 30 100 (30% min 100 doc) IgnoreWords a ante bajo cabe ... 6
  • 7. Buscadores Verticales ccTLD País + Sitios conocidos del país Mayor cobertura, > 95% – De la web pública indexable Contexto controlado – Posibilidad de lidiar con particularidades idiomáticas – Posibilidad de realizar búsqueda local (ej.: teléfonos, códigos, comunas, ciudades) Restricción a un contexto regional – Mejor precisión en las búsquedas 7
  • 8. Búsqueda de noticias Periodismo, valoración de una noticia – Actualidad: debe ser nueva – Cercanía o localidad. – Prominencia de los actores/fechas/lugares Valores cualitativos del contenido – Suspenso o incógnita – Conflicto – Curiosidad – Emoción 8
  • 9. Búsqueda de noticias (2) Actualidad – Crawl frecuente – Detectar fecha de primer cuasi-duplicado Cercanía o localidad – Colecciones de sitios controladas – Colecciones de secciones controladas – e.j.: diarios españoles, diarios de informática, etc. Prominencia – Número de cuasi-duplicados – Elegir cuál cuasi-duplicado mostrar 9
  • 11. Metabuscadores Conección directa del cliente – Alexa – Copérnico Conección indirecta – Dogpile/Metasearch – Timeout por cada buscador Problema: – Mezclar los rankings 11
  • 13. Combinar rankings Ej.: gimnasia – 5 jueces – Se elimina el peor y el mejor – Se toma el promedio de los otros tres {máxima, mínima} relevancia Modelo lineal: promedio ponderado por fiabilidad – En la práctica no es mejor que promedio simple Modelo no lineal: red neuronal 13
  • 14. Búsqueda Multimedia Distinto de “búsqueda de multimedios” – Utilizar técnicas usuales de IR para encontrar archivos en ciertos formatos Características Especiales – Objetos complejos – Búsqueda casi siempre por similaridad => ranking Espacios métricos. – Maldición de la dimensionalidad. 14
  • 15. Almacenamiento Modelo de datos – Datos conocidos sobre el elemento multimedia Automatización – Detección automática de razgos – Razgos + Certeza 15
  • 16. Lenguajes 3 tipos de predicado Atributos – filesize>2Kb Estructura – 3e compás 2o movimiento Semántica – mi la sol do ..., color, forma, textura, etc. – Nunca dan match exacto. 16
  • 17. Google Texto alrededor, ALT, nombre archivo 17
  • 19. Audio FingerPrint Extraer razgos únicos Buscar inteligentemente Desafíos: – Samples breves (3seg.) – Samples con ruido – Fingerprint pequeños Usos – Como un servicio para usuarios comunes – Commercial verification 19
  • 20. FingerPrint Hashing criptográfico:cambia demasiado Perceptual hash o hashing robusto Similaridad con humanos 20
  • 21. Similaridad imágenes Extracción de razgos – Bitmaped – Vectoriales Resistencia a transformaciones – Escala, Rotación, Skew Solución general – Búsqueda espacios k-dimensionales – Lenta 21
  • 23. Similaridad imágenes Consulta: proceso inverso – Generar vector de descriptores y comparar 23