Resumen de Técnicas Básicas de Recuperación de Buscador

Técnicas Básicas (resumen)

José Carlos Cortizo Pérez
http://www.esp.uem.es/jccortizo
josecarlos.cortizo@uem.es

Departamento de Sistemas Informáticos
Escuela Superior Politécnica
Universidad Europea de Madrid

Índice

Esquema de funcionamiento
Normalización y Tokenización
Indexación
Modelo del Espacio Vectorial


Sistemas Inteligentes de Acceso a
la Información

Esquema de Funcionamiento

Esquema de Funcionamiento

Doc
Doc
Normalización
Indexación
Doc Tokenización

MEV Res.
Normalización
Q Tokenización


Ejemplo

Documento 1:
Pepe coge su coche por las mañanas

Documento 2:
Mañana veré a Pepe

Documento 3:
Me traen el coche mañana

Consulta:
Coche


Ejemplo
Normalizamos y Tokenizamos los Documentos

Documento 1:
Pepe; coger; coche; mañana

Documento 2:
Mañana; ver; Pepe

Documento 3:
Traen; coche; mañana

Consulta:
Coche


Ejemplo
Indizamos los Documentos

Documento 1 Documento 2 Documento 3
Pepe 1 1
Coger 1
Coche 1 1
Mañana 1 1 1
Ver 1
Traer 1

Consulta:
Coche


Ejemplo
Tokenizamos y Normalizamos la consulta

Pepe 1 1
Coger 1
Coche 1 1
Mañana 1 1 1
Ver 1
Traer 1

Consulta:
Coche


Ejemplo
Seleccionamos candidatos

Pepe 1 1
Coger 1
Coche 1 1
Mañana 1 1 1
Ver 1
Traer 1

Consulta:
Coche


Ejemplo
Representamos en forma de Vectores

Representación:
(Pepe, coger, coche, mañana, traer)
Documento 1:
(1, 1, 1, 1, 0)
Documento 2:
(0, 0, 1, 1, 1)
Consulta:
(0, 0, 1, 0, 0)


Ejemplo
Aplicamos MEV

Representación:
(Pepe, coger, coche, mañana, traer)
Documento 1:
1·0 + 1·0 + 1·1 + 1·0 + 0·0
(1, 1, 1, 1, 0) cos(D1, C) = = 0.5
RC(4) · RC(1)
Documento 2: 0·0 + 0·0 + 1·1 + 0·0 + 0·0
(0, 0, 1, 1, 1) cos(D1, C) = = 0.57
RC(3) · RC(1)
Consulta:
(0, 0, 1, 0, 0)


Ejemplo
Y obtenemos un ranking de resultados

Resultados ordenados:
Documento 2
Documento 1


¿Alguna pregunta?


la Información


¿Qué?

Tokenizar: Separar las palabras o elementos a indizar

Normalizar: Estandarizar la forma de escribir algunas cosas. P.e.
eliminar las tildes, cambiar de mayúsculas a minúsculas, etc.


¿Por qué?

Tokenizar: Necesitamos tener unidades indizables para
utilizarlas como base de nuestra representación. Pueden ser
palabras, frases, n-gramas, etc.

Normalizar: El lenguaje es muy ﬂexible, y además es muy
corriente cometer errores de algún tipo. La normalización nos
provee una forma de “eliminar” estos problemas.


¿Cómo tokenizar?

Forma simple: utilizar un Tokenizador que separe por caracteres
clave (p.e. espacios, signos de puntuación, etc.)
En java se haría con un String Tokenizer
Si en lugar de palabras, queremos separar frases, la cosa es
algo más compleja (dependiendo del tipo de frase)
Análisis del lenguaje


¿Cómo normalizar?

Por lo general aplicando reglas heurísticas
P.e. Cambiar todas las vocales acentuadas por vocales sin
acentuar
Pasar las mayúsculas a minúsculas
Eliminar “palabras vacías”


Palabras vacías

Las palabras muy frecuentes no aportan semántica
Artículos, pronombres, conjunciones, etc.
Las apariciones de las 10 palabras más frecuentes del inglés
constituyen un 20/30% de un documento
Se suelen incluir en una lista de parada
Estas listas se obtienen a partir de un córpora representativo del
idioma

Normalización morfológica

Múltiples palabras son variaciones morfológicas, con idéntico
signiﬁcado
Los stemmers (extractores de raíces), normalizan a una forma
canónica, p.e.
analizar, análisis, analizador... => ‘anali’
Algoritmo de Porter, SnowBall


Normalización “avanzada”

En función del idioma, podemos aplicar reglas de normalización
que permitan una mejor recuperación (p.e. tolerante a errores)
P.e., para el Castellano
Eliminar las ‘h’
Cambiar ‘v’ por ‘b’
Cambiar ‘ll’ por ‘y’
Esto aumenta el recall pero puede bajar la precisión

la Información

Indexación

Indexación
Indexación

Los índices son necesarios para poder realizar las consultas en
tiempos aceptables
Generan un “overhead” en cuánto a almacenamiento
2 tipos de índices importantes
Directos
Inversos


Indexación
Indice directo

Pal1 Pal2 Pal3 Pal4

Doc1 1 1 0 0

Doc2 0 1 0 0

Doc3 1 0 1 0

Doc4 0 0 0 1

Indexación
Indice inverso

Doc1 Doc2 Doc3 Doc4

Pal1 1 1 0 0

Pal2 0 1 0 0

Pal3 1 0 1 0

Pal4 0 0 0 1

Indexación
¿Cuál es mejor?

Cada uno tiene sus pros y sus contras
Sin embargo, el inverso es muy eﬁciente en consulta (nos
interesa más)
El inverso es el que se suele implementar en la práctica (p.e.
Google)


la Información


Introducción

Es un modelo más soﬁsticado que el Booleano
Se basa en el álgebra vectorial
La representación se realiza en base a vectores de pesos de
términos


Introducción

Cálculo de similitud: el coseno de los vectores que forman el
documento y la consulta


Introducción


Bibliografía
Adicional

Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern information
retrieval. Addison-Wesley, 1999 (Z699.35 .I53 B34 Biblioteca
UEM, ediﬁcio C).
Raymond Mooney. Basic Tokenizing, Indexing and
Implementation of Vector-Space Retrieval. Tema 3 de su curso en
IR.
http://www.cs.utexas.edu/~mooney/ir-course/slides/Evaluation.ppt


Resumen de Técnicas Básicas de Recuperación de Buscador

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (12)

Más de Jose Carlos Cortizo Perez

Más de Jose Carlos Cortizo Perez (20)

Último

Último (20)

Resumen de Técnicas Básicas de Recuperación de Buscador