Baeza-Yates, R.-Ribeiro-Neto, B. Modern information retrieval. Addison Press: New York, 1999.
Capítulo 1: Introducción
Trad. de Ana Sanllorenti
1.1 Motivación
La RI tiene que ver con la representación, almacenamiento, organización y acceso a ítems de
información. La representación y organización de los ítems debería proveer al usuario de un acceso
fácil a la información sobre la que está interesado. Pero la caracterización de lo que es la
“necesidad de información” no es un problema simple. Consideremos, por ejemplo, la siguiente
necesidad de información hipotética en el contexto de la Web:
Encuentre todas las páginas (documentos) que contengan información sobre equipos
de tenis en colleges: 1) Que sean soportados por una universidad en los EEUU y 2)
que participen del torneo de tenis NCAA. Para ser relevante, la página debe incluir
información sobre el ranking nacional de equipos en los últimos tres años y la
dirección electrónica o número de teléfono del entrenador del equipo.
Esta descripción de una necesidad de información de un usuario no puede ser directamente utilizada
para pedir información en una interfaz de los motores de búsqueda correintes. Por el contrario, el
usuario debe primero traducir esta necesidad de información ea una consulta que pueda ser
procesada por un motor de búsqueda o sistema de RI.
En general esto se produce mediante un conjunto de palabras clave, términos de índice o de
indexación que sumarizan la descripción de la necesidad de información del usuario. Una vez
formulada esta consulta, la meta de un sistema de RI es recuperar la información que podría ser útil
o relevante para el usuario. Ponemos el énfasis en la recuperación de información como opuesta a la
recuperación de datos.
1.1.1 Recuperación de información versus Recuperación de datos
La recuperación de datos, en el contexto de los sistemas de RI, consiste principalmente en
determinar cuáles documentos de una colección contienen las palabras clave que están en la
ecuación de búsqueda. Pero esto, con frecuencia, no es suficiente para satisfacer la necesidad de
información del usuario. De hecho, el usuario de un sistema de RI quiere recuperar información
acerca de un tema, más que encontrar documentos que cumplan con una consulta o ecuación de
búsqueda. Un lenguaje de recuperación de datos pretende recuperar todos los objetos que satisfacen
condiciones claramente definidas tales como los de una expresión regular o expresiones de álgebra
regular. Por lo tanto, en un sistema de recuperación de datos, un único error entre miles de objetos
recuperados, significaría una falla completa. Para un sistema de recuperación de información sin
embargo, los objetos recuperados podrían ser inexactos o contener pequeños errores y serían
igualmente recuperados. La principal razón de esta diferencia es que la recuperación de información
tiene que ver con el texto del lenguaje natural que no siempre está bien estructurado y podría ser
semánticamente ambiguo. Por otra parte, un sistema de recuperación de datos (como una base
relacional) tiene que ver con datos que tienen una estructura bien definida y una semántica más
precisa.
La recuperación de datos, si bien provee una solución al usuario de un sistema de bases de datos, no
resuelve el problema de recuperar información acerca de un tema o tópico. Para ser eficaz en el
intento de satisfacer la necesidad de información del usuario, un sistema de RI debe “interpretar” de
algún modo el contenido de los ítems de información (documentos) en una colección y rankearlos
de acuerdo a su grado de relevancia con respecto a una consulta. Esta “interpretación” del contenido
de un documento comprende la extracción de información sintáctica y semántica de los textos de
los documentos y la utilización de esta información para hacerla corresponder (matching) con la
necesidad de información del usuario. La dificultad consiste tanto en cómo extraer esta información
y cómo utilizarla para establecer la relevancia de los documentos. Es por esto que relevancia está
en el centro de la RI. La meta principal de un RI es encontrar todos los documentos que son
relevantes respecto de una consulta del usuario y evitar en la mayor medida, recuperar documentos
no relevantes.
1.1.2 La Recuperación de Información en el centro del escenario
En los últimos 20 año el área de la RI ha crecido mucho desde su preocupación inicial por indexar
texto y buscar documentos útiles en una colección. En el presente, la investigación en RI incluye
modelización, clasificación y categorización de documentos, arquitectura de sistemas, interfaces de
usuario, visualización de datos, filtrado, lenguajes etc. A pesar de su madurez, hasta hace muy poco,
la RI era vista como una específica área de interés principal para bibliotecarios y expertos en
información. Esta visión prevaleció por muchos años, a pesar de la difusión que tuvieron entre los
usuarios de las computadoras personales, las herramientas de RI en aplicaciones multimedia e
hipertextuales. A principios de los 90, un hecho simple cambió de una vez estas percepciones: la
introducción de la World Wide Web.
La Web se transformó en un repositorio del conocimiento humano y la cultura que permitió la
posibilidad de compartir ideas e información en una escala sin precedentes. Su éxito se basa en el
uso de una interfaz estándar que es siempre la misma sin importar el medio computacional que se
utiliza para correrla. Como resultado el usuario no tiene que vérselas con protocolos de
comunicación, localización de computadoras y sistemas operativos. Mas aún, cualquier usuario
puede crear documentos Web y vincularlos con otros documentos Web sin restricciones. Este es un
aspecto clave ya que convierte a la Web en un medio de publicación accesible a todos. Este
universo sin fronteras ha convocado la atención de millones de personas en todas partes desde el
comienzo. Además, está causando una revolución en la manera que la gente utiliza las
computadoras y realiza sus actividades cotidianas. Por ejemplo, las compras y las operaciones en
los bancos se han difundido enormemente y han generado varios millones de dólares de ganancias.
A pesar de este éxito, la Web ha introducido nuevos problemas: encontrar información útil en la
Web es tedioso y difícil. Por ejemplo, para satisfacer una necesidad de información el usuario debe
navegar en el espacio de vínculos Web (el hiperespacio) buscando información de interés. Sin
embargo, como el hiperespacio es muy vasto y casi desconocido, la tarea de navegación es
generalmente ineficiente. Para usuarios iniciales, el problema puede frustrar completamente sus
esfuerzos. El principal obstáculo es la ausencia de un modelo de datos bien definido, lo que implica
que la definición y la estructura de la información es frecuentemente de baja calidad. Estas
dificultades han renovado el interés en la RI y sus técnicas como posibilidades de solución. Como
resultado, la RI ha vuelto a ocupar, junto a otras tecnologías, el centro de la escena.
1.1.3 El foco del libro
A pesar del incremento del interés por la RI, los textos modernos sobre el tema con una cobertura
amplia de varios tópicos son todavía difíciles de encontrar. En un intento de cerrar parcialmente esta
brecha, este libro presenta una mirada general de la investigación en RI desde una perspectiva de un
científico de la computación. La mayoría del libro está dedicado a este punto de vista. El punto de
vista centrado en el aspecto humano, se presenta en los dos últimos capítulos.
Hemos puesto gran énfasis en la integración de las diferentes áreas que están vinculadas con el
problema de la RI. Por esta razón, además de la cobertura de la recuperación de textos, sistemas
bibliotecarios, interfaces del usuario y la Web, el libro también discute la visualización, la
recuperación multimedia y las bibliotecas digitales.
1.2 Conceptos básicos
La recuperación de información relevante está afectada tanto por las tareas del usuario como por la
visión lógica de los documentos adoptada por el sistema de recuperación.
Fig. 1.1 Interacción del usuario con el sistema de recuperación a través de distintas tareas
1.2.1 La tarea del usuario
El usuario tiene que traducir su necesidad de información a una consulta, en el lenguaje provisto por
el sistema. Dentro de un sistema de RI esto significa que debe especificar un conjunto de palabras
que conllevan la semántica de la necesidad de información. En un sistema de recuperación de datos
se usa una expresión de búsqueda, por ejemplo, una expresión regular para expresar las
especificaciones que deben ser satisfechas por los objetos en el conjunto resultante. En ambos
casos, decimos que el usuario busca información útil ejecutando una tarea de recuperación.
Consideremos un usuario que tiene un interés que está pobremente definido o es muy amplio. Por
ejemplo, el usuario puede estar interesado en documentos acerca de carreras de automóviles en
general. En esta situación el usuario debe utilizar una interfaz interactiva para revisar en una
colección, y buscar documentos relacionados con ese tema. Por ejemplo, podría encontrar
interesantes documentos acerca de careras de Fórmula 1, acerca de la fabricación de automóviles, o
acerca de las “24 horas de Le Mans”. Mas aún, mientras está leyendo sobre las “24 horas de Le
Mans”, podría derivar su atención a un documento que muestra direcciones en Le Mans y, desde
allí, a documentos que cubren temas de turismo en Francia. En esta situación, decimos que el
usuario está realizando un browsing en los documentos de la colección, y no una búsqueda. Si bien
se trata de un proceso dentro de la recuperación de información, sus principales objetivos no están
claramente definidos al principio y su propósito puede variar durante la interacción con el sistema.
En este libro hacemos una diferenciación clara entre las diferentes tareas que realiza el usuario en la
recuperación de información. Esta tarea puede ser de dos diferentes tipos: recuperación de
información o de datos, y browsing. Los sistemas clásicos de recuperación de información
generalmente permiten la recuperación de información o de datos. Los sistemas de hipertexto
permiten un rápido browsing. Las bibliotecas digitales y las interfaces Web intentan combinar
ambas tareas para proporcionar capacidades de recuperación mejoradas. Pero la combinación entre
recuperación y browsing todavía no está bien establecida ni es el paradigma dominante.
Usuario
Recuperació
n
Browsing
Base
de
datos
La Figura 1.1 ilustra la interacción del usuario a través de las diferentes tareas. La recuperación de
información y de datos son usualmente provistas por la mayoría de los sistemas de RI modernos
(como las interfaces Web). Esos mismos sistemas pueden también proveer formas de browsing,
aunque limitado.
Recuperación y browsing, en el lenguaje de la Web, son acciones “pull” (el usuario debe “tirar
hacia él”). Esto significa que el usuario pide la información de una manera interactiva. Una
alternativa es hacer recuperación de información de un modo automático y permanente, a través de
los agentes de software que “push” (empujan) información hacia el usuario. Por ejemplo, la
información útil para el usuario es extraída periódicamente desde un servicio de noticias. En este
caso decimos que el sistema ejecuta una tarea de recuperación que consiste en el “filtrado” de
información relevante para una revisión posterior por el usuario. Discutimos brevemente el filtrado
en el Capítulo 2.
1.2.1 La visión lógica de los documentos
Debido a razones históricas, los documentos en una colección son representados a través de un
conjunto de términos de indización o palabras clave. Tales palabras clave pueden ser extraídas
directamente del texto de los documentos o pueden ser asignadas por una persona. Sin importar si
estas palabras representativas son asignadas de forma automática o por un especialista humano,
brindan una visión lógica del documento. Para una definición precisa del concepto de un documento
y sus características, ver Capítulo 6.
Las computadoras modernas han hecho posible re presentar un documento por su texto completo.
En este caso, decimos que el sistema de recuperación adopta una visión lógica (o representación) de
texto completo. Sin embargo, en colecciones muy grandes, aún las computadoras modernas pueden
tener que reducir el conjunto de palabras clave representativas. Esto puede obtenerse a través de:
eliminación de listas de palabras vacías, el uso de stemming (sematización o reducción de las
distintas formas de las palabras a una raíz gramatical común), y la identificación de grupos
nominales (que elimina adjetivos, adverbios y verbos). También pueden utilizarse técnicas de
compresión de los textos. Estos procedimientos se denominan operaciones textuales (o
transformaciones) están tratadas en el Capítulo 7. Las operaciones textuales reducen la complejidad
de la representación de los documentos y permiten cambiar la visión lógica de los mismos desde el
texto completo hasta un conjunto de términos de indexación
El texto completo es la visión lógica más completa de un documento pero implica altos costos
computacionales. Un pequeño conjunto de categorías generadas por un especialista humano es la
más concisa visión lógica, pero su uso puede significar una recuperación pobre. De un extremo al
otro, existen visiones intermedias, como puede verse en la Figura 1.2. Además de adoptar cualquier
representación intermedia, el sistema de recuperación puede también reconocer la estructura interna
presentada en un documento (capítulos, secciones, etc.). Esta información es muy útil y es requerida
por los modelos de recuperación de texto estructurado, tal como se presenta en el Capítulo 2.
Como se ilustra en la Figura 1.2, vemos la cuestión de representar lógicamente un documento como
un continuo desde la representación en texto completo hasta un nivel especificado por un ser
humano.
Fig. 1.2 Visión lógica de los documentos: desde el texto completo al conjunto de términos de indexación
1.3 Pasado, presente y futuro
1.3.1 Primeros desarrollos
Durante casi 4.000 años el hombre ha organizado información para su posterior recuperación y uso.
Un ejemplo típico es la tabla de contenido de un libro. Como el volumen de información creció, se
hizo necesario construir estructuras especializadas de datos para asegurar un acceso rápido a la
información almacenada. Un ejemplo antiguo y difundido es este tipo de estructuras consiste en una
selección de palabras seleccionadas o conceptos con punteros que remiten a información
relacionada (o documentos): el índice. De una forma u otra, los índices se encuentran en el corazón
de todo sistema moderno de recuperación de información. Los índices proveen un acceso rápido a
los datos y permiten la tarea de procesamiento de las consultas. En el Capítulo 8 se hace una
detallada cobertura de los índices y su utilización para la búsqueda.
Durante siglos, se crearon índices de forma manual con la forma de jerarquías de categorías. La
mayoría de las bibliotecas todavía utilizan alguna forma de estas jerarquías para clasificar sus
volúmenes o documentos. Tales jerarquías fueron concebidas por seres humanos a partir de los
campos de las ciencias que cubrían los materiales en las bibliotecas. Más recientemente, el
advenimiento de las computadoras modernas hizo posible la construcción de grandes índices de
modo automático. Los índices automáticos muestran una visión del problema de la recuperación
mucho más vinculada con el sistema mismo que con la necesidad del usuario. Al respecto, es
importante distinguir entre dos diferentes visiones del problema de RI: la visión centrada en la
computadora y la centrada en el ser humano.
En la visión centrada en la computadora, el problema de la RI consiste principalmente en construir
índices eficientes, procesar consultas con alto rendimiento, y desarrollar algoritmos de ranking que
mejoren la calidad del conjunto resultante. En la visión centrada en el hombre, el problema consiste
principalmente en estudiar el comportamiento del usuario, comprender sus principales necesidades
y determinar de qué manera esa comprensión afecta la organización y operación del sistema de
recuperación. Desde este punto de vista, el procesamiento de consultas basado en palabras clave no
se ve como una estrategia que conduzca a una solución al problema de la recuperación de
información en el largo plazo.
Este libro se centra en la visión basada en la computadora ya que es la dominante en el mercado.
1.3.2 RI en la Biblioteca
Las bibliotecas están entre las primeras instituciones que adoptaron sistemas de RI para recuperar
información. En general, estos sistemas fueron desarrollados inicialmente por instituciones
académicas y más tarde por empresas comerciales. En la primera generación, tales sistemas
consistieron básicamente en la automatización de recursos tecnológicos más antiguos, tales como
las fichas catalográficas, y en forma básica permitían búsquedas basadas en el nombre del autor o el
título. En la segunda generación, se incrementó la funcionalidad de búsqueda a través de
encabezamientos de materia, palabras clave, y algunas otras facilidades de consulta más compleja.
En la tercera generación, que se encuentra actualmente en desarrollo, el foco se encuentra en la
mejora de interfaces gráficas, formatos electrónicos, características de hipertexto y arquitectura
abierta de sistemas.
Los vendedores tradicionales de sistemas de administración de bibliotecas incluyen a Endeavor
Information Systems Inc., Innovative Interfaces Inc., y EOS International. Entre los desarrollos de
sistemas orientados a bibliotecas académicas, se distinguen Okapi (en la City University, Londres),
MELVYL (de la Universidad de California), y Chishire II (de la Universidad de Berkeley).
1.3.3 La Web y las bibliotecas digitales
Si consideramos los motores de búsqueda actuales en la Web, podemos concluir en que continúan
utilizando índices que son bastante similares con los utilizados por los bibliotecarios un siglo atrás.
¿Qué es lo que ha cambiado?
Tres cambios fundamentales se produjeron en relación con los avances en las computadoras
modernas y el boom de la Web. Primero, es mucho más barato tener acceso a varias fuentes de
información, lo que ha permitido una audiencia mucho más amplia que en cualquier tiempo
anterior. Segundo, los avances en toda clase de comunicaciones digitales proveen acceso amplio a
las redes. Esto implica que las fuentes de información están disponibles aún si se encuentran
lejanas, y el acceso es muy rápido (frecuentemente, en segundos). Tercero, la libertad de editar
cualquier tipo de información que cualquiera considere útil ha contribuido a la popularidad de la
Web. Por primera vez en la historia, mucha gente tiene acceso libre a un gran medio de publicación.
El bajo costo, amplio acceso, y la libertad de publicación han permitido a la gente utilizar la Web y
las bibliotecas digitales como un medio altamente interactivo. Esta interactividad permite
intercambiar mensajes, fotos, documentos, software, videos y “chatear” a costos bajos. Mas aún, las
personas pueden hacerlo en el horario de su conveniencia. La alta interactividad es el cambio
fundamental en el paradigma de comunicación. Las búsquedas en la Web se cubren en el Capítulo
13.
Para el futuro se plantean tres cuestiones. Primero, a pesar de la alta interactividad las personas
todavía encuentran difícil (si no imposible) recuperar información relevante respecto de sus
necesidades de información. Entonces, ¿qué técnicas permitirán una recuperación de alta calidad?.
Segundo, con el crecimiento continuo de la demanda de acceso las respuestas rápidas se convierten
en un factor de presión. Entonces, ¿Qué técnicas producirán índices más rápidos y tiempos de
respuesta menor?. Tercero, la calidad de la recuperación es afectada en gran medida por la
interacción del usuario con el sistema. Entonces, ¿Cómo afectará al diseño de nuevas estrategias de
RI, el conocimiento sobre el comportamiento del usuario?
1.3.4 Aspectos prácticos
El comercio electrónico es la principal tendencia de la actualidad en la Web. En una transacción
electrónica, el comprador tiene que enviar por la Web al vendedor alguna forma de información de
crédito que pueda ser usada para cargar el producto o servicio. Generalmente esta información es el
número de su tarjeta de crédito. Sin embargo, como esta transmisión ha mostrado no ser demasiado
segura, esos datos pueden transmitirse por fax. Esto implica que, por lo menos al principio, la
transacción entre un nuevo usuario y un vendedor requiere ejecutar algún procedimiento fuera de
línea, antes que la transacción pueda completarse. Esta situación puede mejorarse si los datos son
encriptados por seguridad. Algunas instituciones y compañías ya proveen alguna forma de
encriptación o autenticación automática por razones de seguridad
Pero la seguridad no es la única cuestión. Otro tema de gran interés es la privacidad. Con
frecuencia, las personas desean intercambiar información siempre y cuando este intercambio no se
haga público. Las razones son muchas pero la principal es protegerse de una mala utilización de la
información privada por parte de terceros. En consecuencia, la privacidad es otra cuestión que
afecta el desarrollo de la Web.
Otros dos temas importantes son el derecho de autor y los derechos de patentes. No está claro aún
como la distribución amplia de datos en la Web afecta a las leyes de derechos de autor y patentes en
los diferentes países. Esto es importante porque afecta el aspecto de negocios de la construcción de
grandes bibliotecas digitales. Por ejemplo, ¿ un sitio que supervisa la información que linkea, es un
editor?. Y si no lo es, ¿es responsable de una mala utilización de la información que linkea (aunque
no sea la fuente original)?.
Existen además otras cuestiones prácticas de interés como el escaneado, el reconocimiento óptico
de caracteres (OCR), la recuperación en varias lenguas (en la cual la consulta está en una lengua
pero los documentos recuperados están en otras lenguas). En este libro no cubrimos estos aspectos
en detalle. Para ellos es posible leer el interesante libro de Lesk [501].
1.4 El proceso de recuperación
Ahora estamos listos para detallar nuestra visión del proceso de recuperación. Este proceso es
interpretado en términos de subprocesos componentes cuyo estudio conduce a los varios capítulos
de este libro.
Para describir el proceso de recuperación, utilizamos la figura 1.3. En primer lugar, antes que el
proceso de recuperación pueda ser iniciado, es necesario definir la base de datos textual: a)
especificación de los documentos que serán utilizados; b) las operaciones que se ejecutarán sobre el
texto; c) el modelo de texto (la estructura del texto y los elementos que serán recuperados). Las
operaciones sobre los textos transforman los documentos originales y generan la visión lógica de los
mismos.
Fig. 1.3 El proceso de recuperación de información
Una vez que se ha definido la visión de los documentos, el programa administrador de base de datos
construye un índice del texto. Un índice es una estructura de datos crítica ya que permite búsquedas
rápidas en grandes volúmenes de datos. Puede haber diferentes estructuras de índices. El más
popular es el “archivo invertido”. Los recursos (tiempo y espacio de almacenamiento) utilizados en
definir la base de datos textual y construir el índice son amortizados a través de las repetidas
consultas el sistema.
Una vez que la base de datos se encuentra indexada, puede iniciarse el proceso de recuperación. El
usuario primero especifica una necesidad de información que es analizada sintácticamente
(parseada) y transformada por las mismas operaciones de texto que se aplicaron a los textos.
Entonces se efectúan las operaciones sobre la consulta, antes de que se ejecute la consulta que
provee una representación para el sistema, de la necesidad del usuario. Luego se ejecuta la consulta
para obtener los documentos recuperados. La velocidad de este proceso se hace posible por la
estructura del índice previamente construido.
Antes de ser enviados al usuario los documentos recuperados son rankeados de acuerdo a una
probabilidad de relevancia. El usuario examina el conjunto de documentos en búsqueda de
información útil. En este punto, el usuario puede localizar un subconjunto de documentos de interés
e iniciar un ciclo de retroalimentación con el sistema. En ese ciclo, el sistema utiliza los documentos
seleccionados por el usuario para cambiar la formulación de la consulta. Puede esperarse que esta
consulta modificada sea una mejor representación de la necesidad real del usuario.
En las interfaces disponibles en los actuales sistemas de recuperación de información, incluyendo
los motores de búsqueda y los navegadores Web, el usuario casi nunca declara su necesidad de
información. En cambio, se le requiere proveer una representación directa de la consulta que el
sistema ejecutará. Como la mayoría de los usuarios no tienen conocimiento de las operaciones
realizadas con los textos ni con las consultas, con frecuencia la consulta que formulan es
inadecuada. Y entonces es probable que la recuperación sea pobre (lo que sucede a menudo en la
Web).
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
1.5.2 Los capítulos del libro
... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
En el enfoque tradicional basado en palabras clave, el usuario especifica su necesidad de
información proveyendo un conjunto de palabras clave y el sistema recupera los documentos que
mejor se aproximan a su pregunta. Asimismo el sistema puede intentar ordenar los documentos
recuperados usando alguna medida de relevancia. Esta tarea de rankeo es crítica en el proceso de
intentar satisfacer la necesidad de información del usuario y es la principal meta de los “modelos”
de RI. Estos modelos se discuten en el Cap. 2. Se introducen muchos de los conceptos
fundamentales en RI y se establecen las bases que subyacen en los siguientes capítulos. Nuestra
cobertura es detallada y amplia.
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
Una vez que se concibe un algoritmo de recuperación, es necesario evaluar su rendimiento. Las
estrategias tradicionales de evaluación intentan estimar el costo del nuevo algoritmo en términos de
tiempo y espacio. En un sistema de RI, sin embargo, existe el aspecto de evaluar la relevancia de los
documentos recuperados. Para este propósito, se utilizan las colecciones de referencia de textos y
los procedimientos de valuación basados en variables diferentes al tiempo y espacio. El Capítulo 3
se dedica a la discusión de la evaluación de la recuperación.
En RI tradicional, las consultas se expresan normalmente a través de un conjunto de palabras clave.
Sin embargo, la simplicidad de este enfoque dificulta la formulación de consultas más elaboradas.
Por ejemplo, las consultas que se refieren tanto a los contenidos como a la estructura de los textos
no pueden formularse. Para lograr superar las deficiencias de las búsquedas tradicionales (por
ejemplo para poder referirse a la estructura y al contenido del documento de modo discriminado), se
requieren lenguajes de consulta más sofisticados, que se desarrollan en el Cap. 4. La estructura de
los documentos se define mediante los lenguajes de marcado como el SGML. El Cap. 6 se refiere a
los lenguajes del texto.
La recuperación basada en palabras clave suele ser de baja calidad, por dos posibles razones. Una,
que el usuario compone su búsqueda de términos que son insuficientes para caracterizar el contexto
de la búsqueda, por ejemplo en la Web. Este problema se aborda con transformaciones de la
búsqueda tales como las expansiones de la búsqueda y la retroalimentación por relevancia del
usuario. Estas operaciones de búsqueda se discuten en el Cap. 5. En segundo término, el conjunto
de términos generados para un documento dado suelen fallar en resumir su contenido semántico de
forma apropiada. Este problema es tratado mediante transformaciones en el texto tales como la
identificación de grupos de sustantivos a ser utilizados como palabras clave, el stemming, y el uso
de tesauros. También pueden aplicarse técnicas de compresión de texto. Todo esto es tratado en el
Cap. 7.
Dada la consulta del usuario, el sistema de información tiene que recuperar los documentos que se
relacionan con esa consulta. Las colecciones de documentos muy grandes (por ejemplo la Web que
se compone de millones de documentos) hacen necesarias técnicas de indexación especializadas
para hacer eficiente los resultados de las búsquedas. Las técnicas apropiadas para la indexación y
búsqueda se presentan en el Cap. 8. En el Cap. 9 se presentan técnicas de RI paralela y distribuida
para mejorar el procesamiento de las búsquedas.
Las interfaces modernas implementan estrategias para asistir al usuario a formular su búsqueda. El
principal objetivo es permitir al usuario definir más precisamente el contexto asociado con su
necesidad de información. Consideremos, por ejemplo, el problema de encontrar información útil
en forma rápida en la Web. La navegación en el hiperespacio no es una buena solución debido a la
falta de una estructura lógica y semántica bien definida. Un enfoque difundido para especificar una
consulta en la Web consiste en indicar un conjunto de palabras para que se realice la búsqueda.
Lamentablemente, el número de palabras que ingresa un usuario común es bajo (no más de cuatro
palabras, por lo general) con lo que el resultado suele ser vago. Esto significa que los nuevos
paradigmas de interfaces de usuario deben asistir en este proceso. Mas aún, como el resultado de
estas consultas vagas son miles de documentos, la forma de ver los documentos como una lista que
debe revisarse es muy inadecuada. Para enfrentar este problema, en los últimos años se han
propuesto nuevos paradigmas para la visualización de datos. La principal tendencia al respecto es la
visualización de una vez, de grandes conjuntos de documentos y la manipulación directa de estos
objetos. Las interfaces de usuario y las formas de visualizar y seleccionar la información recuperada
se presentan en el Cap. 10.
Respecto de las técnicas de RI para datos multimedia la clave es como modelizar, indexar y buscar
documentos que contienen objetos multimedia tales como voces, imágenes, y toros datos binarios.
Estos temas se discuten en los capítulos 11 y 12.
Los últimos capítulos se dedican a las aplicaciones de la RI: Cap. 13: principales problemas de las
búsquedas en la Web y particularidades de los motores de búsqueda. El Cap. 14 cubre las bases de
datos documentales comerciales y los OPACS. El Cap. 15 discute las modernas bibliotecas
digitales: cuestiones de arquitectura, modelos, prototipos y normas, así como la introducción del
modelo “5S” (stream, structures, spaces, scenarios and societies) como marco para una unificación
teórica y práctica de las bibliotecas digitales.
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
1.6.2 La página Web de este libro
Como la RI es un área muy dinámica, un libro no es suficiente. Por esta razón (y muchas otras), el
libro tiene una página Web localizada y copiada en los siguientes lugares (se prevén copias en
EEUU y en Europa):
• Brasil: http://www.dcc.ufmg.br/irbook
• Chile: http://sunsite.dcc.uchile.cl/irbook
Son bienvenidos comentarios, sugerencias, contribuciones o señalamiento de errores a través de
correo electrónico con los autores.
La página Web contiene la Tabla de Contenido, el Prefacio, los Agradecimientos, la Introducción,
el Glosario y otros apéndices del libro. También se incluyen ejercicios y materiales para la
enseñanza que serán incrementados con el tiempo. Adicionalmente se encuentra disponible una
colección de referencia (que contiene q239 documentos y 100 pedidos de información con una
evaluación de relevancia [721]. Además, la página incluye vínculos a programas de RI en diferentes
universidades, grupos de investigación en RI, publicaciones en RI y otros recursos relacionados.
Los resultados importantes u otras adiciones al libro, así como fe de erratas serán publicados en este
medio.
1.7 Discusión bibliográfica
Han sido escritos muchos otros libros sobre RI, y debido al amplio interés actual en el tema, han
aparecido recientemente nuevos libros. En lo que sigue, comparamos brevemente nuestro libro con
esto trabajos previamente publicados.
Las referencias clásicas en el campo de la RI son los libros de van Rijsbergen [785] y Salton y
McGill [698]. Nuestra distinción entre recuperación de información y recuperación de datos la
hemos tomado del primero. Nuestra definición del proceso de RI está influenciada por el último.
Sin embargo, casi 20 años más tarde, ambos libros están desactualizados y no cubren muchos de los
nuevos desarrollos en RI.
Más recientemente se han editado tres libros, que son referencia en RI: el de Frakes y Baeza-Yates
[275], el libro de Witten, Moffat y Bell [825] y el libro de Lesk [501]. Los tres son
complementarios de este libro. El primero se dedica a las estructuras de datos y algoritmos de RI. El
segundo se focaliza en indexación y compresión, y cubre las imágenes que parecen junto al texto. El
tercero se dedica a las bibliotecas digitales y algnas cuestiones prácticas relacionadas tales como su
historia, distribución, usabildad, economía y derecho de autor. El libro de Allen [13] se refiere a los
sistemas de información y al problema de las visiones centradas en la computadora o centrada en la
recuperación del usuario.
Existen otros libros complementarios de capítulos específicos. Por ejemplo, libros sobre RI e
hipertexto. O sobre recuperación de multimedia. El libro de Rosenfeld y Morville [682] sobre
arquitectura de información en la Web, es un buen complemento de nuestro capítulo sobre
búsquedas en la Web. Ellibro de Menasce y Almeida [554] demuestra cómo utilizar la teoría de las
colas para predecir el rendimiento de un servidor Web. Adicionalmente, hay muchos libros que
explican cómo encontrar información en la Web y cómo utilizar los motores de búsqueda.
El libro de referencia editado por Sparck Jones y Willet [414] es más una colección de papers que
un libro estructurado. La coherencia y cobertura de nuestro libro lo hace más apropiado como un
libro de texto en una disciplina formal. Una colección de papers sobre RI en diferentes lenguas se
editó recientemente, a cargo de Grefenstette [232], y es un buen complemento del nuestro para
gente interesada en ese tema. Recientemente fue editada una colección que se ocupa de la RI
inteligente, a cargo de Maybury [550] y aparecerá pronto otra sobre RI en lenguaje natural editada
por Strzalkowski [748].
El libro de Korfhage [451] cubre menos material y no es tan detallada como la nuestra. Por ejemplo,
no incluye detalles sobre bibliotecas digitales, la Web, multimedia o el procesamiento paralelo. El
libro de Kowalski [459] y el de Shapiro y otros [719], no cubre estos tópicos en detalle y tiene otra
orientación. El reciente libro de Grossman y Frieder [326] no discute la Web, las bibliotecas
digitales ni las interfaces visuales.
Para aquellos interesados en los resultados de investigación, las principales publicaciones
periódicas sobre RI son: Journal of the American Society of Information Science (JASIS), ACM
Transactions on Informations Systems, Information Processing and Management (Elsevier),
Information Systems (Elsevier), Information Retrieval (Kluwer) y Knowledge and Information
Systems (Springer). Las principales conferencias son: ACM SIGIR International Conference on
Information Retrieval, ACM International Conference on Digital Libraries (ACM DL), ACM
Conference on Information Knowledge and Management (CIKM), y Text Retrieval Conference
(TREC). Con respecto a eventos de influencia regional, nos gustaría agradecer al SPIRE
Symposium (South American Symposium on String Processing and Information Retrieval

05 baeza cap1

  • 1.
    Baeza-Yates, R.-Ribeiro-Neto, B.Modern information retrieval. Addison Press: New York, 1999. Capítulo 1: Introducción Trad. de Ana Sanllorenti 1.1 Motivación La RI tiene que ver con la representación, almacenamiento, organización y acceso a ítems de información. La representación y organización de los ítems debería proveer al usuario de un acceso fácil a la información sobre la que está interesado. Pero la caracterización de lo que es la “necesidad de información” no es un problema simple. Consideremos, por ejemplo, la siguiente necesidad de información hipotética en el contexto de la Web: Encuentre todas las páginas (documentos) que contengan información sobre equipos de tenis en colleges: 1) Que sean soportados por una universidad en los EEUU y 2) que participen del torneo de tenis NCAA. Para ser relevante, la página debe incluir información sobre el ranking nacional de equipos en los últimos tres años y la dirección electrónica o número de teléfono del entrenador del equipo. Esta descripción de una necesidad de información de un usuario no puede ser directamente utilizada para pedir información en una interfaz de los motores de búsqueda correintes. Por el contrario, el usuario debe primero traducir esta necesidad de información ea una consulta que pueda ser procesada por un motor de búsqueda o sistema de RI. En general esto se produce mediante un conjunto de palabras clave, términos de índice o de indexación que sumarizan la descripción de la necesidad de información del usuario. Una vez formulada esta consulta, la meta de un sistema de RI es recuperar la información que podría ser útil o relevante para el usuario. Ponemos el énfasis en la recuperación de información como opuesta a la recuperación de datos. 1.1.1 Recuperación de información versus Recuperación de datos La recuperación de datos, en el contexto de los sistemas de RI, consiste principalmente en determinar cuáles documentos de una colección contienen las palabras clave que están en la ecuación de búsqueda. Pero esto, con frecuencia, no es suficiente para satisfacer la necesidad de información del usuario. De hecho, el usuario de un sistema de RI quiere recuperar información acerca de un tema, más que encontrar documentos que cumplan con una consulta o ecuación de búsqueda. Un lenguaje de recuperación de datos pretende recuperar todos los objetos que satisfacen condiciones claramente definidas tales como los de una expresión regular o expresiones de álgebra regular. Por lo tanto, en un sistema de recuperación de datos, un único error entre miles de objetos recuperados, significaría una falla completa. Para un sistema de recuperación de información sin embargo, los objetos recuperados podrían ser inexactos o contener pequeños errores y serían igualmente recuperados. La principal razón de esta diferencia es que la recuperación de información tiene que ver con el texto del lenguaje natural que no siempre está bien estructurado y podría ser semánticamente ambiguo. Por otra parte, un sistema de recuperación de datos (como una base relacional) tiene que ver con datos que tienen una estructura bien definida y una semántica más precisa. La recuperación de datos, si bien provee una solución al usuario de un sistema de bases de datos, no resuelve el problema de recuperar información acerca de un tema o tópico. Para ser eficaz en el intento de satisfacer la necesidad de información del usuario, un sistema de RI debe “interpretar” de algún modo el contenido de los ítems de información (documentos) en una colección y rankearlos
  • 2.
    de acuerdo asu grado de relevancia con respecto a una consulta. Esta “interpretación” del contenido de un documento comprende la extracción de información sintáctica y semántica de los textos de los documentos y la utilización de esta información para hacerla corresponder (matching) con la necesidad de información del usuario. La dificultad consiste tanto en cómo extraer esta información y cómo utilizarla para establecer la relevancia de los documentos. Es por esto que relevancia está en el centro de la RI. La meta principal de un RI es encontrar todos los documentos que son relevantes respecto de una consulta del usuario y evitar en la mayor medida, recuperar documentos no relevantes. 1.1.2 La Recuperación de Información en el centro del escenario En los últimos 20 año el área de la RI ha crecido mucho desde su preocupación inicial por indexar texto y buscar documentos útiles en una colección. En el presente, la investigación en RI incluye modelización, clasificación y categorización de documentos, arquitectura de sistemas, interfaces de usuario, visualización de datos, filtrado, lenguajes etc. A pesar de su madurez, hasta hace muy poco, la RI era vista como una específica área de interés principal para bibliotecarios y expertos en información. Esta visión prevaleció por muchos años, a pesar de la difusión que tuvieron entre los usuarios de las computadoras personales, las herramientas de RI en aplicaciones multimedia e hipertextuales. A principios de los 90, un hecho simple cambió de una vez estas percepciones: la introducción de la World Wide Web. La Web se transformó en un repositorio del conocimiento humano y la cultura que permitió la posibilidad de compartir ideas e información en una escala sin precedentes. Su éxito se basa en el uso de una interfaz estándar que es siempre la misma sin importar el medio computacional que se utiliza para correrla. Como resultado el usuario no tiene que vérselas con protocolos de comunicación, localización de computadoras y sistemas operativos. Mas aún, cualquier usuario puede crear documentos Web y vincularlos con otros documentos Web sin restricciones. Este es un aspecto clave ya que convierte a la Web en un medio de publicación accesible a todos. Este universo sin fronteras ha convocado la atención de millones de personas en todas partes desde el comienzo. Además, está causando una revolución en la manera que la gente utiliza las computadoras y realiza sus actividades cotidianas. Por ejemplo, las compras y las operaciones en los bancos se han difundido enormemente y han generado varios millones de dólares de ganancias. A pesar de este éxito, la Web ha introducido nuevos problemas: encontrar información útil en la Web es tedioso y difícil. Por ejemplo, para satisfacer una necesidad de información el usuario debe navegar en el espacio de vínculos Web (el hiperespacio) buscando información de interés. Sin embargo, como el hiperespacio es muy vasto y casi desconocido, la tarea de navegación es generalmente ineficiente. Para usuarios iniciales, el problema puede frustrar completamente sus esfuerzos. El principal obstáculo es la ausencia de un modelo de datos bien definido, lo que implica que la definición y la estructura de la información es frecuentemente de baja calidad. Estas dificultades han renovado el interés en la RI y sus técnicas como posibilidades de solución. Como resultado, la RI ha vuelto a ocupar, junto a otras tecnologías, el centro de la escena. 1.1.3 El foco del libro A pesar del incremento del interés por la RI, los textos modernos sobre el tema con una cobertura amplia de varios tópicos son todavía difíciles de encontrar. En un intento de cerrar parcialmente esta brecha, este libro presenta una mirada general de la investigación en RI desde una perspectiva de un científico de la computación. La mayoría del libro está dedicado a este punto de vista. El punto de vista centrado en el aspecto humano, se presenta en los dos últimos capítulos.
  • 3.
    Hemos puesto granénfasis en la integración de las diferentes áreas que están vinculadas con el problema de la RI. Por esta razón, además de la cobertura de la recuperación de textos, sistemas bibliotecarios, interfaces del usuario y la Web, el libro también discute la visualización, la recuperación multimedia y las bibliotecas digitales. 1.2 Conceptos básicos La recuperación de información relevante está afectada tanto por las tareas del usuario como por la visión lógica de los documentos adoptada por el sistema de recuperación. Fig. 1.1 Interacción del usuario con el sistema de recuperación a través de distintas tareas 1.2.1 La tarea del usuario El usuario tiene que traducir su necesidad de información a una consulta, en el lenguaje provisto por el sistema. Dentro de un sistema de RI esto significa que debe especificar un conjunto de palabras que conllevan la semántica de la necesidad de información. En un sistema de recuperación de datos se usa una expresión de búsqueda, por ejemplo, una expresión regular para expresar las especificaciones que deben ser satisfechas por los objetos en el conjunto resultante. En ambos casos, decimos que el usuario busca información útil ejecutando una tarea de recuperación. Consideremos un usuario que tiene un interés que está pobremente definido o es muy amplio. Por ejemplo, el usuario puede estar interesado en documentos acerca de carreras de automóviles en general. En esta situación el usuario debe utilizar una interfaz interactiva para revisar en una colección, y buscar documentos relacionados con ese tema. Por ejemplo, podría encontrar interesantes documentos acerca de careras de Fórmula 1, acerca de la fabricación de automóviles, o acerca de las “24 horas de Le Mans”. Mas aún, mientras está leyendo sobre las “24 horas de Le Mans”, podría derivar su atención a un documento que muestra direcciones en Le Mans y, desde allí, a documentos que cubren temas de turismo en Francia. En esta situación, decimos que el usuario está realizando un browsing en los documentos de la colección, y no una búsqueda. Si bien se trata de un proceso dentro de la recuperación de información, sus principales objetivos no están claramente definidos al principio y su propósito puede variar durante la interacción con el sistema. En este libro hacemos una diferenciación clara entre las diferentes tareas que realiza el usuario en la recuperación de información. Esta tarea puede ser de dos diferentes tipos: recuperación de información o de datos, y browsing. Los sistemas clásicos de recuperación de información generalmente permiten la recuperación de información o de datos. Los sistemas de hipertexto permiten un rápido browsing. Las bibliotecas digitales y las interfaces Web intentan combinar ambas tareas para proporcionar capacidades de recuperación mejoradas. Pero la combinación entre recuperación y browsing todavía no está bien establecida ni es el paradigma dominante. Usuario Recuperació n Browsing Base de datos
  • 4.
    La Figura 1.1ilustra la interacción del usuario a través de las diferentes tareas. La recuperación de información y de datos son usualmente provistas por la mayoría de los sistemas de RI modernos (como las interfaces Web). Esos mismos sistemas pueden también proveer formas de browsing, aunque limitado. Recuperación y browsing, en el lenguaje de la Web, son acciones “pull” (el usuario debe “tirar hacia él”). Esto significa que el usuario pide la información de una manera interactiva. Una alternativa es hacer recuperación de información de un modo automático y permanente, a través de los agentes de software que “push” (empujan) información hacia el usuario. Por ejemplo, la información útil para el usuario es extraída periódicamente desde un servicio de noticias. En este caso decimos que el sistema ejecuta una tarea de recuperación que consiste en el “filtrado” de información relevante para una revisión posterior por el usuario. Discutimos brevemente el filtrado en el Capítulo 2. 1.2.1 La visión lógica de los documentos Debido a razones históricas, los documentos en una colección son representados a través de un conjunto de términos de indización o palabras clave. Tales palabras clave pueden ser extraídas directamente del texto de los documentos o pueden ser asignadas por una persona. Sin importar si estas palabras representativas son asignadas de forma automática o por un especialista humano, brindan una visión lógica del documento. Para una definición precisa del concepto de un documento y sus características, ver Capítulo 6. Las computadoras modernas han hecho posible re presentar un documento por su texto completo. En este caso, decimos que el sistema de recuperación adopta una visión lógica (o representación) de texto completo. Sin embargo, en colecciones muy grandes, aún las computadoras modernas pueden tener que reducir el conjunto de palabras clave representativas. Esto puede obtenerse a través de: eliminación de listas de palabras vacías, el uso de stemming (sematización o reducción de las distintas formas de las palabras a una raíz gramatical común), y la identificación de grupos nominales (que elimina adjetivos, adverbios y verbos). También pueden utilizarse técnicas de compresión de los textos. Estos procedimientos se denominan operaciones textuales (o transformaciones) están tratadas en el Capítulo 7. Las operaciones textuales reducen la complejidad de la representación de los documentos y permiten cambiar la visión lógica de los mismos desde el texto completo hasta un conjunto de términos de indexación El texto completo es la visión lógica más completa de un documento pero implica altos costos computacionales. Un pequeño conjunto de categorías generadas por un especialista humano es la más concisa visión lógica, pero su uso puede significar una recuperación pobre. De un extremo al otro, existen visiones intermedias, como puede verse en la Figura 1.2. Además de adoptar cualquier representación intermedia, el sistema de recuperación puede también reconocer la estructura interna presentada en un documento (capítulos, secciones, etc.). Esta información es muy útil y es requerida por los modelos de recuperación de texto estructurado, tal como se presenta en el Capítulo 2. Como se ilustra en la Figura 1.2, vemos la cuestión de representar lógicamente un documento como un continuo desde la representación en texto completo hasta un nivel especificado por un ser humano.
  • 5.
    Fig. 1.2 Visiónlógica de los documentos: desde el texto completo al conjunto de términos de indexación 1.3 Pasado, presente y futuro 1.3.1 Primeros desarrollos Durante casi 4.000 años el hombre ha organizado información para su posterior recuperación y uso. Un ejemplo típico es la tabla de contenido de un libro. Como el volumen de información creció, se hizo necesario construir estructuras especializadas de datos para asegurar un acceso rápido a la información almacenada. Un ejemplo antiguo y difundido es este tipo de estructuras consiste en una selección de palabras seleccionadas o conceptos con punteros que remiten a información relacionada (o documentos): el índice. De una forma u otra, los índices se encuentran en el corazón de todo sistema moderno de recuperación de información. Los índices proveen un acceso rápido a los datos y permiten la tarea de procesamiento de las consultas. En el Capítulo 8 se hace una detallada cobertura de los índices y su utilización para la búsqueda. Durante siglos, se crearon índices de forma manual con la forma de jerarquías de categorías. La mayoría de las bibliotecas todavía utilizan alguna forma de estas jerarquías para clasificar sus volúmenes o documentos. Tales jerarquías fueron concebidas por seres humanos a partir de los campos de las ciencias que cubrían los materiales en las bibliotecas. Más recientemente, el advenimiento de las computadoras modernas hizo posible la construcción de grandes índices de modo automático. Los índices automáticos muestran una visión del problema de la recuperación mucho más vinculada con el sistema mismo que con la necesidad del usuario. Al respecto, es importante distinguir entre dos diferentes visiones del problema de RI: la visión centrada en la computadora y la centrada en el ser humano. En la visión centrada en la computadora, el problema de la RI consiste principalmente en construir índices eficientes, procesar consultas con alto rendimiento, y desarrollar algoritmos de ranking que mejoren la calidad del conjunto resultante. En la visión centrada en el hombre, el problema consiste principalmente en estudiar el comportamiento del usuario, comprender sus principales necesidades y determinar de qué manera esa comprensión afecta la organización y operación del sistema de recuperación. Desde este punto de vista, el procesamiento de consultas basado en palabras clave no
  • 6.
    se ve comouna estrategia que conduzca a una solución al problema de la recuperación de información en el largo plazo. Este libro se centra en la visión basada en la computadora ya que es la dominante en el mercado. 1.3.2 RI en la Biblioteca Las bibliotecas están entre las primeras instituciones que adoptaron sistemas de RI para recuperar información. En general, estos sistemas fueron desarrollados inicialmente por instituciones académicas y más tarde por empresas comerciales. En la primera generación, tales sistemas consistieron básicamente en la automatización de recursos tecnológicos más antiguos, tales como las fichas catalográficas, y en forma básica permitían búsquedas basadas en el nombre del autor o el título. En la segunda generación, se incrementó la funcionalidad de búsqueda a través de encabezamientos de materia, palabras clave, y algunas otras facilidades de consulta más compleja. En la tercera generación, que se encuentra actualmente en desarrollo, el foco se encuentra en la mejora de interfaces gráficas, formatos electrónicos, características de hipertexto y arquitectura abierta de sistemas. Los vendedores tradicionales de sistemas de administración de bibliotecas incluyen a Endeavor Information Systems Inc., Innovative Interfaces Inc., y EOS International. Entre los desarrollos de sistemas orientados a bibliotecas académicas, se distinguen Okapi (en la City University, Londres), MELVYL (de la Universidad de California), y Chishire II (de la Universidad de Berkeley). 1.3.3 La Web y las bibliotecas digitales Si consideramos los motores de búsqueda actuales en la Web, podemos concluir en que continúan utilizando índices que son bastante similares con los utilizados por los bibliotecarios un siglo atrás. ¿Qué es lo que ha cambiado? Tres cambios fundamentales se produjeron en relación con los avances en las computadoras modernas y el boom de la Web. Primero, es mucho más barato tener acceso a varias fuentes de información, lo que ha permitido una audiencia mucho más amplia que en cualquier tiempo anterior. Segundo, los avances en toda clase de comunicaciones digitales proveen acceso amplio a las redes. Esto implica que las fuentes de información están disponibles aún si se encuentran lejanas, y el acceso es muy rápido (frecuentemente, en segundos). Tercero, la libertad de editar cualquier tipo de información que cualquiera considere útil ha contribuido a la popularidad de la Web. Por primera vez en la historia, mucha gente tiene acceso libre a un gran medio de publicación. El bajo costo, amplio acceso, y la libertad de publicación han permitido a la gente utilizar la Web y las bibliotecas digitales como un medio altamente interactivo. Esta interactividad permite intercambiar mensajes, fotos, documentos, software, videos y “chatear” a costos bajos. Mas aún, las personas pueden hacerlo en el horario de su conveniencia. La alta interactividad es el cambio fundamental en el paradigma de comunicación. Las búsquedas en la Web se cubren en el Capítulo 13. Para el futuro se plantean tres cuestiones. Primero, a pesar de la alta interactividad las personas todavía encuentran difícil (si no imposible) recuperar información relevante respecto de sus necesidades de información. Entonces, ¿qué técnicas permitirán una recuperación de alta calidad?. Segundo, con el crecimiento continuo de la demanda de acceso las respuestas rápidas se convierten
  • 7.
    en un factorde presión. Entonces, ¿Qué técnicas producirán índices más rápidos y tiempos de respuesta menor?. Tercero, la calidad de la recuperación es afectada en gran medida por la interacción del usuario con el sistema. Entonces, ¿Cómo afectará al diseño de nuevas estrategias de RI, el conocimiento sobre el comportamiento del usuario? 1.3.4 Aspectos prácticos El comercio electrónico es la principal tendencia de la actualidad en la Web. En una transacción electrónica, el comprador tiene que enviar por la Web al vendedor alguna forma de información de crédito que pueda ser usada para cargar el producto o servicio. Generalmente esta información es el número de su tarjeta de crédito. Sin embargo, como esta transmisión ha mostrado no ser demasiado segura, esos datos pueden transmitirse por fax. Esto implica que, por lo menos al principio, la transacción entre un nuevo usuario y un vendedor requiere ejecutar algún procedimiento fuera de línea, antes que la transacción pueda completarse. Esta situación puede mejorarse si los datos son encriptados por seguridad. Algunas instituciones y compañías ya proveen alguna forma de encriptación o autenticación automática por razones de seguridad Pero la seguridad no es la única cuestión. Otro tema de gran interés es la privacidad. Con frecuencia, las personas desean intercambiar información siempre y cuando este intercambio no se haga público. Las razones son muchas pero la principal es protegerse de una mala utilización de la información privada por parte de terceros. En consecuencia, la privacidad es otra cuestión que afecta el desarrollo de la Web. Otros dos temas importantes son el derecho de autor y los derechos de patentes. No está claro aún como la distribución amplia de datos en la Web afecta a las leyes de derechos de autor y patentes en los diferentes países. Esto es importante porque afecta el aspecto de negocios de la construcción de grandes bibliotecas digitales. Por ejemplo, ¿ un sitio que supervisa la información que linkea, es un editor?. Y si no lo es, ¿es responsable de una mala utilización de la información que linkea (aunque no sea la fuente original)?. Existen además otras cuestiones prácticas de interés como el escaneado, el reconocimiento óptico de caracteres (OCR), la recuperación en varias lenguas (en la cual la consulta está en una lengua pero los documentos recuperados están en otras lenguas). En este libro no cubrimos estos aspectos en detalle. Para ellos es posible leer el interesante libro de Lesk [501]. 1.4 El proceso de recuperación Ahora estamos listos para detallar nuestra visión del proceso de recuperación. Este proceso es interpretado en términos de subprocesos componentes cuyo estudio conduce a los varios capítulos de este libro. Para describir el proceso de recuperación, utilizamos la figura 1.3. En primer lugar, antes que el proceso de recuperación pueda ser iniciado, es necesario definir la base de datos textual: a) especificación de los documentos que serán utilizados; b) las operaciones que se ejecutarán sobre el texto; c) el modelo de texto (la estructura del texto y los elementos que serán recuperados). Las operaciones sobre los textos transforman los documentos originales y generan la visión lógica de los
  • 8.
    mismos. Fig. 1.3 Elproceso de recuperación de información Una vez que se ha definido la visión de los documentos, el programa administrador de base de datos construye un índice del texto. Un índice es una estructura de datos crítica ya que permite búsquedas rápidas en grandes volúmenes de datos. Puede haber diferentes estructuras de índices. El más popular es el “archivo invertido”. Los recursos (tiempo y espacio de almacenamiento) utilizados en definir la base de datos textual y construir el índice son amortizados a través de las repetidas consultas el sistema. Una vez que la base de datos se encuentra indexada, puede iniciarse el proceso de recuperación. El usuario primero especifica una necesidad de información que es analizada sintácticamente (parseada) y transformada por las mismas operaciones de texto que se aplicaron a los textos. Entonces se efectúan las operaciones sobre la consulta, antes de que se ejecute la consulta que provee una representación para el sistema, de la necesidad del usuario. Luego se ejecuta la consulta para obtener los documentos recuperados. La velocidad de este proceso se hace posible por la estructura del índice previamente construido. Antes de ser enviados al usuario los documentos recuperados son rankeados de acuerdo a una probabilidad de relevancia. El usuario examina el conjunto de documentos en búsqueda de información útil. En este punto, el usuario puede localizar un subconjunto de documentos de interés e iniciar un ciclo de retroalimentación con el sistema. En ese ciclo, el sistema utiliza los documentos seleccionados por el usuario para cambiar la formulación de la consulta. Puede esperarse que esta consulta modificada sea una mejor representación de la necesidad real del usuario. En las interfaces disponibles en los actuales sistemas de recuperación de información, incluyendo los motores de búsqueda y los navegadores Web, el usuario casi nunca declara su necesidad de información. En cambio, se le requiere proveer una representación directa de la consulta que el
  • 9.
    sistema ejecutará. Comola mayoría de los usuarios no tienen conocimiento de las operaciones realizadas con los textos ni con las consultas, con frecuencia la consulta que formulan es inadecuada. Y entonces es probable que la recuperación sea pobre (lo que sucede a menudo en la Web). ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1.5.2 Los capítulos del libro ... ... ... ... ... ... ... ... .. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... En el enfoque tradicional basado en palabras clave, el usuario especifica su necesidad de información proveyendo un conjunto de palabras clave y el sistema recupera los documentos que mejor se aproximan a su pregunta. Asimismo el sistema puede intentar ordenar los documentos recuperados usando alguna medida de relevancia. Esta tarea de rankeo es crítica en el proceso de intentar satisfacer la necesidad de información del usuario y es la principal meta de los “modelos” de RI. Estos modelos se discuten en el Cap. 2. Se introducen muchos de los conceptos fundamentales en RI y se establecen las bases que subyacen en los siguientes capítulos. Nuestra cobertura es detallada y amplia. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... Una vez que se concibe un algoritmo de recuperación, es necesario evaluar su rendimiento. Las estrategias tradicionales de evaluación intentan estimar el costo del nuevo algoritmo en términos de tiempo y espacio. En un sistema de RI, sin embargo, existe el aspecto de evaluar la relevancia de los documentos recuperados. Para este propósito, se utilizan las colecciones de referencia de textos y los procedimientos de valuación basados en variables diferentes al tiempo y espacio. El Capítulo 3 se dedica a la discusión de la evaluación de la recuperación. En RI tradicional, las consultas se expresan normalmente a través de un conjunto de palabras clave. Sin embargo, la simplicidad de este enfoque dificulta la formulación de consultas más elaboradas. Por ejemplo, las consultas que se refieren tanto a los contenidos como a la estructura de los textos no pueden formularse. Para lograr superar las deficiencias de las búsquedas tradicionales (por ejemplo para poder referirse a la estructura y al contenido del documento de modo discriminado), se requieren lenguajes de consulta más sofisticados, que se desarrollan en el Cap. 4. La estructura de los documentos se define mediante los lenguajes de marcado como el SGML. El Cap. 6 se refiere a los lenguajes del texto. La recuperación basada en palabras clave suele ser de baja calidad, por dos posibles razones. Una, que el usuario compone su búsqueda de términos que son insuficientes para caracterizar el contexto de la búsqueda, por ejemplo en la Web. Este problema se aborda con transformaciones de la búsqueda tales como las expansiones de la búsqueda y la retroalimentación por relevancia del usuario. Estas operaciones de búsqueda se discuten en el Cap. 5. En segundo término, el conjunto de términos generados para un documento dado suelen fallar en resumir su contenido semántico de forma apropiada. Este problema es tratado mediante transformaciones en el texto tales como la identificación de grupos de sustantivos a ser utilizados como palabras clave, el stemming, y el uso de tesauros. También pueden aplicarse técnicas de compresión de texto. Todo esto es tratado en el Cap. 7. Dada la consulta del usuario, el sistema de información tiene que recuperar los documentos que se relacionan con esa consulta. Las colecciones de documentos muy grandes (por ejemplo la Web que se compone de millones de documentos) hacen necesarias técnicas de indexación especializadas para hacer eficiente los resultados de las búsquedas. Las técnicas apropiadas para la indexación y
  • 10.
    búsqueda se presentanen el Cap. 8. En el Cap. 9 se presentan técnicas de RI paralela y distribuida para mejorar el procesamiento de las búsquedas. Las interfaces modernas implementan estrategias para asistir al usuario a formular su búsqueda. El principal objetivo es permitir al usuario definir más precisamente el contexto asociado con su necesidad de información. Consideremos, por ejemplo, el problema de encontrar información útil en forma rápida en la Web. La navegación en el hiperespacio no es una buena solución debido a la falta de una estructura lógica y semántica bien definida. Un enfoque difundido para especificar una consulta en la Web consiste en indicar un conjunto de palabras para que se realice la búsqueda. Lamentablemente, el número de palabras que ingresa un usuario común es bajo (no más de cuatro palabras, por lo general) con lo que el resultado suele ser vago. Esto significa que los nuevos paradigmas de interfaces de usuario deben asistir en este proceso. Mas aún, como el resultado de estas consultas vagas son miles de documentos, la forma de ver los documentos como una lista que debe revisarse es muy inadecuada. Para enfrentar este problema, en los últimos años se han propuesto nuevos paradigmas para la visualización de datos. La principal tendencia al respecto es la visualización de una vez, de grandes conjuntos de documentos y la manipulación directa de estos objetos. Las interfaces de usuario y las formas de visualizar y seleccionar la información recuperada se presentan en el Cap. 10. Respecto de las técnicas de RI para datos multimedia la clave es como modelizar, indexar y buscar documentos que contienen objetos multimedia tales como voces, imágenes, y toros datos binarios. Estos temas se discuten en los capítulos 11 y 12. Los últimos capítulos se dedican a las aplicaciones de la RI: Cap. 13: principales problemas de las búsquedas en la Web y particularidades de los motores de búsqueda. El Cap. 14 cubre las bases de datos documentales comerciales y los OPACS. El Cap. 15 discute las modernas bibliotecas digitales: cuestiones de arquitectura, modelos, prototipos y normas, así como la introducción del modelo “5S” (stream, structures, spaces, scenarios and societies) como marco para una unificación teórica y práctica de las bibliotecas digitales. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1.6.2 La página Web de este libro Como la RI es un área muy dinámica, un libro no es suficiente. Por esta razón (y muchas otras), el libro tiene una página Web localizada y copiada en los siguientes lugares (se prevén copias en EEUU y en Europa): • Brasil: http://www.dcc.ufmg.br/irbook • Chile: http://sunsite.dcc.uchile.cl/irbook Son bienvenidos comentarios, sugerencias, contribuciones o señalamiento de errores a través de correo electrónico con los autores. La página Web contiene la Tabla de Contenido, el Prefacio, los Agradecimientos, la Introducción, el Glosario y otros apéndices del libro. También se incluyen ejercicios y materiales para la enseñanza que serán incrementados con el tiempo. Adicionalmente se encuentra disponible una colección de referencia (que contiene q239 documentos y 100 pedidos de información con una evaluación de relevancia [721]. Además, la página incluye vínculos a programas de RI en diferentes universidades, grupos de investigación en RI, publicaciones en RI y otros recursos relacionados.
  • 11.
    Los resultados importantesu otras adiciones al libro, así como fe de erratas serán publicados en este medio. 1.7 Discusión bibliográfica Han sido escritos muchos otros libros sobre RI, y debido al amplio interés actual en el tema, han aparecido recientemente nuevos libros. En lo que sigue, comparamos brevemente nuestro libro con esto trabajos previamente publicados. Las referencias clásicas en el campo de la RI son los libros de van Rijsbergen [785] y Salton y McGill [698]. Nuestra distinción entre recuperación de información y recuperación de datos la hemos tomado del primero. Nuestra definición del proceso de RI está influenciada por el último. Sin embargo, casi 20 años más tarde, ambos libros están desactualizados y no cubren muchos de los nuevos desarrollos en RI. Más recientemente se han editado tres libros, que son referencia en RI: el de Frakes y Baeza-Yates [275], el libro de Witten, Moffat y Bell [825] y el libro de Lesk [501]. Los tres son complementarios de este libro. El primero se dedica a las estructuras de datos y algoritmos de RI. El segundo se focaliza en indexación y compresión, y cubre las imágenes que parecen junto al texto. El tercero se dedica a las bibliotecas digitales y algnas cuestiones prácticas relacionadas tales como su historia, distribución, usabildad, economía y derecho de autor. El libro de Allen [13] se refiere a los sistemas de información y al problema de las visiones centradas en la computadora o centrada en la recuperación del usuario. Existen otros libros complementarios de capítulos específicos. Por ejemplo, libros sobre RI e hipertexto. O sobre recuperación de multimedia. El libro de Rosenfeld y Morville [682] sobre arquitectura de información en la Web, es un buen complemento de nuestro capítulo sobre búsquedas en la Web. Ellibro de Menasce y Almeida [554] demuestra cómo utilizar la teoría de las colas para predecir el rendimiento de un servidor Web. Adicionalmente, hay muchos libros que explican cómo encontrar información en la Web y cómo utilizar los motores de búsqueda. El libro de referencia editado por Sparck Jones y Willet [414] es más una colección de papers que un libro estructurado. La coherencia y cobertura de nuestro libro lo hace más apropiado como un libro de texto en una disciplina formal. Una colección de papers sobre RI en diferentes lenguas se editó recientemente, a cargo de Grefenstette [232], y es un buen complemento del nuestro para gente interesada en ese tema. Recientemente fue editada una colección que se ocupa de la RI inteligente, a cargo de Maybury [550] y aparecerá pronto otra sobre RI en lenguaje natural editada por Strzalkowski [748]. El libro de Korfhage [451] cubre menos material y no es tan detallada como la nuestra. Por ejemplo, no incluye detalles sobre bibliotecas digitales, la Web, multimedia o el procesamiento paralelo. El libro de Kowalski [459] y el de Shapiro y otros [719], no cubre estos tópicos en detalle y tiene otra orientación. El reciente libro de Grossman y Frieder [326] no discute la Web, las bibliotecas digitales ni las interfaces visuales. Para aquellos interesados en los resultados de investigación, las principales publicaciones periódicas sobre RI son: Journal of the American Society of Information Science (JASIS), ACM Transactions on Informations Systems, Information Processing and Management (Elsevier), Information Systems (Elsevier), Information Retrieval (Kluwer) y Knowledge and Information Systems (Springer). Las principales conferencias son: ACM SIGIR International Conference on Information Retrieval, ACM International Conference on Digital Libraries (ACM DL), ACM Conference on Information Knowledge and Management (CIKM), y Text Retrieval Conference
  • 12.
    (TREC). Con respectoa eventos de influencia regional, nos gustaría agradecer al SPIRE Symposium (South American Symposium on String Processing and Information Retrieval