Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto

•

0 recomendaciones•367 vistas

La Web se ha vuelto un recurso potencialmente infinito de información, transformándose además en una herramienta imprescindible para muchas tareas de la vida diaria. Esto provocó un aumento en la cantidad de información existente en el contexto de los usuarios, que no es tenida en cuenta por los sistemas de recuperación de información actuales. En esta tesis se propone una técnica semisupervisada de recuperación de información que ayuda al usuario a recuperar información relevante para su contexto actual. El objetivo de la misma es contrarrestar la diferencia de vocabulario que pudiera existir entre el conocimiento que tiene el usuario sobre un tema y los documentos relevantes que se encuentran en la Web. Esta tesis presenta un método de aprendizaje de nuevos términos asociados a un contexto temático, a través de la identificación de términos que sean buenos descriptores y términos que sean buenos discriminadores del tópico del contexto actual del usuario. Para la evaluación del método propuesto se desarrolló un marco teórico de evaluación de mecanismos de búsqueda y se implementó una plataforma de evaluación, que además permitió comparar las técnicas desarrolladas en esta tesis con otras técnicas existentes en la literatura. La evidencia experimental muestra que las mejoras alcanzadas son significativas respecto de otros trabajos publicados. Dentro de este marco se desarrollaron asimismo nuevas métricas de evaluación que favorecen la exploración de material novedoso y que incorporan una medida de relación semántica entre documentos. Los algoritmos desarrollados a la largo de esta tesis evolucionan consultas de alta calidad, permitiendo recuperar recursos relevantes al contexto del usuario, e impactan positivamente en la forma en la que éste interactúa con los recursos que tiene disponibles. -- The Web has become a potentially infinite information resource, turning into an essential tool for many daily activities. This resulted in an increase in the amount of information available in users' contexts that is not taken into account by current information retrieval systems. This thesis proposes a semisupervised information retrieval technique that helps users to recover context relevant information. The objective of the proposed technique is to reduce the vocabulary gap existing between the knowledge a user has about a specific topic and the relevant documents available in the Web. This thesis presents a method for learning novel terms associated with a thematic context. This is achieved by identifying those terms that are good descriptors and good discriminators of the user’s current thematic context. In order to evaluate the proposed method, a theoretical framework for the evaluation of search mechanisms was developed. This served as a guide for the implementation of an evaluation framework that allowed to compare the techniques proposed in this thesis with other techniques existing in the literature. The

Educación

CONICET

Defensa Oral de Tesis
Doctor en Ciencias de la Computación

Caracterización Formal y Análisis
Empírico de Mecanismos Incrementales
de Búsqueda basados en Contexto
Carlos M. Lorenzetti
Directores : Guillermo R. Simari
Ana G. Maguitman

Universidad Nacional del Sur

Oportunidades

DESAFÍOS

ACCESIBILIDAD

RECURSOS

Oportunidades

ASISTENCIA
INTELIGENTE

CPU
OCIOSAS

El problema del contexto

Cantidad de
información

El problema del contexto

Consulta

Contexto

El problema del contexto

Consultas basadas
en contexto

Búsqueda basada en contexto

IMPORTADOR DE CAFÉ

¿Variedades?
¿Cualidades?

¿Exportadoras?

Búsqueda basada en contexto

TURISTA

¿Sitios de interés?
¿Paquetes?

¿Historia?

Búsqueda basada en contexto

ESTUDIANTE
¿Sintaxis? ¿Ejemplos?

¿Comparación?

Búsqueda basada en contexto

PROBLEMAS

COMPLEJIDAD SIGNIFICADO

WEB

Refinamiento de consultas

REFINAMIENTO DE CONSULTAS

1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia
●
Realimentación Supervisada
●
Realimentación No supervisada
●
Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados

OBJETIVOS
Proponer, investigar y evaluar nuevas técnicas
semisupervisadas de IR orientadas a entender
mejor las necesidades de los usuarios.

Preguntas de investigación
• ¿Puede el contexto del usuario explotarse
para acceder a material relevante en la Web?
• ¿Pueden los términos específicos a un
contexto ser refinados incrementalmente
basándose en el análisis de los resultados de
un motor de búsqueda?
• ¿Estos términos son mejores?

OBJETIVOS
1) Proponer un algoritmo semisupervisado
capaz de aprender incrementalmente
nuevos vocabularios con el propósito de
mejorar consultas temáticas. El objetivo es
que estas consultas reflejen la información
contextual y así puedan recuperar material
relacionado semánticamente.
semánticamente
2) Desarrollar una plataforma para evaluar las
técnicas de IR propuestas, así como otras
técnicas existentes. Dicha plataforma es
especialmente apta para el análisis de
buscadores temáticos y para incorporar
métricas de evaluación novedosas basadas
en las nociones de similitud semántica y
relevancia parcial.
parcial

Distintos roles de los términos

Nivel de información de un término en un
conjunto de documentos.
Poder descriptivo y discriminante de un
término en un documento respecto de un
conjunto de documentos.
Conjunto predefinidos.
Independientes de un contexto.
Estudio basado en distribución a lo largo de
los tópicos de las páginas recuperadas por
un motor de búsqueda.

Distintos roles de los términos

• Descriptores
●
Términos que aparecen en la mayoría
de los documentos de un tópico
¿Sobre qué trata el tópico?

• Discriminadores
●
Términos que aparecen sólo en los
documentos de un tópico
¿Qué términos utilizo para encontrar información similar ?

Descriptores y discriminadores

Machine
Java
Language

Virtual
Programming
Ruby

Applets
NetBeans
Computers
JVM
Code JDK

Tópico: Máquina Virtual de Java

Descriptores y discriminadores

Machine Buenos descriptores
Java
Language

Virtual
Programming
Ruby

Applets
NetBeans
Computers
JVM
Code JDK

Tópico: Máquina Virtual de Java

Descriptores y discriminadores

Machine
Java
Language

Virtual
Programming
Ruby

Applets
NetBeans
Computers
JVM
Code JDK
Buenos discriminadores

Tópico: Máquina Virtual de Java

Descriptores y discriminadores

d0
java 4
machine 2
Contexto
virtual 1
Inicial
language 1
programming 3

Tópico: Máquina Virtual de Java

Descriptores y discriminadores
H
d0 (1) (2) (3) (4)

java 4 2 5 5 2
machine 2 6 3 2 0
virtual 1 0 1 1 0 (1) espressotec.com
(2) netbeans.org
language 1 0 2 1 1 (3) sun.com
(4) wikitravel.org
programming 3 0 0 2 0

H [i , j]= p
Número de apariciones del
término ki en el documento dj

Tópico: Máquina Virtual de Java

Descriptores y discriminadores

d 0  d 0 , k i   d 0 , k i 
java 4 0,718 0,447 Poder descriptivo de un término
machine 2 0,359 0,500 en un documento
virtual 1 0,180 0,577 H [i , j ]
language 1 0,180 0,500
 d j , k i =
programming 3 0,539 0,577  n−1
∑k=0  H [i , j ]2
coffee 0 0,000 0,000
island 0 0,000 0,000 Poder discriminante de un
término en un documento
province 0 0,000 0,000
jvm 0 0,000 0,000 s  H [ i , j ]
 d j , k i =
jdk 0 0,000 0,000
∑ m−1
h=0
s  H [ i , h ]
Tópico: Máquina Virtual de Java

Modelo de representación
k1
d2 Modelo vectorial

d1
α

k2 k3 Función de similitud
entre documentos

Similitud por coseno
n−1
1
sim ( d j , d k )= ∑ λ( d j , k h ) . λ (d k , k h )
h=0

Descriptores y discriminadores

d 0   d 0 , k i   d 0 , k i 
java 4 0,385 0,493 Poder descriptivo de un término en
machine 2 0,158 0,524 el tópico de un documento
m−1
virtual 1 0,124 0,566 ∑h=0 sim (d j , d h ).[ λ (d h ,k i )]2
h≠ j
language 1 0,089 0,517 Λ (d j , k i)= m −1

programming 3 0,064 0,566
∑h=0 sim(d j ,d h)
h≠ j

coffee 0 0,055 0,385
island 0 0,040 0,385 Poder discriminante de un término
province 0 0,040 0,385 en el tópico de un documento
jvm 0 0,032 0,848 m −1

jdk 0 0,014 0,848 Δ (d j , k i)=∑ h=0 sim (d j , d h ).[δ(d h , k i )]2
h≠ j

Tópico: Máquina Virtual de Java

MÉTODO INCREMENTAL DE
RECUPERACIÓN DE INFORMACIÓN
BASADO EN CONTEXTO

Método incremental de IR
basado en contexto

wm wm-1
w1
1
Contexto w8
w2 w7
Términos w6
w3 w5
w4
4 2

descriptores

w1 0.5 w1 0.4
resultado 01 consulta 01
w2 0.25 w2 0.37
. . resultado 02 consulta 02
3
. .
. . resultado 03 consulta 03
wm 0.1 wm 0.01

resultado n consulta n
discriminadores

Alcances y aplicaciones
1. Búsqueda basada en contexto
●
Explotan la interacción del usuario con las aplicaciones en
su computadora para determinar la tarea actual del usuario
y poner en contexto sus necesidades de información.
2. Recuperación de recursos para portales temáticos
●
Tienen el propósito de reunir recursos sobre temas
específicos. El material recolectado se utiliza para construir
directorios y sitios de búsqueda especializados.
3. Búsqueda en la Web oculta
●
Se llama Web Oculta a las páginas generadas
dinámicamente como el resultado de una consulta
presentada a un formulario de búsqueda en sitios
específicos.
4. Soporte para la administración y modelado del
conocimiento
●
Es el proceso mediante el cual se representa un cuerpo de
conocimiento para facilitar su posterior acceso.

Plataforma de evaluación

representación
estadísticas

métricas
consulta 01
consulta 02
documentos
consulta 03
pedidos

consulta n

Plataforma de evaluación

TOP

ARTE DEPORTE

HOGAR .....
COMPRAS

JARDINERIA
CASA Y JARDIN
JARDINES
COCINA

HISTORIA BONSAI Y
PLANTAS
SUISEKI
350mil páginas

JARDINES
ÁRBOLES
FAMOSOS
BONSAI enlace taxonómico
JARDINES enlace simbólico
JAPONESES enlace relacionado
BOTÁNICOS BONSAI

Plataforma de evaluación

✔ PRECISIÓN
✔ COBERTURA
✔ SIMILITUD
✔ SIMILITUD NOVEDOSA
✔ PRECISIÓN SEMÁNTICA
✔ SIMILITUD SEMÁNTICA

MÉTRICAS

Plataforma de evaluación

PRECISIÓN Y COBERTURA

Recuperados Relevantes

MÉTRICAS
A
R

Espacio de documentos

Plataforma de evaluación

PRECISIÓN Y COBERTURA

Relevantes
Recuperados relevantes no recuperados

Recuperados Relevantes

MÉTRICAS
A
R
Recuperados
no relevantes Espacio de documentos

Plataforma de evaluación

PRECISIÓN Y COBERTURA

∣A∩R∣ ∣A∩R∣ (β 2+1) P.C
P= C= Fβ =
∣A∣ ∣R∣ C+β2 P

Recuperados Relevantes

MÉTRICAS
A
R

Espacio de documentos

Plataforma de evaluación

SIMILITUD Y SIMILITUD NOVEDOSA
k1
⃗j . ⃗
d dk d2
sim ( d j , d k )= d1
∣⃗∣.∣⃗∣
jd d k


k2 k3

MÉTRICAS

sim (q , d j , d k )=sim (⃗ ,⃗
N
d j−q d k −q)

Plataforma de evaluación

SIMILITUD SEMÁNTICA Y PRECISIÓN SEMÁNTICA
TOP

ARTE DEPORTE

HOGAR .....
COMPRAS
JARDINERIA COCINA CASA Y JARDIN
JARDINES

HISTORIA BONSAI Y
PLANTAS
SUISEKI

JARDINES
FAMOSOS ÁRBOLES

MÉTRICAS JARDINES
BONSAI

JAPONESES BONSAI
BOTÁNICOS

∑d ∈ A sim S ( τ (C ) , τ( d j )) enlace taxonómico
S enlace simbólico
P =
j
enlace relacionado
∣A∣

Plataforma de evaluación

BASE

BO1-DFR y BO1 SUPERVISADO

INCREMENTAL

GENÉTICO MONO Y MULTIOBJETIVO

Evaluaciones
Promedio sobre todos los tópicos evaluados
Formulación de consultas y
Similitud novedosa recuperación de información

Cambio de fase

ALGORITMO INCREMENTAL

Evaluaciones
ALGORITMO INCREMENTAL
Base
Bo1 (24%)
Incremental (67%)
1

0.8

incremental
0.6

0.4

0.2

0
0

0.5

0.2 0
1 0.6 0.4
Bo1 0.8
1
base
Precisión

Evaluaciones
ALGORITMO INCREMENTAL
Base
Bo1 (28%)
Incremental (65%)

1

0.8
incremental
0.6

0.4

0.2

0
0

0.5

0.2 0
1 0.6 0.4
Bo1 0.8
1
base
Precisión semántica

Evaluaciones
ALGORITMO INCREMENTAL
Base
Bo1
Incremental (100%)

1

0.8
incremental

0.6

0.4

0.2

0
0
0.1
0.2
0.3
0.1 0.05 0
0.25 0.2 0.15
0.4 0.35 0.3
Bo1 0.4
base Similitud novedosa

Evaluaciones

NSGA-II mejora a los demás
Agregativo mejora a los demás
Precisión Bo1* mejora a los demás
Base mejora a los demás

Agregativo
NSGA-II

Bo1* Bo1*

Base Base

ALGORITMOS GENÉTICOS

Evaluaciones

NSGA-II mejora a los demás
Agregativo mejora a los demás
Cobertura Bo1* mejora a los demás
Base mejora a los demás

Agregativo
NSGA-II

Bo1* Bo1*

Base Base

ALGORITMOS GENÉTICOS

Conclusiones

➢
Herramienta de Recuperación de Información
➔
Ayuda al usuario en la tarea que realiza
➔
Soluciona el problema de sensibilidad semántica
• falsos-negativos (distinto vocabulario)
• falsos-positivos (java)

➢
Plataforma de evaluación
➔
Desarrollo, evaluación y comparación de
algoritmos
➔
Nuevas métricas

Trabajo a futuro

➢
Clasificación de texto y clustering
➔
Aplicación de las técnicas incrementales

➢
Nuevas métricas y estrategias
➔
Mejorar el rendimiento

➢
Disponibilidad
➔
Ampliación de la plataforma

CONICET

¡MUCHAS GRACIAS!

Caracterización Formal y Análisis
Empírico de Mecanismos Incrementales
de Búsqueda basados en Contexto
Carlos M. Lorenzetti
Directores : Guillermo R. Simari
Ana G. Maguitman

Universidad Nacional del Sur

Más contenido relacionado

Destacado

LAS TIC ,LA PRAXIS Y SU IMPORTACIA ENEL AULA DE CLASE

yeinnis maileth Cobo Gamez

Avance de tesis de estudios de Maestría CESSSIN, Rosario, Sinaloa

Universidad Autónoma de Sinaloa

Abriendo caminos al conocimiento curso de computacion e informatica para la a...

Richard Ortega

Rediseño E Implementacion De Un Proceso Electro Hidraulico Usado En El Labora...

Jorge Alarcon

HIPOTESIS

dfgd

tesis-pa-computacion-e-informatica-pdf

carlos bernilla

IMPLEMENTACIÓN DE REALIDAD AUMENTADA COMO HERRAMIENTA PARA EL APRENDIZAJE EN ...

Rafael Marcos Vásquez Felipe

Diferencias entre informatica y computacion

marielizjacome

Tesis de titulo

felix giraldo

Tarea slideshare fundamentos de ciencia de la informacion marzo 24 2012

yamilepulido

Computación e Informática

jpre sac

Notebook herramientas

Pilar Etxebarria

10 Ideas TeleTriunfadoras para la realización de Proyectos Socio Tecnológicos

Stephenson Prieto

Plan de Area y Asignatura de Tecnologia e Informatica 2013

Fabio García Ramírez

Presentación en Power Point para Defensa de Tesis de Derecho

Argenis Macea

El chasis, tipos, caracteristicas, formatos, fuentes, tipos de fuentes, conec...

lemus

Diferencia entre computación e informática

Mario Condori Bravo

Tesis power point

lalita1993

Curso de computacion

Jesus Pizarro

Estrategias metodologia de la eseñanza de la informatica

DANIEL HUERTA

Destacado (20)

LAS TIC ,LA PRAXIS Y SU IMPORTACIA ENEL AULA DE CLASE

Avance de tesis de estudios de Maestría CESSSIN, Rosario, Sinaloa

Abriendo caminos al conocimiento curso de computacion e informatica para la a...

Rediseño E Implementacion De Un Proceso Electro Hidraulico Usado En El Labora...

HIPOTESIS

tesis-pa-computacion-e-informatica-pdf

IMPLEMENTACIÓN DE REALIDAD AUMENTADA COMO HERRAMIENTA PARA EL APRENDIZAJE EN ...

Diferencias entre informatica y computacion

Tesis de titulo

Tarea slideshare fundamentos de ciencia de la informacion marzo 24 2012

Computación e Informática

Notebook herramientas

10 Ideas TeleTriunfadoras para la realización de Proyectos Socio Tecnológicos

Plan de Area y Asignatura de Tecnologia e Informatica 2013

Presentación en Power Point para Defensa de Tesis de Derecho

El chasis, tipos, caracteristicas, formatos, fuentes, tipos de fuentes, conec...

Diferencia entre computación e informática

Tesis power point

Curso de computacion

Estrategias metodologia de la eseñanza de la informatica

Similar a Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto

Intelligent Methods for Information Access in Context: The Role of Topic Desc...

Carlos Lorenzetti

Programación del curso inf212 - POO

Diego Santimateo

(22.04.2009) Cumuy Presenta - Novedades en la plataforma de desarrollo .NET ...

Microsoft Argentina y Uruguay [Official Space]

El documento describe las nuevas características del entorno de desarrollo Visual Studio 2010, incluyendo mejoras al editor, soporte para múltiples monitores, navegación mejorada, compatibilidad con diferentes plataformas de destino, y herramientas mejoradas para desarrollo web, C++, SharePoint, calidad y pruebas. También resume las nuevas características de C# 4.0 y VB como parámetros con nombre, tipos dinámicos y varianza genérica.

Programar java 2pre

jtk1

Este documento proporciona una introducción a Java, incluyendo una breve historia de su desarrollo y una descripción de sus características principales. También describe los componentes clave del Java Development Kit (JDK), como el compilador javac, el intérprete Java y las herramientas para ejecutar y depurar applets. Finalmente, introduce conceptos básicos de programación orientada a objetos en Java como clases, objetos, métodos y herencia.

Manual de javapre

jtk1

Este documento proporciona una introducción a Java, incluyendo una breve historia de su desarrollo y una descripción de sus características principales. También describe el Java Developers Kit (JDK), que incluye herramientas como el compilador javac y el intérprete Java que permiten compilar y ejecutar código Java. Además, explica conceptos clave de la programación orientada a objetos en Java como clases, objetos, métodos y herencia.

Java jaucito

Jose Jaucito

Aplicaciones java

David Valdiviezo

Este documento resume las principales características del lenguaje de programación Java, incluyendo entrada y salida de datos, lectura y escritura de archivos, serialización, Java Foundation Classes, Java 2D, Java 3D, Java Beans, RMI, JNI y más. Explica cómo Java permite la manipulación de archivos, rutas y directorios a través de flujos de entrada y salida. Concluye que Java es una tecnología útil para el desarrollo de aplicaciones web y de escritorio.

Ingeniería del Software: Nuestro producto debe funcionar

Francisco Sanchez Cid

MDD Ingenieria de Software Dirigida por Modelos

Jorge Mario Calvo Londoño

GWT: Why GWT, GQuery, and RequestFactory

Manuel Carrasco Moñino

Este documento proporciona una introducción a Google Web Toolkit (GWT). GWT permite a los desarrolladores crear aplicaciones web dinámicas y aplicaciones Ajax utilizando Java como lenguaje de programación en lugar de JavaScript. El documento describe la arquitectura y SDK de GWT, las ventajas de usar GWT como productividad y compatibilidad, y cómo trabajar con widgets y librerías de GWT como GQuery.

Clase1 introduccinalcurso

jorg_marq

Este documento presenta una introducción a Java y a la certificación SCJP 6. Explica brevemente qué es Java, su historia, la máquina virtual de Java, y diferencia entre archivos .java, .class y la JVM. También describe los tipos de datos primitivos en Java e introduce conceptos básicos como la declaración e inicialización de variables. El objetivo es proporcionar una visión general de Java antes de comenzar con los temas técnicos de la certificación.

Ejercicios de evaluación de fundametnos de programacion en JAva

Martha Beatriz Coronado Rosales

public class Empleado { private String dni; private String nombre; private String apellidos; private String domicilio; private String codigoPostal; private String ciudad; private PuestoTrabajo puestoTrabajo; // Constructor, getters y setters } public class PuestoTrabajo { private String codigo; private String descripcion; // Constructor, getters y setters } 2. Declare una clase Profesor que herede de la clase Empleado. La clase Profesor debe incluir los atributos departamento de tipo String y númer

Tarea 05 OP.docx

JeancarlosSantamaria2

Este documento explica los conceptos básicos de la programación orientada a objetos en Java, incluyendo clases, objetos, atributos, métodos, herencia y polimorfismo. También describe el entorno de desarrollo Netbeans y cómo se usa para crear y compilar aplicaciones Java. La programación orientada a objetos permite modelar el mundo real mediante la creación de objetos con estado y comportamiento.

Tutorial Java

Emerzon Castillo Navarro

Actividad de producto

Chuyito Alvarado

Este documento presenta el acta de inicio de un proyecto para desarrollar un sistema interactivo sobre la historia de México para niños de primaria. El líder del proyecto es Octavio Arturo Salas Esquivel y tiene un presupuesto de $28,000. El sistema se implementará en escuelas primarias para aumentar el interés de los estudiantes en la historia de México de una manera divertida. El proyecto comenzará el 9 de enero de 2013 y finalizará el 5 de abril de 2013.

Actividad de producto

Chuyito Alvarado

PulpoCon23 Los Datos que no sabes que tienes y como usarlos

Nino Dafonte

En un entorno en donde personas y tecnología centran la atención de los temas sobre los que generamos y consumimos contenido, existe un espacio poco explorado todavía: el lugar exacto en el que se produce la intersección entre estas dos temáticas. El código cuenta solamente una parte de la historia de un proyecto. Las personas y cómo éstas interactúan con él es lo que nos da una visión completa de cómo hemos llegado hasta aquí. - ¿Por qué ciertas partes del código nos provocan cansancio, desesperación y/o dolor de cabeza? - ¿Podemos ponerle palabras y una mejor descripción a eso de los "code smells"? - ¿Cómo se distribuye el conocimiento de vuestro proyecto? ¿Cuánto de alto es el riesgo de que tengamos zonas oscuras si alguien dejase el proyecto mañana? ¿Y qué hacemos al respecto? - ¿Se os amontona la deuda técnica y no sabéis ni por dónde empezar a devolver ese interés? - ¿Alguna vez habéis visto una reorganización de equipos en el que de repente todo parece ir a peor? Spoiler: tiene explicación y la respuesta la tenéis en vuestros repositorios de código. En este ratito os contaré algunas de mis experiencias y aprendizajes sobre un tipo de análisis llamado “Behavioral Code Analysis”, (Adam Tornhill, “Your code as a crime scene” y “Software Design X-Rays”), así como muchas ideas interesantes que se entrecruzan con este tipo de análisis: cómo nuestro cerebro procesa el código y qué cosas facilitan o complican ese proceso en nuestro día a día (Felienne Hermans, “The Programmer’s brain”)

Introducción a los Patrones de diseño de software

Yazmin RuBo

Este documento introduce los conceptos básicos de la reutilización de software y los patrones de diseño. Explica que la reutilización reduce costos y mejora la calidad al permitir el uso repetido de artefactos de software. También cubre los pros y contras de la reutilización, así como su evolución entre los siglos XX y XXI. Finalmente, presenta el caso de una cafetería que mejora su sistema de pedidos aplicando el patrón Decorator para agregar condimentos adicionales a las bebidas.

Clase 1

Willy Aguirre

Ejercicios de test - desarrollo y programación

oposicionestic

Similar a Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto (20)

Intelligent Methods for Information Access in Context: The Role of Topic Desc...

Programación del curso inf212 - POO

(22.04.2009) Cumuy Presenta - Novedades en la plataforma de desarrollo .NET ...

Programar java 2pre

Manual de javapre

Java jaucito

Aplicaciones java

Ingeniería del Software: Nuestro producto debe funcionar

MDD Ingenieria de Software Dirigida por Modelos

GWT: Why GWT, GQuery, and RequestFactory

Clase1 introduccinalcurso

Ejercicios de evaluación de fundametnos de programacion en JAva

Tarea 05 OP.docx

Tutorial Java

Actividad de producto

PulpoCon23 Los Datos que no sabes que tienes y como usarlos

Introducción a los Patrones de diseño de software

Clase 1

Ejercicios de test - desarrollo y programación

Último

p4s.co Ecosistema de Ecosistemas - Diagrama.pdf

DavidCamiloMosquera

MATERIAL ESCOLAR 2024-2025 3 AÑOS CEIP SAN CRISTÓBAL

Ana Fernandez

Lecciones 11 Esc. Sabática. El conflicto inminente docx

Alejandrino Halire Ccahuana

MATERIAL ESCOLAR 2024-2025. 4 AÑOS CEIP SAN CRISTOBAL

Ana Fernandez

POESÍA POR EL DIA DEL PADREEEEEEEEEE.pdf

karlavasquez49

DESARROLLO DE LAS RELACIONES CON LOS STAKEHOLDERS.pdf

JonathanCovena1

CINE COMO RECURSO DIDÁCTICO para utilizar en TUTORÍA

Fernández Gorka

Mapa Mental documentos que rigen el sistema de evaluación

ruthmatiel1

1.- manual-para-la-creacion-33-dias-de-manifestacion-ulises-sampe.pdf

MiNeyi1

Vida, obra y pensamiento de Kant I24.ppt

LinoLatella

Prueba/test conoce tus heridas de la infancia

LudmilaOrtega3

Liturgia día del Padre del siguiente domingo.pptx

YeniferGarcia36

200. Efemerides junio para trabajar en periodico mural

shirherrer

La vida de Martin Miguel de Güemes para niños de primaria

EricaCouly1

CONCURSOS EDUCATIVOS 2024-PRESENTACIÓN ORIENTACIONES ETAPA IE (1).pptx

CARMENSnchez854591

Presentación de la historia de PowerPoint y sus características más relevantes.

genesiscabezas469

Power Point: El conflicto inminente (Bosquejo)

https://gramadal.wordpress.com/

1° T3 Examen Mtro JP 23-24.pdf completos

ROCIORUIZQUEZADA

Evaluacion-Formativa-Nueva Escuela Mexicana NEM-ok.pdf

EfranMartnez8

Gracias papá voz mujer_letra y acordes de guitarra.pdf

Ani Ann

Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto

1. CONICET Defensa Oral de Tesis Doctor en Ciencias de la Computación Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto Carlos M. Lorenzetti Directores : Guillermo R. Simari Ana G. Maguitman Universidad Nacional del Sur

2. Cambio de roles

3. Cambio de roles

4. Cambio de roles

5. Oportunidades DESAFÍOS ACCESIBILIDAD RECURSOS

6. Oportunidades ASISTENCIA INTELIGENTE CPU OCIOSAS

7. El problema del contexto Cantidad de información

8. El problema del contexto Consulta Contexto

9. El problema del contexto Consultas basadas en contexto

10. Búsqueda basada en contexto IMPORTADOR DE CAFÉ ¿Variedades? ¿Cualidades? ¿Exportadoras?

11. Búsqueda basada en contexto TURISTA ¿Sitios de interés? ¿Paquetes? ¿Historia?

12. Búsqueda basada en contexto ESTUDIANTE ¿Sintaxis? ¿Ejemplos? ¿Comparación?

13. Búsqueda basada en contexto PROBLEMAS COMPLEJIDAD SIGNIFICADO WEB

14. FORMULACIÓN DE CONSULTAS

15. Refinamiento de consultas REFINAMIENTO DE CONSULTAS 1.Consulta original 2.Conjunto inicial de documentos 3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada 4.Mejora de la representación 5.Recuperación de mejores resultados

16. Refinamiento de consultas REFINAMIENTO DE CONSULTAS 1.Consulta original 2.Conjunto inicial de documentos 3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada 4.Mejora de la representación 5.Recuperación de mejores resultados

17. Refinamiento de consultas REFINAMIENTO DE CONSULTAS 1.Consulta original 2.Conjunto inicial de documentos 3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada 4.Mejora de la representación 5.Recuperación de mejores resultados

18. Refinamiento de consultas REFINAMIENTO DE CONSULTAS 1.Consulta original 2.Conjunto inicial de documentos 3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada 4.Mejora de la representación 5.Recuperación de mejores resultados

19. Refinamiento de consultas REFINAMIENTO DE CONSULTAS 1.Consulta original 2.Conjunto inicial de documentos 3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada 4.Mejora de la representación 5.Recuperación de mejores resultados

20. Refinamiento de consultas REFINAMIENTO DE CONSULTAS 1.Consulta original 2.Conjunto inicial de documentos 3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada 4.Mejora de la representación 5.Recuperación de mejores resultados

21. Refinamiento de consultas REFINAMIENTO DE CONSULTAS 1.Consulta original 2.Conjunto inicial de documentos 3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada 4.Mejora de la representación 5.Recuperación de mejores resultados

22. Refinamiento de consultas REFINAMIENTO DE CONSULTAS 1.Consulta original 2.Conjunto inicial de documentos 3.Cálculo de Relevancia ● Realimentación Supervisada ● Realimentación No supervisada ● Realimentación Semi-supervisada 4.Mejora de la representación 5.Recuperación de mejores resultados

23. OBJETIVOS Proponer, investigar y evaluar nuevas técnicas semisupervisadas de IR orientadas a entender mejor las necesidades de los usuarios. Preguntas de investigación • ¿Puede el contexto del usuario explotarse para acceder a material relevante en la Web? • ¿Pueden los términos específicos a un contexto ser refinados incrementalmente basándose en el análisis de los resultados de un motor de búsqueda? • ¿Estos términos son mejores?

24. OBJETIVOS 1) Proponer un algoritmo semisupervisado capaz de aprender incrementalmente nuevos vocabularios con el propósito de mejorar consultas temáticas. El objetivo es que estas consultas reflejen la información contextual y así puedan recuperar material relacionado semánticamente. semánticamente 2) Desarrollar una plataforma para evaluar las técnicas de IR propuestas, así como otras técnicas existentes. Dicha plataforma es especialmente apta para el análisis de buscadores temáticos y para incorporar métricas de evaluación novedosas basadas en las nociones de similitud semántica y relevancia parcial. parcial

25. Distintos roles de los términos Nivel de información de un término en un conjunto de documentos. Poder descriptivo y discriminante de un término en un documento respecto de un conjunto de documentos. Conjunto predefinidos. Independientes de un contexto. Estudio basado en distribución a lo largo de los tópicos de las páginas recuperadas por un motor de búsqueda.

26. Distintos roles de los términos • Descriptores ● Términos que aparecen en la mayoría de los documentos de un tópico ¿Sobre qué trata el tópico? • Discriminadores ● Términos que aparecen sólo en los documentos de un tópico ¿Qué términos utilizo para encontrar información similar ?

27. Descriptores y discriminadores Machine Java Language Virtual Programming Ruby Applets NetBeans Computers JVM Code JDK Tópico: Máquina Virtual de Java

28. Descriptores y discriminadores Machine Buenos descriptores Java Language Virtual Programming Ruby Applets NetBeans Computers JVM Code JDK Tópico: Máquina Virtual de Java

29. Descriptores y discriminadores Machine Java Language Virtual Programming Ruby Applets NetBeans Computers JVM Code JDK Buenos discriminadores Tópico: Máquina Virtual de Java

30. Descriptores y discriminadores d0 java 4 machine 2 Contexto virtual 1 Inicial language 1 programming 3 Tópico: Máquina Virtual de Java

31. Descriptores y discriminadores H d0 (1) (2) (3) (4) java 4 2 5 5 2 machine 2 6 3 2 0 virtual 1 0 1 1 0 (1) espressotec.com (2) netbeans.org language 1 0 2 1 1 (3) sun.com (4) wikitravel.org programming 3 0 0 2 0 H [i , j]= p Número de apariciones del término ki en el documento dj Tópico: Máquina Virtual de Java

32. Descriptores y discriminadores H d0 (1) (2) (3) (4) java 4 2 5 5 2 machine 2 6 3 2 0 virtual 1 0 1 1 0 (1) espressotec.com (2) netbeans.org language 1 0 2 1 1 (3) sun.com (4) wikitravel.org programming 3 0 0 2 0 coffee 0 3 0 0 3 island 0 4 0 0 2 province 0 4 0 0 1 H [i , j]= p jvm 0 0 2 1 0 Número de apariciones del jdk 0 0 3 3 0 término ki en el documento dj Tópico: Máquina Virtual de Java

33. Descriptores y discriminadores d 0  d 0 , k i   d 0 , k i  java 4 0,718 0,447 Poder descriptivo de un término machine 2 0,359 0,500 en un documento virtual 1 0,180 0,577 H [i , j ] language 1 0,180 0,500  d j , k i = programming 3 0,539 0,577  n−1 ∑k=0  H [i , j ]2 coffee 0 0,000 0,000 island 0 0,000 0,000 Poder discriminante de un término en un documento province 0 0,000 0,000 jvm 0 0,000 0,000 s  H [ i , j ]  d j , k i = jdk 0 0,000 0,000 ∑ m−1 h=0 s  H [ i , h ] Tópico: Máquina Virtual de Java

34. Modelo de representación k1 d2 Modelo vectorial d1 α k2 k3 Función de similitud entre documentos Similitud por coseno n−1 1 sim ( d j , d k )= ∑ λ( d j , k h ) . λ (d k , k h ) h=0

35. Descriptores y discriminadores d 0   d 0 , k i   d 0 , k i  java 4 0,385 0,493 Poder descriptivo de un término en machine 2 0,158 0,524 el tópico de un documento m−1 virtual 1 0,124 0,566 ∑h=0 sim (d j , d h ).[ λ (d h ,k i )]2 h≠ j language 1 0,089 0,517 Λ (d j , k i)= m −1 programming 3 0,064 0,566 ∑h=0 sim(d j ,d h) h≠ j coffee 0 0,055 0,385 island 0 0,040 0,385 Poder discriminante de un término province 0 0,040 0,385 en el tópico de un documento jvm 0 0,032 0,848 m −1 jdk 0 0,014 0,848 Δ (d j , k i)=∑ h=0 sim (d j , d h ).[δ(d h , k i )]2 h≠ j Tópico: Máquina Virtual de Java

36. MÉTODO INCREMENTAL DE RECUPERACIÓN DE INFORMACIÓN BASADO EN CONTEXTO

37. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2 descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 3 . . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores

38. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2 descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 . 3 . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores

39. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2 descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 . 3 . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores

40. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2 descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 . 3 . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores

41. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2 descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 . 3 . . . resultado 03 consulta 03 wm 0.1 wm 0.01 MÉTRICAS discriminadores resultado n consulta n

42. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2 descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 3 . . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores

43. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2 descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 3 . . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores

44. Método incremental de IR basado en contexto wm wm-1 w1 1 Contexto w8 w2 w7 Términos w6 w3 w5 w4 4 2 descriptores w1 0.5 w1 0.4 resultado 01 consulta 01 w2 0.25 w2 0.37 . . resultado 02 consulta 02 3 . . . . resultado 03 consulta 03 wm 0.1 wm 0.01 resultado n consulta n discriminadores

45. Alcances y aplicaciones 1. Búsqueda basada en contexto ● Explotan la interacción del usuario con las aplicaciones en su computadora para determinar la tarea actual del usuario y poner en contexto sus necesidades de información. 2. Recuperación de recursos para portales temáticos ● Tienen el propósito de reunir recursos sobre temas específicos. El material recolectado se utiliza para construir directorios y sitios de búsqueda especializados. 3. Búsqueda en la Web oculta ● Se llama Web Oculta a las páginas generadas dinámicamente como el resultado de una consulta presentada a un formulario de búsqueda en sitios específicos. 4. Soporte para la administración y modelado del conocimiento ● Es el proceso mediante el cual se representa un cuerpo de conocimiento para facilitar su posterior acceso.

46. PLATAFORMA DE EVALUACIÓN

47. Plataforma de evaluación representación estadísticas métricas consulta 01 consulta 02 documentos consulta 03 pedidos consulta n

48. Plataforma de evaluación representación estadísticas métricas consulta 01 consulta 02 documentos consulta 03 pedidos consulta n

49. Plataforma de evaluación representación estadísticas métricas consulta 01 consulta 02 documentos consulta 03 pedidos consulta n

50. Plataforma de evaluación

51. Plataforma de evaluación TOP ARTE DEPORTE HOGAR ..... COMPRAS JARDINERIA CASA Y JARDIN JARDINES COCINA HISTORIA BONSAI Y PLANTAS SUISEKI 350mil páginas JARDINES ÁRBOLES FAMOSOS BONSAI enlace taxonómico JARDINES enlace simbólico JAPONESES enlace relacionado BOTÁNICOS BONSAI

52. Plataforma de evaluación representación estadísticas métricas consulta 01 consulta 02 documentos consulta 03 pedidos consulta n

53. Plataforma de evaluación ✔ PRECISIÓN ✔ COBERTURA ✔ SIMILITUD ✔ SIMILITUD NOVEDOSA ✔ PRECISIÓN SEMÁNTICA ✔ SIMILITUD SEMÁNTICA MÉTRICAS

54. Plataforma de evaluación PRECISIÓN Y COBERTURA Recuperados Relevantes MÉTRICAS A R Espacio de documentos

55. Plataforma de evaluación PRECISIÓN Y COBERTURA Relevantes Recuperados relevantes no recuperados Recuperados Relevantes MÉTRICAS A R Recuperados no relevantes Espacio de documentos

56. Plataforma de evaluación PRECISIÓN Y COBERTURA ∣A∩R∣ ∣A∩R∣ (β 2+1) P.C P= C= Fβ = ∣A∣ ∣R∣ C+β2 P Recuperados Relevantes MÉTRICAS A R Espacio de documentos

57. Plataforma de evaluación SIMILITUD Y SIMILITUD NOVEDOSA k1 ⃗j . ⃗ d dk d2 sim ( d j , d k )= d1 ∣⃗∣.∣⃗∣ jd d k  k2 k3 MÉTRICAS sim (q , d j , d k )=sim (⃗ ,⃗ N d j−q d k −q)

58. Plataforma de evaluación SIMILITUD SEMÁNTICA Y PRECISIÓN SEMÁNTICA TOP ARTE DEPORTE HOGAR ..... COMPRAS JARDINERIA COCINA CASA Y JARDIN JARDINES HISTORIA BONSAI Y PLANTAS SUISEKI JARDINES FAMOSOS ÁRBOLES MÉTRICAS JARDINES BONSAI JAPONESES BONSAI BOTÁNICOS ∑d ∈ A sim S ( τ (C ) , τ( d j )) enlace taxonómico S enlace simbólico P = j enlace relacionado ∣A∣

59. Plataforma de evaluación representación estadísticas métricas consulta 01 consulta 02 documentos consulta 03 pedidos consulta n

60. Plataforma de evaluación BASE BO1-DFR y BO1 SUPERVISADO INCREMENTAL GENÉTICO MONO Y MULTIOBJETIVO

61. EVALUACIONES

62. Evaluaciones Promedio sobre todos los tópicos evaluados Formulación de consultas y Similitud novedosa recuperación de información Cambio de fase ALGORITMO INCREMENTAL

63. Evaluaciones ALGORITMO INCREMENTAL Base Bo1 (24%) Incremental (67%) 1 0.8 incremental 0.6 0.4 0.2 0 0 0.5 0.2 0 1 0.6 0.4 Bo1 0.8 1 base Precisión

64. Evaluaciones ALGORITMO INCREMENTAL Base Bo1 (28%) Incremental (65%) 1 0.8 incremental 0.6 0.4 0.2 0 0 0.5 0.2 0 1 0.6 0.4 Bo1 0.8 1 base Precisión semántica

65. Evaluaciones ALGORITMO INCREMENTAL Base Bo1 Incremental (100%) 1 0.8 incremental 0.6 0.4 0.2 0 0 0.1 0.2 0.3 0.1 0.05 0 0.25 0.2 0.15 0.4 0.35 0.3 Bo1 0.4 base Similitud novedosa

66. Evaluaciones NSGA-II mejora a los demás Agregativo mejora a los demás Precisión Bo1* mejora a los demás Base mejora a los demás Agregativo NSGA-II Bo1* Bo1* Base Base ALGORITMOS GENÉTICOS

67. Evaluaciones NSGA-II mejora a los demás Agregativo mejora a los demás Cobertura Bo1* mejora a los demás Base mejora a los demás Agregativo NSGA-II Bo1* Bo1* Base Base ALGORITMOS GENÉTICOS

68. Conclusiones ➢ Herramienta de Recuperación de Información ➔ Ayuda al usuario en la tarea que realiza ➔ Soluciona el problema de sensibilidad semántica • falsos-negativos (distinto vocabulario) • falsos-positivos (java) ➢ Plataforma de evaluación ➔ Desarrollo, evaluación y comparación de algoritmos ➔ Nuevas métricas

69. Trabajo a futuro ➢ Clasificación de texto y clustering ➔ Aplicación de las técnicas incrementales ➢ Nuevas métricas y estrategias ➔ Mejorar el rendimiento ➢ Disponibilidad ➔ Ampliación de la plataforma

70. CONICET ¡MUCHAS GRACIAS! Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto Carlos M. Lorenzetti Directores : Guillermo R. Simari Ana G. Maguitman Universidad Nacional del Sur

Notas del editor

Presentación Defensa de tesis oral de doctorado, bajo la dirección de Guillermo y Ana. Título ...
Cuando se empezaron a utilizar los sistemas de información, eran accedidos desde una única ubicación desconectada de cualquier otra computadora y a través de expertos que conocían cómo se almacenaba la información y el lenguaje necesario para su acceso. -------- Hoy en día los usuarios pueden acceder a sistemas de información todos los días de forma directa a través de sus propias computadoras en sus hogares, lo que ha cambiado el contexto en el cual se utilizan los sistemas de IR. Sin embargo, los primeros sistemas de IR no resultaron intuitivos para los usuarios que los accedían, provocando el desarrollo de nuevos sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible, convirtiéndose un herramienta fundamental para el acceso a la información. Lamentablemente, tales sistemas solo obtienen información por demanda, es decir que el usuario debe interrumpir el proceso normal de navegación esperando ocioso por los resultados de su búsqueda.
Cuando se empezaron a utilizar los sistemas de información, eran accedidos desde una única ubicación desconectada de cualquier otra computadora y a través de expertos que conocían cómo se almacenaba la información y el lenguaje necesario para su acceso. -------- Hoy en día los usuarios pueden acceder a sistemas de información todos los días de forma directa a través de sus propias computadoras en sus hogares, lo que ha cambiado el contexto en el cual se utilizan los sistemas de IR. Sin embargo, los primeros sistemas de IR no resultaron intuitivos para los usuarios que los accedían, provocando el desarrollo de nuevos sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible, convirtiéndose un herramienta fundamental para el acceso a la información. Lamentablemente, tales sistemas solo obtienen información por demanda, es decir que el usuario debe interrumpir el proceso normal de navegación esperando ocioso por los resultados de su búsqueda.
Cuando se empezaron a utilizar los sistemas de información, eran accedidos desde una única ubicación desconectada de cualquier otra computadora y a través de expertos que conocían cómo se almacenaba la información y el lenguaje necesario para su acceso. -------- Hoy en día los usuarios pueden acceder a sistemas de información todos los días de forma directa a través de sus propias computadoras en sus hogares, lo que ha cambiado el contexto en el cual se utilizan los sistemas de IR. Sin embargo, los primeros sistemas de IR no resultaron intuitivos para los usuarios que los accedían, provocando el desarrollo de nuevos sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible, convirtiéndose un herramienta fundamental para el acceso a la información. Lamentablemente, tales sistemas solo obtienen información por demanda, es decir que el usuario debe interrumpir el proceso normal de navegación esperando ocioso por los resultados de su búsqueda.
Este escenario trae nuevos desafíos a los diseñadores de sistemas de IR tanto desde el punto de vista de la accesibilidad como del aprovechamiento de los recursos de información disponible. El crecimienot explosivo de la Web y otras fuentes de información ha hecho crítica la necesidad de alguna clase de asistencia inteligente para el usuario que está buscando información relevante. El desarrollo de CPU cada vez más poderosas hace que cada vez haya más tiempos ociosos de las mismas que pueden ser utilizados constructivamente para realizar búsquedas de información útil para el contexto actual del usuario. Por ejemplo, cuando un ingeniero está leyendo un correo electrónico sobre un proyecto, un agente puede recordarle la planificación, los reportes de avance etc y cuando el usuario cambie de tarea, el sistema cambiaría automáticamente para adecuarse a la nueva tarea.
Este escenario trae nuevos desafíos a los diseñadores de sistemas de IR tanto desde el punto de vista de la accesibilidad como del aprovechamiento de los recursos de información disponible. El crecimienot explosivo de la Web y otras fuentes de información ha hecho crítica la necesidad de alguna clase de asistencia inteligente para el usuario que está buscando información relevante. El desarrollo de CPU cada vez más poderosas hace que cada vez haya más tiempos ociosos de las mismas que pueden ser utilizados constructivamente para realizar búsquedas de información útil para el contexto actual del usuario. Por ejemplo, cuando un ingeniero está leyendo un correo electrónico sobre un proyecto, un agente puede recordarle la planificación, los reportes de avance etc y cuando el usuario cambie de tarea, el sistema cambiaría automáticamente para adecuarse a la nueva tarea.
El aumento del uso de los sistemas de computadoras que mencionamos no ha provocado un aumento en la cantidad de información que el usuario le comunica al sistema, ni ha habido demasiados cambios en las interfaces. El usuario debe ingresar su consulta aislada en una caja de texto y el sistema le devuelve una lista de documentos relevantes. La consulta y el contexto en el cual el usuario le surge una necesidad de información siguen aislados. Cuando un usuario recurre a un sistema de IR es porque quiere resolver algún problema sobre el que no tiene el conocimiento suficiente y este es principal problema, el usuario no sabe qué consultas generar. Sin embargo, las consultas suelen estar basadas en un contexto que puede ayudar a interpretarlas, por ejemplo, si un usuario está editando un documento o leyendo una página web, quizás esté interesado en saber más sobre el tópico de ese documento o página web. veamos a continuación un ejemplo, un bastante común en computación, un usuario que está buscando información acerca de Java y observemos como cambia la utilidad de los resultados en los distintos escenarios.
El aumento del uso de los sistemas de computadoras que mencionamos no ha provocado un aumento en la cantidad de información que el usuario le comunica al sistema, ni ha habido demasiados cambios en las interfaces. El usuario debe ingresar su consulta aislada en una caja de texto y el sistema le devuelve una lista de documentos relevantes. La consulta y el contexto en el cual el usuario le surge una necesidad de información siguen aislados. Cuando un usuario recurre a un sistema de IR es porque quiere resolver algún problema sobre el que no tiene el conocimiento suficiente y este es principal problema, el usuario no sabe qué consultas generar. Sin embargo, las consultas suelen estar basadas en un contexto que puede ayudar a interpretarlas, por ejemplo, si un usuario está editando un documento o leyendo una página web, quizás esté interesado en saber más sobre el tópico de ese documento o página web. veamos a continuación un ejemplo, un bastante común en computación, un usuario que está buscando información acerca de Java y observemos como cambia la utilidad de los resultados en los distintos escenarios.
El aumento del uso de los sistemas de computadoras que mencionamos no ha provocado un aumento en la cantidad de información que el usuario le comunica al sistema, ni ha habido demasiados cambios en las interfaces. El usuario debe ingresar su consulta aislada en una caja de texto y el sistema le devuelve una lista de documentos relevantes. La consulta y el contexto en el cual el usuario le surge una necesidad de información siguen aislados. Cuando un usuario recurre a un sistema de IR es porque quiere resolver algún problema sobre el que no tiene el conocimiento suficiente y este es principal problema, el usuario no sabe qué consultas generar. Sin embargo, las consultas suelen estar basadas en un contexto que puede ayudar a interpretarlas, por ejemplo, si un usuario está editando un documento o leyendo una página web, quizás esté interesado en saber más sobre el tópico de ese documento o página web. veamos a continuación un ejemplo, un bastante común en computación, un usuario que está buscando información acerca de Java y observemos como cambia la utilidad de los resultados en los distintos escenarios.
En este caso los recursos más apropiados serán aquellos que se refieran a la variedad de café llamada java, sus cualidades y los nombres de compañias exportadoras.
El turista estará buscando información acerca de la isla de Indonesia, paquetes turísticos, sitios de interés, etc.
En este caso serán resultados relevantes aquellos que se refieran al lenguaje, ejemplos, sintaxis, etc.
Los ejemplos mencionados muestran algunos de los problemas con los que se enfrentan los sistemas actuales de IR al intentar responder consultas sin tener en cuenta el contexto en el que estas se producen. Los términos toman significado de acuerdo a la forma en la que se los utilice y vemos que la búsqueda basada en contexto puede ayudarnos el proceso de recuperación identificando términos útiles que mejoren las consultas de un usuario. Encontrar buenos términos para crear consultas es un problema computacionalmente complejo y la situación empeora en un espacio abierto como la web en donde es posible incorporar términos que no pertenecen al contexto actual.
El proceso de creación de consultas es complejo y está condicionado a quien lo inicia, a su conocimiento sobre el contenido que está buscando, el vocabulario y otros aspectos. Las probabilidades de que los resultados de una consulta satisfaga a un usuario varían muchísimo en cualquier sistema de IR. Un usuario que conoce de la existencia de un documento en un sistema puede crear una consulta idéntica a ese documento, en cambio un usuario que busca información sobre un tema que desconoce tiene muy pocas probabilidades de recuperar el mejor documento. Esta variabilidad llevó a la creación de técnicas que reduzcan tal varianza. En los '70s Rocchio propuso una técnica de realimentación de relevancia análoga a la realimentación en la Teoría de Control. Se basa en la utilización de la salida de un sistema de IR para mejorar la entrada y de esa forma tratar de acercarnos al conjunto de documentos ideal para un pedido de un usuario. La suposición que hace este tipo de sistemas es que la consulta resultante será una mejor aproximación que la consulta inicial a la consulta óptima, aquella que obtendrá solo documentos relevantes para el usuario.
Un escenario típico para este proceso involucra los siguientes pasos:
El usuario formula la consulta inicial.
El sistema devuelve un conjunto inicial de documentos.
Se calcula la relevancia de los resultados obtenidos. Este paso distingue tres formas de realimentación. La primera necesita de una intervención explícita del usuario, quien debe indicar cuáles de los documentos le son relevantes y cuáles no. Dado que la relevancia es al subjetivo esta sería la forma más precisa de obtenerla, pero trae aparejado un esfuerzo que en general los usuarios no están dispuestos a realizar. Algunos sistema web han optado por esta solución sin demasiado éxito.
Esta segunda forma de realimentación, también se la conoce como realimentación ciega, ya que el sistema no tiene la asistencia del usuario para decidir cuáles documentos son relevantes y cuáles no. Existen varios tipos de sistemas de este tipo, el más común asume que los k primeros resultados devueltos en el punto 2 son relevantes. Hay que tener en cuenta que esa lista se supone ordenada con alguna función de orden que coloca primero a los que, a criterio del sistema, responden mejor a la consulta ingresa en el punto 1. Esta forma es muy dependiente de la calidad de los resultados obtenidos en el punto 2. Si la consulta inicial está muy alejada de los documentos relevantes para el usuario, el sistema será incapaz de recuperarse.
Esta última forma tampoco necesita de la intervención del usuario explícita, ya que el sistema infiere la relevancia de cada documento. Una forma de hacer esto es monitorear el comportamiento del usuario y obtener la relevancia de forma implícita a partir del comportamiento del usuario, como ser en qué documentos hace click. Otra manera de inferir la relevancia es comparar el documento con el contexto actual del usuario y es la forma que se utiliza en los algoritmos propuestos en esta tesis.
El sistema calcula una mejor representación de las necesidades del usuario basándose en la realimentación obtenida en el punto anterior.
El sistema devuelve un conjunto revisado de documentos.
Entonces, esta tesis tiene como principal objetivo proponer, investigar y evaluar nuevas técnicas semisupervisadas de IR orientadas a entender mejor las necesidades de los usuarios. Para abordar este objetivo, se plantearon las siguientes preguntas de investigación: 1 ¿Puede el contexto del usuario explotarse satisfactoriamente para acceder a material relevante en la Web? 2 ¿Puede un conjunto de términos específicos de un contexto ser refinado incrementalmente basándose en el análisis de los resultados de una búsqueda? 3 ¿Los términos específicos de un contexto aprendidos mediante métodos incrementales, son mejores para generar consultas comparados con aquellos encontrados por técnicas clásicas de IR o métodos clásicos de reformulación de consultas?
1 Proponer un algoritmo semisupervisado capaz de aprender incrementalmente nuevos vocabularios con el propósito de mejorar consultas temáticas. El objetivo es que estas consultas reflejen la información contextual y así puedan recuperar efectivamente material relacionado semánticamente. 2 Desarrollar una plataforma para evaluar las técnicas de IR propuestas, así como otras técnicas existentes. Dicha plataforma es especialmente apta para el análisis de buscadores temáticos y para incorporar métricas de evaluación novedosas basadas en las nociones de similitud semántica y relevancia parcial.
Los términos específicos a un contexto juegan distintos roles. En la literatura existen muchos trabajos acerca del cálculo del nivel de información que tiene un término en un conjunto de documentos y algunos se han enfocado en el cálculo del poder descriptivo y discriminante de un término en un documento respecto de ese conjunto. Sin embargo, estos trabajos se han basado en conjuntos predefinidos de documentos e independientemente de un contexto temático. En esta tesis se utilizó un estudio del poder descriptivo y discriminante de un término basado en su distribución en lo largo los tópicos de las páginas recuperadas por un motor de búsqueda y esto propone nuevos desafíos ya que limita la cantidad de información disponible.
Para distinguir entre descriptores y discriminadores de tópicos se argumenta que buenos descriptores de tópicos pueden encontrarse buscando aquellos términos que aparecen en la mayoría de los documentos relacionados con el tópico deseado. Por otro lado, buenos discriminadores de tópicos pueden hallarse buscando términos que sólo aparecen en documentos relacionados con el tópico deseado. Ambos tipos de términos son importantes a la hora de generar consultas. Utilizar términos descriptores del tópico mejora el problema de los resultados falso-negativos porque aparecen frecuentemente en páginas relevantes. De la misma manera, los buenos discriminadores de tópicos ayudan a reducir el problema de los falsos-positivos, ya que aparecen principalmente en páginas relevantes.
As our objective is to learn the user needs , instead of extracting the descriptors and discriminator of documents (like the user context) we need to find user context topic descriptors and discriminators. This term identification needs an Incremental Method that identifies which documents are similar to the user context. So, we need … A document comparison criteria and we choose Cosine Similarity. En este trabajo utilizamos para representar los documentos, la representación vectorial. Los documentos están formados por términos y cada término representa una dimensión en un espacio vectorial. El peso que se le asigna a cada término puede ser su frecuencia en el documento o alguna otra métrica. It uses the most simple way to compare documents and it’s the most common method in IR. La similitud en fción de lambda defino antes se expresa como:
La propuesta es aproximar el poder descriptivo y discriminante de los términos del contexto bajo análisis con el propósito de generar buenas consultas. Esta aproximación adapta el mecanismo típico de realimentación de relevancia para que considere un contexto temático en evolución
Un esquema del método incremental para el refinamiento de consultas basado en un contexto temático se muestra en la figura.
Contexto del usuario, navegadores, procesadores de texto, lectores de correo, etc
First, we extract terms from the user context.
Ponderación de términos
With these terms we make queries and the system returns an initial set of results. Métricas These steps are repeated until no improvements are observed.
with the obtained results and the context the descriptors and discriminators lists are built.
Then, the context characterization is updated with new learned material and the process starts again. If after a number of trials the retrieval effectiveness no significant improvements are observed after certain number of trials, the system forces to explore new potentially useful regions of the vocabulary landscape and it can be regarded as an improvement of the context characterization.
…
1 Un sistema de búsqueda basada en la tarea del usuario que evolucione consultas de alta calidad puede generar automáticamente sugerencias que estén contextualizadas en la tarea del usuario. 2 Una alternativa para la recolección del material puede hallarse formulando consultas temáticas en un motor de búsqueda y eligiendo del conjunto de resultados aquellos recursos que están relacionados con el tópico en cuestión. 3 Gran parte de la información de la Web puede encontrarse en esta forma y estas páginas no existen hasta que son creadas dinámicamente. Por lo tanto, la generación de consultas de alta calidad es de gran importancia al momento de querer acceder a recursos de la Web oculta. 4 La administración efectiva del conocimiento necesita ir más allá de su captura inicial y la Web proporciona una fuente rica en información en donde buscar nuevo material para incluir en estos modelos. De esta manera, el material puede accederse por medio de consultas que se presentan a un motor de búsqueda convencional, en donde el contexto está dado por el modelo de conocimiento que se está construyendo.
El método descripto en el capítulo anterior fue implementado en el contexto de una plataforma general de IR. Esta se desarrolló con el propósito de proponer y evaluar nuevos algoritmos en el área de IR. Los resultados de las evaluaciones del algoritmo incremental presentado en el capítulo anterior y de otros algoritmos serán mostrados a continuación.
Una representación esquemática de la Plataforma de Evaluación se muestra en la figura. Como se puede observar existe una primera parte que se encarga de la representación de las consultas. Estas pueden ingresarse como un conjunto o como un documento, a partir del cual el sistema generará las consultas necesarias. Por otro lado, la plataforma ofrece una interfaz de comunicación con los distintos motores de búsqueda. Como se dijo más arriba, una de las posibilidades es contar con un motor de búsqueda web. También existe un componente dedicado al cálculo de las métricas que guiarán los algoritmos de búsqueda y que también servirán para su evaluación. A continuación se explicarán con más detalles los componentes de la plataforma.
Este componente del sistema se encarga del proceso de generación de las consultas que iniciarán o que utilizarán los algoritmos que se evaluarán con la plataforma. Los algoritmos evaluados y propuestos en esta tesis caen en la categoría algoritmos de recuperación basada en contexto, por lo que en todos los casos se cuenta con el contexto del usuario. La generación de consultas puede llevarse a cabo con distintas técnicas. La primera es de forma aleatoria, en donde se seleccionan al azar palabras del contexto del usuario, todas con la misma probabilidad, y es la que se utilizó en varios artículos publicados. Otra técnica es el mecanismo de selección por ruleta, en donde la probabilidad de selección de un término está dada por el peso que tiene asignado. Esto provoca una exploración no determinística del espacio de términos que favorece a los más efectivos. Estos dos métodos se utilizaron en esta tesis.
Este componente del sistema se encarga de realizar los pedidos de información a los distintos motores de búsqueda con los que cuenta la plataforma. También lleva a cabo la tarea de preprocesar y convertir los resultados a un formato uniforme a todos los motores.
Por cuestiones de eficiencia, la métrica sólo se utilizó para comparar el contexto del usuario con cada fragmento de los documentos recuperados por el motor de búsqueda. Las taxonomías mantenidas por personas como ODP dividen a una porción de la Web en una jerarquía de categorías con páginas en ellas y permiten una forma de evaluación automática. En los mecanismos tradicionales los juicios de relevancia son proporcionados por los usuarios de forma manual, lo cual es muy difícil de obtener. Más importante aún es el problema de la escalabilidad, ya que en grandes colecciones de datos como la Web es imposible cubrir exhaustivamente todos los tópicos existentes. El ODP clasifica millones de URLs en una ontología temática y ayuda a darle sentido a las páginas que contiene y, con esta información, pueden derivarse relaciones semánticas entre las páginas. Por otro lado, en ODP se cuenta con la descripción de cada tópico, también escrita por personas y esta pequeño párrafo es lo que se utilizó como contexto inicial de los algoritmo evaluados con este motor de búsqueda.
Por cuestiones de eficiencia, la métrica sólo se utilizó para comparar el contexto del usuario con cada fragmento de los documentos recuperados por el motor de búsqueda. Las taxonomías mantenidas por personas como ODP dividen a una porción de la Web en una jerarquía de categorías con páginas en ellas y permiten una forma de evaluación automática. En los mecanismos tradicionales los juicios de relevancia son proporcionados por los usuarios de forma manual, lo cual es muy difícil de obtener. Más importante aún es el problema de la escalabilidad, ya que en grandes colecciones de datos como la Web es imposible cubrir exhaustivamente todos los tópicos existentes. El ODP clasifica millones de URLs en una ontología temática y ayuda a darle sentido a las páginas que contiene y, con esta información, pueden derivarse relaciones semánticas entre las páginas. Por otro lado, en ODP se cuenta con la descripción de cada tópico, también escrita por personas y esta pequeño párrafo es lo que se utilizó como contexto inicial de los algoritmo evaluados con este motor de búsqueda.
Con el objetivo de medir la efectividad que alcanza el sistema, este componente se encarga de calcular distintas métricas sobre los resultados que le entrega el algoritmo en evaluación.
Las medidas que pueden aplicarse para guiar al algoritmo son las clásicas del área de IR (como las vistas en la \\autoref{sec:metricas}) u otras nuevas.
Comenzamos con las medidas clásicas de Pre. y Cob. Si representamos la salida de un sist. de IR con conjuntos tenemos el cjto de doc relevantes (los que son relevantes para la consulta del usuario) y los docs. recuperados.
Entonces tenemos tres subcjtos. los docs relev. recp., los docs. recup. que son relv. y los docs recup. pero que no son relev.
Las mét. de P y C se definen en fción. de estos subcjtos. La P es la rel. entre ... La C es la rel. entre ... Ahora bien, tener 2 métricas para comparar sist. de IR puede traer deficultades ya que un sist. puede mejorar la P y otro sist. puede mej. la R. Entonces en la Plataf. de eval. también se implementó la métrica conocida como F que pondera ambas métricas en una sola y permite comparar los sistemas de forma absoluta.
En particular, puede notarse que al utilizar un motor web no es posible calcular otras métricas como la cobertura, dado que no hay una forma de saber de antemano qué páginas pertenecen al conjunto de documentos relevantes para la consulta que se está haciendo. Como se mencionó, el motor de búsqueda web, devuelve como parte de los resultados un pequeño fragmento del documento recuperado y se lo utilizó con la medida clásica de IR, similitud por coseno. Otro problema que aparece es que, en general, este fragmento contiene porciones del documento cercanas a las palabras de la consulta y, por lo tanto, es muy probable que estas estén contenidas dentro de este. Lo que perjudica a aquellos documentos que pudieran ser relevantes y que no emplean el mismo vocabulario que el usuario, desfavoreciendo la exploración de material novedoso. En vista de las consideraciones expuestas arriba, en esta tesis se propone una nueva métrica llamada Similitud Novedosa . La similitud novedosa es una medida de similitud ad~hoc que está basada en la cosine_similarity. Esta nueva medida descarta los términos que forman parte de la consulta al momento de hacer los cálculos, reduciendo el sesgo introducido por esos términos y favoreciendo la exploración de nuevos documentos.
La medida estándar de sim x coseno es una medida muy estricta respecto de que necesita que los documentos analizados contengan exáctamente los mismos términos para lograr una similitud alta. En la web es necesaria una medida de sim. semántica, ya que queremos encontrar documentos que a pesar de estar descriptos con vocabularios difierentes, son similares conceptualmente. En esta tesis se utilizó una medida de sim. semántica generalizada para grafos que tiene en cuenta los distintos tipos de enlaces en ODP y que permite encontrar relaciones semánticas entre tópicos que de otra manera se perderían. Como ser ... A partir de esta métrica, en esta tesis, de definió una nueva métrica llamana Precisión Semántica que es similar a la Precisión estándar pero fue modificada para encontrar documentos parcialmente relacionados y potencialmente útiles.
Base Bo1: asume que los k primeros docs. de la 1era pasada son relevantes. Bo1 super: se desarrolló en esta tesis una versión supervisada del alg. bo1 que en lugar de utilizar los k primeros documentos de la 1era pasada, utiliza los k primeros que efectivamente son relevantes, a partir de la información provista por el motor local. Gen: son algoritmos que se utilizan para problemas de optimización y búsqueda y que tratan de mejorar algún objetivo.
Algunos resultados a los que se pudo llegar x medio de la plataforma al evaluar los distintos algorit.
Por medio de la plataforma desarrollada en esta tesis se pudo analizar el comportamiento de, en este caso, el algoritmo incremental propuesto. En la figura vemos las mejoras obtenidas a lo largo de las iteraciones en la simlitud novedosa promedio para todos los tópicos analizados. Zonas. Esto muestra la efectividad del algoritmo para recuperar material relevante.
Por medio de la plataforma desarrollada también se evalúo … Precisión
Precisión semántica
sim novedosa
Por medio de la plataforma desarrollada también se analizó el comportamiento de dos tipos de algoritmos genéticos multiobjetivo, NSGA y agregativo … Precisión
Cobertura
A lo largo de esta tesis se desarrolló una herramienta de IR que ayuda al usuario en la tarea que está realizando, brindándole información relevante y basada en su contexto actual. Para ello se propuso una solución al problema de la sensibilidad semántica, que es la limitación que surge cuando no se puede hallar una relación entre dos documentos similares semánticamente, porque contienen distintos términos en su vocabulario, resultando en un falso-negativo al intentar recuperar material relevante. Además, mediante la identificación de buenos discriminadores de tópicos, la propuesta presentada en esta tesis ayuda a mitigar el problema de falsos-positivos, que aparece cuando el mismo término (p. ej., java) aparece en dos tópicos diferentes. El método enunciado trabaja aprendiendo incrementalmente mejores vocabularios de un gran conjunto de datos como la Web. En esta tesis se implementó una plataforma de evaluación y comparación de métodos y técnicas para la IR. La misma permitió el desarrollo de los algoritmos presentados en este trabajo, proporcionando el soporte necesario para un análisis detallado de los resultados obtenidos. Dentro de esta plataforma también se implementaron las nuevas métricas propuestas en esta tesis. Una de ellas es la Similitud novedosa, una medida de comparación entre documentos que descarta los términos que pudieran introducir un sesgo en la medición, favoreciendo la exploración de nuevo material. La otra es la Precisión semántica, una métrica para la comparación de los resultados de un sistema de recuperación de información. Esta medida brinda una noción más rigurosa de la calidad de los documentos recuperados por un algoritmo de IR, al incorporar la noción de relevancia parcial entre tópicos.

Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (20)

Similar a Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto

Similar a Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto (20)

Último

Último (20)

Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto

Notas del editor