La Web se ha vuelto un recurso potencialmente infinito de información, transformándose además en una herramienta imprescindible para muchas tareas de la vida diaria. Esto provocó un aumento en la cantidad de información existente en el contexto de los usuarios, que no es tenida en cuenta por los sistemas de recuperación de información actuales. En esta tesis se propone una técnica semisupervisada de recuperación de información que ayuda al usuario a recuperar información relevante para su contexto actual. El objetivo de la misma es contrarrestar la diferencia de vocabulario que pudiera existir entre el conocimiento que tiene el usuario sobre un tema y los documentos relevantes que se encuentran en la Web. Esta tesis presenta un método de aprendizaje de nuevos términos asociados a un contexto temático, a través de la identificación de términos que sean buenos descriptores y términos que sean buenos discriminadores del tópico del contexto actual del usuario. Para la evaluación del método propuesto se desarrolló un marco teórico de evaluación de mecanismos de búsqueda y se implementó una plataforma de evaluación, que además permitió comparar las técnicas desarrolladas en esta tesis con otras técnicas existentes en la literatura. La evidencia experimental muestra que las mejoras alcanzadas son significativas respecto de otros trabajos publicados. Dentro de este marco se desarrollaron asimismo nuevas métricas de evaluación que favorecen la exploración de material novedoso y que incorporan una medida de relación semántica entre documentos. Los algoritmos desarrollados a la largo de esta tesis evolucionan consultas de alta calidad, permitiendo recuperar recursos relevantes al contexto del usuario, e impactan positivamente en la forma en la que éste interactúa con los recursos que tiene disponibles.
--
The Web has become a potentially infinite information resource, turning into an essential tool for many daily activities. This resulted in an increase in the amount of information available in users' contexts that is not taken into account by current information retrieval systems. This thesis proposes a semisupervised information retrieval technique that helps users to recover context relevant information. The objective of the proposed technique is to reduce the vocabulary gap existing between the knowledge a user has about a specific topic and the relevant documents available in the Web. This thesis presents a method for learning novel terms associated with a thematic context. This is achieved by identifying those terms that are good descriptors and good discriminators of the user’s current thematic context. In order to evaluate the proposed method, a theoretical framework for the evaluation of search mechanisms was developed. This served as a guide for the implementation of an evaluation framework that allowed to compare the techniques proposed in this thesis with other techniques existing in the literature. The
Este documento contiene información sobre la importancia del estudio, hábitos de estudio como la organización y programación del tiempo de estudio, y sobre la escucha activa. Explica que el estudio permite descubrir la verdad, desarrollar habilidades y formar la personalidad. También cubre la importancia de establecer un espacio de estudio organizado y horarios para asignar tiempo a diferentes asignaturas. Finalmente, define la escucha activa y proporciona consejos como reflejar los sentimientos de la otra persona y hacer preguntas para
MapReduce es un modelo de programación paralela creado por Google en 2004 que permite procesar grandes conjuntos de datos distribuidos en clusters o grids. Se basa en el paradigma de dividir y conquistar, dividiendo los datos en tareas más pequeñas que son procesadas en paralelo. Hadoop es una implementación de código abierto de MapReduce y su sistema de archivos distribuido HDFS que es usado por compañías como Yahoo, Facebook y Amazon.
El documento describe las redes de computadoras, incluyendo su objetivo de conectar y compartir recursos entre ordenadores, sus orígenes en la década de 1960, y sus aplicaciones como el chat y compartir archivos. Explica los componentes de hardware y software de una red, diferentes tipos como LAN, MAN y WAN, topologías como red en bus o estrella, y ventajas como compartir hardware y desventajas como privacidad.
El documento resume la historia y situación actual del Barrio Fausto Bazante en Guaranda, Ecuador. Los habitantes fundaron el barrio en 1988 para resolver la falta de vivienda y han luchado para obtener servicios básicos a pesar de la oposición inicial del municipio. Actualmente el barrio tiene 146 viviendas y 584 residentes, pero sigue en riesgo de deslizamientos debido a las lluvias invernales. El objetivo es determinar soluciones a las necesidades básicas y reducir los riesgos, especialmente de desliz
Este documento describe varios protocolos de encaminamiento para redes ad hoc móviles. Discute protocolos proactivos, reactivos e híbridos, e introduce varios protocolos propuestos específicamente para redes ad hoc, incluyendo DSR, AODV, OLSR y TBRPF. También menciona el trabajo del grupo de trabajo MANET de IETF para estandarizar protocolos de encaminamiento para redes ad hoc móviles.
El documento presenta diferentes ejercicios y conceptos sobre la memoria. Incluye una lista de palabras para recordar, instrucciones para responder preguntas sobre los ejercicios y una descripción de los procesos y sistemas de memoria. También explica factores que influyen en el recuerdo como la organización y significado de la información, y diferentes causas y alteraciones de la memoria como el olvido, amnesia y estrategias para mejorarla.
Este documento presenta el avance de un proyecto de tesis para implementar algoritmos de programación lógica en paralelo. Se analizan implementaciones secuenciales y paralelas existentes para seleccionar un software que permita la paralelización. Se proponen dos modelos de programación paralela y un cronograma de actividades que incluye el desarrollo e implementación del algoritmo paralelo y pruebas de eficiencia. El objetivo es calcular modelos p-estables de forma paralela para reducir el tiempo de procesamiento.
El documento trata sobre la utilización de pruebas automatizadas en la evaluación de la asignatura de computación. El objetivo general es determinar la incidencia que tiene el uso de pruebas automatizadas en los procesos de evaluación. Los objetivos específicos son establecer los principios generales de la evaluación y analizar las ventajas y desventajas de las pruebas automatizadas en el proceso de enseñanza-aprendizaje. Se presentan conceptos teóricos sobre tipos de evaluación y características de la evaluación, y se incl
Este documento contiene información sobre la importancia del estudio, hábitos de estudio como la organización y programación del tiempo de estudio, y sobre la escucha activa. Explica que el estudio permite descubrir la verdad, desarrollar habilidades y formar la personalidad. También cubre la importancia de establecer un espacio de estudio organizado y horarios para asignar tiempo a diferentes asignaturas. Finalmente, define la escucha activa y proporciona consejos como reflejar los sentimientos de la otra persona y hacer preguntas para
MapReduce es un modelo de programación paralela creado por Google en 2004 que permite procesar grandes conjuntos de datos distribuidos en clusters o grids. Se basa en el paradigma de dividir y conquistar, dividiendo los datos en tareas más pequeñas que son procesadas en paralelo. Hadoop es una implementación de código abierto de MapReduce y su sistema de archivos distribuido HDFS que es usado por compañías como Yahoo, Facebook y Amazon.
El documento describe las redes de computadoras, incluyendo su objetivo de conectar y compartir recursos entre ordenadores, sus orígenes en la década de 1960, y sus aplicaciones como el chat y compartir archivos. Explica los componentes de hardware y software de una red, diferentes tipos como LAN, MAN y WAN, topologías como red en bus o estrella, y ventajas como compartir hardware y desventajas como privacidad.
El documento resume la historia y situación actual del Barrio Fausto Bazante en Guaranda, Ecuador. Los habitantes fundaron el barrio en 1988 para resolver la falta de vivienda y han luchado para obtener servicios básicos a pesar de la oposición inicial del municipio. Actualmente el barrio tiene 146 viviendas y 584 residentes, pero sigue en riesgo de deslizamientos debido a las lluvias invernales. El objetivo es determinar soluciones a las necesidades básicas y reducir los riesgos, especialmente de desliz
Este documento describe varios protocolos de encaminamiento para redes ad hoc móviles. Discute protocolos proactivos, reactivos e híbridos, e introduce varios protocolos propuestos específicamente para redes ad hoc, incluyendo DSR, AODV, OLSR y TBRPF. También menciona el trabajo del grupo de trabajo MANET de IETF para estandarizar protocolos de encaminamiento para redes ad hoc móviles.
El documento presenta diferentes ejercicios y conceptos sobre la memoria. Incluye una lista de palabras para recordar, instrucciones para responder preguntas sobre los ejercicios y una descripción de los procesos y sistemas de memoria. También explica factores que influyen en el recuerdo como la organización y significado de la información, y diferentes causas y alteraciones de la memoria como el olvido, amnesia y estrategias para mejorarla.
Este documento presenta el avance de un proyecto de tesis para implementar algoritmos de programación lógica en paralelo. Se analizan implementaciones secuenciales y paralelas existentes para seleccionar un software que permita la paralelización. Se proponen dos modelos de programación paralela y un cronograma de actividades que incluye el desarrollo e implementación del algoritmo paralelo y pruebas de eficiencia. El objetivo es calcular modelos p-estables de forma paralela para reducir el tiempo de procesamiento.
El documento trata sobre la utilización de pruebas automatizadas en la evaluación de la asignatura de computación. El objetivo general es determinar la incidencia que tiene el uso de pruebas automatizadas en los procesos de evaluación. Los objetivos específicos son establecer los principios generales de la evaluación y analizar las ventajas y desventajas de las pruebas automatizadas en el proceso de enseñanza-aprendizaje. Se presentan conceptos teóricos sobre tipos de evaluación y características de la evaluación, y se incl
Abriendo caminos al conocimiento curso de computacion e informatica para la a...Richard Ortega
El documento describe un proyecto de capacitación en computación e informática para la administración impartido a estudiantes de bachillerato técnico. El proyecto buscaba satisfacer la necesidad de conocimientos informáticos de los estudiantes a través de un curso que cubrió temas como sistemas operativos, software libre, herramientas de oficina (Excel), e Internet. El curso se desarrolló durante varias sesiones y logró sus objetivos de enseñar conceptos básicos de computación aplicados al área administrativa, diagnostic
Rediseño E Implementacion De Un Proceso Electro Hidraulico Usado En El Labora...Jorge Alarcon
Este documento describe el rediseño e implementación de un proceso electro-hidráulico en el laboratorio de control automático de la ESPOL para controlar la velocidad y presión mediante Matlab-Simulink y LabVIEW. Se mejoró el sistema con nuevas tuberías, un reservorio y una electroválvula. Se identificaron los modelos matemáticos y se diseñaron controladores PID para lograr control de velocidad y presión bajo diferentes condiciones. El sistema se controla de forma remota usando el módulo cFP-2100 de National Instruments.
Este documento presenta una discusión sobre la definición de hipótesis desde diferentes perspectivas. Explica que una hipótesis puede ser vista como una proposición que establece relaciones entre hechos, una posible solución a un problema, o una relación entre variables. También describe la importancia de las hipótesis, su formulación, clasificación, variables relevantes y desafíos en su elaboración.
La tesis describe el desarrollo e implementación de un sistema de gestión documental para gobiernos locales utilizando software libre. Presenta los aspectos de la investigación, metodología y herramientas utilizadas. El objetivo es brindar una herramienta que permita a los gobiernos locales coordinar y controlar de forma sistemática todos los aspectos relacionados con documentos, minimizando tiempos y costos. La tesis explica el proceso de análisis, definición de requisitos y casos de uso del sistema, con el fin de concluir con re
IMPLEMENTACIÓN DE REALIDAD AUMENTADA COMO HERRAMIENTA PARA EL APRENDIZAJE EN LOS ESTUDIANTES DE II CICLO DE LA CARRERA TÉCNICA PROFESIONAL DE COMPUTACIÓN E INFORMÁTICA DEL INSTITUTO SUPERIOR BITEC DE LA CIUDAD DE CHIMBOTE.
Diferencias entre informatica y computacionmarielizjacome
El documento define informática y computación. Informática se refiere al tratamiento automático de la información utilizando dispositivos electrónicos y sistemas computacionales. Estudia cómo el hombre ha desarrollado técnicas a lo largo de la historia para apoyar sus capacidades de memoria, pensamiento y comunicación. Computación se refiere al cálculo y estudio formal de los cómputos, particularmente como una rama de las matemáticas. Mientras que la computación procesa la información, la informática se enfoca en las aplicaciones de una computadora.
Este documento presenta un proyecto para desarrollar un sistema informático para controlar el proceso de registro de cosecha, selección y embalaje de flores en la empresa Roots Perú S.A. El sistema cubrirá la gestión de datos estadísticos, el control del proceso de cosecha y el control de salida de información. El proyecto usará la metodología RUP y los lenguajes de programación Visual Studio 2010 y SQL Server 2008. Los objetivos son desarrollar e implementar un sistema que mejore el servicio y facilite la ent
Tarea slideshare fundamentos de ciencia de la informacion marzo 24 2012yamilepulido
Este documento resume la definición y origen de la bibliotecología, archivística, documentación y ciencia de la información. También describe cómo se originó cada una de estas disciplinas en Colombia y el mundo. Explica que la bibliotecología surgió en la Edad Media y se consolidó como ciencia en el siglo XIX, mientras que la archivística, documentación y ciencia de la información emergieron en los siglos XIX y XX. Finalmente, detalla los hitos iniciales de la bibliotecología en Colombia desde la creación de la Biblioteca
El documento describe las diferentes herramientas y recursos disponibles en la pestaña "Materiales" de una herramienta Notebook. Incluye carpetas con imágenes, hojas de trabajo, elementos multimedia y actividades interactivas para enriquecer las lecciones en diferentes temas como ciencia, tecnología y matemáticas. También incluye plantillas y ejemplos para que los usuarios creen sus propias actividades personalizadas.
10 Ideas TeleTriunfadoras para la realización de Proyectos Socio TecnológicosStephenson Prieto
Diez Ideas TeleTriunfadoras para la realización de Proyectos Socio Tecnológicos en el marco del Programama Nacional de Formación de Sistemas e Informática (PNFSI) en la Misión Sucre.
Documento del Plan de Area y Asignatura de Tecnología e Informática 2013 de la Institución Educativa Santa María de la ciudad de Cartagena de Indias(Colombia)
Presentación en Power Point para Defensa de Tesis de DerechoArgenis Macea
Presentación en Power Point para Defensa de Tesis en Licenciatura en Derecho, que trata sobre el comercio internacional en México. La tesis es del CENTRO ESCOLAR FELIPE CARRILLO PUERTO Mérida, Yucatán, México. Elaboro presentaciones Profesionales para Defensa de Tesis a nivel de toda Latinoamérica.
El chasis, tipos, caracteristicas, formatos, fuentes, tipos de fuentes, conec...lemus
El documento proporciona información sobre los componentes de una computadora. Explica que el chasis sostiene los componentes internos y viene en diferentes formatos como ATX y Mini-ATX. También describe los tipos principales de chasis incluyendo de escritorio, torre, mini-torre, laptop, notebook y palmtop. Además, detalla que la fuente de poder convierte la corriente alterna en corriente continua para alimentar los componentes de manera estable.
El documento presenta la diferencia entre computación e informática. La computación se refiere al estudio científico de las computadoras y el manejo de información, mientras que la informática es el tratamiento de información a través de medios automatizados como dispositivos computacionales y software. Algunos miembros del equipo concluyen que la informática usa la computación y se enfoca más en aplicaciones, mientras que la computación estudia sistemas automatizados.
Este documento propone elaborar una revista económica como herramienta didáctica para los grados 10o y 11o del Colegio San Benito de Tibatí. Analiza diferentes tipos de medios didácticos para la enseñanza de la economía, como revistas, libros, programas informáticos y juegos. Explica el proceso de elaboración de una revista, incluyendo la investigación sobre temas económicos y la selección de materiales acorde con los objetivos educativos.
Este documento proporciona instrucciones sobre varias herramientas y funciones avanzadas en Microsoft Word, incluyendo barras de herramientas, formato de texto, tablas, listas, documentos maestros, índices y referencias cruzadas. Explica cómo usar estas herramientas para mejorar la presentación y organización de documentos largos y complejos.
Estrategias metodologia de la eseñanza de la informaticaDANIEL HUERTA
Este documento presenta una introducción a las estrategias metodológicas para la enseñanza de la informática. Discuten la importancia de actualizar los métodos educativos para aprovechar las herramientas tecnológicas. También describen varias estrategias efectivas como el uso de preguntas abiertas, ejemplos de la vida diaria, multimedia, mapas conceptuales y debates. Finalmente, enfatizan la necesidad de que los estudiantes sean participantes activos en su propio aprendizaje a través de tareas individuales y experiencias signific
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Carlos Lorenzetti
Successful access to information sources on the Web depends on effective methods for identifying the needs of a user and making relevant information resources available when needed. This paper formulates a theoretical framework for the study of context-driven Web search and proposes new methods for learning query terms based on the user task. These methods use an incrementally-retrieved, topic-dependent selection of Web documents for term-weight reinforcement reflecting the aptness of the terms in describing and discriminating the topic of the user context. Based on this framework, we propose an incremental search algorithm for information retrieval agents that has the potential to improve significantly over the traditional IR techniques. The new algorithm learns new descriptors by searching for terms that tend to occur often in relevant documents, and learns good discriminators by identifying terms that tend to occur only in the context of the given topic. We discuss the technical challenges posed by this new framework, outline our agent system architecture, and present an evaluation of the proposed techniques.
Este documento presenta el programa de la asignatura Programación IV. Los objetivos son estudiar la programación orientada a objetos con C++ y Java, brindando conocimientos para aplicar estos lenguajes. Los módulos cubren paradigma orientado a objetos, fundamentos de POO, diseño de clases, propiedades de POO, flujos en Java y Java con bases de datos. La evaluación incluye proyectos, laboratorios, parciales y un examen semestral.
Abriendo caminos al conocimiento curso de computacion e informatica para la a...Richard Ortega
El documento describe un proyecto de capacitación en computación e informática para la administración impartido a estudiantes de bachillerato técnico. El proyecto buscaba satisfacer la necesidad de conocimientos informáticos de los estudiantes a través de un curso que cubrió temas como sistemas operativos, software libre, herramientas de oficina (Excel), e Internet. El curso se desarrolló durante varias sesiones y logró sus objetivos de enseñar conceptos básicos de computación aplicados al área administrativa, diagnostic
Rediseño E Implementacion De Un Proceso Electro Hidraulico Usado En El Labora...Jorge Alarcon
Este documento describe el rediseño e implementación de un proceso electro-hidráulico en el laboratorio de control automático de la ESPOL para controlar la velocidad y presión mediante Matlab-Simulink y LabVIEW. Se mejoró el sistema con nuevas tuberías, un reservorio y una electroválvula. Se identificaron los modelos matemáticos y se diseñaron controladores PID para lograr control de velocidad y presión bajo diferentes condiciones. El sistema se controla de forma remota usando el módulo cFP-2100 de National Instruments.
Este documento presenta una discusión sobre la definición de hipótesis desde diferentes perspectivas. Explica que una hipótesis puede ser vista como una proposición que establece relaciones entre hechos, una posible solución a un problema, o una relación entre variables. También describe la importancia de las hipótesis, su formulación, clasificación, variables relevantes y desafíos en su elaboración.
La tesis describe el desarrollo e implementación de un sistema de gestión documental para gobiernos locales utilizando software libre. Presenta los aspectos de la investigación, metodología y herramientas utilizadas. El objetivo es brindar una herramienta que permita a los gobiernos locales coordinar y controlar de forma sistemática todos los aspectos relacionados con documentos, minimizando tiempos y costos. La tesis explica el proceso de análisis, definición de requisitos y casos de uso del sistema, con el fin de concluir con re
IMPLEMENTACIÓN DE REALIDAD AUMENTADA COMO HERRAMIENTA PARA EL APRENDIZAJE EN LOS ESTUDIANTES DE II CICLO DE LA CARRERA TÉCNICA PROFESIONAL DE COMPUTACIÓN E INFORMÁTICA DEL INSTITUTO SUPERIOR BITEC DE LA CIUDAD DE CHIMBOTE.
Diferencias entre informatica y computacionmarielizjacome
El documento define informática y computación. Informática se refiere al tratamiento automático de la información utilizando dispositivos electrónicos y sistemas computacionales. Estudia cómo el hombre ha desarrollado técnicas a lo largo de la historia para apoyar sus capacidades de memoria, pensamiento y comunicación. Computación se refiere al cálculo y estudio formal de los cómputos, particularmente como una rama de las matemáticas. Mientras que la computación procesa la información, la informática se enfoca en las aplicaciones de una computadora.
Este documento presenta un proyecto para desarrollar un sistema informático para controlar el proceso de registro de cosecha, selección y embalaje de flores en la empresa Roots Perú S.A. El sistema cubrirá la gestión de datos estadísticos, el control del proceso de cosecha y el control de salida de información. El proyecto usará la metodología RUP y los lenguajes de programación Visual Studio 2010 y SQL Server 2008. Los objetivos son desarrollar e implementar un sistema que mejore el servicio y facilite la ent
Tarea slideshare fundamentos de ciencia de la informacion marzo 24 2012yamilepulido
Este documento resume la definición y origen de la bibliotecología, archivística, documentación y ciencia de la información. También describe cómo se originó cada una de estas disciplinas en Colombia y el mundo. Explica que la bibliotecología surgió en la Edad Media y se consolidó como ciencia en el siglo XIX, mientras que la archivística, documentación y ciencia de la información emergieron en los siglos XIX y XX. Finalmente, detalla los hitos iniciales de la bibliotecología en Colombia desde la creación de la Biblioteca
El documento describe las diferentes herramientas y recursos disponibles en la pestaña "Materiales" de una herramienta Notebook. Incluye carpetas con imágenes, hojas de trabajo, elementos multimedia y actividades interactivas para enriquecer las lecciones en diferentes temas como ciencia, tecnología y matemáticas. También incluye plantillas y ejemplos para que los usuarios creen sus propias actividades personalizadas.
10 Ideas TeleTriunfadoras para la realización de Proyectos Socio TecnológicosStephenson Prieto
Diez Ideas TeleTriunfadoras para la realización de Proyectos Socio Tecnológicos en el marco del Programama Nacional de Formación de Sistemas e Informática (PNFSI) en la Misión Sucre.
Documento del Plan de Area y Asignatura de Tecnología e Informática 2013 de la Institución Educativa Santa María de la ciudad de Cartagena de Indias(Colombia)
Presentación en Power Point para Defensa de Tesis de DerechoArgenis Macea
Presentación en Power Point para Defensa de Tesis en Licenciatura en Derecho, que trata sobre el comercio internacional en México. La tesis es del CENTRO ESCOLAR FELIPE CARRILLO PUERTO Mérida, Yucatán, México. Elaboro presentaciones Profesionales para Defensa de Tesis a nivel de toda Latinoamérica.
El chasis, tipos, caracteristicas, formatos, fuentes, tipos de fuentes, conec...lemus
El documento proporciona información sobre los componentes de una computadora. Explica que el chasis sostiene los componentes internos y viene en diferentes formatos como ATX y Mini-ATX. También describe los tipos principales de chasis incluyendo de escritorio, torre, mini-torre, laptop, notebook y palmtop. Además, detalla que la fuente de poder convierte la corriente alterna en corriente continua para alimentar los componentes de manera estable.
El documento presenta la diferencia entre computación e informática. La computación se refiere al estudio científico de las computadoras y el manejo de información, mientras que la informática es el tratamiento de información a través de medios automatizados como dispositivos computacionales y software. Algunos miembros del equipo concluyen que la informática usa la computación y se enfoca más en aplicaciones, mientras que la computación estudia sistemas automatizados.
Este documento propone elaborar una revista económica como herramienta didáctica para los grados 10o y 11o del Colegio San Benito de Tibatí. Analiza diferentes tipos de medios didácticos para la enseñanza de la economía, como revistas, libros, programas informáticos y juegos. Explica el proceso de elaboración de una revista, incluyendo la investigación sobre temas económicos y la selección de materiales acorde con los objetivos educativos.
Este documento proporciona instrucciones sobre varias herramientas y funciones avanzadas en Microsoft Word, incluyendo barras de herramientas, formato de texto, tablas, listas, documentos maestros, índices y referencias cruzadas. Explica cómo usar estas herramientas para mejorar la presentación y organización de documentos largos y complejos.
Estrategias metodologia de la eseñanza de la informaticaDANIEL HUERTA
Este documento presenta una introducción a las estrategias metodológicas para la enseñanza de la informática. Discuten la importancia de actualizar los métodos educativos para aprovechar las herramientas tecnológicas. También describen varias estrategias efectivas como el uso de preguntas abiertas, ejemplos de la vida diaria, multimedia, mapas conceptuales y debates. Finalmente, enfatizan la necesidad de que los estudiantes sean participantes activos en su propio aprendizaje a través de tareas individuales y experiencias signific
Intelligent Methods for Information Access in Context: The Role of Topic Desc...Carlos Lorenzetti
Successful access to information sources on the Web depends on effective methods for identifying the needs of a user and making relevant information resources available when needed. This paper formulates a theoretical framework for the study of context-driven Web search and proposes new methods for learning query terms based on the user task. These methods use an incrementally-retrieved, topic-dependent selection of Web documents for term-weight reinforcement reflecting the aptness of the terms in describing and discriminating the topic of the user context. Based on this framework, we propose an incremental search algorithm for information retrieval agents that has the potential to improve significantly over the traditional IR techniques. The new algorithm learns new descriptors by searching for terms that tend to occur often in relevant documents, and learns good discriminators by identifying terms that tend to occur only in the context of the given topic. We discuss the technical challenges posed by this new framework, outline our agent system architecture, and present an evaluation of the proposed techniques.
Este documento presenta el programa de la asignatura Programación IV. Los objetivos son estudiar la programación orientada a objetos con C++ y Java, brindando conocimientos para aplicar estos lenguajes. Los módulos cubren paradigma orientado a objetos, fundamentos de POO, diseño de clases, propiedades de POO, flujos en Java y Java con bases de datos. La evaluación incluye proyectos, laboratorios, parciales y un examen semestral.
El documento describe las nuevas características del entorno de desarrollo Visual Studio 2010, incluyendo mejoras al editor, soporte para múltiples monitores, navegación mejorada, compatibilidad con diferentes plataformas de destino, y herramientas mejoradas para desarrollo web, C++, SharePoint, calidad y pruebas. También resume las nuevas características de C# 4.0 y VB como parámetros con nombre, tipos dinámicos y varianza genérica.
Este documento proporciona una introducción a Java, incluyendo una breve historia de su desarrollo y una descripción de sus características principales. También describe los componentes clave del Java Development Kit (JDK), como el compilador javac, el intérprete Java y las herramientas para ejecutar y depurar applets. Finalmente, introduce conceptos básicos de programación orientada a objetos en Java como clases, objetos, métodos y herencia.
Este documento proporciona una introducción a Java, incluyendo una breve historia de su desarrollo y una descripción de sus características principales. También describe el Java Developers Kit (JDK), que incluye herramientas como el compilador javac y el intérprete Java que permiten compilar y ejecutar código Java. Además, explica conceptos clave de la programación orientada a objetos en Java como clases, objetos, métodos y herencia.
Java es un popular lenguaje de programación orientado a objetos que se utiliza comúnmente para el desarrollo de aplicaciones web y de escritorio. Fue creado en 1990 por James Gosling en Sun Microsystems. Java compila el código a bytecode que es independiente de la plataforma y puede ejecutarse en cualquier sistema que tenga una máquina virtual Java instalada.
Este documento resume las principales características del lenguaje de programación Java, incluyendo entrada y salida de datos, lectura y escritura de archivos, serialización, Java Foundation Classes, Java 2D, Java 3D, Java Beans, RMI, JNI y más. Explica cómo Java permite la manipulación de archivos, rutas y directorios a través de flujos de entrada y salida. Concluye que Java es una tecnología útil para el desarrollo de aplicaciones web y de escritorio.
Presentación con algunos consejos acerca de la gestión de un proyecto software, basado en un caso real. Destaca la importancia del equipo, de la planificación del proyecto, y de un correcto análisis de requisitos.
Este documento proporciona una introducción a Google Web Toolkit (GWT). GWT permite a los desarrolladores crear aplicaciones web dinámicas y aplicaciones Ajax utilizando Java como lenguaje de programación en lugar de JavaScript. El documento describe la arquitectura y SDK de GWT, las ventajas de usar GWT como productividad y compatibilidad, y cómo trabajar con widgets y librerías de GWT como GQuery.
Este documento presenta una introducción a Java y a la certificación SCJP 6. Explica brevemente qué es Java, su historia, la máquina virtual de Java, y diferencia entre archivos .java, .class y la JVM. También describe los tipos de datos primitivos en Java e introduce conceptos básicos como la declaración e inicialización de variables. El objetivo es proporcionar una visión general de Java antes de comenzar con los temas técnicos de la certificación.
public class Empleado {
private String dni;
private String nombre;
private String apellidos;
private String domicilio;
private String codigoPostal;
private String ciudad;
private PuestoTrabajo puestoTrabajo;
// Constructor, getters y setters
}
public class PuestoTrabajo {
private String codigo;
private String descripcion;
// Constructor, getters y setters
}
2. Declare una clase Profesor que herede de la clase Empleado. La
clase Profesor debe incluir los atributos departamento de tipo String y
númer
Este documento explica los conceptos básicos de la programación orientada a objetos en Java, incluyendo clases, objetos, atributos, métodos, herencia y polimorfismo. También describe el entorno de desarrollo Netbeans y cómo se usa para crear y compilar aplicaciones Java. La programación orientada a objetos permite modelar el mundo real mediante la creación de objetos con estado y comportamiento.
Este documento proporciona una introducción al lenguaje de programación Java. Explica brevemente la historia y el propósito de Java, y describe las principales herramientas del Java Development Kit (JDK), incluido el compilador Javac y el intérprete Java. También cubre conceptos básicos de programación orientada a objetos en Java como clases, objetos y métodos.
Este documento presenta el acta de inicio de un proyecto para desarrollar un sistema interactivo sobre la historia de México para niños de primaria. El líder del proyecto es Octavio Arturo Salas Esquivel y tiene un presupuesto de $28,000. El sistema se implementará en escuelas primarias para aumentar el interés de los estudiantes en la historia de México de una manera divertida. El proyecto comenzará el 9 de enero de 2013 y finalizará el 5 de abril de 2013.
Este documento presenta el acta de inicio de un proyecto para desarrollar un sistema interactivo sobre la historia de México para niños de primaria. El líder del proyecto es Octavio Arturo Salas Esquivel y tiene un presupuesto de $28,000. El sistema se implementará en escuelas primarias para aumentar el interés de los estudiantes en la historia de México de una manera divertida. El proyecto comenzará el 9 de enero de 2013 y finalizará el 5 de abril de 2013.
PulpoCon23 Los Datos que no sabes que tienes y como usarlosNino Dafonte
En un entorno en donde personas y tecnología centran la atención de los temas sobre los que generamos y consumimos contenido, existe un espacio poco explorado todavía: el lugar exacto en el que se produce la intersección entre estas dos temáticas.
El código cuenta solamente una parte de la historia de un proyecto. Las personas y cómo éstas interactúan con él es lo que nos da una visión completa de cómo hemos llegado hasta aquí.
- ¿Por qué ciertas partes del código nos provocan cansancio, desesperación y/o dolor de cabeza?
- ¿Podemos ponerle palabras y una mejor descripción a eso de los "code smells"?
- ¿Cómo se distribuye el conocimiento de vuestro proyecto? ¿Cuánto de alto es el riesgo de que tengamos zonas oscuras si alguien dejase el proyecto mañana? ¿Y qué hacemos al respecto?
- ¿Se os amontona la deuda técnica y no sabéis ni por dónde empezar a devolver ese interés?
- ¿Alguna vez habéis visto una reorganización de equipos en el que de repente todo parece ir a peor?
Spoiler: tiene explicación y la respuesta la tenéis en vuestros repositorios de código.
En este ratito os contaré algunas de mis experiencias y aprendizajes sobre un tipo de análisis llamado “Behavioral Code Analysis”, (Adam Tornhill, “Your code as a crime scene” y “Software Design X-Rays”), así como muchas ideas interesantes que se entrecruzan con este tipo de análisis: cómo nuestro cerebro procesa el código y qué cosas facilitan o complican ese proceso en nuestro día a día (Felienne Hermans, “The Programmer’s brain”)
Introducción a los Patrones de diseño de softwareYazmin RuBo
Este documento introduce los conceptos básicos de la reutilización de software y los patrones de diseño. Explica que la reutilización reduce costos y mejora la calidad al permitir el uso repetido de artefactos de software. También cubre los pros y contras de la reutilización, así como su evolución entre los siglos XX y XXI. Finalmente, presenta el caso de una cafetería que mejora su sistema de pedidos aplicando el patrón Decorator para agregar condimentos adicionales a las bebidas.
Este documento presenta la clase 0 de una serie de capacitación sobre la certificación SCJP 6. Explica que aunque el orador es empleado de Sun Microsystems, el contenido es personal y no refleja la postura oficial de la compañía. También agradece a los autores de otras presentaciones utilizadas como material de referencia.
Ejercicios de test - desarrollo y programaciónoposicionestic
Este documento contiene 41 preguntas de oposiciones TIC sobre temas de desarrollo de software como Java, JSON, patrones de diseño, servidores de aplicaciones, HTML, XML, PHP, J2EE, UML, programación orientada a objetos, pruebas de software, componentes Java, y JavaScript. Las preguntas abarcan conceptos teóricos y prácticos relacionados con el desarrollo y testing de aplicaciones web.
Similar a Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto (20)
Ofrecemos herramientas y metodologías para que las personas con ideas de negocio desarrollen un prototipo que pueda ser probado en un entorno real.
Cada miembro puede crear su perfil de acuerdo a sus intereses, habilidades y así montar sus proyectos de ideas de negocio, para recibir mentorías .
Gracias papá voz mujer_letra y acordes de guitarra.pdf
Tesis Doctoral - Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en Contexto
1. CONICET
Defensa Oral de Tesis
Doctor en Ciencias de la Computación
Caracterización Formal y Análisis
Empírico de Mecanismos Incrementales
de Búsqueda basados en Contexto
Carlos M. Lorenzetti
Directores : Guillermo R. Simari
Ana G. Maguitman
Universidad Nacional del Sur
15. Refinamiento de consultas
REFINAMIENTO DE CONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia
●
Realimentación Supervisada
●
Realimentación No supervisada
●
Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
16. Refinamiento de consultas
REFINAMIENTO DE CONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia
●
Realimentación Supervisada
●
Realimentación No supervisada
●
Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
17. Refinamiento de consultas
REFINAMIENTO DE CONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia
●
Realimentación Supervisada
●
Realimentación No supervisada
●
Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
18. Refinamiento de consultas
REFINAMIENTO DE CONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia
●
Realimentación Supervisada
●
Realimentación No supervisada
●
Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
19. Refinamiento de consultas
REFINAMIENTO DE CONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia
●
Realimentación Supervisada
●
Realimentación No supervisada
●
Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
20. Refinamiento de consultas
REFINAMIENTO DE CONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia
●
Realimentación Supervisada
●
Realimentación No supervisada
●
Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
21. Refinamiento de consultas
REFINAMIENTO DE CONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia
●
Realimentación Supervisada
●
Realimentación No supervisada
●
Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
22. Refinamiento de consultas
REFINAMIENTO DE CONSULTAS
1.Consulta original
2.Conjunto inicial de documentos
3.Cálculo de Relevancia
●
Realimentación Supervisada
●
Realimentación No supervisada
●
Realimentación Semi-supervisada
4.Mejora de la representación
5.Recuperación de mejores resultados
23. OBJETIVOS
Proponer, investigar y evaluar nuevas técnicas
semisupervisadas de IR orientadas a entender
mejor las necesidades de los usuarios.
Preguntas de investigación
• ¿Puede el contexto del usuario explotarse
para acceder a material relevante en la Web?
• ¿Pueden los términos específicos a un
contexto ser refinados incrementalmente
basándose en el análisis de los resultados de
un motor de búsqueda?
• ¿Estos términos son mejores?
24. OBJETIVOS
1) Proponer un algoritmo semisupervisado
capaz de aprender incrementalmente
nuevos vocabularios con el propósito de
mejorar consultas temáticas. El objetivo es
que estas consultas reflejen la información
contextual y así puedan recuperar material
relacionado semánticamente.
semánticamente
2) Desarrollar una plataforma para evaluar las
técnicas de IR propuestas, así como otras
técnicas existentes. Dicha plataforma es
especialmente apta para el análisis de
buscadores temáticos y para incorporar
métricas de evaluación novedosas basadas
en las nociones de similitud semántica y
relevancia parcial.
parcial
25. Distintos roles de los términos
Nivel de información de un término en un
conjunto de documentos.
Poder descriptivo y discriminante de un
término en un documento respecto de un
conjunto de documentos.
Conjunto predefinidos.
Independientes de un contexto.
Estudio basado en distribución a lo largo de
los tópicos de las páginas recuperadas por
un motor de búsqueda.
26. Distintos roles de los términos
• Descriptores
●
Términos que aparecen en la mayoría
de los documentos de un tópico
¿Sobre qué trata el tópico?
• Discriminadores
●
Términos que aparecen sólo en los
documentos de un tópico
¿Qué términos utilizo para encontrar información similar ?
27. Descriptores y discriminadores
Machine
Java
Language
Virtual
Programming
Ruby
Applets
NetBeans
Computers
JVM
Code JDK
Tópico: Máquina Virtual de Java
28. Descriptores y discriminadores
Machine Buenos descriptores
Java
Language
Virtual
Programming
Ruby
Applets
NetBeans
Computers
JVM
Code JDK
Tópico: Máquina Virtual de Java
29. Descriptores y discriminadores
Machine
Java
Language
Virtual
Programming
Ruby
Applets
NetBeans
Computers
JVM
Code JDK
Buenos discriminadores
Tópico: Máquina Virtual de Java
30. Descriptores y discriminadores
d0
java 4
machine 2
Contexto
virtual 1
Inicial
language 1
programming 3
Tópico: Máquina Virtual de Java
31. Descriptores y discriminadores
H
d0 (1) (2) (3) (4)
java 4 2 5 5 2
machine 2 6 3 2 0
virtual 1 0 1 1 0 (1) espressotec.com
(2) netbeans.org
language 1 0 2 1 1 (3) sun.com
(4) wikitravel.org
programming 3 0 0 2 0
H [i , j]= p
Número de apariciones del
término ki en el documento dj
Tópico: Máquina Virtual de Java
32. Descriptores y discriminadores
H
d0 (1) (2) (3) (4)
java 4 2 5 5 2
machine 2 6 3 2 0
virtual 1 0 1 1 0 (1) espressotec.com
(2) netbeans.org
language 1 0 2 1 1 (3) sun.com
(4) wikitravel.org
programming 3 0 0 2 0
coffee 0 3 0 0 3
island 0 4 0 0 2
province 0 4 0 0 1 H [i , j]= p
jvm 0 0 2 1 0 Número de apariciones del
jdk 0 0 3 3 0 término ki en el documento dj
Tópico: Máquina Virtual de Java
33. Descriptores y discriminadores
d 0 d 0 , k i d 0 , k i
java 4 0,718 0,447 Poder descriptivo de un término
machine 2 0,359 0,500 en un documento
virtual 1 0,180 0,577 H [i , j ]
language 1 0,180 0,500
d j , k i =
programming 3 0,539 0,577 n−1
∑k=0 H [i , j ]2
coffee 0 0,000 0,000
island 0 0,000 0,000 Poder discriminante de un
término en un documento
province 0 0,000 0,000
jvm 0 0,000 0,000 s H [ i , j ]
d j , k i =
jdk 0 0,000 0,000
∑ m−1
h=0
s H [ i , h ]
Tópico: Máquina Virtual de Java
34. Modelo de representación
k1
d2 Modelo vectorial
d1
α
k2 k3 Función de similitud
entre documentos
Similitud por coseno
n−1
1
sim ( d j , d k )= ∑ λ( d j , k h ) . λ (d k , k h )
h=0
35. Descriptores y discriminadores
d 0 d 0 , k i d 0 , k i
java 4 0,385 0,493 Poder descriptivo de un término en
machine 2 0,158 0,524 el tópico de un documento
m−1
virtual 1 0,124 0,566 ∑h=0 sim (d j , d h ).[ λ (d h ,k i )]2
h≠ j
language 1 0,089 0,517 Λ (d j , k i)= m −1
programming 3 0,064 0,566
∑h=0 sim(d j ,d h)
h≠ j
coffee 0 0,055 0,385
island 0 0,040 0,385 Poder discriminante de un término
province 0 0,040 0,385 en el tópico de un documento
jvm 0 0,032 0,848 m −1
jdk 0 0,014 0,848 Δ (d j , k i)=∑ h=0 sim (d j , d h ).[δ(d h , k i )]2
h≠ j
Tópico: Máquina Virtual de Java
45. Alcances y aplicaciones
1. Búsqueda basada en contexto
●
Explotan la interacción del usuario con las aplicaciones en
su computadora para determinar la tarea actual del usuario
y poner en contexto sus necesidades de información.
2. Recuperación de recursos para portales temáticos
●
Tienen el propósito de reunir recursos sobre temas
específicos. El material recolectado se utiliza para construir
directorios y sitios de búsqueda especializados.
3. Búsqueda en la Web oculta
●
Se llama Web Oculta a las páginas generadas
dinámicamente como el resultado de una consulta
presentada a un formulario de búsqueda en sitios
específicos.
4. Soporte para la administración y modelado del
conocimiento
●
Es el proceso mediante el cual se representa un cuerpo de
conocimiento para facilitar su posterior acceso.
51. Plataforma de evaluación
TOP
ARTE DEPORTE
HOGAR .....
COMPRAS
JARDINERIA
CASA Y JARDIN
JARDINES
COCINA
HISTORIA BONSAI Y
PLANTAS
SUISEKI
350mil páginas
JARDINES
ÁRBOLES
FAMOSOS
BONSAI enlace taxonómico
JARDINES enlace simbólico
JAPONESES enlace relacionado
BOTÁNICOS BONSAI
52. Plataforma de evaluación
representación
estadísticas
métricas
consulta 01
consulta 02
documentos
consulta 03
pedidos
consulta n
53. Plataforma de evaluación
✔ PRECISIÓN
✔ COBERTURA
✔ SIMILITUD
✔ SIMILITUD NOVEDOSA
✔ PRECISIÓN SEMÁNTICA
✔ SIMILITUD SEMÁNTICA
MÉTRICAS
54. Plataforma de evaluación
PRECISIÓN Y COBERTURA
Recuperados Relevantes
MÉTRICAS
A
R
Espacio de documentos
55. Plataforma de evaluación
PRECISIÓN Y COBERTURA
Relevantes
Recuperados relevantes no recuperados
Recuperados Relevantes
MÉTRICAS
A
R
Recuperados
no relevantes Espacio de documentos
56. Plataforma de evaluación
PRECISIÓN Y COBERTURA
∣A∩R∣ ∣A∩R∣ (β 2+1) P.C
P= C= Fβ =
∣A∣ ∣R∣ C+β2 P
Recuperados Relevantes
MÉTRICAS
A
R
Espacio de documentos
57. Plataforma de evaluación
SIMILITUD Y SIMILITUD NOVEDOSA
k1
⃗j . ⃗
d dk d2
sim ( d j , d k )= d1
∣⃗∣.∣⃗∣
jd d k
k2 k3
MÉTRICAS
sim (q , d j , d k )=sim (⃗ ,⃗
N
d j−q d k −q)
58. Plataforma de evaluación
SIMILITUD SEMÁNTICA Y PRECISIÓN SEMÁNTICA
TOP
ARTE DEPORTE
HOGAR .....
COMPRAS
JARDINERIA COCINA CASA Y JARDIN
JARDINES
HISTORIA BONSAI Y
PLANTAS
SUISEKI
JARDINES
FAMOSOS ÁRBOLES
MÉTRICAS JARDINES
BONSAI
JAPONESES BONSAI
BOTÁNICOS
∑d ∈ A sim S ( τ (C ) , τ( d j )) enlace taxonómico
S enlace simbólico
P =
j
enlace relacionado
∣A∣
59. Plataforma de evaluación
representación
estadísticas
métricas
consulta 01
consulta 02
documentos
consulta 03
pedidos
consulta n
60. Plataforma de evaluación
BASE
BO1-DFR y BO1 SUPERVISADO
INCREMENTAL
GENÉTICO MONO Y MULTIOBJETIVO
62. Evaluaciones
Promedio sobre todos los tópicos evaluados
Formulación de consultas y
Similitud novedosa recuperación de información
Cambio de fase
ALGORITMO INCREMENTAL
66. Evaluaciones
NSGA-II mejora a los demás
Agregativo mejora a los demás
Precisión Bo1* mejora a los demás
Base mejora a los demás
Agregativo
NSGA-II
Bo1* Bo1*
Base Base
ALGORITMOS GENÉTICOS
67. Evaluaciones
NSGA-II mejora a los demás
Agregativo mejora a los demás
Cobertura Bo1* mejora a los demás
Base mejora a los demás
Agregativo
NSGA-II
Bo1* Bo1*
Base Base
ALGORITMOS GENÉTICOS
68. Conclusiones
➢
Herramienta de Recuperación de Información
➔
Ayuda al usuario en la tarea que realiza
➔
Soluciona el problema de sensibilidad semántica
• falsos-negativos (distinto vocabulario)
• falsos-positivos (java)
➢
Plataforma de evaluación
➔
Desarrollo, evaluación y comparación de
algoritmos
➔
Nuevas métricas
69. Trabajo a futuro
➢
Clasificación de texto y clustering
➔
Aplicación de las técnicas incrementales
➢
Nuevas métricas y estrategias
➔
Mejorar el rendimiento
➢
Disponibilidad
➔
Ampliación de la plataforma
70. CONICET
¡MUCHAS GRACIAS!
Caracterización Formal y Análisis
Empírico de Mecanismos Incrementales
de Búsqueda basados en Contexto
Carlos M. Lorenzetti
Directores : Guillermo R. Simari
Ana G. Maguitman
Universidad Nacional del Sur
Notas del editor
Presentación Defensa de tesis oral de doctorado, bajo la dirección de Guillermo y Ana. Título ...
Cuando se empezaron a utilizar los sistemas de información, eran accedidos desde una única ubicación desconectada de cualquier otra computadora y a través de expertos que conocían cómo se almacenaba la información y el lenguaje necesario para su acceso. -------- Hoy en día los usuarios pueden acceder a sistemas de información todos los días de forma directa a través de sus propias computadoras en sus hogares, lo que ha cambiado el contexto en el cual se utilizan los sistemas de IR. Sin embargo, los primeros sistemas de IR no resultaron intuitivos para los usuarios que los accedían, provocando el desarrollo de nuevos sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible, convirtiéndose un herramienta fundamental para el acceso a la información. Lamentablemente, tales sistemas solo obtienen información por demanda, es decir que el usuario debe interrumpir el proceso normal de navegación esperando ocioso por los resultados de su búsqueda.
Cuando se empezaron a utilizar los sistemas de información, eran accedidos desde una única ubicación desconectada de cualquier otra computadora y a través de expertos que conocían cómo se almacenaba la información y el lenguaje necesario para su acceso. -------- Hoy en día los usuarios pueden acceder a sistemas de información todos los días de forma directa a través de sus propias computadoras en sus hogares, lo que ha cambiado el contexto en el cual se utilizan los sistemas de IR. Sin embargo, los primeros sistemas de IR no resultaron intuitivos para los usuarios que los accedían, provocando el desarrollo de nuevos sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible, convirtiéndose un herramienta fundamental para el acceso a la información. Lamentablemente, tales sistemas solo obtienen información por demanda, es decir que el usuario debe interrumpir el proceso normal de navegación esperando ocioso por los resultados de su búsqueda.
Cuando se empezaron a utilizar los sistemas de información, eran accedidos desde una única ubicación desconectada de cualquier otra computadora y a través de expertos que conocían cómo se almacenaba la información y el lenguaje necesario para su acceso. -------- Hoy en día los usuarios pueden acceder a sistemas de información todos los días de forma directa a través de sus propias computadoras en sus hogares, lo que ha cambiado el contexto en el cual se utilizan los sistemas de IR. Sin embargo, los primeros sistemas de IR no resultaron intuitivos para los usuarios que los accedían, provocando el desarrollo de nuevos sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible, convirtiéndose un herramienta fundamental para el acceso a la información. Lamentablemente, tales sistemas solo obtienen información por demanda, es decir que el usuario debe interrumpir el proceso normal de navegación esperando ocioso por los resultados de su búsqueda.
Este escenario trae nuevos desafíos a los diseñadores de sistemas de IR tanto desde el punto de vista de la accesibilidad como del aprovechamiento de los recursos de información disponible. El crecimienot explosivo de la Web y otras fuentes de información ha hecho crítica la necesidad de alguna clase de asistencia inteligente para el usuario que está buscando información relevante. El desarrollo de CPU cada vez más poderosas hace que cada vez haya más tiempos ociosos de las mismas que pueden ser utilizados constructivamente para realizar búsquedas de información útil para el contexto actual del usuario. Por ejemplo, cuando un ingeniero está leyendo un correo electrónico sobre un proyecto, un agente puede recordarle la planificación, los reportes de avance etc y cuando el usuario cambie de tarea, el sistema cambiaría automáticamente para adecuarse a la nueva tarea.
Este escenario trae nuevos desafíos a los diseñadores de sistemas de IR tanto desde el punto de vista de la accesibilidad como del aprovechamiento de los recursos de información disponible. El crecimienot explosivo de la Web y otras fuentes de información ha hecho crítica la necesidad de alguna clase de asistencia inteligente para el usuario que está buscando información relevante. El desarrollo de CPU cada vez más poderosas hace que cada vez haya más tiempos ociosos de las mismas que pueden ser utilizados constructivamente para realizar búsquedas de información útil para el contexto actual del usuario. Por ejemplo, cuando un ingeniero está leyendo un correo electrónico sobre un proyecto, un agente puede recordarle la planificación, los reportes de avance etc y cuando el usuario cambie de tarea, el sistema cambiaría automáticamente para adecuarse a la nueva tarea.
El aumento del uso de los sistemas de computadoras que mencionamos no ha provocado un aumento en la cantidad de información que el usuario le comunica al sistema, ni ha habido demasiados cambios en las interfaces. El usuario debe ingresar su consulta aislada en una caja de texto y el sistema le devuelve una lista de documentos relevantes. La consulta y el contexto en el cual el usuario le surge una necesidad de información siguen aislados. Cuando un usuario recurre a un sistema de IR es porque quiere resolver algún problema sobre el que no tiene el conocimiento suficiente y este es principal problema, el usuario no sabe qué consultas generar. Sin embargo, las consultas suelen estar basadas en un contexto que puede ayudar a interpretarlas, por ejemplo, si un usuario está editando un documento o leyendo una página web, quizás esté interesado en saber más sobre el tópico de ese documento o página web. veamos a continuación un ejemplo, un bastante común en computación, un usuario que está buscando información acerca de Java y observemos como cambia la utilidad de los resultados en los distintos escenarios.
El aumento del uso de los sistemas de computadoras que mencionamos no ha provocado un aumento en la cantidad de información que el usuario le comunica al sistema, ni ha habido demasiados cambios en las interfaces. El usuario debe ingresar su consulta aislada en una caja de texto y el sistema le devuelve una lista de documentos relevantes. La consulta y el contexto en el cual el usuario le surge una necesidad de información siguen aislados. Cuando un usuario recurre a un sistema de IR es porque quiere resolver algún problema sobre el que no tiene el conocimiento suficiente y este es principal problema, el usuario no sabe qué consultas generar. Sin embargo, las consultas suelen estar basadas en un contexto que puede ayudar a interpretarlas, por ejemplo, si un usuario está editando un documento o leyendo una página web, quizás esté interesado en saber más sobre el tópico de ese documento o página web. veamos a continuación un ejemplo, un bastante común en computación, un usuario que está buscando información acerca de Java y observemos como cambia la utilidad de los resultados en los distintos escenarios.
El aumento del uso de los sistemas de computadoras que mencionamos no ha provocado un aumento en la cantidad de información que el usuario le comunica al sistema, ni ha habido demasiados cambios en las interfaces. El usuario debe ingresar su consulta aislada en una caja de texto y el sistema le devuelve una lista de documentos relevantes. La consulta y el contexto en el cual el usuario le surge una necesidad de información siguen aislados. Cuando un usuario recurre a un sistema de IR es porque quiere resolver algún problema sobre el que no tiene el conocimiento suficiente y este es principal problema, el usuario no sabe qué consultas generar. Sin embargo, las consultas suelen estar basadas en un contexto que puede ayudar a interpretarlas, por ejemplo, si un usuario está editando un documento o leyendo una página web, quizás esté interesado en saber más sobre el tópico de ese documento o página web. veamos a continuación un ejemplo, un bastante común en computación, un usuario que está buscando información acerca de Java y observemos como cambia la utilidad de los resultados en los distintos escenarios.
En este caso los recursos más apropiados serán aquellos que se refieran a la variedad de café llamada java, sus cualidades y los nombres de compañias exportadoras.
El turista estará buscando información acerca de la isla de Indonesia, paquetes turísticos, sitios de interés, etc.
En este caso serán resultados relevantes aquellos que se refieran al lenguaje, ejemplos, sintaxis, etc.
Los ejemplos mencionados muestran algunos de los problemas con los que se enfrentan los sistemas actuales de IR al intentar responder consultas sin tener en cuenta el contexto en el que estas se producen. Los términos toman significado de acuerdo a la forma en la que se los utilice y vemos que la búsqueda basada en contexto puede ayudarnos el proceso de recuperación identificando términos útiles que mejoren las consultas de un usuario. Encontrar buenos términos para crear consultas es un problema computacionalmente complejo y la situación empeora en un espacio abierto como la web en donde es posible incorporar términos que no pertenecen al contexto actual.
El proceso de creación de consultas es complejo y está condicionado a quien lo inicia, a su conocimiento sobre el contenido que está buscando, el vocabulario y otros aspectos. Las probabilidades de que los resultados de una consulta satisfaga a un usuario varían muchísimo en cualquier sistema de IR. Un usuario que conoce de la existencia de un documento en un sistema puede crear una consulta idéntica a ese documento, en cambio un usuario que busca información sobre un tema que desconoce tiene muy pocas probabilidades de recuperar el mejor documento. Esta variabilidad llevó a la creación de técnicas que reduzcan tal varianza. En los '70s Rocchio propuso una técnica de realimentación de relevancia análoga a la realimentación en la Teoría de Control. Se basa en la utilización de la salida de un sistema de IR para mejorar la entrada y de esa forma tratar de acercarnos al conjunto de documentos ideal para un pedido de un usuario. La suposición que hace este tipo de sistemas es que la consulta resultante será una mejor aproximación que la consulta inicial a la consulta óptima, aquella que obtendrá solo documentos relevantes para el usuario.
Un escenario típico para este proceso involucra los siguientes pasos:
El usuario formula la consulta inicial.
El sistema devuelve un conjunto inicial de documentos.
Se calcula la relevancia de los resultados obtenidos. Este paso distingue tres formas de realimentación. La primera necesita de una intervención explícita del usuario, quien debe indicar cuáles de los documentos le son relevantes y cuáles no. Dado que la relevancia es al subjetivo esta sería la forma más precisa de obtenerla, pero trae aparejado un esfuerzo que en general los usuarios no están dispuestos a realizar. Algunos sistema web han optado por esta solución sin demasiado éxito.
Esta segunda forma de realimentación, también se la conoce como realimentación ciega, ya que el sistema no tiene la asistencia del usuario para decidir cuáles documentos son relevantes y cuáles no. Existen varios tipos de sistemas de este tipo, el más común asume que los k primeros resultados devueltos en el punto 2 son relevantes. Hay que tener en cuenta que esa lista se supone ordenada con alguna función de orden que coloca primero a los que, a criterio del sistema, responden mejor a la consulta ingresa en el punto 1. Esta forma es muy dependiente de la calidad de los resultados obtenidos en el punto 2. Si la consulta inicial está muy alejada de los documentos relevantes para el usuario, el sistema será incapaz de recuperarse.
Esta última forma tampoco necesita de la intervención del usuario explícita, ya que el sistema infiere la relevancia de cada documento. Una forma de hacer esto es monitorear el comportamiento del usuario y obtener la relevancia de forma implícita a partir del comportamiento del usuario, como ser en qué documentos hace click. Otra manera de inferir la relevancia es comparar el documento con el contexto actual del usuario y es la forma que se utiliza en los algoritmos propuestos en esta tesis.
El sistema calcula una mejor representación de las necesidades del usuario basándose en la realimentación obtenida en el punto anterior.
El sistema devuelve un conjunto revisado de documentos.
Entonces, esta tesis tiene como principal objetivo proponer, investigar y evaluar nuevas técnicas semisupervisadas de IR orientadas a entender mejor las necesidades de los usuarios. Para abordar este objetivo, se plantearon las siguientes preguntas de investigación: 1 ¿Puede el contexto del usuario explotarse satisfactoriamente para acceder a material relevante en la Web? 2 ¿Puede un conjunto de términos específicos de un contexto ser refinado incrementalmente basándose en el análisis de los resultados de una búsqueda? 3 ¿Los términos específicos de un contexto aprendidos mediante métodos incrementales, son mejores para generar consultas comparados con aquellos encontrados por técnicas clásicas de IR o métodos clásicos de reformulación de consultas?
1 Proponer un algoritmo semisupervisado capaz de aprender incrementalmente nuevos vocabularios con el propósito de mejorar consultas temáticas. El objetivo es que estas consultas reflejen la información contextual y así puedan recuperar efectivamente material relacionado semánticamente. 2 Desarrollar una plataforma para evaluar las técnicas de IR propuestas, así como otras técnicas existentes. Dicha plataforma es especialmente apta para el análisis de buscadores temáticos y para incorporar métricas de evaluación novedosas basadas en las nociones de similitud semántica y relevancia parcial.
Los términos específicos a un contexto juegan distintos roles. En la literatura existen muchos trabajos acerca del cálculo del nivel de información que tiene un término en un conjunto de documentos y algunos se han enfocado en el cálculo del poder descriptivo y discriminante de un término en un documento respecto de ese conjunto. Sin embargo, estos trabajos se han basado en conjuntos predefinidos de documentos e independientemente de un contexto temático. En esta tesis se utilizó un estudio del poder descriptivo y discriminante de un término basado en su distribución en lo largo los tópicos de las páginas recuperadas por un motor de búsqueda y esto propone nuevos desafíos ya que limita la cantidad de información disponible.
Para distinguir entre descriptores y discriminadores de tópicos se argumenta que buenos descriptores de tópicos pueden encontrarse buscando aquellos términos que aparecen en la mayoría de los documentos relacionados con el tópico deseado. Por otro lado, buenos discriminadores de tópicos pueden hallarse buscando términos que sólo aparecen en documentos relacionados con el tópico deseado. Ambos tipos de términos son importantes a la hora de generar consultas. Utilizar términos descriptores del tópico mejora el problema de los resultados falso-negativos porque aparecen frecuentemente en páginas relevantes. De la misma manera, los buenos discriminadores de tópicos ayudan a reducir el problema de los falsos-positivos, ya que aparecen principalmente en páginas relevantes.
As our objective is to learn the user needs , instead of extracting the descriptors and discriminator of documents (like the user context) we need to find user context topic descriptors and discriminators. This term identification needs an Incremental Method that identifies which documents are similar to the user context. So, we need … A document comparison criteria and we choose Cosine Similarity. En este trabajo utilizamos para representar los documentos, la representación vectorial. Los documentos están formados por términos y cada término representa una dimensión en un espacio vectorial. El peso que se le asigna a cada término puede ser su frecuencia en el documento o alguna otra métrica. It uses the most simple way to compare documents and it’s the most common method in IR. La similitud en fción de lambda defino antes se expresa como:
La propuesta es aproximar el poder descriptivo y discriminante de los términos del contexto bajo análisis con el propósito de generar buenas consultas. Esta aproximación adapta el mecanismo típico de realimentación de relevancia para que considere un contexto temático en evolución
Un esquema del método incremental para el refinamiento de consultas basado en un contexto temático se muestra en la figura.
Contexto del usuario, navegadores, procesadores de texto, lectores de correo, etc
First, we extract terms from the user context.
Ponderación de términos
With these terms we make queries and the system returns an initial set of results. Métricas These steps are repeated until no improvements are observed.
with the obtained results and the context the descriptors and discriminators lists are built.
Then, the context characterization is updated with new learned material and the process starts again. If after a number of trials the retrieval effectiveness no significant improvements are observed after certain number of trials, the system forces to explore new potentially useful regions of the vocabulary landscape and it can be regarded as an improvement of the context characterization.
…
1 Un sistema de búsqueda basada en la tarea del usuario que evolucione consultas de alta calidad puede generar automáticamente sugerencias que estén contextualizadas en la tarea del usuario. 2 Una alternativa para la recolección del material puede hallarse formulando consultas temáticas en un motor de búsqueda y eligiendo del conjunto de resultados aquellos recursos que están relacionados con el tópico en cuestión. 3 Gran parte de la información de la Web puede encontrarse en esta forma y estas páginas no existen hasta que son creadas dinámicamente. Por lo tanto, la generación de consultas de alta calidad es de gran importancia al momento de querer acceder a recursos de la Web oculta. 4 La administración efectiva del conocimiento necesita ir más allá de su captura inicial y la Web proporciona una fuente rica en información en donde buscar nuevo material para incluir en estos modelos. De esta manera, el material puede accederse por medio de consultas que se presentan a un motor de búsqueda convencional, en donde el contexto está dado por el modelo de conocimiento que se está construyendo.
El método descripto en el capítulo anterior fue implementado en el contexto de una plataforma general de IR. Esta se desarrolló con el propósito de proponer y evaluar nuevos algoritmos en el área de IR. Los resultados de las evaluaciones del algoritmo incremental presentado en el capítulo anterior y de otros algoritmos serán mostrados a continuación.
Una representación esquemática de la Plataforma de Evaluación se muestra en la figura. Como se puede observar existe una primera parte que se encarga de la representación de las consultas. Estas pueden ingresarse como un conjunto o como un documento, a partir del cual el sistema generará las consultas necesarias. Por otro lado, la plataforma ofrece una interfaz de comunicación con los distintos motores de búsqueda. Como se dijo más arriba, una de las posibilidades es contar con un motor de búsqueda web. También existe un componente dedicado al cálculo de las métricas que guiarán los algoritmos de búsqueda y que también servirán para su evaluación. A continuación se explicarán con más detalles los componentes de la plataforma.
Este componente del sistema se encarga del proceso de generación de las consultas que iniciarán o que utilizarán los algoritmos que se evaluarán con la plataforma. Los algoritmos evaluados y propuestos en esta tesis caen en la categoría algoritmos de recuperación basada en contexto, por lo que en todos los casos se cuenta con el contexto del usuario. La generación de consultas puede llevarse a cabo con distintas técnicas. La primera es de forma aleatoria, en donde se seleccionan al azar palabras del contexto del usuario, todas con la misma probabilidad, y es la que se utilizó en varios artículos publicados. Otra técnica es el mecanismo de selección por ruleta, en donde la probabilidad de selección de un término está dada por el peso que tiene asignado. Esto provoca una exploración no determinística del espacio de términos que favorece a los más efectivos. Estos dos métodos se utilizaron en esta tesis.
Este componente del sistema se encarga de realizar los pedidos de información a los distintos motores de búsqueda con los que cuenta la plataforma. También lleva a cabo la tarea de preprocesar y convertir los resultados a un formato uniforme a todos los motores.
Por cuestiones de eficiencia, la métrica sólo se utilizó para comparar el contexto del usuario con cada fragmento de los documentos recuperados por el motor de búsqueda. Las taxonomías mantenidas por personas como ODP dividen a una porción de la Web en una jerarquía de categorías con páginas en ellas y permiten una forma de evaluación automática. En los mecanismos tradicionales los juicios de relevancia son proporcionados por los usuarios de forma manual, lo cual es muy difícil de obtener. Más importante aún es el problema de la escalabilidad, ya que en grandes colecciones de datos como la Web es imposible cubrir exhaustivamente todos los tópicos existentes. El ODP clasifica millones de URLs en una ontología temática y ayuda a darle sentido a las páginas que contiene y, con esta información, pueden derivarse relaciones semánticas entre las páginas. Por otro lado, en ODP se cuenta con la descripción de cada tópico, también escrita por personas y esta pequeño párrafo es lo que se utilizó como contexto inicial de los algoritmo evaluados con este motor de búsqueda.
Por cuestiones de eficiencia, la métrica sólo se utilizó para comparar el contexto del usuario con cada fragmento de los documentos recuperados por el motor de búsqueda. Las taxonomías mantenidas por personas como ODP dividen a una porción de la Web en una jerarquía de categorías con páginas en ellas y permiten una forma de evaluación automática. En los mecanismos tradicionales los juicios de relevancia son proporcionados por los usuarios de forma manual, lo cual es muy difícil de obtener. Más importante aún es el problema de la escalabilidad, ya que en grandes colecciones de datos como la Web es imposible cubrir exhaustivamente todos los tópicos existentes. El ODP clasifica millones de URLs en una ontología temática y ayuda a darle sentido a las páginas que contiene y, con esta información, pueden derivarse relaciones semánticas entre las páginas. Por otro lado, en ODP se cuenta con la descripción de cada tópico, también escrita por personas y esta pequeño párrafo es lo que se utilizó como contexto inicial de los algoritmo evaluados con este motor de búsqueda.
Con el objetivo de medir la efectividad que alcanza el sistema, este componente se encarga de calcular distintas métricas sobre los resultados que le entrega el algoritmo en evaluación.
Las medidas que pueden aplicarse para guiar al algoritmo son las clásicas del área de IR (como las vistas en la \\autoref{sec:metricas}) u otras nuevas.
Comenzamos con las medidas clásicas de Pre. y Cob. Si representamos la salida de un sist. de IR con conjuntos tenemos el cjto de doc relevantes (los que son relevantes para la consulta del usuario) y los docs. recuperados.
Entonces tenemos tres subcjtos. los docs relev. recp., los docs. recup. que son relv. y los docs recup. pero que no son relev.
Las mét. de P y C se definen en fción. de estos subcjtos. La P es la rel. entre ... La C es la rel. entre ... Ahora bien, tener 2 métricas para comparar sist. de IR puede traer deficultades ya que un sist. puede mejorar la P y otro sist. puede mej. la R. Entonces en la Plataf. de eval. también se implementó la métrica conocida como F que pondera ambas métricas en una sola y permite comparar los sistemas de forma absoluta.
En particular, puede notarse que al utilizar un motor web no es posible calcular otras métricas como la cobertura, dado que no hay una forma de saber de antemano qué páginas pertenecen al conjunto de documentos relevantes para la consulta que se está haciendo. Como se mencionó, el motor de búsqueda web, devuelve como parte de los resultados un pequeño fragmento del documento recuperado y se lo utilizó con la medida clásica de IR, similitud por coseno. Otro problema que aparece es que, en general, este fragmento contiene porciones del documento cercanas a las palabras de la consulta y, por lo tanto, es muy probable que estas estén contenidas dentro de este. Lo que perjudica a aquellos documentos que pudieran ser relevantes y que no emplean el mismo vocabulario que el usuario, desfavoreciendo la exploración de material novedoso. En vista de las consideraciones expuestas arriba, en esta tesis se propone una nueva métrica llamada Similitud Novedosa . La similitud novedosa es una medida de similitud ad~hoc que está basada en la cosine_similarity. Esta nueva medida descarta los términos que forman parte de la consulta al momento de hacer los cálculos, reduciendo el sesgo introducido por esos términos y favoreciendo la exploración de nuevos documentos.
La medida estándar de sim x coseno es una medida muy estricta respecto de que necesita que los documentos analizados contengan exáctamente los mismos términos para lograr una similitud alta. En la web es necesaria una medida de sim. semántica, ya que queremos encontrar documentos que a pesar de estar descriptos con vocabularios difierentes, son similares conceptualmente. En esta tesis se utilizó una medida de sim. semántica generalizada para grafos que tiene en cuenta los distintos tipos de enlaces en ODP y que permite encontrar relaciones semánticas entre tópicos que de otra manera se perderían. Como ser ... A partir de esta métrica, en esta tesis, de definió una nueva métrica llamana Precisión Semántica que es similar a la Precisión estándar pero fue modificada para encontrar documentos parcialmente relacionados y potencialmente útiles.
Base Bo1: asume que los k primeros docs. de la 1era pasada son relevantes. Bo1 super: se desarrolló en esta tesis una versión supervisada del alg. bo1 que en lugar de utilizar los k primeros documentos de la 1era pasada, utiliza los k primeros que efectivamente son relevantes, a partir de la información provista por el motor local. Gen: son algoritmos que se utilizan para problemas de optimización y búsqueda y que tratan de mejorar algún objetivo.
Algunos resultados a los que se pudo llegar x medio de la plataforma al evaluar los distintos algorit.
Por medio de la plataforma desarrollada en esta tesis se pudo analizar el comportamiento de, en este caso, el algoritmo incremental propuesto. En la figura vemos las mejoras obtenidas a lo largo de las iteraciones en la simlitud novedosa promedio para todos los tópicos analizados. Zonas. Esto muestra la efectividad del algoritmo para recuperar material relevante.
Por medio de la plataforma desarrollada también se evalúo … Precisión
Precisión semántica
sim novedosa
Por medio de la plataforma desarrollada también se analizó el comportamiento de dos tipos de algoritmos genéticos multiobjetivo, NSGA y agregativo … Precisión
Cobertura
A lo largo de esta tesis se desarrolló una herramienta de IR que ayuda al usuario en la tarea que está realizando, brindándole información relevante y basada en su contexto actual. Para ello se propuso una solución al problema de la sensibilidad semántica, que es la limitación que surge cuando no se puede hallar una relación entre dos documentos similares semánticamente, porque contienen distintos términos en su vocabulario, resultando en un falso-negativo al intentar recuperar material relevante. Además, mediante la identificación de buenos discriminadores de tópicos, la propuesta presentada en esta tesis ayuda a mitigar el problema de falsos-positivos, que aparece cuando el mismo término (p. ej., java) aparece en dos tópicos diferentes. El método enunciado trabaja aprendiendo incrementalmente mejores vocabularios de un gran conjunto de datos como la Web. En esta tesis se implementó una plataforma de evaluación y comparación de métodos y técnicas para la IR. La misma permitió el desarrollo de los algoritmos presentados en este trabajo, proporcionando el soporte necesario para un análisis detallado de los resultados obtenidos. Dentro de esta plataforma también se implementaron las nuevas métricas propuestas en esta tesis. Una de ellas es la Similitud novedosa, una medida de comparación entre documentos que descarta los términos que pudieran introducir un sesgo en la medición, favoreciendo la exploración de nuevo material. La otra es la Precisión semántica, una métrica para la comparación de los resultados de un sistema de recuperación de información. Esta medida brinda una noción más rigurosa de la calidad de los documentos recuperados por un algoritmo de IR, al incorporar la noción de relevancia parcial entre tópicos.