Búsqueda y recuperación de información en internet

584 visualizaciones

Publicado el

La búsqueda y recuperación de información en los actuales motores de bñusqueda y debido a la gran cantidad de infromación que existe en la red de red es un tarea difícil. Para lograr los resultados deseados se deben conocer técnicas y herramientas para obtener, accesar y procesar la información requerida. Esta es una materia muy necesaria para estudiantes e investigadores que deben procesar gran cantidad de información digital.

Publicado en: Datos y análisis
0 comentarios
0 recomendaciones
Estadísticas
Notas
  • Sé el primero en comentar

  • Sé el primero en recomendar esto

Sin descargas
Visualizaciones
Visualizaciones totales
584
En SlideShare
0
De insertados
0
Número de insertados
85
Acciones
Compartido
0
Descargas
6
Comentarios
0
Recomendaciones
0
Insertados 0
No insertados

No hay notas en la diapositiva.

Búsqueda y recuperación de información en internet

  1. 1. Búsqueda y Recuperación de información en Internet Lic. Sabdiel Batista Díaz sabdiel@perlavision.icrt.cu http://:www.perlavision.icrt.cu
  2. 2. Formas de búsqueda • La búsqueda de información tiene diversas formas: La investigación documental. • La búsqueda en Internet. • La búsqueda en bases de datos.
  3. 3. Concepto de búsqueda • Se concibe el proceso de búsqueda como un conjunto complejo de actividades, que se combinan e influyen recíprocamente, dirigidas a identificar, localizar y obtener la información con un propósito determinado.
  4. 4. Estrategias de búsqueda MODELO "BIG SIX SKILLS". Fuente: Eisenberg, M. B. & Berkowitz, R. E. Information Problem-Solving: The Big Six Skills Approach to Library & Information Skills. Norwood, NJ: Ablex Publishing Corp., 1990. p 24.
  5. 5. Big six skills 1.1.Definición de la tareaDefinición de la tarea Definir el problema de información. Identificar la información que se necesita para completar la tarea (para resolver el problema de información).
  6. 6. Big six skills 2.2. Estrategias de búsqueda de informaciónEstrategias de búsqueda de información Determinar el rango de las posibles fuentes (brainstorming). Evaluar las posibles fuentes diferentes para determinar prioridades (seleccionar las mejores fuentes).  
  7. 7. Big six skills 3.3. Localización y accesoLocalización y acceso Localizar las fuentes (intelectual y físicamente). Encontrar la información en las fuentes.    
  8. 8. Big six skills 4.4. Uso de la informaciónUso de la información Comprender (leer, oir, ver, tocar...) la información de la fuente. Extraer información relevante de la fuente.
  9. 9. Big six skills 5.5. SíntesisSíntesis Organizar la información de múltiples fuentes. Presentar la información.
  10. 10. Big six skills 6.6. EvaluaciónEvaluación Juzgar el producto (efectividad). Juzgar el proceso de resolución del problema (eficiencia).
  11. 11. Formulación Búsqueda Básica • Selección de los términos de búsqueda a). Identifique los conceptos relevantes b). Seleccione las palabras claves que representan esos conceptos c). Adiciones los sinónimos de cada palabra clave
  12. 12. Formulación Búsqueda Básica • Empleo de operadores lógicos a). "OROR" amplía la búsqueda añadiendo términos sinónimos o relacionados b). "ANDAND" reduce la búsqueda al obligar la existencia simultánea de varios términos (+) c). "NOTNOT" reduce la búsqueda al obligar la ausencia de algunos términos (-)
  13. 13. Formulación Búsqueda Básica • Formulación de la expresión de búsqueda Combine los términos de búsqueda con los operadores lógicos de manera que se obtenga el conjunto de documentos relevantes a la necesidad de información
  14. 14. Formulación Búsqueda Avanzada • Conformar estrategias de búsquedas complejas • Utilizar más de un campo de búsqueda • Anidar los términos de búsqueda en expresiones complejas • Combinar los resultados de varias expresiones de búsqueda
  15. 15. Expresiones de búsqueda Sinónimos: • Concepto 1Concepto 1: Computadora OROR Computadoras OROR ordenadores OROR Robots OROR Informática OROR Automática OROR Robótica • Concepto 2Concepto 2: fabricación OROR fabricar OROR fabricantes OROR construir OROR construcción OROR producir OROR producción • Concepto 3:Concepto 3: automóvil OROR automóviles OROR coche OROR coches OROR vehículo OROR vehículos
  16. 16. Expresiones de búsqueda Truncado: • Concepto 1Concepto 1: computador** OROR ordenador** OROR informática OROR automática OROR robot** • Concepto 2Concepto 2: fabrica** OROR constru** OROR produc** • Concepto 3:Concepto 3: automóvil** OROR coche** OROR vehículo**
  17. 17. Tácticas de búsqueda Si ha recuperado muchos documentos: • Introduzca nuevos conceptos y combine los conceptos diferentes con ANDAND • Elimine cuasi-sinónimos • Elimine los truncados • Utilice descriptoresdescriptores • Utilice operadores de proximidad • Limite la búsqueda a campos específicoscampos específicos • Combine varias de estas tácticasCombine varias de estas tácticas
  18. 18. Tácticas de búsqueda Si ha recuperado pocos documentos: • Elimine conceptos que no sean relevantes • Añada sinónimos y combínelos entre sí con el operador OROR • Utilice el truncamiento • Utilice términos en lenguaje natural • Amplíe la búsqueda a todos los campos • Elimine los operadores de proximidad • Combine varias de estas tácticasCombine varias de estas tácticas
  19. 19. Tipos de recuperación: • La recuperación de palabras. • La recuperación de referencias. • La recuperación de documentos. • La recuperación de textos.
  20. 20. Concepto de recuperación • La recuperación de información es el conjunto de tareas mediante las cuales el usuario identifica, localiza y accede a los recursos de información que son pertinentes para la resolución del problema planteado.
  21. 21. Recuperación de datos  - Recuperación directa que responde la pregunta del usuario. Ej: Quiero saber X.  (Método de respuesta al usuario). - Necesariamente, existe una relación entre una pregunta bien construida y la respuesta correcta.
  22. 22. Recuperación de documentos   - Recuperación indirecta que proporciona o referencia a un conjunto de documentos que probablemente contenga la respuesta a lo que pregunta el usuario. Ej: Quiero saber sobre X.    - Probablemente, existe una relación entre una pregunta bien construida y la respuesta correcta.    - El criterio para medir el éxito de una búsqueda es su utilidad. Evaluación subjetiva. ¿Se ha satisfecho la necesidad del usuario?. 
  23. 23. Recuperación de documentos • La velocidad de la recuperación depende sobre todo del número de decisiones lógicas que el usuario debe tomar durante el desarrollo de la búsqueda y sólo secundariamente de la velocidad del acceso del sistema que se utilice.
  24. 24. Recuperación efectiva Debe equilibrar dos objetivos: 1. Predecir cómo están representados o indexados los documentos que le van a ser útiles. 2. Recuperar un conjunto de documentos lo suficientemente pequeño para visualizarlos y encontrar los más útiles
  25. 25. Directorios y motores MOTORES 1 - Un motor de búsqueda lleva a la página exacta en las que aparecen las palabras o la frase que uno busca. 2 - Cuando tenga una vaga idea de lo que quiere y cuando apreciaría que alguien le ayudase. DIRECTORIOS 1 - Un directorio lleva a la página inicial de un sitio Web. Desde ahí se puede explorar hasta encontrar lo que se busca. 2 - Cuando quiera llegar una pieza particular de información muy rápidamente.
  26. 26. Directorios y motores DIRECTORIOS 1 - Cuando quiera encontrar un buen sitio de música o un sitio especializado en el tipo de películas 2 - Para conseguir una lista de los periódicos electrónicos más importantes MOTORES 1 - Cuando quiera saber de qué disco es una canción o una frase de película, utilice un motor de búsqueda 2 - Para una cita de una columna de periódico, incluso sin el nombre del columnista que lo escribió
  27. 27. Las dos Internet • El Web Visible: Está formado por las páginas web (html) que los buscadores han incluido en sus índices. • El Web Invisible: Información de alta calidad disponible en el WWW que los buscadores no pueden, o no están dispuestos a, añadir a sus índices de páginas web. • Ejemplos: Web “opaco”; Web privado; Web propietario y Web realmente Invisible
  28. 28. Web Invisible : Bases de Datos • Bases de datos accesible en el Web: • Directorios (compañías, personas, etc.) • Catálogos de bibliotecas • Bibliografías (ERIC, Medline, etc.) • Documentos especiales (patentes, normas)
  29. 29. Localización de Información en el Web Invisible • Internet Invisible [www.internetinvisible.com] • Complete Planet [www.completeplanet.com] • DirectSearch [gwis2.circ.gwu.edu/~gprice/direct.htm] • Invisible Web Catalog [www.invisibleweb.com] • Invisible Web [http://www.invisible-web.net/] • IncyWincy [http://www.incywincy.com/] • Invisible Web Gateways [http://websearch.about.com/cs/invisibleweb/] • Invisible Web Home [http://www3.dist214.k12.il.us/invisible/default.html]
  30. 30. Características de la Búsqueda en Directorios • En alcance se amplía o se reduce al subir o bajar por la estructura del directorio. • Los términos están dentro del contexto de la categoría de la búsqueda, lo cual disminuye considerablemente el ruido. • Las notaciones no dependientes del idioma, posibilitan la implementación de un acceso multilingüe a la colección.
  31. 31. Ventajas del uso de Directorios • Suelen ser más fáciles de usar que los buscadores, especialmente para usuarios no experimentados. • Permiten echar una ojeada de forma global al contenido. • Los recursos disponibles han pasado por un proceso de selección de calidad. • Algunos tienen la posibilidad de incluir referencias cruzadas.
  32. 32. Desventajas del uso de Directorios • Cubren tan solo una pequeña fracción de los recursos existentes en la Web • Inconsistencias en sus subdivisiones. • Carencia de criterios homogéneos para la selección, clasificación y descripción. • Rápida desactualización de algunos recursos por la falta de mecanismos para seguir los cambios en contenidos, direcciones, etc.
  33. 33. Datos de los Directorios • Posee la mayor base de datos • Es el único buscador que incluye pdfs • Operador implícito AND (+) • Operador OR: debe incluirlo en altas • Avanzada: ‘paginas similares’ y ‘con enlaces a esta página’ • Ordena por proximidad de las palabras y popularidad de las páginas (citada) • Indiza sólo los primeros 100 k de texto
  34. 34. Datos de los Directorios • Es el único buscador que incluye operador de proximidad (NEAR) • Operador implícito (pocas palabras AND / muchas OR) • La búsqueda avanzada es sofisticada y muy potente (10 campos diferentes) • Facilidades para buscar imágenes, audio y video • Permite declarar términos que definan el ordenamiento (sort) de los resultados • Indiza sólo los primeros 100 k de texto
  35. 35. Datos de los Directorios • Operador implícito AND (+) • Operador OR: términos entre paréntesis • Búsqueda simultánea en las bases de datos de Imagen, Video, MP3 y FTP • Avanzada: búsqueda por campos • Avanzada: límite por tamaño de página • Muestra 1 página por dominio • Incluye todas las palabras en el índice, incluidas las ‘vacías’ • No tiene límites en el texto a indizar
  36. 36. Datos de los Directorios • Operador implícito: AND • Avanzada: opciones de limites por medio de ventanas y menúes de despliegue • Avanzada: permite limitar a páginas en niveles de profundidad dados del sitio • Avanzada: la opción "Acrobat" recupera páginas con enlaces a archivos pdf
  37. 37. Metabuscadores • Los multibuscadores, también llamados metabuscadores, proporcionan la posibilidad de buscar en un número determinado de motores de búsqueda de forma simultánea. No utilizan robots para recoger o mantener unas bases de datos propias individuales sino que utilizan las bases de datos de los buscadores sobre los que lanzan las peticiones de los usuarios.
  38. 38. Ventajas de los Metabuscadores • - Se necesita solamente acceder a una única página web para ejecutar la búsqueda • - El usuario sólo ha de aprender a utilizar una única interfaz para realizar sus búsquedas • - Sólo hay que teclear la expresión de búsqueda una vez • - Se puede ejecutar una búsqueda más exten-siva a través de un amplio número de motores de búsqueda • - Se puede obtener una lista de resultados de forma integrada de tal manera que se eliminen los duplicados
  39. 39. Posibilidades de los Metabuscadores • - Indicar el número máximo de resultados que se desean obtener de cada motor de búsqueda • - Salvar la expresión de búsqueda para poder ejecutarla la próxima vez que se utilice el servicio • - Presentar los resultados por orden de relevancia, o criterio de ‘best match’ • - Excluir algunos motores de la lista

×