2. WEB SUPERFICIAL O VISIBLE
• Comprende todos aquellos sitios cuya
información puede ser indexada por los robots
de los buscadores convencionales y
recuperada casi en su totalidad mediante una
consulta en sus formularios de búsqueda
22/06/2015 2AJNV
3. WEB SUPERFICIAL O VISIBLE
• Las características principales de los sitios de la
Web visible son:
Su información no está contenida en bases de
datos.
Es de libre acceso.
No se requiere la realización de un proceso de
registro para acceder a la información.
Mayoritariamente está formada por páginas Web
estáticas, es decir páginas o archivos con una URL
fija y accesibles desde otro enlace.
22/06/2015 3AJNV
4. WEB PROFUNDA O INVISIBLE
• Es el término utilizado para describir toda la
información disponible en Internet que no se
recupera interrogando a los buscadores
convencionales. Generalmente es información
almacenada y accesible mediante bases de
datos.
22/06/2015 4AJNV
5. WEB PROFUNDA O INVISIBLE
• Se compone de:
Contenidos dinámicos: Páginas dinámicas que
retornan en respuesta a una búsqueda o
accedidas solo por una vía.
Contenidos no enlazados: Páginas que no tienen
vínculos entrantes desde otras páginas.
Contenidos de acceso limitado: Que requieren
registrarse o limitan el acceso a su página,
prohibiendo que los buscadores los incluyan en
sus bases de datos.
22/06/2015 AJNV 5
6. WEB PROFUNDA O INVISIBLE
Contenidos «scripted»: Páginas que
solamente son accesibles a través de enlaces
producidos por JavaScript y Flash, las cuales
requieren un tratamiento especial.
Contenidos no textuales: archivos
multimedia, en otros formatos o «usenet».
22/06/2015 AJNV 6
7. WEB PROFUNDA O INVISIBLE
• Sherman y Price identifican cuatro tipos de
contenidos invisibles en la Web:
1) La Web opaca (the opaque Web).
2) La Web privada (the private Web).
3) La Web propietaria (the proprietary Web).
4) La Web realmente invisible (the truly invisible
Web).
22/06/2015 AJNV 7
8. WEB OPACA
• La Web opaca está compuesta por archivos que, si bien podrían estar
incluidos en los índices de los buscadores, no lo están por alguno de los
siguientes motivos:
Extensión de la indización: a veces, por economía, no todas las páginas de
un sitio son indizadas en los buscadores.
Frecuencia de la indización: los buscadores no poseen la capacidad de
indizar todas las páginas existentes; a diario se agregan y modifican
muchas y la indización no se realiza al ritmo que permita incluirlas a todas.
Número máximo de resultados visibles: aunque los motores de búsqueda
arrojan a veces un gran número de resultados, generalmente limitan el
número de documentos que se muestran (entre 200 y 1000).
URL desconectadas: las generaciones más recientes de buscadores,
presentan los documentos por relevancia basada en el número de veces
que aparecen referenciados en otros. Si un documento no tiene un link a
él, desde otro documento, será imposible que la página sea encontrada,
pues no se encuentra indizada.
22/06/2015 AJNV 8
9. WEB PRIVADA
• Consiste en las páginas Web que podrían estar indizadas en los
buscadores pero son excluidas deliberadamente por alguno de
estos motivos:
Las páginas están protegidas por contraseñas.
Contienen un archivo “robots.txt” para evitar ser indizadas.
Contienen un campo “noindex” para evitar que el buscador pueda
indizar la parte correspondiente al cuerpo de la página.
Este segmento de la Web contiene, en general, documentos
excluidos deliberadamente por su falta de utilidad. Ya que son los
dueños de la información que contienen, los que deciden que no se
encuentre disponible, por lo que difícilmente se podrán encontrar
mecanismos legítimos para franquear esa barrera.
22/06/2015 AJNV 9
10. WEB PROPIETARIA
• Incluye aquellas páginas en las que es
necesario registrarse para tener acceso al
contenido, ya sea de forma gratuita o pagada.
Se dice que al menos 95% de la web profunda
contiene información de acceso público y
gratuito.
22/06/2015 AJNV 10
11. WEB REALMENTE INVISIBLE
• Se compone de páginas que no pueden ser
indizadas por limitaciones técnicas de los
buscadores.
Programas ejecutables y archivos comprimidos.
Páginas generadas dinámicamente que se
generan a partir de datos que introduce el
usuario.
Información almacenada en bases de datos
relacionales, que no puede ser extraída a menos
que se realice una petición específica.
22/06/2015 AJNV 11
12. WEB PROFUNDA
Recursos de búsqueda
• The WWW Virtual Library se considera el
catálogo más antiguo en la web y fue iniciado
por Tim Berners-Lee, el creador de la web.
22/06/2015 AJNV 12
13. WEB PROFUNDA
Recursos de búsqueda
• Infoplease es una Web de consulta con más de 57.000
artículos de la prestigiosa enciclopedia Columbia.
• Facilita la consulta de información con opciones de
búsqueda por términos o por áreas de conocimiento.
• Es posible acceder a un buen número de enciclopedias,
atlas, y biografías.
• También tiene algunas ramificaciones interesantes
como Factmonster.com para los niños y Biosearch, un
motor de búsqueda sólo para biografías, o información
de todo lo acontecido históricamente en un
determinado día.
22/06/2015 AJNV 13
14. WEB PROFUNDA
Recursos de búsqueda
• DeepWebTech ofrece cinco motores de
búsqueda para temas específicos. Los motores
de búsqueda abarcan la ciencia, medicina y
negocios.
• El uso de estos motores de búsqueda
específicos del tema, puede consultar las
bases de datos subyacentes en la Web
profunda.
22/06/2015 AJNV 14
15. WEB PROFUNDA
Recursos de búsqueda
• TechXtra centra su información, en ingeniería,
matemáticas e informática. Es posible navegar
a través de una extensa lista de revistas
gratuitas especializadas de ingeniería,
documentos técnicos, descargas y podcasts.
22/06/2015 AJNV 15