2. Internet Invisible
• En el contenido de la Web
pueden distinguirse dos
partes:
- Web Superficial
(SurfaceWeb)
- Web Profunda (DeepWeb)
3. La web Superficial
• Es lo que se conoce como
WWW:
- Está compuesta por un conjunto
de páginas estáticas
públicamente accesibles.
- Constituye una porción
relativamente muy pequeña de
toda la Web (un 17%
aproximadamente).
- La información que se recupera
debe ser cuidadosamente
evaluada y validada.
4. La Web Profunda
• Se conoce como Web
Invisible y se compone de:
- Contenidos dinámicos:
páginas dinámicas que
retornan en respuesta a una
búsqueda o accedidas sólo
por una vía.
- Contenidos no enlazados:
páginas que no tienen
vínculos entrantes desde otras
páginas.
5. La intenet Profunda
- Contenidos de acceso limitado:
que requieren registrarse o que
limitan el acceso a sus páginas,
prohibiendo que los buscadores
los incluyan en sus bases de datos.
- Contenidos “scripted”: páginas
que solamente son accesibles a
través de enlaces producidos por
JavaScript y Flash, las cuales
requieren un tratamiento
especial.
- Contenidos no textuales: archivos
multimedia, en otros formatos o
“usenet”
6. Clasificación de La Web Profunda
OPACA
PROPIETARIA
PRIVADA
REALMENTE
INVISIBLE
Web…
7. La Web Opaca
• Se compone de todas aquellas páginas que son
excluidas por:
- extensión de la indización: por economía, no todas
las páginas de un sitio son indizadas en los
buscadores.
- Frecuencia de la indización: los buscadores
indexan de forma periódica y la WWW cambia
diariamente.
- Número máximo de resultados visibles: se limita
a los 200 y 1000 documentos, si bien el número de
resultados es mayor.
- URL’s desconectados: los buscadores presentan
los resultados en base a la cantidad de referencias o
enlaces a los sitios, caso contrario la página no será
indizada.
8. La Web Privada
• Las páginas Web son excluidas
por alguna de estas causas:
- Se encuentran protegidas por
contraseñas.
- Contienen un archivo
“robots.txt” para evitar ser
indizadas.
- Contienen un campo
“noindex” para evitar que el
buscador indice la parte
correspondiente al cuerpo de
la página.
9. La Web Propietaria
• Incluye aquellas páginas en
las que es necesario
registrarse para tener
acceso al contenido, ya sea
de forma gratuita o
pagada. Se dice que al
menos 95% de la web
profunda contiene
información de acceso
público y gratuito.
10. La Web realmente invisible
• Las páginas no son indizadas por
las siguientes razones:
- Incluyen formatos como PDF,
PostScript, Flash, Shockwave,
programas ejecutables y archivos
comprimidos.
- Se generan dinámicamente, a
partir de datos que introduce el
usuario.
- Almacenan la información en
bases de datos, que no puede ser
extraída a menos que se realice
una petición específica.
11. ¿Cómo buscar en la Web
invisible?
- Los buscadores tradicionales
han añadido funcionalidades
adicionales para la búsqueda
en la llamada Web profunda.
- También existen buscadores
especializados en ese
segmento de la Web, que no
sólo buscan en la Web
superficial, sino también en la
Web Invisible.
12. Forman parte de la Web profunda
- Las bibliotecas: digitales,
catálogos de bibliotecas, bases
de datos de bibliotecas, bases
de datos bibliográficas.
- Bases de datos.
- Revistas electrónicas y archivos
de documentos.
- Documentos en formatos no
indizables, (pdf, ppt, doc, mp3,
wav, avi, mpeg, etc.)
- Catálogos de editoriales,
Directorios de Publicaciones
periódicas.
13. Forman parte de la Web profunda
- Archivos (instituciones y
organismos de gobierno).
- Repositorios de artículos de
revistas, tesis y literatura gris.
- Directorios de bases de datos
- Guías de sitios, Revistas
electrónicas, Obras de
referencia: enciclopedias,
diccionarios, tesauros, etc.
- Foro, Blogs, Noticias (diarios).
- Sitios de remates, Paginas
blancas/amarillas, Directorios
14. Forman parte de la Web profunda
- Revistas electrónicas, en las
que es necesario un registro
previo y las que sólo se puede
recuperar la información
mediante búsquedas en su
base de datos.
- Organismos públicos de
gobierno, ONGs, etc., que en
sus sitios web disponen de
consultas a sus bases de
datos.
15. El archivo de Internet
- Asume el reto de preservar el
pasado de Internet
- La mayor parte de la
información que contiene es
estadounidense.
- Se ingresa a través del sitio:
http://www.archive.org/inde
x.php
- De sus secciones se destaca
Wayback MAchine, que
contiene miles de millones de
páginas, grabadas desde
1996
Notas del editor
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.
Según estudios de BrightPlanet
La información pública de la Web Profunda es actualmente alrededor de 550 veces mayor que la de laWeb Superficial.
LaWeb Profunda contiene 7,500 terabytes de información comparado con 19 terabytes en laWeb Superficial.
Las 60 fuentes más grandes de la Web Profunda(84 000 millones de páginas) tienen 750 Tby son 40 veces más grandes que la Web Superficial.
La Web Profunda tiene el mayor crecimiento de nueva información en Internet.
Más de la mitad del contenido de la Web Profunda reside en bases de datos específicas.
La calidad del contenido de laWeb Profunda es considerada mucho mayor que la de la Web Superficial. •El 95% de la información de laWeb Profunda es información totalmente pública, libre de subscripciones y tarifas.