El documento describe la Internet profunda o invisible, la cual es una gran porción de Internet que es difícil de rastrear. Contiene información que solo es accesible a través de bases de datos dinámicas tras realizar consultas. La Internet profunda es varias veces más grande que la visible y contiene una gran cantidad de información pública de alta calidad en diversos temas.
2. Se le conoce informalmente como Internet profunda
o Internet invisible (en inglés: Deepweb, Invisible
Web, Deep Web, Dark Web o Hidden Web) a una
porción presumiblemente muy grande de la Internet
que es difícil de rastrear o ha sido hecha casi
imposible de rastrear y deliberadamente, como lo es
el caso del Proyecto Tor, caso en el cuál ha sido hecha
de ésta manera vía usando métodos poco
convencionales, cómo con la proxyficación con
muchos proxys, el no utilizar direcciones de Internet,
sino códigos y el utilizar el pseudodominio de nivel
superior .onion, la cuál fue creada por la Armada de
los Estados Unidos como una prueba y ahora es
aprovechada por delincuentes cibernéticos.
3. • La información pública sobre la web señala que actualmente (2001) ésta es entre 400 a 550 veces
más grande que lo que el mundo conoce como Internet.
• Sesenta de los mayores sitios de web profunda contienen colectivamente alrededor de 750
terabytes de información - suficientes por sí mismos para superar el tamaño de la web superficial
en cuarenta veces su tamaño.
• La web profunda es la categoría de mayor crecimiento en información de la nueva Internet.
• La información alojada en sitios de web profunda tienden a ser más selectivos, con contenidos más
extensos que los sitios superficiales comunes.
• La relación contenido y calidad de la web profunda es de 1.000 a 2.000 veces mayor que la de la
web superficial.
• Los contenidos de la web profunda son altamente relevantes para todas las necesidades de
información, mercadeo, y dominio de Internet.
• Más de la mitad del contenido de la web profunda reside en bases de datos sobre temas
específicos.
• Un total de noventa y cinco por ciento de la web profunda es de información accesible al público,
no sujeta a cuotas o suscripciones.
En su momento, entre los hallazgos más sorprendentes en relación
con la Internet Invisible se cuentan:
4. • Scirus, usado para búsquedas de información científica.
• Infomine, búsquedas de material escolar de todo tipo.
• FreeLunch, búsquedas de datos económicos.
• CompletePlanet, búsquedas de diversos temas.
• Archive, metabuscador para rastrear temas específicos.
• Search Engine Guide, metabuscador que permite encontrar un buscador o
base de datos relacionada con el tema de interés.
Red de información libre y gratuita que es accesible mediante la interconexión
de ordenadores. La forma de acceso se realiza mediante programas
navegadores, Chats, mensajería o intercambio de protocolos (FTP, P2P).
Internet invisible: Información que está disponible en Internet pero que
únicamente es accesible a través de páginas generadas dinámicamente tras
realizar una consulta en una base de datos.
5. Bases de datos: los buscadores sólo proporcionan acceso a la página de inicio
porque las restantes son dinámicas. Documentos en formato pdf, word: los
motores de búsquedas fueron creados sólo para localizar e indizar páginas html,
aunque actualmente Google indiza documentos en formato pdf, doc, xml.
Páginas web que no son indizadas por los motores de búsqueda: porque se
excluyen ellas mismas a través de un protocolo.
• Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la
Web:
• la Web opaca (the opaque Web),
• la Web privada (the private Web),
• la Web propietaria (the proprietary Web) y
la Web realmente invisible (the truly invisibleWeb).
6. Se compone de archivos que podrían estar incluidos en los índices de los motores de
búsqueda
Consiste en las páginas Web que podrían estar indizadas en los motores de búsqueda
Incluye aquellas páginas en las que es necesario registrarse para tener acceso al
contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web
profunda contiene información de acceso público y gratuito
Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los
buscadores,