1. Se conoce como Internet profunda o Internet invisible (en inglés: Deepweb,
Invisible Web, Deep Web, Dark Web o Hidden Web) a todo el contenido de Internet
que no forma parte del Internet superficial, es decir, de las páginas indexadas
por las redes de los motores de búsqueda de la red. Esto se debe a las
limitaciones que tienen las redes para acceder a todos los sitios web por
distintos motivos. La mayor parte de la información encontrada en la Internet
Profunda está enterrada en sitios generados dinámicamente y para los motores de
búsqueda tradicionales es difícil hallarla. Fiscales y Agencias Gubernamentales
han calificado a la Internet Profunda como un refugio para la delincuencia
debido al contenido ilícito que se encuentra en ella.1
Índice
1 Causas
2 Tamaño
3 Denominación
4 Rastreando la Internet profunda
5 Ingresando a la red profunda
5.1 Las Arañas
5.2 Tor
5.3 Bitcoin
6 Recursos de la internet profunda
7 Referencias
8 Véase También
9 Enlaces externos
Causas[editar]
La principal causa de la existencia de la Internet profunda es la imposibilidad
de los motores de búsqueda (Google,Yahoo, Bing, etc.) de encontrar o indexar
gran parte de la información existente en Internet. Si los buscadores tuvieran
la capacidad para acceder a toda la información entonces la magnitud de la
"Internet profunda" se reduciría casi en su totalidad. No obstante, aunque los
motores de búsqueda pudieran indexar la información de la Internet Profunda esto
no significaría que ésta dejará de existir, ya que siempre existirán las páginas
privadas. Los motores de búsqueda no pueden acceder a la información de estas
páginas y sólo determinados usuarios, aquellos con contraseña o códigos
especiales, pueden hacerlo. Los siguientes son algunos de los motivos por los
que los buscadores son incapaces de indexar la Internet profunda:
Páginas y sitios web protegidos con contraseñas o códigos establecidos.
Páginas que el buscador decidió no indexar: esto se da generalmente porque la
demanda para el archivo que se decidió no indexar es poca en comparación con los
archivos de texto HTML; estos archivos generalmente también son más “difíciles“
de indexar y requieren más recursos.2
Sitios, dentro de su código, tiene archivos que le impiden al buscador
indexarlo.
Documentos en formatos no indexables.
De acuerdo a la tecnología usada por el sitio, por ejemplo los sitios que usan
bases de datos. Para estos casos los buscadores pueden llegar a la interfaz
creada para acceder a dichas bases de datos, como por ejemplo catalogo de
librerías o agencias de gobierno.2
Enciclopedias, diccionarios, revistas en las que para acceder a la información
hay que interrogar a la base de datos, como por ejemplo la base de datos de la
RAE.3
Sitios que tienen una mezcla de media o archivos que no son fáciles de
clasificar como visible o invisible (Web opaca).
La información es efímera o no suficientemente valiosa para indexar. Es posible
indexar está información pero como cambia con mucha frecuencia y su valor es de
tiempo limitado no hay motivo para indexarla.2
Páginas que contienen mayormente imágenes, audio o video con poco o nada de
texto.
Los archivos en formatos PostScript, Flash, Shockwave, ejecutables (.exe),
archivos comprimidos (.zip, .tar, etc)
Información creada en páginas dinámicas después de llenar un formulario, la
información detrás de los formularios es invisible.
Documentos dinámicos, son creados por un script que selecciona datos de diversas
2. opciones para generar una página personalizada. Este tipo de documentos, aunque
sí se pueden indexar, no están en los motores de búsqueda porque en ocasiones
puede haber varias páginas iguales, pero con pequeños cambios, y las arañas web
quedan atrapadas en ellos.2
Es un sitio aislado, es decir, no hay ligas que lo vinculen con otros sitios y
viceversa.4
Son subdirectorios o bases de datos restringidas.
Tamaño[editar]
La Internet profunda (Deep Web) es un conjunto de sitios web y bases de datos
que buscadores comunes no pueden encontrar ya que no están indexadas. El
contenido que puede ser hallado dentro de la Internet profunda es muy amplio.5
Se estima que la Internet Profunda es 500 veces mayor6 que la Internet
Superficial, siendo el 95% de esta información públicamente accesible.
El internet se ve divido en dos ramas, La internet profunda y la superficial. El
Internet superficial se compone de páginas estáticas o fijas , mientras que Web
profunda está compuesta de páginas dinámicas. La páginas estáticas no dependen
de una base de datos para desplegar su contenido si no que residen en un
servidor en espera de ser recuperadas, y son básicamente archivos HTML cuyo
contenido nunca cambia . Todos los cambios se realizan directamente en el código
y la nueva versión de la página se carga en el servidor. Estas páginas son menos
flexibles que las páginas dinámicas . Las páginas dinámicas se crean como
resultado de una búsqueda de base de datos. El contenido se coloca en una base
de datos y se proporciona sólo cuando lo solicite el usuario.7
Se estima que la información que se encuentra en la Internet profunda es de
7,500 terabytes, lo que equivale a aproximadamente 550 billones de documentos
individuales. El contenido de la internet profunda es de 400 a 550 veces mayor
de lo que se puede encontrar en la Internet superficial. En comparación, se
estima que la Internet superficial contiene solo19 terabytes de contenido y un
billón de documentos individuales. En 2010 existían más de 200,000 sitios en la
internet profunda.8
La ACM por sus siglas en inglés (Association for Computing Machinery) publicó en
2007 que Google y Yahoo indexaban el 32 % de los objetos de la internet profunda
, y MSN tenía la cobertura más pequeña con el 11 % . Sin embargo, la cobertura
de lo tres motores era de 37 % , lo que indicaba que estaban indexando casi los
mismos objetos.9 Se prevé que alrededor del 95% del internet es internet
profunda, también le llaman invisible u oculta, la información que alberga no
siempre está disponible para su uso. Por ello se han desarrollado herramientas
como buscadores especializados para acceder a ella.4
Denominación
Son páginas de texto, archivos, o en ocasiones información a la cual se puede
acceder por medio de la World Wide Web que los buscadores de uso general no
pueden, debido a limitaciones o deliberadamente, agregar a sus indices de
páginas webs. La Web profunda se refiere a la colección de sitios o bases de
datos que un buscador común, como Google, no puede o quiere indexar. Es un lugar
especifico del Internet que se distingue por el anonimato. Nada que se haga en
esta zona puede ser asociado con la identidad de uno, a menos que uno lo
deseé.10
Logo de Freenet.
Bergman, en un artículo semanal sobre la Web profunda publicado en el Journal of
Electronic Publishing, mencionó que Jill Ellsworth utilizó el término "la Web
invisible" en 1994 para referirse a los sitios web que no están registrados por
algún motor de búsqueda.11
Bergman citó un artículo de 1996 de Frank García:12
Sería un sitio que, posiblemente esté diseñado razonablemente, pero no se
molestaron en registrarlo en alguno de los motores de búsqueda. ¡Por lo tanto,
3. nadie puede encontrarlos! Estás oculto. Yo llamo a esto la Web invisible.
Otro uso temprano del término Web Invisible o web profunda fue por Bruce Monte y
Mateo B. Koll de Personal Library Software, en una descripción de la herramienta
@ 1 de web profunda, en un comunicado de prensa de diciembre de 1996.13
La importancia potencial de las bases de datos de búsqueda también se reflejó en
el primer sitio de búsqueda dedicado a ellos , el motor AT1 que se anunció con
bombos y platillos a principios de 1997. Sin embargo, PLS, propietario de AT1,
fue adquirida por AOL en 1998, y poco después el servicio AT1 fue abandonado.11
El primer uso del término específico de web profunda, ahora generalmente
aceptada, ocurrió en el estudio de Bergman de 2001 mencionado anteriormente.
Por otra parte, el término web invisible se dice que es inexacto porque:
Muchos usuarios asumen que la única forma de acceder a la web es consultando un
buscador.
Alguna información puede ser encontrada más fácilmente que otra, pero ésto no
quiere decir que esté invisible.
La web contiene información de diversos tipos que es almacenada y recuperada en
diferentes formas.
El contenido indexado por los buscadores de la web es almacenado también en
bases de datos y disponible solamente a través de las interrogaciones del
usuario, por tanto no es correcto decir que la información almacenada en bases
de datos es invisible.14
Rastreando la Internet profunda[editar]
Los motores de búsqueda comerciales han comenzado a explorar métodos
alternativos para rastrear la Web profunda. El Protocolo del sitio (primero
desarrollado e introducido por Google en 2005) y OAI son mecanismos que permiten
a los motores de búsqueda y otras partes interesadas descubrir recursos de la
Internet Profunda en los servidores web en particular. Ambos mecanismos permiten
que los servidores web anuncien las direcciones URL que se puede acceder a
ellos, lo que permite la detección automática de los recursos que no están
directamente vinculados a la Web de la superficie.El sistema de búsqueda de la
Web profunda de Google pre-calcula las entregas de cada formulario HTML y agrega
a las páginas HTML resultantes en el índice del motor de búsqueda de Google. Los
resultados surgidos arrojaron mil consultas por segundo al contenido de la Web
profunda15 . Este sistema se realiza utilizando tres algoritmos claves:
La selección de valores de entrada, para que las entradas de búsqueda de texto
acepten palabras clave.
La identificación de los insumos que aceptan sólo valores especificos (por
ejemplo, fecha).
La selección de un pequeño número de combinaciones de entrada que generan URLs
adecuadas para su inclusión en el índice de búsqueda Web.
Ingresando a la red profunda[editar]
Las Arañas[editar]
Cuando se ingresa a un buscador y se realiza una consulta, el buscador no
recorre la totalidad de Internet en busca de las posibles respuestas, si no que
busca en su propia base de datos, que ha sido generada e indizada previamente.
Se utiliza el término "Araña web" o robots inteligentes que van haciendo
búsquedas por enlaces de hipertexto de página en página, registrando la
información allí disponible.16
El contenido que existe dentro de la Internet profunda es en muy raras ocasiones
mostrado como resultado en los motores de búsqueda, ya que las “arañas“ no
rastrean bases de datos ni los extraen. Las arañas no pueden tener acceso a
páginas protegidas con contraseñas, algunos desarrolladores que o desean que sus
páginas sean encontradas insertan etiquetas especiales en el código para evitar
que sea indexada. Las “arañas“ son incapaces de mostrar páginas que no estén
creadas en lenguaje HTML, ni tampoco puede leer enlaces que incluyen un signo de
interrogación. Pero ahora sitios web no creados con HTML o con signos de
interrogación están siendo indexados por algunos motores de búsqueda. Sin
4. embargo, se calcula que aún con estos buscadores más avanzados sólo se logra
alcanzar el 16% de la información disponible en la Internet profunda. Existen
diferente técnicas de búsqueda para extraer contenido de la internet profunda
como librerías de bases de datos o simplemente conocer el URL al que quieres
acceder y escribirlo manualmente.17
Tor
Logo de tor
A pesar de que son muchos los servicios y programas para acceder a la web
profunda, el software más popular es Tor (The Onion Router), pero existen otras
alternativas como I2P y Freenet.9
TOR es un proyecto diseñado e implementado por la marina de los Estados Unidos,
posteriormente fue patrocinado por la EFF (Electronic Frontier Foundation, una
organización en defensa de los derechos digitales). Actualmente subsiste como
TOR Project, una organización sin ánimo de lucro galardonada en 2011 por la Free
Software Foundation por permitir que millones de personas en el mundo tengan
libertad de acceso y expresión en Internet manteniendo su privacidad y
anonimato.4
A diferencia de los navegadores de Internet convencionales, Tor le permite a los
usuarios navegar por la Web de forma anónima. Tor es descargado de 30 millones a
50 millones de veces al año, hay 800,000 usuarios diarios de Tor y un incremento
del de 20 % en el 2013, Tor puede acceder a 6,500 sitios web ocultos.18
Cuando se ejecuta el software de Tor, para acceder a la Internet profunda, los
datos de la computadora se cifran en capas. El software envía los datos a través
de una red de enlaces a otros equipos y lo va retransmitiendo quitando una capa
antes de retransmitirlo de nuevo, esta trayectoria cambia con frecuencia. Tor
cuenta con más de 4.000 retransmiciones. Los datos cifrados pasan a través de
tres de ellos. Una vez que la última capa de cifrado es despojado , se conecta a
la página web que desea visitar. El contenido que puede ser encontrado dentro de
la internet profunda es muy basto, se encuentran por ejemplo, datos que se
generan en tiempo real, como pueden ser valores de Bolsa, información del
tiempo, horarios de trenes; bases de datos sobre agencias de inteligencia,
desidentes políticos, y temas ilegales.19
Bitcoin
Logo de Bitcoin
Mercados ilegales están alojados en servidores que son exclusivos para usuarios
de Tor. En estos sitios ,se pueden encontrar drogas, armas, o incluso asesinos a
sueldo. Se utiliza la moneda digital llamada Bitcoin, que tiene sus orígenes en
2009, pero que se ha vuelto todo un fenómeno desde 2012,4 que se intercambia a
través de billeteras digitales entre el usuario y el vendedor , lo que hace que
sea prácticamente imposible de rastrear.20
Existen muchos mitos acerca de la internet profunda, la deep web no es una
región prohibida y mística del Internet, ni que la tecnología relacionada es
malévola. Ya que en ella también se alberga lo ahora conocido como (AIW), por
sus siglas en inglés, “the Academic Invisible Web“ La web académica invisible y
se refiere a todas las bases de datos que contienen avances tecnológicos,
publicaciones científicas, y material académico en general.21