2. Concepto
• Se conoce informalmente como internet profunda o internet invisible a una
porción presumiblemente muy grande de la internet que es difícil de rastrear
o ha sido hecha casi imposible de rastrear y deliberadamente, como lo es el
caso del Proyecto Tor, el cual fue creado de esta manera por medio de
métodos poco convencionales, como con la proxyficación con muchos
proxys, el no utilizar direcciones de internet, sino códigos, y el
pseudodominio de nivel superior .onion, el cual fue creado por la Armada de
los Estados Unidos como una prueba y ahora es aprovechada por
delincuentes cibernéticos.
4. Origen
• La principal causa de la existencia de la internet profunda es la imposibilidad de
los motores de búsqueda (Google, Yahoo, Bing, etc.) de encontrar o indexar
gran parte de la información existente en internet. Si los buscadores tuvieran la
capacidad para acceder a toda la información entonces la magnitud de la
«internet profunda» se reduciría casi en su totalidad. No obstante, aunque los
motores de búsqueda pudieran indexar la información de la internet profunda
esto no significaría que esta dejará de existir, ya que siempre existirán las páginas
privadas. Los motores de búsqueda no pueden acceder a la información de estas
páginas y solo determinados usuarios, aquellos con contraseña o códigos
especiales, pueden hacerlo.
5. Tamaño
• Se estima que la internet profunda es 500 veces mayor7 que la internet superficial,
siendo el 95 % de esta información públicamente accesible.
• El internet se ve dividido en dos ramas, La internet profunda y la superficial.
La internet superficial se compone de páginas estáticas o fijas, mientras que la
web profunda está compuesta de páginas dinámicas.
• En 2010 se estimó que la información que se encuentra en la internet profunda
es de 7500 terabytes, lo que equivale a aproximadamente 550 billones de
documentos individuales.
6. Métodos de profundización
• Las arañas (Web crawler)
Cuando se ingresa a un buscador y se realiza una consulta, el buscador
no recorre la totalidad de internet en busca de las posibles respuestas,
sino que busca en su propia base de datos, que ha sido generada e
indizada previamente. Se utiliza el término «araña web» (en inglés web
crawler) o robots (por software, comúnmente llamados "bots")
inteligentes que van haciendo búsquedas por enlaces de hipertexto de
página en página, registrando la información ahí disponible
7. • Tor
The Onion Router (abreviado como TOR) es un proyecto diseñado e
implementado por la marina de los Estados Unidos lanzado el 20 de
septiembre de 2002. Posteriormente fue patrocinado por la EFF (Electronic
Frontier Foundation, una organización en defensa de los derechos digitales).
Actualmente subsiste como TOR Project, una organización sin ánimo de lucro
galardonada en 2011 por la Free Software Foundation por permitir que
millones de personas en el mundo tengan libertad de acceso y expresión en
internet manteniendo su privacidad y anonimato
8. • Bitcoin
Mercados ilegales están alojados en servidores que son exclusivos para usuarios
de Tor. En estos sitios, se pueden encontrar drogas, armas, o incluso asesinos a
sueldo. Se utiliza la moneda digital llamada Bitcoin, que tiene sus orígenes en
2009, pero que se ha vuelto todo un fenómeno desde 2012,5 que se intercambia
a través de billeteras digitales entre el usuario y el vendedor, lo que hace que sea
prácticamente imposible de rastrear
9. Recursos de la internet profunda
• Los recursos de la internet profunda pueden estar clasificados en las
siguientes categorías:
contenido de acceso limitado: los sitios que limitan el acceso a sus páginas
de una manera técnica (Por ejemplo, utilizando el estándar de exclusión de
robots o captcha, que prohíben los motores de búsqueda de la navegación
por y la creación de copias en caché.
10. contenido dinámico: las páginas dinámicas que devuelven respuesta a una
pregunta presentada o acceder a través de un formulario, especialmente si se
utilizan elementos de entrada en el dominio abierto como campos de texto.
contenido no enlazado: páginas que no están conectadas con otras
páginas, que pueden impedir que los programas de rastreo web tengan
acceso al contenido. Este material se conoce como páginas sin enlaces
entrantes.
web privada: los sitios que requieren de registro y de una contraseña para
iniciar sesión.
web contextual: páginas con contenidos diferentes para diferentes
contextos de acceso (por ejemplo, los rangos de direcciones IP de clientes o
secuencia de navegación anterior).