2. ¿Qué es?
• Se le conoce informalmente
como Internet profunda o
Internet invisible a una porción
presumible mente muy grande
de la Internet que es difícil de
rastrear o ha sido hecha casi
imposible de rastrear y
deliberadamente.
3. Deep web
Actualmente el tamaño exacto de la Deep web es desconocido,
pero se estima que puede llegar a ser hasta 500 veces mayor al
de la Internet superficial, incluso hasta se presume que con los
buscadores solo se puede acceder a un 5% del total de
Internet, lo que nos deja un inmenso margen de información
por descubrir.
Origen
La principal causa de la existencia de la Internet profunda es la
imposibilidad de los motores de búsqueda (Google, Yahoo,
Bing, etc.) de encontrar gran parte de la información existente
en Internet. Si los buscadores tuvieran la capacidad para
acceder a toda la información entonces la magnitud de la
"Internet profunda" se reduciría casi en su totalidad.
Para acceder a la Deep Web es
necesario ingresar con el enlace
directo al contenido que nos
dirigimos o mediante
herramientas especializados
para ello ya que mucho
contenido esta encriptado
4. • Contenido de Acceso limitado: los
sitios que limitan el acceso a sus
páginas de una manera técnica
(Por ejemplo, utilizando el
estándar de exclusión de robots o
captcha, que prohíben los motores
de búsqueda de la navegación por
y la creación de copias en caché.
Contenido Dinámico: Las páginas
dinámicas que devuelven respuesta a
una pregunta presentada o acceder a
través de un formulario,
especialmente si se utilizan
elementos de entrada en el dominio
abierto como campos de texto.
· Contenido No Vinculado: páginas
que no están conectadas con otras
páginas, que pueden impedir que los
programas de rastreo web tengan
acceso al contenido. Este material se
conoce como páginas sin enlaces
entrantes.
Contenido Programado:
páginas que sólo son
accesibles a través de enlaces
producidos por JavaScript, así
como el contenido descargado
de forma dinámica a partir de
los servidores web a través de
soluciones de Flash o Ajax.
· Sin contenido HTML:
contenido textual codificado
en multimedia (imagen o
video) archivos o formatos de
archivo específicos no tratados
por los motores de búsqueda.
5. Lo que
necesitas
Las arañas (Web crawler)
Cuando se ingresa a un buscador y se realiza
una consulta, el buscador no recorre la
totalidad de Internet en busca de las posibles
respuestas, si no que busca en su propia base
de datos, que ha sido generada e indizada
previamente. Se utiliza el término "Araña
web" (en inglés Web crawler) o robots (por
software, comúnmente llamados "bots")
inteligentes que van haciendo búsquedas por
enlaces de hipertexto de página en página,
registrando la información ahí disponible.
Tor
The Onion Router (abreviado como TOR)
es un proyecto diseñado e implementado
por la marina de los Estados Unidos
lanzado el 20 de septiembre de 2002,
cuyo objetivo principal es el desarrollo de
una red de comunicaciones distribuida
de baja latencia y superpuesta sobre
internet, en la que el encaminamiento de
los mensajes intercambiados entre los
usuarios no revela su identidad, es decir,
su dirección IP (anonimato a nivel de red)
y que, además, mantiene la integridad y
el secreto de la información que viaja por
ella.
Bitcoin
Mercados ilegales que están
alojados en servidores que son
exclusivos para usuarios de Tor. En
estos sitios, se pueden encontrar
drogas, armas, o incluso asesinos
a sueldo. Se utiliza la moneda
digital llamada Bitcoin, que tiene
sus orígenes en 2009, pero que se
ha vuelto todo un fenómeno
desde 2012, que se intercambia a
través de billeteras digitales entre
el usuario y el vendedor, lo que
hace que sea prácticamente
imposible de rastrear.