2. Que es?
• Se conoce como Internet profunda o Internet invisible (en inglés: Deepweb,
Invisible Web, Deep Web, Dark Web o Hidden Web) a todo el contenido de
Internet que no forma parte del Internet superficial
3. Causas
• La principal causa de la existencia de la Internet profunda es la
imposibilidad de los motores de búsqueda (Google, Yahoo, Bing, etc.) de
encontrar o indexar gran parte de la información existente en Internet.
4. Los siguientes son algunos de los motivos por los que los
buscadores son incapaces de indexar la Internet profunda:
• Páginas y sitios web protegidos con contraseñas o códigos establecidos.
• Páginas que el buscador decidió no indexar: esto se da generalmente porque
la demanda para el archivo que se decidió no indexar es poca en comparación
con los archivos de texto HTML; estos archivos generalmente también son
más “difíciles” de indexar y requieren más recursos.2
• Sitios, dentro de su código, tiene archivos que le impiden al buscador
indexarlo.
• Documentos en formatos no indexables.
5. Su tamaño
• La internet profunda es un conjunto de sitios web y bases de datos que
buscadores comunes no pueden encontrar ya que no están indexadas. El
contenido que puede ser hallado dentro de la Internet profunda es muy
amplio.
6. Se divide en dos ramas
• Internet profunda
• Internet superficial
7. • En 2010 se estimó que la información que se encuentra en la Internet
profunda es de 7,500 terabytes, lo que equivale a aproximadamente 550
billones de documentos individuales. El contenido de la internet profunda es
de 400 a 550 veces mayor de lo que se puede encontrar en la Internet
superficial. En comparación, se estima que la Internet superficial contiene
solo 19 terabytes de contenido y un billón de documentos individuales.
8. • La ACM por sus siglas en inglés (Association for Computing Machinery)
publicó en 2007 que Google y Yahoo indexaban el 32 % de los objetos de la
internet profunda, y MSN tenía la cobertura más pequeña con el 11 %. Sin
embargo, la cobertura de lo tres motores era de 37 %, lo que indicaba que
estaban indexando casi los mismos objetos
9. Su denominación
• Son páginas de texto, archivos, o en ocasiones información a la cual se puede
acceder por medio de la World Wide Web que los buscadores de uso general
no pueden, debido a limitaciones o deliberadamente, agregar a sus índices de
páginas webs.
10. Rastreando la internet profunda
• Los motores de búsqueda comerciales han comenzado a explorar métodos
alternativos para rastrear la Web profunda. El Protocolo del sitio (primero
desarrollado e introducido por Google en 2005) y OAI son mecanismos que
permiten a los motores de búsqueda y otras partes interesadas descubrir
recursos de la Internet Profunda en los servidores web en particular
11. Ingresando a la red profunda
• Las Arañas (Web crawler)
• Cuando se ingresa a un buscador y se realiza una consulta, el buscador no
recorre la totalidad de Internet en busca de las posibles respuestas, si no que
busca en su propia base de datos, que ha sido generada e indizada
previamente. Se utiliza el término "Araña web" (en inglés Web crawler) o
robots (por software, comúnmente llamados "bots") inteligentes que van
haciendo búsquedas por enlaces de hipertexto de página en página,
registrando la información ahí disponible.
12. Recursos de la internet profunda
• Los recursos de la Internet Profunda pueden estar clasificados en una de las
siguientes categorías: