LECTURA DE
SOBRE LA
INTERNET
PROFUNDA O
INVISIBLE
 Se denomina 'Internet invisible' o Infranet al
conjunto de recursos accesibles únicamente a
través de algún tipo de pasarela o formulario Web
que por tanto, no pueden ser indicados de forma
estructural por los robots de los buscadores.
 Es toda la información a la cual no acceden los
buscadores comunes. Generalmente, es
información almacenada y accesible mediante
base de datos. Se llama Internet invisible al
conjunto de recursos Web a los que se consigue
acceder de manera indirecta y habitualmente
con alguna restricción, cuyo contenido
permanece vedado a la indización de los robots
de búsqueda de los buscadores.
DEFINICIÓN:
TIPOS DE INTERNET GLOBAL:
 Red de información libre y gratuita
que es accesible mediante la
interconexión de ordenadores. La
forma de acceso se realiza
mediante programas
navegadores, Chats, mensajería o
intercambio de protocolos (FTP,
P2P). Internet invisible: Información
que está disponible en Internet
pero que únicamente es accesible
a través de páginas generadas
dinámicamente tras realizar una
consulta en una base de datos.
 Es inaccesible mediante los
procesos habituales de
recuperación de la información
que realizan buscadores,
directorios y agentes de
búsqueda. Los servidores o host
que son totalmente inaccesibles
desde nuestro ordenador.
TIPOS DE INFORMACIÓN:
 Bases de datos: los
buscadores sólo
proporcionan acceso a la
página de inicio porque las
restantes son dinámicas.
Documentos en formato
pdf, word: los motores de
búsquedas fueron creados
sólo para localizar e indizar
páginas html, aunque
actualmente Google indiza
documentos en formato
pdf, doc, xml. Páginas web
que no son indizadas por los
motores de búsqueda:
porque se excluyen ellas
mismas a través de un
protocolo.
CLASIFICACIÒN DE INTERNET
INVISIBLE:
 Sherman y Price (2001) identifican cuatro
tipos de contenidos invisibles en la Web:
 la Web opaca (the opaque Web),
 la Web privada (the private Web),
 la Web propietaria (the proprietary Web)
y la Web realmente invisible (the truly
invisibleWeb).
WEB OPACA
 Se compone de archivos que
podrían estar incluidos en los
índices de los motores de
búsqueda, pero no lo están
por alguna de estas razones:
 Extensión de la indización: por
economía, no todas las
páginas de un sitio son
indizadas en los buscadores.
 Frecuencia de la indización:
los motores de búsqueda no
tienen la capacidad de indizar
todas las páginas existentes;
diariamente se añaden,
modifican o desaparecen
muchas y la indización no se
realiza al mismo ritmo.
WEB PRIVADA
 Consiste en las páginas Web
que podrían estar indizadas
en los motores de búsqueda
pero son excluidas
deliberadamente por
alguna de estas causas:
 Las páginas están protegidas
por contraseñas (passwords).
 Contienen un archivo
“robots.txt” para evitar ser
indizadas.
 Contienen un campo
“noindex” para evitar que el
buscador índice la parte
correspondiente al cuerpo
de la página.
WEB PROPIETARIA
Incluye aquellas páginas en las que es
necesario registrarse para tener acceso al
contenido, ya sea de forma gratuita o
pagada. Se dice que al menos 95% de la
Web profunda contiene información de
acceso público y gratuito (Turner, 2003)
WEB REALMENTE INVISIBLE
 Se compone de páginas que no pueden ser
indizadas por limitaciones técnicas de los
buscadores, como las siguientes:
 Páginas Web que incluyen formatos como PDF,
PostScript, Flash, Shockwave, programas
ejecutables y archivos comprimidos.
 Páginas generadas dinámicamente, es decir, que
se generan a partir de datos que introduce el
usuario. Información almacenada en bases de
datos relacionales, que no puede ser extraída a
menos que se realice una petición específica.
Otra dificultad consiste en la variable estructura y
diseño de las bases de datos, así como en los
diferentes procedimientos de búsqueda.
METABUSCADORES
Un metabuscador es
una clase de buscador
que carece de base de
datos propia y, en su
lugar, usa las de otros
buscadores y muestra
una combinación de
las mejores páginas
que ha devuelto cada
buscador. EJEMPLO:
IXQUICK MAMMA
VIVISIMO GLUSTY
Internet profunda o invisible

Internet profunda o invisible

  • 1.
  • 2.
     Se denomina'Internet invisible' o Infranet al conjunto de recursos accesibles únicamente a través de algún tipo de pasarela o formulario Web que por tanto, no pueden ser indicados de forma estructural por los robots de los buscadores.  Es toda la información a la cual no acceden los buscadores comunes. Generalmente, es información almacenada y accesible mediante base de datos. Se llama Internet invisible al conjunto de recursos Web a los que se consigue acceder de manera indirecta y habitualmente con alguna restricción, cuyo contenido permanece vedado a la indización de los robots de búsqueda de los buscadores. DEFINICIÓN:
  • 3.
    TIPOS DE INTERNETGLOBAL:  Red de información libre y gratuita que es accesible mediante la interconexión de ordenadores. La forma de acceso se realiza mediante programas navegadores, Chats, mensajería o intercambio de protocolos (FTP, P2P). Internet invisible: Información que está disponible en Internet pero que únicamente es accesible a través de páginas generadas dinámicamente tras realizar una consulta en una base de datos.  Es inaccesible mediante los procesos habituales de recuperación de la información que realizan buscadores, directorios y agentes de búsqueda. Los servidores o host que son totalmente inaccesibles desde nuestro ordenador.
  • 4.
    TIPOS DE INFORMACIÓN: Bases de datos: los buscadores sólo proporcionan acceso a la página de inicio porque las restantes son dinámicas. Documentos en formato pdf, word: los motores de búsquedas fueron creados sólo para localizar e indizar páginas html, aunque actualmente Google indiza documentos en formato pdf, doc, xml. Páginas web que no son indizadas por los motores de búsqueda: porque se excluyen ellas mismas a través de un protocolo.
  • 5.
    CLASIFICACIÒN DE INTERNET INVISIBLE: Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web:  la Web opaca (the opaque Web),  la Web privada (the private Web),  la Web propietaria (the proprietary Web) y la Web realmente invisible (the truly invisibleWeb).
  • 6.
    WEB OPACA  Secompone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna de estas razones:  Extensión de la indización: por economía, no todas las páginas de un sitio son indizadas en los buscadores.  Frecuencia de la indización: los motores de búsqueda no tienen la capacidad de indizar todas las páginas existentes; diariamente se añaden, modifican o desaparecen muchas y la indización no se realiza al mismo ritmo.
  • 7.
    WEB PRIVADA  Consisteen las páginas Web que podrían estar indizadas en los motores de búsqueda pero son excluidas deliberadamente por alguna de estas causas:  Las páginas están protegidas por contraseñas (passwords).  Contienen un archivo “robots.txt” para evitar ser indizadas.  Contienen un campo “noindex” para evitar que el buscador índice la parte correspondiente al cuerpo de la página.
  • 8.
    WEB PROPIETARIA Incluye aquellaspáginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o pagada. Se dice que al menos 95% de la Web profunda contiene información de acceso público y gratuito (Turner, 2003)
  • 9.
    WEB REALMENTE INVISIBLE Se compone de páginas que no pueden ser indizadas por limitaciones técnicas de los buscadores, como las siguientes:  Páginas Web que incluyen formatos como PDF, PostScript, Flash, Shockwave, programas ejecutables y archivos comprimidos.  Páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario. Información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica. Otra dificultad consiste en la variable estructura y diseño de las bases de datos, así como en los diferentes procedimientos de búsqueda.
  • 10.
    METABUSCADORES Un metabuscador es unaclase de buscador que carece de base de datos propia y, en su lugar, usa las de otros buscadores y muestra una combinación de las mejores páginas que ha devuelto cada buscador. EJEMPLO: IXQUICK MAMMA VIVISIMO GLUSTY