2. CLASE II
“INVESTIGACIÓN EN INTERNET:
WWW Visible, Invisible y Semántica”.
CREATIVE COMMONS RECONOCIMIENTO-NOCOMERCIAL-
COMPARTIRIGUAL 3.0 UNPORTED LICENSE
3. DEFINICIÓN Y CARACTERÍSTICAS
•Es la porción de la Web que es vista y consecuentemente
indexada por los buscadores comunes.
•Está compuesta por un conjunto de páginas estáticas
públicamente accesibles.
•Constituye una porción relativamente muy pequeña de toda la
Web (un 17% aproximadamente).
•La información que se recupera debe ser cuidadosamente
evaluada y validada.
LA WWW VISIBLE O SUPERFICIAL
4. Fuente: How much information? (2003)
http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/internet.htm
PORCIÓN VISIBLE DE LA WWW
5. DEFINICIÓN:
Se define como la “porción de la Web que no puede ser
indexada por los buscadores comunes”.
Contiene la mejor calidad de información, pero también la más
peligrosa, por lo que suele denominarse también “Web Oscura”
WWW INVISIBLE O PROFUNDA
~17%
~83%
7. WEB OPACA
Se compone de contenidos que no son indexados por un
buscador por cuestiones de economía.
Solo 2 páginas
de Flickr
WEB INVISIBLE O PROFUNDA
8. WEB OPACA
Solo algunos de sus resultados son devueltos por un
buscador por cuestiones de economía.
Solo muestra 100 resultados
WEB INVISIBLE O PROFUNDA
9. WEB OPACA
Se compone de contenidos que pueden no aparecer hasta
después de una actualización del rastreo de los buscadores
(frecuencia de indización).
Último rastreo: 30/07
Próximo rastreo: 30/08
Las páginas
creadas del
31/07 al
29/08 no
aparecerán
como parte
de los
resultados!
WEB INVISIBLE O PROFUNDA
10. WEB OPACA
Se compone de contenidos que pueden no aparecer porque tienen un
número bajo de Page Rank que el buscador no considera a la hora de
mostrar los resultados.
Solo se
muestran las
páginas con
mayor Page
Rank
WEB INVISIBLE O PROFUNDA
11. WEB OPACA
Las páginas con bajo Page Rank tienen poco o nulo linkeo por medio de
otras páginas, entonces sus direcciones URL se encuentran “poco
conectadas” o directamente “desconectadas”
Quedan
entonces
fuera del
rastreo!!!
WEB INVISIBLE O PROFUNDA
13. WEB PRIVADA
Las páginas contienen un archivo “robots.txt” que evita que
sean indexadas, o también…
Archivo:
“robots.txt”
WEB INVISIBLE O PROFUNDA
14. WEB PRIVADA
…o también las páginas contienen un campo “noindex” que evita que el
buscador indice la parte correspondiente al cuerpo de la página.
Campo:
“noindex”
WEB INVISIBLE O PROFUNDA
16. WEB REALMENTE INVISIBLE
Incluye archivos de la Web en diversos formatos: .pdf, .js, .ppt,
etc.
Muchos buscadores han evolucionado y nos permiten encontrar
gran diversidad de tipos de archivos…
.PDF
.JS
.JS
.RAR
.ZIP…
WEB INVISIBLE O PROFUNDA
17. WEB REALMENTE INVISIBLE
incluye páginas que se generan dinámicamente, esto es, en
tiempo de ejecución (por ej. al realizar una consulta en una
base de datos).
Página dinámica
Página estática
WEB INVISIBLE O PROFUNDA
18. WEB REALMENTE INVISIBLE
Incluye páginas que se generan en tiempo real (por ej. la
transmisión en vivo y en directo de un partido).
WEB INVISIBLE O PROFUNDA
Página generada en tiempo real
19. ¿CÓMO ACCEDEMOS A ELLA?
A través de buscadores especializados en bases de
datos que trabajan generalmente a través de
directorios y motores de búsqueda
WEB INVISIBLE O PROFUNDA
20. DIRECTORIO/ MOTOR DE BÚSQUEDA ESPECIALIZADO
COMUNICACIÓN INVISIBLE (http://www.comunicacioninvisible.net/ci/)
BUSCADORES WEB INVISIBLE
Contiene
Bases de
datos de
estudios
fílmicos…
21. BUSCADORES WEB INVISIBLE
Para buscar se
utiliza la
Búsqueda
Avanzada, o
bien, por
Categorías…
COMUNICACIÓN INVISIBLE.NET
22. BUSCADORES WEB INVISIBLE
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Palabra Clave
Las búsquedas en este caso
requieren clarificar la información
que deseamos buscar…
doblaje
Argentina
23. BUSCADORES WEB INVISIBLE
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Palabra Clave En caso de no encontrar
resultados podemos efectuar
Búsquedas por categorías…
24. BUSCADORES WEB INVISIBLE
Para buscar se
selecciona una
categoría…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
25. Y luego la sub
categoría donde
podía encontrarse
la información…
BUSCADORES WEB INVISIBLE
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
26. A partir de allí aparecen diversas
bases de datos donde consultar…
BUSCADORES WEB INVISIBLE
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
27. El acceso a cada
una de ellas
constituye un
proceso que
puede llevar
mucho tiempo ya
sea que
busquemos por
palabra clave o
categorías…
BUSCADORES WEB INVISIBLE
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
28. Los directorios conducen a nuevos
sitios con más información cuya
exploración demanda tiempo…
BUSCADORES WEB INVISIBLE
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
29. DIRECTORIO/ MOTOR DE BÚSQUEDA GENERAL
SCIELO (http://www.scielo.org/php/index.php?lang=es)
BUSCADORES WEB INVISIBLE
Contiene
Bases de
datos de
revistas
científicas…
34. MOTOR DE BÚSQUEDA GENERALISTA
WAYBACK MACHINE (http://archive.org/web/web.php)
BUSCADORES WEB INVISIBLE
Permite el acceso a
versiones de sitios
web que pueden o
no estar en línea…
35. BUSCADORES WEB INVISIBLE
Para buscar se
coloca la
dirección web del
sitio y luego se
selecciona el
año, mes y día
que se desea
visualizar
(siempre que
esté disponible)
…
WAYBACK
MACHINE
37. ¿CÓMO TRABAJAN LOS BUSCADORES PROFUNDOS?
•Se utilizan para buscar información profunda en torno a una temática.
•Poseen una base de datos propia (elaborada por personas o robots)
compuesta por sitios web confiables.
•Los resultados pueden estar desactualizados pero son confiables.
•Poseen opciones de búsqueda por categorías o palabra clave. En este
último caso permiten especificar: título, autor, descripción, contenido y
palabras clave, entre otros.
•Permiten la configuración de las bases de datos donde buscar,
la tipología de archivos y el lugar y cantidad de resultados
que devuelven.
BUSCADORES WEB INVISIBLE
38. WWW SEMÁNTICA
“Es una extensión de la Web existente que permite la realización de
búsquedas más inteligentes a través de buscadores inteligentes”.
Se encuentra en desarrollo, requiere de una reestructuración de la
Web para funcionar de manera potente y se proyectan muchos
años para que pueda funcionar en su totalidad…
39. PROPÓSITO
Su objetivo es mejorar las búsquedas, de forma tal que las máquinas no
solo sean capaces de utilizar la información, sino también interpretarla…
WWW SEMÁNTICA
“Quiero viajar a Lima, Perú, y sólo
quiero gastar 3000 dólares”
40. Ejemplos:
OWL: “Pintor”, “Pintura”, “Escuela”, “Lugar”
RDF:
Información de Pintura: soporte, técnica, proceso, tema, etc.
Relación entre “Pintor” y “Pintura”: “Un pintor es el autor de una
o más pinturas...”
SPARQL: “Pinturas al óleo de Van Gogh”
ELEMENTOS PARA SU REALIZACIÓN:
WWW SEMÁNTICA
•OWL: conceptos u ontologías que puedan ser utilizadas por usuarios, sistemas y
bases de datos.
•RDF: o información descriptiva sobre los conceptos y ontologías y cómo se
encuentran relacionados.
•SPARQL: o lenguaje de consulta sobre las ontologías y su descripción que permita
hacer búsquedas sobre los recursos de la Web
41. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Permite la búsqueda por conceptos y devuelve la información asociada al
mismo.
42. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Búsqueda por
conceptos
43. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Búsqueda por
conceptos
44. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Búsqueda operador versus (permite hacer comparaciones entre conceptos)
45. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Búsqueda operador versus (permite hacer comparaciones entre conceptos)
46. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Otras búsquedas inteligentes…
47. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Otras búsquedas inteligentes…
48. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Otras búsquedas inteligentes…
49. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Otras búsquedas inteligentes…
50. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Otras búsquedas inteligentes…
51. BUSCADORES DE LA WEB SEMÁNTICA
WOLFRAM ALFA
Desde la sección Ejemplos se ofrece diversas formas de buscar…
52. FIN DE PRESENTACIÓN
Gracias por su atención…
Elaborado por Prof. Viviana M. Ponce
vmponce@unsl.edu.ar
Fac. de Cs. Humanas- UNSL