CLASE II
Investigación en Internet. Búsquedas
de información en la Web Invisible y
Semántica
CREATIVE COMMONS RECONOCIMIENTO-NOCOMERCIAL-COMPARTIRIGUAL
3.0 UNPORTED LICENSE
Las WWW’s…
En la clase anterior se introdujo el concepto de WWW y se
dio su clasificación (Visible, Invisible y Semántica).
Comenzando con la WEB VISIBLE , se presentaron
especialmente dos tipologías de buscadores existentes en
esta Web, a través de los cuales es posible acceder a páginas
estáticas:
1) por directorio o categorías
2) por palabra clave
En esta clase continuamos con las búsquedas de
información centrándonos en la Web Invisible, analizando el
desarrollo de la Web Semántica y finalizando con una
reflexión respecto del proceso de búsqueda en estas Webs.
Se define como la “porción de la Web que no puede ser
indexada por los buscadores comunes”. Se compone del
95% de la información existente en la WWW, contra el 5%
de la Web Visible…
Web Invisible o Profunda…
5%
95%
En los primeros
niveles de las
aguas profundas
se encuentra la
mejor
información,
utilizable a nivel
profesional y
académico.
La WEB INVISIBLE contiene información
que no puede ni debe ser visibilizada por
un buscador común, y en consecuencia no
puede ser indizada por esta herramienta.
Esta información está contenida en
diferentes Webs, entre las que podemos
mencionar:
•La Web Opaca
•La Web Privada
•La Web Propietaria y
•La Web Realmente
Invisible…
En este primer ejemplo, Google
devuelve solo dos resultados
del sitio web: Flickr…
Web Invisible o Profunda…
1
no son indexados por un buscador
por cuestiones de economía.
WEB OPACA Se compone de contenidos que
En este segundo ejemplo, Google solo deja acceder a 100 de sus resultados…
Solo muestra 100 resultados
aunque señala disponer de
más de 2 millones…
Último rastreo: 30/07
Próximo rastreo: 30/08
Las páginas
creadas del
31/07 al 29/08
no aparecerán
como parte de
los resultados…
2 contenidos que no son indexados dada la
frecuencia de indización del buscador…
Estas imágenes intentan señalar que todos los sitios web creados
después del 30/07 y antes del 30/8 no aparecerán como resultados
de una búsqueda, hasta que se produzca un nuevo rastreo, una
nueva actualización por parte del buscador…
Solo se muestran las páginas
con mayor Page Rank…
3
contenidos con bajo número de Page Rank,
lo que hace que el buscador no lo muestre como
parte de sus resultados
Existen muchas razones por las que una página puede tener un bajo
posicionamiento en las búsquedas: pocas visitas, poca cantidad de enlaces,
poca autoridad de quienes escriben en el sitio, etc. Esto ocasiona entonces
que las páginas queden fuera del rastreo: “poco conectadas” o directamente
“desconectadas”…
Quedan
entonces
fuera del
rastreo!!!
Web Invisible o Profunda…
1 páginas protegidas por contraseñas
WEB PRIVADA Contiene información confidencial, jamás
accesible para el buscador. Se compone de
Existen archivos especiales o campos específicos
asociados/dentro de una página web que explicitan que la
página no sea indexada…
Archivo:
“robots.txt”
Campo:
“noindex”
2 páginas que expresamente piden no ser indexadas
Web Invisible o Profunda…
WEB PROPIETARIA Contiene páginas en las que es necesario
registrarse para acceder al contenido…
Afortunadamente, muchos buscadores han evolucionado y
permiten encontrar diversidad de tipos de archivos…
.PDF
.JS
.RAR
.ZIP…
Web Invisible o Profunda…
a
WEB REALMENTE INVISIBLE incluye
archivos de la Web en diversos formatos: .pdf, .js, .ppt, etc.
Página dinámica
Página estática
b
páginas que se generan dinámicamente, esto es,
en tiempo de ejecución (por ej. al realizar una consulta en
una base de datos).
Página generada en tiempo real
c
páginas que se generan en tiempo real
(por ej. ante la transmisión en vivo y en directo
de un partido).
A través de buscadores
especializados en bases
de datos que trabajan
generalmente con las
tipologías: directorio y
motor de búsqueda.
Web Invisible o Profunda…
¿CÓMO
ACCEDEMOS
A ELLA?
Cajas de
búsqueda
Opciones
de
restricción
de
resultados
Más opciones de
restricción de
resultados
BUSCADORES
Web Invisible o Profunda…
GOOGLE (en su clasificación general/avanzada)1
DIRECTORIO/ MOTOR DE BÚSQUEDA ESPECIALIZADO COMUNICACIÓN INVISIBLE
(http://www.comunicacioninvisible.net/ci/)
Es una base
de Bases de
datos de
estudios
fílmicos…
2
BUSCADORES
Web Invisible o Profunda…
Para buscar se
utiliza la
Búsqueda
Avanzada, o
bien, por
Categorías…
COMUNICACIÓN INVISIBLE.NET
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Palabra Clave
Las búsquedas requieren clarificar y
comprender cada operador de
búsqueda…
doblaje
Argentina
En caso de no
encontrar
resultados
podemos efectuar
Búsquedas por
categorías…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Palabra Clave
Para buscar se
selecciona una
categoría…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
Y luego la sub
categoría donde
podía encontrarse
la información…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
A partir de allí
aparecen
diversas bases de
datos donde
consultar…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
El acceso a cada
una de ellas
constituye un
proceso que puede
llevar mucho
tiempo ya sea que
busquemos por
palabra clave o
categorías…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
Los directorios conducen a nuevos
sitios con más información cuya
exploración demanda tiempo pero la
calidad de la información lo vale…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
DIRECTORIO/ MOTOR DE BÚSQUEDA GENERAL
SCIELO (http://www.scielo.org/php/index.php?lang=es)
Contiene Bases
de datos de
revistas
científicas…
BUSCADORES
Web Invisible o Profunda…
3
SCIELO
Búsqueda por Categorías
SCIELO
Búsqueda por Categorías
SCIELO
Búsqueda por Categorías
Internet
SCIELO
Búsqueda por Palabra clave
BUSCADORES
Web Invisible o Profunda…
MOTOR DE BÚSQUEDA GENERALISTA
WAYBACK MACHINE (http://archive.org/web/web.php)
Permite el
acceso a
versiones de
sitios web
que pueden
o no estar
en línea…
4
Para buscar se coloca
la dirección web del
sitio y luego se
selecciona el año,
mes y día que se
desea visualizar
(siempre que esté
disponible)…
WAYBACK MACHINE
El resultado es el
acceso a la versión en
línea de esa
información…
WAYBACK MACHINE
Poseen una base de datos propia (elaborada por
personas o robots) compuesta por accesos a sitios
web confiables, aunque puedan estar desactualizados.
BUSCADORES
Web Invisible o Profunda…
¿CÓMO
TRABAJAN
LOS
BUSCADORES
PROFUNDOS?
Se utilizan para
buscar información
especializada en torno
a una temática, de
carácter científico.
Poseen opciones de búsqueda por categorías o palabra
clave. En este último caso permiten especificar: título
del recurso, autor del recurso, descripción o resumen
del recurso, contenido del recurso y palabras clave, que
permiten identificarlo, entre otros.
Permiten la configuración de las
bases de datos donde buscar, la
tipología de archivos y el lugar y
cantidad de resultados que
devuelven.
WWW Semántica
Se define como “…una extensión de la Web existente que
permite la realización de búsquedas más inteligentes a
través de buscadores inteligentes”.
94%
5% 1% Web
Invisible
Web Visible
Web
Semántica
Su objetivo es mejorar
las búsquedas, de
forma tal que las
máquinas no solo sean
capaces de utilizar la
información, sino
también interpretarla…
La reestructuración de la Web podría funcionar de
manera potente pero se proyectan muchos años para
su óptimo funcionamiento…
“Quiero viajar a Lima, Perú, y sólo
quiero gastar 5000 dólares”
REQUIERE:
•OWL: permite definir
conceptos u ontologías que
puedan ser utilizadas por
usuarios, sistemas y bases
de datos.
•RDF: describe conceptos y
ontologías y cómo se
encuentran relacionados.
•SPARQL: lenguaje de
consulta sobre las
ontologías que permite
hacer búsquedas sobre los
recursos de la Web
WWW Semántica
GOOGLE Y WEB SEMÁNTICA
Trabaja para
lograr este tipo
de búsquedas
aunque aún está
en proceso de
desarrollo ya
que no siempre
las búsquedas
funcionan de
manera
inteligente…
Actividad Teórico-Práctica
Reflexionamos sobre los conceptos
antes descriptos:
• Web Visible
• Web Invisible
• Web Semántica
¿Qué ejemplos de recursos web (sitios, páginas,
imágenes, archivos, videos, etc.) pertenecen a la Web
Visible o Invisible?
¿Con qué buscador de la WWW debe ser localizado?
¿Cuáles serían los operadores de búsqueda que
deberían ser utilizados a los efectos de encontrar
rápidamente un resultado?
FIN DE PRESENTACIÓN
Gracias por su atención…
Elaborado por Prof. Viviana M. Ponce
vmponce@unsl.edu.ar
Fac. de Cs. Humanas- UNSL

Clase 2 tecno 1-2017

  • 2.
    CLASE II Investigación enInternet. Búsquedas de información en la Web Invisible y Semántica CREATIVE COMMONS RECONOCIMIENTO-NOCOMERCIAL-COMPARTIRIGUAL 3.0 UNPORTED LICENSE
  • 3.
    Las WWW’s… En laclase anterior se introdujo el concepto de WWW y se dio su clasificación (Visible, Invisible y Semántica). Comenzando con la WEB VISIBLE , se presentaron especialmente dos tipologías de buscadores existentes en esta Web, a través de los cuales es posible acceder a páginas estáticas: 1) por directorio o categorías 2) por palabra clave En esta clase continuamos con las búsquedas de información centrándonos en la Web Invisible, analizando el desarrollo de la Web Semántica y finalizando con una reflexión respecto del proceso de búsqueda en estas Webs.
  • 4.
    Se define comola “porción de la Web que no puede ser indexada por los buscadores comunes”. Se compone del 95% de la información existente en la WWW, contra el 5% de la Web Visible… Web Invisible o Profunda… 5% 95% En los primeros niveles de las aguas profundas se encuentra la mejor información, utilizable a nivel profesional y académico.
  • 5.
    La WEB INVISIBLEcontiene información que no puede ni debe ser visibilizada por un buscador común, y en consecuencia no puede ser indizada por esta herramienta. Esta información está contenida en diferentes Webs, entre las que podemos mencionar: •La Web Opaca •La Web Privada •La Web Propietaria y •La Web Realmente Invisible…
  • 6.
    En este primerejemplo, Google devuelve solo dos resultados del sitio web: Flickr… Web Invisible o Profunda… 1 no son indexados por un buscador por cuestiones de economía. WEB OPACA Se compone de contenidos que
  • 7.
    En este segundoejemplo, Google solo deja acceder a 100 de sus resultados… Solo muestra 100 resultados aunque señala disponer de más de 2 millones…
  • 8.
    Último rastreo: 30/07 Próximorastreo: 30/08 Las páginas creadas del 31/07 al 29/08 no aparecerán como parte de los resultados… 2 contenidos que no son indexados dada la frecuencia de indización del buscador… Estas imágenes intentan señalar que todos los sitios web creados después del 30/07 y antes del 30/8 no aparecerán como resultados de una búsqueda, hasta que se produzca un nuevo rastreo, una nueva actualización por parte del buscador…
  • 9.
    Solo se muestranlas páginas con mayor Page Rank… 3 contenidos con bajo número de Page Rank, lo que hace que el buscador no lo muestre como parte de sus resultados
  • 10.
    Existen muchas razonespor las que una página puede tener un bajo posicionamiento en las búsquedas: pocas visitas, poca cantidad de enlaces, poca autoridad de quienes escriben en el sitio, etc. Esto ocasiona entonces que las páginas queden fuera del rastreo: “poco conectadas” o directamente “desconectadas”… Quedan entonces fuera del rastreo!!!
  • 11.
    Web Invisible oProfunda… 1 páginas protegidas por contraseñas WEB PRIVADA Contiene información confidencial, jamás accesible para el buscador. Se compone de
  • 12.
    Existen archivos especialeso campos específicos asociados/dentro de una página web que explicitan que la página no sea indexada… Archivo: “robots.txt” Campo: “noindex” 2 páginas que expresamente piden no ser indexadas
  • 13.
    Web Invisible oProfunda… WEB PROPIETARIA Contiene páginas en las que es necesario registrarse para acceder al contenido…
  • 14.
    Afortunadamente, muchos buscadoreshan evolucionado y permiten encontrar diversidad de tipos de archivos… .PDF .JS .RAR .ZIP… Web Invisible o Profunda… a WEB REALMENTE INVISIBLE incluye archivos de la Web en diversos formatos: .pdf, .js, .ppt, etc.
  • 15.
    Página dinámica Página estática b páginasque se generan dinámicamente, esto es, en tiempo de ejecución (por ej. al realizar una consulta en una base de datos).
  • 16.
    Página generada entiempo real c páginas que se generan en tiempo real (por ej. ante la transmisión en vivo y en directo de un partido).
  • 17.
    A través debuscadores especializados en bases de datos que trabajan generalmente con las tipologías: directorio y motor de búsqueda. Web Invisible o Profunda… ¿CÓMO ACCEDEMOS A ELLA?
  • 18.
    Cajas de búsqueda Opciones de restricción de resultados Más opcionesde restricción de resultados BUSCADORES Web Invisible o Profunda… GOOGLE (en su clasificación general/avanzada)1
  • 19.
    DIRECTORIO/ MOTOR DEBÚSQUEDA ESPECIALIZADO COMUNICACIÓN INVISIBLE (http://www.comunicacioninvisible.net/ci/) Es una base de Bases de datos de estudios fílmicos… 2 BUSCADORES Web Invisible o Profunda…
  • 20.
    Para buscar se utilizala Búsqueda Avanzada, o bien, por Categorías… COMUNICACIÓN INVISIBLE.NET
  • 21.
    COMUNICACIÓN INVISIBLE.NET Búsqueda porPalabra Clave Las búsquedas requieren clarificar y comprender cada operador de búsqueda… doblaje Argentina
  • 22.
    En caso deno encontrar resultados podemos efectuar Búsquedas por categorías… COMUNICACIÓN INVISIBLE.NET Búsqueda por Palabra Clave
  • 23.
    Para buscar se seleccionauna categoría… COMUNICACIÓN INVISIBLE.NET Búsqueda por Categorías
  • 24.
    Y luego lasub categoría donde podía encontrarse la información… COMUNICACIÓN INVISIBLE.NET Búsqueda por Categorías
  • 25.
    A partir deallí aparecen diversas bases de datos donde consultar… COMUNICACIÓN INVISIBLE.NET Búsqueda por Categorías
  • 26.
    El acceso acada una de ellas constituye un proceso que puede llevar mucho tiempo ya sea que busquemos por palabra clave o categorías… COMUNICACIÓN INVISIBLE.NET Búsqueda por Categorías
  • 27.
    Los directorios conducena nuevos sitios con más información cuya exploración demanda tiempo pero la calidad de la información lo vale… COMUNICACIÓN INVISIBLE.NET Búsqueda por Categorías
  • 28.
    DIRECTORIO/ MOTOR DEBÚSQUEDA GENERAL SCIELO (http://www.scielo.org/php/index.php?lang=es) Contiene Bases de datos de revistas científicas… BUSCADORES Web Invisible o Profunda… 3
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.
    BUSCADORES Web Invisible oProfunda… MOTOR DE BÚSQUEDA GENERALISTA WAYBACK MACHINE (http://archive.org/web/web.php) Permite el acceso a versiones de sitios web que pueden o no estar en línea… 4
  • 34.
    Para buscar secoloca la dirección web del sitio y luego se selecciona el año, mes y día que se desea visualizar (siempre que esté disponible)… WAYBACK MACHINE
  • 35.
    El resultado esel acceso a la versión en línea de esa información… WAYBACK MACHINE
  • 36.
    Poseen una basede datos propia (elaborada por personas o robots) compuesta por accesos a sitios web confiables, aunque puedan estar desactualizados. BUSCADORES Web Invisible o Profunda… ¿CÓMO TRABAJAN LOS BUSCADORES PROFUNDOS? Se utilizan para buscar información especializada en torno a una temática, de carácter científico. Poseen opciones de búsqueda por categorías o palabra clave. En este último caso permiten especificar: título del recurso, autor del recurso, descripción o resumen del recurso, contenido del recurso y palabras clave, que permiten identificarlo, entre otros. Permiten la configuración de las bases de datos donde buscar, la tipología de archivos y el lugar y cantidad de resultados que devuelven.
  • 37.
    WWW Semántica Se definecomo “…una extensión de la Web existente que permite la realización de búsquedas más inteligentes a través de buscadores inteligentes”. 94% 5% 1% Web Invisible Web Visible Web Semántica Su objetivo es mejorar las búsquedas, de forma tal que las máquinas no solo sean capaces de utilizar la información, sino también interpretarla…
  • 38.
    La reestructuración dela Web podría funcionar de manera potente pero se proyectan muchos años para su óptimo funcionamiento… “Quiero viajar a Lima, Perú, y sólo quiero gastar 5000 dólares” REQUIERE: •OWL: permite definir conceptos u ontologías que puedan ser utilizadas por usuarios, sistemas y bases de datos. •RDF: describe conceptos y ontologías y cómo se encuentran relacionados. •SPARQL: lenguaje de consulta sobre las ontologías que permite hacer búsquedas sobre los recursos de la Web WWW Semántica
  • 39.
    GOOGLE Y WEBSEMÁNTICA Trabaja para lograr este tipo de búsquedas aunque aún está en proceso de desarrollo ya que no siempre las búsquedas funcionan de manera inteligente…
  • 40.
    Actividad Teórico-Práctica Reflexionamos sobrelos conceptos antes descriptos: • Web Visible • Web Invisible • Web Semántica ¿Qué ejemplos de recursos web (sitios, páginas, imágenes, archivos, videos, etc.) pertenecen a la Web Visible o Invisible? ¿Con qué buscador de la WWW debe ser localizado? ¿Cuáles serían los operadores de búsqueda que deberían ser utilizados a los efectos de encontrar rápidamente un resultado?
  • 41.
    FIN DE PRESENTACIÓN Graciaspor su atención… Elaborado por Prof. Viviana M. Ponce vmponce@unsl.edu.ar Fac. de Cs. Humanas- UNSL