TECNOLOGÍA DE LA
COMUNICACIÓN I
Lic. en Periodismo
FCH-UNSL (Año 2016)
CLASE II
Investigación en Internet. Búsquedas de
información en la Web Invisible y
Semántica.
CREATIVE COMMONS RECONOCIMIENTO-NOCOMERCIAL-
COMPARTIRIGUAL 3.0 UNPORTED LICENSE
En la clase anterior se introdujo el concepto de
WWW y se dio su clasificación (Visible, Invisible
y Semántica).
Comenzando con la Web Visible, se presentaron
especialmente dos tipologías de buscadores
existentes en esta Web: 1) por directorio o
categorías y 2) por palabra clave.
En esta clase continuamos con las búsquedas
de información centrándonos en la Web
Invisible, analizando el desarrollo de la Web
Semántica y finalizando con una reflexión
respecto del proceso de búsqueda en estas
Webs.
DEFINICIÓN:
Se define como la “porción de la Web que no puede ser
indexada por los buscadores comunes”. Se compone del
95% de la información existente en la WWW, contra el 5% de
la Web Visible…
WWW INVISIBLE O PROFUNDA
5%
95%
En los primeros niveles
se encuentra la
mejor información,
utilizable a nivel
profesional y
académico.
La Web Invisible recibe esta denominación porque
contiene información que no puede ni debe ser
visibilizada por un buscador común, y en consecuencia
no puede ser indizada por esta herramienta.
Esta información está contenida en diferentes Webs,
entre las que podemos mencionar:
• La Web Opaca
• La Web Privada
• La Web Propietaria y
• La Web Realmente Invisible
A continuación vemos cada una de estas…
WEB OPACA
Se compone de contenidos que 1) no son indexados por un
buscador por cuestiones de economía.
WEB INVISIBLE O PROFUNDA
En este primer ejemplo,
Google devuelve solo
dos resultados del sitio
web: Flickr…
En este segundo ejemplo, Google solo deja acceder a 100
de sus resultados…
Solo muestra 100
resultados aunque
señala disponer de más
de 2 millones…
2) contenidos que no son indexados dada la frecuencia de
indización del buscador…
Último rastreo: 30/07
Próximo rastreo: 30/08
Las páginas
creadas del
31/07 al 29/08
no aparecerán
como parte de
los
resultados…
Estas imágenes intentan señalar que todos los sitios web creados
después del 30/07 y antes del 30/8 no aparecerán como
resultados de una búsqueda, hasta que se produzca un nuevo
rastreo, una nueva actualización por parte del buscador…
3) contenidos con bajo número de Page Rank, lo que hace
que el buscador no lo muestre como parte de sus
resultados.
Solo se muestran las
páginas con mayor
Page Rank…
Existen muchas razones por las que una página puede tener
un bajo posicionamiento en las búsquedas: pocas visitas,
poca cantidad de enlaces, poca autoridad de quienes
escriben en el sitio, etc. Esto ocasiona entonces que las
páginas queden fuera del rastreo: “poco conectadas” o
directamente “desconectadas”…
Quedan
entonces
fuera del
rastreo!!!
WEB PRIVADA
Contiene información confidencial, jamás accesible para el
buscador. Se compone de 1) páginas protegidas por
contraseñas
WEB INVISIBLE O PROFUNDA
Existen archivos especiales o campos específicos
asociados/dentro de una página web que explicitan que la
página no sea indexada…
Archivo:
“robots.txt”
Campo:
“noindex”
2) páginas que expresamente piden no ser
indexadas
WEB PROPIETARIA
Contiene páginas en las que es necesario registrarse para
acceder al contenido…
WEB INVISIBLE O PROFUNDA
WEB REALMENTE INVISIBLE
Incluye:
a) archivos de la Web en diversos formatos: .pdf, .js, .ppt,
etc.
Afortunadamente, muchos buscadores han evolucionado y
permiten encontrar diversidad de tipos de archivos…
.PDF
.JS
.JS
.RAR
.ZIP…
WEB INVISIBLE O PROFUNDA
b) páginas que se generan dinámicamente, esto es, en
tiempo de ejecución
(por ej. al realizar una consulta en una base de datos).
Página dinámica
Página estática
c) páginas que se generan en tiempo real
(por ej. ante la transmisión en vivo y en directo de un partido).
Página generada en tiempo real
¿CÓMO ACCEDEMOS A ELLA?
A través de buscadores especializados en bases de
datos que trabajan generalmente a través de las
tipologías: directorio y motor de búsqueda.
WEB INVISIBLE O PROFUNDA
DIRECTORIO/ MOTOR DE BÚSQUEDA ESPECIALIZADO
COMUNICACIÓN INVISIBLE (http://www.comunicacioninvisible.net/ci/)
BUSCADORES WEB INVISIBLE
Es una
base de
Bases de
datos de
estudios
fílmicos…
Para buscar
se utiliza la
Búsqueda
Avanzada, o
bien, por
Categorías…
COMUNICACIÓN INVISIBLE.NET
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Palabra Clave
Las búsquedas requieren clarificar
y comprender cada operador de
búsqueda…
doblaje
Argentina
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Palabra Clave
En caso de no
encontrar
resultados
podemos
efectuar
Búsquedas por
categorías…
Para buscar
se selecciona
una
categoría…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
Y luego la sub
categoría donde
podía
encontrarse la
información…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
A partir de allí
aparecen
diversas bases
de datos
donde
consultar…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
El acceso a cada
una de ellas
constituye un
proceso que
puede llevar
mucho tiempo ya
sea que
busquemos por
palabra clave o
categorías…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
Los directorios conducen a
nuevos sitios con más
información cuya exploración
demanda tiempo pero la calidad
de la información lo vale…
COMUNICACIÓN INVISIBLE.NET
Búsqueda por Categorías
DIRECTORIO/ MOTOR DE BÚSQUEDA GENERAL
SCIELO (http://www.scielo.org/php/index.php?lang=es)
Contiene
Bases de
datos de
revistas
científicas…
BUSCADORES WEB INVISIBLE
SCIELO
Búsqueda por Categorías
SCIELO
Búsqueda por Categorías
SCIELO
Búsqueda por Categorías
SCIELO
Búsqueda por palabra clave
Internet
MOTOR DE BÚSQUEDA GENERALISTA
WAYBACK MACHINE (http://archive.org/web/web.php)
BUSCADORES WEB INVISIBLE
Permite el
acceso a
versiones
de sitios
web que
pueden o
no estar
en línea…
BUSCADORES WEB INVISIBLE
Para buscar se
coloca la
dirección web
del sitio y luego
se selecciona el
año, mes y día
que se desea
visualizar
(siempre que
esté
disponible)…
WAYBACK
MACHINE
BUSCADORES WEB INVISIBLE
WAYBACK MACHINE
El resultado es el acceso a la versión en línea de esa información…
¿CÓMO TRABAJAN LOS BUSCADORES PROFUNDOS?
•Se utilizan para buscar información especializada en torno a una
temática, de carácter científico.
•Poseen una base de datos propia (elaborada por personas o robots)
compuesta por sitios web confiables, aunque puedan estar
desactualizados.
•Poseen opciones de búsqueda por categorías o palabra clave. En este
último caso permiten especificar: título del recurso, autor del recurso,
descripción o resumen del recurso, contenido del recurso y palabras clave,
que permiten identificarlo, entre otros.
•Permiten la configuración de las bases de datos donde buscar,
la tipología de archivos y el lugar y cantidad de resultados
que devuelven.
BUSCADORES WEB INVISIBLE
WWW SEMÁNTICA
Se define como “…una extensión de la Web existente que permite
la realización de búsquedas más inteligentes a través de
buscadores inteligentes”.
Su objetivo es mejorar las búsquedas, de forma tal que las
máquinas no solo sean capaces de utilizar la información, sino
también interpretarla…
94%
5% 1% Web
Invisible
Web Visible
Web
Semántica
WWW SEMÁNTICA
La reestructuración de la Web podría funcionar de
manera potente pero se proyectan muchos años
para su óptimo funcionamiento…
“Quiero viajar a Lima, Perú, y sólo
quiero gastar 3000 dólares”
REQUIERE:
•OWL: permite definir
conceptos u ontologías que
puedan ser utilizadas por
usuarios, sistemas y bases
de datos.
•RDF: describe conceptos y
ontologías y cómo se
encuentran relacionados.
•SPARQL: lenguaje de
consulta sobre las
ontologías que permite
hacer búsquedas sobre los
recursos de la Web
GOOGLE Y WEB SEMÁNTICA
Trabaja para
lograr este tipo
de búsquedas
aunque aún
está en proceso
de desarrollo ya
que no siempre
las búsquedas
funcionan de
manera
inteligente…
FIN DE PRESENTACIÓN
Gracias por su atención…
Elaborado por Prof. Viviana M. Ponce
vmponce@unsl.edu.ar
Fac. de Cs. Humanas- UNSL

Clase 2 tecno i- comunicacion 2016

  • 1.
    TECNOLOGÍA DE LA COMUNICACIÓNI Lic. en Periodismo FCH-UNSL (Año 2016)
  • 2.
    CLASE II Investigación enInternet. Búsquedas de información en la Web Invisible y Semántica. CREATIVE COMMONS RECONOCIMIENTO-NOCOMERCIAL- COMPARTIRIGUAL 3.0 UNPORTED LICENSE
  • 3.
    En la claseanterior se introdujo el concepto de WWW y se dio su clasificación (Visible, Invisible y Semántica). Comenzando con la Web Visible, se presentaron especialmente dos tipologías de buscadores existentes en esta Web: 1) por directorio o categorías y 2) por palabra clave. En esta clase continuamos con las búsquedas de información centrándonos en la Web Invisible, analizando el desarrollo de la Web Semántica y finalizando con una reflexión respecto del proceso de búsqueda en estas Webs.
  • 4.
    DEFINICIÓN: Se define comola “porción de la Web que no puede ser indexada por los buscadores comunes”. Se compone del 95% de la información existente en la WWW, contra el 5% de la Web Visible… WWW INVISIBLE O PROFUNDA 5% 95% En los primeros niveles se encuentra la mejor información, utilizable a nivel profesional y académico.
  • 5.
    La Web Invisiblerecibe esta denominación porque contiene información que no puede ni debe ser visibilizada por un buscador común, y en consecuencia no puede ser indizada por esta herramienta. Esta información está contenida en diferentes Webs, entre las que podemos mencionar: • La Web Opaca • La Web Privada • La Web Propietaria y • La Web Realmente Invisible A continuación vemos cada una de estas…
  • 6.
    WEB OPACA Se componede contenidos que 1) no son indexados por un buscador por cuestiones de economía. WEB INVISIBLE O PROFUNDA En este primer ejemplo, Google devuelve solo dos resultados del sitio web: Flickr…
  • 7.
    En este segundoejemplo, Google solo deja acceder a 100 de sus resultados… Solo muestra 100 resultados aunque señala disponer de más de 2 millones…
  • 8.
    2) contenidos queno son indexados dada la frecuencia de indización del buscador… Último rastreo: 30/07 Próximo rastreo: 30/08 Las páginas creadas del 31/07 al 29/08 no aparecerán como parte de los resultados… Estas imágenes intentan señalar que todos los sitios web creados después del 30/07 y antes del 30/8 no aparecerán como resultados de una búsqueda, hasta que se produzca un nuevo rastreo, una nueva actualización por parte del buscador…
  • 9.
    3) contenidos conbajo número de Page Rank, lo que hace que el buscador no lo muestre como parte de sus resultados. Solo se muestran las páginas con mayor Page Rank…
  • 10.
    Existen muchas razonespor las que una página puede tener un bajo posicionamiento en las búsquedas: pocas visitas, poca cantidad de enlaces, poca autoridad de quienes escriben en el sitio, etc. Esto ocasiona entonces que las páginas queden fuera del rastreo: “poco conectadas” o directamente “desconectadas”… Quedan entonces fuera del rastreo!!!
  • 11.
    WEB PRIVADA Contiene informaciónconfidencial, jamás accesible para el buscador. Se compone de 1) páginas protegidas por contraseñas WEB INVISIBLE O PROFUNDA
  • 12.
    Existen archivos especialeso campos específicos asociados/dentro de una página web que explicitan que la página no sea indexada… Archivo: “robots.txt” Campo: “noindex” 2) páginas que expresamente piden no ser indexadas
  • 13.
    WEB PROPIETARIA Contiene páginasen las que es necesario registrarse para acceder al contenido… WEB INVISIBLE O PROFUNDA
  • 14.
    WEB REALMENTE INVISIBLE Incluye: a)archivos de la Web en diversos formatos: .pdf, .js, .ppt, etc. Afortunadamente, muchos buscadores han evolucionado y permiten encontrar diversidad de tipos de archivos… .PDF .JS .JS .RAR .ZIP… WEB INVISIBLE O PROFUNDA
  • 15.
    b) páginas quese generan dinámicamente, esto es, en tiempo de ejecución (por ej. al realizar una consulta en una base de datos). Página dinámica Página estática
  • 16.
    c) páginas quese generan en tiempo real (por ej. ante la transmisión en vivo y en directo de un partido). Página generada en tiempo real
  • 17.
    ¿CÓMO ACCEDEMOS AELLA? A través de buscadores especializados en bases de datos que trabajan generalmente a través de las tipologías: directorio y motor de búsqueda. WEB INVISIBLE O PROFUNDA
  • 18.
    DIRECTORIO/ MOTOR DEBÚSQUEDA ESPECIALIZADO COMUNICACIÓN INVISIBLE (http://www.comunicacioninvisible.net/ci/) BUSCADORES WEB INVISIBLE Es una base de Bases de datos de estudios fílmicos…
  • 19.
    Para buscar se utilizala Búsqueda Avanzada, o bien, por Categorías… COMUNICACIÓN INVISIBLE.NET
  • 20.
    COMUNICACIÓN INVISIBLE.NET Búsqueda porPalabra Clave Las búsquedas requieren clarificar y comprender cada operador de búsqueda… doblaje Argentina
  • 21.
    COMUNICACIÓN INVISIBLE.NET Búsqueda porPalabra Clave En caso de no encontrar resultados podemos efectuar Búsquedas por categorías…
  • 22.
    Para buscar se selecciona una categoría… COMUNICACIÓNINVISIBLE.NET Búsqueda por Categorías
  • 23.
    Y luego lasub categoría donde podía encontrarse la información… COMUNICACIÓN INVISIBLE.NET Búsqueda por Categorías
  • 24.
    A partir deallí aparecen diversas bases de datos donde consultar… COMUNICACIÓN INVISIBLE.NET Búsqueda por Categorías
  • 25.
    El acceso acada una de ellas constituye un proceso que puede llevar mucho tiempo ya sea que busquemos por palabra clave o categorías… COMUNICACIÓN INVISIBLE.NET Búsqueda por Categorías
  • 26.
    Los directorios conducena nuevos sitios con más información cuya exploración demanda tiempo pero la calidad de la información lo vale… COMUNICACIÓN INVISIBLE.NET Búsqueda por Categorías
  • 27.
    DIRECTORIO/ MOTOR DEBÚSQUEDA GENERAL SCIELO (http://www.scielo.org/php/index.php?lang=es) Contiene Bases de datos de revistas científicas… BUSCADORES WEB INVISIBLE
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
    MOTOR DE BÚSQUEDAGENERALISTA WAYBACK MACHINE (http://archive.org/web/web.php) BUSCADORES WEB INVISIBLE Permite el acceso a versiones de sitios web que pueden o no estar en línea…
  • 33.
    BUSCADORES WEB INVISIBLE Parabuscar se coloca la dirección web del sitio y luego se selecciona el año, mes y día que se desea visualizar (siempre que esté disponible)… WAYBACK MACHINE
  • 34.
    BUSCADORES WEB INVISIBLE WAYBACKMACHINE El resultado es el acceso a la versión en línea de esa información…
  • 35.
    ¿CÓMO TRABAJAN LOSBUSCADORES PROFUNDOS? •Se utilizan para buscar información especializada en torno a una temática, de carácter científico. •Poseen una base de datos propia (elaborada por personas o robots) compuesta por sitios web confiables, aunque puedan estar desactualizados. •Poseen opciones de búsqueda por categorías o palabra clave. En este último caso permiten especificar: título del recurso, autor del recurso, descripción o resumen del recurso, contenido del recurso y palabras clave, que permiten identificarlo, entre otros. •Permiten la configuración de las bases de datos donde buscar, la tipología de archivos y el lugar y cantidad de resultados que devuelven. BUSCADORES WEB INVISIBLE
  • 36.
    WWW SEMÁNTICA Se definecomo “…una extensión de la Web existente que permite la realización de búsquedas más inteligentes a través de buscadores inteligentes”. Su objetivo es mejorar las búsquedas, de forma tal que las máquinas no solo sean capaces de utilizar la información, sino también interpretarla… 94% 5% 1% Web Invisible Web Visible Web Semántica
  • 37.
    WWW SEMÁNTICA La reestructuraciónde la Web podría funcionar de manera potente pero se proyectan muchos años para su óptimo funcionamiento… “Quiero viajar a Lima, Perú, y sólo quiero gastar 3000 dólares” REQUIERE: •OWL: permite definir conceptos u ontologías que puedan ser utilizadas por usuarios, sistemas y bases de datos. •RDF: describe conceptos y ontologías y cómo se encuentran relacionados. •SPARQL: lenguaje de consulta sobre las ontologías que permite hacer búsquedas sobre los recursos de la Web
  • 38.
    GOOGLE Y WEBSEMÁNTICA Trabaja para lograr este tipo de búsquedas aunque aún está en proceso de desarrollo ya que no siempre las búsquedas funcionan de manera inteligente…
  • 39.
    FIN DE PRESENTACIÓN Graciaspor su atención… Elaborado por Prof. Viviana M. Ponce vmponce@unsl.edu.ar Fac. de Cs. Humanas- UNSL