1. Investigación/ Periodismo
de Investigación en
Internet
TECNOLOGÍA DE LA COMUNICACIÓN I
LICS. EN COMUNICACIÓN SOCIAL Y PERIODISMO
CLASE 2- AÑO 2014
ELABORADO POR PROF. VIVIANA M. PONCE
(VMPONCE@UNSL.EDU.AR)
CREATIVE COMMONS RECONOCIMIENTO-NOCOMERCIAL-COMPARTIRIGUAL 3.0
UNPORTED LICENSE
2. ¿Por qué investigar en
Internet?
Internet constituye una valiosa
fuente de información real, útil y
verdadera, de la que podemos
servirnos para obtener y generar
información nueva.
3. ¿Qué requiere una
investigación en Internet?
Conocimiento de la WWW, su
clasificación: Visible, Invisible y
Semántica, y los buscadores que proveen
en cada caso.
Aplicación de un método de búsqueda
exhaustivo y organizado.
Evaluación de la información existente,
puesto que no existe un control de
veracidad a nivel global.
4. ¿Cómo puede definirse la
investigación en Internet?
“proceso exhaustivo y organizado, a partir del cual es posible
buscar información en la WWW (Visible, Invisible y Semántica),
interpretarla y discriminarla de acuerdo al análisis de sus
resultados”
5. ¿Qué debemos considerar a la
hora de buscar información?
Desmitificando falsos
supuestos…
Internet es una biblioteca…
- En Internet la información
no se encuentra organizada,
sino que está dispersa en
miles de millones de páginas
Web.
6. ¿Qué debemos considerar a la
hora de buscar información?
Toda la información que está
en Internet es cierta y vale…
- No existe ningún filtro de
calidad para publicar
información. Cualquier
persona puede publicar
cualquier cosa.
7. ¿Qué debemos considerar a la
hora de buscar información?
En Internet se encuentra toda la
información…
- En Internet solamente podemos
encontrar lo que está en Internet.
- Es muy probable que un sitio
Web que ayer no estaba, hoy
pueda estar…
- Un sitio Web que hoy está en
Internet, es probable que mañana
ya no esté…
8. ¿Qué debemos considerar a la
hora de buscar información?
Hay información sobre todos
los temas y sobre todo el
mundo.
- Existe una gran cantidad de
contenidos en inglés y otros
idiomas, en comparación con el
español; por lo que el idioma ejerce
un papel importante y se hace
imprescindible romper con las
fronteras del mismo.
9. ¿Qué debemos considerar a la
hora de buscar información?
Plagiar es ingenioso
porque todo es
público.
- Plagiar es un delito,
un fraude, y aún sin
ser descubierto, sigue
siendo un autoengaño.
- Existen normas para
la utilización de
contenidos en la Web
(Copyrigth, Copyleft).
¿CASUALIDAD O PLAGIO?
10. Buscadores de información
Se los define como:
“herramientas informáticas
especializadas que nos posibilitan
encontrar en la WWW diversidad de
tipologías de información digital: textos,
audios, videos, animaciones, mapas,
archivos en diversos formatos, etc.”
11. Buscadores de información
A lo largo de su historia se han clasificado en tres
categorías centrales:
• buscadores por temas o categorías
• motores de búsqueda
• meta/ multibuscadores
En las distintas Web’s se pueden encontrar una o más de estas
categorías de buscadores…
12. Web Visible o Superficial
“La WWW “Visible” o “Superficial” es la porción de
la Web que es vista y consecuentemente indexada
por los buscadores comunes”
•Está compuesta por un conjunto de páginas
estáticas públicamente accesibles.
•Constituye una porción relativamente muy pequeña
de toda la Web (un 17% aproximadamente).
•La información que se recupera debe ser
cuidadosamente evaluada y validada.
13. Componentes de la WWW y
porción de la Web Visible
Fuente: How much information? (2003)
http://www2.sims.berkeley.edu/research/projects/how-much-info-2003/internet.htm
14. BUSCADORES POR DIRECTORIO,
TEMAS O CATEGORÍAS
Se componen de información revisada por un grupo de personas o
robots que rastrean la WWW en busca de información y la
organizan en temas o categorías.
Pueden ser especializados (en 1 temática) o generalistas (en
varias).
Sus resultados son devueltos en lista ordenados alfabéticamente, o
por popularidad o Page Rank (número que define la cantidad de
enlaces al sitio).
La información es buena pero puede estar desactualizada.
En algunos casos, los usuarios tienen la opción de sugerir o ser
editores de sitios web.
Las búsquedas se realizan a través de la navegación por las
distintas categorías temáticas.
15. EJEMPLOS DE BUSCADORES
POR DIRECTORIO
• Ejemplos
-Dmoz
-Google Noticias
-Technorati Blogs (hoy en
modificación…)
¿Otros ejemplos? ¿Tendencias de uso?
17. Búsquedas en la WWW Visible
(Buscadores por directorio)
Palabra clave •¿Cómo buscar?
Categorías
1) Si conozco el tema, identifico
la categoría en la que este se
ubica y voy al paso 2.a). Si no
conozco el tema voy al paso 2.b)
2.a) Busco la categoría en las
categorías existentes. Voy al paso
3.
2.b)Escribo la palabra clave
relacionada con lo que estoy
buscando. Voy al paso 3.
3) De los resultados devueltos
observo si se encuentra lo que
busco.
4) Registro luego el/los
resultados obtenidos.
18. Búsquedas en la WWW Visible
(Buscadores por directorio)
•Ejemplo de búsqueda donde conozco la categoría:
¿Qué sitios Web de periódicos hay en la Argentina?
(Búsqueda 1) Ingresar al buscador Dmoz en inglés
http://www.dmoz.org/ y seguir la siguiente ruta de
categorías:
WorldRegionalArgentina South America
ArgentinaNews and mediaSpanishPeriódicos
(Búsqueda 2) Ingresar al buscador Dmoz en español
http://www.dmoz.org/World/Espa%C3%B1ol/ y seguir la
siguiente ruta de categorías:
Medios de comunicaciónPeriódicosArgentina
19. Búsquedas en la WWW Visible
(Buscadores por directorio)
•Resultados de Ejemplo de búsqueda donde conozco
la categoría:
18 resultados
devueltos en orden
alfabético, 1 sitio
menos y 1
categoría más que
el año anterior
(búsqueda
realizada en el año
2013)
21. Búsquedas en la WWW Visible
(Buscadores por directorio)
•Ejemplo de búsqueda donde no conozco la categoría:
Palabra clave
•¿Cómo buscar?
1) Coloco la «palabra clave» en la caja de búsqueda.
2) Cliqueo en el botón de Búsqueda:
3) Examino los resultados y registro uno o más de ellos si resultan adecuados
22. Búsquedas en la WWW Visible
(Buscadores por directorio)
•Ejemplo de búsqueda donde no conozco la categoría:
-Los resultados se devuelven ordenados por fecha o importancia.
-En la Descripción se indica el nombre del medio del que proviene la noticia.
28. Búsquedas en la WWW Visible
(Buscadores por directorio)
GOOGLE NOTICIAS
29. MOTORES DE BÚSQUEDA
La información se construye en base a un proceso de
rastreo realizado por robots que se conoce como
“Spidering”y no se encuentra organizada en temas.
Pueden ser generalistas o especializados.
Sus resultados son devueltos por Page Rank .
En la indización se almacenan no sólo páginas Web
sino también otro tipo de archivos: .doc, .pdf, .jpg,
.gif, etc.
Pueden contener información falsa y desactualizada.
Las búsquedas se realizan a través de “palabras clave”
que pueden ayudarnos a especificar las búsquedas.
30. MOTORES DE BÚSQUEDA
Ejemplos
- Google (Búsqueda avanzada)
- Bing
- Google Books
- Google Blogs
- Google Scholar
Otros:
- Google Imágenes (búsqueda avanzada)
- Google Videos (búsqueda avanzada)
- Google Maps
De personas:
- Socialmention y Twitterfall
33. Búsquedas en la WWW Visible
(Motores de búsqueda)
•¿Cómo
buscar?
1) Coloco la «palabra
clave» en la caja de
búsqueda.
2) Selecciono una o más
opciones de la caja de
búsqueda avanzada
3) Cliqueo en el
comando ‘Búsqueda
Avanzada’
34. Búsquedas en la WWW Visible
(Motores de búsqueda)
Opciones de la Búsqueda Avanzada:
35. Búsquedas en la WWW Visible
(Motores de búsqueda)
Al observar los sitios resultados vemos:
-Muchos de ellos se ajustan o asemejan a la palabra clave
-Aparecen desordenados
-Aparecen en distintos componentes (dir Url, contenido o título de la página)
-Las “StopWords” de, in, la, en, etc.) se ignoran
36. Búsquedas en la WWW Visible
(Motores de búsqueda)
•Desde el cuadro de Búsqueda Avanzada también
podríamos haber buscado por palabra o frase exacta:
Esta acción nos permite refinar la búsqueda ya que los sitios devueltos como
resultado contendrán las palabras que buscamos en el orden deseado…
37. Búsquedas en la WWW Visible
(Motores de búsqueda)
Al cliquear en la
Búsqueda
Avanzada vemos
que la palabra
clave es
encerrada por
completo entre
las “” (comillas
dobles)
38. Búsquedas en la WWW Visible
(Motores de búsqueda)
•Desde el cuadro de Búsqueda Avanzada también puede
buscarse información de carácter opcional
Esta información de carácter opcional hace que se utilice el operador de
búsqueda “OR”.
39. Búsquedas en la WWW Visible
(Motores de búsqueda)
Si se quisiera que
aparezcan ambas frases en
la búsqueda, debe utilizarse
el operador “AND”.
40. Búsquedas en la WWW Visible
(Motores de búsqueda)
“AND”
En el caso de “AND”
deben aparecer sí o sí
ambas frases en los
resultados de la
búsqueda.
En el caso de “OR”
pueden aparecer
alguna de las dos
frases o bien, ambas.
41. Búsquedas en la WWW Visible
(Motores de búsqueda)
Desde la Búsqueda Avanzada podemos
excluir uno o más términos de los resultados:
Esto hace que se utilice el operador “-”…
42. Búsquedas en la WWW Visible
(Motores de búsqueda)
Aquí se
excluyen de
los resultados
a los
periódicos de
Argentina…
43. Búsquedas en la WWW Visible
(Motores de búsqueda)
Si deseamos en caso contrario incluir palabras
utilizamos el operador “+”. Esta acción es útil para las
stop word.
Forzamos a que
aparezca la
preposición “de”…
44. Búsquedas en la WWW Visible
(Motores de búsqueda)
En cualquier caso de búsqueda también es
útil buscar por idioma, fecha y región:
45. Búsquedas en la WWW Visible
(Motores de búsqueda)
Él operador “*” aunque no es provisto por la Búsqueda
Avanzada también resulta útil para reemplazar una o
más palabras que no recordemos…
46. Búsquedas en la WWW Visible
(Motores de búsqueda)
También es útil buscar por sitio o dominio…
En este caso
se hace uso
del operador
“site”
48. Búsquedas en la WWW Visible
(Motores de búsqueda)
Las búsquedas por tipo de archivo pueden ayudar a
encontrar documentación de variado tipo:
En este caso
se hace uso
del operador
“filetype”
seguido de “:”
y luego la
extensión del
tipo de
archivo que
se busca…
50. Búsquedas en la WWW Visible
(Motores de búsqueda)
Puede buscarse una palabra clave en distintos lugares
de una página (título, texto, URL y vínculos)
En este caso
se hace uso
de distintos
operadores
que varían de
acuerdo al
lugar donde
se busca la
información…
51. Búsquedas en la WWW Visible
(Motores de búsqueda)
“allintitle”
es el
operador
que
permite
buscar en
el título de
la página…
52. Búsquedas en la WWW Visible
(Motores de búsqueda)
“allintext”
busca en el
contenido
de la
página…
53. Búsquedas en la WWW Visible
(Motores de búsqueda)
“allinurl” busca en la dirección web de la página… http://electronica.mercadolibre.com.ar/radios-am-fm/digitales/radio-digital
54. Búsquedas en la WWW Visible
(Motores de búsqueda)
http://electronica.mercadolibre.com.ar/radios-am-fm/digitales/radio-digital
“allianchor”
devuelve sitios
con enlaces a
lo que
buscamos…
55. Búsquedas en la WWW Visible
(Motores de búsqueda)
Puede buscarse información relacionada con un sitio
web específico:
En este caso
se hace uso
del operador
“related”
57. Búsquedas en la WWW Visible
(Motores de búsqueda)
También es posible buscar Derechos de uso como una forma de
respetar la propiedad intelectual de las obras en Internet
58. Búsquedas en la WWW Visible
(Motores de búsqueda)
Y configurar el
funcionamiento
interno del buscador,
eligiendo activar o no
Google Instant,
seleccionando la
cantidad de resultados
que se desean
visualizar…
59. Búsquedas en la WWW Visible
(Motores de búsqueda)
…seleccionando el
idioma con el que
trabajará el buscador
y la ubicación o lugar
desde el que
realizará las
búsquedas
60. Búsquedas en la WWW Visible
(Motores de búsqueda)
ADEMÁS EXISTEN OPERADORES
EXTRAS PARA EFECTUAR OTROS
TIPOS DE BÚSQUEDAS:
-Tiempo San Luis
-Define: inherente
-Calculadora (2 *5) + 3
-Conversor 100 dólares en euros
-Mapa San Luis, etc.
61. Otro Motor de Búsqueda Generalista
Bing
Palabras
clave
72. BUSCADORES DE BUSCADORES
Devuelven la información solicitada a partir de la búsqueda
en 2 o más motores de búsqueda existentes.
Pueden ser generalistas o especializados y permiten
especificar la búsqueda mediante algunos operadores que
proveen.
Son algo lentos y pueden devolver resultados repetidos.
Se clasifican en:
Metabuscadores (muestran los resultados en 1 única
ventana, indicando para cada uno de ellos el buscador en el
que se encontró la información).
Multibuscadores (muestran los resultados en distintas
ventanas, una por cada buscador).
76. COMPARANDO TIPOLOGÍAS DE BUSCADORES DE LA
WEB VISIBLE
DIRECTORIOS O
CATEGORÍAS
MOTORES DE
BÚSQUEDA
META/ MULTI
BUSCADORES
¿Cómo se construye
la información?
A través de un grupo
humano o robot
Por medio de un robot Por medio de un robot
¿Dónde buscan la
información?
En la WWW En la WWW En motores de búsqueda
existentes
¿Qué información
buscan?
General y Especializada General, Especializada
y Específica
General, Especializada y
Específica
¿Cómo devuelven sus
resultados?
Ordenados por orden
alfabético o Page Rank
Ordenados por Page
Rank
Ordenados por Page Rank
¿Cuántos resultados
devuelven?
Pocos o Muchos Muchos Muchos
¿La información
devuelta es
correcta?
Sí, en algunos casos puede
estar desactualizada
No en todos los casos,
hay que evaluarla
No en todos los casos, hay
que evaluarla
¿Cómo se busca? A través de las categorías o
ingresando una
palabra clave
A través de una
palabra clave
A través de una palabra
clave
Facilidad de uso Sencilla Compleja Media
77. WWW INVISIBLE O PROFUNDA
“porción de la Web que no puede ser indexada por los
buscadores comunes”.
~17%
~83%
Contiene la mejor calidad de información, pero también la más peligrosa,
por lo que en algunos casos suele denominarse “Web Oscura”
78. La Web Invisible o Profunda
Se divide en:
-Web Opaca
-Web Privada
-Web Propietaria
-Web Realmente Invisible
79. La Web Invisible o Profunda
Web opaca
Se compone de contenidos que no son indexados por
un buscador por cuestiones de economía.
Solo 2 páginas
de Flickr
80. La Web Invisible o Profunda
Web opaca
Solo algunos de sus resultados son devueltos por un
buscador por cuestiones de economía.
Solo muestra
100 resultados
81. La Web Invisible o Profunda
Web opaca
Se compone de contenidos que pueden no aparecer
hasta después de una actualización del rastreo de
los buscadores (frecuencia de indización).
Último rastreo: 30/07
Próximo rastreo: 30/08
Páginas
creadas del
31/07 al
29/08. No
aparecerán
como parte
de los
resultados!
82. La Web Invisible o Profunda
Web opaca
Se compone de contenidos que pueden no aparecer porque
tienen un número bajo de Page Rank que el buscador no
considera a la hora de mostrar los resultados.
Solo se muestran las
páginas con mayor
Page Rank
83. La Web Invisible o Profunda
Web opaca
Se compone de páginas web que no son linkeadas por
ninguna otra página, entonces sus direcciones URL
se encuentran “desconectadas”
Páginas que no
son
referenciadas o
linkeadas o
votadas desde
otras páginas
quedan fuera
del rastreo
84. La Web Invisible o Profunda
Web privada
Se encuentran protegidas por contraseñas
85. La Web Invisible o Profunda
Web privada
- Las páginas contienen un archivo “robots.txt” que
evita que sean indexadas
“robots.txt”
86. La Web Invisible o Profunda
Web privada
- Las páginas contienen un campo “noindex” que evita
que el buscador indice la parte correspondiente al
cuerpo de la página.
“noindex”
87. La Web Invisible o Profunda
Web propietaria
- Incluye páginas en las que es necesario registrarse
para acceder al contenido.
88. La Web Invisible o Profunda
Web realmente invisible
- Incluye archivos de la Web en diversos formatos:
.pdf, .js, .ppt, etc.
.PDF
.JS
.JS
.RAR
.ZIP…
Muchos buscadores han evolucionado y nos permiten encontrar gran diversidad
de tipos de archivos…
89. La Web Invisible o Profunda
Web realmente invisible
- Incluye páginas que se generan dinámicamente, esto
es, en tiempo de ejecución (por ej. al realizar una
consulta en una base de datos).
Página dinámica
Página estática
90. La Web Invisible o Profunda
Web realmente invisible
- Incluye páginas que se generan en tiempo real (por
ej. la transmisión en vivo y en directo de un partido).
Página generada en tiempo real
91. La Web Invisible o Profunda
¿Cómo buscar?
- A través de buscadores
especializados en bases de datos.
- De acuerdo a las tipologías existentes
estos pueden ser de las tres tipologías
que se vieron para los buscadores de
la Web Visible.
92. Buscadores de la Web
Invisible o Profunda
•Directorio mundial especializado- COMUNICACIÓN INVISIBLE
(http://www.comunicacioninvisible.net/wai)
103. Buscadores de la Web
Invisible o Profunda
¿Cómo trabajan este tipo de buscadores?
•Poseen una base de datos propia compuesta por otras bases de datos y que
puede ser elaborada por personas o por robots, que efectúan sus búsquedas
en sitios web confiables.
•Los resultados pueden estar desactualizados y son en general confiables,
pero conviene evaluarlos en función de la información que estamos
buscando.
•Poseen opciones de búsquedas completas de información en las bases de
datos: por título, autor, descripción, contenido, palabras clave, etc. En
muchos casos también permiten las búsquedas por temas o categorías.
•Permiten la configuración del buscador, en cuanto a las bases de datos en
las que buscan información, la tipología de archivos que indexan y el lugar
y cantidad de resultados que devuelven.
104. LA WWW y sus componentes
Web Semántica
“es una extensión de la Web existente que permite la realización de
búsquedas más inteligentes a través de buscadores inteligentes”.
Se encuentra en desarrollo y requiere de una reestructuración de la Web
para funcionar de manera potente.
105. ¿Qué se pretende con la Web
Semántica?
Mejorar las búsquedas, de forma tal que las máquinas no solo sean
capaces de utilizar la información, sino también interpretarla…
106. ¿Qué se pretende con la Web
Semántica?
•Agregarle semántica a la WWW implica:
-Definir OWL: conceptos u ontologías que puedan ser utilizadas
por usuarios, sistemas y bases de datos.
-Definir RDF: o información descriptiva sobre los conceptos y
ontologías y cómo se encuentran relacionados.
-Definir SPARQL: o lenguaje de consulta sobre las ontologías y su
descripción que permita hacer búsquedas sobre los recursos de la
Web semántica, utilizando distintas fuentes de datos.
Ejemplos
Ontologías: “Pintor”, “Pintura”, “Escuela”, “Lugar”
RDF de Pintura: soporte, técnica, proceso, tema, etc. Relación entre “Pintor” y
“Pintura”: “Un pintor es el autor de una o más pinturas...”
SPARQL: “Pinturas al óleo de Van Gogh”
107. ¿Qué se pretende con la Web
Semántica?
•El buscador no trabaja a nivel sintáctico sino
semántico, esto es, puede “comprender” el
significado de la búsqueda que realiza.
“Quiero viajar a Lima, Perú, y sólo quiero gastar
3000 dólares”
Aún se encuentra en desarrollo y se proyectan muchos
años más para que pueda explotarse en su totalidad.
108. ¿Cómo buscamos información en
la Web Semántica?
•A través de buscadores especializados en la Web
Semántica:
-Wolfram Alfa
-Twine
-Swoogle
Cada buscador tiene sus propios operadores de
búsqueda, por lo que se debe estudiar c/u de ellos en
particular…
109. ¿Cómo buscamos información en
la Web Semántica?
•Wolfram Alpha (sin uso de operadores)
Devuelve toda la información asociada a un concepto.
116. ¿Cómo buscamos información en
la Web Semántica?
•Wolfram Alpha
Otras búsquedas inteligentes…
“Viajes a Perú, Lima”
“Travel to Peru, Lima”
117. ¿Cómo buscamos información en
la Web Semántica?
•Wolfram Alpha
Otras búsquedas
inteligentes…
“Viajes a Perú, Lima”
“Travel to Peru, Lima”
118. ¿Cómo buscamos información
en la Web Semántica?
•Wolfram Alpha
Otras búsquedas
inteligentes…
“Pinturas al óleo de Van
Gogh”
“Oil paintings of Van
Gogh”
119. ¿Cómo buscamos información
en la Web Semántica?
•Wolfram Alpha
Otras búsquedas
inteligentes…
“Pinturas al óleo de Van
Gogh”
“Oil paintings of Van
Gogh”
121. ¿Cómo buscamos información en
la Web Semántica?
•Wolfram Alpha (Favoritos)
Aún quedan muchas posibilidades por explorar…¡te invitamos a recorrerlas!