1. Web Semántica
(el rol de las bibliotecas)
Claudio Gutierrez
DCC, Universidad de Chile
2. Agenda
1. Web Semántica: visión clásica
• Web
• Web Semántica
2. Web Semántica: nueva perspectiva
• Web Semántica
• Linked Data
• Open Data
3. El problema…
“una divinidad que delira”
– J. L. Borges, La Biblioteca Total, 1939.
“abundancia torrencial”,
“el libro enfurecido”
– J. Ortega y Gasset, Misión del Bibliotecario, 1935
4. Nuestro entorno: K, M, G
KILO: mil (2^10)
Memoria celular
Texto (email, documento)
MEGA: millón (2^20)
Libro, Fotografía
GIGA: mil millones (2^30)
Memoria RAM, Buen video
(Este es nuestro mundo…)
5. Poniéndonos serios…: TB
TERA: un billón 10^12 2^{40}
-- Biblioteca del Congreso (USA): 160 TB
-- Discos de 1TB (2007)
-- Tráfico diario de Internet (100 TB)
-- Wikipedia: 6 Terabyte dump (2010)
--3-D movie Monsters Vs Aliens (necesitó 100 TB
disco)
No es escala humana. Pero, lo maneja hoy cualquier
empresa/experimento que se respete
6. Futuro inmediato: PB
PETA : mil billones 10^15 2^50
– Internet Archive (3 PB) (crece a 100 TB por mes)
– Google procesa 24 petabytes de datos cada día
– 1/2 PB: filmar la vida de una persona (100 años
en alta definición).
– Facebook tiene 60 mil millones de imágenes, esto
es 1,5PB.
– Rapidshare dispone de una capacidad de
almacenamiento de varios petabytes.
– AT&T transfiere alrededor de 19 petabytes de
datos al día.
– Los experimentos del LHC (Large Hadron
Collider) producirán 15 petabytes de datos al año.
7. Futuro próximo: EXA, Z
EXA: millón de billones
10^18 (2^60)
Todas las palabras
que se han hablado:
aprox. 5 EXB texto
(42 zb digitalizadas.
Internet ocupa entre 100 y 200
exabytes
El premio del Sultán en el ajedrez:
2^64: casi 1 EXB
Zetta 10^21 (2^70)
El universo digital (todos los
datos o archivos
almacenados digitalm.)
alcanza 1,2 millones de
petabytes, o 1,2 zettabytes.
Para 2020 será 30 veces más
grande de lo que es hoy
(aprox. 35 zb)
8. El problema
• Hay demasiada información
• Más aun: se produce torrencialmente
• No sólo las “masas”, sino que los sensores
Necesita arquitectura que considere:
– Que todos son potenciales productores
– Que todos son potenciales consumidores
– Que escale a volúmenes “infinitos”
9. Solución del siglo xxi
Crear un espacio de información
universal: la Web (Tim Berners-Lee, 1990)
Principio básico:
–Todos pueden publicar
–Todos pueden leer
10. La Web (en 3 minutos)
Espacio de información universal:
– “pizarrón universal” donde todos pueden
publicar y todos pueden leer
Nota: la Web no es Internet:
– Internet: Red física,
protocolos intercambio de
paquetes: TCP/IP
– Web: Red Lógica,
protocolos de intercambio de
info: HTML, HTTP, URI
11.
12. La Web: principios de diseño
1. Independencia de Dispositivo
2. Independencia de software
3. Internacionalización
4. Multimedia
5. Accesibilidad
6. Ritmo y razón
7. Calidad
8. Independencia de escala
13. La Web: problemas
1. Información poco comprensible
– Enlaces no tienen semántica
– Metadatos inexistentes o subutilizados
2. Procesamiento al nivel sintáctico
Resultado:
-- difícil de automatizar
-- imposible de razonar
14. Solución: Web Semántica
Hipótesis: Procesar información a escala
planetaria necesitará automatización
⇒ Máquinas deben “entender”
⇒ Desarrollar semántica automática
“La Web Semántica es una
Web donde la información
sea entendible y usable
tanto por humanos como
por computadores.”
--Tim Berners-Lee
16. ¿Un proyecto viable?
• Pocos resultados después de 10 años
• ¿demasiado optimista?
Una Web Semántica más modesta:
–Enlazar datos (Linked Data)
–Publicar datos (Open Data)
17. Etapa 0: el computador
ATOMOS
Objetos materiales
Trabajo manual
Intensivo en energía
Productos con servicio
Centralizado
Estructuras jerárquicas
Ciencia clásica
BITS
Objetos virtuales
Trabajo intelectual
Intensivo en información
Servicios con productos
Distribuído
Estructuras planas
Nuevo paradigma
20. Etapa 2: WEB
• Enlaces (links) entre documentos
• “Palabras” (secuencias de caracteres) y
enlaces como el centro del universo
•Lenguajes y protocolos:
– HTTP (protocolo para escribir y leer)
– HTML (lenguaje para la pizarra)
– URI (identificadores únicos)
21. Etapa 2: debilidades
• Información está aislada
– pocos y malos enlaces
• Los datos no están accesibles
– se publican sólo documentos
En términos prácticos:
–Torrente, diluvio de (malos) datos
nos ahoga
–Se están formando islas privadas
–No se puede “razonar” sobre la
información
25. Etapa 3: Web de Datos
• La información como datos
• Los datos enlazados como red
• Los datos públicos y abiertos
Tecnologías claves:
–RDF y SPARQL
–Estrategia: Linked Data
–Filosofía: Open data
26. Artefactos de datos
Bases de Datos
Desktops
Dataspaces
Bibliotecas
Archivos
Web clásica
Web semántica
Web de Datos
Data Gov
Open Data
Estático Dinámico
abiertocerrado
Linked data
28. Rol de Bibliotecas: algunas
preguntas
• En un mundo de información abierta: ¿cuáles
son los límites?
• Enlazar: ¿con quién? ¿cómo?
• ¿Sólo organizar o también publicar?
– ¿Quiénes serán responsables de publicación de
datos por Facultad?
• ¿Catalogación central o folksonomías?
(mi tesis: Open Data cambiará radicalmente el
rol y sentido de las bibliotecas)