Este documento trata sobre los fundamentos de la Web 3.0 y su objetivo de construir una Web de Datos. La Web 3.0 rompe con la visión documental de la WWW actual y da identidad propia a los datos en bruto, obteniendo una estructura de grafo similar a la WWW donde los nodos representan datos y las aristas describen las relaciones semánticas entre ellos. La Web 3.0 se despliega sobre la infraestructura de la WWW actual usando HTTP para facilitar la reutilización de conocimientos.
1. Big Data & Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Mas alla de la Web...
Por que los datos deben viajar en primera?
Miguel A. Martnez Prieto
migumar2@infor.uva.es
XIV Semana de la Ciencia
Universidad Rey Juan Carlos
Mostoles, 13 de Noviembre de 2014
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 1/65
2. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Indice
1 Big Data Web 3.0.
2 Linked Data en Tiempo Real
3 Trabajo Futuro
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 2/65
3. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
{ Big Data {
Que es Big Data?
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 3/65
4. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 4/65
5. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Big Data
Big Data
Cualquier coleccion de datos que excede la capacidad de computo
de un sistema gestor de bases de datos tradicional.
Las colecciones consideradas Big Data acumulan un gran volumen de
datos.
Dentro de estas colecciones se generan y consultan datos a una gran
velocidad (en entornos cada vez mas distribuidos).
Existe una gran variedad en la naturaleza de los datos que almacenan
estas colecciones (experimentos cient
6. cos, datos gubernamentales, redes
sociales...)
La explotacion del Big Data, en diferentes entornos de aplicacion, genera
un valor a~nadido.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 5/65
7. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Volumen
El volumen se re
8. ere a la gran cantidad de datos recopilados y
almacenados en conjuntos creados para diferentes usos y propositos.
Segun la International Data Corporation, el volumen de datos digitales en
el a~no 2012 es 10 veces mayor que en 2007:
El volumen de los datos crece mas rapido que los recursos de computo
(Ley de Moore).
El almacenamiento es el primer reto de escalabilidad en el ambito del
Big Data:
Compresion de datos, almacenamiento distribuido, cloud computing...
La decision de como almacenar los datos repercute directamente en el
rendimiento de otros procesos: procesamiento, analisis, consulta...
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 6/65
9. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Velocidad
La velocidad hace referencia a la frecuencia de generacion,
almacenamiento y consulta de los datos:
Segun IBM, cada da se producen dos trillones y medio de bytes que
representan nuevos datos.
Los entornos de generacion y consumo de los datos son inherentemente
distribuidos:
Tanto los datos nuevos, como los resultados a las consultas sobre los Big
Data, deben transmitirse por la red.
Los recursos de red no crecen en proporcion a la cantidad de datos que
uyen por ella.
Cada vez existen mas aplicaciones que necesitan consultar los datos en el
mismo instante en el que se producen:
Gestionar las necesidades de operar en tiempo real aumenta notablemente
la complejidad de gestionar los Big Data.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 7/65
10. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Variedad
La variedad re
11. ere los diferentes grados de estructura (o falta de ella)
que pueden encontrarse en el Big Data:
El 80% de los datos existentes son no estructurados frente al 20% que
presenta una estructura de
12. nida.
La cantidad de datos no estructurados crece 15 veces mas deprisa que los
estructurados.
Las fuentes de datos (logs, redes sociales, sensores...) generan colecciones
acordes a una semantica particular:
La integracion de datos heterogeneos aumenta el conocimiento potencial
que puede extraerse de ellos.
Este conocimiento es la clave para la generacion de nuevo valor
La gestion efectiva de la variedad precisa de modelos logicos que
permitan gestionar diferentes tipos de datos en una representacion unica
e independiente de la estructura de las colecciones.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 8/65
13. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Valor
El valor suele considerarse la cuarta V del
Big Data.
Esta dimension enfoca el bene
14. cio que
supone para una organizacion incorporar
la explotacion de Big Data.
La descripcion del valor esta ligada al
ambito particular en el que se utiliza el
Big Data.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 9/65
15. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Valor Comercial
El valor comercial tiene que ver con el
grado de satisfaccion de los clientes:
El producto o servicio ofrecido se ha
mejorado aprovechando el
conocimiento extraido del Big Data
Este valor comercial se traduce, en la
practica, en bene
17. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Valor Comercial
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 11/65
18. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Valor Social
El valor social esta relacionado con la
prestacion de servicios mas e
19. cientes para
los ciudadanos:
Tramites burocraticos, servicios
educativos y de salud...
Transparencia poltica.
Ademas, la reutilizacion de los Big Data
publicos se considera un catalizador
potencial de los sistemas economicos:
Nuevas startups, productos y servicios
mas ajustados a las necesidades de las
personas...
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 12/65
20. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Valor Cient
22. ca con Big Data trae
consigo:
El descubrimiento de nuevos fenomenos
fsicos.
La prueba de hipotesis.
Avances espec
23. cos en diferentes
disciplinas...
El boson de Higgs es un ejemplo claro
de valor cient
24. co asociado al Big Data.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 13/65
25. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
En resumen...
Problemas:
La tecnologa relacional no escala (volumen).
Informacion altamente distribuida con grandes
ujos de transmision
(velocidad).
La tecnologa relacional es muy rgida para adaptarse a la falta de
estructura subyacente al Big Data (variedad).
Soluciones:
Tecnologa escalable para el almacenamiento.
Infraestructura para la distribucion y comparticion.
Modelos
exibles de representacion.
A que os suena esto? : : : quiza a la WWW?
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 14/65
26. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
{ La WWW es Big Data? {
La WWW es una fuente de conocimiento universal que ha transformado
desde las relaciones sociales hasta la forma de hacer negocios:
Acumula un volumen gigantesco de informacion.
Genera grandes tra
27. cos de contenido que se mueven a una alta velocidad.
Contiene una amplia variedad de informacion que cubre la practica
totalidad de areas de conocimiento.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 15/65
28. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Algunos numeros de interes...
Volumen:
759 millones de websites, de los que 103 millones se crearon en 2013.
14,3 trillones de paginas web.
672 Exabytes (672 109 GB) de datos accesibles... aunque el total de
datos en la WWW se estima en 1 Yottabyte (1015 GB).
Velocidad:
Se estima que el tra
29. co de la WWW durante 2013 fue 43.639 Petabytes.
Esto supone 119; 56 Petabytes/da 1451 GB/segundo.
Variedad:
Las primeras posiciones de los rankings las ocupan websites como Google,
Facebook, Youtube, Yahoo, Wikipedia, Amazon....
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 16/65
30. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Estructura (grafo) de la WWW
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 17/65
31. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Informacion vs. Datos
Los numeros validan las 3 Vs en la WWW... pero, podemos considerar
la WWW como Big Data?
Informacion vs. Datos:
Las paginas web son las unidades mnimas de contenido con identidad
propia dentro de la WWW.
Cada pagina cocina un peque~no conjunto de datos y obtiene una
determinada informacion que publica bajo la identidad de una URL.
Por lo tanto, la WWW ofrece diferentes interpretaciones de los datos
(entendibles por humanos), pero esconde el raw data.
Big Data ! raw data.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 18/65
32. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Informacion vs. Datos
- Clint Eastwood actuo en El bueno, el feo y el malo.
- El ttulo de El bueno, el feo y el malo en italiano es Il buono il brutto, il cattivo.
- Clint Eastwood gano el Oscar a mejor director por Million Dollar Baby.
...
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 19/65
33. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
A pesar de todo...
La irrupcion de las redes sociales ha
roto parcialmente la vision de Web
documental:
Se pueden identi
34. car varias
unidades de contenido dentro de
una pagina (URL).
Estamos mas proximos al concepto
de raw data.
Cada tweet es una unidad de
contenido... y podemos acceder a su
raw data mediante la API de Twitter.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 20/65
35. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
{ Fundamentos de la Web 3.0. {
El objetivo de la Web 3.0. es el de construir una Web de Datos:
Rompe con la vision documental de la WWW y da identidad propia al raw
data.
Obtiene una estructura de grafo comparable a la de la WWW:
Los nodos representan a cada uno de los datos publicados.
Las aristas describen la semantica que caracteriza la relacion entre los
datos.
La Web 3.0. se despliega sobre la infraestructura de la WWW:
El acceso a los datos se realiza mediante HTTP, facilitando la
reutilizacion de la experiencia adquirida en la WWW.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 21/65
36. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Principios Basicos
Tim Berners-Lee
Creador de la WWW y uno de los
precursores principales de la Web 3.0.
Utilizar URIs para identi
38. car a Clint Eastwood podramos utilizar la URI:
http://dataweb.infor.uva.es/persona/Clint Eastwood
Hacer las URIs dereferenceables va HTTP.
Al colocar la URI anterior en un browser semantico, se deberan
recuperar (mediante HTTP) todos los datos enlazados con ella.
Utilizacion de estandares.
La descripcion de los datos, los mecanismos de consulta, etc. deben
implementarse utilizando estandares (RDF, SPARQL ...).
Establecer relaciones entre los datos para facilitar su
navegacion.
Dado que Clint Eastwood fue el director de Mystic River, su URI podra
enlazarse con http://dataweb.infor.uva.es/pelicula/Mystic River.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 22/65
39. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Estandares y tecnologas: RDF
RDF (W3C Recommendation) es un modelo logico que facilita la
descripcion de recursos en forma de triples:
El sujeto denota el recurso que esta siendo descrito.
El predicado representa la propiedad que se esta describiendo.
El objeto describe el valor que tiene el recurso para la propiedad descrita.
- El siguiente triple RDF describe que Clint Eastwood es el director
de Mystic River:
8
:
http : ==dataweb:infor :uva:es=persona=Clint Eastwood
http : ==dataweb:infor :uva:es=propiedad=director
http : ==dataweb:infor :uva:es=pelicula=Mystic River
RDF permite describir cualquier tipo de datos con independencia de cual
sea su semantica:
Esta propiedad lo convierte en una buena opcion para afrontar la variedad
del Big Data.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 23/65
40. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Estandares y tecnologas: RDF
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 24/65
41. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Estandares y tecnologas: SPARQL
SPARQL (W3C Recommendation) es un lenguaje de consulta basado en
patrones de triples:
Estos patrones tienen la misma forma que un triple RDF, pero permite
que cualquiera de sus tres componentes sea una variable.
Las variables recuperan los resultados que satisfacen la consulta.
La conjuncion (join) de los patrones es la forma de consulta habitual en
SPARQL:
SPARQL tambien provee otros operadores: UNION, OPTIONAL (left outer
join) y FILTER (para el establecimiento de condiciones).
SPARQL puede utilizarse para consultar cualquier coleccion RDF:
Su semantica garantiza la expresion de cualquier tipo de consulta,
facilitando su uso en entornos Big Data.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 25/65
42. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Estandares y tecnologas: SPARQL
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 26/65
43. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Estandares y tecnologas: SPARQL
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 27/65
44. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Estandares y tecnologas: SPARQL
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 28/65
45. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Estandares y tecnologas: Triple Stores
Los triple stores son la tecnologa central de la Web 3.0:
Desempe~nan el rol de bases de datos semanticas.
Virtuoso, Jena, OWLIM...
Ofrecen diferentes variantes para el almacenamiento de RDF:
El almacenamiento basado en tecnologa relacional resulta demasiado
estricto para el relaxed schema de RDF.
El almacenamiento basado en tecnologa no relacional (principalmente
soluciones orientadas a grafos) facilita la representacion de los datos y
optimiza los requisitos de espacio.
Soportan consulta SPARQL:
Para obtener un buen rendimiento en la consulta se suelen utilizar
multi-ndices (por sujeto, predicado y objeto).
Se requieren con
46. guraciones computacionales muy potentes para grandes
colecciones de RDF.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 29/65
47. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
{ Linked Open Data {
Linked Open Data (LOD) es el proyecto mas activo en el ambito de la
Web 3.0:
Promueve la publicacion de Open Data bajo los principios que de
48. nen la
Web 3.0.
La nube de LOD ha crecido progresivamente desde sus inicios en 2007:
Segun el observatorio LODStats, existen 2122 colecciones RDF
disponibles actualmente.
El tama~no de la nube se estima en unos 62 billones de triples1.
DBpedia (la adaptacion de Wikipedia a la Web 3.0.) se considera el
nucleo de LOD:
Comprende triples que describen datos de multitud de areas, lo que
facilita su enlazado con otras colecciones.
Destaca la existencia de numerosas colecciones en el ambito de las
ciencias medicas, entidades de gobierno, multimedia o geografa.
1
Sin contar los 1185 endpoints en los que ha sucedido algun problema durante el estudio.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 30/65
49. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Linked Open Data
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 31/65
50. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Clint Eastwood en LOD
8
:
http : ==dbpedia:org=resource=Clint Eastwood
http : ==xmlns:com=foaf =0;1=name
0Clint Eastwood0@en
8
:
http : ==dbpedia:org=resource=Clint Eastwood
http : ==dbpedia:org=ontology=birthDate
01930 05 310
8
:
http : ==dbpedia:org=resource=Mystic River (
52. lm)
http : ==dbpedia:org=ontology=abstract
0Mystic River is a 2003 American drama
53. lm directed; produced and scored by Clint Eastwood:::0@en
Nuestra descripcion podra enlazarse facilmente con DBpedia...
8 :
http : ==dataweb:infor :uva:es=persona=Clint Eastwood
http : ==www:w3:org=2002=07=owl#sameAs
http : ==dbpedia:org=resource=Clint Eastwood
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 32/65
54. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Clint Eastwood en LOD
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 33/65
55. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Indice
1 Big Data Web 3.0.
2 Linked Data en Tiempo Real
3 Trabajo Futuro
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 34/65
56. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
{ Escenario Objetivo {
Publicacion de Linked Data en tiempo real:
Gestion de una gran base de conocimiento RDF en crecimiento progresivo
(Big Semantic Data).
Captura y exposicion de nuevos fragmentos de RDF en tiempo real:
- Sensores meterorologicos/estado del tra
57. co/contaminacion.
- Transacciones bancarias/transporte/turismo.
- Publicaciones en redes sociales...
Exposicion de los datos (historicos y recientes) para su reutilizacion:
- Dereferenciacion de URIs.
- Consulta SPARQL.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 35/65
58. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Escenario Objetivo
Donde podra ser util una solucion as?
Integracion de diversas fuentes de datos en una base de conocimiento
central.
Reutilizacion de los datos por diferentes tipos de aplicaciones.
{ Intranets: los diferentes departamentos/unidades de negocio publican sus datos
(de acuerdo a su operativa habitual), quedando disponibles para su utilizacion
en aplicaciones corporativas de diferente naturaleza.
{ Sistemas de toma de decisiones: capturan los datos provistos por las fuentes de
interes y los integran en su almacen para obtener respuestas actualizadas
utilizando las consultas SPARQL correspondientes.
{ Instituciones publicas: implementan sus Open Data de forma que los datos
esten accesibles en tiempo real, facilitando su reutilizacion va derenferenciacion
de URIs o consulta SPARQL.
{ Proyectos de Smart-cities, Internet of Things...
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 36/65
59. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
{ Problematica General {
La publicacion de Linked Data en tiempo real es un problema complejo:
El volumen de las colecciones RDF crece progresivamente.
La velocidad de generacion de nuevos triples puede ser bastante alta.
Se reciben numerosas consultas SPARQL que deben resolverse a la
velocidad mas alta posible.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 37/65
60. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Los problemas Big
Almacenamiento:
RDF fue dise~nado, en sus orgenes, para describir individualmente
peque~nos recursos:
Los formatos de serializacion utilizados para almacenar RDF estan
orientados al consumo humano.
RDF se utiliza, actualmente, para describir grandes colecciones de
recursos enlazados entre s:
Los formatos de serializacion resultan demasiado redundantes para este
nuevo proposito.
Incremento innecesario de los costes de almacenamiento... y de los
costes de intercambio en red.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 38/65
61. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Los problemas Big
Consulta:
La resolucion e
62. ciente de los patrones SPARQL requiere multi-ndices
(uno o varios para cada uno de los elementos del triple):
Las soluciones mas competitivas suelen utilizar seis tipos diferentes de
ndices.
El coste de almacenamiento se dispara y el rendimiento de las consultas
esta fuertemente penalizado por las transferencias disco-memoria (E/S):
Las soluciones en cluster tambien pagan importantes costes de
transmision.
Las soluciones existentes son poco escalables y eso limita la adopcion
de los principios de la Web 3.0. para la resolucion de problemas
relacionados con Big Data.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 39/65
63. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Los problemas Real-Time
Captura:
Los fragmentos de RDF llegan de forma continua en el tiempo (la
velocidad a la que lo hacen depende del escenario de aplicacion):
Hay que garantizar un throughput de escritura que asegure que no se
pierde ningun dato.
Consulta:
Los nuevos datos deben exponerse una vez capturados:
Estos datos deben integrarse de forma dinamica en los mecanismos
utilizados para la dereferenciacion de URIs y la resolucion de SPARQL.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 40/65
64. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
{ Principios Arquitectonicos {
La arquitectura Lambda establece los principios basicos para la
gestion de Big Data en tiempo real:
Inmutabilidad de los datos.
Aislamiento de complejidades.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 41/65
65. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Inmutabilidad de los Datos
El almacenamiento del Big Data debe contener exclusivamente raw data:
El raw data describe piezas de informacion que no pueden derivarse de
ninguna otra.
Por lo tanto, cada una de estas piezas de informacion es verdadera por el
mero hecho de existir.
Los datos nunca cambian ! el almacenamiento del Big Data es
inmutable:
La implementacion del almacenamiento debe permitir la insercion de
nuevos datos, pero evita las operaciones dinamicas (actualizacion y
borrado) sobre ellos.
Los datos pueden almacenarse utilizando estructuras basicas de
66. cheros.
Es necesario disponer de mecanismos que permitan realizar computos
arbitrarios sobre estos
67. cheros.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 42/65
68. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Aislamiento de Complejidades
Los problemas big y real-time deben resolverse de forma
independiente para conseguir soluciones menos complejas:
Lambda plantea una arquitectura en tres capas: batch, serving y speed.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 43/65
69. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Batch Layer
Almacena la copia maestra con todos los datos
originales:
Es la parte inmutable del sistema.
Solo se pueden a~nadir nuevos datos, por lo que su
tama~no crece constantemente.
Resuelve operaciones arbitrarias sobre el conjunto
completo de los datos:
Operaciones muy costosas en computo, mucha
latencia en su resolucion.
Utilizan primitivas de bajo nivel para la
manipulacion de los datos (ej: Map-Reduce).
Obtencion de vistas de los datos:
Representaciones orientadas a la consulta.
Simplicidad en su implementacion.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 44/65
70. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Serving Layer
Carga las vistas obtenidas en Batch para su consulta:
Las vistas de la capa Batch pueden entender como
71. cheros que contienen los registros que describen las
vistas.
La capa Serving indexa estos
72. cheros para mejorar
el rendimiento de la consulta.
Esta decision nos evita tener que procesar el Big
Data con cada pregunta, mejorando con ello la
velocidad de consulta.
La capa Serving tiene una implementacion sencilla:
Esta centrada en indexacion y resolucion de
consultas.
No soporta operaciones dinamicas de escritura (que
son las que aumentan la complejidad de la base de
datos).
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 45/65
73. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Speed Layer
El proposito de esta capa es asumir las necesidades de
tiempo real:
Es responsable de gestionar (de forma temporal)
aquellos datos que llegan al sistema despues de
haber comenzado la obtencion de una vista.
Las vistas de esta capa se actualizan al mismo
tiempo que llegan los datos (actualizacion
incremental).
Speed es una capa compleja:
Debe proveer soporte para lectura y escritura de
nuevos datos en tiempo real.
El impacto de esta complejidad esta controlado
dado que Speed gestiona peque~nos volumenes de
datos (que se descartan una vez se integran en la
capa Batch).
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 46/65
74. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Consulta en Lambda
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 47/65
75. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
{ Solid {
Solid es una arquitectura que adapta los principios de Lambda para
la publicacion de Linked Data en tiempo real.
Comprende tres componentes principales que asumen diferentes
responsabilidades espec
76. cas dentro de la arquitectura:
Content asume las responsabilidades de organizar y almacenar los datos
en tres capas (Data, Index y Online) que diferencian los datos historicos
(Big Data) y los recogidos en tiempo de ejecucion (real-time data).
Merge es responsable de integrar conjuntos de datos real-time en el
almacenamiento del Big Data.
Service actua como intermediario entre los almacenes de datos en
Content, haciendo transparente al cliente el proceso de consulta.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 48/65
77. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Solid
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 49/65
78. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Content
La capa Data implementa un almacenamiento inmutable del Big
Semantic Data:
Los triples se almacenan en
79. cheros acordes a una sintaxis valida de RDF.
Provee una interfaz de acceso para la resolucion de patrones SPARQL.
La capa Index auto-indexa la capa data:
Construye estructuras de datos espec
80. cas que permiten resolver las
consultas SPARQL.
La capa Online captura nuevos triples RDF y los almacena en estructuras
dinamicas que soportan acceso indexado a los dados:
Esta capa actua como un buer temporal de la capa data.
Provee resolucion de consultas SPARQL.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 50/65
81. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Implementacion de Content (Data+Index)
Se necesita un nuevo formato de serializacion:
Los humanos no leemos Big Semantic Data: serializacion
binaria.
El acceso al Big Semantic Data se realiza en forma de
patrones de triples: serializacion binaria como grafo.
El Big Semantic Data ocupa mucho: serializacion
comprimida como grafo.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 51/65
82. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
W3C Submission (HDT)
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 52/65
83. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
HDT
Cuales son los bene
84. cios de HDT?
I. Menor espacio:
Reduccion de los requisitos de almacenamiento y los tiempos de
intercambio.
II. Mejor organizacion:
Mejora en el acceso a los datos: navegacion nativa sujeto ! objeto .
III. Consulta e
85. ciente:
La compresion reduce sustancialmente los costes (E/S): mas datos en
memoria. HDT se puede convertir en un multi-ndice con una
sobrecarga moderada en espacio !!
- Las representaciones HDT no se pueden actualizar en tiempo real:
- Actualizacion diferida (en batch).
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 53/65
86. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
HDT en cifras
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 54/65
87. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Proyecto RDF/HDT
http://www.rdfhdt.org
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 55/65
88. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Implementacion de Content (Online)
Se necesita un triple store con capacidad para capturar los
datos al vuelo y hacerlos directamente consultables:
Alto throughput de escritura y capacidad de re-indexacion
dinamica.
Estas propiedades se deterioran progresivamente con el
volumen de datos almacenados y, ademas, el rendimiento
de los triple stores se reduce tambien en grandes
colecciones.
Los datos gestionados en tiempo real nunca deben
alcanzar un volumen Big.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 56/65
89. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Implementacion de Merge
Merge integra los datos real-time en el
Big Semantic Data de la capa Data:
Merge es responsable de que la capa Online conserve
su rendimiento: cuando el volumen de los datos es
grande, se activa el proceso de integracion.
El proceso se realiza en batch y es potencialmente
paralelizable.
Una vez obtenida la nueva con
91. guracion de
estructuras de datos en la capa Index.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 57/65
92. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Implementacion de Service
Los datos estan repartidos entre los
almacenes Big y Real-Time:
Se necesita un intermediario que haga que
esta distribucion sea transparente a la consulta.
La capa Service realiza una arquitectura
95. ltros de acuerdo a la
semantica de la consulta.
Resolver las consultas requiere...
Resolucion independiente en cada uno de los
almacenes.
Resolucion combinada entre cada uno de los
almacenes: la capa Online se utiliza como
ndice para el acceso al Big Semantic Data.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 58/65
96. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Indice
1 Big Data Web 3.0.
2 Linked Data en Tiempo Real
3 Trabajo Futuro
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 59/65
97. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
{ Hacia donde vamos... {
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 60/65
98. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Trabajo Futuro
Triple Store inmutable (capas Data+Index):
Motor de almacenamiento basado en HDT ! compresion + velocidad de
acceso a los datos.
Sistema de consulta basado en Jena/Sesame ! resolucion SPARQL de
alto rendimiento sobre Big Semantic Data.
Triple Store dinamico (capa Online):
Evaluacion del estado del arte y eleccion de la solucion mas e
99. ciente.
Dise~no de un algoritmo Map-Reduce que aproveche el orden interno de
HDT (capa Merge).
Implementacion de la capa Service:
Evaluacion de posibles optimizaciones en la consulta combinada de los
almacenes de datos.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 61/65
100. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Trabajo Futuro
El objetivo inicial es obtener una implementacion mono-nodo de Solid y
dar el paso hacia su despliegue en cluster:
Distribucion de las capas Data+Index: particionamiento horizontal de
HDT y resolucion distribuida de SPARQL.
Desplegar soluciones basadas en Solid y analizar su viabilidad en
escenarios que trasciendan a los casos de estudio de laboratorio.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 62/65
101. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Hacia donde vamos...
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 63/65
102. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Direcciones de Interes
Proyecto RDF-HDT
http://www.rdfhdt.org
DataWeb Research
http://dataweb.infor.uva.es
@DataWebResearch
Proyecto 4V: Volumen, Velocidad, Variedad y Validez en la Gestion Innovadora de Datos
(TIN2013-46238-C4-3-R), Ministerio de Economa y Competitividad, Espa~na.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 64/65
103. Big Data Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Disclaimer
Esta presentacion se difunde unicamente con
104. nes docentes.
Las imagenes utilizadas pueden pertenecer a terceros y, por tanto, son propiedad de sus autores.
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 65/65