SlideShare una empresa de Scribd logo
1 de 65
Descargar para leer sin conexión
Big Data & Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Mas alla de la Web... 
Por que los datos deben viajar en primera? 
Miguel A. Martnez Prieto 
migumar2@infor.uva.es 
XIV Semana de la Ciencia 
Universidad Rey Juan Carlos 
Mostoles, 13 de Noviembre de 2014 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 1/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Indice 
1 Big Data  Web 3.0. 
2 Linked Data en Tiempo Real 
3 Trabajo Futuro 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 2/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
{ Big Data { 
Que es Big Data? 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 3/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 4/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Big Data 
Big Data 
Cualquier coleccion de datos que excede la capacidad de computo 
de un sistema gestor de bases de datos tradicional. 
Las colecciones consideradas Big Data acumulan un gran volumen de 
datos. 
Dentro de estas colecciones se generan y consultan datos a una gran 
velocidad (en entornos cada vez mas distribuidos). 
Existe una gran variedad en la naturaleza de los datos que almacenan 
estas colecciones (experimentos cient
cos, datos gubernamentales, redes 
sociales...) 
La explotacion del Big Data, en diferentes entornos de aplicacion, genera 
un valor a~nadido. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 5/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Volumen 
El volumen se re
ere a la gran cantidad de datos recopilados y 
almacenados en conjuntos creados para diferentes usos y propositos. 
Segun la International Data Corporation, el volumen de datos digitales en 
el a~no 2012 es 10 veces mayor que en 2007: 
El volumen de los datos crece mas rapido que los recursos de computo 
(Ley de Moore). 
El almacenamiento es el primer reto de escalabilidad en el ambito del 
Big Data: 
Compresion de datos, almacenamiento distribuido, cloud computing... 
La decision de como almacenar los datos repercute directamente en el 
rendimiento de otros procesos: procesamiento, analisis, consulta... 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 6/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Velocidad 
La velocidad hace referencia a la frecuencia de generacion, 
almacenamiento y consulta de los datos: 
Segun IBM, cada da se producen dos trillones y medio de bytes que 
representan nuevos datos. 
Los entornos de generacion y consumo de los datos son inherentemente 
distribuidos: 
Tanto los datos nuevos, como los resultados a las consultas sobre los Big 
Data, deben transmitirse por la red. 
Los recursos de red no crecen en proporcion a la cantidad de datos que 

uyen por ella. 
Cada vez existen mas aplicaciones que necesitan consultar los datos en el 
mismo instante en el que se producen: 
Gestionar las necesidades de operar en tiempo real aumenta notablemente 
la complejidad de gestionar los Big Data. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 7/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Variedad 
La variedad re
ere los diferentes grados de estructura (o falta de ella) 
que pueden encontrarse en el Big Data: 
El 80% de los datos existentes son no estructurados frente al 20% que 
presenta una estructura de
nida. 
La cantidad de datos no estructurados crece 15 veces mas deprisa que los 
estructurados. 
Las fuentes de datos (logs, redes sociales, sensores...) generan colecciones 
acordes a una semantica particular: 
La integracion de datos heterogeneos aumenta el conocimiento potencial 
que puede extraerse de ellos. 
Este conocimiento es la clave para la generacion de nuevo valor 
La gestion efectiva de la variedad precisa de modelos logicos que 
permitan gestionar diferentes tipos de datos en una representacion unica 
e independiente de la estructura de las colecciones. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 8/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Valor 
El valor suele considerarse la cuarta V del 
Big Data. 
Esta dimension enfoca el bene
cio que 
supone para una organizacion incorporar 
la explotacion de Big Data. 
La descripcion del valor esta ligada al 
ambito particular en el que se utiliza el 
Big Data. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 9/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Valor Comercial 
El valor comercial tiene que ver con el 
grado de satisfaccion de los clientes: 
El producto o servicio ofrecido se ha 
mejorado aprovechando el 
conocimiento extraido del Big Data 
Este valor comercial se traduce, en la 
practica, en bene
cios economicos. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 10/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Valor Comercial 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 11/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Valor Social 
El valor social esta relacionado con la 
prestacion de servicios mas e
cientes para 
los ciudadanos: 
Tramites burocraticos, servicios 
educativos y de salud... 
Transparencia poltica. 
Ademas, la reutilizacion de los Big Data 
publicos se considera un catalizador 
potencial de los sistemas economicos: 
Nuevas startups, productos y servicios 
mas ajustados a las necesidades de las 
personas... 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 12/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Valor Cient
co 
La operativa cient
ca con Big Data trae 
consigo: 
El descubrimiento de nuevos fenomenos 
fsicos. 
La prueba de hipotesis. 
Avances espec
cos en diferentes 
disciplinas... 
El boson de Higgs es un ejemplo claro 
de valor cient
co asociado al Big Data. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 13/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
En resumen... 
Problemas: 
La tecnologa relacional no escala (volumen). 
Informacion altamente distribuida con grandes 
ujos de transmision 
(velocidad). 
La tecnologa relacional es muy rgida para adaptarse a la falta de 
estructura subyacente al Big Data (variedad). 
Soluciones: 
Tecnologa escalable para el almacenamiento. 
Infraestructura para la distribucion y comparticion. 
Modelos 
exibles de representacion. 
A que os suena esto? : : : quiza a la WWW? 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 14/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
{ La WWW es Big Data? { 
La WWW es una fuente de conocimiento universal que ha transformado 
desde las relaciones sociales hasta la forma de hacer negocios: 
Acumula un volumen gigantesco de informacion. 
Genera grandes tra
cos de contenido que se mueven a una alta velocidad. 
Contiene una amplia variedad de informacion que cubre la practica 
totalidad de areas de conocimiento. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 15/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Algunos numeros de interes... 
Volumen: 
759 millones de websites, de los que 103 millones se crearon en 2013. 
14,3 trillones de paginas web. 
672 Exabytes (672  109 GB) de datos accesibles... aunque el total de 
datos en la WWW se estima en 1 Yottabyte (1015 GB). 
Velocidad: 
Se estima que el tra
co de la WWW durante 2013 fue 43.639 Petabytes. 
Esto supone  119; 56 Petabytes/da  1451 GB/segundo. 
Variedad: 
Las primeras posiciones de los rankings las ocupan websites como Google, 
Facebook, Youtube, Yahoo, Wikipedia, Amazon.... 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 16/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Estructura (grafo) de la WWW 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 17/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Informacion vs. Datos 
Los numeros validan las 3 Vs en la WWW... pero, podemos considerar 
la WWW como Big Data? 
Informacion vs. Datos: 
Las paginas web son las unidades mnimas de contenido con identidad 
propia dentro de la WWW. 
Cada pagina cocina un peque~no conjunto de datos y obtiene una 
determinada informacion que publica bajo la identidad de una URL. 
Por lo tanto, la WWW ofrece diferentes interpretaciones de los datos 
(entendibles por humanos), pero esconde el raw data. 
Big Data ! raw data. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 18/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Informacion vs. Datos 
- Clint Eastwood actuo en El bueno, el feo y el malo. 
- El ttulo de El bueno, el feo y el malo en italiano es Il buono il brutto, il cattivo. 
- Clint Eastwood gano el Oscar a mejor director por Million Dollar Baby. 
... 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 19/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
A pesar de todo... 
La irrupcion de las redes sociales ha 
roto parcialmente la vision de Web 
documental: 
Se pueden identi
car varias 
unidades de contenido dentro de 
una pagina (URL). 
Estamos mas proximos al concepto 
de raw data. 
Cada tweet es una unidad de 
contenido... y podemos acceder a su 
raw data mediante la API de Twitter. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 20/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
{ Fundamentos de la Web 3.0. { 
El objetivo de la Web 3.0. es el de construir una Web de Datos: 
Rompe con la vision documental de la WWW y da identidad propia al raw 
data. 
Obtiene una estructura de grafo comparable a la de la WWW: 
Los nodos representan a cada uno de los datos publicados. 
Las aristas describen la semantica que caracteriza la relacion entre los 
datos. 
La Web 3.0. se despliega sobre la infraestructura de la WWW: 
El acceso a los datos se realiza mediante HTTP, facilitando la 
reutilizacion de la experiencia adquirida en la WWW. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 21/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Principios Basicos 
Tim Berners-Lee 
Creador de la WWW y uno de los 
precursores principales de la Web 3.0. 
Utilizar URIs para identi
car y nombrar los datos. 
Por ejemplo, para identi
car a Clint Eastwood podramos utilizar la URI: 
http://dataweb.infor.uva.es/persona/Clint Eastwood 
Hacer las URIs dereferenceables va HTTP. 
Al colocar la URI anterior en un browser semantico, se deberan 
recuperar (mediante HTTP) todos los datos enlazados con ella. 
Utilizacion de estandares. 
La descripcion de los datos, los mecanismos de consulta, etc. deben 
implementarse utilizando estandares (RDF, SPARQL ...). 
Establecer relaciones entre los datos para facilitar su 
navegacion. 
Dado que Clint Eastwood fue el director de Mystic River, su URI podra 
enlazarse con http://dataweb.infor.uva.es/pelicula/Mystic River. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 22/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Estandares y tecnologas: RDF 
RDF (W3C Recommendation) es un modelo logico que facilita la 
descripcion de recursos en forma de triples: 
El sujeto denota el recurso que esta siendo descrito. 
El predicado representa la propiedad que se esta describiendo. 
El objeto describe el valor que tiene el recurso para la propiedad descrita. 
- El siguiente triple RDF describe que Clint Eastwood es el director 
de Mystic River: 
8 
: 
http : ==dataweb:infor :uva:es=persona=Clint Eastwood 
http : ==dataweb:infor :uva:es=propiedad=director 
http : ==dataweb:infor :uva:es=pelicula=Mystic River 
RDF permite describir cualquier tipo de datos con independencia de cual 
sea su semantica: 
Esta propiedad lo convierte en una buena opcion para afrontar la variedad 
del Big Data. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 23/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Estandares y tecnologas: RDF 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 24/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Estandares y tecnologas: SPARQL 
SPARQL (W3C Recommendation) es un lenguaje de consulta basado en 
patrones de triples: 
Estos patrones tienen la misma forma que un triple RDF, pero permite 
que cualquiera de sus tres componentes sea una variable. 
Las variables recuperan los resultados que satisfacen la consulta. 
La conjuncion (join) de los patrones es la forma de consulta habitual en 
SPARQL: 
SPARQL tambien provee otros operadores: UNION, OPTIONAL (left outer 
join) y FILTER (para el establecimiento de condiciones). 
SPARQL puede utilizarse para consultar cualquier coleccion RDF: 
Su semantica garantiza la expresion de cualquier tipo de consulta, 
facilitando su uso en entornos Big Data. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 25/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Estandares y tecnologas: SPARQL 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 26/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Estandares y tecnologas: SPARQL 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 27/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Estandares y tecnologas: SPARQL 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 28/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Estandares y tecnologas: Triple Stores 
Los triple stores son la tecnologa central de la Web 3.0: 
Desempe~nan el rol de bases de datos semanticas. 
Virtuoso, Jena, OWLIM... 
Ofrecen diferentes variantes para el almacenamiento de RDF: 
El almacenamiento basado en tecnologa relacional resulta demasiado 
estricto para el relaxed schema de RDF. 
El almacenamiento basado en tecnologa no relacional (principalmente 
soluciones orientadas a grafos) facilita la representacion de los datos y 
optimiza los requisitos de espacio. 
Soportan consulta SPARQL: 
Para obtener un buen rendimiento en la consulta se suelen utilizar 
multi-ndices (por sujeto, predicado y objeto). 
Se requieren con
guraciones computacionales muy potentes para grandes 
colecciones de RDF. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 29/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
{ Linked Open Data { 
Linked Open Data (LOD) es el proyecto mas activo en el ambito de la 
Web 3.0: 
Promueve la publicacion de Open Data bajo los principios que de
nen la 
Web 3.0. 
La nube de LOD ha crecido progresivamente desde sus inicios en 2007: 
Segun el observatorio LODStats, existen 2122 colecciones RDF 
disponibles actualmente. 
El tama~no de la nube se estima en unos 62 billones de triples1. 
DBpedia (la adaptacion de Wikipedia a la Web 3.0.) se considera el 
nucleo de LOD: 
Comprende triples que describen datos de multitud de areas, lo que 
facilita su enlazado con otras colecciones. 
Destaca la existencia de numerosas colecciones en el ambito de las 
ciencias medicas, entidades de gobierno, multimedia o geografa. 
1 
Sin contar los 1185 endpoints en los que ha sucedido algun problema durante el estudio. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 30/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Linked Open Data 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 31/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Clint Eastwood en LOD 
8 
: 
http : ==dbpedia:org=resource=Clint Eastwood 
http : ==xmlns:com=foaf =0;1=name 
0Clint Eastwood0@en 
8 
: 
http : ==dbpedia:org=resource=Clint Eastwood 
http : ==dbpedia:org=ontology=birthDate 
01930  05  310 
8 
: 
http : ==dbpedia:org=resource=Mystic River (
lm) 
http : ==dbpedia:org=property=director 
http : ==dbpedia:org=resource=Clint Eastwood 
8 
: 
http : ==dbpedia:org=resource=Mystic River (
lm) 
http : ==dbpedia:org=ontology=abstract 
0Mystic River is a 2003 American drama
lm directed; produced and scored by Clint Eastwood:::0@en 
Nuestra descripcion podra enlazarse facilmente con DBpedia... 
8 : 
http : ==dataweb:infor :uva:es=persona=Clint Eastwood 
http : ==www:w3:org=2002=07=owl#sameAs 
http : ==dbpedia:org=resource=Clint Eastwood 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 32/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Big Data 
La WWW es Big Data? 
Fundamentos de la Web 3.0. 
Linked Open Data 
Clint Eastwood en LOD 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 33/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Escenario Objetivo 
Problematica General 
Principios Arquitectonicos 
Solid 
Indice 
1 Big Data  Web 3.0. 
2 Linked Data en Tiempo Real 
3 Trabajo Futuro 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 34/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Escenario Objetivo 
Problematica General 
Principios Arquitectonicos 
Solid 
{ Escenario Objetivo { 
Publicacion de Linked Data en tiempo real: 
Gestion de una gran base de conocimiento RDF en crecimiento progresivo 
(Big Semantic Data). 
Captura y exposicion de nuevos fragmentos de RDF en tiempo real: 
- Sensores meterorologicos/estado del tra
co/contaminacion. 
- Transacciones bancarias/transporte/turismo. 
- Publicaciones en redes sociales... 
Exposicion de los datos (historicos y recientes) para su reutilizacion: 
- Dereferenciacion de URIs. 
- Consulta SPARQL. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 35/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Escenario Objetivo 
Problematica General 
Principios Arquitectonicos 
Solid 
Escenario Objetivo 
Donde podra ser util una solucion as? 
Integracion de diversas fuentes de datos en una base de conocimiento 
central. 
Reutilizacion de los datos por diferentes tipos de aplicaciones. 
{ Intranets: los diferentes departamentos/unidades de negocio publican sus datos 
(de acuerdo a su operativa habitual), quedando disponibles para su utilizacion 
en aplicaciones corporativas de diferente naturaleza. 
{ Sistemas de toma de decisiones: capturan los datos provistos por las fuentes de 
interes y los integran en su almacen para obtener respuestas actualizadas 
utilizando las consultas SPARQL correspondientes. 
{ Instituciones publicas: implementan sus Open Data de forma que los datos 
esten accesibles en tiempo real, facilitando su reutilizacion va derenferenciacion 
de URIs o consulta SPARQL. 
{ Proyectos de Smart-cities, Internet of Things... 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 36/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Escenario Objetivo 
Problematica General 
Principios Arquitectonicos 
Solid 
{ Problematica General { 
La publicacion de Linked Data en tiempo real es un problema complejo: 
El volumen de las colecciones RDF crece progresivamente. 
La velocidad de generacion de nuevos triples puede ser bastante alta. 
Se reciben numerosas consultas SPARQL que deben resolverse a la 
velocidad mas alta posible. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 37/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Escenario Objetivo 
Problematica General 
Principios Arquitectonicos 
Solid 
Los problemas Big 
Almacenamiento: 
RDF fue dise~nado, en sus orgenes, para describir individualmente 
peque~nos recursos: 
Los formatos de serializacion utilizados para almacenar RDF estan 
orientados al consumo humano. 
RDF se utiliza, actualmente, para describir grandes colecciones de 
recursos enlazados entre s: 
Los formatos de serializacion resultan demasiado redundantes para este 
nuevo proposito. 
Incremento innecesario de los costes de almacenamiento... y de los 
costes de intercambio en red. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 38/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Escenario Objetivo 
Problematica General 
Principios Arquitectonicos 
Solid 
Los problemas Big 
Consulta: 
La resolucion e
ciente de los patrones SPARQL requiere multi-ndices 
(uno o varios para cada uno de los elementos del triple): 
Las soluciones mas competitivas suelen utilizar seis tipos diferentes de 
ndices. 
El coste de almacenamiento se dispara y el rendimiento de las consultas 
esta fuertemente penalizado por las transferencias disco-memoria (E/S): 
Las soluciones en cluster tambien pagan importantes costes de 
transmision. 
Las soluciones existentes son poco escalables y eso limita la adopcion 
de los principios de la Web 3.0. para la resolucion de problemas 
relacionados con Big Data. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 39/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Escenario Objetivo 
Problematica General 
Principios Arquitectonicos 
Solid 
Los problemas Real-Time 
Captura: 
Los fragmentos de RDF llegan de forma continua en el tiempo (la 
velocidad a la que lo hacen depende del escenario de aplicacion): 
Hay que garantizar un throughput de escritura que asegure que no se 
pierde ningun dato. 
Consulta: 
Los nuevos datos deben exponerse una vez capturados: 
Estos datos deben integrarse de forma dinamica en los mecanismos 
utilizados para la dereferenciacion de URIs y la resolucion de SPARQL. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 40/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Escenario Objetivo 
Problematica General 
Principios Arquitectonicos 
Solid 
{ Principios Arquitectonicos { 
La arquitectura Lambda establece los principios basicos para la 
gestion de Big Data en tiempo real: 
Inmutabilidad de los datos. 
Aislamiento de complejidades. 
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 41/65
Big Data  Web 3.0. 
Linked Data en Tiempo Real 
Trabajo Futuro 
Escenario Objetivo 
Problematica General 
Principios Arquitectonicos 
Solid 
Inmutabilidad de los Datos 
El almacenamiento del Big Data debe contener exclusivamente raw data: 
El raw data describe piezas de informacion que no pueden derivarse de 
ninguna otra. 
Por lo tanto, cada una de estas piezas de informacion es verdadera por el 
mero hecho de existir. 
Los datos nunca cambian ! el almacenamiento del Big Data es 
inmutable: 
La implementacion del almacenamiento debe permitir la insercion de 
nuevos datos, pero evita las operaciones dinamicas (actualizacion y 
borrado) sobre ellos. 
Los datos pueden almacenarse utilizando estructuras basicas de

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Introducción al Big Data
Introducción al Big DataIntroducción al Big Data
Introducción al Big Data
 
Big Data para Dummies
Big Data para DummiesBig Data para Dummies
Big Data para Dummies
 
Big data en entornos corporativos - CommCorp
Big data en entornos corporativos - CommCorpBig data en entornos corporativos - CommCorp
Big data en entornos corporativos - CommCorp
 
Big Data y Redes Sociales: Ejemplos y casos de éxito
Big Data y Redes Sociales: Ejemplos y casos de éxitoBig Data y Redes Sociales: Ejemplos y casos de éxito
Big Data y Redes Sociales: Ejemplos y casos de éxito
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)Educación y datos masivos (Big Data)
Educación y datos masivos (Big Data)
 
Que es big data
Que es big dataQue es big data
Que es big data
 
Big Data y Minería de datos
Big Data y Minería de datos Big Data y Minería de datos
Big Data y Minería de datos
 
Nuevas tecnologias power point pptx
Nuevas tecnologias power point pptxNuevas tecnologias power point pptx
Nuevas tecnologias power point pptx
 
Profesión: Big Data
Profesión: Big DataProfesión: Big Data
Profesión: Big Data
 
Big data
Big dataBig data
Big data
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
 
Dirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big DataDirigiendo y gestionando proyectos Big Data
Dirigiendo y gestionando proyectos Big Data
 
Big data
Big data Big data
Big data
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Big data
Big dataBig data
Big data
 
Big Data Introducción
Big Data IntroducciónBig Data Introducción
Big Data Introducción
 
Big data centrologic 2016
Big data centrologic 2016Big data centrologic 2016
Big data centrologic 2016
 
Big data para principiantes
Big data para principiantesBig data para principiantes
Big data para principiantes
 
Tema1
Tema1Tema1
Tema1
 

Similar a Big Data Web 3.0

UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdfUNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdflaubritez2001
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxJavierNavarrete43
 
Afc module 1 translated
Afc module 1 translatedAfc module 1 translated
Afc module 1 translatedSoniaNaiba
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptxJuanCarlosRomanPerez1
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerEduardo Castro
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigDataKEEDIO
 
Big Data en Beneficio del Ciudadano
Big Data en Beneficio del CiudadanoBig Data en Beneficio del Ciudadano
Big Data en Beneficio del CiudadanoEQ SOFT EIRL
 
Data set module 1 - spanish
Data set   module 1 - spanishData set   module 1 - spanish
Data set module 1 - spanishData-Set
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Ris Fernandez
 
Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataAlfredo Vela Zancada
 

Similar a Big Data Web 3.0 (20)

UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdfUNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
UNLZ - Sistemas de Informacion - Unidad 4 - Big Data.pdf
 
Big data bbva
Big data bbvaBig data bbva
Big data bbva
 
Big-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptxBig-Data-aplicado-a-los-Negocios (1).pptx
Big-Data-aplicado-a-los-Negocios (1).pptx
 
Afc module 1 translated
Afc module 1 translatedAfc module 1 translated
Afc module 1 translated
 
01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx01. Introducción a la Analítica de Datos.pptx
01. Introducción a la Analítica de Datos.pptx
 
Fundamentos.pptx
Fundamentos.pptxFundamentos.pptx
Fundamentos.pptx
 
Big data
Big dataBig data
Big data
 
SQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight ServerSQL Saturday Bogota - Big Data HDInsight Server
SQL Saturday Bogota - Big Data HDInsight Server
 
2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData2016 ULL Cabildo KEEDIO - BigData
2016 ULL Cabildo KEEDIO - BigData
 
Big Data en Beneficio del Ciudadano
Big Data en Beneficio del CiudadanoBig Data en Beneficio del Ciudadano
Big Data en Beneficio del Ciudadano
 
Wp 2015-07
Wp 2015-07Wp 2015-07
Wp 2015-07
 
Data set module 1 - spanish
Data set   module 1 - spanishData set   module 1 - spanish
Data set module 1 - spanish
 
Big data
Big dataBig data
Big data
 
Big data
Big dataBig data
Big data
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big Data
 
Trabajo de bigadata
Trabajo de bigadataTrabajo de bigadata
Trabajo de bigadata
 
Articulo de Big Data
Articulo de Big DataArticulo de Big Data
Articulo de Big Data
 
¿Qué es el Big Data?
¿Qué es el Big Data?¿Qué es el Big Data?
¿Qué es el Big Data?
 
Big Data, Big Picture
Big Data, Big PictureBig Data, Big Picture
Big Data, Big Picture
 

Más de Carlos Cuesta

JITICE 2015 (Cuesta)
JITICE 2015 (Cuesta)JITICE 2015 (Cuesta)
JITICE 2015 (Cuesta)Carlos Cuesta
 
JITICE 2014 (Cuesta)
JITICE 2014 (Cuesta)JITICE 2014 (Cuesta)
JITICE 2014 (Cuesta)Carlos Cuesta
 
Redes Sociales 2014 (Cuesta)
Redes Sociales 2014 (Cuesta)Redes Sociales 2014 (Cuesta)
Redes Sociales 2014 (Cuesta)Carlos Cuesta
 
VADER 2011 (Younessi)
VADER 2011 (Younessi)VADER 2011 (Younessi)
VADER 2011 (Younessi)Carlos Cuesta
 
VADER 2011 (Pérez-Sotelo)
VADER 2011 (Pérez-Sotelo)VADER 2011 (Pérez-Sotelo)
VADER 2011 (Pérez-Sotelo)Carlos Cuesta
 
VADER 2011 (Moreno-Rivera)
VADER 2011 (Moreno-Rivera)VADER 2011 (Moreno-Rivera)
VADER 2011 (Moreno-Rivera)Carlos Cuesta
 

Más de Carlos Cuesta (10)

JITICE 2015 (Cuesta)
JITICE 2015 (Cuesta)JITICE 2015 (Cuesta)
JITICE 2015 (Cuesta)
 
JITICE 2014 (Cuesta)
JITICE 2014 (Cuesta)JITICE 2014 (Cuesta)
JITICE 2014 (Cuesta)
 
Redes Sociales 2014 (Cuesta)
Redes Sociales 2014 (Cuesta)Redes Sociales 2014 (Cuesta)
Redes Sociales 2014 (Cuesta)
 
ECSA 2013 (Cuesta)
ECSA 2013 (Cuesta)ECSA 2013 (Cuesta)
ECSA 2013 (Cuesta)
 
SESoS 2013 (Romay)
SESoS 2013 (Romay)SESoS 2013 (Romay)
SESoS 2013 (Romay)
 
VADER 2011 (Younessi)
VADER 2011 (Younessi)VADER 2011 (Younessi)
VADER 2011 (Younessi)
 
VADER 2011 (Pérez-Sotelo)
VADER 2011 (Pérez-Sotelo)VADER 2011 (Pérez-Sotelo)
VADER 2011 (Pérez-Sotelo)
 
VADER 2011 (Moreno-Rivera)
VADER 2011 (Moreno-Rivera)VADER 2011 (Moreno-Rivera)
VADER 2011 (Moreno-Rivera)
 
ECSA 2011 (Navarro)
ECSA 2011 (Navarro)ECSA 2011 (Navarro)
ECSA 2011 (Navarro)
 
SOAR 2009 (Cuesta)
SOAR 2009 (Cuesta)SOAR 2009 (Cuesta)
SOAR 2009 (Cuesta)
 

Último

Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405rodrimarxim
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptxccordovato
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptxKatherineFabianLoza1
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxYoladsCabarcasTous
 
DIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptxDIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptxKaterin yanac tello
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docxmarthaarroyo16
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotessald071205mmcnrna9
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Ivie
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILeluniversocom
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILeluniversocom
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptxSergiothaine2
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfhernestosoto82
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiatongailustraconcienc
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería yocelynsanchezerasmo
 

Último (20)

Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405Mapa de riesgos de un taller mecánico 405
Mapa de riesgos de un taller mecánico 405
 
2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx2024 2024 202420242024PPT SESIÓN 03.pptx
2024 2024 202420242024PPT SESIÓN 03.pptx
 
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptxESTUDIO DE IMPACTO AMBIENTAL de  explotación minera.pptx
ESTUDIO DE IMPACTO AMBIENTAL de explotación minera.pptx
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
El sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptxEl sistema solar el gran descubrimiento del sistema solar .pptx
El sistema solar el gran descubrimiento del sistema solar .pptx
 
DIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptxDIPLOMA DE CERTIFICADO EQQW_removed.pptx
DIPLOMA DE CERTIFICADO EQQW_removed.pptx
 
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
17 PRACTICAS - MODALIDAAD FAMILIAAR.docx
 
Módulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotesMódulo mapa de riesgos de tienda de abarrotes
Módulo mapa de riesgos de tienda de abarrotes
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...Presentación informe 'Fondos Next Generation European Union destinados a actu...
Presentación informe 'Fondos Next Generation European Union destinados a actu...
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRILPREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
PREGUNTA J DE CONSULTA POPULAR 21 DE ABRIL
 
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRILPREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
PREGUNTA K DE LA CONSULTA POPULAR 21 DE ABRIL
 
que son los planes de ordenamiento predial POP.pptx
que son los planes de ordenamiento predial  POP.pptxque son los planes de ordenamiento predial  POP.pptx
que son los planes de ordenamiento predial POP.pptx
 
Croquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdfCroquis de riesgo de trabajo gasolinera.pdf
Croquis de riesgo de trabajo gasolinera.pdf
 
Niveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologiaNiveles de organización biologica clase de biologia
Niveles de organización biologica clase de biologia
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería Análisis de un mapa de riesgos de una tortillería
Análisis de un mapa de riesgos de una tortillería
 

Big Data Web 3.0

  • 1. Big Data & Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Mas alla de la Web... Por que los datos deben viajar en primera? Miguel A. Martnez Prieto migumar2@infor.uva.es XIV Semana de la Ciencia Universidad Rey Juan Carlos Mostoles, 13 de Noviembre de 2014 Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 1/65
  • 2. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Indice 1 Big Data Web 3.0. 2 Linked Data en Tiempo Real 3 Trabajo Futuro Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 2/65
  • 3. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data { Big Data { Que es Big Data? Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 3/65
  • 4. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 4/65
  • 5. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Big Data Big Data Cualquier coleccion de datos que excede la capacidad de computo de un sistema gestor de bases de datos tradicional. Las colecciones consideradas Big Data acumulan un gran volumen de datos. Dentro de estas colecciones se generan y consultan datos a una gran velocidad (en entornos cada vez mas distribuidos). Existe una gran variedad en la naturaleza de los datos que almacenan estas colecciones (experimentos cient
  • 6. cos, datos gubernamentales, redes sociales...) La explotacion del Big Data, en diferentes entornos de aplicacion, genera un valor a~nadido. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 5/65
  • 7. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Volumen El volumen se re
  • 8. ere a la gran cantidad de datos recopilados y almacenados en conjuntos creados para diferentes usos y propositos. Segun la International Data Corporation, el volumen de datos digitales en el a~no 2012 es 10 veces mayor que en 2007: El volumen de los datos crece mas rapido que los recursos de computo (Ley de Moore). El almacenamiento es el primer reto de escalabilidad en el ambito del Big Data: Compresion de datos, almacenamiento distribuido, cloud computing... La decision de como almacenar los datos repercute directamente en el rendimiento de otros procesos: procesamiento, analisis, consulta... Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 6/65
  • 9. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Velocidad La velocidad hace referencia a la frecuencia de generacion, almacenamiento y consulta de los datos: Segun IBM, cada da se producen dos trillones y medio de bytes que representan nuevos datos. Los entornos de generacion y consumo de los datos son inherentemente distribuidos: Tanto los datos nuevos, como los resultados a las consultas sobre los Big Data, deben transmitirse por la red. Los recursos de red no crecen en proporcion a la cantidad de datos que uyen por ella. Cada vez existen mas aplicaciones que necesitan consultar los datos en el mismo instante en el que se producen: Gestionar las necesidades de operar en tiempo real aumenta notablemente la complejidad de gestionar los Big Data. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 7/65
  • 10. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Variedad La variedad re
  • 11. ere los diferentes grados de estructura (o falta de ella) que pueden encontrarse en el Big Data: El 80% de los datos existentes son no estructurados frente al 20% que presenta una estructura de
  • 12. nida. La cantidad de datos no estructurados crece 15 veces mas deprisa que los estructurados. Las fuentes de datos (logs, redes sociales, sensores...) generan colecciones acordes a una semantica particular: La integracion de datos heterogeneos aumenta el conocimiento potencial que puede extraerse de ellos. Este conocimiento es la clave para la generacion de nuevo valor La gestion efectiva de la variedad precisa de modelos logicos que permitan gestionar diferentes tipos de datos en una representacion unica e independiente de la estructura de las colecciones. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 8/65
  • 13. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Valor El valor suele considerarse la cuarta V del Big Data. Esta dimension enfoca el bene
  • 14. cio que supone para una organizacion incorporar la explotacion de Big Data. La descripcion del valor esta ligada al ambito particular en el que se utiliza el Big Data. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 9/65
  • 15. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Valor Comercial El valor comercial tiene que ver con el grado de satisfaccion de los clientes: El producto o servicio ofrecido se ha mejorado aprovechando el conocimiento extraido del Big Data Este valor comercial se traduce, en la practica, en bene
  • 16. cios economicos. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 10/65
  • 17. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Valor Comercial Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 11/65
  • 18. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Valor Social El valor social esta relacionado con la prestacion de servicios mas e
  • 19. cientes para los ciudadanos: Tramites burocraticos, servicios educativos y de salud... Transparencia poltica. Ademas, la reutilizacion de los Big Data publicos se considera un catalizador potencial de los sistemas economicos: Nuevas startups, productos y servicios mas ajustados a las necesidades de las personas... Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 12/65
  • 20. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Valor Cient
  • 22. ca con Big Data trae consigo: El descubrimiento de nuevos fenomenos fsicos. La prueba de hipotesis. Avances espec
  • 23. cos en diferentes disciplinas... El boson de Higgs es un ejemplo claro de valor cient
  • 24. co asociado al Big Data. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 13/65
  • 25. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data En resumen... Problemas: La tecnologa relacional no escala (volumen). Informacion altamente distribuida con grandes ujos de transmision (velocidad). La tecnologa relacional es muy rgida para adaptarse a la falta de estructura subyacente al Big Data (variedad). Soluciones: Tecnologa escalable para el almacenamiento. Infraestructura para la distribucion y comparticion. Modelos exibles de representacion. A que os suena esto? : : : quiza a la WWW? Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 14/65
  • 26. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data { La WWW es Big Data? { La WWW es una fuente de conocimiento universal que ha transformado desde las relaciones sociales hasta la forma de hacer negocios: Acumula un volumen gigantesco de informacion. Genera grandes tra
  • 27. cos de contenido que se mueven a una alta velocidad. Contiene una amplia variedad de informacion que cubre la practica totalidad de areas de conocimiento. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 15/65
  • 28. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Algunos numeros de interes... Volumen: 759 millones de websites, de los que 103 millones se crearon en 2013. 14,3 trillones de paginas web. 672 Exabytes (672 109 GB) de datos accesibles... aunque el total de datos en la WWW se estima en 1 Yottabyte (1015 GB). Velocidad: Se estima que el tra
  • 29. co de la WWW durante 2013 fue 43.639 Petabytes. Esto supone 119; 56 Petabytes/da 1451 GB/segundo. Variedad: Las primeras posiciones de los rankings las ocupan websites como Google, Facebook, Youtube, Yahoo, Wikipedia, Amazon.... Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 16/65
  • 30. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Estructura (grafo) de la WWW Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 17/65
  • 31. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Informacion vs. Datos Los numeros validan las 3 Vs en la WWW... pero, podemos considerar la WWW como Big Data? Informacion vs. Datos: Las paginas web son las unidades mnimas de contenido con identidad propia dentro de la WWW. Cada pagina cocina un peque~no conjunto de datos y obtiene una determinada informacion que publica bajo la identidad de una URL. Por lo tanto, la WWW ofrece diferentes interpretaciones de los datos (entendibles por humanos), pero esconde el raw data. Big Data ! raw data. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 18/65
  • 32. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Informacion vs. Datos - Clint Eastwood actuo en El bueno, el feo y el malo. - El ttulo de El bueno, el feo y el malo en italiano es Il buono il brutto, il cattivo. - Clint Eastwood gano el Oscar a mejor director por Million Dollar Baby. ... Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 19/65
  • 33. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data A pesar de todo... La irrupcion de las redes sociales ha roto parcialmente la vision de Web documental: Se pueden identi
  • 34. car varias unidades de contenido dentro de una pagina (URL). Estamos mas proximos al concepto de raw data. Cada tweet es una unidad de contenido... y podemos acceder a su raw data mediante la API de Twitter. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 20/65
  • 35. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data { Fundamentos de la Web 3.0. { El objetivo de la Web 3.0. es el de construir una Web de Datos: Rompe con la vision documental de la WWW y da identidad propia al raw data. Obtiene una estructura de grafo comparable a la de la WWW: Los nodos representan a cada uno de los datos publicados. Las aristas describen la semantica que caracteriza la relacion entre los datos. La Web 3.0. se despliega sobre la infraestructura de la WWW: El acceso a los datos se realiza mediante HTTP, facilitando la reutilizacion de la experiencia adquirida en la WWW. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 21/65
  • 36. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Principios Basicos Tim Berners-Lee Creador de la WWW y uno de los precursores principales de la Web 3.0. Utilizar URIs para identi
  • 37. car y nombrar los datos. Por ejemplo, para identi
  • 38. car a Clint Eastwood podramos utilizar la URI: http://dataweb.infor.uva.es/persona/Clint Eastwood Hacer las URIs dereferenceables va HTTP. Al colocar la URI anterior en un browser semantico, se deberan recuperar (mediante HTTP) todos los datos enlazados con ella. Utilizacion de estandares. La descripcion de los datos, los mecanismos de consulta, etc. deben implementarse utilizando estandares (RDF, SPARQL ...). Establecer relaciones entre los datos para facilitar su navegacion. Dado que Clint Eastwood fue el director de Mystic River, su URI podra enlazarse con http://dataweb.infor.uva.es/pelicula/Mystic River. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 22/65
  • 39. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Estandares y tecnologas: RDF RDF (W3C Recommendation) es un modelo logico que facilita la descripcion de recursos en forma de triples: El sujeto denota el recurso que esta siendo descrito. El predicado representa la propiedad que se esta describiendo. El objeto describe el valor que tiene el recurso para la propiedad descrita. - El siguiente triple RDF describe que Clint Eastwood es el director de Mystic River: 8 : http : ==dataweb:infor :uva:es=persona=Clint Eastwood http : ==dataweb:infor :uva:es=propiedad=director http : ==dataweb:infor :uva:es=pelicula=Mystic River RDF permite describir cualquier tipo de datos con independencia de cual sea su semantica: Esta propiedad lo convierte en una buena opcion para afrontar la variedad del Big Data. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 23/65
  • 40. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Estandares y tecnologas: RDF Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 24/65
  • 41. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Estandares y tecnologas: SPARQL SPARQL (W3C Recommendation) es un lenguaje de consulta basado en patrones de triples: Estos patrones tienen la misma forma que un triple RDF, pero permite que cualquiera de sus tres componentes sea una variable. Las variables recuperan los resultados que satisfacen la consulta. La conjuncion (join) de los patrones es la forma de consulta habitual en SPARQL: SPARQL tambien provee otros operadores: UNION, OPTIONAL (left outer join) y FILTER (para el establecimiento de condiciones). SPARQL puede utilizarse para consultar cualquier coleccion RDF: Su semantica garantiza la expresion de cualquier tipo de consulta, facilitando su uso en entornos Big Data. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 25/65
  • 42. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Estandares y tecnologas: SPARQL Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 26/65
  • 43. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Estandares y tecnologas: SPARQL Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 27/65
  • 44. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Estandares y tecnologas: SPARQL Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 28/65
  • 45. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Estandares y tecnologas: Triple Stores Los triple stores son la tecnologa central de la Web 3.0: Desempe~nan el rol de bases de datos semanticas. Virtuoso, Jena, OWLIM... Ofrecen diferentes variantes para el almacenamiento de RDF: El almacenamiento basado en tecnologa relacional resulta demasiado estricto para el relaxed schema de RDF. El almacenamiento basado en tecnologa no relacional (principalmente soluciones orientadas a grafos) facilita la representacion de los datos y optimiza los requisitos de espacio. Soportan consulta SPARQL: Para obtener un buen rendimiento en la consulta se suelen utilizar multi-ndices (por sujeto, predicado y objeto). Se requieren con
  • 46. guraciones computacionales muy potentes para grandes colecciones de RDF. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 29/65
  • 47. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data { Linked Open Data { Linked Open Data (LOD) es el proyecto mas activo en el ambito de la Web 3.0: Promueve la publicacion de Open Data bajo los principios que de
  • 48. nen la Web 3.0. La nube de LOD ha crecido progresivamente desde sus inicios en 2007: Segun el observatorio LODStats, existen 2122 colecciones RDF disponibles actualmente. El tama~no de la nube se estima en unos 62 billones de triples1. DBpedia (la adaptacion de Wikipedia a la Web 3.0.) se considera el nucleo de LOD: Comprende triples que describen datos de multitud de areas, lo que facilita su enlazado con otras colecciones. Destaca la existencia de numerosas colecciones en el ambito de las ciencias medicas, entidades de gobierno, multimedia o geografa. 1 Sin contar los 1185 endpoints en los que ha sucedido algun problema durante el estudio. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 30/65
  • 49. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Linked Open Data Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 31/65
  • 50. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Clint Eastwood en LOD 8 : http : ==dbpedia:org=resource=Clint Eastwood http : ==xmlns:com=foaf =0;1=name 0Clint Eastwood0@en 8 : http : ==dbpedia:org=resource=Clint Eastwood http : ==dbpedia:org=ontology=birthDate 01930 05 310 8 : http : ==dbpedia:org=resource=Mystic River (
  • 51. lm) http : ==dbpedia:org=property=director http : ==dbpedia:org=resource=Clint Eastwood 8 : http : ==dbpedia:org=resource=Mystic River (
  • 52. lm) http : ==dbpedia:org=ontology=abstract 0Mystic River is a 2003 American drama
  • 53. lm directed; produced and scored by Clint Eastwood:::0@en Nuestra descripcion podra enlazarse facilmente con DBpedia... 8 : http : ==dataweb:infor :uva:es=persona=Clint Eastwood http : ==www:w3:org=2002=07=owl#sameAs http : ==dbpedia:org=resource=Clint Eastwood Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 32/65
  • 54. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Big Data La WWW es Big Data? Fundamentos de la Web 3.0. Linked Open Data Clint Eastwood en LOD Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 33/65
  • 55. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Indice 1 Big Data Web 3.0. 2 Linked Data en Tiempo Real 3 Trabajo Futuro Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 34/65
  • 56. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid { Escenario Objetivo { Publicacion de Linked Data en tiempo real: Gestion de una gran base de conocimiento RDF en crecimiento progresivo (Big Semantic Data). Captura y exposicion de nuevos fragmentos de RDF en tiempo real: - Sensores meterorologicos/estado del tra
  • 57. co/contaminacion. - Transacciones bancarias/transporte/turismo. - Publicaciones en redes sociales... Exposicion de los datos (historicos y recientes) para su reutilizacion: - Dereferenciacion de URIs. - Consulta SPARQL. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 35/65
  • 58. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Escenario Objetivo Donde podra ser util una solucion as? Integracion de diversas fuentes de datos en una base de conocimiento central. Reutilizacion de los datos por diferentes tipos de aplicaciones. { Intranets: los diferentes departamentos/unidades de negocio publican sus datos (de acuerdo a su operativa habitual), quedando disponibles para su utilizacion en aplicaciones corporativas de diferente naturaleza. { Sistemas de toma de decisiones: capturan los datos provistos por las fuentes de interes y los integran en su almacen para obtener respuestas actualizadas utilizando las consultas SPARQL correspondientes. { Instituciones publicas: implementan sus Open Data de forma que los datos esten accesibles en tiempo real, facilitando su reutilizacion va derenferenciacion de URIs o consulta SPARQL. { Proyectos de Smart-cities, Internet of Things... Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 36/65
  • 59. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid { Problematica General { La publicacion de Linked Data en tiempo real es un problema complejo: El volumen de las colecciones RDF crece progresivamente. La velocidad de generacion de nuevos triples puede ser bastante alta. Se reciben numerosas consultas SPARQL que deben resolverse a la velocidad mas alta posible. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 37/65
  • 60. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Los problemas Big Almacenamiento: RDF fue dise~nado, en sus orgenes, para describir individualmente peque~nos recursos: Los formatos de serializacion utilizados para almacenar RDF estan orientados al consumo humano. RDF se utiliza, actualmente, para describir grandes colecciones de recursos enlazados entre s: Los formatos de serializacion resultan demasiado redundantes para este nuevo proposito. Incremento innecesario de los costes de almacenamiento... y de los costes de intercambio en red. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 38/65
  • 61. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Los problemas Big Consulta: La resolucion e
  • 62. ciente de los patrones SPARQL requiere multi-ndices (uno o varios para cada uno de los elementos del triple): Las soluciones mas competitivas suelen utilizar seis tipos diferentes de ndices. El coste de almacenamiento se dispara y el rendimiento de las consultas esta fuertemente penalizado por las transferencias disco-memoria (E/S): Las soluciones en cluster tambien pagan importantes costes de transmision. Las soluciones existentes son poco escalables y eso limita la adopcion de los principios de la Web 3.0. para la resolucion de problemas relacionados con Big Data. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 39/65
  • 63. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Los problemas Real-Time Captura: Los fragmentos de RDF llegan de forma continua en el tiempo (la velocidad a la que lo hacen depende del escenario de aplicacion): Hay que garantizar un throughput de escritura que asegure que no se pierde ningun dato. Consulta: Los nuevos datos deben exponerse una vez capturados: Estos datos deben integrarse de forma dinamica en los mecanismos utilizados para la dereferenciacion de URIs y la resolucion de SPARQL. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 40/65
  • 64. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid { Principios Arquitectonicos { La arquitectura Lambda establece los principios basicos para la gestion de Big Data en tiempo real: Inmutabilidad de los datos. Aislamiento de complejidades. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 41/65
  • 65. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Inmutabilidad de los Datos El almacenamiento del Big Data debe contener exclusivamente raw data: El raw data describe piezas de informacion que no pueden derivarse de ninguna otra. Por lo tanto, cada una de estas piezas de informacion es verdadera por el mero hecho de existir. Los datos nunca cambian ! el almacenamiento del Big Data es inmutable: La implementacion del almacenamiento debe permitir la insercion de nuevos datos, pero evita las operaciones dinamicas (actualizacion y borrado) sobre ellos. Los datos pueden almacenarse utilizando estructuras basicas de
  • 66. cheros. Es necesario disponer de mecanismos que permitan realizar computos arbitrarios sobre estos
  • 67. cheros. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 42/65
  • 68. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Aislamiento de Complejidades Los problemas big y real-time deben resolverse de forma independiente para conseguir soluciones menos complejas: Lambda plantea una arquitectura en tres capas: batch, serving y speed. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 43/65
  • 69. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Batch Layer Almacena la copia maestra con todos los datos originales: Es la parte inmutable del sistema. Solo se pueden a~nadir nuevos datos, por lo que su tama~no crece constantemente. Resuelve operaciones arbitrarias sobre el conjunto completo de los datos: Operaciones muy costosas en computo, mucha latencia en su resolucion. Utilizan primitivas de bajo nivel para la manipulacion de los datos (ej: Map-Reduce). Obtencion de vistas de los datos: Representaciones orientadas a la consulta. Simplicidad en su implementacion. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 44/65
  • 70. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Serving Layer Carga las vistas obtenidas en Batch para su consulta: Las vistas de la capa Batch pueden entender como
  • 71. cheros que contienen los registros que describen las vistas. La capa Serving indexa estos
  • 72. cheros para mejorar el rendimiento de la consulta. Esta decision nos evita tener que procesar el Big Data con cada pregunta, mejorando con ello la velocidad de consulta. La capa Serving tiene una implementacion sencilla: Esta centrada en indexacion y resolucion de consultas. No soporta operaciones dinamicas de escritura (que son las que aumentan la complejidad de la base de datos). Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 45/65
  • 73. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Speed Layer El proposito de esta capa es asumir las necesidades de tiempo real: Es responsable de gestionar (de forma temporal) aquellos datos que llegan al sistema despues de haber comenzado la obtencion de una vista. Las vistas de esta capa se actualizan al mismo tiempo que llegan los datos (actualizacion incremental). Speed es una capa compleja: Debe proveer soporte para lectura y escritura de nuevos datos en tiempo real. El impacto de esta complejidad esta controlado dado que Speed gestiona peque~nos volumenes de datos (que se descartan una vez se integran en la capa Batch). Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 46/65
  • 74. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Consulta en Lambda Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 47/65
  • 75. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid { Solid { Solid es una arquitectura que adapta los principios de Lambda para la publicacion de Linked Data en tiempo real. Comprende tres componentes principales que asumen diferentes responsabilidades espec
  • 76. cas dentro de la arquitectura: Content asume las responsabilidades de organizar y almacenar los datos en tres capas (Data, Index y Online) que diferencian los datos historicos (Big Data) y los recogidos en tiempo de ejecucion (real-time data). Merge es responsable de integrar conjuntos de datos real-time en el almacenamiento del Big Data. Service actua como intermediario entre los almacenes de datos en Content, haciendo transparente al cliente el proceso de consulta. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 48/65
  • 77. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Solid Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 49/65
  • 78. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Content La capa Data implementa un almacenamiento inmutable del Big Semantic Data: Los triples se almacenan en
  • 79. cheros acordes a una sintaxis valida de RDF. Provee una interfaz de acceso para la resolucion de patrones SPARQL. La capa Index auto-indexa la capa data: Construye estructuras de datos espec
  • 80. cas que permiten resolver las consultas SPARQL. La capa Online captura nuevos triples RDF y los almacena en estructuras dinamicas que soportan acceso indexado a los dados: Esta capa actua como un buer temporal de la capa data. Provee resolucion de consultas SPARQL. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 50/65
  • 81. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Implementacion de Content (Data+Index) Se necesita un nuevo formato de serializacion: Los humanos no leemos Big Semantic Data: serializacion binaria. El acceso al Big Semantic Data se realiza en forma de patrones de triples: serializacion binaria como grafo. El Big Semantic Data ocupa mucho: serializacion comprimida como grafo. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 51/65
  • 82. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid W3C Submission (HDT) Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 52/65
  • 83. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid HDT Cuales son los bene
  • 84. cios de HDT? I. Menor espacio: Reduccion de los requisitos de almacenamiento y los tiempos de intercambio. II. Mejor organizacion: Mejora en el acceso a los datos: navegacion nativa sujeto ! objeto . III. Consulta e
  • 85. ciente: La compresion reduce sustancialmente los costes (E/S): mas datos en memoria. HDT se puede convertir en un multi-ndice con una sobrecarga moderada en espacio !! - Las representaciones HDT no se pueden actualizar en tiempo real: - Actualizacion diferida (en batch). Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 53/65
  • 86. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid HDT en cifras Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 54/65
  • 87. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Proyecto RDF/HDT http://www.rdfhdt.org Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 55/65
  • 88. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Implementacion de Content (Online) Se necesita un triple store con capacidad para capturar los datos al vuelo y hacerlos directamente consultables: Alto throughput de escritura y capacidad de re-indexacion dinamica. Estas propiedades se deterioran progresivamente con el volumen de datos almacenados y, ademas, el rendimiento de los triple stores se reduce tambien en grandes colecciones. Los datos gestionados en tiempo real nunca deben alcanzar un volumen Big. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 56/65
  • 89. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Implementacion de Merge Merge integra los datos real-time en el Big Semantic Data de la capa Data: Merge es responsable de que la capa Online conserve su rendimiento: cuando el volumen de los datos es grande, se activa el proceso de integracion. El proceso se realiza en batch y es potencialmente paralelizable. Una vez obtenida la nueva con
  • 90. guracion de la capa Data es necesario actualizar la con
  • 91. guracion de estructuras de datos en la capa Index. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 57/65
  • 92. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Escenario Objetivo Problematica General Principios Arquitectonicos Solid Implementacion de Service Los datos estan repartidos entre los almacenes Big y Real-Time: Se necesita un intermediario que haga que esta distribucion sea transparente a la consulta. La capa Service realiza una arquitectura
  • 93. ltro-tubera orientada al procesamiento/ optimizacion de las consultas SPARQL: Implementa
  • 94. ltros para los operandos SPARQL. Combina estos
  • 95. ltros de acuerdo a la semantica de la consulta. Resolver las consultas requiere... Resolucion independiente en cada uno de los almacenes. Resolucion combinada entre cada uno de los almacenes: la capa Online se utiliza como ndice para el acceso al Big Semantic Data. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 58/65
  • 96. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Indice 1 Big Data Web 3.0. 2 Linked Data en Tiempo Real 3 Trabajo Futuro Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 59/65
  • 97. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro { Hacia donde vamos... { Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 60/65
  • 98. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Trabajo Futuro Triple Store inmutable (capas Data+Index): Motor de almacenamiento basado en HDT ! compresion + velocidad de acceso a los datos. Sistema de consulta basado en Jena/Sesame ! resolucion SPARQL de alto rendimiento sobre Big Semantic Data. Triple Store dinamico (capa Online): Evaluacion del estado del arte y eleccion de la solucion mas e
  • 99. ciente. Dise~no de un algoritmo Map-Reduce que aproveche el orden interno de HDT (capa Merge). Implementacion de la capa Service: Evaluacion de posibles optimizaciones en la consulta combinada de los almacenes de datos. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 61/65
  • 100. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Trabajo Futuro El objetivo inicial es obtener una implementacion mono-nodo de Solid y dar el paso hacia su despliegue en cluster: Distribucion de las capas Data+Index: particionamiento horizontal de HDT y resolucion distribuida de SPARQL. Desplegar soluciones basadas en Solid y analizar su viabilidad en escenarios que trasciendan a los casos de estudio de laboratorio. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 62/65
  • 101. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Hacia donde vamos... Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 63/65
  • 102. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Direcciones de Interes Proyecto RDF-HDT http://www.rdfhdt.org DataWeb Research http://dataweb.infor.uva.es @DataWebResearch Proyecto 4V: Volumen, Velocidad, Variedad y Validez en la Gestion Innovadora de Datos (TIN2013-46238-C4-3-R), Ministerio de Economa y Competitividad, Espa~na. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 64/65
  • 103. Big Data Web 3.0. Linked Data en Tiempo Real Trabajo Futuro Disclaimer Esta presentacion se difunde unicamente con
  • 104. nes docentes. Las imagenes utilizadas pueden pertenecer a terceros y, por tanto, son propiedad de sus autores. Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 65/65