Big Data Web 3.0

Big Data & Web 3.0.
Linked Data en Tiempo Real
Trabajo Futuro
Mas alla de la Web...
Por que los datos deben viajar en primera?
Miguel A. Martnez Prieto
migumar2@infor.uva.es
XIV Semana de la Ciencia
Universidad Rey Juan Carlos
Mostoles, 13 de Noviembre de 2014
Miguel A. Martnez Prieto Por que los datos deben viajar en primera? 1/65

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Fundamentos de la Web 3.0.
Linked Open Data
Indice
1 Big Data Web 3.0.
2 Linked Data en Tiempo Real
3 Trabajo Futuro

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
{ Big Data {
Que es Big Data?

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Big Data
Big Data
Cualquier coleccion de datos que excede la capacidad de computo
de un sistema gestor de bases de datos tradicional.
Las colecciones consideradas Big Data acumulan un gran volumen de
datos.
Dentro de estas colecciones se generan y consultan datos a una gran
velocidad (en entornos cada vez mas distribuidos).
Existe una gran variedad en la naturaleza de los datos que almacenan
estas colecciones (experimentos cient

cos, datos gubernamentales, redes
sociales...)
La explotacion del Big Data, en diferentes entornos de aplicacion, genera
un valor a~nadido.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Volumen
El volumen se re

ere a la gran cantidad de datos recopilados y
almacenados en conjuntos creados para diferentes usos y propositos.
Segun la International Data Corporation, el volumen de datos digitales en
el a~no 2012 es 10 veces mayor que en 2007:
El volumen de los datos crece mas rapido que los recursos de computo
(Ley de Moore).
El almacenamiento es el primer reto de escalabilidad en el ambito del
Big Data:
Compresion de datos, almacenamiento distribuido, cloud computing...
La decision de como almacenar los datos repercute directamente en el
rendimiento de otros procesos: procesamiento, analisis, consulta...

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Velocidad
La velocidad hace referencia a la frecuencia de generacion,
almacenamiento y consulta de los datos:
Segun IBM, cada da se producen dos trillones y medio de bytes que
representan nuevos datos.
Los entornos de generacion y consumo de los datos son inherentemente
distribuidos:
Tanto los datos nuevos, como los resultados a las consultas sobre los Big
Data, deben transmitirse por la red.
Los recursos de red no crecen en proporcion a la cantidad de datos que

uyen por ella.
Cada vez existen mas aplicaciones que necesitan consultar los datos en el
mismo instante en el que se producen:
Gestionar las necesidades de operar en tiempo real aumenta notablemente
la complejidad de gestionar los Big Data.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Variedad
La variedad re

ere los diferentes grados de estructura (o falta de ella)
que pueden encontrarse en el Big Data:
El 80% de los datos existentes son no estructurados frente al 20% que
presenta una estructura de

nida.
La cantidad de datos no estructurados crece 15 veces mas deprisa que los
estructurados.
Las fuentes de datos (logs, redes sociales, sensores...) generan colecciones
acordes a una semantica particular:
La integracion de datos heterogeneos aumenta el conocimiento potencial
que puede extraerse de ellos.
Este conocimiento es la clave para la generacion de nuevo valor
La gestion efectiva de la variedad precisa de modelos logicos que
permitan gestionar diferentes tipos de datos en una representacion unica
e independiente de la estructura de las colecciones.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Valor
El valor suele considerarse la cuarta V del
Big Data.
Esta dimension enfoca el bene

cio que
supone para una organizacion incorporar
la explotacion de Big Data.
La descripcion del valor esta ligada al
ambito particular en el que se utiliza el
Big Data.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Valor Comercial
El valor comercial tiene que ver con el
grado de satisfaccion de los clientes:
El producto o servicio ofrecido se ha
mejorado aprovechando el
conocimiento extraido del Big Data
Este valor comercial se traduce, en la
practica, en bene

cios economicos.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Valor Comercial

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Valor Social
El valor social esta relacionado con la
prestacion de servicios mas e

cientes para
los ciudadanos:
Tramites burocraticos, servicios
educativos y de salud...
Transparencia poltica.
Ademas, la reutilizacion de los Big Data
publicos se considera un catalizador
potencial de los sistemas economicos:
Nuevas startups, productos y servicios
mas ajustados a las necesidades de las
personas...

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Valor Cient

ca con Big Data trae
consigo:
El descubrimiento de nuevos fenomenos
fsicos.
La prueba de hipotesis.
Avances espec

cos en diferentes
disciplinas...
El boson de Higgs es un ejemplo claro
de valor cient

co asociado al Big Data.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
En resumen...
Problemas:
La tecnologa relacional no escala (volumen).
Informacion altamente distribuida con grandes
ujos de transmision
(velocidad).
La tecnologa relacional es muy rgida para adaptarse a la falta de
estructura subyacente al Big Data (variedad).
Soluciones:
Tecnologa escalable para el almacenamiento.
Infraestructura para la distribucion y comparticion.
Modelos
exibles de representacion.
A que os suena esto? : : : quiza a la WWW?

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
{ La WWW es Big Data? {
La WWW es una fuente de conocimiento universal que ha transformado
desde las relaciones sociales hasta la forma de hacer negocios:
Acumula un volumen gigantesco de informacion.
Genera grandes tra

cos de contenido que se mueven a una alta velocidad.
Contiene una amplia variedad de informacion que cubre la practica
totalidad de areas de conocimiento.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Algunos numeros de interes...
Volumen:
759 millones de websites, de los que 103 millones se crearon en 2013.
14,3 trillones de paginas web.
672 Exabytes (672 109 GB) de datos accesibles... aunque el total de
datos en la WWW se estima en 1 Yottabyte (1015 GB).
Velocidad:
Se estima que el tra

co de la WWW durante 2013 fue 43.639 Petabytes.
Esto supone 119; 56 Petabytes/da 1451 GB/segundo.
Variedad:
Las primeras posiciones de los rankings las ocupan websites como Google,
Facebook, Youtube, Yahoo, Wikipedia, Amazon....

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Estructura (grafo) de la WWW

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Informacion vs. Datos
Los numeros validan las 3 Vs en la WWW... pero, podemos considerar
la WWW como Big Data?
Informacion vs. Datos:
Las paginas web son las unidades mnimas de contenido con identidad
propia dentro de la WWW.
Cada pagina cocina un peque~no conjunto de datos y obtiene una
determinada informacion que publica bajo la identidad de una URL.
Por lo tanto, la WWW ofrece diferentes interpretaciones de los datos
(entendibles por humanos), pero esconde el raw data.
Big Data ! raw data.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Informacion vs. Datos
- Clint Eastwood actuo en El bueno, el feo y el malo.
- El ttulo de El bueno, el feo y el malo en italiano es Il buono il brutto, il cattivo.
- Clint Eastwood gano el Oscar a mejor director por Million Dollar Baby.
...

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
A pesar de todo...
La irrupcion de las redes sociales ha
roto parcialmente la vision de Web
documental:
Se pueden identi

car varias
unidades de contenido dentro de
una pagina (URL).
Estamos mas proximos al concepto
de raw data.
Cada tweet es una unidad de
contenido... y podemos acceder a su
raw data mediante la API de Twitter.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
{ Fundamentos de la Web 3.0. {
El objetivo de la Web 3.0. es el de construir una Web de Datos:
Rompe con la vision documental de la WWW y da identidad propia al raw
data.
Obtiene una estructura de grafo comparable a la de la WWW:
Los nodos representan a cada uno de los datos publicados.
Las aristas describen la semantica que caracteriza la relacion entre los
datos.
La Web 3.0. se despliega sobre la infraestructura de la WWW:
El acceso a los datos se realiza mediante HTTP, facilitando la
reutilizacion de la experiencia adquirida en la WWW.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Principios Basicos
Tim Berners-Lee
Creador de la WWW y uno de los
precursores principales de la Web 3.0.
Utilizar URIs para identi

car y nombrar los datos.
Por ejemplo, para identi

car a Clint Eastwood podramos utilizar la URI:
http://dataweb.infor.uva.es/persona/Clint Eastwood
Hacer las URIs dereferenceables va HTTP.
Al colocar la URI anterior en un browser semantico, se deberan
recuperar (mediante HTTP) todos los datos enlazados con ella.
Utilizacion de estandares.
La descripcion de los datos, los mecanismos de consulta, etc. deben
implementarse utilizando estandares (RDF, SPARQL ...).
Establecer relaciones entre los datos para facilitar su
navegacion.
Dado que Clint Eastwood fue el director de Mystic River, su URI podra
enlazarse con http://dataweb.infor.uva.es/pelicula/Mystic River.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Estandares y tecnologas: RDF
RDF (W3C Recommendation) es un modelo logico que facilita la
descripcion de recursos en forma de triples:
El sujeto denota el recurso que esta siendo descrito.
El predicado representa la propiedad que se esta describiendo.
El objeto describe el valor que tiene el recurso para la propiedad descrita.
- El siguiente triple RDF describe que Clint Eastwood es el director
de Mystic River:
8
:
http : ==dataweb:infor :uva:es=persona=Clint Eastwood
http : ==dataweb:infor :uva:es=propiedad=director
http : ==dataweb:infor :uva:es=pelicula=Mystic River
RDF permite describir cualquier tipo de datos con independencia de cual
sea su semantica:
Esta propiedad lo convierte en una buena opcion para afrontar la variedad
del Big Data.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Estandares y tecnologas: RDF

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Estandares y tecnologas: SPARQL
SPARQL (W3C Recommendation) es un lenguaje de consulta basado en
patrones de triples:
Estos patrones tienen la misma forma que un triple RDF, pero permite
que cualquiera de sus tres componentes sea una variable.
Las variables recuperan los resultados que satisfacen la consulta.
La conjuncion (join) de los patrones es la forma de consulta habitual en
SPARQL:
SPARQL tambien provee otros operadores: UNION, OPTIONAL (left outer
join) y FILTER (para el establecimiento de condiciones).
SPARQL puede utilizarse para consultar cualquier coleccion RDF:
Su semantica garantiza la expresion de cualquier tipo de consulta,
facilitando su uso en entornos Big Data.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Estandares y tecnologas: Triple Stores
Los triple stores son la tecnologa central de la Web 3.0:
Desempe~nan el rol de bases de datos semanticas.
Virtuoso, Jena, OWLIM...
Ofrecen diferentes variantes para el almacenamiento de RDF:
El almacenamiento basado en tecnologa relacional resulta demasiado
estricto para el relaxed schema de RDF.
El almacenamiento basado en tecnologa no relacional (principalmente
soluciones orientadas a grafos) facilita la representacion de los datos y
optimiza los requisitos de espacio.
Soportan consulta SPARQL:
Para obtener un buen rendimiento en la consulta se suelen utilizar
multi-ndices (por sujeto, predicado y objeto).
Se requieren con

guraciones computacionales muy potentes para grandes
colecciones de RDF.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
{ Linked Open Data {
Linked Open Data (LOD) es el proyecto mas activo en el ambito de la
Web 3.0:
Promueve la publicacion de Open Data bajo los principios que de

nen la
Web 3.0.
La nube de LOD ha crecido progresivamente desde sus inicios en 2007:
Segun el observatorio LODStats, existen 2122 colecciones RDF
disponibles actualmente.
El tama~no de la nube se estima en unos 62 billones de triples1.
DBpedia (la adaptacion de Wikipedia a la Web 3.0.) se considera el
nucleo de LOD:
Comprende triples que describen datos de multitud de areas, lo que
facilita su enlazado con otras colecciones.
Destaca la existencia de numerosas colecciones en el ambito de las
ciencias medicas, entidades de gobierno, multimedia o geografa.
1
Sin contar los 1185 endpoints en los que ha sucedido algun problema durante el estudio.

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Linked Open Data

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Clint Eastwood en LOD
8
:
http : ==dbpedia:org=resource=Clint Eastwood
http : ==xmlns:com=foaf =0;1=name
0Clint Eastwood0@en
8
:
http : ==dbpedia:org=ontology=birthDate
01930 05 310
8
:
http : ==dbpedia:org=resource=Mystic River (

lm)
http : ==dbpedia:org=property=director
8
:
http : ==dbpedia:org=resource=Mystic River (

lm)
http : ==dbpedia:org=ontology=abstract
0Mystic River is a 2003 American drama

lm directed; produced and scored by Clint Eastwood:::0@en
Nuestra descripcion podra enlazarse facilmente con DBpedia...
8 :
http : ==dataweb:infor :uva:es=persona=Clint Eastwood
http : ==www:w3:org=2002=07=owl#sameAs

Big Data Web 3.0.
Trabajo Futuro
Big Data
La WWW es Big Data?
Linked Open Data
Clint Eastwood en LOD

Big Data Web 3.0.
Trabajo Futuro
Escenario Objetivo
Problematica General
Principios Arquitectonicos
Solid
Indice
1 Big Data Web 3.0.
2 Linked Data en Tiempo Real
3 Trabajo Futuro

Big Data Web 3.0.
Trabajo Futuro
Escenario Objetivo
Solid
{ Escenario Objetivo {
Publicacion de Linked Data en tiempo real:
Gestion de una gran base de conocimiento RDF en crecimiento progresivo
(Big Semantic Data).
Captura y exposicion de nuevos fragmentos de RDF en tiempo real:
- Sensores meterorologicos/estado del tra

co/contaminacion.
- Transacciones bancarias/transporte/turismo.
- Publicaciones en redes sociales...
Exposicion de los datos (historicos y recientes) para su reutilizacion:
- Dereferenciacion de URIs.
- Consulta SPARQL.

Big Data Web 3.0.
Trabajo Futuro
Escenario Objetivo
Solid
Escenario Objetivo
Donde podra ser util una solucion as?
Integracion de diversas fuentes de datos en una base de conocimiento
central.
Reutilizacion de los datos por diferentes tipos de aplicaciones.
{ Intranets: los diferentes departamentos/unidades de negocio publican sus datos
(de acuerdo a su operativa habitual), quedando disponibles para su utilizacion
en aplicaciones corporativas de diferente naturaleza.
{ Sistemas de toma de decisiones: capturan los datos provistos por las fuentes de
interes y los integran en su almacen para obtener respuestas actualizadas
utilizando las consultas SPARQL correspondientes.
{ Instituciones publicas: implementan sus Open Data de forma que los datos
esten accesibles en tiempo real, facilitando su reutilizacion va derenferenciacion
de URIs o consulta SPARQL.
{ Proyectos de Smart-cities, Internet of Things...

Big Data Web 3.0.
Trabajo Futuro
Escenario Objetivo
Solid
{ Problematica General {
La publicacion de Linked Data en tiempo real es un problema complejo:
El volumen de las colecciones RDF crece progresivamente.
La velocidad de generacion de nuevos triples puede ser bastante alta.
Se reciben numerosas consultas SPARQL que deben resolverse a la
velocidad mas alta posible.

Big Data Web 3.0.
Trabajo Futuro
Escenario Objetivo
Solid
Los problemas Big
Almacenamiento:
RDF fue dise~nado, en sus orgenes, para describir individualmente
peque~nos recursos:
Los formatos de serializacion utilizados para almacenar RDF estan
orientados al consumo humano.
RDF se utiliza, actualmente, para describir grandes colecciones de
recursos enlazados entre s:
Los formatos de serializacion resultan demasiado redundantes para este
nuevo proposito.
Incremento innecesario de los costes de almacenamiento... y de los
costes de intercambio en red.

Big Data Web 3.0.
Trabajo Futuro
Escenario Objetivo
Solid
Los problemas Big
Consulta:
La resolucion e

ciente de los patrones SPARQL requiere multi-ndices
(uno o varios para cada uno de los elementos del triple):
Las soluciones mas competitivas suelen utilizar seis tipos diferentes de
ndices.
El coste de almacenamiento se dispara y el rendimiento de las consultas
esta fuertemente penalizado por las transferencias disco-memoria (E/S):
Las soluciones en cluster tambien pagan importantes costes de
transmision.
Las soluciones existentes son poco escalables y eso limita la adopcion
de los principios de la Web 3.0. para la resolucion de problemas
relacionados con Big Data.

Big Data Web 3.0.
Trabajo Futuro
Escenario Objetivo
Solid
Los problemas Real-Time
Captura:
Los fragmentos de RDF llegan de forma continua en el tiempo (la
velocidad a la que lo hacen depende del escenario de aplicacion):
Hay que garantizar un throughput de escritura que asegure que no se
pierde ningun dato.
Consulta:
Los nuevos datos deben exponerse una vez capturados:
Estos datos deben integrarse de forma dinamica en los mecanismos
utilizados para la dereferenciacion de URIs y la resolucion de SPARQL.

Big Data Web 3.0.
Trabajo Futuro
Escenario Objetivo
Solid
{ Principios Arquitectonicos {
La arquitectura Lambda establece los principios basicos para la
gestion de Big Data en tiempo real:
Inmutabilidad de los datos.
Aislamiento de complejidades.

Big Data Web 3.0.
Trabajo Futuro
Escenario Objetivo
Solid
Inmutabilidad de los Datos
El almacenamiento del Big Data debe contener exclusivamente raw data:
El raw data describe piezas de informacion que no pueden derivarse de
ninguna otra.
Por lo tanto, cada una de estas piezas de informacion es verdadera por el
mero hecho de existir.
Los datos nunca cambian ! el almacenamiento del Big Data es
inmutable:
La implementacion del almacenamiento debe permitir la insercion de
nuevos datos, pero evita las operaciones dinamicas (actualizacion y
borrado) sobre ellos.
Los datos pueden almacenarse utilizando estructuras basicas de

Big Data Web 3.0

Recomendados

Recomendados

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Similar a Big Data Web 3.0

Similar a Big Data Web 3.0 (20)

Más de Carlos Cuesta

Más de Carlos Cuesta (10)

Último

Último (20)

Big Data Web 3.0