6. Datos
Multimedia
generados
por usuarios
Datos
Gubernamentales Publicaciones
Geografía Ciencias de
la Vida
Otros temas
7. Características de la Nube
Enlazada de Datos (NED):
• Los datos son “libres”, Para Septiembre de 2011:
públicos para cualquier • 295 fuentes de datos
persona • 31 mil millones de datos
publicados.
• Los datos pueden ser
• 504 millones de enlaces que
descargados, o ser interrelacionan los datos.
consultados por la web
mediante endpoints.
8. El World Wide Web Consortium es una
comunidad internacional que desarrolla
estándares que aseguran el crecimiento
de la Web a largo plazo.
• XML
• RDF
• RDFa
Estándares • OWL
• Turtle
• N-Triples
9. Estándar para publicar en la Nube Enlazada de
Datos que divide los datos en tripletas
conformadas por sujeto, predicado y valor.
Ejemplo:
El cielo es de color azul
sujeto predicado valor
10. Bajo la fuente de datos llamada Linked-CT, el
cual incluye únicamente ensayos clínicos
Drogas que han sido usadas en ensayos clínicos
para estudiar el cáncer de seno, pulmón y ovario.
Combinaciones de drogas que pueden ser
efectivas para el cáncer de pulmón
Enfermedades para las que han sido estudiadas
las drogas usadas en ensayos clinicos para el
cáncer de seno
Enfermedades que pueden ser tratadas con
algunas de las drogas estudiadas para el cáncer
de pulmón
11. RDF-3X
Para acceder eficientemente
MonetDB a la información se basan en:
•Técnicas de optimización.
•Estrategias de ejecución.
•Estructuras fisicas.
Jena TDB
•Operadores físicos.
¿Pueden las herramientas existentes escalar
Bit Mat
para consultas complejas?
12. Veamos cual es el comportamiento de RDF-3X al
ejecutar una consulta simple.
Forma del plan de ejecución
Obtener todos los generado por RDF-3X:
ensayos clínicos donde
se traten
enfermedades que
usan las drogas
Simvastatin,
Coenzima Q10, Niacin
y Aspirina
Tiempo de respuesta en RDF-3X:
0.51 segs.
13. Ahora analicemos una consulta más compleja.
Forma del plan de ejecución
Obtener todos los generado por RDF-3X:
ensayos clínicos en los
cuales se tratan los
cánceres de seno,
ovarios, pulmón y
colorectal, y que
posean al menos una
droga en común.
Tiempo de respuesta en RDF-3X:
5757 segs. (más de 95 minutos)
14. Basado en RDF-3X.
RDF-3X: Modificado para
construir planes con
esta forma
C-OneQL:
Es decir, más de
3800 veces más
rapido que RDF-3X
Tiempo de respuesta en
C-OneQL: 1,5 segundos
17. La Web Semántica busca la democratización del conocimiento,
mediante la publicación de datos que sean libres para ser
consultados por cualquier persona.
La Nube Enlazada de Datos y el poder de cómputo de las máquinas
actuales pueden ayudar a generar en áreas de investigación en
diferentes campos
Creación de una solución eficiente para consultar la Nube Enlazada
de Datos, sin estar limitado por la complejidad de la consulta.
Las herramientas actuales, como RDF-3X no logran escalar a
consultas complejas por construir planes lineales izquierdos
C-OneQL por sus características aleatorias permite competir en las
consultas simples con las herramientas existentes y además logra
escalar para consultas complejas.
Notas del editor
Aquíhablarsobrecomoes la web hoy en día, dondecualquier persona puedetenerunaduda y con usar un buscadorobtienepáginas web quecontiene la informaciónnecesaria
Decirque la web no estáhechaparaquelasmáquinas, ellas no puedeninterpretarpáginas web como los humanosyaque no estánconstruidas en un lenguajeconocidoporlasmáquinas.
La web semánticabuscaagregar meta-datos a laspáginas web paraqueasí, estaspuedan ser interpretadasporlasmáquina.
Definir la NED y hablarsobresucrecimiento y mencionarquetratandiferentestemas.
Hablarsobrela NED, donde se mencioneque son datoslibres (publicos), tamaño actual de la NED y ventajas de usar, ¿porquéusar la NED?
Mencionarque la W3C es el enteque se encarga de regular todoelemento de la Web, y quetienecomofuncionestablecerestándarespara la NED
Explicarbrevementecomo el formato RDF particiona los datos
Hablarsobrequecosaspodemoshacer con la NED, y los nuevosconocimientosquepodemosdescubrir
Decirquehoy en dia hay herramientasparaconsultar la NED tales comoestasqueutilizantodaslascaracteristicaslistadasparaaccedereficientemente. Mencionarquenosconcentraremos en RDF-3X y dejar la preguntasiesteescala
Hablarsobre el comportamiento de rdf-3x con consultas simples
Hablarsobre el comportamiento de rdf-3x sobreconsultascomplejas
Introducirque C-OneQLesnuestroaporte. Mencionarqueesunamodificacion de rdf-3x (resaltarlasformas de los planes) y hablarsobre la diferencia de tiempos.
Hablarsobre laconfiguracion de los experimentos, mencionarqueusamoscomo dataset LinkedCT
Mostrarlastablas de lostiempos y mostrarlasproporciones de mejoraparacadaconsulta