SlideShare una empresa de Scribd logo
1 de 63
Descargar para leer sin conexión
Construindo uma Web de Dados
           Link por Link com Software Livre,
                 Esforço Distribuído e
                Recompensa Acumulada
                                   Palaestra no CONSEGI 2011
                                13 de Maio de 2011, Brasilia, Brasil 




                                       Pablo N. Mendes
                                Universidade Livre de Berlim
                                             Alemanha


Obrigado a Christian Bizer, N. Mendes, Construindo uma Web de Dados e todo o WBSG na Brasília, 13/05/2011
                       Pablo Robert Isele, Anja Jentzch, Link por Link, CONSEGI2011, FU Berlin.
Outline

     <
         Dados Ligados? De que me importa?
         l
             Uma nova classe de aplicações na Web

     <
         O que são Dados Ligados?
         l
             Quais são os objetivos e visão?

     <
         Uma olhada na atual Web de Dados Ligados
         l
             Isso é pra valer?

     <
         Quais são os desafios?
         l
             Uma arquitetura de integração de dados na Web

     <
         Concluindo…

2                          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Dados ligados? Por quê?
Docs vs Tabelas: Computadores amam estrutura

<
    Lista de convidados para minha festa                   <
                                                                Organizando o CONSEGI?




                             4                                          4000?
    Quantos convidados virão?                          Quantos convidados virão?
4                       Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Docs vs Tabelas: estrutura permite automação

     <
         Agora usando uma tabela…
                                                      <
                                                           Para o CONSEGI:




                     Quantas pessoas virão?
5                      Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Documentos na Web: multiplas buscas

     <
         Comprar uma pickup ou perua, não a maior, mas com altura
         boa, interior mais comprido




http://dig.csail.mit.edu/2010/LinkedData/Presentations/BusinessValue.pdf
6                               Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Web: Docs vs BDs, estrutura  automação




7               Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
O QUE SÃO DADOS LIGADOS?
Conceitos Básicos de Dados Ligados

      Conjunto de boas práticas para publicação de dados
      estruturados na Web, de acordo com a estrutura geral da
      Web.


      1.   Dê nome às coisas usando URIs
      2.   Use URIs HTTP para que outros possam requisitar mais
           informações sobre essas coisas.
      3.   Quando alguém requisitar uma URI, ofereça informação
           útil em RDF.
      4.   Inclua dados em RDF que estabeleçam links com outras
           URIs para que outros possam descobrir informações
           relacionadas.

      Tim Berners-Lee, http://www.w3.org/DesignIssues/LinkedData.html, 2006

9                         Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Architecture of the classic Web


              Web             Search
                                                        Um único espaço global de informação
            Browsers          Engines

                                                        Pequeno conjunto de padrões simples
                       HTTP
                                                        1.    HTML como formato para documentos
                                                        2.    URLs HTTP como
     HTML              HTML              HTML
                                                              l
                                                                   IDs unívocos globais
                                                              l
                                                                   mecanismo de requisição de dados
             hyper-
              links                                     3.    Hiperlinks para conectar tudo



      A                 B                  C




10                              Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Web 2.0 APIs e Mashups


                                              Não há um único espaço de dados
         Mashup

                                              Limitações
                                              1.    APIs tem interfaces proprietárias
                                              2.    Mashups são baseados em um
     Web     Web   Web         Web
                                                    conjunto fixo de fontes de dados
     API     API   API         API
                                              3.    Não há hiperlinks entre ítens de
                                                    dados provenientes de APIs
                                                    distintas

     A       B     C            D




11                  Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Web APIs cercam a Web como jardins murados




 Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY
12                                       Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Dados Ligados (Linked Data)


                Estendem a Web em direção a
                um espaço global de informações

     1. através do uso de RDF para publicação de dados estruturados na Web
        2. através de links entre ítens de dados em fontes de dados distintas


      RDF           RDF                    RDF                     RDF                    RDF


      RDF           RDF                    RDF                     RDF                    RDF


            RDF               RDF                     RDF                     RDF
            link              links                   links                   links



       A             B                      C                       D                       E


13                  Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Conceitos Básicos: O Modelo de dados RDF

                Um modelo de dados flexível, baseado em grafos

                       rdf:type
        pd:cygri                      foaf:Person

           foaf:name
                              Richard Cyganiak

           foaf:based_near
                                          dbpedia:Berlin



     Representação em texto (formato N3):
     pd:cygry      rdf:type        foaf:Person .
     pd:cygry      foaf:name       “Richard Cyganiak” .
     pd:cygry      foaf:based_near dbpedia:Berlin .




14                           Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Ítens de dados são identificados por URIs

                    rdf:type
     pd:cygri                      foaf:Person

        foaf:name
                           Richard Cyganiak

        foaf:based_near
                                       dbpedia:Berlin




         pd:cygri = http://richard.cyganiak.de/foaf.rdf#cygri
         dbpedia:Berlin = http://dbpedia.org/resource/Berlin


         URIs HTTP assumem o papel de chaves primárias



15                        Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Resolvendo URIs na Web

                     rdf:type
     pd:cygri                       foaf:Person

        foaf:name                                                                             3.405.259
                            Richard Cyganiak
                                                                 dp:population
        foaf:based_near
                                        dbpedia:Berlin

                                                                              skos:subject



                                                                dp:Cities_in_Germany



                O protocolo HTTP traz identificação e obtenção de dados.




16                         Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Propriedades da Web de Dados Ligados

 <
     Espaço distribuído global construído sobre um conjunto simples
     de padrões
      l
        RDF, URIs, HTTP
 <
     Entidades são conectadas por links
      l
        criando um grafo global de dados que se estende por diversas
        fontes de dados e
      l
        habilita a descoberta de novas fontes
 <
     Oferece mecanismos para co-existência de dados onde
      l
        qualquer um publica dados na Web de Dados Ligados
      l
        qualquer um expressa suas opiniões sobre quaisquer dados
      l
        qualquer um usa os vocabulários/esquemas que preferirem




17                   Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Uma olhada na atual web de
      dados ligados
DBpedia, uma peça central na Web de Dados
     <
         Reusar conhecimento existente na Wikipedia




     Generating RDF.

     dbpedia:Albert_Einstein
            foaf:name “Albert Einstein”;
            p:birth_place dbpedia:Ulm;
           p:birth_date 14-03-1879 .


19                       Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
DBpedia: mapeamentos para homogeneidade




20          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
DBpedia Extraction Framework (Open Source)




21           Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
W3C Linking Open Data Project




     <
         Esforço da comunidade para
         l
             publicar dados que já existam com licenças abertas como dados
             ligados na Web
         l
             interligar coisas descritas em fontes de dados distintas




22                       Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Dados Ligados na Web: Maio 2007




     <
         Acima de 500 milhões de triplas RDF
     <
         Cerca de 120.000 links RDF entre fontes de dados

23                           Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Dados Ligados na Web: Setembro 2008




24           Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Dados Ligados na Web: Julho 2009




<
     Mais de 13.1 bilhões de triplas RDF
<
     Mais de 142 milhões de links RDF links entre fontes de dados
25                          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Dados Ligados na Web: Setembro 2010
                                                                      http://www4.wiwiss.fu-berlin.de/lodcloud/state/




<
     Acima de 24,7 bilhões de triplas RDF
<
     Acima de 436 milhões de links RDF entre fontes de dados
26                          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
QUAIS SÃO OS DESAFIOS?
Tarefas para realizar essa visão



     Tarefas:
     1.   Publicar dados em RDF via HTTP
     2.   Criar links RDF apontando para outras fontes
     3.   Fazer com que os dados se auto-descrevam
     4.   Consumir Dados Ligados


     <.
          'Merchan': How to publish Linked Data?
          l
              Livro do Tom Heath e Christian Bizer
              http://linkeddatabook.com/ (Versão HTML é grátis!)




28                     Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Um exemplo de arquitetura baseada em Dados Ligados


                                                 Aplicações




                 Acesso a       Mapear        Resolução de    Avaliação de    Dados da Web
                  Dados       Vocabularios     Identidade      Qualidade       Integrados




29            Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Armazenagem de dados em RDF
                                         http://www4.wiwiss.fu-berlin.de/bizer/BerlinSPARQLBenchmark

 <
     Berlin SPARQL Benchmark BSBM V3 (February 2011)
     l
         Caso de uso de e-Commerce: Produtos oferecidos por diversas
         empresas e com avaliações criadas por consumidores.




30                     Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Publicar: Oferecer Dados em RDF via HTTP

     Ferramentas plug-and-play (exemplos)
     1.   D2R Server
          l
               Mapeia bancos relacionais para RDF,
               e os expõem como dados ligados
          l
               Software Livre: GNU GPL license
     2.   Pubby
           ●
               Camada para expor servidores de SPARQL como dados ligados
          l
               Software Livre: Apache License V2
     3.   Mais ferramentas
          l
               W3C Wiki [1]




          [1] http://esw.w3.org/TaskForces/CommunityProjects/LinkingOpenData/PublishingTools

31                            Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
D2R Mapeando BDs para RDF

     <
         Linguagem declarativa para expressar mapeamentos entre um
         dado banco relacional e um dado esquema em RDF




32                    Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Ajudinha à Homogeneidade: Reuse Termos

     <
         Vocabulários bem conhecidos:
         l
             Friend-of-a-Friend para descrição de pessoas e suas redes sociais
         l
             SIOC para descrição de forums e blogs
         l
             SKOS para representação de taxonomias de tópicos
         l
             Organization Ontology para descrever estrutura de organizações
         l
             GoodRelations para descrição de produtos e entidades de negócio
         l
             Music Ontology para artistas, álbuns, e shows
         l
             Review Vocabulary termos para representação de opiniões
     <
         Fontes conhecidas de identificadores (URIs) para objetos
         l
             LinkedGeoData e Geonames para lugares
         l
             GeneID e UniProt para identificadores na área de ciências da saúde
         l
             DBpedia para temas variados




33                         Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Puxar dados de fontes distintas: LDspider
                                                                           http://code.google.com/p/ldspider/
     <
         Flexível crawler para dados ligados
     <
         Crawls RDF/XML and RDFa
     <
         Software Livre: GPL License



         um pequeno pacote jar com um mínimo                   Crawl de
         de dependências                                     Dados Ligados




                Crawling Twitter Profiles (RDFa)
          Round      1     2       3
          Profiles   1     38      1160




34                              Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Aumentar a homogeneidade com dados externos

     Usando dados heterogêneos que não te pertencem?


     Crie mapeamentos que aumentam a homogeneidade.
         <http://xmlns.com/foaf/0.1/Person>
         owl:equivalentClass
         <http://dbpedia.org/ontology/Person> .




     <
          Mapeamentos Simples: OWL, RDFS, SKOS
           l
               owl:equivalentClass, owl:equivalentProperty,
           l
               rdfs:subClassOf, rdfs:subPropertyOf
           l
               skos:broadMatch, skos:narrowMatch




35                       Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Permita que clientes obtenham o esquema
     Clientes podem fazer requisições a URIs que identificam termos do
     vocabulário de forma a obter suas definições em RDFS ou OWL

                                                                 Alguns dados na Web
      <http://richard.cyganiak.de/foaf.rdf#cygri>
            foaf:name "Richard Cyganiak" ;
            rdf:type <http://xmlns.com/foaf/0.1/Person> .



               Resolver termo desconhecido
               http://xmlns.com/foaf/0.1/Person


                                                           Definição em RDFS ou OWL
     <http://xmlns.com/foaf/0.1/Person>
                rdf:type owl:Class ;
                rdfs:label "Person";
                rdfs:subClassOf <http://xmlns.com/foaf/0.1/Agent> ;
                rdfs:subClassOf <http://xmlns.com/wordnet/1.6/Agent> ;
                owl:equivalentClass <http://dbpedia.org/ontology/Person> .


36                  Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
R2R Framework

     <
         Ferramenta para “tradução” de dados em RDF entre dois
         vocabulários
     <
         Habilita a publicação e descoberta de mapeamentos na Web

     <
         Software Livre: Apache License V2.0




                                              Mapeamento de
                                                Esquemas




37                     Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Linguagem de Mapeamento do R2R

     <
         Permite transformações complexas, usa SPARQL
     <
         Exemplo: tempo de duração – Freebase                                  para DBpedia
     <
         fb:film.film.runtime (em min.) -> dbpedia-owl:runtime (em seg.)




38                      Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Compartilhe Mapeamentos
                                                               Dados na Web




                        Definição de um termo com link para o mapeamento




                                                                Mapeamento R2R


          “Não dê o peixe, ensine a pescar.”


39           Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Crie links apontando para outras fontes

     <
         Mapeou o esquema? Também mapeie os valores.

     <
         Exemplos de links RDF
                                                     Equivalência / resolução de identidade

     <http://dbpedia.org/resource/Berlin> owl:sameAs
     <http://sws.geonames.org/2950159> .

                                                 Reusando URIs como valor de um atributo

     <http://richard.cyganiak.de/foaf.rdf#cygri> foaf:topic_interest
     <http://dbpedia.org/resource/Semantic_Web> .

                                                Descrevendo URIs administrada por outros

     <http://example-bookshop.com/book006251587X> owl:sameAs
     <http://www4.wiwiss.fu-berlin.de/bookmashup/books/006251587X> .



40                    Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Resolução de
 Silk, em três versões                                                                    Identidade
                                                                                       (Homogenizando
                                                                                        Identificadores)
 <
     Silk Single Machine
     l
         Usa multithreading,
         dados locais ou remotos
 <
     Silk MapReduce
     l
         Usa várias máquinas em cluster
     l
         Usa Hadoop
         (ex: roda na Amazon Elastic Cloud)
 <
     Silk Server
     l
         API HTTP
     l
         Compara um fluxo de dados (stream) RDF com uma base local
     l
         Compara também instâncias já vistas no fluxo
     l
         Com o LDspider, pode crirar uma cópia local, sem duplicatas, da Web de
         dados



41                     Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Silk Example: Linking Persons
            <LinkCondition>
            <LinkCondition>
              <Aggregate type="average">
              <Aggregate type="average">
                                                                     Comparar nomes
                <Aggregate type="max" required="true">
                <Aggregate type="max" required="true">            usando a similaridade
                  <Compare metric="jaroWinkler">
                  <Compare metric="jaroWinkler">                       JaroWinkler
                    <TransformInput function="lowerCase">
                    <TransformInput function="lowerCase">
      Agregar         <Input path="?a/foaf:name"/>
                      <Input path="?a/foaf:name"/>            Ignorar maiúsculas/minúsculas
     resultados     </TransformInput>
                    </TransformInput>
                    <TransformInput function="lowerCase">
                    <TransformInput function="lowerCase">
                      <Input path="?b/foaf:name"/>
                      <Input path="?b/foaf:name"/>
                    </TransformInput>
                    </TransformInput>
                  </Compare>
                  </Compare>
                </Aggregate>
                </Aggregate>
                <Aggregate type="max" weight="2" required="true">
                <Aggregate type="max" weight="2" required="true">   Comparar homepages
                  <Compare metric="levenshtein">
                  <Compare metric="levenshtein">
                    <Input path="?a/foaf:homepage"/>
                    <Input path="?a/foaf:homepage"/>
                    <Input path="?b/foaf:homepage"/>
                    <Input path="?b/foaf:homepage"/>
                  </Compare>
                  </Compare>
                                                                      Comparar e-mails
                  <Compare metric="equality">
                  <Compare metric="equality">
                    <Input path="?a/foaf:mbox_sha1sum"/>
                    <Input path="?a/foaf:mbox_sha1sum"/>
                    <Input path="?b/foaf:mbox_sha1sum"/>
                    <Input path="?b/foaf:mbox_sha1sum"/>
                  </Compare>
                  </Compare>
                </Aggregate>
                </Aggregate>
              </Aggregate>
              </Aggregate>
            </LinkCondition>
            </LinkCondition>
42                         Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Silk Avaliação de Desempenho

     <
         Ligar 10.500 lugares (DBpedia) a 59.000 cidades do LinkedGeoData


     <
         Workflow:
          l
              Blocking (agrupar instâncias: cidades por nome)
          l
              Matching (comparação de todos contra todos usando uma “link condition”)
          l
              Filtering (remover ligações com valores baixos de confiança)




         Versão do Silk              Tempo (sem blocking)                   Tempo(com blocking)
         Silk Single Machine1        54 hours                               155.5 min
         Silk MapReduce2             6.7 hours                              14.4 min




43                          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
WIQA Framework

     <
         Permite filtragem de dados da Web usando várias políticas de
         avaliação de qualidade.
     <
         Será estendido com funções de
         fusão de dados                                                   Avaliação de              Data
                                                                           qualidade               Fusion




44                     Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
“E a boa e velha Web de documentos?”
                                                                                                    Outras
                                                                                                 Ferramentas




<
    Anotação em texto
    de entidades da DBpedia
<
    Interligar documentos e dados ligados
    – automaticamente!
<
    Software Livre: Apache V2




45                    Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
DBpedia Spotlight: Extração de Entidades

<
     Desafio:
     l
         Ambiguidade




                                    Brazil
                  dbpedia:Brazil,_Indiana
                  dbpedia:Brazil_national_football_team
                  dbpedia:Brazil_(1944_film)
                  dbpedia:Angela_Brazil
                  (mais de 40 outros sentidos)




46                     Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
DBpedia Spotlight: Extração de Entidades
     <
         Usa parágrafos da Wikipedia como exemplos para aprendizado de máquina
         <
             Atualmente somente em inglês :-(
         <
             Breve: português e espanhol :-)
     <
         Interliga documentos em texto / html com a DBpedia




                                                                          http://dbpedia.org/resource/Brazil




47                          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Application Area: Social Media




Information Overload!


               Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Twarql – Fluxo de Tweets filtrado por SPARQL

     <
         Anotar um fluxo de tweets
         l
             Extração de informações: entidades, usuários, URLs, sentimentos
         l
             Geração de anotações (descrições do tweet) em RDF
         l
             Filtros expressos como consultas SPARQL                    Aplicações
         l
             Permite uso de uma base de conhecimentos
         l
             Entrega informações em tempo real




49                        Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Twarql: Cenário de Brand Tracking (consulta)

 <
     Quais concorrentes estão sendo mencionados com meu
     produto?
     –
         comparando produtos com base em opiniões de redes sociais

 SELECT ?competitor, ?sentiment
 WHERE {
   dbpedia:IPad skos:subject ?category .
   ?competitor skos:subject ?category .
   ?tweet      moat:taggedWith ?competitor .
   ?tweet moat:taggedWith dbpedia:IPad .
   ?tweet twarql:sentiment ?sentiment .
 }
Twarql: Cenário de Brand Tracking (setup)

     Consulta para selecionar tweets de interesse:                        Base de Conhecimento
                                                                              (ex: DBpedia)
       @anonymized
       Lorem ipsum bla bla this is an example tweet

           twarql:sentiment

moat:taggedWith                        ?sentiment
                                                           skos:subject       dbpedia:IPad


                                               ?category       skos:subject
      ?competitor
                          skos:subject



                                       Modelagem: concorrentes são dois produtos
                                            na mesma categoria na DBpedia
Twarql: Cenário de Brand Tracking (KB)

     Consulta para selecionar tweets de interesse:                       Base de Conhecimento
                                                                             (ex: DBpedia)
       @anonymized
       Lorem ipsum bla bla this is an example tweet

           twarql:sentiment

moat:taggedWith                        ?sentiment
                                                                             dbpedia:IPad


      ?competitor                              ?category         skos:subject
                          skos:subject          category:Wi-Fi     skos:subject

                                               category:Touchscreen

                                        O conhecimento advindo da base é trazido
                                    dinamicamente para o tweet através de anotações.
Twarql: Cenário de Brand Tracking (exec.)

                                                                             Base de Conhecimento
  Entrada de um fluxo de tweets:
                                                                                 (ex: DBpedia)
       @anonymized
       Lorem ipsum bla bla this is an example tweet

           twarql:sentiment

moat:taggedWith                        ?sentiment
                                                                                    dbpedia:IPad


      ?competitor                              ?category            skos:subject
                          skos:subject          category:Wi-Fi        skos:subject

                                               category:Touchscreen

                                                      Ação é executada se
                                                      o tweet passar pelo filtro:
Twarql: Cenário de Brand Tracking (obs.)


 •
     Observações
     –
         Quando um novo concorrente “aparece” na base,
         nenhuma mudança é requerida na consulta
         => Evolução Automática
     –
         Encontramos produtos interessantes que não
         consideramos inicialmente como concorrentes do
         IPad (ex: IPhone)
         => Serendipity: surpresa boa :)
http://ligadonospoliticos.com.br
                                                           <
                                                               Projeto da UFJF
                                                                 ●
                                                                      Lucas Araújo


                                                           <
                                                               Baseado em Linked Data




55                    Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
http://pt.dbpedia.org
                                                                   <
                                                                        Pré-lançamento HOJE!
                                                                          ●
                                                                              Freie Universität Berlin
                                                                   <
                                                                        Novos Parceiros
                                                                          l
                                                                              UFJF (Juiz de Fora)
                                                                              Jairo F. de Souza
                                                                          l
                                                                              UFRJ (Rio de Janeiro)
                                                                              Maria Luiza M. Campos



                                                                   <




                                                                   <
                                                                        Lançamento oficial
                                                                          ●
                                                                              Julho/Agosto 2011
                                                                   <
                                                                        Junte-se a nós!




56                      Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Como juntar todas essas informações?

     <
         Crawlers
         l
             Baixar informações de múltiplas fontes para uma cache local.
         l
             Exemplo: veja a Linked Open Data cloud “cache”
             (http://lod.openlinksw.com/sparql)
     <
         Motores de Busca
         l
             Provem acesso integrado a informações distribuídas na Web
         l
             Sindice, Falcons, Watson
     <
         Interfaces de Exploração de Dados
         l
             Tabulator, Disco, VisiNav, Cuebee, Explorator (by PUC-RJ)
         l
             Sigma (http://sig.ma) by DERI
     <
         Aplicações de terceiros
         l
             Exemplo: Mashups
         l
             'A forma mais criativa de utilizar teus dados será descoberta por outra
             pessoa' (via Rufus Pollock no CONSEGI2011)

57                          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
O que muda nesse jogo?

      <
           No passado

          BD
                        Dados                  Portal                                    Consumidor
           BD         Integrados                                 WEB

               BD


                                                                                     Outro Consumidor
      <
           No futuro (agora?)
                                   Portal

          BD
                                                                                         Consumidor
                    WEB DE DADOS
           BD

               BD                                            Outro
                                                            Mashup

       Dados                                                                         Outro Consumidor
     Integrados
58                          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Concluindo…
Lições Aprendidas (Open Source, Open Data)

     <
         Reuse, reuse, reuse e… além disso… reuse! (DRY)
         l
             Protocolos da Web, linguagens, vocabulários, identificadores,
             sempre que possível!
     <
         Linguagens Declarativas
         l
             Facilite o reuso do seu esforço (e.g. compartilhando mapeamentos)
     <
         Release iterativo: libere seu software cedo
         l
             A opinião do público alvo vai guiar o desenvolvimento em direção às
             características mais úteis
     <
         Primeiro os alvos mais fáceis (low hanging fruit) (KISS)
         l
             Adquirir uma massa de dados primeiro, interconectar
             incrementalmente, encontrar dados de alta qualidade
     <
         Cativar e apoiar a comunidade
         l
             Ofereça demonstrações, documentação, apoie listas de discussão,
             mantenha o projeto vivo.

60                        Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Resumo

     <
         Dados Ligados possibilitarão uma nova classe de aplicações
     <
         Integração de dados na Web (interlinking): novos desafios e
         novas oportunidades
     <
         Uma série de aplicações atacando alguns desses desafios
         l
             Publicação: D2R, Pubby
         l
             Aquisição: LDspider
         l
             Mapeamento de Esquemas: R2R
         l
             Interligações: Silk (Resolução de Identidade), DBpedia Spotlight (Extração
             de Entidades em Texto)
         l
             Avaliação de Qualidade: WIQA
         l
             Aplicações: Browsers, Twarql, Sigma
     <
         Em breve: LDIF – Linked Data Integration Framework
         l
             Aquisição, Mapeamento, Interligações, Qualidade: em um pacote!
         l
             Empacotamento Debian!

61                         Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Conclusões
<
     A Web de Dados Ligados está crescendo rapidamente
     l
         Comunidades de implantação estão ativas em vários domínios
     l
         Excedeu a massa crítica
<
     Busca na Web está evoluindo para pergunta+resposta (QA)
     l
         Motores de busca cada vez mais se beneficiam de dados estruturados na Web
<
     Como participar na construção de uma Web melhor?
     l
         Sem conhecimentos técnicos: compartilhe conhecimento abertamente!
     l
         Um pouco técnico: ajude a mapear conhecimento (http://mappings.dbpedia.org)
     l
         Técnico: junte-se a um dos nossos projetos de software livre, ou inicie o seu!
<
     Compartilhe dados, mas também ligações entre dados na Web!
<
     Também compartilhe COMO ligar via mapeamentos, link specs, etc.
<
     Cada link conta!




62                          Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
Obrigado!

                pablo.mendes@fu-berlin.de
                @pablomendes
                http://blog.pablomendes.com
 References
     l
         Christian Bizer, Tom Heath, Tim Berners-Lee: Linked Data – The Story So Far
         http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf
     l
         Linking Open Data Project Wiki
         http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData
     l
         1st Workshop on Consuming Linked Data at ISWC 2010
         http://people.aifb.kit.edu/aha/2010/cold/
     l
         3rd Linked Data on the Web Workshop at WWW 2010
         http://events.linkeddata.org/ldow2010/


63                        Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011

Más contenido relacionado

Similar a Dados Ligados (Linked Data) CONSEGI 2011

Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...Leandro Borges
 
Apresentação linked data
Apresentação linked dataApresentação linked data
Apresentação linked dataUmberto Diniz
 
Cloud computing, web semântica e internet de coisas: dados e utilização
Cloud computing, web semântica e internet de coisas: dados e utilizaçãoCloud computing, web semântica e internet de coisas: dados e utilização
Cloud computing, web semântica e internet de coisas: dados e utilizaçãoVanissa Wanick
 
Entrevista exclusiva tim berners lee
Entrevista exclusiva tim berners leeEntrevista exclusiva tim berners lee
Entrevista exclusiva tim berners leeAlexandre Grolla
 
NoSQL, MongoDB e MEAN
NoSQL, MongoDB e MEANNoSQL, MongoDB e MEAN
NoSQL, MongoDB e MEANOsmar Petry
 
Integrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHPIntegrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHPOtávio Calaça Xavier
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semanticaSPUK
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semanticaSPUK
 
Criação de nuvem de palavras usando python e javascript
Criação de nuvem de palavras usando python e javascriptCriação de nuvem de palavras usando python e javascript
Criação de nuvem de palavras usando python e javascriptRobson Piere
 
Previsões de infraestrutura: 2014
Previsões de infraestrutura: 2014Previsões de infraestrutura: 2014
Previsões de infraestrutura: 2014Cisco do Brasil
 
Web Semântica e SEO: Melhorando resultados nos buscadores com HTML 5 e dados ...
Web Semântica e SEO: Melhorando resultados nos buscadores com HTML 5 e dados ...Web Semântica e SEO: Melhorando resultados nos buscadores com HTML 5 e dados ...
Web Semântica e SEO: Melhorando resultados nos buscadores com HTML 5 e dados ...marcos_b4it
 
MongoDB e OpenShift - JUDCon2014
MongoDB e OpenShift - JUDCon2014MongoDB e OpenShift - JUDCon2014
MongoDB e OpenShift - JUDCon2014Fernando Boaglio
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014WANDERSON JONER
 
Ver
VerVer
Vercsmp
 

Similar a Dados Ligados (Linked Data) CONSEGI 2011 (20)

Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, W...
 
Apresentação linked data
Apresentação linked dataApresentação linked data
Apresentação linked data
 
Web 3 - A Web de Dados
Web 3 - A Web de DadosWeb 3 - A Web de Dados
Web 3 - A Web de Dados
 
Cloud computing, web semântica e internet de coisas: dados e utilização
Cloud computing, web semântica e internet de coisas: dados e utilizaçãoCloud computing, web semântica e internet de coisas: dados e utilização
Cloud computing, web semântica e internet de coisas: dados e utilização
 
Entrevista exclusiva tim berners lee
Entrevista exclusiva tim berners leeEntrevista exclusiva tim berners lee
Entrevista exclusiva tim berners lee
 
WEB 3.0
WEB 3.0WEB 3.0
WEB 3.0
 
NoSQL, MongoDB e MEAN
NoSQL, MongoDB e MEANNoSQL, MongoDB e MEAN
NoSQL, MongoDB e MEAN
 
Integrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHPIntegrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHP
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semantica
 
Consad 2015 abertura de dados e web semantica
Consad 2015   abertura de dados e web semanticaConsad 2015   abertura de dados e web semantica
Consad 2015 abertura de dados e web semantica
 
Caderno05
Caderno05Caderno05
Caderno05
 
Criação de nuvem de palavras usando python e javascript
Criação de nuvem de palavras usando python e javascriptCriação de nuvem de palavras usando python e javascript
Criação de nuvem de palavras usando python e javascript
 
Cibergeografia
CibergeografiaCibergeografia
Cibergeografia
 
Seminário de Andamento de Doutorado
Seminário de Andamento de DoutoradoSeminário de Andamento de Doutorado
Seminário de Andamento de Doutorado
 
Previsões de infraestrutura: 2014
Previsões de infraestrutura: 2014Previsões de infraestrutura: 2014
Previsões de infraestrutura: 2014
 
O Futuro Da Web
O Futuro Da WebO Futuro Da Web
O Futuro Da Web
 
Web Semântica e SEO: Melhorando resultados nos buscadores com HTML 5 e dados ...
Web Semântica e SEO: Melhorando resultados nos buscadores com HTML 5 e dados ...Web Semântica e SEO: Melhorando resultados nos buscadores com HTML 5 e dados ...
Web Semântica e SEO: Melhorando resultados nos buscadores com HTML 5 e dados ...
 
MongoDB e OpenShift - JUDCon2014
MongoDB e OpenShift - JUDCon2014MongoDB e OpenShift - JUDCon2014
MongoDB e OpenShift - JUDCon2014
 
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 20144 semestre trabalho individual analise e desenvolvimento de sistemas 2014
4 semestre trabalho individual analise e desenvolvimento de sistemas 2014
 
Ver
VerVer
Ver
 

Más de Pablo Mendes

Entity Aware Click Graph
Entity Aware Click GraphEntity Aware Click Graph
Entity Aware Click GraphPablo Mendes
 
WWW2012 Tutorial Visualizing SPARQL Queries
WWW2012 Tutorial Visualizing SPARQL QueriesWWW2012 Tutorial Visualizing SPARQL Queries
WWW2012 Tutorial Visualizing SPARQL QueriesPablo Mendes
 
Sieve - Data Quality and Fusion - LWDM2012
Sieve - Data Quality and Fusion - LWDM2012Sieve - Data Quality and Fusion - LWDM2012
Sieve - Data Quality and Fusion - LWDM2012Pablo Mendes
 
A Virtuous Cycle of Semantic Enhancement with DBpedia Spotlight - SemTech Ber...
A Virtuous Cycle of Semantic Enhancement with DBpedia Spotlight - SemTech Ber...A Virtuous Cycle of Semantic Enhancement with DBpedia Spotlight - SemTech Ber...
A Virtuous Cycle of Semantic Enhancement with DBpedia Spotlight - SemTech Ber...Pablo Mendes
 
Ligado nos Políticos at ESWC'2011 Workshop
Ligado nos Políticos at ESWC'2011 WorkshopLigado nos Políticos at ESWC'2011 Workshop
Ligado nos Políticos at ESWC'2011 WorkshopPablo Mendes
 
SMWCon Fall 2011 Lightning Talk
SMWCon Fall 2011 Lightning TalkSMWCon Fall 2011 Lightning Talk
SMWCon Fall 2011 Lightning TalkPablo Mendes
 
DBpedia Spotlight at I-SEMANTICS 2011
DBpedia Spotlight at I-SEMANTICS 2011DBpedia Spotlight at I-SEMANTICS 2011
DBpedia Spotlight at I-SEMANTICS 2011Pablo Mendes
 
Cuebee Architecture
Cuebee ArchitectureCuebee Architecture
Cuebee ArchitecturePablo Mendes
 
Twarql Architecture - Streaming Annotated Tweets
Twarql Architecture - Streaming Annotated TweetsTwarql Architecture - Streaming Annotated Tweets
Twarql Architecture - Streaming Annotated TweetsPablo Mendes
 
Dynamic Associative Relationships on the Linked Open Data Web
Dynamic Associative Relationships on the Linked Open Data WebDynamic Associative Relationships on the Linked Open Data Web
Dynamic Associative Relationships on the Linked Open Data WebPablo Mendes
 

Más de Pablo Mendes (10)

Entity Aware Click Graph
Entity Aware Click GraphEntity Aware Click Graph
Entity Aware Click Graph
 
WWW2012 Tutorial Visualizing SPARQL Queries
WWW2012 Tutorial Visualizing SPARQL QueriesWWW2012 Tutorial Visualizing SPARQL Queries
WWW2012 Tutorial Visualizing SPARQL Queries
 
Sieve - Data Quality and Fusion - LWDM2012
Sieve - Data Quality and Fusion - LWDM2012Sieve - Data Quality and Fusion - LWDM2012
Sieve - Data Quality and Fusion - LWDM2012
 
A Virtuous Cycle of Semantic Enhancement with DBpedia Spotlight - SemTech Ber...
A Virtuous Cycle of Semantic Enhancement with DBpedia Spotlight - SemTech Ber...A Virtuous Cycle of Semantic Enhancement with DBpedia Spotlight - SemTech Ber...
A Virtuous Cycle of Semantic Enhancement with DBpedia Spotlight - SemTech Ber...
 
Ligado nos Políticos at ESWC'2011 Workshop
Ligado nos Políticos at ESWC'2011 WorkshopLigado nos Políticos at ESWC'2011 Workshop
Ligado nos Políticos at ESWC'2011 Workshop
 
SMWCon Fall 2011 Lightning Talk
SMWCon Fall 2011 Lightning TalkSMWCon Fall 2011 Lightning Talk
SMWCon Fall 2011 Lightning Talk
 
DBpedia Spotlight at I-SEMANTICS 2011
DBpedia Spotlight at I-SEMANTICS 2011DBpedia Spotlight at I-SEMANTICS 2011
DBpedia Spotlight at I-SEMANTICS 2011
 
Cuebee Architecture
Cuebee ArchitectureCuebee Architecture
Cuebee Architecture
 
Twarql Architecture - Streaming Annotated Tweets
Twarql Architecture - Streaming Annotated TweetsTwarql Architecture - Streaming Annotated Tweets
Twarql Architecture - Streaming Annotated Tweets
 
Dynamic Associative Relationships on the Linked Open Data Web
Dynamic Associative Relationships on the Linked Open Data WebDynamic Associative Relationships on the Linked Open Data Web
Dynamic Associative Relationships on the Linked Open Data Web
 

Dados Ligados (Linked Data) CONSEGI 2011

  • 1. Construindo uma Web de Dados Link por Link com Software Livre, Esforço Distribuído e Recompensa Acumulada Palaestra no CONSEGI 2011 13 de Maio de 2011, Brasilia, Brasil  Pablo N. Mendes Universidade Livre de Berlim Alemanha Obrigado a Christian Bizer, N. Mendes, Construindo uma Web de Dados e todo o WBSG na Brasília, 13/05/2011 Pablo Robert Isele, Anja Jentzch, Link por Link, CONSEGI2011, FU Berlin.
  • 2. Outline < Dados Ligados? De que me importa? l Uma nova classe de aplicações na Web < O que são Dados Ligados? l Quais são os objetivos e visão? < Uma olhada na atual Web de Dados Ligados l Isso é pra valer? < Quais são os desafios? l Uma arquitetura de integração de dados na Web < Concluindo… 2 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 4. Docs vs Tabelas: Computadores amam estrutura < Lista de convidados para minha festa < Organizando o CONSEGI? 4 4000? Quantos convidados virão? Quantos convidados virão? 4 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 5. Docs vs Tabelas: estrutura permite automação < Agora usando uma tabela… < Para o CONSEGI: Quantas pessoas virão? 5 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 6. Documentos na Web: multiplas buscas < Comprar uma pickup ou perua, não a maior, mas com altura boa, interior mais comprido http://dig.csail.mit.edu/2010/LinkedData/Presentations/BusinessValue.pdf 6 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 7. Web: Docs vs BDs, estrutura  automação 7 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 8. O QUE SÃO DADOS LIGADOS?
  • 9. Conceitos Básicos de Dados Ligados Conjunto de boas práticas para publicação de dados estruturados na Web, de acordo com a estrutura geral da Web. 1. Dê nome às coisas usando URIs 2. Use URIs HTTP para que outros possam requisitar mais informações sobre essas coisas. 3. Quando alguém requisitar uma URI, ofereça informação útil em RDF. 4. Inclua dados em RDF que estabeleçam links com outras URIs para que outros possam descobrir informações relacionadas. Tim Berners-Lee, http://www.w3.org/DesignIssues/LinkedData.html, 2006 9 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 10. Architecture of the classic Web Web Search Um único espaço global de informação Browsers Engines Pequeno conjunto de padrões simples HTTP 1. HTML como formato para documentos 2. URLs HTTP como HTML HTML HTML l IDs unívocos globais l mecanismo de requisição de dados hyper- links 3. Hiperlinks para conectar tudo A B C 10 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 11. Web 2.0 APIs e Mashups Não há um único espaço de dados Mashup Limitações 1. APIs tem interfaces proprietárias 2. Mashups são baseados em um Web Web Web Web conjunto fixo de fontes de dados API API API API 3. Não há hiperlinks entre ítens de dados provenientes de APIs distintas A B C D 11 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 12. Web APIs cercam a Web como jardins murados Image: Bob Jagensdorf, http://flickr.com/photos/darwinbell/, CC-BY 12 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 13. Dados Ligados (Linked Data) Estendem a Web em direção a um espaço global de informações 1. através do uso de RDF para publicação de dados estruturados na Web 2. através de links entre ítens de dados em fontes de dados distintas RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF RDF link links links links A B C D E 13 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 14. Conceitos Básicos: O Modelo de dados RDF Um modelo de dados flexível, baseado em grafos rdf:type pd:cygri foaf:Person foaf:name Richard Cyganiak foaf:based_near dbpedia:Berlin Representação em texto (formato N3): pd:cygry rdf:type foaf:Person . pd:cygry foaf:name “Richard Cyganiak” . pd:cygry foaf:based_near dbpedia:Berlin . 14 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 15. Ítens de dados são identificados por URIs rdf:type pd:cygri foaf:Person foaf:name Richard Cyganiak foaf:based_near dbpedia:Berlin pd:cygri = http://richard.cyganiak.de/foaf.rdf#cygri dbpedia:Berlin = http://dbpedia.org/resource/Berlin URIs HTTP assumem o papel de chaves primárias 15 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 16. Resolvendo URIs na Web rdf:type pd:cygri foaf:Person foaf:name 3.405.259 Richard Cyganiak dp:population foaf:based_near dbpedia:Berlin skos:subject dp:Cities_in_Germany O protocolo HTTP traz identificação e obtenção de dados. 16 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 17. Propriedades da Web de Dados Ligados < Espaço distribuído global construído sobre um conjunto simples de padrões l RDF, URIs, HTTP < Entidades são conectadas por links l criando um grafo global de dados que se estende por diversas fontes de dados e l habilita a descoberta de novas fontes < Oferece mecanismos para co-existência de dados onde l qualquer um publica dados na Web de Dados Ligados l qualquer um expressa suas opiniões sobre quaisquer dados l qualquer um usa os vocabulários/esquemas que preferirem 17 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 18. Uma olhada na atual web de dados ligados
  • 19. DBpedia, uma peça central na Web de Dados < Reusar conhecimento existente na Wikipedia Generating RDF. dbpedia:Albert_Einstein foaf:name “Albert Einstein”; p:birth_place dbpedia:Ulm; p:birth_date 14-03-1879 . 19 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 20. DBpedia: mapeamentos para homogeneidade 20 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 21. DBpedia Extraction Framework (Open Source) 21 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 22. W3C Linking Open Data Project < Esforço da comunidade para l publicar dados que já existam com licenças abertas como dados ligados na Web l interligar coisas descritas em fontes de dados distintas 22 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 23. Dados Ligados na Web: Maio 2007 < Acima de 500 milhões de triplas RDF < Cerca de 120.000 links RDF entre fontes de dados 23 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 24. Dados Ligados na Web: Setembro 2008 24 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 25. Dados Ligados na Web: Julho 2009 < Mais de 13.1 bilhões de triplas RDF < Mais de 142 milhões de links RDF links entre fontes de dados 25 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 26. Dados Ligados na Web: Setembro 2010 http://www4.wiwiss.fu-berlin.de/lodcloud/state/ < Acima de 24,7 bilhões de triplas RDF < Acima de 436 milhões de links RDF entre fontes de dados 26 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 27. QUAIS SÃO OS DESAFIOS?
  • 28. Tarefas para realizar essa visão Tarefas: 1. Publicar dados em RDF via HTTP 2. Criar links RDF apontando para outras fontes 3. Fazer com que os dados se auto-descrevam 4. Consumir Dados Ligados <. 'Merchan': How to publish Linked Data? l Livro do Tom Heath e Christian Bizer http://linkeddatabook.com/ (Versão HTML é grátis!) 28 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 29. Um exemplo de arquitetura baseada em Dados Ligados Aplicações Acesso a Mapear Resolução de Avaliação de Dados da Web Dados Vocabularios Identidade Qualidade Integrados 29 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 30. Armazenagem de dados em RDF http://www4.wiwiss.fu-berlin.de/bizer/BerlinSPARQLBenchmark < Berlin SPARQL Benchmark BSBM V3 (February 2011) l Caso de uso de e-Commerce: Produtos oferecidos por diversas empresas e com avaliações criadas por consumidores. 30 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 31. Publicar: Oferecer Dados em RDF via HTTP Ferramentas plug-and-play (exemplos) 1. D2R Server l Mapeia bancos relacionais para RDF, e os expõem como dados ligados l Software Livre: GNU GPL license 2. Pubby ● Camada para expor servidores de SPARQL como dados ligados l Software Livre: Apache License V2 3. Mais ferramentas l W3C Wiki [1] [1] http://esw.w3.org/TaskForces/CommunityProjects/LinkingOpenData/PublishingTools 31 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 32. D2R Mapeando BDs para RDF < Linguagem declarativa para expressar mapeamentos entre um dado banco relacional e um dado esquema em RDF 32 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 33. Ajudinha à Homogeneidade: Reuse Termos < Vocabulários bem conhecidos: l Friend-of-a-Friend para descrição de pessoas e suas redes sociais l SIOC para descrição de forums e blogs l SKOS para representação de taxonomias de tópicos l Organization Ontology para descrever estrutura de organizações l GoodRelations para descrição de produtos e entidades de negócio l Music Ontology para artistas, álbuns, e shows l Review Vocabulary termos para representação de opiniões < Fontes conhecidas de identificadores (URIs) para objetos l LinkedGeoData e Geonames para lugares l GeneID e UniProt para identificadores na área de ciências da saúde l DBpedia para temas variados 33 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 34. Puxar dados de fontes distintas: LDspider http://code.google.com/p/ldspider/ < Flexível crawler para dados ligados < Crawls RDF/XML and RDFa < Software Livre: GPL License um pequeno pacote jar com um mínimo Crawl de de dependências Dados Ligados Crawling Twitter Profiles (RDFa) Round 1 2 3 Profiles 1 38 1160 34 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 35. Aumentar a homogeneidade com dados externos Usando dados heterogêneos que não te pertencem? Crie mapeamentos que aumentam a homogeneidade. <http://xmlns.com/foaf/0.1/Person> owl:equivalentClass <http://dbpedia.org/ontology/Person> . < Mapeamentos Simples: OWL, RDFS, SKOS l owl:equivalentClass, owl:equivalentProperty, l rdfs:subClassOf, rdfs:subPropertyOf l skos:broadMatch, skos:narrowMatch 35 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 36. Permita que clientes obtenham o esquema Clientes podem fazer requisições a URIs que identificam termos do vocabulário de forma a obter suas definições em RDFS ou OWL Alguns dados na Web <http://richard.cyganiak.de/foaf.rdf#cygri> foaf:name "Richard Cyganiak" ; rdf:type <http://xmlns.com/foaf/0.1/Person> . Resolver termo desconhecido http://xmlns.com/foaf/0.1/Person Definição em RDFS ou OWL <http://xmlns.com/foaf/0.1/Person> rdf:type owl:Class ; rdfs:label "Person"; rdfs:subClassOf <http://xmlns.com/foaf/0.1/Agent> ; rdfs:subClassOf <http://xmlns.com/wordnet/1.6/Agent> ; owl:equivalentClass <http://dbpedia.org/ontology/Person> . 36 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 37. R2R Framework < Ferramenta para “tradução” de dados em RDF entre dois vocabulários < Habilita a publicação e descoberta de mapeamentos na Web < Software Livre: Apache License V2.0 Mapeamento de Esquemas 37 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 38. Linguagem de Mapeamento do R2R < Permite transformações complexas, usa SPARQL < Exemplo: tempo de duração – Freebase para DBpedia < fb:film.film.runtime (em min.) -> dbpedia-owl:runtime (em seg.) 38 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 39. Compartilhe Mapeamentos Dados na Web Definição de um termo com link para o mapeamento Mapeamento R2R “Não dê o peixe, ensine a pescar.” 39 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 40. Crie links apontando para outras fontes < Mapeou o esquema? Também mapeie os valores. < Exemplos de links RDF Equivalência / resolução de identidade <http://dbpedia.org/resource/Berlin> owl:sameAs <http://sws.geonames.org/2950159> . Reusando URIs como valor de um atributo <http://richard.cyganiak.de/foaf.rdf#cygri> foaf:topic_interest <http://dbpedia.org/resource/Semantic_Web> . Descrevendo URIs administrada por outros <http://example-bookshop.com/book006251587X> owl:sameAs <http://www4.wiwiss.fu-berlin.de/bookmashup/books/006251587X> . 40 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 41. Resolução de Silk, em três versões Identidade (Homogenizando Identificadores) < Silk Single Machine l Usa multithreading, dados locais ou remotos < Silk MapReduce l Usa várias máquinas em cluster l Usa Hadoop (ex: roda na Amazon Elastic Cloud) < Silk Server l API HTTP l Compara um fluxo de dados (stream) RDF com uma base local l Compara também instâncias já vistas no fluxo l Com o LDspider, pode crirar uma cópia local, sem duplicatas, da Web de dados 41 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 42. Silk Example: Linking Persons <LinkCondition> <LinkCondition> <Aggregate type="average"> <Aggregate type="average"> Comparar nomes <Aggregate type="max" required="true"> <Aggregate type="max" required="true"> usando a similaridade <Compare metric="jaroWinkler"> <Compare metric="jaroWinkler"> JaroWinkler <TransformInput function="lowerCase"> <TransformInput function="lowerCase"> Agregar <Input path="?a/foaf:name"/> <Input path="?a/foaf:name"/> Ignorar maiúsculas/minúsculas resultados </TransformInput> </TransformInput> <TransformInput function="lowerCase"> <TransformInput function="lowerCase"> <Input path="?b/foaf:name"/> <Input path="?b/foaf:name"/> </TransformInput> </TransformInput> </Compare> </Compare> </Aggregate> </Aggregate> <Aggregate type="max" weight="2" required="true"> <Aggregate type="max" weight="2" required="true"> Comparar homepages <Compare metric="levenshtein"> <Compare metric="levenshtein"> <Input path="?a/foaf:homepage"/> <Input path="?a/foaf:homepage"/> <Input path="?b/foaf:homepage"/> <Input path="?b/foaf:homepage"/> </Compare> </Compare> Comparar e-mails <Compare metric="equality"> <Compare metric="equality"> <Input path="?a/foaf:mbox_sha1sum"/> <Input path="?a/foaf:mbox_sha1sum"/> <Input path="?b/foaf:mbox_sha1sum"/> <Input path="?b/foaf:mbox_sha1sum"/> </Compare> </Compare> </Aggregate> </Aggregate> </Aggregate> </Aggregate> </LinkCondition> </LinkCondition> 42 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 43. Silk Avaliação de Desempenho < Ligar 10.500 lugares (DBpedia) a 59.000 cidades do LinkedGeoData < Workflow: l Blocking (agrupar instâncias: cidades por nome) l Matching (comparação de todos contra todos usando uma “link condition”) l Filtering (remover ligações com valores baixos de confiança) Versão do Silk Tempo (sem blocking) Tempo(com blocking) Silk Single Machine1 54 hours 155.5 min Silk MapReduce2 6.7 hours 14.4 min 43 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 44. WIQA Framework < Permite filtragem de dados da Web usando várias políticas de avaliação de qualidade. < Será estendido com funções de fusão de dados Avaliação de Data qualidade Fusion 44 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 45. “E a boa e velha Web de documentos?” Outras Ferramentas < Anotação em texto de entidades da DBpedia < Interligar documentos e dados ligados – automaticamente! < Software Livre: Apache V2 45 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 46. DBpedia Spotlight: Extração de Entidades < Desafio: l Ambiguidade Brazil dbpedia:Brazil,_Indiana dbpedia:Brazil_national_football_team dbpedia:Brazil_(1944_film) dbpedia:Angela_Brazil (mais de 40 outros sentidos) 46 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 47. DBpedia Spotlight: Extração de Entidades < Usa parágrafos da Wikipedia como exemplos para aprendizado de máquina < Atualmente somente em inglês :-( < Breve: português e espanhol :-) < Interliga documentos em texto / html com a DBpedia http://dbpedia.org/resource/Brazil 47 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 48. Application Area: Social Media Information Overload! Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 49. Twarql – Fluxo de Tweets filtrado por SPARQL < Anotar um fluxo de tweets l Extração de informações: entidades, usuários, URLs, sentimentos l Geração de anotações (descrições do tweet) em RDF l Filtros expressos como consultas SPARQL Aplicações l Permite uso de uma base de conhecimentos l Entrega informações em tempo real 49 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 50. Twarql: Cenário de Brand Tracking (consulta) < Quais concorrentes estão sendo mencionados com meu produto? – comparando produtos com base em opiniões de redes sociais SELECT ?competitor, ?sentiment WHERE { dbpedia:IPad skos:subject ?category . ?competitor skos:subject ?category . ?tweet moat:taggedWith ?competitor . ?tweet moat:taggedWith dbpedia:IPad . ?tweet twarql:sentiment ?sentiment . }
  • 51. Twarql: Cenário de Brand Tracking (setup) Consulta para selecionar tweets de interesse: Base de Conhecimento (ex: DBpedia) @anonymized Lorem ipsum bla bla this is an example tweet twarql:sentiment moat:taggedWith ?sentiment skos:subject dbpedia:IPad ?category skos:subject ?competitor skos:subject Modelagem: concorrentes são dois produtos na mesma categoria na DBpedia
  • 52. Twarql: Cenário de Brand Tracking (KB) Consulta para selecionar tweets de interesse: Base de Conhecimento (ex: DBpedia) @anonymized Lorem ipsum bla bla this is an example tweet twarql:sentiment moat:taggedWith ?sentiment dbpedia:IPad ?competitor ?category skos:subject skos:subject category:Wi-Fi skos:subject category:Touchscreen O conhecimento advindo da base é trazido dinamicamente para o tweet através de anotações.
  • 53. Twarql: Cenário de Brand Tracking (exec.) Base de Conhecimento Entrada de um fluxo de tweets: (ex: DBpedia) @anonymized Lorem ipsum bla bla this is an example tweet twarql:sentiment moat:taggedWith ?sentiment dbpedia:IPad ?competitor ?category skos:subject skos:subject category:Wi-Fi skos:subject category:Touchscreen Ação é executada se o tweet passar pelo filtro:
  • 54. Twarql: Cenário de Brand Tracking (obs.) • Observações – Quando um novo concorrente “aparece” na base, nenhuma mudança é requerida na consulta => Evolução Automática – Encontramos produtos interessantes que não consideramos inicialmente como concorrentes do IPad (ex: IPhone) => Serendipity: surpresa boa :)
  • 55. http://ligadonospoliticos.com.br < Projeto da UFJF ● Lucas Araújo < Baseado em Linked Data 55 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 56. http://pt.dbpedia.org < Pré-lançamento HOJE! ● Freie Universität Berlin < Novos Parceiros l UFJF (Juiz de Fora) Jairo F. de Souza l UFRJ (Rio de Janeiro) Maria Luiza M. Campos < < Lançamento oficial ● Julho/Agosto 2011 < Junte-se a nós! 56 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 57. Como juntar todas essas informações? < Crawlers l Baixar informações de múltiplas fontes para uma cache local. l Exemplo: veja a Linked Open Data cloud “cache” (http://lod.openlinksw.com/sparql) < Motores de Busca l Provem acesso integrado a informações distribuídas na Web l Sindice, Falcons, Watson < Interfaces de Exploração de Dados l Tabulator, Disco, VisiNav, Cuebee, Explorator (by PUC-RJ) l Sigma (http://sig.ma) by DERI < Aplicações de terceiros l Exemplo: Mashups l 'A forma mais criativa de utilizar teus dados será descoberta por outra pessoa' (via Rufus Pollock no CONSEGI2011) 57 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 58. O que muda nesse jogo? < No passado BD Dados Portal Consumidor BD Integrados WEB BD Outro Consumidor < No futuro (agora?) Portal BD Consumidor WEB DE DADOS BD BD Outro Mashup Dados Outro Consumidor Integrados 58 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 60. Lições Aprendidas (Open Source, Open Data) < Reuse, reuse, reuse e… além disso… reuse! (DRY) l Protocolos da Web, linguagens, vocabulários, identificadores, sempre que possível! < Linguagens Declarativas l Facilite o reuso do seu esforço (e.g. compartilhando mapeamentos) < Release iterativo: libere seu software cedo l A opinião do público alvo vai guiar o desenvolvimento em direção às características mais úteis < Primeiro os alvos mais fáceis (low hanging fruit) (KISS) l Adquirir uma massa de dados primeiro, interconectar incrementalmente, encontrar dados de alta qualidade < Cativar e apoiar a comunidade l Ofereça demonstrações, documentação, apoie listas de discussão, mantenha o projeto vivo. 60 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 61. Resumo < Dados Ligados possibilitarão uma nova classe de aplicações < Integração de dados na Web (interlinking): novos desafios e novas oportunidades < Uma série de aplicações atacando alguns desses desafios l Publicação: D2R, Pubby l Aquisição: LDspider l Mapeamento de Esquemas: R2R l Interligações: Silk (Resolução de Identidade), DBpedia Spotlight (Extração de Entidades em Texto) l Avaliação de Qualidade: WIQA l Aplicações: Browsers, Twarql, Sigma < Em breve: LDIF – Linked Data Integration Framework l Aquisição, Mapeamento, Interligações, Qualidade: em um pacote! l Empacotamento Debian! 61 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 62. Conclusões < A Web de Dados Ligados está crescendo rapidamente l Comunidades de implantação estão ativas em vários domínios l Excedeu a massa crítica < Busca na Web está evoluindo para pergunta+resposta (QA) l Motores de busca cada vez mais se beneficiam de dados estruturados na Web < Como participar na construção de uma Web melhor? l Sem conhecimentos técnicos: compartilhe conhecimento abertamente! l Um pouco técnico: ajude a mapear conhecimento (http://mappings.dbpedia.org) l Técnico: junte-se a um dos nossos projetos de software livre, ou inicie o seu! < Compartilhe dados, mas também ligações entre dados na Web! < Também compartilhe COMO ligar via mapeamentos, link specs, etc. < Cada link conta! 62 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011
  • 63. Obrigado! pablo.mendes@fu-berlin.de @pablomendes http://blog.pablomendes.com References l Christian Bizer, Tom Heath, Tim Berners-Lee: Linked Data – The Story So Far http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf l Linking Open Data Project Wiki http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData l 1st Workshop on Consuming Linked Data at ISWC 2010 http://people.aifb.kit.edu/aha/2010/cold/ l 3rd Linked Data on the Web Workshop at WWW 2010 http://events.linkeddata.org/ldow2010/ 63 Pablo N. Mendes, Construindo uma Web de Dados Link por Link, CONSEGI2011, Brasília, 13/05/2011