O documento descreve uma dissertação de mestrado sobre como a Web Semântica poderia contribuir para a organização e gerenciamento de conteúdos jornalísticos. O trabalho analisa dois casos: o site da Copa do Mundo de 2010 da BBC e o site BBC Wildlife. A dissertação busca identificar como as tecnologias semânticas são aplicadas nesses casos e quais benefícios poderiam trazer ao jornalismo de dados.
Organização e gerenciamento de conteúdos jornalísticos na Web Semântica
1. Universidade Federal de Santa Maria
Centro de Ciências Sociais e Humanas
Programa de Pós-Graduação em Comunicação
Dissertação de Mestrado
Iuri Lammel
Organização e
gerenciamento de
conteúdos jornalísticos
na Web Semântica
6. Objetivos
Objetivos específicos
■ Identificar quais tecnologias semânticas
são utilizadas nos casos selecionados
■ Compreender como elas são aplicadas
■ Identificar quais as razões do uso
■ Relacionar os dados obtidos na investigação
dos casos selecionados ao atual paradigma
do JDBD, para compreender as possíveis
contribuições da proposta da Web Semântica
à prática do jornalismo digital
10. Jornalismo de dados
Jornalismo Digital em
Base de Dados (JDBD)
■ Quarta geração do jornalismo digital
■ Produtos jornalísticos estruturados em base
de dados (BARBOSA, 2007; MACHADO, 2006)
■ Bases de dados
■ BDs como forma cultural (MANOVICH, 2001)
■ Database aesthetics
11. Jornalismo de dados
Categorias do JDBD
■ dinamicidade
■ automatização
■ flexibilidade
■ inter-relacionamento/Hiperlinkagem
■ densidade informativa
■ diversidade temática
■ visualização
■ convergência
12. Jornalismo de dados
Data Journalism
■ Conceitos de data journalism
■ Funções do data journalist (The Guardian)
■ Visualização de dados (RODRIGUES, 2009)
■ Aplicativos jornalísticos
14. Web Semântica
A atual web
■ Documentos em HTML para leitura humana
■ Processameno do computador é utilizado para
formatação visual do documento
■ Processamento avançado não é aproveitado
para interpretar significados dos documentos
■ HTML tem pouca semântica
■ XML tem bastante semântica, mas é arbitrária
16. Web Semântica
O que é a Web Semântica (WS)
■ Uma expansão para a atual World Wide Web
■ Proposta de Berners-Lee, Hendler e Lassila
■ A web se tornaria uma rede “mais inteligente”
■ Os computadores teriam capacidade de
compreender os significados dos dados
17. Web Semântica
Como funciona a WS
■ Além do documento para humanos, a WS
fornece metadados para os computadores
■ Os metadados descrevem o conteúdo
■ A descrição é realizada na lógica das triplas:
sujeito - predicado - objeto, que permite
associar recursos a valores semânticos
■ Além dos metadados em triplas, a WS fornece
as ontologias: “uma especificação explícita de
uma conceituação” (GRUBER, 1993)
18. Web Semântica
Solução tecnológica da W3C
■ Metadados em triplas:
Resource Description Framework (RDF)
BLOG X
Es demolest, sinvel ipiciis
Maio ea volupta tquatec tatiscipsant quo
é escrito por
essi optistissime non conse et, que com-
nihil est ea. Piet et la quodicia estiis quis
et inveles suntini magnam, et faceptat
laborum ento magnienisita comniet maio.
Nequunt moloreperem. Odi doloritest od
qui quistioribus autatquo vid qui derat.
Sinvel ipiciis demolest
Maio ea volupta tquatec tatiscipsant quo
essi optistissime non conse et, que com-
nihil est ea. Piet et la quodicia estiis quis
et inveles suntini magnam, et faceptat
laborum ento magissime non conse et,
que comnihil est ea. Piet et la quodicia
estiis quis et inveles suntini magnam, et
faceptat laborum ento magnienisita com-
niet maio. Nequunt moloreperem. Odi
Sujeito Predicado Objeto
19. Web Semântica
Solução tecnológica da W3C
■ Ontologias:
Web Ontology Language (OWL)
BLOG X
Es demolest, sinvel ipiciis
Propriedades:
Nono nono nono
Maio ea volupta tquatec tatiscipsant quo
essi optistissime non conse et, que com-
nihil est ea. Piet et la quodicia estiis quis
et inveles suntini magnam, et faceptat
laborum ento magnienisita comniet maio.
Nequunt moloreperem. Odi doloritest od
qui quistioribus autatquo vid qui derat.
Sinvel ipiciis demolest
Nono nono nono
Maio ea volupta tquatec tatiscipsant
quo essi optistissime non conse et,
que comnihil est ea. Piet et la quodicia
estiis quis et inveles suntini magnam, et
faceptat laborum ento magissime non
conse et, que comnihil est ea. Piet et
la quodicia estiis quis et inveles suntini
BLOG Y
magnam, et faceptat laborum ento mag-
nienisita comniet maio. Nequunt molorep-
Nono nono nono
Es demolest, sinvel ipiciis
BLOG K Maio ea volupta tquatec tatiscipsant quo
essi optistissime non conse et, que com-
nihil est ea. Piet et la quodicia estiis quis
et inveles suntini magnam, et faceptat
laborum ento magnienisita comniet maio.
Es demolest, sinvel ipiciis Nequunt moloreperem. Odi doloritest od
qui quistioribus autatquo vid qui derat.
Maio ea volupta tquatec tatiscipsant quo
Sinvel ipiciis demolest
Nono nono nono
essi optistissime non conse et, que com-
nihil est ea. Piet et la quodicia estiis quis
et inveles suntini magnam, et faceptat Maio ea volupta tquatec tatiscipsant
laborum ento magnienisita comniet maio. quo essi optistissime non conse et,
Nequunt moloreperem. Odi doloritest od que comnihil est ea. Piet et la quodicia
qui quistioribus autatquo vid qui derat. estiis quis et inveles suntini magnam, et
faceptat laborum ento magissime non
Sinvel ipiciis demolest conse et, que comnihil est ea. Piet et
la quodicia estiis quis et inveles suntini
Maio ea volupta tquatec tatiscipsant magnam, et faceptat laborum ento mag-
quo essi optistissime non conse et, nienisita comniet maio. Nequunt molorep-
que comnihil est ea. Piet et la quodicia
Nono nono nono
estiis quis et inveles suntini magnam, et
faceptat laborum ento magissime non
conse et, que comnihil est ea. Piet et
la quodicia estiis quis et inveles suntini
magnam, et faceptat laborum ento mag-
nienisita comniet maio. Nequunt molorep-
Nono nono nono
Nono nono nono
Classe: blogs Classe: humanos
20. Web Semântica
Outros conceitos importantes
■ Agentes inteligentes
■ Técnica de tagging, para a extração de
conceitos em conteúdos não estruturados
■ Softwares de processamento de linguagem
natural, para extração de conceitos em
conteúdos não estruturados com
21. Web Semântica
Linked Data
■ Proposta de Berners-Lee (2006)
■ É um projeto que reúne iniciativas que
publicam dados nos padrões da W3C
■ Os repositórios de dados são abertos e
vinculados uns aos outros (Linked Open Data)
27. World Cup 2010
Descrição do caso
É um site jornalístico especial para abrigar todo
o conteúdo jornalístico da BBC relacionado à
Copa do Mundo de 2010
28. World Cup 2010
Descrição do caso
■ Times – Jogadores – Grupos – Partidas
■ Mais de 800 páginas publicadas de
forma automatizada
■ Cada página agrega diferentes informações
oriundas de diferentes locais
29. World Cup 2010
Tecnologias semânticas
■ Triplas em RDF
■ Repositório semântico triple store BigOWLIM
■ Ontologia própria sobre a Copa do Mundo
■ Técnica de tagging
■ Processamento de Linguagem Natural
■ SPARQL
■ Dados e metadados da Linked Data
32. World Cup 2010
Dinamicidade
■ Produto altamente dinâmico
■ Não encontramos indícios de potencialização
significativa em relação aos atuais produtos
jornalísticos em base de dados
33. World Cup 2010
Automatização
■ Publicação com automatização total
■ Modificou o fluxo editorial (workflow) na
criação de conteúdos e no gerenciamento do
site: passa do modelo tradicional de “publicar
matérias e páginas index” para “publicar
conteúdos e checar se as sugestões de tags
estão corretas” (O’DONAVAN, 2010)
34. World Cup 2010
Flexibilidade
■ Descentralização da produção
■ RDF e Linked Data tornam o sistema
“incrivelmente flexível” (O’DONAVAN, 2010)
■ “O modelo de tripla RDF também facilita a
modelagem ágil, enquanto que a modelagem
do esquema relacional tradicional é menos
flexível e também incrementa a complexidade
da query” (Rayfield, 2010).
35. World Cup 2010
Inter-relacionamento/
Hiperlinkagem
■ Potencializa com a geração automática de
links, tanto para conteúdos internos quanto
para conteúdos externos (Linked Data)
■ URIs únicos para os conceitos minimizam
a possibilidade de ambiguidade na geração
automática de links
36. World Cup 2010
Densidade informativa
■ A interoperabilidade potencializa a
convergência de conteúdos diversificados
e oriundos de sites externos (ex.: Linked Data)
37. World Cup 2010
Diversidade temática
■ O site trata de apenas um tema
■ ... porém, as tecnologias semânticas
agregam conteúdos em diferentes formatos
sobre um assunto específico (identificado por
uma URI). Logo, o sistema tem potencial para
agregar temas diversificados sobre um
assunto identificado pela URI
38. World Cup 2010
Visualização
■ O site não aproveitou a dinamicidade dos
dados para explorar recursos visuais mais
elaborados e dinâmicos na narrativa
■ Houve gráficos simples gerados a partir de
dados oriundos de fontes externas
39. World Cup 2010
Convergência
■ Há convergência de diferentes formatos de
mídia e de gêneros (notícia, blog, estatística...)
■ As mídias são agregadas a um conceito, pois
possuem tags associadas a tal conceito
■ Mais do que a convergência de mídias:
as tecnologias semânticas permitiram a
convergência de produções oriundas de
diversas fontes da web
41. BBC Wildlife
Descrição do caso
É um site que reúne uma grande produção
de conteúdos sobre o mundo natural, mais
especificamente biológico, como animais
selvagens, plantas, fungos e seres pré-históricos
42. BBC Wildlife
Descrição do caso
■ Páginas únicas para:
■
espécies (e outros níveis)
■
habitats
■
comportamentos/adaptações
■
biorregiões
■ Milhares de páginas publicadas de
forma automatizada
■ Cada página agrega diferentes informações
oriundas de diferentes locais
43.
44. BBC Wildlife
Tecnologias semânticas
■ Triplas em RDF
■ Versão serializada das páginas (RDF/XML)
■ Ontologia própria sobre o mundo natural
■ Técnica de tagging (vocabulário controlado)
■ URIs baseados nos identificadores da DBpedia
■ Dados e metadados da Linked Data
46. BBC Wildlife
Funcionamento
■ Termos da Wikipedia como vocabulário
■ Uso dos termos para tagging dos vídeos da
BBC e de conteúdos externos ao site
■ Também há metadados oriundas de outros
sites (ex.: habitats e biorregiões da WWF)
■ Páginas agregam os clipes de vídeo da BBC e
os conteúdos externos através da associação
das tags com a ontologia
47. BBC Wildlife
Dinamicidade
■ Produto altamente dinâmico
■ Não encontramos indícios de potencialização
significativa em relação aos atuais produtos
jornalísticos em base de dados
48. BBC Wildlife
Automatização
■ Automatização total na publicação de mídias,
descrições e listas de links
■ Automatização baseada no modelo conceitual
da ontologia Wildlife
49. BBC Wildlife
Flexibilidade
■ Descentralização da produção
■ Estrutura de navegação baseada na ontologia.
Assim, a alteração na estrutura de navegação
de milhares de páginas se torna mais flexível
50. BBC Wildlife
Inter-relacionamento/
Hiperlinkagem
■ As inferências realizadas com o inter-
relacionamento baseado em ontologias
permitem que o sistema origine coleções
de conceitos relacionados ao assunto da
página, gerados no formato de listas de
links contextualizados, que funcionam
como menus de navegação
51. BBC Wildlife
Densidade informativa
■ A interoperabilidade potencializa a
convergência de conteúdos diversificados
e oriundos de sites externos (ex.: Linked Data)
■ As listas contextualizadas de links aumentam
a densidade informativa da matéria
52. BBC Wildlife
Diversidade temática
■ O site trata de apenas um tema
■ ... porém, as tecnologias semânticas
agregam conteúdos em diferentes formatos
sobre um assunto específico (identificado por
uma URI). Logo, o sistema tem potencial para
agregar temas diversificados sobre um
assunto identificado pela URI
■ As listas de links levam a informações com
outros temas sobre o assunto em questão
53. BBC Wildlife
Visualização
■ O site não aproveitou a dinamicidade dos
dados para explorar recursos visuais mais
elaborados e dinâmicos na narrativa
■ As páginas seguem a estética base de dados
54. BBC Wildlife
Convergência
■ Há convergência de diferentes formatos de
mídia e de gêneros (notícia, blog, estatística...)
■ As mídias são agregadas a um conceito, pois
possuem tags associadas a tal conceito
■ Mais do que a convergência de mídias:
as tecnologias semânticas permitiram a
convergência de produções oriundas de
diversas fontes da web (Wikipedia, BBC News...)
56. Resultados e
conclusões
■ Em relação ao JDBD, há continuidades e
há potencializações
■ As potencializações ocorrem, principalmente,
na combinação das características do JDBD
com a automatização (ontologias)
■ Defendemos uma possível ruptura: a
interoperabilidade automatizada
57. Resultados e
conclusões
Interoperabilidade automatizada
■ Permite o reaproveitamento automatizado
de dados produzidos por terceiros ou por
outras equipes da mesma organização
■ Diversifica as fontes de dados, o que pode
enriquecer o produto em diferentes categorias,
como a hiperlinkagem, a diversidade
informativa e a diversidade temática
58. Resultados e
conclusões
Interoperabilidade automatizada
■ Permite o compartilhamento de informações
entre vários projetos complementares entre si,
que podem formar uma base de conhecimento
colaborativa (ex.: Linked Data)
■ Para que isso ocorra, é necessário que surjam
mais iniciativas que sigam a lógica da WS e que
compartilhem seus dados de forma aberta
60. Estudos futuros
Pesquisa comparativa
■ Realizar uma comparação entre um produto
que emprega tecnologias semânticas e outro
que não utiliza
■ Uma oportunidade: Olimpíadas 2012
61. Estudos futuros
Open Graph do Facebook
como sistema semântico
■ Estudar o impacto que o sistema semântico
da rede Facebook na organização e no
gerenciamento de conteúdos informacionais
■ O Facebook utiliza a lógica das triplas com
poucos verbos (curtir, ler, comentar...), mas
divulgou que deverá lançar novos verbos,
como cozinhar, comer, viajar e correr
62. Estudos futuros
Ativação da memória
■ Estudar como as tecnologias semânticas
podem ativar a memória jornalística, ao
reaproveitar conteúdos armazenados em
arquivos e, a partir deste reaproveitamento,
gerar novos produtos (ex.: caso BBC Wildlife)