Defesa de dissertação. Este trabalho fala da concepção de quatro critérios de qualidade da informação para análise da perda e ganho de conceitos semânticos de consultas reformuladas entre peers em um Peer Data Management System (PDMS). Experimentos foram feitos no PDMS SPEED concebido no CIn-UFPE.
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments
1. Defesa de Mestrado
Recife, 09 de setembro de 2013
Information Quality Criteria Analysis in Query
Reformulation in Distributed Dynamic Environments
Orientadora: Ana Carolina Salgado
Co-orientadora: Maria da Conceição M. Batista
Bruno Felipe de França Souza
bffs@cin.ufpe.br
2. 2
Roteiro
Motivação
Fundamentação Teórica
– Reformulação de Consultas;
– Qualidade da Informação;
– Perda Semântica e Degradação da Consulta;
– Correspondências Semânticas (enriquecimento).
Trabalhos Relacionados
Nossa abordagem: Análise de Critérios de QI em Reformulação
de Consultas
– Critérios de perda (especificação e exemplo)
– Critérios de enriquecimento (especificação e exemplo)
Experimentação e Resultados (SPEED)
Considerações Finais
Trabalhos Futuros
3. 3
Motivação
O uso de diferentes tipos de sistemas para o
compartilhamento de informações, e.g., Sistemas de
Integração de Dados e PDMS (Peer Data
Management System).
Uso intensivo do mecanismo de consulta para obter
dados de diferentes fontes de dados (peers).
4. 4
Motivação
Reformulação de consultas, eventuais problemas:
– Perda semântica;
– Degradação da consulta;
– Resultados vazios ou incompletos;
Em contraste, podemos ter enriquecimento
semântico de conceitos durante a reformulação da
consulta.
5. 5
Motivação
Como medir o nível de perda e/ou enriquecimento
semântico de uma consulta?
Este resultado da medição, pode ser oportuno para o
processo de roteamento da consulta em um ambiente
dinâmico e distribuído.
6. 6
Caracterização do Problema
Roteamento da consulta
– Análise dos conceitos da consulta durante a
reformulação;
– Perda e/ou enriquecimento semântico;
– Geração de medidas de qualidade.
Nosso Foco:
Análise da reformulação da consulta usando critérios de
qualidade da Informação (QI)
7. 7
Objetivos
Especificar e implementar critérios de QI para a
análise de reformulação de consultas em um PDMS.
Auxiliar o roteamento da consulta, fornecendo
medidas de QI para ajudar na decisão de continuar ou
não o processo de roteamento.
Elucidar os conceitos de perda semântica e
degradação da consulta.
Realizar o experimento da análise da reformulação de
consultas no PDMS SPEED;
9. 9
Reformulação de Consultas
Reformulação da consulta é o processo de reformular
uma consulta entre dois peers com esquemas
heterogêneos.
A reformulação é feita por meio de correspondências
semânticas estabelecidas entre os peers vizinhos.
Correspondências – elemento a elemento.
11. 11
Qualidade da Informação (QI)
QI é um conjunto de critérios usados para medir o
grau de qualidade geral de um sistema.
Pode ser aplicado para medir diversos elementos de
um sistema, e.g., peers, resultados da consulta,
dados.
Os autores Wang & Strong propuseram um artigo
compilando vários critérios de QI para serem usados
em sistemas computacionais.
12. 12
Correspondências Semânticas
SemMatcher, gera correspondências semânticas entre
dois esquemas representados por ontologias.
Tipos de correspondência:
– Equivalência (1,0);
– SubConceito (0,8);
– SuperConceito (0,5);
– Aproximação (0,3);
– “Parte de” e “Todo” (0,1).
Enriquecimento semântico, ganho de conceitos
semânticos durante a reformulação da consulta.
13. 13
Perda Semântica e Degradação da Consulta
Perda semântica é a diferença sintática entre a
consulta original e suas reformulações [Delveroudis &
Lekeas 2007].
Alguns autores consideram o termo perda semântica
e degradação da consulta como sinônimos.
17. 17
Critérios de QI para Análise da Reformulação da
Consulta
Como obtermos medidas de qualidade para
representar a perda de conceitos durante o processo
de reformulação da consulta?
Além disso, como obtermos medidas de qualidade
para representar o enriquecimento de conceitos
durante o processo de reformulação da consulta?
Usando critérios de QI
18. 18
Critérios de QI para Análise da Reformulação da
Consulta
Critérios de Perda
19. 19
Critérios de QI para Análise da Reformulação da
Consulta
Nossa definição para perda semântica: é a perda de
conceitos de uma consulta Q devido à reformulação
entre peers com esquemas heterogêneos.
Degradação da Consulta: é a medida acumulada de
perdas semânticas sofrida por uma consulta Q após
sucessivas reformulações sobre esquemas
heterogêneos.
20. 20
Critérios de QI para Análise da Reformulação da
Consulta
Critério de QI Query Loss Measure (QuLM), o qual
representa a perda semântica de conceitos entre um
par de peers.
Junto com o QuLM está o critério Accumulated Loss
Measure (AccLM) que mede a degradação da
consulta, ou seja, o acumulado de perdas semânticas
em um caminho para onde a consulta foi enviada.
21. 21
Critérios de QI para Análise da Reformulação da
Consulta
Dado um par de peers P = {Pi, Pj} e uma consulta
reformulada Qj de Pi para Pj definimos a medida de
perda da seguinte maneira:
22. 22
Critérios de QI para Análise da Reformulação da
Consulta
Dado um conjunto de peers P = {P1, ..., Pn} e um
conjunto de QuLM entre os pares de peers QuLM =
{QuLM1, ..., QuLMn} definimos a medida de
degradação da seguinte maneira:
23. 23
Critérios de QI para Análise da Reformulação da
Consulta
Exemplificando...
Vamos assumir:
– um conjunto de quatro peers interconectados e
compartilhando informações no domínio de comércio.
– As correspondências semânticas entre os esquemas
dos peers já foram geradas pelo processo de matching
semântico.
– A consulta original submetida no peer P1 foi: vendedor,
shopping, produto, bicicleta.
27. 27
Critérios de QI para Análise da Reformulação da
Consulta
O caminho que leva ao peer P4 obteve uma medida
de qualidade de 0,2500. Com base neste valor
podemos dizer que este é um caminho com menos
perda semântica em relação à consulta colocada pelo
usuário no peer P1
O processo de roteamento da consulta escolherá o
caminho para o peer P4
Caminho AccLM
P1 –P2 – P3 0,7525
P1 –P2 – P4 0,2500
28. 28
Critérios de QI para Análise da Reformulação da
Consulta
Critérios de Enriquecimento
29. 29
Critérios de QI para Análise da Reformulação da
Consulta
Critério de QI Query Enrichment Measure (QuEM), o
qual representa o enriquecimento semântico de
conceitos entre um par de peers.
Junto com o QuEM está o critério Accumulated
Enrichment Measure (AccEM) que mede o produto
acumulado de ganhos semânticos de conceitos da
consulta no caminho para onde foi enviada.
30. 30
Critérios de QI para Análise da Reformulação da
Consulta
Dado um par de peers P = {Pi, Pj} e uma consulta
reformulada Qj de Pi para Pj definimos a medida de
enriquecimento da seguinte maneira:
Onde |Csubj| é o número de conceitos em Qj (consulta
reformulada) os quais são sub conceitos dos
conceitos em Qi (consulta corrente).
|Csupj| é o número de conceitos em Qj que são super
conceitos dos conceitos em Qi.
31. 31
Critérios de QI para Análise da Reformulação da
Consulta
Onde |Cclj| é o número de conceitos em Qj os quais
são conceitos aproximados dos conceitos em Qi.
|Cpwj| é o número de conceitos em Qj que são
conceitos parte/todo dos conceitos em Qi.
QuLM e AccLM também são calculados.
32. 32
Critérios de QI para Análise da Reformulação da
Consulta
Dado um conjunto de peers P = {P1, ..., Pn} e um
conjunto de QuEM entre os pares de peers QuEM =
{QuEM1, ..., QuEMn} definimos a medida de
enriquecimento acumulado da seguinte maneira:
33. 33
Critérios de QI para Análise da Reformulação da
Consulta
Exemplificando...
Considerando correspondências semânticas super
conceito e sub conceito
34. 34
Critérios de QI para Análise da Reformulação da
Consulta
Considerando correspondências semânticas super
conceito e sub conceito
35. 35
Critérios de QI para Análise da Reformulação da
Consulta
Considerando correspondências semânticas super
conceito e sub conceito
36. 36
Critérios de QI para Análise da Reformulação da
Consulta
O caminho para o peer P4 tem uma medida de perda
semântica menor.
O caminho para o peer P3 tem uma medida de
enriquecimento semântico maior.
Caminho AccLM AccEM
P1 – P2 – P3 0,7525 1,2140
P1 – P2 – P4 0,2500 0,7820
38. 38
Critérios de QI – Experimentos e Resultados
PDMS SPEED
Java
Eclipse
39. 39
SPEED - Arquitetura
O sistema SPEED é um PDMS baseado em
semântica, composto de pontos cujos esquemas
exportados são representados por ontologias.
42. 42
Critérios de QI – Experimentos e Resultados
Em nosso experimento levamos em consideração:
– um conjunto de cinco peers interconectados e
compartilhando informações no domínio de educação.
– A consulta original submetida no peer P2178 foi:
Professor, Manual, Schedule, Monitor.
– Serão obtidas as medidas de perdas e enriquecimento
semânticos.
– As correspondências semânticas consideradas foram:
sub conceito (subconcept), super conceito
(superconcept), aproximação (closeto) e parte/todo
(partof/wholeof)
43. 43
Critérios de QI – Experimentos e Resultados
De onde vem as correspondências semânticas?
– Arquivo de alinhamento para cada par de peer na
rede.
45. 45
Critérios de QI – Experimentos e Resultados
Par de Peers Consulta Reformulada Tipos de Conceitos Adquiridos
P2178 – P2378 Software, VisitingProfessor, Schedule,
Monitor, UndergraduateStudent,
Professor, Manual, Publication
Software closeto Manual,
VisitingProfessor subconcept of
Professor, UndergraduateStudent
superconcept of Monitor, Publication
superconcept of Manual.
P2178 – P2478 VisitingProfessor, Monitor, Professor VisitingProfessor subconcept of
Professor.
P2378- P2978 Software, Course, Schedule, Product,
Professor
Software subconcept of Product, Course
part of UndergraduateStudent, Product
superconcept of Software.
P2478 – P2578 Monitor
47. 47
Conclusões
Neste trabalho, concebemos critérios de QI que
fornecem medidas semânticas da perda e ganho de
conceitos durante o processo de reformulação da
consulta.
48. 48
Conclusões – Contribuições
Elucidação e definição dos termos perda semântica e
degradação da consulta;
A especificação de 4 critérios de QI para análise da
reformulação de consultas;
Validação da nossa proposta com a implementação e
experimentos no PDMS SPEED;
49. 49
Conclusões – Trabalhos Futuros
Investigar outros critérios de QI para ser usado na
avaliação de outros elementos de um ambiente
dinâmico e distribuído;
Avaliação da qualidade dos resultados da consulta.
Implantação e teste em um ambiente real.
50. 50
Publicações
Artigo: Souza, B. F. F. ; Salgado, A.C ; Batista, M.C.M . Critérios de
Qualidade da Informação em Reformulação de Consultas em um
PDMS: Uma Perspectiva. I Escola Paraibana de Informática, 2011,
João Pessoa.
Artigo: Souza, B. F. F. ; Batista, M.C.M ; Salgado, A.C. Semantic Loss
in Query Reformulation in Dynamic Distributed Environments. 6th
Alberto Mendelzon International Workshop on Foundations of Data
Management (AMW), 2012, Ouro Preto – MG.
Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,
A. C. Towards an Information Quality Approach to Enhance Query
Routing Processes. 14th International Conference on Information
Integration and Web-based Applications & Services (iiWAS), 2012, Bali -
Indonesia.
Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,
A. C. Semantic Measures as Information Quality Criteria for Query
Routing Processes. International Journal of Business Intelligence and
Data Mining, 2013.
52. Defesa de Mestrado
Recife, 09 de setembro de 2013
Information Quality Criteria Analysis in Distributed
Dynamic Environments
Orientadora: Ana Carolina Salgado
Co-orientadora: Maria da Conceição M. Batista
Bruno Felipe de França Souza
bffs@cin.ufpe.br
Notas del editor
A minha apresentação se inicia mostrando as motivações desse trabalho.Tem se intensificado nos últimos anos, a principal característica que estes sistemas tem em comum é o fornecimento de consulta aos usuários.Para obtermos esses dados esses sistemas fazem uso intensivo do mecanismo de consulta...Processamento e armazenamento de dados distribuídos feito a partir de pontos autônomos que também armazenam os mapeamentos semânticos dos dados.Um PDMS possui características:Compartilhamento descentralizado dos dados;Escalabilidade; Processamento e armazenamento de dados distribuídos.
Nesse mecanismo de consulta, existe um processo chamado reformulação da consulta, que tem o intuito de obter mais dados para a consulta por meio de reformulações para outros peers. Nesse processo de reformulação, consequentemente, devivo à heterogeneidade de esquemas e mesmo a natureza dinâmica de um peer, os seguintes problemas podem surgir.O enriquecimento semântico pode surgir devido ao ambiente ser rico em significado, fazer uso de ontologias, por exemplo.
Com essesdoispontos de vista, comopodemosmedir a perda e/ou o enriquecimento de umaconsultadurante o processo de reformulação?
A caracterização do nossoproblema é compostaporanálise dos conceitosdaconsultadurante a reformulação; perda e/ouenriquecimentosemânticos;Geração de medidassemânticas.Nossofocoentãoserá: Análisedareformulaçãodaconsultausandocritérios de qualidadedaInformação (QI).Qualidadedainformação é umasérie de critériosque tem comoobjetivoavaliar a qualidade dos elementos de um sistema, porexemplo, em um PDMS, podemosusarcritérios de QIPara avaliar a completude de um esquema, a disponibilidade de um peer, a relevância de umaconsulta entre outros (o tempo de resposta de um peer).
Um consulta é colocada em um peer e reformulada para seus vizinhos no intuito de obter mais resultados. Então, reformulação é... Item 2.Este esquema exportado pode ser um esquema relaciona ou até mesmo ontologias.Mapeamentos são ligações estabelecidas por meio de conceitos de sistemas de integração como, por exemplo, o mapeamento GAV, onde temos um conceito de uma ontologia do cluster equivale à uma visão de conceitos de ontologias dos pontos dos clusters.Já, as correspondências é um relacionamento elemento a elemento, isso é, entre um elemento de uma ontologia de um ponto e um elemento de uma ontologia do ponto 2.
Como se dá o processo de reformulação em um PDMS? Dada a consulta tal colocada no peerBrazil. A mesma é processada localmente para obter resultados e assim reformulada para o peer vizinho, por meio das correspondêcias semânticas, neste caso, entre os peers.Podemos perceber que a consulta original irá ser colocada no peerBrazil e reformulada de acordo com o esquema do peer Portugal e assim sucessivamente. Ao final os resultados irão ser integrados e devolvidos para o peer que solicitou a consulta.
Vem sendo pesquisada e usada fortemente para gerar métricas para diversos elementos de um sistema.Os autores Wang & Strong propuseram um artigo em 1996 com uma série de critérios para medir a qualidade geral de um sistema. Muito usado como referência no assunto.
O SemMatcher é um matching semântico usado para estabelecer o grau de similaridade semântica entre dois esquemas de um par de peers.Para cada tipo de correspondência semântica, existe um importância (peso) associado para expressar seu nível de relevância.As correspondências semânticas entre os pontos são estabelecidas para prover um entendimento comum de suas fontes de dados.Relacionamentos identificados entre os conceitos e propriedades dos esquemas
Vamos começar mostrando a perda semântica com um exemplo...Alguns autores definem a perda semântica como a diferença sintática entre a consulta original e suas reformulações
Algunsautoresmostrampropostaspara o problema de perdasemântica.O primeirotrabalhofaz a análisedaperdasemânticabaseadoemdiferençassintáticas entre a consulta original e a consultareformulada, ouseja, umadiferença entre Q e Q’ (Q-Q’).O trabalho de Bonifatimostraumaproposta de proximidadesemântica entre a consulta e o mapeamento. Aoexecutarumaconsulta é verificadasuaproximidadesemântica com o mapeamentopormeiodaanálise dos conceitosdaconsulta.O trabalho de Kantereenfatiza o processo de clusterizaçãodacamada overlay darede, ouseja, umaorganização dos peers com base emseusesquemas.O trabalho de Aberer é similar aotrabalho de Delveroudis. Falasobrediferençassintáticas entre as consultasparaestimar a perdasemântica. Os autorestambémfalam de umamedida de similaridadeque é geradaparaganrantirqueosatributospresevadosnareformulaçãoseja, realmente, semanticamenterelacionados.O trabalho de Mena assimcomo o de Delveroudis e Abererfalasobre a análise das consultasbaseadasnostermos (cenceitos) faltantes.Essestrabalhosnãofazemuso de QI paragerarmedidas de perda. Alguns deles aindacitamqueseriaoportuno o uso de QI, massementrarmuitoemdetalhes. Emnossaabordagemiremosfazeruso de critérios de QI paragerarmedidassemânticas de perda e além disso, de enriquecimentosemântico.
Nesteponto, vamoscomeçar a falardanossaabordagem do uso de critérios de QI paraanálisedareformulaçãodaconsulta
Primeiro, começamos dando a nossa definição para perda semântica e degradação da consulta.Relembrando, na literatura autores usam o termo perda semântica e degradação da consulta de forma intercambiável. Essa definição leva o problema mais para o lado semântico do que apenas diferenças sintáticas entre as consultas.
Esses dois critérios formam critérios negativos (de perda) e são definidos da seguinte maneira.A fórmula do QuLM calcula um percentual de conceitos equivalentes.Então, o QuLM é igual a zero se o número de conceitos equivalentes (Ceqj) na consulta reformulada for maior ou igual ao número de conceitos da consulta corrente (Ci)
O AccLM calcula o conjunto de perdas semânticas, ou seja, a degradação da consulta.
Falar sobre enriquecimento semântico e relembrar as correspondências semânticas geradas pelo semmatcher.
Esses dois critérios formam critérios positivos (de ganho) e são formalizados da seguinte maneira
É importante ressaltar que durante a análise de enriquecimento as medidas de perda (QuLM e AccLM) serão avaliadas para os conceitos equivalentes da consulta.
A medida acumulada de enriquecimento semântico pode ultrapassar o valor 1, pois ela é uma medida de crescimento não limitada. Não limitamos o número de conceitos adquiridos.
Aqui eu diria que o caminho escolhido pelo processo de roteamento seria o que leva para o peer P4.Uma vez que na reformulação eu não tenho perdas e conservo mais conceitos equivalentes, além disso, tenho um enriquecimento razoável em comparação com ao enriquecimento para o peer P3.Contudo nesses casos, o processo de roteamento deve seguir um threshold que diz o quanto é aceitável de perda em relação aos ganhos.
No sistema SPEED os pontos são agrupados em um mesmo domínio de conhecimento (como Educação, Saúde, etc.) e uma ontologia descrevendo o domínio está disponível para ser utilizada como conhecimento.OS peers semânticos são responsáveis por comunidades semânticas e armazenam os resumos das ontologias do peers de integração. Eles têm conhecimento de cada peer de integração em sua comunidade.Os peers de integração são peers especiais em termos de capacidade computacional (maior disponibilidade, maior processamento) e são responsáveis pela integração dos dados quando uma consulta é submetida.Os peers de dados são computadores que se conectam ao sistema e compartilham informações por meio dos seus esquemas exportados (ontologia).
Este caso de usorepresenta as açõestomadasaosubmeterumaconsultaemnosso PDMS speed.A consulta é reformulada e sempre as medidas de perdasemânticasãoobtidas.Se o usuáriooptarporumaconsulta do tipoenriquecida, as medidas de ganhosemânticatambémserãogeradas.
Aconsulta original é submetida no peer P2178 queentãoseráprocessadalocalmente e reformuladaparaosoutros peers.
Neste arquivo de alinhamento podemos ver que para o conceito Lecturer, além da correspondência semântica de equivalência existem outras correspondências.Isso quer dizer que uma consulta to tipo enriquecida pedindo por sub conceitos e super conceitos irá obter conceitos comoMeeting, Conference, Event...
Tela do speed para a formulação de consultas e seleção das variáveis de enriquecimento (correspondências semânticas).Ao clicar em submitquery, as reformulações são feitas e ao final o botão show QuLMandQuEM é habilitado.
O caminho que leva para o peer P2978 mostra melhores medidas de perda e ganho do que o caminho para o peer 2578.O roteamento da consulta pode levar em consideração essas medidas para decidir se para ou não com o roteamento.É necessário uma medida de threshold para a perda e ganho de conceitos.
Dessa forma, estescritériospodemauxiliar o processo de roteamentodaconsultaemsuadecisão de continuarounão o roteamento.