SlideShare una empresa de Scribd logo
1 de 52
Defesa de Mestrado
Recife, 09 de setembro de 2013
Information Quality Criteria Analysis in Query
Reformulation in Distributed Dynamic Environments
Orientadora: Ana Carolina Salgado
Co-orientadora: Maria da Conceição M. Batista
Bruno Felipe de França Souza
bffs@cin.ufpe.br
2
Roteiro
 Motivação
 Fundamentação Teórica
– Reformulação de Consultas;
– Qualidade da Informação;
– Perda Semântica e Degradação da Consulta;
– Correspondências Semânticas (enriquecimento).
 Trabalhos Relacionados
 Nossa abordagem: Análise de Critérios de QI em Reformulação
de Consultas
– Critérios de perda (especificação e exemplo)
– Critérios de enriquecimento (especificação e exemplo)
 Experimentação e Resultados (SPEED)
 Considerações Finais
 Trabalhos Futuros
3
Motivação
 O uso de diferentes tipos de sistemas para o
compartilhamento de informações, e.g., Sistemas de
Integração de Dados e PDMS (Peer Data
Management System).
 Uso intensivo do mecanismo de consulta para obter
dados de diferentes fontes de dados (peers).
4
Motivação
 Reformulação de consultas, eventuais problemas:
– Perda semântica;
– Degradação da consulta;
– Resultados vazios ou incompletos;
 Em contraste, podemos ter enriquecimento
semântico de conceitos durante a reformulação da
consulta.
5
Motivação
 Como medir o nível de perda e/ou enriquecimento
semântico de uma consulta?
 Este resultado da medição, pode ser oportuno para o
processo de roteamento da consulta em um ambiente
dinâmico e distribuído.
6
Caracterização do Problema
 Roteamento da consulta
– Análise dos conceitos da consulta durante a
reformulação;
– Perda e/ou enriquecimento semântico;
– Geração de medidas de qualidade.
Nosso Foco:
Análise da reformulação da consulta usando critérios de
qualidade da Informação (QI)
7
Objetivos
 Especificar e implementar critérios de QI para a
análise de reformulação de consultas em um PDMS.
 Auxiliar o roteamento da consulta, fornecendo
medidas de QI para ajudar na decisão de continuar ou
não o processo de roteamento.
 Elucidar os conceitos de perda semântica e
degradação da consulta.
 Realizar o experimento da análise da reformulação de
consultas no PDMS SPEED;
8
Fundamentação Teórica
9
Reformulação de Consultas
 Reformulação da consulta é o processo de reformular
uma consulta entre dois peers com esquemas
heterogêneos.
 A reformulação é feita por meio de correspondências
semânticas estabelecidas entre os peers vizinhos.
 Correspondências – elemento a elemento.
10
Reformulação de Consultas
C = Professor, Student, Coordinator, Principal
and Staff
11
Qualidade da Informação (QI)
 QI é um conjunto de critérios usados para medir o
grau de qualidade geral de um sistema.
 Pode ser aplicado para medir diversos elementos de
um sistema, e.g., peers, resultados da consulta,
dados.
 Os autores Wang & Strong propuseram um artigo
compilando vários critérios de QI para serem usados
em sistemas computacionais.
12
Correspondências Semânticas
 SemMatcher, gera correspondências semânticas entre
dois esquemas representados por ontologias.
 Tipos de correspondência:
– Equivalência (1,0);
– SubConceito (0,8);
– SuperConceito (0,5);
– Aproximação (0,3);
– “Parte de” e “Todo” (0,1).
 Enriquecimento semântico, ganho de conceitos
semânticos durante a reformulação da consulta.
13
Perda Semântica e Degradação da Consulta
 Perda semântica é a diferença sintática entre a
consulta original e suas reformulações [Delveroudis &
Lekeas 2007].
 Alguns autores consideram o termo perda semântica
e degradação da consulta como sinônimos.
14
Trabalhos Relacionados
15
Trabalhos Relacionados
16
Nossa Abordagem
Critérios de QI para Análise da Reformulação da Consulta
17
Critérios de QI para Análise da Reformulação da
Consulta
 Como obtermos medidas de qualidade para
representar a perda de conceitos durante o processo
de reformulação da consulta?
 Além disso, como obtermos medidas de qualidade
para representar o enriquecimento de conceitos
durante o processo de reformulação da consulta?
Usando critérios de QI
18
Critérios de QI para Análise da Reformulação da
Consulta
Critérios de Perda
19
Critérios de QI para Análise da Reformulação da
Consulta
 Nossa definição para perda semântica: é a perda de
conceitos de uma consulta Q devido à reformulação
entre peers com esquemas heterogêneos.
 Degradação da Consulta: é a medida acumulada de
perdas semânticas sofrida por uma consulta Q após
sucessivas reformulações sobre esquemas
heterogêneos.
20
Critérios de QI para Análise da Reformulação da
Consulta
 Critério de QI Query Loss Measure (QuLM), o qual
representa a perda semântica de conceitos entre um
par de peers.
 Junto com o QuLM está o critério Accumulated Loss
Measure (AccLM) que mede a degradação da
consulta, ou seja, o acumulado de perdas semânticas
em um caminho para onde a consulta foi enviada.
21
Critérios de QI para Análise da Reformulação da
Consulta
 Dado um par de peers P = {Pi, Pj} e uma consulta
reformulada Qj de Pi para Pj definimos a medida de
perda da seguinte maneira:
22
Critérios de QI para Análise da Reformulação da
Consulta
 Dado um conjunto de peers P = {P1, ..., Pn} e um
conjunto de QuLM entre os pares de peers QuLM =
{QuLM1, ..., QuLMn} definimos a medida de
degradação da seguinte maneira:
23
Critérios de QI para Análise da Reformulação da
Consulta
 Exemplificando...
 Vamos assumir:
– um conjunto de quatro peers interconectados e
compartilhando informações no domínio de comércio.
– As correspondências semânticas entre os esquemas
dos peers já foram geradas pelo processo de matching
semântico.
– A consulta original submetida no peer P1 foi: vendedor,
shopping, produto, bicicleta.
24
Critérios de QI para Análise da Reformulação da
Consulta
25
Critérios de QI para Análise da Reformulação da
Consulta
26
Critérios de QI para Análise da Reformulação da
Consulta
27
Critérios de QI para Análise da Reformulação da
Consulta
 O caminho que leva ao peer P4 obteve uma medida
de qualidade de 0,2500. Com base neste valor
podemos dizer que este é um caminho com menos
perda semântica em relação à consulta colocada pelo
usuário no peer P1
 O processo de roteamento da consulta escolherá o
caminho para o peer P4
Caminho AccLM
P1 –P2 – P3 0,7525
P1 –P2 – P4 0,2500
28
Critérios de QI para Análise da Reformulação da
Consulta
Critérios de Enriquecimento
29
Critérios de QI para Análise da Reformulação da
Consulta
 Critério de QI Query Enrichment Measure (QuEM), o
qual representa o enriquecimento semântico de
conceitos entre um par de peers.
 Junto com o QuEM está o critério Accumulated
Enrichment Measure (AccEM) que mede o produto
acumulado de ganhos semânticos de conceitos da
consulta no caminho para onde foi enviada.
30
Critérios de QI para Análise da Reformulação da
Consulta
 Dado um par de peers P = {Pi, Pj} e uma consulta
reformulada Qj de Pi para Pj definimos a medida de
enriquecimento da seguinte maneira:
 Onde |Csubj| é o número de conceitos em Qj (consulta
reformulada) os quais são sub conceitos dos
conceitos em Qi (consulta corrente).
 |Csupj| é o número de conceitos em Qj que são super
conceitos dos conceitos em Qi.
31
Critérios de QI para Análise da Reformulação da
Consulta
 Onde |Cclj| é o número de conceitos em Qj os quais
são conceitos aproximados dos conceitos em Qi.
 |Cpwj| é o número de conceitos em Qj que são
conceitos parte/todo dos conceitos em Qi.
 QuLM e AccLM também são calculados.
32
Critérios de QI para Análise da Reformulação da
Consulta
 Dado um conjunto de peers P = {P1, ..., Pn} e um
conjunto de QuEM entre os pares de peers QuEM =
{QuEM1, ..., QuEMn} definimos a medida de
enriquecimento acumulado da seguinte maneira:
33
Critérios de QI para Análise da Reformulação da
Consulta
Exemplificando...
Considerando correspondências semânticas super
conceito e sub conceito
34
Critérios de QI para Análise da Reformulação da
Consulta
Considerando correspondências semânticas super
conceito e sub conceito
35
Critérios de QI para Análise da Reformulação da
Consulta
Considerando correspondências semânticas super
conceito e sub conceito
36
Critérios de QI para Análise da Reformulação da
Consulta
 O caminho para o peer P4 tem uma medida de perda
semântica menor.
 O caminho para o peer P3 tem uma medida de
enriquecimento semântico maior.
Caminho AccLM AccEM
P1 – P2 – P3 0,7525 1,2140
P1 – P2 – P4 0,2500 0,7820
37
Experimentos e Resultados
38
Critérios de QI – Experimentos e Resultados
 PDMS SPEED
 Java
 Eclipse
39
SPEED - Arquitetura
 O sistema SPEED é um PDMS baseado em
semântica, composto de pontos cujos esquemas
exportados são representados por ontologias.
40
Critérios de QI – Experimentos e Resultados
Ações tomadas
41
Critérios de QI – Experimentos e Resultados
42
Critérios de QI – Experimentos e Resultados
 Em nosso experimento levamos em consideração:
– um conjunto de cinco peers interconectados e
compartilhando informações no domínio de educação.
– A consulta original submetida no peer P2178 foi:
Professor, Manual, Schedule, Monitor.
– Serão obtidas as medidas de perdas e enriquecimento
semânticos.
– As correspondências semânticas consideradas foram:
sub conceito (subconcept), super conceito
(superconcept), aproximação (closeto) e parte/todo
(partof/wholeof)
43
Critérios de QI – Experimentos e Resultados
 De onde vem as correspondências semânticas?
– Arquivo de alinhamento para cada par de peer na
rede.
44
Critérios de QI – Experimentos e Resultados
45
Critérios de QI – Experimentos e Resultados
Par de Peers Consulta Reformulada Tipos de Conceitos Adquiridos
P2178 – P2378 Software, VisitingProfessor, Schedule,
Monitor, UndergraduateStudent,
Professor, Manual, Publication
Software closeto Manual,
VisitingProfessor subconcept of
Professor, UndergraduateStudent
superconcept of Monitor, Publication
superconcept of Manual.
P2178 – P2478 VisitingProfessor, Monitor, Professor VisitingProfessor subconcept of
Professor.
P2378- P2978 Software, Course, Schedule, Product,
Professor
Software subconcept of Product, Course
part of UndergraduateStudent, Product
superconcept of Software.
P2478 – P2578 Monitor
46
Conclusões
47
Conclusões
Neste trabalho, concebemos critérios de QI que
fornecem medidas semânticas da perda e ganho de
conceitos durante o processo de reformulação da
consulta.
48
Conclusões – Contribuições
 Elucidação e definição dos termos perda semântica e
degradação da consulta;
 A especificação de 4 critérios de QI para análise da
reformulação de consultas;
 Validação da nossa proposta com a implementação e
experimentos no PDMS SPEED;
49
Conclusões – Trabalhos Futuros
 Investigar outros critérios de QI para ser usado na
avaliação de outros elementos de um ambiente
dinâmico e distribuído;
 Avaliação da qualidade dos resultados da consulta.
 Implantação e teste em um ambiente real.
50
Publicações
 Artigo: Souza, B. F. F. ; Salgado, A.C ; Batista, M.C.M . Critérios de
Qualidade da Informação em Reformulação de Consultas em um
PDMS: Uma Perspectiva. I Escola Paraibana de Informática, 2011,
João Pessoa.
 Artigo: Souza, B. F. F. ; Batista, M.C.M ; Salgado, A.C. Semantic Loss
in Query Reformulation in Dynamic Distributed Environments. 6th
Alberto Mendelzon International Workshop on Foundations of Data
Management (AMW), 2012, Ouro Preto – MG.
 Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,
A. C. Towards an Information Quality Approach to Enhance Query
Routing Processes. 14th International Conference on Information
Integration and Web-based Applications & Services (iiWAS), 2012, Bali -
Indonesia.
 Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado,
A. C. Semantic Measures as Information Quality Criteria for Query
Routing Processes. International Journal of Business Intelligence and
Data Mining, 2013.
51
MUITO OBRIGADO!!!
Defesa de Mestrado
Recife, 09 de setembro de 2013
Information Quality Criteria Analysis in Distributed
Dynamic Environments
Orientadora: Ana Carolina Salgado
Co-orientadora: Maria da Conceição M. Batista
Bruno Felipe de França Souza
bffs@cin.ufpe.br

Más contenido relacionado

Similar a Análise de Critérios de QI em Reformulação de Consultas

Proposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados ConceituaisProposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados ConceituaisSérgio Dias
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Avelino Ferreira Gomes Filho
 
Introdução à Revisão Sistemática de Literatura (RSL)
Introdução à Revisão Sistemática de Literatura (RSL)Introdução à Revisão Sistemática de Literatura (RSL)
Introdução à Revisão Sistemática de Literatura (RSL)Mariana de Azevedo Santos
 
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de DecisãoAHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisãogutobiker
 
Strategies to Increase Customer Value in Agile Software Development - WBMA'18
Strategies to Increase Customer Value in Agile Software Development - WBMA'18 Strategies to Increase Customer Value in Agile Software Development - WBMA'18
Strategies to Increase Customer Value in Agile Software Development - WBMA'18 Fernando Sambinelli, MSc
 
Case Fleming Estratégia de um Setor
Case Fleming Estratégia de um SetorCase Fleming Estratégia de um Setor
Case Fleming Estratégia de um SetorSérgio Nunes
 
01.apresentação cargos e salários
01.apresentação cargos e salários01.apresentação cargos e salários
01.apresentação cargos e saláriosFlávio Francisco
 
Dlima Over View
Dlima Over ViewDlima Over View
Dlima Over Viewaparise
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebFernando Hideo Fukuda
 
Product Inception - Thiago Serrano - 99 - Product Camp 2017
Product Inception - Thiago Serrano - 99 - Product Camp 2017Product Inception - Thiago Serrano - 99 - Product Camp 2017
Product Inception - Thiago Serrano - 99 - Product Camp 2017Product Camp Brasil
 
SlidesHarmonization of ISO/IEC 9001:2000 and CMMI-DEV: from a theoretical com...
SlidesHarmonization of ISO/IEC 9001:2000 and CMMI-DEV: from a theoretical com...SlidesHarmonization of ISO/IEC 9001:2000 and CMMI-DEV: from a theoretical com...
SlidesHarmonization of ISO/IEC 9001:2000 and CMMI-DEV: from a theoretical com...Alexsandro Oliveira
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na PráticaEiti Kimura
 
ScModelo SCOR (Supply Chain Operations Reference – model)
ScModelo SCOR (Supply Chain Operations Reference – model)ScModelo SCOR (Supply Chain Operations Reference – model)
ScModelo SCOR (Supply Chain Operations Reference – model)Sergio Grisa
 
Avaliacao online: instrumentos e classificacao
Avaliacao online: instrumentos e classificacaoAvaliacao online: instrumentos e classificacao
Avaliacao online: instrumentos e classificacaoNeuza Pedro
 
Como Analizar Curvas De Cp E Cpk
Como Analizar Curvas De Cp E CpkComo Analizar Curvas De Cp E Cpk
Como Analizar Curvas De Cp E CpkRicardara
 
Qualidade do Contexto
Qualidade do ContextoQualidade do Contexto
Qualidade do ContextoBruno Felipe
 
Apresentação política de qualidade
Apresentação política de qualidadeApresentação política de qualidade
Apresentação política de qualidadeAna Fernandes
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Orlando Junior
 

Similar a Análise de Critérios de QI em Reformulação de Consultas (20)

Proposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados ConceituaisProposta de Tese: Redução de Reticulados Conceituais
Proposta de Tese: Redução de Reticulados Conceituais
 
Apresentação da Dissertação
Apresentação da DissertaçãoApresentação da Dissertação
Apresentação da Dissertação
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...
 
Introdução à Revisão Sistemática de Literatura (RSL)
Introdução à Revisão Sistemática de Literatura (RSL)Introdução à Revisão Sistemática de Literatura (RSL)
Introdução à Revisão Sistemática de Literatura (RSL)
 
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de DecisãoAHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
AHP - Analytic Hierarchy Process / Um Método de Auxílio à Tomada de Decisão
 
Strategies to Increase Customer Value in Agile Software Development - WBMA'18
Strategies to Increase Customer Value in Agile Software Development - WBMA'18 Strategies to Increase Customer Value in Agile Software Development - WBMA'18
Strategies to Increase Customer Value in Agile Software Development - WBMA'18
 
Case Fleming Estratégia de um Setor
Case Fleming Estratégia de um SetorCase Fleming Estratégia de um Setor
Case Fleming Estratégia de um Setor
 
01.apresentação cargos e salários
01.apresentação cargos e salários01.apresentação cargos e salários
01.apresentação cargos e salários
 
Dlima Over View
Dlima Over ViewDlima Over View
Dlima Over View
 
Sistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da WebSistemas Inteligentes para Textos da Web
Sistemas Inteligentes para Textos da Web
 
Product Inception - Thiago Serrano - 99 - Product Camp 2017
Product Inception - Thiago Serrano - 99 - Product Camp 2017Product Inception - Thiago Serrano - 99 - Product Camp 2017
Product Inception - Thiago Serrano - 99 - Product Camp 2017
 
SlidesHarmonization of ISO/IEC 9001:2000 and CMMI-DEV: from a theoretical com...
SlidesHarmonization of ISO/IEC 9001:2000 and CMMI-DEV: from a theoretical com...SlidesHarmonization of ISO/IEC 9001:2000 and CMMI-DEV: from a theoretical com...
SlidesHarmonization of ISO/IEC 9001:2000 and CMMI-DEV: from a theoretical com...
 
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
[TDC2016] Apache SparkMLlib:  Machine Learning na Prática[TDC2016] Apache SparkMLlib:  Machine Learning na Prática
[TDC2016] Apache SparkMLlib: Machine Learning na Prática
 
Optimizing Search
Optimizing SearchOptimizing Search
Optimizing Search
 
ScModelo SCOR (Supply Chain Operations Reference – model)
ScModelo SCOR (Supply Chain Operations Reference – model)ScModelo SCOR (Supply Chain Operations Reference – model)
ScModelo SCOR (Supply Chain Operations Reference – model)
 
Avaliacao online: instrumentos e classificacao
Avaliacao online: instrumentos e classificacaoAvaliacao online: instrumentos e classificacao
Avaliacao online: instrumentos e classificacao
 
Como Analizar Curvas De Cp E Cpk
Como Analizar Curvas De Cp E CpkComo Analizar Curvas De Cp E Cpk
Como Analizar Curvas De Cp E Cpk
 
Qualidade do Contexto
Qualidade do ContextoQualidade do Contexto
Qualidade do Contexto
 
Apresentação política de qualidade
Apresentação política de qualidadeApresentação política de qualidade
Apresentação política de qualidade
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
 

Más de Bruno Felipe

Blockchain Aplicado à Saúde
Blockchain Aplicado à SaúdeBlockchain Aplicado à Saúde
Blockchain Aplicado à SaúdeBruno Felipe
 
Segurança da Informação: Proteção no ambiente Virtual
Segurança da Informação: Proteção no ambiente VirtualSegurança da Informação: Proteção no ambiente Virtual
Segurança da Informação: Proteção no ambiente VirtualBruno Felipe
 
Banco de Dados e Contexto
Banco de Dados e ContextoBanco de Dados e Contexto
Banco de Dados e ContextoBruno Felipe
 
Segurança em Migração de Virtual Machines
Segurança em Migração de Virtual MachinesSegurança em Migração de Virtual Machines
Segurança em Migração de Virtual MachinesBruno Felipe
 
Arquitetura da Informação - Interatividade
Arquitetura da Informação - InteratividadeArquitetura da Informação - Interatividade
Arquitetura da Informação - InteratividadeBruno Felipe
 
12 objetivos de banco de dados distribuídos
12 objetivos de banco de dados distribuídos12 objetivos de banco de dados distribuídos
12 objetivos de banco de dados distribuídosBruno Felipe
 
Otimização por Colônia de Formigas (ACO)
Otimização por Colônia de Formigas (ACO)Otimização por Colônia de Formigas (ACO)
Otimização por Colônia de Formigas (ACO)Bruno Felipe
 

Más de Bruno Felipe (10)

Blockchain Aplicado à Saúde
Blockchain Aplicado à SaúdeBlockchain Aplicado à Saúde
Blockchain Aplicado à Saúde
 
Segurança da Informação: Proteção no ambiente Virtual
Segurança da Informação: Proteção no ambiente VirtualSegurança da Informação: Proteção no ambiente Virtual
Segurança da Informação: Proteção no ambiente Virtual
 
Linked Data
Linked DataLinked Data
Linked Data
 
Banco de Dados e Contexto
Banco de Dados e ContextoBanco de Dados e Contexto
Banco de Dados e Contexto
 
Segurança em Migração de Virtual Machines
Segurança em Migração de Virtual MachinesSegurança em Migração de Virtual Machines
Segurança em Migração de Virtual Machines
 
Arquitetura da Informação - Interatividade
Arquitetura da Informação - InteratividadeArquitetura da Informação - Interatividade
Arquitetura da Informação - Interatividade
 
SAD e OLAP
SAD e OLAPSAD e OLAP
SAD e OLAP
 
12 objetivos de banco de dados distribuídos
12 objetivos de banco de dados distribuídos12 objetivos de banco de dados distribuídos
12 objetivos de banco de dados distribuídos
 
Scrum
ScrumScrum
Scrum
 
Otimização por Colônia de Formigas (ACO)
Otimização por Colônia de Formigas (ACO)Otimização por Colônia de Formigas (ACO)
Otimização por Colônia de Formigas (ACO)
 

Análise de Critérios de QI em Reformulação de Consultas

  • 1. Defesa de Mestrado Recife, 09 de setembro de 2013 Information Quality Criteria Analysis in Query Reformulation in Distributed Dynamic Environments Orientadora: Ana Carolina Salgado Co-orientadora: Maria da Conceição M. Batista Bruno Felipe de França Souza bffs@cin.ufpe.br
  • 2. 2 Roteiro  Motivação  Fundamentação Teórica – Reformulação de Consultas; – Qualidade da Informação; – Perda Semântica e Degradação da Consulta; – Correspondências Semânticas (enriquecimento).  Trabalhos Relacionados  Nossa abordagem: Análise de Critérios de QI em Reformulação de Consultas – Critérios de perda (especificação e exemplo) – Critérios de enriquecimento (especificação e exemplo)  Experimentação e Resultados (SPEED)  Considerações Finais  Trabalhos Futuros
  • 3. 3 Motivação  O uso de diferentes tipos de sistemas para o compartilhamento de informações, e.g., Sistemas de Integração de Dados e PDMS (Peer Data Management System).  Uso intensivo do mecanismo de consulta para obter dados de diferentes fontes de dados (peers).
  • 4. 4 Motivação  Reformulação de consultas, eventuais problemas: – Perda semântica; – Degradação da consulta; – Resultados vazios ou incompletos;  Em contraste, podemos ter enriquecimento semântico de conceitos durante a reformulação da consulta.
  • 5. 5 Motivação  Como medir o nível de perda e/ou enriquecimento semântico de uma consulta?  Este resultado da medição, pode ser oportuno para o processo de roteamento da consulta em um ambiente dinâmico e distribuído.
  • 6. 6 Caracterização do Problema  Roteamento da consulta – Análise dos conceitos da consulta durante a reformulação; – Perda e/ou enriquecimento semântico; – Geração de medidas de qualidade. Nosso Foco: Análise da reformulação da consulta usando critérios de qualidade da Informação (QI)
  • 7. 7 Objetivos  Especificar e implementar critérios de QI para a análise de reformulação de consultas em um PDMS.  Auxiliar o roteamento da consulta, fornecendo medidas de QI para ajudar na decisão de continuar ou não o processo de roteamento.  Elucidar os conceitos de perda semântica e degradação da consulta.  Realizar o experimento da análise da reformulação de consultas no PDMS SPEED;
  • 9. 9 Reformulação de Consultas  Reformulação da consulta é o processo de reformular uma consulta entre dois peers com esquemas heterogêneos.  A reformulação é feita por meio de correspondências semânticas estabelecidas entre os peers vizinhos.  Correspondências – elemento a elemento.
  • 10. 10 Reformulação de Consultas C = Professor, Student, Coordinator, Principal and Staff
  • 11. 11 Qualidade da Informação (QI)  QI é um conjunto de critérios usados para medir o grau de qualidade geral de um sistema.  Pode ser aplicado para medir diversos elementos de um sistema, e.g., peers, resultados da consulta, dados.  Os autores Wang & Strong propuseram um artigo compilando vários critérios de QI para serem usados em sistemas computacionais.
  • 12. 12 Correspondências Semânticas  SemMatcher, gera correspondências semânticas entre dois esquemas representados por ontologias.  Tipos de correspondência: – Equivalência (1,0); – SubConceito (0,8); – SuperConceito (0,5); – Aproximação (0,3); – “Parte de” e “Todo” (0,1).  Enriquecimento semântico, ganho de conceitos semânticos durante a reformulação da consulta.
  • 13. 13 Perda Semântica e Degradação da Consulta  Perda semântica é a diferença sintática entre a consulta original e suas reformulações [Delveroudis & Lekeas 2007].  Alguns autores consideram o termo perda semântica e degradação da consulta como sinônimos.
  • 16. 16 Nossa Abordagem Critérios de QI para Análise da Reformulação da Consulta
  • 17. 17 Critérios de QI para Análise da Reformulação da Consulta  Como obtermos medidas de qualidade para representar a perda de conceitos durante o processo de reformulação da consulta?  Além disso, como obtermos medidas de qualidade para representar o enriquecimento de conceitos durante o processo de reformulação da consulta? Usando critérios de QI
  • 18. 18 Critérios de QI para Análise da Reformulação da Consulta Critérios de Perda
  • 19. 19 Critérios de QI para Análise da Reformulação da Consulta  Nossa definição para perda semântica: é a perda de conceitos de uma consulta Q devido à reformulação entre peers com esquemas heterogêneos.  Degradação da Consulta: é a medida acumulada de perdas semânticas sofrida por uma consulta Q após sucessivas reformulações sobre esquemas heterogêneos.
  • 20. 20 Critérios de QI para Análise da Reformulação da Consulta  Critério de QI Query Loss Measure (QuLM), o qual representa a perda semântica de conceitos entre um par de peers.  Junto com o QuLM está o critério Accumulated Loss Measure (AccLM) que mede a degradação da consulta, ou seja, o acumulado de perdas semânticas em um caminho para onde a consulta foi enviada.
  • 21. 21 Critérios de QI para Análise da Reformulação da Consulta  Dado um par de peers P = {Pi, Pj} e uma consulta reformulada Qj de Pi para Pj definimos a medida de perda da seguinte maneira:
  • 22. 22 Critérios de QI para Análise da Reformulação da Consulta  Dado um conjunto de peers P = {P1, ..., Pn} e um conjunto de QuLM entre os pares de peers QuLM = {QuLM1, ..., QuLMn} definimos a medida de degradação da seguinte maneira:
  • 23. 23 Critérios de QI para Análise da Reformulação da Consulta  Exemplificando...  Vamos assumir: – um conjunto de quatro peers interconectados e compartilhando informações no domínio de comércio. – As correspondências semânticas entre os esquemas dos peers já foram geradas pelo processo de matching semântico. – A consulta original submetida no peer P1 foi: vendedor, shopping, produto, bicicleta.
  • 24. 24 Critérios de QI para Análise da Reformulação da Consulta
  • 25. 25 Critérios de QI para Análise da Reformulação da Consulta
  • 26. 26 Critérios de QI para Análise da Reformulação da Consulta
  • 27. 27 Critérios de QI para Análise da Reformulação da Consulta  O caminho que leva ao peer P4 obteve uma medida de qualidade de 0,2500. Com base neste valor podemos dizer que este é um caminho com menos perda semântica em relação à consulta colocada pelo usuário no peer P1  O processo de roteamento da consulta escolherá o caminho para o peer P4 Caminho AccLM P1 –P2 – P3 0,7525 P1 –P2 – P4 0,2500
  • 28. 28 Critérios de QI para Análise da Reformulação da Consulta Critérios de Enriquecimento
  • 29. 29 Critérios de QI para Análise da Reformulação da Consulta  Critério de QI Query Enrichment Measure (QuEM), o qual representa o enriquecimento semântico de conceitos entre um par de peers.  Junto com o QuEM está o critério Accumulated Enrichment Measure (AccEM) que mede o produto acumulado de ganhos semânticos de conceitos da consulta no caminho para onde foi enviada.
  • 30. 30 Critérios de QI para Análise da Reformulação da Consulta  Dado um par de peers P = {Pi, Pj} e uma consulta reformulada Qj de Pi para Pj definimos a medida de enriquecimento da seguinte maneira:  Onde |Csubj| é o número de conceitos em Qj (consulta reformulada) os quais são sub conceitos dos conceitos em Qi (consulta corrente).  |Csupj| é o número de conceitos em Qj que são super conceitos dos conceitos em Qi.
  • 31. 31 Critérios de QI para Análise da Reformulação da Consulta  Onde |Cclj| é o número de conceitos em Qj os quais são conceitos aproximados dos conceitos em Qi.  |Cpwj| é o número de conceitos em Qj que são conceitos parte/todo dos conceitos em Qi.  QuLM e AccLM também são calculados.
  • 32. 32 Critérios de QI para Análise da Reformulação da Consulta  Dado um conjunto de peers P = {P1, ..., Pn} e um conjunto de QuEM entre os pares de peers QuEM = {QuEM1, ..., QuEMn} definimos a medida de enriquecimento acumulado da seguinte maneira:
  • 33. 33 Critérios de QI para Análise da Reformulação da Consulta Exemplificando... Considerando correspondências semânticas super conceito e sub conceito
  • 34. 34 Critérios de QI para Análise da Reformulação da Consulta Considerando correspondências semânticas super conceito e sub conceito
  • 35. 35 Critérios de QI para Análise da Reformulação da Consulta Considerando correspondências semânticas super conceito e sub conceito
  • 36. 36 Critérios de QI para Análise da Reformulação da Consulta  O caminho para o peer P4 tem uma medida de perda semântica menor.  O caminho para o peer P3 tem uma medida de enriquecimento semântico maior. Caminho AccLM AccEM P1 – P2 – P3 0,7525 1,2140 P1 – P2 – P4 0,2500 0,7820
  • 38. 38 Critérios de QI – Experimentos e Resultados  PDMS SPEED  Java  Eclipse
  • 39. 39 SPEED - Arquitetura  O sistema SPEED é um PDMS baseado em semântica, composto de pontos cujos esquemas exportados são representados por ontologias.
  • 40. 40 Critérios de QI – Experimentos e Resultados Ações tomadas
  • 41. 41 Critérios de QI – Experimentos e Resultados
  • 42. 42 Critérios de QI – Experimentos e Resultados  Em nosso experimento levamos em consideração: – um conjunto de cinco peers interconectados e compartilhando informações no domínio de educação. – A consulta original submetida no peer P2178 foi: Professor, Manual, Schedule, Monitor. – Serão obtidas as medidas de perdas e enriquecimento semânticos. – As correspondências semânticas consideradas foram: sub conceito (subconcept), super conceito (superconcept), aproximação (closeto) e parte/todo (partof/wholeof)
  • 43. 43 Critérios de QI – Experimentos e Resultados  De onde vem as correspondências semânticas? – Arquivo de alinhamento para cada par de peer na rede.
  • 44. 44 Critérios de QI – Experimentos e Resultados
  • 45. 45 Critérios de QI – Experimentos e Resultados Par de Peers Consulta Reformulada Tipos de Conceitos Adquiridos P2178 – P2378 Software, VisitingProfessor, Schedule, Monitor, UndergraduateStudent, Professor, Manual, Publication Software closeto Manual, VisitingProfessor subconcept of Professor, UndergraduateStudent superconcept of Monitor, Publication superconcept of Manual. P2178 – P2478 VisitingProfessor, Monitor, Professor VisitingProfessor subconcept of Professor. P2378- P2978 Software, Course, Schedule, Product, Professor Software subconcept of Product, Course part of UndergraduateStudent, Product superconcept of Software. P2478 – P2578 Monitor
  • 47. 47 Conclusões Neste trabalho, concebemos critérios de QI que fornecem medidas semânticas da perda e ganho de conceitos durante o processo de reformulação da consulta.
  • 48. 48 Conclusões – Contribuições  Elucidação e definição dos termos perda semântica e degradação da consulta;  A especificação de 4 critérios de QI para análise da reformulação de consultas;  Validação da nossa proposta com a implementação e experimentos no PDMS SPEED;
  • 49. 49 Conclusões – Trabalhos Futuros  Investigar outros critérios de QI para ser usado na avaliação de outros elementos de um ambiente dinâmico e distribuído;  Avaliação da qualidade dos resultados da consulta.  Implantação e teste em um ambiente real.
  • 50. 50 Publicações  Artigo: Souza, B. F. F. ; Salgado, A.C ; Batista, M.C.M . Critérios de Qualidade da Informação em Reformulação de Consultas em um PDMS: Uma Perspectiva. I Escola Paraibana de Informática, 2011, João Pessoa.  Artigo: Souza, B. F. F. ; Batista, M.C.M ; Salgado, A.C. Semantic Loss in Query Reformulation in Dynamic Distributed Environments. 6th Alberto Mendelzon International Workshop on Foundations of Data Management (AMW), 2012, Ouro Preto – MG.  Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado, A. C. Towards an Information Quality Approach to Enhance Query Routing Processes. 14th International Conference on Information Integration and Web-based Applications & Services (iiWAS), 2012, Bali - Indonesia.  Artigo: Freire, C. ; Souza, B. F. F. ; Souza, D. ; Batista, M.C.M ; Salgado, A. C. Semantic Measures as Information Quality Criteria for Query Routing Processes. International Journal of Business Intelligence and Data Mining, 2013.
  • 52. Defesa de Mestrado Recife, 09 de setembro de 2013 Information Quality Criteria Analysis in Distributed Dynamic Environments Orientadora: Ana Carolina Salgado Co-orientadora: Maria da Conceição M. Batista Bruno Felipe de França Souza bffs@cin.ufpe.br

Notas del editor

  1. A minha apresentação se inicia mostrando as motivações desse trabalho.Tem se intensificado nos últimos anos, a principal característica que estes sistemas tem em comum é o fornecimento de consulta aos usuários.Para obtermos esses dados esses sistemas fazem uso intensivo do mecanismo de consulta...Processamento e armazenamento de dados distribuídos feito a partir de pontos autônomos que também armazenam os mapeamentos semânticos dos dados.Um PDMS possui características:Compartilhamento descentralizado dos dados;Escalabilidade; Processamento e armazenamento de dados distribuídos.
  2. Nesse mecanismo de consulta, existe um processo chamado reformulação da consulta, que tem o intuito de obter mais dados para a consulta por meio de reformulações para outros peers. Nesse processo de reformulação, consequentemente, devivo à heterogeneidade de esquemas e mesmo a natureza dinâmica de um peer, os seguintes problemas podem surgir.O enriquecimento semântico pode surgir devido ao ambiente ser rico em significado, fazer uso de ontologias, por exemplo.
  3. Com essesdoispontos de vista, comopodemosmedir a perda e/ou o enriquecimento de umaconsultadurante o processo de reformulação?
  4. A caracterização do nossoproblema é compostaporanálise dos conceitosdaconsultadurante a reformulação; perda e/ouenriquecimentosemânticos;Geração de medidassemânticas.Nossofocoentãoserá: Análisedareformulaçãodaconsultausandocritérios de qualidadedaInformação (QI).Qualidadedainformação é umasérie de critériosque tem comoobjetivoavaliar a qualidade dos elementos de um sistema, porexemplo, em um PDMS, podemosusarcritérios de QIPara avaliar a completude de um esquema, a disponibilidade de um peer, a relevância de umaconsulta entre outros (o tempo de resposta de um peer).
  5. Um consulta é colocada em um peer e reformulada para seus vizinhos no intuito de obter mais resultados. Então, reformulação é... Item 2.Este esquema exportado pode ser um esquema relaciona ou até mesmo ontologias.Mapeamentos são ligações estabelecidas por meio de conceitos de sistemas de integração como, por exemplo, o mapeamento GAV, onde temos um conceito de uma ontologia do cluster equivale à uma visão de conceitos de ontologias dos pontos dos clusters.Já, as correspondências é um relacionamento elemento a elemento, isso é, entre um elemento de uma ontologia de um ponto e um elemento de uma ontologia do ponto 2.
  6. Como se dá o processo de reformulação em um PDMS? Dada a consulta tal colocada no peerBrazil. A mesma é processada localmente para obter resultados e assim reformulada para o peer vizinho, por meio das correspondêcias semânticas, neste caso, entre os peers.Podemos perceber que a consulta original irá ser colocada no peerBrazil e reformulada de acordo com o esquema do peer Portugal e assim sucessivamente. Ao final os resultados irão ser integrados e devolvidos para o peer que solicitou a consulta.
  7. Vem sendo pesquisada e usada fortemente para gerar métricas para diversos elementos de um sistema.Os autores Wang & Strong propuseram um artigo em 1996 com uma série de critérios para medir a qualidade geral de um sistema. Muito usado como referência no assunto.
  8. O SemMatcher é um matching semântico usado para estabelecer o grau de similaridade semântica entre dois esquemas de um par de peers.Para cada tipo de correspondência semântica, existe um importância (peso) associado para expressar seu nível de relevância.As correspondências semânticas entre os pontos são estabelecidas para prover um entendimento comum de suas fontes de dados.Relacionamentos identificados entre os conceitos e propriedades dos esquemas
  9. Vamos começar mostrando a perda semântica com um exemplo...Alguns autores definem a perda semântica como a diferença sintática entre a consulta original e suas reformulações
  10. Algunsautoresmostrampropostaspara o problema de perdasemântica.O primeirotrabalhofaz a análisedaperdasemânticabaseadoemdiferençassintáticas entre a consulta original e a consultareformulada, ouseja, umadiferença entre Q e Q’ (Q-Q’).O trabalho de Bonifatimostraumaproposta de proximidadesemântica entre a consulta e o mapeamento. Aoexecutarumaconsulta é verificadasuaproximidadesemântica com o mapeamentopormeiodaanálise dos conceitosdaconsulta.O trabalho de Kantereenfatiza o processo de clusterizaçãodacamada overlay darede, ouseja, umaorganização dos peers com base emseusesquemas.O trabalho de Aberer é similar aotrabalho de Delveroudis. Falasobrediferençassintáticas entre as consultasparaestimar a perdasemântica. Os autorestambémfalam de umamedida de similaridadeque é geradaparaganrantirqueosatributospresevadosnareformulaçãoseja, realmente, semanticamenterelacionados.O trabalho de Mena assimcomo o de Delveroudis e Abererfalasobre a análise das consultasbaseadasnostermos (cenceitos) faltantes.Essestrabalhosnãofazemuso de QI paragerarmedidas de perda. Alguns deles aindacitamqueseriaoportuno o uso de QI, massementrarmuitoemdetalhes. Emnossaabordagemiremosfazeruso de critérios de QI paragerarmedidassemânticas de perda e além disso, de enriquecimentosemântico.
  11. Nesteponto, vamoscomeçar a falardanossaabordagem do uso de critérios de QI paraanálisedareformulaçãodaconsulta
  12. Primeiro, começamos dando a nossa definição para perda semântica e degradação da consulta.Relembrando, na literatura autores usam o termo perda semântica e degradação da consulta de forma intercambiável. Essa definição leva o problema mais para o lado semântico do que apenas diferenças sintáticas entre as consultas.
  13. Esses dois critérios formam critérios negativos (de perda) e são definidos da seguinte maneira.A fórmula do QuLM calcula um percentual de conceitos equivalentes.Então, o QuLM é igual a zero se o número de conceitos equivalentes (Ceqj) na consulta reformulada for maior ou igual ao número de conceitos da consulta corrente (Ci)
  14. O AccLM calcula o conjunto de perdas semânticas, ou seja, a degradação da consulta.
  15. Falar sobre enriquecimento semântico e relembrar as correspondências semânticas geradas pelo semmatcher.
  16. Esses dois critérios formam critérios positivos (de ganho) e são formalizados da seguinte maneira
  17. É importante ressaltar que durante a análise de enriquecimento as medidas de perda (QuLM e AccLM) serão avaliadas para os conceitos equivalentes da consulta.
  18. A medida acumulada de enriquecimento semântico pode ultrapassar o valor 1, pois ela é uma medida de crescimento não limitada. Não limitamos o número de conceitos adquiridos.
  19. Aqui eu diria que o caminho escolhido pelo processo de roteamento seria o que leva para o peer P4.Uma vez que na reformulação eu não tenho perdas e conservo mais conceitos equivalentes, além disso, tenho um enriquecimento razoável em comparação com ao enriquecimento para o peer P3.Contudo nesses casos, o processo de roteamento deve seguir um threshold que diz o quanto é aceitável de perda em relação aos ganhos.
  20. No sistema SPEED os pontos são agrupados em um mesmo domínio de conhecimento (como Educação, Saúde, etc.) e uma ontologia descrevendo o domínio está disponível para ser utilizada como conhecimento.OS peers semânticos são responsáveis por comunidades semânticas e armazenam os resumos das ontologias do peers de integração. Eles têm conhecimento de cada peer de integração em sua comunidade.Os peers de integração são peers especiais em termos de capacidade computacional (maior disponibilidade, maior processamento) e são responsáveis pela integração dos dados quando uma consulta é submetida.Os peers de dados são computadores que se conectam ao sistema e compartilham informações por meio dos seus esquemas exportados (ontologia).
  21. Este caso de usorepresenta as açõestomadasaosubmeterumaconsultaemnosso PDMS speed.A consulta é reformulada e sempre as medidas de perdasemânticasãoobtidas.Se o usuáriooptarporumaconsulta do tipoenriquecida, as medidas de ganhosemânticatambémserãogeradas.
  22. Aconsulta original é submetida no peer P2178 queentãoseráprocessadalocalmente e reformuladaparaosoutros peers.
  23. Neste arquivo de alinhamento podemos ver que para o conceito Lecturer, além da correspondência semântica de equivalência existem outras correspondências.Isso quer dizer que uma consulta to tipo enriquecida pedindo por sub conceitos e super conceitos irá obter conceitos comoMeeting, Conference, Event...
  24. Tela do speed para a formulação de consultas e seleção das variáveis de enriquecimento (correspondências semânticas).Ao clicar em submitquery, as reformulações são feitas e ao final o botão show QuLMandQuEM é habilitado.
  25. O caminho que leva para o peer P2978 mostra melhores medidas de perda e ganho do que o caminho para o peer 2578.O roteamento da consulta pode levar em consideração essas medidas para decidir se para ou não com o roteamento.É necessário uma medida de threshold para a perda e ganho de conceitos.
  26. Dessa forma, estescritériospodemauxiliar o processo de roteamentodaconsultaemsuadecisão de continuarounão o roteamento.