SlideShare una empresa de Scribd logo
1 de 38
Alinhamento de esquemas
baseado em instâncias
PROPOSTA DE DOUTORADO
Daniela F. Brauner
Orientador:
Prof. Marco Antonio Casanova
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Definição do problema
• Como acessar bancos de dados que adotam esquemas
heterogêneos?
SA
TB
DBA DBB
?
Esquema conceitual:
descreve em alto nível como
organizar os dados
armazenados em um BD
Esquema de Classificação:
classifica os dados armazenados
em um BD em categorias pré-
definidas
Ex: palavras-chave, tesauros, taxonomias.
?
TA
?
SB
© Daniela F. Brauner
Definição do problema
Ex:
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
76124 São Sebastião do Rio de
Janeiro
PPLA -225400 -431400 -22.9 -43.2333333
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
DBA
DBB
© Daniela F. Brauner
Definição do problema
Solução:
• Alinhamento de esquemas (schema matching):
Dados dois esquemas como entrada,
gerar um mapeamento entre os elementos desses
esquemas que correspondem semanticamente um ao outro.
µ
SA
sb = µ(sa)
SB
© Daniela F. Brauner
Definição do problema
Aplicações:
• Transformação de dados
Ex: data warehousing
• Mediação de consultas
Ex: arquitetura de mediadores
© Daniela F. Brauner
Definição do problema
TA TB
DBA DBB
Transformação de dados:
__
__
__
__
__
__
?
“Populated places” ≠ “PPL”
© Daniela F. Brauner
Definição do problema
TA TB
DBA DBB
__
__
__
__
__
__
“Populated places” “PPL”
Transformação de dados:
© Daniela F. Brauner
Definição do problema
TA TB
DBA DBB
Populated placesPopulated places
ClientClient
Request
“Populated places” Request
“PPL”
__
__
__
__
__
__
TA
PPLPPL
TB
Mediação de consultas:
© Daniela F. Brauner
Definição do problema
TA TB
DBA DBB
Populated placesPopulated places
ClientClient
Request
“Populated places”
Request
“Populated places”
Request
“PPL”
“Populated places” “PPL”
__
__
__
__
__
__
__
__
__
Mediação de consultas:
TA
?
© Daniela F. Brauner
Definição do problema
Como obter os mapeamentos?
Manualmente:
• Nível de esforço linear com relação ao número de mapeamentos
• Processo tedioso e dispendioso
– Consome cerca de 40% do tempo de trabalho dos departamentos de TI
Abordagens a priori:
• Requer amadurecimento das técnicas de projeto de BDs
Abordagens sintáticas:
• Suscetíveis a erros
Abordagens semânticas:
• Utilizam instâncias
CASANOVA, M. A.; BREITMAN, K. K.; BRAUNER, D. F.; MARINS, A. L. Database Conceptual Schema
Matching. IEEE Computer Society, Computer, vol. 40, n. 10, pp. 102-104, Oct., 2007.
KEENE, C. Data Services for Next-Generation SOAs. SOA WebServices Journal, 4(12), 2004.
http://webservices.syscon.com/read/47283.htm
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Abordagem proposta
• Alinhamento de esquemas utilizando instâncias
– Abordagem a priori:
descoberta dos mapeamentos antes da implantação do
mediador
– Abordagem adaptativa:
descoberta e adaptação dos mapeamentos de forma
incremental, utilizando as respostas às consultas dos usuários
como evidências dos mapeamentos
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
DBA
Alinhamento de tesauros
• Utilizando instâncias
– Identifica instâncias equivalentes
– Conta os casamentos entre termos de tesauros distintos
– Define taxa de mapeamento para pares de termos
ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG
67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333
39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
DBB
© Daniela F. Brauner
Alinhamento de tesauros
• Abordagem a priori
Mapping Rate
Estimator Module
1
2
CA CB
ThesaurusThesaurus
RA RB
Mapping Rates
Matrix
BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Towards Gazetteer Integration Through an Instance-based Thesauri
Mapping Approach. In: Clodoveu A. Davis Jr; Antonio M.V.M. Monteiro. (Org.). Advances in Geoinformatics. Heidelberg:
Springer, 2007, v.1, p.235-245.
© Daniela F. Brauner
Alinhamento de tesauros
TA TB
DBA DBB
__
__
__
__
__
__
“Populated places” “PPL”
• Abordagem a priori: transformação de dados
© Daniela F. Brauner
Alinhamento de tesauros
• Abordagem adaptativa
Query Manager
Module
Cache
Mappings
Mapping Rate
Estimator Module
Mapping Rates
Matrix
Thesaurus1
Client
3
4
5
7
6
CA CB
ThesaurusQuery
2
8
Query
BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Mediation as Recommendation: An Approach to Design Mediators for
Object Catalogs. In: 5th International Conference on Ontologies, DataBases, and Applications of Semantics, 2006, Montpellier,
OTM 2006 Workshops. Berlin/Heidelberg:Springer, 2006. v. 4277. p. 46-47.
© Daniela F. Brauner
Cache Mappings
Alinhamento de tesauros
TA TB
DBA DBB
Populated placesPopulated places
ClientClient
Request
“Populated places”
using TA
Request
“PPL”
using TB
__
__
__
__
__
__
TA
PPLPPL
TB
..in a user session..
__
__
__
__
__
__
• Abordagem adaptativa: mediação de consultas
© Daniela F. Brauner
Alinhamento de tesauros
Geração de tesauro de referência:
• Abordagem a priori:
– Assume-se um dos tesauros das fontes como
tesauro de referência
– A pertinência dos elementos é confirmada
a partir dos mapeamentos realizados
• Abordagem adaptativa:
– Assume-se um dos tesauros das fontes como referência
(por exemplo, o da primeira fonte cadastrada)
– A pertinência dos elementos é confirmada a medida
que os mapeamentos são descobertos
– Novos elementos são incluídos quando
novos mapeamentos são descobertos
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Ref.
Alinhamento de esquemas conceituais
• Utilizando instâncias
– Utiliza um conjunto de instâncias de referência
– Conta re-ocorrência dos valores dos atributos
– Define matrizes de ocorrência
ID NAME IDTYPE LAT LONG
67203 Rio de Janeiro PPLA -22.9 -43.2333333
266178 Alps MTS 46.41666 10.0
433587 Mississippi River STM 29.15105 -89.253342
identifier display-name class gml:y gml:x
adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5
adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95
adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333
adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167
DBA
© Daniela F. Brauner
Alinhamento de esquemas conceituais
• Abordagem a priori
Query Manager
Module
Cache
Mappings
Mapping Rate
Estimator Module
Occurrence Matrix
between SG e SA
3
4
5
6
Global Instances
+
Global Schema
SA1 2
DBA DBB
SB
SG
RG
Occurrence Matrix
between SG e SB
BRAUNER, D. F.; INTRATOR, C.; FREITAS, J. C.; CASANOVA, M. A. An Instance-based Approach for Matching Export
Schemas of Geographical Database Web Services. In: IX Brazilian Symposium on GeoInformatics, 2007, Campos do Jordão.
IX Brazilian Symposium on GeoInformatics (GeoInfo 2007), 2007.
© Daniela F. Brauner
Alinhamento de esquemas conceituais
• Abordagem adaptativa
Query Manager
Module
Cache
Mappings
Mapping Rate
Estimator Module
Occurrence Matrix EMI Matrix
SA1
Client
Query 2
3
4
5 7
6
DBA DBB
SB
8
BRAUNER, D. F.; GAZOLA, A.; CASANOVA, M. A.; BREITMAN, K. K. Matching Schemas of Database Web Services by
Mediating User Queries. In: 10th International Conference on Enterprise Information Systems (ICEIS 2008), 12-16, June,
2008. Barcelona, Spain (Submitted).
© Daniela F. Brauner
Alinhamento de esquemas conceituais
Geração de esquema conceitual global:
• Abordagem a priori:
– O esquema conceitual global é definido a priori
– A pertinência dos elementos (atributos) é confirmada
a partir dos mapeamentos realizados
• Abordagem adaptativa:
– Assume-se um dos esquemas conceituais
das fontes cadastradas como esquema global
(por exemplo, o da primeira fonte cadastrada)
– A pertinência dos elementos (atributos) é confirmada
a medida que os mapeamentos são descobertos
– Novos atributos são incluídos quando
novos mapeamentos são descobertos
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Trabalhos Relacionados
• Rahm e Bernstein (2001) apresentam um survey incluindo
diversas técnicas de alinhamento de esquemas conceituais, e
propõem uma taxonomia para classificá-las.
• Bernstein e Melnik (2007) apresentam uma revisão dos requisitos
para um Sistema de Gerenciamento de Modelos (que inclui
operações para alinhamento de esquemas, diff de esquemas,
transformação de dados a partir dos mapeamentos, etc.).
– Apontam a necessidade de inclusão de um componente
para execução dos mapeamentos em runtime.
Rahm, E.; Bernstein, P. A. A Survey of Approaches to Automatic Schema Matching, The VDLB Journal, vol. 10, pp. 334–
350, 2001.
Bernstein, P. A.; Melnik, S. Model management 2.0: manipulating richer mappings. In Proc. of the 2007 ACM SIGMOD
International Conference on Management of Data, Beijing, China, 2007. pp.1 - 12.
© Daniela F. Brauner
Trabalhos Relacionados
(Wang et al. 2004)
• Técnica de alinhamento de esquemas baseada em instâncias
usando sondagem de consultas específica de domínio, aplicada a
bancos de dados na Web
• Um banco de dados na Web é composto por:
– Esquema de Interface: o que pode ser consultado
– Esquema de Resultado: o que é apresentado aos usuários
• Assume a existência/definição prévia de:
– um esquema global para bancos de dados na Web
de um mesmo domínio
– um conjunto de instâncias de referência
Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by
domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.
© Daniela F. Brauner
Trabalhos Relacionados
Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by
domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.
Esquema global +
Instâncias de referência
Title Author Publisher ISBN
xxxx xxxxxxx xxxx xxxx xxxx
xxxx xxxxxxx xxxx xxxx xxxx
xxxx xxxxxxx xxxx xxxx xxxx
xxxx xxxxxxx xxxx xxxx xxxx
Instâncias de Referência
Web Database (Esquema de Interface)
© Daniela F. Brauner
Trabalhos Relacionados
Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by
domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.
Title Author Publisher ISBN
xxxx xxxxxxx xxxx xxxx xxxx
xxxx xxxxxxx xxxx xxxx xxxx
xxxx xxxxxxx xxxx xxxx xxxx
xxxx xxxxxxx xxxx xxxx xxxx
Result Page (Esquema de Resultado)
Esquema global +
Instâncias de referência
Instâncias de Referência
Web Database (Esquema de Interface)
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Contribuições
• Técnicas baseadas em instâncias para alinhamento de:
– esquemas de classificação (tesauros)
– esquemas conceituais
• Classificação das técnicas em a priori e adaptativas
• Técnicas para, a partir destes alinhamentos, criação de:
– esquemas de classificação (tesauros) de referência
– esquemas conceituais globais
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Organização da tese
1. Introdução
2. Trabalhos relacionados
3. Alinhamento de tesauros
4. Alinhamento de esquemas
5. Conclusões
© Daniela F. Brauner
Agenda
• Definição do problema
• Abordagem proposta
– Alinhamento de tesauros
– Alinhamento de esquemas conceituais
• Trabalhos relacionados
• Contribuições
• Organização da tese
• Cronograma
© Daniela F. Brauner
Cronograma
Alinhamento de esquemas
baseado em instâncias
PROPOSTA DE DOUTORADO
Daniela F. Brauner
Orientador:
Prof. Marco Antonio Casanova

Más contenido relacionado

Destacado

Gestão/Administração da produção.
Gestão/Administração da produção.Gestão/Administração da produção.
Gestão/Administração da produção.
Henrique Ferreira
 
Aula 1 Administração da Produção - definições básicas
Aula 1   Administração da Produção - definições básicasAula 1   Administração da Produção - definições básicas
Aula 1 Administração da Produção - definições básicas
Correios
 

Destacado (11)

Aula 04 introducao processos de transformação - db
Aula 04   introducao processos de transformação - dbAula 04   introducao processos de transformação - db
Aula 04 introducao processos de transformação - db
 
Adm Producao
Adm ProducaoAdm Producao
Adm Producao
 
Produção cap1 aula 1
Produção cap1   aula 1Produção cap1   aula 1
Produção cap1 aula 1
 
Administração de produção 1
Administração de produção 1Administração de produção 1
Administração de produção 1
 
administração da producão
administração da producãoadministração da producão
administração da producão
 
Administração da producao
Administração da producaoAdministração da producao
Administração da producao
 
Administração da Produção
Administração da ProduçãoAdministração da Produção
Administração da Produção
 
Administração da produção
Administração da produçãoAdministração da produção
Administração da produção
 
Gestão/Administração da produção.
Gestão/Administração da produção.Gestão/Administração da produção.
Gestão/Administração da produção.
 
Aula 1 Administração da Produção - definições básicas
Aula 1   Administração da Produção - definições básicasAula 1   Administração da Produção - definições básicas
Aula 1 Administração da Produção - definições básicas
 
O que é a Engenharia de Produção
O que é a Engenharia de ProduçãoO que é a Engenharia de Produção
O que é a Engenharia de Produção
 

Similar a Proposta de doutorado - Alinhamento de esquemas baseado em instâncias

Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
Fabrício Barth
 

Similar a Proposta de doutorado - Alinhamento de esquemas baseado em instâncias (11)

Reescrita de Consultas em Federações de Dados Interligados usando uma Abordag...
Reescrita de Consultas em Federações de Dados Interligados usando uma Abordag...Reescrita de Consultas em Federações de Dados Interligados usando uma Abordag...
Reescrita de Consultas em Federações de Dados Interligados usando uma Abordag...
 
Dados espaciais em R
Dados espaciais em RDados espaciais em R
Dados espaciais em R
 
Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]Web Data Mining com R: pré-processamento de dados [no R]
Web Data Mining com R: pré-processamento de dados [no R]
 
Integração de dados
Integração de dadosIntegração de dados
Integração de dados
 
Dados espaciais em R (2020)
Dados espaciais em R (2020)Dados espaciais em R (2020)
Dados espaciais em R (2020)
 
Data science
Data scienceData science
Data science
 
Introdução a Ciência de Dados
Introdução a Ciência de DadosIntrodução a Ciência de Dados
Introdução a Ciência de Dados
 
Mecanismo de Busca
Mecanismo de BuscaMecanismo de Busca
Mecanismo de Busca
 
Deep Learning e NLP
Deep Learning e NLPDeep Learning e NLP
Deep Learning e NLP
 
gcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdfgcc214-slides-1-introducao-bd.pdf
gcc214-slides-1-introducao-bd.pdf
 
Banco de Dados e Contexto
Banco de Dados e ContextoBanco de Dados e Contexto
Banco de Dados e Contexto
 

Más de Daniela Brauner

Más de Daniela Brauner (12)

Data Science e Inteligência de dados - Inteligencia artificial e machine lear...
Data Science e Inteligência de dados - Inteligencia artificial e machine lear...Data Science e Inteligência de dados - Inteligencia artificial e machine lear...
Data Science e Inteligência de dados - Inteligencia artificial e machine lear...
 
Data Science - Big Data - Data Driven
Data Science - Big Data - Data DrivenData Science - Big Data - Data Driven
Data Science - Big Data - Data Driven
 
Business Analytics - Data Science Processes
Business Analytics - Data Science Processes Business Analytics - Data Science Processes
Business Analytics - Data Science Processes
 
Validando a proposta de valor com MVP
Validando a proposta de valor com MVPValidando a proposta de valor com MVP
Validando a proposta de valor com MVP
 
Aula04 - EAP e Cronograma
Aula04 - EAP e CronogramaAula04 - EAP e Cronograma
Aula04 - EAP e Cronograma
 
Aula03 - Termo de Abertura de Projeto
Aula03 - Termo de Abertura de ProjetoAula03 - Termo de Abertura de Projeto
Aula03 - Termo de Abertura de Projeto
 
Dados científicos, Serviços nacionais de dados e Research Data Alliance
Dados científicos, Serviços nacionais de dados e Research Data AllianceDados científicos, Serviços nacionais de dados e Research Data Alliance
Dados científicos, Serviços nacionais de dados e Research Data Alliance
 
Aula - Sistemas de Informação
Aula - Sistemas de InformaçãoAula - Sistemas de Informação
Aula - Sistemas de Informação
 
Aula01 Gerência de Projetos - Conceitos e áreas de conhecimento do PMBOK
Aula01 Gerência de Projetos - Conceitos e áreas de conhecimento do PMBOKAula01 Gerência de Projetos - Conceitos e áreas de conhecimento do PMBOK
Aula01 Gerência de Projetos - Conceitos e áreas de conhecimento do PMBOK
 
Aula00 - Gerência de Projetos - Como surgem os projetos nas empresas
Aula00 - Gerência de Projetos - Como surgem os projetos nas empresasAula00 - Gerência de Projetos - Como surgem os projetos nas empresas
Aula00 - Gerência de Projetos - Como surgem os projetos nas empresas
 
AULA02 - Gerência de Projetos - PMI
AULA02 - Gerência de Projetos - PMIAULA02 - Gerência de Projetos - PMI
AULA02 - Gerência de Projetos - PMI
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
 

Proposta de doutorado - Alinhamento de esquemas baseado em instâncias

  • 1. Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova
  • 2. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma
  • 3. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma
  • 4. © Daniela F. Brauner Definição do problema • Como acessar bancos de dados que adotam esquemas heterogêneos? SA TB DBA DBB ? Esquema conceitual: descreve em alto nível como organizar os dados armazenados em um BD Esquema de Classificação: classifica os dados armazenados em um BD em categorias pré- definidas Ex: palavras-chave, tesauros, taxonomias. ? TA ? SB
  • 5. © Daniela F. Brauner Definição do problema Ex: ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15 76124 São Sebastião do Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-1437138-6b Janeiro, Rio de - Brazil streams -11.85 -45.15 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167 DBA DBB
  • 6. © Daniela F. Brauner Definição do problema Solução: • Alinhamento de esquemas (schema matching): Dados dois esquemas como entrada, gerar um mapeamento entre os elementos desses esquemas que correspondem semanticamente um ao outro. µ SA sb = µ(sa) SB
  • 7. © Daniela F. Brauner Definição do problema Aplicações: • Transformação de dados Ex: data warehousing • Mediação de consultas Ex: arquitetura de mediadores
  • 8. © Daniela F. Brauner Definição do problema TA TB DBA DBB Transformação de dados: __ __ __ __ __ __ ? “Populated places” ≠ “PPL”
  • 9. © Daniela F. Brauner Definição do problema TA TB DBA DBB __ __ __ __ __ __ “Populated places” “PPL” Transformação de dados:
  • 10. © Daniela F. Brauner Definição do problema TA TB DBA DBB Populated placesPopulated places ClientClient Request “Populated places” Request “PPL” __ __ __ __ __ __ TA PPLPPL TB Mediação de consultas:
  • 11. © Daniela F. Brauner Definição do problema TA TB DBA DBB Populated placesPopulated places ClientClient Request “Populated places” Request “Populated places” Request “PPL” “Populated places” “PPL” __ __ __ __ __ __ __ __ __ Mediação de consultas: TA ?
  • 12. © Daniela F. Brauner Definição do problema Como obter os mapeamentos? Manualmente: • Nível de esforço linear com relação ao número de mapeamentos • Processo tedioso e dispendioso – Consome cerca de 40% do tempo de trabalho dos departamentos de TI Abordagens a priori: • Requer amadurecimento das técnicas de projeto de BDs Abordagens sintáticas: • Suscetíveis a erros Abordagens semânticas: • Utilizam instâncias CASANOVA, M. A.; BREITMAN, K. K.; BRAUNER, D. F.; MARINS, A. L. Database Conceptual Schema Matching. IEEE Computer Society, Computer, vol. 40, n. 10, pp. 102-104, Oct., 2007. KEENE, C. Data Services for Next-Generation SOAs. SOA WebServices Journal, 4(12), 2004. http://webservices.syscon.com/read/47283.htm
  • 13. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma
  • 14. © Daniela F. Brauner Abordagem proposta • Alinhamento de esquemas utilizando instâncias – Abordagem a priori: descoberta dos mapeamentos antes da implantação do mediador – Abordagem adaptativa: descoberta e adaptação dos mapeamentos de forma incremental, utilizando as respostas às consultas dos usuários como evidências dos mapeamentos
  • 15. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma
  • 16. © Daniela F. Brauner DBA Alinhamento de tesauros • Utilizando instâncias – Identifica instâncias equivalentes – Conta os casamentos entre termos de tesauros distintos – Define taxa de mapeamento para pares de termos ID FULL_NAME_ND DSG DMS_LAT DMS_LONG LAT LONG 67203 Rio de Janeiro PPLA -225400 -431400 -22.9 -43.2333333 39870 Rio de Janeiro STM -115100 -450900 -11.45 -45.15 identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167 DBB
  • 17. © Daniela F. Brauner Alinhamento de tesauros • Abordagem a priori Mapping Rate Estimator Module 1 2 CA CB ThesaurusThesaurus RA RB Mapping Rates Matrix BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Towards Gazetteer Integration Through an Instance-based Thesauri Mapping Approach. In: Clodoveu A. Davis Jr; Antonio M.V.M. Monteiro. (Org.). Advances in Geoinformatics. Heidelberg: Springer, 2007, v.1, p.235-245.
  • 18. © Daniela F. Brauner Alinhamento de tesauros TA TB DBA DBB __ __ __ __ __ __ “Populated places” “PPL” • Abordagem a priori: transformação de dados
  • 19. © Daniela F. Brauner Alinhamento de tesauros • Abordagem adaptativa Query Manager Module Cache Mappings Mapping Rate Estimator Module Mapping Rates Matrix Thesaurus1 Client 3 4 5 7 6 CA CB ThesaurusQuery 2 8 Query BRAUNER, D. F.; CASANOVA, M. A.; MILIDIU, R. L. Mediation as Recommendation: An Approach to Design Mediators for Object Catalogs. In: 5th International Conference on Ontologies, DataBases, and Applications of Semantics, 2006, Montpellier, OTM 2006 Workshops. Berlin/Heidelberg:Springer, 2006. v. 4277. p. 46-47.
  • 20. © Daniela F. Brauner Cache Mappings Alinhamento de tesauros TA TB DBA DBB Populated placesPopulated places ClientClient Request “Populated places” using TA Request “PPL” using TB __ __ __ __ __ __ TA PPLPPL TB ..in a user session.. __ __ __ __ __ __ • Abordagem adaptativa: mediação de consultas
  • 21. © Daniela F. Brauner Alinhamento de tesauros Geração de tesauro de referência: • Abordagem a priori: – Assume-se um dos tesauros das fontes como tesauro de referência – A pertinência dos elementos é confirmada a partir dos mapeamentos realizados • Abordagem adaptativa: – Assume-se um dos tesauros das fontes como referência (por exemplo, o da primeira fonte cadastrada) – A pertinência dos elementos é confirmada a medida que os mapeamentos são descobertos – Novos elementos são incluídos quando novos mapeamentos são descobertos
  • 22. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma
  • 23. © Daniela F. Brauner Ref. Alinhamento de esquemas conceituais • Utilizando instâncias – Utiliza um conjunto de instâncias de referência – Conta re-ocorrência dos valores dos atributos – Define matrizes de ocorrência ID NAME IDTYPE LAT LONG 67203 Rio de Janeiro PPLA -22.9 -43.2333333 266178 Alps MTS 46.41666 10.0 433587 Mississippi River STM 29.15105 -89.253342 identifier display-name class gml:y gml:x adlgaz-1-1457057-00 Rio de Janeiro, Estado do - Brazil administrative areas -22.0 -42.5 adlgaz-1-1457059-20 Rio de Janeiro, Serra do - Brazil mountains -17.95 -44.95 adlgaz-1-1457061-32 Rio de Janeiro - Brazil populated places -22.9 -43.2333 adlgaz-1-3223719-6f Rio de Janeiro - Loreto, Departamento de - Peru populated places -4.3833 -71.8167 DBA
  • 24. © Daniela F. Brauner Alinhamento de esquemas conceituais • Abordagem a priori Query Manager Module Cache Mappings Mapping Rate Estimator Module Occurrence Matrix between SG e SA 3 4 5 6 Global Instances + Global Schema SA1 2 DBA DBB SB SG RG Occurrence Matrix between SG e SB BRAUNER, D. F.; INTRATOR, C.; FREITAS, J. C.; CASANOVA, M. A. An Instance-based Approach for Matching Export Schemas of Geographical Database Web Services. In: IX Brazilian Symposium on GeoInformatics, 2007, Campos do Jordão. IX Brazilian Symposium on GeoInformatics (GeoInfo 2007), 2007.
  • 25. © Daniela F. Brauner Alinhamento de esquemas conceituais • Abordagem adaptativa Query Manager Module Cache Mappings Mapping Rate Estimator Module Occurrence Matrix EMI Matrix SA1 Client Query 2 3 4 5 7 6 DBA DBB SB 8 BRAUNER, D. F.; GAZOLA, A.; CASANOVA, M. A.; BREITMAN, K. K. Matching Schemas of Database Web Services by Mediating User Queries. In: 10th International Conference on Enterprise Information Systems (ICEIS 2008), 12-16, June, 2008. Barcelona, Spain (Submitted).
  • 26. © Daniela F. Brauner Alinhamento de esquemas conceituais Geração de esquema conceitual global: • Abordagem a priori: – O esquema conceitual global é definido a priori – A pertinência dos elementos (atributos) é confirmada a partir dos mapeamentos realizados • Abordagem adaptativa: – Assume-se um dos esquemas conceituais das fontes cadastradas como esquema global (por exemplo, o da primeira fonte cadastrada) – A pertinência dos elementos (atributos) é confirmada a medida que os mapeamentos são descobertos – Novos atributos são incluídos quando novos mapeamentos são descobertos
  • 27. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma
  • 28. © Daniela F. Brauner Trabalhos Relacionados • Rahm e Bernstein (2001) apresentam um survey incluindo diversas técnicas de alinhamento de esquemas conceituais, e propõem uma taxonomia para classificá-las. • Bernstein e Melnik (2007) apresentam uma revisão dos requisitos para um Sistema de Gerenciamento de Modelos (que inclui operações para alinhamento de esquemas, diff de esquemas, transformação de dados a partir dos mapeamentos, etc.). – Apontam a necessidade de inclusão de um componente para execução dos mapeamentos em runtime. Rahm, E.; Bernstein, P. A. A Survey of Approaches to Automatic Schema Matching, The VDLB Journal, vol. 10, pp. 334– 350, 2001. Bernstein, P. A.; Melnik, S. Model management 2.0: manipulating richer mappings. In Proc. of the 2007 ACM SIGMOD International Conference on Management of Data, Beijing, China, 2007. pp.1 - 12.
  • 29. © Daniela F. Brauner Trabalhos Relacionados (Wang et al. 2004) • Técnica de alinhamento de esquemas baseada em instâncias usando sondagem de consultas específica de domínio, aplicada a bancos de dados na Web • Um banco de dados na Web é composto por: – Esquema de Interface: o que pode ser consultado – Esquema de Resultado: o que é apresentado aos usuários • Assume a existência/definição prévia de: – um esquema global para bancos de dados na Web de um mesmo domínio – um conjunto de instâncias de referência Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419.
  • 30. © Daniela F. Brauner Trabalhos Relacionados Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419. Esquema global + Instâncias de referência Title Author Publisher ISBN xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx Instâncias de Referência Web Database (Esquema de Interface)
  • 31. © Daniela F. Brauner Trabalhos Relacionados Wang, J., Wen, J. Lochovsky, F.H. and Ma, W. (2004). Instance-based schema matching for web databases by domain-specific query probing, In Proceedings of 30th Intl. Conference on Very Large Data Bases, pp. 408-419. Title Author Publisher ISBN xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx xxxx xxxxxxx xxxx xxxx xxxx Result Page (Esquema de Resultado) Esquema global + Instâncias de referência Instâncias de Referência Web Database (Esquema de Interface)
  • 32. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma
  • 33. © Daniela F. Brauner Contribuições • Técnicas baseadas em instâncias para alinhamento de: – esquemas de classificação (tesauros) – esquemas conceituais • Classificação das técnicas em a priori e adaptativas • Técnicas para, a partir destes alinhamentos, criação de: – esquemas de classificação (tesauros) de referência – esquemas conceituais globais
  • 34. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma
  • 35. © Daniela F. Brauner Organização da tese 1. Introdução 2. Trabalhos relacionados 3. Alinhamento de tesauros 4. Alinhamento de esquemas 5. Conclusões
  • 36. © Daniela F. Brauner Agenda • Definição do problema • Abordagem proposta – Alinhamento de tesauros – Alinhamento de esquemas conceituais • Trabalhos relacionados • Contribuições • Organização da tese • Cronograma
  • 37. © Daniela F. Brauner Cronograma
  • 38. Alinhamento de esquemas baseado em instâncias PROPOSTA DE DOUTORADO Daniela F. Brauner Orientador: Prof. Marco Antonio Casanova