SlideShare una empresa de Scribd logo
1 de 19
Descargar para leer sin conexión
Séptima Conferencia Iberoamericana em Sistemas, Cibernética e
                        Informática:
                          CISCI 2008


 Indexação Automática e Semântica:
        estudo da análise do conteúdo
            de teses e dissertações

                   Graciane S. Bruzinga Borges
                     Benildes C. M. S. Maculan
                  Prof. Dra. Gercina  B. O. Lima



                   Universidade Federal de Minas Gerais
                     Escola de Ciência da Informação
                                  Brasil
INTRODUÇÃO
Subprojeto da pesquisa do protótipo Mapa
Hipertextual (MHTX), proposto pela Prof. Dra.
Gercina Â. B. O. Lima, construído como um modelo
para organização hipertextual de documentos.

Apresenta-se os critérios teóricos que tratam da
importância da semântica e da estrutura sintática no
processo de indexação automática e como o
triângulo do significado de Ogden e Richards (1972),
exposto na Teoria do Conceito de Dahlberg (1978),
pode ser relacionado com esse contexto.
OBJETIVO

Avaliar a contribuição de técnicas específicas de
indexação automática no processo de representação
semântica do conteúdo de teses e dissertações para
que se obtenha uma recuperação mais eficiente.
DISCUSSÃO
Indexação Manual

Pode ser divido em duas etapas essenciais:

 Análise
 conceitual
              Determinar o assunto do documento, no qual a
              leitura e a compreensão do texto são primordiais.


 Tradução
              Converter o conteúdo do documento em um
              conjunto de termos de indexação, feita por meio
              de mediação semântica.
DISCUSSÃO
Problemas no processo de indexação manual:

• tempo restrito do indexador;
• quantidade cada vez maior de documentos
  passíveis de tratamento;
• falta de conhecimento do indexador sobre o
  domínio do documento;
• subjetividade;
• inconsistência interindexadores;
• inconsistência intraindexador;
• falta de domínio do idioma do documento
DISCUSSÃO
Indexação Automática

Destaca-se dois tipos de processos:
                         Extração de palavras ou expressões do texto
 Indexação por           para representar seu conteúdo.
 Extração Automática     Pode-se usar um software para extrair os
                         termos a partir dos princípios utilizados por
                         seres humanos (freqüência, posição e contexto
                         da palavra no texto) (LANCASTER, 2004).

                         Mais complexo, em relação ao anterior.
 Indexação por           Necessidade de controle terminológico para a
 Atribuição Automática   representação do conteúdo temático.
                         Desenvolve-se, para cada termo atribuído, um
                         ‘perfil’ de palavras ou expressões associativas
                         ao termo e que ocorrem nos documentos.
DISCUSSÃO

O Papel da Semântica na Indexação Automática

A análise sintática consegue determinar se uma
expressão ou frase está adequada à gramática
dessa língua específica. O significado semântico
de um texto ou termo é mais do que uma análise
do sentido das palavras, pois é necessário se
conhecer o domínio no qual está inserido.
DISCUSSÃO
O Papel da Semântica na Indexação Automática

• permite ao software identificar o significado dos
  termos que representam o conteúdo do
  documento.
• resolve problemas do tipo de frases
  sintaticamente corretas, porém, sem significado
  semântico.

Exemplo:
            quot;O rato come o queijoquot;
                         e
            quot;O queijo come o ratoquot;
METODOLOGIA
Estudo do software TROPES
• motor semântico (seis línguas, entre elas o
  português de Portugal e do Brasil)
• utiliza critérios sintático-semânticos
• detecta as palavras que representem o conteúdo
   – em classes de equivalentes
• resolve problemas de ambigüidade
• determina a probabilidade da ocorrência da palavra
  nas classes
   – taxa de erro: 5%
METODOLOGIA

• faz análise morfo-sintática (identifica origem,
  formação e significado)
• possui uma gramática embutida, abrangendo:
   –   Substantivos,
   –   verbos,
   –   adjetivos,
   –   determinantes,
   –   conectores,
   –   modalizações e
   –   pronomes relativos e pessoais.
METODOLOGIA

Construção de um cenário semântico no TROPES
• inserção da taxonomia de Hawkins, Larson e Caton
  (2003), da área da CI
   – tratamento da contextualização
RESULTADOS
Taxonomia como cenário (domínio escolhido)
• remete à análise conceitual partindo do princípio do
  triângulo semântico, apresentado na Teoria do
  Conceito de Dahlberg (1978);
• características (conceitos) são como a matéria-
  prima do processo de indexação.
                              Referente



                 predicação                denominação




         Característica
                                               Forma Verbal
                              designação
RESULTADOS
Relação: Triângulo de Dahlberg x taxonomia
• o triângulo A:
   • Referente = Área da Ciência da Informação
   • Características = Conceitos do domínio (análise
     conceitual)
   • Forma Verbal = Taxonomia características

                            Ciência da CI

        A)




             Conceitos da                   Taxonomia
               área CI
RESULTADOS
Aplicação da semântica na indexação automática
• o triângulo B:
   • Referente = Teses e Dissertações (OUI)
   • Características = Cenário: Taxonomia de Hawkins,
     Larson e Caton
   • Forma Verbal = indexação automática (conj. termos)
                                  Teses e
                                Dissertações
      B)



           Cenário: taxonomia
           de Hawkins, Larson                  Forma Verbal
           e Caton
CONSIDERAÇÕES
• Indexação é o elo forte entre o que é disponibilizado no
  sistema e a necessidade do usuário;
• Continuam as investigação sobre o processo de indexação
  automática e as teorias nas quais ele se baseia;
• Se faz necessário organizar as informações de forma
  sistemática, para disponibilizá-las;
• Os softwares de indexação automática visam otimizar a
  atividade de análise de conteúdo:
   •   minimizar a subjetividade do indexador
   •   imitar o raciocínio humano
   •   levar em consideração o contexto semântico
   •   respeitar princípios teóricos consistentes
REFERÊNCIAS
BARQUIN, Beatriz A. R.; GONZÁLEZ, José A. M.; PINTO, Adilson L. Construção de uma ontologia
para sistemas de informação empresarial para a área de telecomunicações. DataGramaZero/Rev. Ci.
Inf., Brasília, v. 7, n. 2, abr. 2006. BAXENDALE, P. B. Machine-made index for technical literature:
an experiment. IBM Journal of Research and Development, n. 2, p. 354-361, 1958. BORKO, H.
Toward a theory of indexing. Information Processing and Management, v. 13, p. 355-365, 1977.
BORKO, H.; BERNICK, M. Automatic document classification. Journal of the Association for
Computing Machinery, n. 10, p. 151-162, 1963 CAMPOS, Maria Luiza Almeida; GOMES, Hagar
Espanha. Metodologia de elaboração de tesauro conceitual: a categorização como princípio
norteador. Persp. Ci. Inf., Belo Horizonte, v. 11, n. 3, Sept./Dec. 2006. Disponível em:
<http://www.scielo.br/scielo.php? script=sci_arttext&pid=S1413-9362006000300005&lng=
enenandothers&nrm=iso&tlng= enenandothers>. Acesso em: 21 jul. 2007. DAHLBERG, Ingetraut.
Teoria do conceito. Ci. Inf., Rio de Janeiro, v. 7, n. 2, p. 101-107, jul./ dez. 1978. FIGUEIREDO,
Saulo. O impacto da taxonomia nas empresas. [S.l.]: Webinsider, 28 nov. 2006. Disponível em:
<http://webinsider.uol.com.br/index.php/2006/11/28/a-importancia-e-o-impacto-da-taxonomia-nas-
empresas/>. Acesso em: 24 jul. 2007. GUEDES, Vânia L. S. Estudo de um critério para indexação
automática derivativa de textos científicos e tecnológicos. Ci. Inf., Brasília, v. 23, n. 3, p. 318-326,
set./dez. 1994. HAWKINS, Donald T.; LARSON, Signe E.; CATON, Bari Q. Information science
abstracts: tracking the literature of information science. Part 2: a new taxonomy for information
science. Journal of the American Society for Information Science and Technology, v. 54, n. 8, p.
771-781, 2003. HJELMSLEV, Louis. Prolegômenos a uma teoria da linguagem. Trad. J. Teixeira
Coelho Netto. São Paulo: Perspectiva, 1975. HJORLAND, Birger. The concept of ‘subject’ in
Information Science. Journal of Documentation, v. 48, n. 2, p.172-200, June 1992. LANCASTER, F.
W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 2004. 452 p. LANCASTER, F.
W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 1993. 347 p. LEROY, M. As
grandes correntes da lingüística moderna. Trad. de Izidoro Blikstein e José Paulo Paes. São Paulo:
Cultrix, 1971. 194 p.
REFERÊNCIAS
LIMA, G. A. B. Categorização como um processo cognitivo. Ciências & Cognição; ano 4, v. 11, p.156-
167, 2007. Disponível em: <www.cienciasecognicao.org>. Acesso em: 9 ago. 2007. MARON, M. E. On
Indexing, retrieval and the meaning of about. Journal of the American Society for Information
Science, n. 28, n. 1, p. 38-43, 1977. NAVARRO, Sandrelei. Interface entre lingüística e indexação:
uma revisão de literatura. Rev. Bras. Biblio. Doc., São Paulo, v. 21, n. 1/2, p. 46-62, jan./jun. 1988.
O’CONNOR, J. Automatic subject recognition in scientific papers: an empirical study. Journal of the
Association for Computing Machinery, n. 12, p. 490-515, 1965. ODONNE, Nanci; GOMES, Maria T.F.S.
Os temas de pesquisa em ciência da informação e suas implicações político-epistemológicas. In:
ENCONTRO NACIONAL DE CIÊNCIA DA INFORMAÇÃO: CINFORM, 5., Salvador, 2004. Anais...
Salvador: UFBA, 2004. Disponível em: <http://www.cinform.ufba.br/v_anais/artigos/nancioddone.
html>. Acesso em: 2 jul. 2007. OGDEN, C. K.; RICHARDS, I. A. O significado de significado: um
estudo da influência da linguagem sobre o pensamento e sobre a Ciência do Simbolismo. Rio de
Janeiro: Zahar, 1972. 348 p. OTHERO, Gabriel de Ávila; MENUZZI. Sérgio de Moura. Lingüística
computacional: teoria e prática. São Paulo: Parábola, 2005. 126 p. PICKLER, Maria Elisa Valentim.
Web semântica: ontologias como ferramentas de representação do conhecimento. Persp. Ci. Inf., Belo
Horizonte, v. 12, n. 1, p. 65-83, jan./abr. 2007. Disponível em: <http://www.scielo.br/scielo.
php?script=sci_arttext&pid= S1413-99362007000100006&lng= en&nrm=iso&tlng=en>. Acesso em:
24 jul. 2007. RECTOR, Monica; YUNES, Eliana. Manual de semântica. Rio de Janeiro: Ao Livro
Técnico, 1980. 171 p. ROBREDO, Jaime. Documentação de hoje e de amanhã: uma abordagem
revisitada e contemporânea da Ciência da Informação e de suas aplicações biblioteconômicas,
documentárias, arquivísticas e museológicas. 4 ed. Brasília: Reproart, 2005. 409 p. ROBREDO, J. A
indexação automática de textos: o presente já entrou no futuro. In: Machado, U. D. (Org.). Estudos
Avançados em Ciência da Informação. Brasília, DF.: Associação dos Bibliotecários do Distrito Federal,
1982. v. 1, p. 235-274. SILVA, Antônio Carlos da. As teorias do signo e as significações lingüísticas.
[2004]. [Texto online]. Disponível em: <http://www.partes.com.br/ed39/teoriasignosreflexaoed39
.htm>. Acesso em: 10 jul. 2007. TAXONOMIA. In: GLOSSÁRIO NETIC. [S.l.]: Portal NETIC - Núcleo
de Estudos em Tecnologias para Informação e Conhecimento, [200-]. Disponível em: <http://www.
netic.com.br/glossario.html#T>. Acesso em: 24 jul. 2007.
Obrigada!
CONTATOS

   Graciane Silva Bruzinga Borges
      gracianesb@yahoo.com.br

  Benildes Coura M. dos S. Maculan
         benildes@gmail.com

Gercina Ângela Borém de Oliveira Lima
          glima@eci.ufmg.br

Más contenido relacionado

Similar a Indexação automática e semântica de teses e dissertações

Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacaocibeleac
 
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...Norton Guimarães
 
Anális de conteúdo bauer
Anális de conteúdo bauerAnális de conteúdo bauer
Anális de conteúdo bauerJoão Vianna
 
Presentation about Ontologies at my Masters (UFMG, pt_BR)
Presentation about Ontologies at my Masters (UFMG, pt_BR)Presentation about Ontologies at my Masters (UFMG, pt_BR)
Presentation about Ontologies at my Masters (UFMG, pt_BR)Junior Grossi
 
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...UTFPR
 
A contribuição da história oral e dos testes de campo na pesquisa em Arquitet...
A contribuição da história oral e dos testes de campo na pesquisa em Arquitet...A contribuição da história oral e dos testes de campo na pesquisa em Arquitet...
A contribuição da história oral e dos testes de campo na pesquisa em Arquitet...UTFPR
 
analisesdiscursoconteudozeze-140326084806-phpapp02.pdf
analisesdiscursoconteudozeze-140326084806-phpapp02.pdfanalisesdiscursoconteudozeze-140326084806-phpapp02.pdf
analisesdiscursoconteudozeze-140326084806-phpapp02.pdfDanNamise
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Christiano Avila
 
Disciplina metod cientifica aula 4
Disciplina metod cientifica aula 4Disciplina metod cientifica aula 4
Disciplina metod cientifica aula 4Dércio Luiz Reis
 
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdfSEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdfCarlosMarcondes17
 
Estudo comparativo entre tesauros museológicos internacionais disponíveis online
Estudo comparativo entre tesauros museológicos internacionais disponíveis onlineEstudo comparativo entre tesauros museológicos internacionais disponíveis online
Estudo comparativo entre tesauros museológicos internacionais disponíveis onlineLuciana Monteblanco
 
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...Felipe Benevenutto
 
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Joel S. Coleti
 
Apresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EADApresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EADienh
 
Tags como fonte de coleta de candidatos a termos para elaboração de vocabulár...
Tags como fonte de coleta de candidatos a termos para elaboração de vocabulár...Tags como fonte de coleta de candidatos a termos para elaboração de vocabulár...
Tags como fonte de coleta de candidatos a termos para elaboração de vocabulár...Luciana Monteiro
 
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDAApresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDAFrederico Bortolato
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Avelino Ferreira Gomes Filho
 

Similar a Indexação automática e semântica de teses e dissertações (20)

2008 indexaoautomtica
2008 indexaoautomtica2008 indexaoautomtica
2008 indexaoautomtica
 
Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacao
 
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
Proposta de um arcabouço computacional para aprendizagem semi-automatizada de...
 
Anális de conteúdo bauer
Anális de conteúdo bauerAnális de conteúdo bauer
Anális de conteúdo bauer
 
Presentation about Ontologies at my Masters (UFMG, pt_BR)
Presentation about Ontologies at my Masters (UFMG, pt_BR)Presentation about Ontologies at my Masters (UFMG, pt_BR)
Presentation about Ontologies at my Masters (UFMG, pt_BR)
 
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
A TEORIA DO CONCEITO APLICADA À DETERMINAÇÃO DE LINKS HIPERTEXTUAIS: consider...
 
Análises Discurso e Conteúdo (Zezé)
Análises Discurso e Conteúdo (Zezé)Análises Discurso e Conteúdo (Zezé)
Análises Discurso e Conteúdo (Zezé)
 
A contribuição da história oral e dos testes de campo na pesquisa em Arquitet...
A contribuição da história oral e dos testes de campo na pesquisa em Arquitet...A contribuição da história oral e dos testes de campo na pesquisa em Arquitet...
A contribuição da história oral e dos testes de campo na pesquisa em Arquitet...
 
analisesdiscursoconteudozeze-140326084806-phpapp02.pdf
analisesdiscursoconteudozeze-140326084806-phpapp02.pdfanalisesdiscursoconteudozeze-140326084806-phpapp02.pdf
analisesdiscursoconteudozeze-140326084806-phpapp02.pdf
 
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avalia...
 
Disciplina metod cientifica aula 4
Disciplina metod cientifica aula 4Disciplina metod cientifica aula 4
Disciplina metod cientifica aula 4
 
Dissertação
Dissertação Dissertação
Dissertação
 
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdfSEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
SEMOC 2022- NÍVEIS DE SISTEMATIZAÇÃO DE DADOS X EXPRESSIVIDADE SEMÂNTICA.pdf
 
Estudo comparativo entre tesauros museológicos internacionais disponíveis online
Estudo comparativo entre tesauros museológicos internacionais disponíveis onlineEstudo comparativo entre tesauros museológicos internacionais disponíveis online
Estudo comparativo entre tesauros museológicos internacionais disponíveis online
 
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
Leituras complementares: Estudo preliminar do Tesauro Brasileiro de Ciências ...
 
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
Compilação de Corpus em Língua Portuguesa na área de Nanociência/Nanotecnolog...
 
Apresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EADApresentação dissertação - modelagem semântica de ontologia do domínio EAD
Apresentação dissertação - modelagem semântica de ontologia do domínio EAD
 
Tags como fonte de coleta de candidatos a termos para elaboração de vocabulár...
Tags como fonte de coleta de candidatos a termos para elaboração de vocabulár...Tags como fonte de coleta de candidatos a termos para elaboração de vocabulár...
Tags como fonte de coleta de candidatos a termos para elaboração de vocabulár...
 
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDAApresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...
 

Más de Documentar Tecnologia e Informação

Gestão de vendas: Estruturação da Informação no Processo de Vendas
Gestão de vendas: Estruturação da Informação no Processo de VendasGestão de vendas: Estruturação da Informação no Processo de Vendas
Gestão de vendas: Estruturação da Informação no Processo de VendasDocumentar Tecnologia e Informação
 
INOVATEC 2009 - Gestao de informação e conhecimento como suporte ao processo ...
INOVATEC 2009 - Gestao de informação e conhecimento como suporte ao processo ...INOVATEC 2009 - Gestao de informação e conhecimento como suporte ao processo ...
INOVATEC 2009 - Gestao de informação e conhecimento como suporte ao processo ...Documentar Tecnologia e Informação
 
Soluções para digitalização, proteção e armazenamento de informações jurídicas
Soluções para digitalização, proteção e armazenamento de informações jurídicasSoluções para digitalização, proteção e armazenamento de informações jurídicas
Soluções para digitalização, proteção e armazenamento de informações jurídicasDocumentar Tecnologia e Informação
 

Más de Documentar Tecnologia e Informação (20)

GMC 2010 indicadores para a gestão do conhecimento
GMC 2010   indicadores para a gestão do conhecimentoGMC 2010   indicadores para a gestão do conhecimento
GMC 2010 indicadores para a gestão do conhecimento
 
Gestao do conhecimento, inteligência competitiva e inovação
Gestao do conhecimento, inteligência competitiva e inovaçãoGestao do conhecimento, inteligência competitiva e inovação
Gestao do conhecimento, inteligência competitiva e inovação
 
Gestão de vendas: Estruturação da Informação no Processo de Vendas
Gestão de vendas: Estruturação da Informação no Processo de VendasGestão de vendas: Estruturação da Informação no Processo de Vendas
Gestão de vendas: Estruturação da Informação no Processo de Vendas
 
INOVATEC 2009 - Gestao de informação e conhecimento como suporte ao processo ...
INOVATEC 2009 - Gestao de informação e conhecimento como suporte ao processo ...INOVATEC 2009 - Gestao de informação e conhecimento como suporte ao processo ...
INOVATEC 2009 - Gestao de informação e conhecimento como suporte ao processo ...
 
Gerenciamento Estratégico de Informações na empresa Documentar
Gerenciamento Estratégico de Informações na empresa DocumentarGerenciamento Estratégico de Informações na empresa Documentar
Gerenciamento Estratégico de Informações na empresa Documentar
 
Gerenciamento de Projetos
Gerenciamento de ProjetosGerenciamento de Projetos
Gerenciamento de Projetos
 
Prêmio MAKE Award 2009
Prêmio MAKE Award 2009Prêmio MAKE Award 2009
Prêmio MAKE Award 2009
 
Prêmio Intranet Portal 2009 - Grand Prix
Prêmio Intranet Portal 2009 - Grand PrixPrêmio Intranet Portal 2009 - Grand Prix
Prêmio Intranet Portal 2009 - Grand Prix
 
Prêmio Intranet Portal 2009 - Trilha Colaboração
Prêmio Intranet Portal 2009 - Trilha ColaboraçãoPrêmio Intranet Portal 2009 - Trilha Colaboração
Prêmio Intranet Portal 2009 - Trilha Colaboração
 
Discursos de abertura e encerramento do MAKE Award 2009
Discursos de abertura e encerramento do MAKE Award 2009Discursos de abertura e encerramento do MAKE Award 2009
Discursos de abertura e encerramento do MAKE Award 2009
 
Difusão da Informação e Conservação
Difusão da Informação e ConservaçãoDifusão da Informação e Conservação
Difusão da Informação e Conservação
 
Taxonomia Automatizada para Organizações
Taxonomia Automatizada para OrganizaçõesTaxonomia Automatizada para Organizações
Taxonomia Automatizada para Organizações
 
Sistemas de Normatização Corporativos
Sistemas de Normatização CorporativosSistemas de Normatização Corporativos
Sistemas de Normatização Corporativos
 
GD ou GICC ?
GD ou GICC ?GD ou GICC ?
GD ou GICC ?
 
Organização Documental
Organização DocumentalOrganização Documental
Organização Documental
 
Gestão, Informação e Conhecimento Corporativo
Gestão, Informação e Conhecimento CorporativoGestão, Informação e Conhecimento Corporativo
Gestão, Informação e Conhecimento Corporativo
 
Gestão Integrada da informação e do conhecimento corporativo
Gestão Integrada da informação e do conhecimento corporativoGestão Integrada da informação e do conhecimento corporativo
Gestão Integrada da informação e do conhecimento corporativo
 
TKN Brasil
TKN BrasilTKN Brasil
TKN Brasil
 
Soluções para digitalização, proteção e armazenamento de informações jurídicas
Soluções para digitalização, proteção e armazenamento de informações jurídicasSoluções para digitalização, proteção e armazenamento de informações jurídicas
Soluções para digitalização, proteção e armazenamento de informações jurídicas
 
Case Documentar: Unidade de Gestão do Conhecimento
Case Documentar: Unidade de Gestão do ConhecimentoCase Documentar: Unidade de Gestão do Conhecimento
Case Documentar: Unidade de Gestão do Conhecimento
 

Indexação automática e semântica de teses e dissertações

  • 1. Séptima Conferencia Iberoamericana em Sistemas, Cibernética e Informática: CISCI 2008 Indexação Automática e Semântica: estudo da análise do conteúdo de teses e dissertações Graciane S. Bruzinga Borges Benildes C. M. S. Maculan Prof. Dra. Gercina  B. O. Lima Universidade Federal de Minas Gerais Escola de Ciência da Informação Brasil
  • 2. INTRODUÇÃO Subprojeto da pesquisa do protótipo Mapa Hipertextual (MHTX), proposto pela Prof. Dra. Gercina Â. B. O. Lima, construído como um modelo para organização hipertextual de documentos. Apresenta-se os critérios teóricos que tratam da importância da semântica e da estrutura sintática no processo de indexação automática e como o triângulo do significado de Ogden e Richards (1972), exposto na Teoria do Conceito de Dahlberg (1978), pode ser relacionado com esse contexto.
  • 3. OBJETIVO Avaliar a contribuição de técnicas específicas de indexação automática no processo de representação semântica do conteúdo de teses e dissertações para que se obtenha uma recuperação mais eficiente.
  • 4. DISCUSSÃO Indexação Manual Pode ser divido em duas etapas essenciais: Análise conceitual Determinar o assunto do documento, no qual a leitura e a compreensão do texto são primordiais. Tradução Converter o conteúdo do documento em um conjunto de termos de indexação, feita por meio de mediação semântica.
  • 5. DISCUSSÃO Problemas no processo de indexação manual: • tempo restrito do indexador; • quantidade cada vez maior de documentos passíveis de tratamento; • falta de conhecimento do indexador sobre o domínio do documento; • subjetividade; • inconsistência interindexadores; • inconsistência intraindexador; • falta de domínio do idioma do documento
  • 6. DISCUSSÃO Indexação Automática Destaca-se dois tipos de processos: Extração de palavras ou expressões do texto Indexação por para representar seu conteúdo. Extração Automática Pode-se usar um software para extrair os termos a partir dos princípios utilizados por seres humanos (freqüência, posição e contexto da palavra no texto) (LANCASTER, 2004). Mais complexo, em relação ao anterior. Indexação por Necessidade de controle terminológico para a Atribuição Automática representação do conteúdo temático. Desenvolve-se, para cada termo atribuído, um ‘perfil’ de palavras ou expressões associativas ao termo e que ocorrem nos documentos.
  • 7. DISCUSSÃO O Papel da Semântica na Indexação Automática A análise sintática consegue determinar se uma expressão ou frase está adequada à gramática dessa língua específica. O significado semântico de um texto ou termo é mais do que uma análise do sentido das palavras, pois é necessário se conhecer o domínio no qual está inserido.
  • 8. DISCUSSÃO O Papel da Semântica na Indexação Automática • permite ao software identificar o significado dos termos que representam o conteúdo do documento. • resolve problemas do tipo de frases sintaticamente corretas, porém, sem significado semântico. Exemplo: quot;O rato come o queijoquot; e quot;O queijo come o ratoquot;
  • 9. METODOLOGIA Estudo do software TROPES • motor semântico (seis línguas, entre elas o português de Portugal e do Brasil) • utiliza critérios sintático-semânticos • detecta as palavras que representem o conteúdo – em classes de equivalentes • resolve problemas de ambigüidade • determina a probabilidade da ocorrência da palavra nas classes – taxa de erro: 5%
  • 10. METODOLOGIA • faz análise morfo-sintática (identifica origem, formação e significado) • possui uma gramática embutida, abrangendo: – Substantivos, – verbos, – adjetivos, – determinantes, – conectores, – modalizações e – pronomes relativos e pessoais.
  • 11. METODOLOGIA Construção de um cenário semântico no TROPES • inserção da taxonomia de Hawkins, Larson e Caton (2003), da área da CI – tratamento da contextualização
  • 12. RESULTADOS Taxonomia como cenário (domínio escolhido) • remete à análise conceitual partindo do princípio do triângulo semântico, apresentado na Teoria do Conceito de Dahlberg (1978); • características (conceitos) são como a matéria- prima do processo de indexação. Referente predicação denominação Característica Forma Verbal designação
  • 13. RESULTADOS Relação: Triângulo de Dahlberg x taxonomia • o triângulo A: • Referente = Área da Ciência da Informação • Características = Conceitos do domínio (análise conceitual) • Forma Verbal = Taxonomia características Ciência da CI A) Conceitos da Taxonomia área CI
  • 14. RESULTADOS Aplicação da semântica na indexação automática • o triângulo B: • Referente = Teses e Dissertações (OUI) • Características = Cenário: Taxonomia de Hawkins, Larson e Caton • Forma Verbal = indexação automática (conj. termos) Teses e Dissertações B) Cenário: taxonomia de Hawkins, Larson Forma Verbal e Caton
  • 15. CONSIDERAÇÕES • Indexação é o elo forte entre o que é disponibilizado no sistema e a necessidade do usuário; • Continuam as investigação sobre o processo de indexação automática e as teorias nas quais ele se baseia; • Se faz necessário organizar as informações de forma sistemática, para disponibilizá-las; • Os softwares de indexação automática visam otimizar a atividade de análise de conteúdo: • minimizar a subjetividade do indexador • imitar o raciocínio humano • levar em consideração o contexto semântico • respeitar princípios teóricos consistentes
  • 16. REFERÊNCIAS BARQUIN, Beatriz A. R.; GONZÁLEZ, José A. M.; PINTO, Adilson L. Construção de uma ontologia para sistemas de informação empresarial para a área de telecomunicações. DataGramaZero/Rev. Ci. Inf., Brasília, v. 7, n. 2, abr. 2006. BAXENDALE, P. B. Machine-made index for technical literature: an experiment. IBM Journal of Research and Development, n. 2, p. 354-361, 1958. BORKO, H. Toward a theory of indexing. Information Processing and Management, v. 13, p. 355-365, 1977. BORKO, H.; BERNICK, M. Automatic document classification. Journal of the Association for Computing Machinery, n. 10, p. 151-162, 1963 CAMPOS, Maria Luiza Almeida; GOMES, Hagar Espanha. Metodologia de elaboração de tesauro conceitual: a categorização como princípio norteador. Persp. Ci. Inf., Belo Horizonte, v. 11, n. 3, Sept./Dec. 2006. Disponível em: <http://www.scielo.br/scielo.php? script=sci_arttext&pid=S1413-9362006000300005&lng= enenandothers&nrm=iso&tlng= enenandothers>. Acesso em: 21 jul. 2007. DAHLBERG, Ingetraut. Teoria do conceito. Ci. Inf., Rio de Janeiro, v. 7, n. 2, p. 101-107, jul./ dez. 1978. FIGUEIREDO, Saulo. O impacto da taxonomia nas empresas. [S.l.]: Webinsider, 28 nov. 2006. Disponível em: <http://webinsider.uol.com.br/index.php/2006/11/28/a-importancia-e-o-impacto-da-taxonomia-nas- empresas/>. Acesso em: 24 jul. 2007. GUEDES, Vânia L. S. Estudo de um critério para indexação automática derivativa de textos científicos e tecnológicos. Ci. Inf., Brasília, v. 23, n. 3, p. 318-326, set./dez. 1994. HAWKINS, Donald T.; LARSON, Signe E.; CATON, Bari Q. Information science abstracts: tracking the literature of information science. Part 2: a new taxonomy for information science. Journal of the American Society for Information Science and Technology, v. 54, n. 8, p. 771-781, 2003. HJELMSLEV, Louis. Prolegômenos a uma teoria da linguagem. Trad. J. Teixeira Coelho Netto. São Paulo: Perspectiva, 1975. HJORLAND, Birger. The concept of ‘subject’ in Information Science. Journal of Documentation, v. 48, n. 2, p.172-200, June 1992. LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 2004. 452 p. LANCASTER, F. W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos, 1993. 347 p. LEROY, M. As grandes correntes da lingüística moderna. Trad. de Izidoro Blikstein e José Paulo Paes. São Paulo: Cultrix, 1971. 194 p.
  • 17. REFERÊNCIAS LIMA, G. A. B. Categorização como um processo cognitivo. Ciências & Cognição; ano 4, v. 11, p.156- 167, 2007. Disponível em: <www.cienciasecognicao.org>. Acesso em: 9 ago. 2007. MARON, M. E. On Indexing, retrieval and the meaning of about. Journal of the American Society for Information Science, n. 28, n. 1, p. 38-43, 1977. NAVARRO, Sandrelei. Interface entre lingüística e indexação: uma revisão de literatura. Rev. Bras. Biblio. Doc., São Paulo, v. 21, n. 1/2, p. 46-62, jan./jun. 1988. O’CONNOR, J. Automatic subject recognition in scientific papers: an empirical study. Journal of the Association for Computing Machinery, n. 12, p. 490-515, 1965. ODONNE, Nanci; GOMES, Maria T.F.S. Os temas de pesquisa em ciência da informação e suas implicações político-epistemológicas. In: ENCONTRO NACIONAL DE CIÊNCIA DA INFORMAÇÃO: CINFORM, 5., Salvador, 2004. Anais... Salvador: UFBA, 2004. Disponível em: <http://www.cinform.ufba.br/v_anais/artigos/nancioddone. html>. Acesso em: 2 jul. 2007. OGDEN, C. K.; RICHARDS, I. A. O significado de significado: um estudo da influência da linguagem sobre o pensamento e sobre a Ciência do Simbolismo. Rio de Janeiro: Zahar, 1972. 348 p. OTHERO, Gabriel de Ávila; MENUZZI. Sérgio de Moura. Lingüística computacional: teoria e prática. São Paulo: Parábola, 2005. 126 p. PICKLER, Maria Elisa Valentim. Web semântica: ontologias como ferramentas de representação do conhecimento. Persp. Ci. Inf., Belo Horizonte, v. 12, n. 1, p. 65-83, jan./abr. 2007. Disponível em: <http://www.scielo.br/scielo. php?script=sci_arttext&pid= S1413-99362007000100006&lng= en&nrm=iso&tlng=en>. Acesso em: 24 jul. 2007. RECTOR, Monica; YUNES, Eliana. Manual de semântica. Rio de Janeiro: Ao Livro Técnico, 1980. 171 p. ROBREDO, Jaime. Documentação de hoje e de amanhã: uma abordagem revisitada e contemporânea da Ciência da Informação e de suas aplicações biblioteconômicas, documentárias, arquivísticas e museológicas. 4 ed. Brasília: Reproart, 2005. 409 p. ROBREDO, J. A indexação automática de textos: o presente já entrou no futuro. In: Machado, U. D. (Org.). Estudos Avançados em Ciência da Informação. Brasília, DF.: Associação dos Bibliotecários do Distrito Federal, 1982. v. 1, p. 235-274. SILVA, Antônio Carlos da. As teorias do signo e as significações lingüísticas. [2004]. [Texto online]. Disponível em: <http://www.partes.com.br/ed39/teoriasignosreflexaoed39 .htm>. Acesso em: 10 jul. 2007. TAXONOMIA. In: GLOSSÁRIO NETIC. [S.l.]: Portal NETIC - Núcleo de Estudos em Tecnologias para Informação e Conhecimento, [200-]. Disponível em: <http://www. netic.com.br/glossario.html#T>. Acesso em: 24 jul. 2007.
  • 19. CONTATOS Graciane Silva Bruzinga Borges gracianesb@yahoo.com.br Benildes Coura M. dos S. Maculan benildes@gmail.com Gercina Ângela Borém de Oliveira Lima glima@eci.ufmg.br