SlideShare uma empresa Scribd logo
1 de 52
Universidade Federal de São Carlos (UFSCar)
 Departamento de Ciência da Informação (DCI)
Biblioteconomia e Ciência da Informação (CBCI)


                  Análise de Assunto
 •   Ana Tereza de Pádua
 •   Andréa Cristina Dornelles Italiano
 •   Daniel André Rigo Guirra
 •   Josimeire Moura da Silva
 •   Rodrigo Rafael Mendonça dos Santos
 •   Walison Aparecido de Oliveira

                                          Análise Documentária
Introdução                                       2




Análise de assunto é a operação-base para todo
procedimento de recuperação de informações.

É feita em dois momentos:
  • Quando recebem o documento;
  • Ao receberem um pedido de informação;
Maior problema da indexação: Descrever o
conteúdo dos documentos.
Recuperação da informação: Processo de entrada e saída                                           3

                                  Análise Conceitual
       Vocabulário                  Documentos                  Análise de
       Controlado                                                Assunto          Documentos

                                  Tradução da Análise              Perfil dos Documentos
   Documentos                    Conceitual em Termos              (Termos de Indexação)
                                     de Indexação

                                   PEDIDOS DE DOCUMENTOS                               Arquivo de
   Armazenagem                                                                         Busca Perfis
                                           DO ARQUIVO                                 Doc. X Pedido

                                 Tradução da Análise            Perfis dos Pedidos
          Vocabulário
                                Conceitual em Termos              (Estratégia de
          Controlado
                                    de Indexação                      Busca)


            Análise                   Análise de                                 BUSCA
                                                               Pedidos
           Conceitual                 Conteúdo

Fonte: LANCASTER, F.W. Vocabulary control for information retrieval. Washington, Information Resources
        Press, 1972. 233p. (ADAPTADO)
Estabelecendo um assunto                                        4


 Primeira etapa – compreensão do texto como um topo
        • título
        • introdução e subtítulos dos capítulos e parágrafos
        • ilustrações, tabelas, diagramas
        • conclusões
        • palavras ou grupos de palavras graficamente diferenciadas

 Segunda etapa – identificação de conceitos
       • procedimento lógico
       • categorias fundamentais
           (objetos, materiais, processos, equipamentos)
 Terceira etapa - seleção de conceitos
        • objetivos do sistema
        • necessidades do usuário
5



Antony Charles Foskett (1973) – “Abordagem temática da informação”

     Especificidade
          “extensão em que o sistema nos permite ser
          precisos ao especificar um documento que
          estejamos processando”

     Exaustividade
          “resultado de uma decisão administrativa, sendo
          extensão com que analisamos um determinado
          documento, a fim de estabelecer exatamente qual
          o conteúdo temático que temos de especificar”
6



      No que isso interfere?!


Sistema de Busca e Recuperação de
           Informação
Revocação e Precisão                                        7




• Revocação
  • mede a proporção de documentos relevantes recuperados


• Precisão
  • mede quantos documentos relevantes foram recuperados
8




Curva de Recall x Precision (CARDOSO, O.N.P. Recuperação de Informação.
Universidade Federal de Lavras. Lavras-MG, 20-?)
Revocação e Precisão           9




     Itens não       Itens
    relevantes    relevantes
Revocação e Precisão                10



                 Itens
              recuperados
  Itens não
recuperados                 B

                C               A
                     D
Revocação e Precisão                                 11




• Revocação
  • Relevantes Recuperados / Total de itens relevantes
  • A / (A+D)
Revocação e Precisão                 12




                   Itens
               recuperados
   Itens não                 B
 recuperados
               C                 A
                   D
Revocação e Precisão                                 13




• Revocação
  • Relevantes Recuperados / Total de itens relevantes
  • A / (A+D)


• Precisão
  • Relevantes Recuperados / Total Recuperados
  • A / (A+B)
Revocação e Precisão                  14




                    Itens
                recuperados
    Itens não                 B
  recuperados
                C                 A
                    D
15




Exaustividade
16




Especificidade
17



  Estabelecido o assunto


Transformar os conceitos selecionados
 em termos ou símbolos autorizados
   para a representação no sistema
18


Uso de instrumentos de
controle de linguagem

            Thesauri
Listas de cabeçalhos de assunto
   Sistemas de Classificação
19



Domínio da linguagem-padrão
         do sistema


  Composta pelo vocabulário e sintaxe
20


  O vocabulário compõe-se
    de unidades isoladas;
    A sintaxe estabelece
   o modo pelo qual essas
 unidades serão combinadas
para a efetiva comunicação do
         pensamento.
21
          Importante!!!

Impõe limitações ao número de termos
fixados para representar o conteúdo
estabelecidos pelas relações entre os
termos.

Sua existência não deve influenciar a
análise.
22



Conceitos não representados na
linguagem usada, o indexador
 deverá usar descritores mais
 genéricos ou dependendo do
 sistema a admissão de novos
       termos é aceito.
23




Controle de qualidade da indexação está ligada
a dois elementos básicos:

Ao desempenho do indexador;

À qualidade dos instrumentos de indexação.
24

A consistência da indexação!!

     Deve ser regular considerando:
      o fator tempo, um alto grau de
    imparcialidade, uma submissão às
  diretrizes da indexação adotadas pelo
                  sistema.
25


         Suas dificuldades


           Grupo grande;
   Trabalho em diferentes locais;
Elementos de subjetividade interfiram.
26
               Para Lancaster:
•O vocabulário controlado é indispensável;
•Operam de maneira eficiente pela experiência em sistemas
automatizados;
•O elemento humano de alto nível é muito mais necessário na
etapa de pesquisa do que no momento de indexação;
•É indiscutível o controle de qualidade para lucrar muito
através do estabelecimento de contato mais efetivo entre
indexador e o usuário, qualidade da linguagem adotada e um
fator importante, qualidade de atualização dessas linguagens
em resposta a novos desenvolvimentos na terminologia,
necessidades dos usuários e do próprio sistema.
27

A linguagem controlada pode
exercer duas funções:
Prescritiva – estabelece limites rígidos para a
representação dos conceitos, facilita a escolha
dos termos;

Sugestiva – mais flexível, indica as melhores
formas de representação, sem impô-las ao
indexador.
28




O sistema que permite a interação
             usuário
           indexador
            sistemas
tem demonstrado ser mais eficiente
do que aqueles onde ela não existe.
29
Análise de coleções e documentos
• Os primeiros estudos visando a classificação
  de documentos, dividiam-nas do geral para o
  específico. É o caso das tradicionais
  classificações   bibliográficas,    também
  chamadas de hierárquicas, que criavam
  cadeias de termos seguindo o princípio da
  hierarquia;

• RANGANATHAN           propôs     a    “Colon
  Classification” – uma classificação geral que
  divide o conhecimento humano com base nas
  categorias fundamentais (Personalidade,
  Matéria, Energia, Espaço, Tempo – PMEST);
30

  Lancaster, apresenta quatro abordagens
  para se gerar um vocabulário controlado:

1. Gerar um vocabulário empiricamente com base
   na indexação de um conjunto representativo de
   documentos;

2. Modificar um vocabulário já existente;

3. Extrair o vocabulário de um outro já existente;

4. Reunir termos de diferentes fontes: especialista
   na área, dicionários, glossários, índices, etc.
31

  A construção de Thesaurus of Engininnering and
  Scientific Terms (TEST) obedeceu a alguns
  critérios na seleção dos termos:
• Aceitabilidade do termo em dicionários, enciclopédias,
  etc;

• Utilidade do termo em comunicações, em índices e em
  sistemas de recuperação de informação;

• O número de fontes que usam esse termo;

• A pertinência desse termo com outros já selecionados.
32

Quando nos baseamos apenas nas
opiniões de especialistas temos as
desvantagens abaixo:
– Eles podem não estar familiarizados com a
  leitura, e mais importante, com as
  necessidades dos usuários potenciais do
  sistema;

– Eles podem tomar decisões que não são
  úteis tendo em vista o objetivo de recuperar
  informações;

– Podem dar mais importância a sua própria
  especialidade, causando desequilíbrio no
  sistema como um todo.
33



• Vocabulário controlado: Instrumento prático,
  devendo ser capaz de representar conceitos
  que realmente ocorrem na literatura do
  assunto;

• Um vocabulário desenvolvido empiricamente a
  partir da indexação da literatura da área, tem
  grande garantia literária, enquanto que um
  vocabulário desenvolvido por especialistas
  pode não ter nenhuma.
34

  A análise de documentos é um processo
  que ajuda a:

• Determinar as principais categorias de termos
  para uma área;

• Optar pelo melhor termo para representar um
  conceito;

• Estabelecer quais relações úteis entre os
  termos, tendo em vista a recuperação das
  informações;

• Estabelecer hierarquias necessárias.
35




Para o indexador , o conhecimento das
relações entre termos e categorias é de
extrema importância para se estabelecer
representações adequadas para assuntos
compostos e complexos.
36

Normalmente existem três relações entre os termos:

1- Relação de equivalência ou relações
preferenciais:
Alguns conceitos podem ser representados por mais
de um termo, que são semelhantes ou de
significação quase idêntica. Nesse caso deve-se
escolher o termo mais conhecido ou o menos
ambíguo.

             Ex: revista e periódico
            Genética e hereditariedade
              Curvatura ou flexão
37
2-Relações hierárquicas: expressam ideias de subordinação entre
termos.
-relação gênero - espécie:
                    ex: processamento técnico
                             Registro
                           Catalogação
                           Classificação
                            Indexação

-relação parte/todo: nesse caso dá-se preferência aos assuntos
mais específicos.
                            EX: árvore
                               Raiz
                              Tronco
                              Galhos
                              Folhas
38


3-Relações associativas ou de coordenação: conceitos
ligados, cuja ideia de um faz lembrar a ideia do outro.
Elas só devem ser mantidas na indexação quando
facilitam realmente a recuperação da informação.
Ex:
Genética: pais e filhos
Causa efeito: ensino e aprendizagem
Instrumental: escrita e lápis
Material: papel e livro
Similaridade de processo: catalogação e classificação
39




Ao criar uma linguagem de indexação, deve-se
estabelecer uma ordem de prioridade entre os
diversos conceitos.

Essa ordem é determinada a partir da
importância que esse conceitos têm para os
usuários.
40


Vários autores criam regras básicas tentando estabelecer a
ordem de citação dos assuntos complexos.
Ex: -assunto antes da forma bibliográfica: Física-
dicionário.
- assunto antes do lugar (com a preposição em): “A
  educação no Brasil”= Educação- Brasil
- Assunto depois do lugar (com a preposição de): Rios do
  Brasil = Brasil-Rios
- Concreto, depois o processo: Tratamento de metais =
  Metais-tratamento.
- Todo-parte: índices de revista = Revistas - índices
41




   AUTOMAÇÃO
         E
ANÁLISE DE ASSUNTO
42

• A primeira idéia de usar computadores no
  processamento lógico da análise de assunto de
  documentos foi proposta por LUHN em 1957.

• O sistema utilizado foi o KWIC (keyword and
  context), um sistema pré- coordenado, sua
  vantagem era a velocidade do processamento de
  entrada de documentos.

• Indicava o uso de títulos dos documentos como
  “matéria prima” para a representação de assunto.

  (SISTEMA PRÉ-COORDENADO: Combinação feita na
    etapa de entrada, na indexação)
43

• Um grande número de serviços de informações
  publicaram bibliografias indexadas pelo
  sistema KWIC : Bioresearch Index, Biological
  Abstracts, Chemical Abstracts, etc.

• Com o aperfeiçoamento e o aumento da
  capacidade      dos     equipamentos      de
  processamentos de dados, o tipo de lógica
  empregado no sistema KWIC mostrou estar
  aquém da real capacidade dos computadores.
44


• Desenvolveram-se então sistemas usando um maior
  grau de lógica, baseando-se:
   – Na estatística das palavras do texto;
   – Na determinação de pesos para termos, de acordo
     com sua importância no assunto;
   – Na frequência com que determinadas palavras
     ocorrem juntas nas frases ou parágrafos.

• Estas pesquisas foram desenvolvidas na década de 60,
  mas como alguns problemas não conseguiram ser
  superados, na década de 70 foram poucos os
  pesquisadores que se dedicaram ao assunto.
45


• Outra corrente que tem estudado a possibilidade de
  aplicação dos computadores à analise de texto é
  baseada na teoria da gramática transformacional de
  CHOMSKY e HARRIS.



• O modelo transformacional acredita que existe um
  conjunto finito de sentenças-padrão (Kernel
  Sentences) para as quais todo conjunto infinito de
  sentenças em linguagem natural poderia ser
  transformado.
46

• Todas as línguas tem uma estrutura superficial
  e uma estrutura profunda.
  – Esta última é relativa ao modo como as idéias são
    formadas na mente humana e portanto seria
    universal, enquanto que a estrutura superficial
    pode variar de acordo com as línguas.

  – Ao colocarmos todo o texto nos termos de sua
    estrutura profunda estaremos realmente analisando
    este texto, chegando às sentenças-padrão.
47




• Experiências realizadas por Harris na
  Universidade de Pensilvânia chegaram a
  conjuntos    de    sentenças-padrão   de
  documentos, que muito se assemelhavam
  aos resumos dos textos feitos com
  intenção de disseminação de informação.
48




• Alguns autores como Anderson & Perez-Carballo
  (2001) em seu trabalho sobre a natureza da
  indexação, colocam que para a busca de informações,
  textos ou documentos em um sistema de informação,
  é necessário que os termos estejam descritos e
  indexados. A descrição requer alguns tipos de
  análise,dos quais dois são destacados pelos autores: a
  análise humana e a análise algorítmica realizada pelos
  computadores.
49




• A análise humana examina o documento e
  textos para considerar o contexto que
  representam;

• A análise automática identifica e compara os
  componentes do texto – os símbolos que
  formam o texto.
50




• O ideal é que um sistema de recuperação da
  informação ofereça as duas abordagens de
  análise/indexação da informação: tornando o
  processo de busca e recuperação da
  informação mais exaustivo e eficiente e, com
  resultados mais relevantes.
51

• Os autores argumentam ainda que , em se tratando de
  indexação de materiais especiais como imagem e
  som, por exemplo, a indexação automática apenas
  engatinha, uma vez que sua base é a linguagem
  contida nos textos. O Altavista é uma ferramenta de
  busca na Web que utiliza a indexação automática de
  imagens desde 1998, tentando encontrar imagens que
  sejam visualmente similares ao comando de busca
  determinado pelo usuário.Imagem “visualmente”
  similar    não   é    a    mesma     que    imagem
  “conceitualmente” similar . Assim sendo, os
  resultados quase sempre parecem estar baseados na
  cor e na estampa e não em um detalhe particular da
  imagem.
Referência e Bibliografia                                             52


• ARAUJO, R.H.J., Precisão no processo de busca e recuperação da
  informação.Brasilia. Thesaurus, 2007.176p.

• CARDOSO, O.N.P. Recuperação de Informação. Universidade Federal de Lavras.
  Lavras-MG, 20-?

• CESARINO, M. A. da N.; PINTO, M. C. M. F. Análise de assunto.
  Revista de Biblioteconomia, Brasília, v. 8, n. 1, p. 32-43, jan.-jun. 1980.
  Disponível
  em:<http://www.tempusactas.unb.br/index.php/RBB/article/viewFile/244/224>.A
  cesso em: 29 jul. 2010.

•   FOSKETT, A.C. Abordagem temática da informação. São Paulo, Polígono,
    1973, 347 p.

Mais conteúdo relacionado

Mais procurados

Aspectos teoricos de análise documentaria
Aspectos teoricos de análise documentariaAspectos teoricos de análise documentaria
Aspectos teoricos de análise documentariaAmanda Oliveira
 
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...Célia Dias
 
Aula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Aula 02 - Recuperação da Informação / Modelos de Sistemas de RecuperaçãoAula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Aula 02 - Recuperação da Informação / Modelos de Sistemas de RecuperaçãoNilton Heck
 
Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informaçãoVanessa Biff
 
Orientações para o trabalho final
Orientações para o trabalho finalOrientações para o trabalho final
Orientações para o trabalho finalmonnavasconcelos
 
Contribuicao Birger Hjorland para a Organização do Conhecimento
Contribuicao Birger Hjorland para a Organização do ConhecimentoContribuicao Birger Hjorland para a Organização do Conhecimento
Contribuicao Birger Hjorland para a Organização do ConhecimentoPaula Carina De Araújo
 
Adriana santos anlise de conteudo-bardin,2004
Adriana santos   anlise de conteudo-bardin,2004Adriana santos   anlise de conteudo-bardin,2004
Adriana santos anlise de conteudo-bardin,2004Hidematuda
 
AnáLise Do ConteúDo Slides
AnáLise Do ConteúDo SlidesAnáLise Do ConteúDo Slides
AnáLise Do ConteúDo Slidesguestc028f7
 
Epistemologia da Organização do Conhecimento
Epistemologia da Organização do ConhecimentoEpistemologia da Organização do Conhecimento
Epistemologia da Organização do ConhecimentoPaula Carina De Araújo
 
Analise de conteudo_matriz
Analise de conteudo_matrizAnalise de conteudo_matriz
Analise de conteudo_matrizisa
 
O pensamento reflexivo na busca e no uso da informação na comunicação cienti...
O pensamento reflexivo  na busca e no uso da informação na comunicação cienti...O pensamento reflexivo  na busca e no uso da informação na comunicação cienti...
O pensamento reflexivo na busca e no uso da informação na comunicação cienti...Kelley Cristine Gasque
 
Analise de conteudo
Analise de conteudoAnalise de conteudo
Analise de conteudoLucila Pesce
 

Mais procurados (17)

Aspectos teoricos de análise documentaria
Aspectos teoricos de análise documentariaAspectos teoricos de análise documentaria
Aspectos teoricos de análise documentaria
 
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
Tese de doutorado em CIência da Informação Análise de dominio Organizacional ...
 
Aula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Aula 02 - Recuperação da Informação / Modelos de Sistemas de RecuperaçãoAula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
Aula 02 - Recuperação da Informação / Modelos de Sistemas de Recuperação
 
Filtragem e recuperação da informação
Filtragem e recuperação da informaçãoFiltragem e recuperação da informação
Filtragem e recuperação da informação
 
Análise de domínio
Análise de domínioAnálise de domínio
Análise de domínio
 
Lakatos
LakatosLakatos
Lakatos
 
Orientações para o trabalho final
Orientações para o trabalho finalOrientações para o trabalho final
Orientações para o trabalho final
 
Contribuicao Birger Hjorland para a Organização do Conhecimento
Contribuicao Birger Hjorland para a Organização do ConhecimentoContribuicao Birger Hjorland para a Organização do Conhecimento
Contribuicao Birger Hjorland para a Organização do Conhecimento
 
Analise de dados
Analise de dadosAnalise de dados
Analise de dados
 
Adriana santos anlise de conteudo-bardin,2004
Adriana santos   anlise de conteudo-bardin,2004Adriana santos   anlise de conteudo-bardin,2004
Adriana santos anlise de conteudo-bardin,2004
 
AnáLise Do ConteúDo Slides
AnáLise Do ConteúDo SlidesAnáLise Do ConteúDo Slides
AnáLise Do ConteúDo Slides
 
Epistemologia da Organização do Conhecimento
Epistemologia da Organização do ConhecimentoEpistemologia da Organização do Conhecimento
Epistemologia da Organização do Conhecimento
 
Analise de conteudo_matriz
Analise de conteudo_matrizAnalise de conteudo_matriz
Analise de conteudo_matriz
 
O pensamento reflexivo na busca e no uso da informação na comunicação cienti...
O pensamento reflexivo  na busca e no uso da informação na comunicação cienti...O pensamento reflexivo  na busca e no uso da informação na comunicação cienti...
O pensamento reflexivo na busca e no uso da informação na comunicação cienti...
 
Análise de conteúdo 2003
Análise de conteúdo 2003Análise de conteúdo 2003
Análise de conteúdo 2003
 
Analise de conteudo
Analise de conteudoAnalise de conteudo
Analise de conteudo
 
Aula 2 taxonomias gisele
Aula 2 taxonomias giseleAula 2 taxonomias gisele
Aula 2 taxonomias gisele
 

Semelhante a Análise de Assunto

Cap8 repositórios maio 2013
Cap8 repositórios maio 2013Cap8 repositórios maio 2013
Cap8 repositórios maio 2013Anabela Mesquita
 
Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacaocibeleac
 
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...Ahirton Lopes
 
Fontes De Informação Científica
Fontes De Informação CientíficaFontes De Informação Científica
Fontes De Informação Científicabsararangua
 
SEMINÁRIO PESQUISA EDUCACIONAL.pptx
SEMINÁRIO PESQUISA EDUCACIONAL.pptxSEMINÁRIO PESQUISA EDUCACIONAL.pptx
SEMINÁRIO PESQUISA EDUCACIONAL.pptxRBA
 
Folksonomias: a Informação e a Metainformação
Folksonomias: a Informação e a MetainformaçãoFolksonomias: a Informação e a Metainformação
Folksonomias: a Informação e a MetainformaçãoLuísa Alvim
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Avelino Ferreira Gomes Filho
 
Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...
Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...
Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...Ana Carolina Simionato
 
Aula 1 Introdução a fontes, Recuperação e seleção de Informação
Aula 1   Introdução a fontes, Recuperação e seleção de InformaçãoAula 1   Introdução a fontes, Recuperação e seleção de Informação
Aula 1 Introdução a fontes, Recuperação e seleção de InformaçãoFilipe Reis
 
Análise de conteúdo documental: a recuperação da informação.
Análise de conteúdo documental: a recuperação da informação.Análise de conteúdo documental: a recuperação da informação.
Análise de conteúdo documental: a recuperação da informação.Pedro Abreu Peixoto
 
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...Ana Carolina Simionato
 
Indexacao fiocruz
Indexacao fiocruzIndexacao fiocruz
Indexacao fiocruzSueli Suga
 
Educação e pesquisa em engenharia: inovações na busca e uso da informação
Educação e pesquisa em engenharia: inovações na busca e uso da informação Educação e pesquisa em engenharia: inovações na busca e uso da informação
Educação e pesquisa em engenharia: inovações na busca e uso da informação Elisabeth Dudziak
 
Pesquisa Qualitativa
Pesquisa QualitativaPesquisa Qualitativa
Pesquisa QualitativaÉrica Rigo
 
Palestra tcc
Palestra tccPalestra tcc
Palestra tccwapiva
 

Semelhante a Análise de Assunto (20)

Cap8
Cap8Cap8
Cap8
 
Cap8 repositórios maio 2013
Cap8 repositórios maio 2013Cap8 repositórios maio 2013
Cap8 repositórios maio 2013
 
Avaliação de qualidade de repositórios institucionais brasileiros e portugueses
Avaliação de qualidade de repositórios institucionais brasileiros e portuguesesAvaliação de qualidade de repositórios institucionais brasileiros e portugueses
Avaliação de qualidade de repositórios institucionais brasileiros e portugueses
 
Aulaindexacao
AulaindexacaoAulaindexacao
Aulaindexacao
 
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
[José Ahirton Lopes] Minicurso - Mineração Textual e Processamento de Linguag...
 
Fontes De Informação Científica
Fontes De Informação CientíficaFontes De Informação Científica
Fontes De Informação Científica
 
SEMINÁRIO PESQUISA EDUCACIONAL.pptx
SEMINÁRIO PESQUISA EDUCACIONAL.pptxSEMINÁRIO PESQUISA EDUCACIONAL.pptx
SEMINÁRIO PESQUISA EDUCACIONAL.pptx
 
7 AULA_SRI.ppt
7 AULA_SRI.ppt7 AULA_SRI.ppt
7 AULA_SRI.ppt
 
Folksonomias: a Informação e a Metainformação
Folksonomias: a Informação e a MetainformaçãoFolksonomias: a Informação e a Metainformação
Folksonomias: a Informação e a Metainformação
 
Grounded theory
Grounded theoryGrounded theory
Grounded theory
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...
 
Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...
Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...
Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...
 
Aula 1 Introdução a fontes, Recuperação e seleção de Informação
Aula 1   Introdução a fontes, Recuperação e seleção de InformaçãoAula 1   Introdução a fontes, Recuperação e seleção de Informação
Aula 1 Introdução a fontes, Recuperação e seleção de Informação
 
Análise de conteúdo documental: a recuperação da informação.
Análise de conteúdo documental: a recuperação da informação.Análise de conteúdo documental: a recuperação da informação.
Análise de conteúdo documental: a recuperação da informação.
 
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
 
Indexacao fiocruz
Indexacao fiocruzIndexacao fiocruz
Indexacao fiocruz
 
Educação e pesquisa em engenharia: inovações na busca e uso da informação
Educação e pesquisa em engenharia: inovações na busca e uso da informação Educação e pesquisa em engenharia: inovações na busca e uso da informação
Educação e pesquisa em engenharia: inovações na busca e uso da informação
 
Pesquisa Qualitativa
Pesquisa QualitativaPesquisa Qualitativa
Pesquisa Qualitativa
 
Revisão Sistemática
Revisão SistemáticaRevisão Sistemática
Revisão Sistemática
 
Palestra tcc
Palestra tccPalestra tcc
Palestra tcc
 

Análise de Assunto

  • 1. Universidade Federal de São Carlos (UFSCar) Departamento de Ciência da Informação (DCI) Biblioteconomia e Ciência da Informação (CBCI) Análise de Assunto • Ana Tereza de Pádua • Andréa Cristina Dornelles Italiano • Daniel André Rigo Guirra • Josimeire Moura da Silva • Rodrigo Rafael Mendonça dos Santos • Walison Aparecido de Oliveira Análise Documentária
  • 2. Introdução 2 Análise de assunto é a operação-base para todo procedimento de recuperação de informações. É feita em dois momentos: • Quando recebem o documento; • Ao receberem um pedido de informação; Maior problema da indexação: Descrever o conteúdo dos documentos.
  • 3. Recuperação da informação: Processo de entrada e saída 3 Análise Conceitual Vocabulário Documentos Análise de Controlado Assunto Documentos Tradução da Análise Perfil dos Documentos Documentos Conceitual em Termos (Termos de Indexação) de Indexação PEDIDOS DE DOCUMENTOS Arquivo de Armazenagem Busca Perfis DO ARQUIVO Doc. X Pedido Tradução da Análise Perfis dos Pedidos Vocabulário Conceitual em Termos (Estratégia de Controlado de Indexação Busca) Análise Análise de BUSCA Pedidos Conceitual Conteúdo Fonte: LANCASTER, F.W. Vocabulary control for information retrieval. Washington, Information Resources Press, 1972. 233p. (ADAPTADO)
  • 4. Estabelecendo um assunto 4 Primeira etapa – compreensão do texto como um topo • título • introdução e subtítulos dos capítulos e parágrafos • ilustrações, tabelas, diagramas • conclusões • palavras ou grupos de palavras graficamente diferenciadas Segunda etapa – identificação de conceitos • procedimento lógico • categorias fundamentais (objetos, materiais, processos, equipamentos) Terceira etapa - seleção de conceitos • objetivos do sistema • necessidades do usuário
  • 5. 5 Antony Charles Foskett (1973) – “Abordagem temática da informação” Especificidade “extensão em que o sistema nos permite ser precisos ao especificar um documento que estejamos processando” Exaustividade “resultado de uma decisão administrativa, sendo extensão com que analisamos um determinado documento, a fim de estabelecer exatamente qual o conteúdo temático que temos de especificar”
  • 6. 6 No que isso interfere?! Sistema de Busca e Recuperação de Informação
  • 7. Revocação e Precisão 7 • Revocação • mede a proporção de documentos relevantes recuperados • Precisão • mede quantos documentos relevantes foram recuperados
  • 8. 8 Curva de Recall x Precision (CARDOSO, O.N.P. Recuperação de Informação. Universidade Federal de Lavras. Lavras-MG, 20-?)
  • 9. Revocação e Precisão 9 Itens não Itens relevantes relevantes
  • 10. Revocação e Precisão 10 Itens recuperados Itens não recuperados B C A D
  • 11. Revocação e Precisão 11 • Revocação • Relevantes Recuperados / Total de itens relevantes • A / (A+D)
  • 12. Revocação e Precisão 12 Itens recuperados Itens não B recuperados C A D
  • 13. Revocação e Precisão 13 • Revocação • Relevantes Recuperados / Total de itens relevantes • A / (A+D) • Precisão • Relevantes Recuperados / Total Recuperados • A / (A+B)
  • 14. Revocação e Precisão 14 Itens recuperados Itens não B recuperados C A D
  • 17. 17 Estabelecido o assunto Transformar os conceitos selecionados em termos ou símbolos autorizados para a representação no sistema
  • 18. 18 Uso de instrumentos de controle de linguagem Thesauri Listas de cabeçalhos de assunto Sistemas de Classificação
  • 19. 19 Domínio da linguagem-padrão do sistema Composta pelo vocabulário e sintaxe
  • 20. 20 O vocabulário compõe-se de unidades isoladas; A sintaxe estabelece o modo pelo qual essas unidades serão combinadas para a efetiva comunicação do pensamento.
  • 21. 21 Importante!!! Impõe limitações ao número de termos fixados para representar o conteúdo estabelecidos pelas relações entre os termos. Sua existência não deve influenciar a análise.
  • 22. 22 Conceitos não representados na linguagem usada, o indexador deverá usar descritores mais genéricos ou dependendo do sistema a admissão de novos termos é aceito.
  • 23. 23 Controle de qualidade da indexação está ligada a dois elementos básicos: Ao desempenho do indexador; À qualidade dos instrumentos de indexação.
  • 24. 24 A consistência da indexação!! Deve ser regular considerando: o fator tempo, um alto grau de imparcialidade, uma submissão às diretrizes da indexação adotadas pelo sistema.
  • 25. 25 Suas dificuldades Grupo grande; Trabalho em diferentes locais; Elementos de subjetividade interfiram.
  • 26. 26 Para Lancaster: •O vocabulário controlado é indispensável; •Operam de maneira eficiente pela experiência em sistemas automatizados; •O elemento humano de alto nível é muito mais necessário na etapa de pesquisa do que no momento de indexação; •É indiscutível o controle de qualidade para lucrar muito através do estabelecimento de contato mais efetivo entre indexador e o usuário, qualidade da linguagem adotada e um fator importante, qualidade de atualização dessas linguagens em resposta a novos desenvolvimentos na terminologia, necessidades dos usuários e do próprio sistema.
  • 27. 27 A linguagem controlada pode exercer duas funções: Prescritiva – estabelece limites rígidos para a representação dos conceitos, facilita a escolha dos termos; Sugestiva – mais flexível, indica as melhores formas de representação, sem impô-las ao indexador.
  • 28. 28 O sistema que permite a interação usuário indexador sistemas tem demonstrado ser mais eficiente do que aqueles onde ela não existe.
  • 29. 29 Análise de coleções e documentos • Os primeiros estudos visando a classificação de documentos, dividiam-nas do geral para o específico. É o caso das tradicionais classificações bibliográficas, também chamadas de hierárquicas, que criavam cadeias de termos seguindo o princípio da hierarquia; • RANGANATHAN propôs a “Colon Classification” – uma classificação geral que divide o conhecimento humano com base nas categorias fundamentais (Personalidade, Matéria, Energia, Espaço, Tempo – PMEST);
  • 30. 30 Lancaster, apresenta quatro abordagens para se gerar um vocabulário controlado: 1. Gerar um vocabulário empiricamente com base na indexação de um conjunto representativo de documentos; 2. Modificar um vocabulário já existente; 3. Extrair o vocabulário de um outro já existente; 4. Reunir termos de diferentes fontes: especialista na área, dicionários, glossários, índices, etc.
  • 31. 31 A construção de Thesaurus of Engininnering and Scientific Terms (TEST) obedeceu a alguns critérios na seleção dos termos: • Aceitabilidade do termo em dicionários, enciclopédias, etc; • Utilidade do termo em comunicações, em índices e em sistemas de recuperação de informação; • O número de fontes que usam esse termo; • A pertinência desse termo com outros já selecionados.
  • 32. 32 Quando nos baseamos apenas nas opiniões de especialistas temos as desvantagens abaixo: – Eles podem não estar familiarizados com a leitura, e mais importante, com as necessidades dos usuários potenciais do sistema; – Eles podem tomar decisões que não são úteis tendo em vista o objetivo de recuperar informações; – Podem dar mais importância a sua própria especialidade, causando desequilíbrio no sistema como um todo.
  • 33. 33 • Vocabulário controlado: Instrumento prático, devendo ser capaz de representar conceitos que realmente ocorrem na literatura do assunto; • Um vocabulário desenvolvido empiricamente a partir da indexação da literatura da área, tem grande garantia literária, enquanto que um vocabulário desenvolvido por especialistas pode não ter nenhuma.
  • 34. 34 A análise de documentos é um processo que ajuda a: • Determinar as principais categorias de termos para uma área; • Optar pelo melhor termo para representar um conceito; • Estabelecer quais relações úteis entre os termos, tendo em vista a recuperação das informações; • Estabelecer hierarquias necessárias.
  • 35. 35 Para o indexador , o conhecimento das relações entre termos e categorias é de extrema importância para se estabelecer representações adequadas para assuntos compostos e complexos.
  • 36. 36 Normalmente existem três relações entre os termos: 1- Relação de equivalência ou relações preferenciais: Alguns conceitos podem ser representados por mais de um termo, que são semelhantes ou de significação quase idêntica. Nesse caso deve-se escolher o termo mais conhecido ou o menos ambíguo. Ex: revista e periódico Genética e hereditariedade Curvatura ou flexão
  • 37. 37 2-Relações hierárquicas: expressam ideias de subordinação entre termos. -relação gênero - espécie: ex: processamento técnico Registro Catalogação Classificação Indexação -relação parte/todo: nesse caso dá-se preferência aos assuntos mais específicos. EX: árvore Raiz Tronco Galhos Folhas
  • 38. 38 3-Relações associativas ou de coordenação: conceitos ligados, cuja ideia de um faz lembrar a ideia do outro. Elas só devem ser mantidas na indexação quando facilitam realmente a recuperação da informação. Ex: Genética: pais e filhos Causa efeito: ensino e aprendizagem Instrumental: escrita e lápis Material: papel e livro Similaridade de processo: catalogação e classificação
  • 39. 39 Ao criar uma linguagem de indexação, deve-se estabelecer uma ordem de prioridade entre os diversos conceitos. Essa ordem é determinada a partir da importância que esse conceitos têm para os usuários.
  • 40. 40 Vários autores criam regras básicas tentando estabelecer a ordem de citação dos assuntos complexos. Ex: -assunto antes da forma bibliográfica: Física- dicionário. - assunto antes do lugar (com a preposição em): “A educação no Brasil”= Educação- Brasil - Assunto depois do lugar (com a preposição de): Rios do Brasil = Brasil-Rios - Concreto, depois o processo: Tratamento de metais = Metais-tratamento. - Todo-parte: índices de revista = Revistas - índices
  • 41. 41 AUTOMAÇÃO E ANÁLISE DE ASSUNTO
  • 42. 42 • A primeira idéia de usar computadores no processamento lógico da análise de assunto de documentos foi proposta por LUHN em 1957. • O sistema utilizado foi o KWIC (keyword and context), um sistema pré- coordenado, sua vantagem era a velocidade do processamento de entrada de documentos. • Indicava o uso de títulos dos documentos como “matéria prima” para a representação de assunto. (SISTEMA PRÉ-COORDENADO: Combinação feita na etapa de entrada, na indexação)
  • 43. 43 • Um grande número de serviços de informações publicaram bibliografias indexadas pelo sistema KWIC : Bioresearch Index, Biological Abstracts, Chemical Abstracts, etc. • Com o aperfeiçoamento e o aumento da capacidade dos equipamentos de processamentos de dados, o tipo de lógica empregado no sistema KWIC mostrou estar aquém da real capacidade dos computadores.
  • 44. 44 • Desenvolveram-se então sistemas usando um maior grau de lógica, baseando-se: – Na estatística das palavras do texto; – Na determinação de pesos para termos, de acordo com sua importância no assunto; – Na frequência com que determinadas palavras ocorrem juntas nas frases ou parágrafos. • Estas pesquisas foram desenvolvidas na década de 60, mas como alguns problemas não conseguiram ser superados, na década de 70 foram poucos os pesquisadores que se dedicaram ao assunto.
  • 45. 45 • Outra corrente que tem estudado a possibilidade de aplicação dos computadores à analise de texto é baseada na teoria da gramática transformacional de CHOMSKY e HARRIS. • O modelo transformacional acredita que existe um conjunto finito de sentenças-padrão (Kernel Sentences) para as quais todo conjunto infinito de sentenças em linguagem natural poderia ser transformado.
  • 46. 46 • Todas as línguas tem uma estrutura superficial e uma estrutura profunda. – Esta última é relativa ao modo como as idéias são formadas na mente humana e portanto seria universal, enquanto que a estrutura superficial pode variar de acordo com as línguas. – Ao colocarmos todo o texto nos termos de sua estrutura profunda estaremos realmente analisando este texto, chegando às sentenças-padrão.
  • 47. 47 • Experiências realizadas por Harris na Universidade de Pensilvânia chegaram a conjuntos de sentenças-padrão de documentos, que muito se assemelhavam aos resumos dos textos feitos com intenção de disseminação de informação.
  • 48. 48 • Alguns autores como Anderson & Perez-Carballo (2001) em seu trabalho sobre a natureza da indexação, colocam que para a busca de informações, textos ou documentos em um sistema de informação, é necessário que os termos estejam descritos e indexados. A descrição requer alguns tipos de análise,dos quais dois são destacados pelos autores: a análise humana e a análise algorítmica realizada pelos computadores.
  • 49. 49 • A análise humana examina o documento e textos para considerar o contexto que representam; • A análise automática identifica e compara os componentes do texto – os símbolos que formam o texto.
  • 50. 50 • O ideal é que um sistema de recuperação da informação ofereça as duas abordagens de análise/indexação da informação: tornando o processo de busca e recuperação da informação mais exaustivo e eficiente e, com resultados mais relevantes.
  • 51. 51 • Os autores argumentam ainda que , em se tratando de indexação de materiais especiais como imagem e som, por exemplo, a indexação automática apenas engatinha, uma vez que sua base é a linguagem contida nos textos. O Altavista é uma ferramenta de busca na Web que utiliza a indexação automática de imagens desde 1998, tentando encontrar imagens que sejam visualmente similares ao comando de busca determinado pelo usuário.Imagem “visualmente” similar não é a mesma que imagem “conceitualmente” similar . Assim sendo, os resultados quase sempre parecem estar baseados na cor e na estampa e não em um detalhe particular da imagem.
  • 52. Referência e Bibliografia 52 • ARAUJO, R.H.J., Precisão no processo de busca e recuperação da informação.Brasilia. Thesaurus, 2007.176p. • CARDOSO, O.N.P. Recuperação de Informação. Universidade Federal de Lavras. Lavras-MG, 20-? • CESARINO, M. A. da N.; PINTO, M. C. M. F. Análise de assunto. Revista de Biblioteconomia, Brasília, v. 8, n. 1, p. 32-43, jan.-jun. 1980. Disponível em:<http://www.tempusactas.unb.br/index.php/RBB/article/viewFile/244/224>.A cesso em: 29 jul. 2010. • FOSKETT, A.C. Abordagem temática da informação. São Paulo, Polígono, 1973, 347 p.