SlideShare una empresa de Scribd logo
1 de 24
1



  UNIVERSIDADE FEDERAL DE MINAS GERAIS
          BIBLIOTECA UNIVERSITÁRIA




     CURSO DE INDEXAÇÃO
Princípios e técnicas de indexação, com vistas à
        recuperação da informação




             Belo Horizonte
                 2004
2



                                             Sumário

1 A RECUPERAÇÃO DA INFORMAÇÃO E SISTEMAS DE
RECUPERAÇÃO DA INFORMAÇÃO............................................................2
2 O INDEXADOR.............................................................................................3
3 O PROCESSO DE INDEXAÇÃO..................................................................3
3.1 Análise de assunto........................................................................................5
3.1.1 A leitura do texto pelo indexador..............................................................5
3.1.2 Extração de conceitos................................................................................6
3.1.3 Determinação da atinência........................................................................9
3.2 Tradução da frase de indexação para linguagens de indexação...................9
3.3 Linguagens de indexação...........................................................................10
3.3.1Objetivos..................................................................................................11
3.3.2 Funções...................................................................................................11
3.3.3 Construção de linguagens de indexação.................................................11
3.3.4 Componentes da linguagem de indexação..............................................12
3.3.4.1 Vocabulário..........................................................................................12
3.3.4.2 Sintaxe..................................................................................................13
3.3.5 Linguagens verbais..................................................................................14
3.3.6 Linguagens simbólicas............................................................................14
3.3.6.1 Sistemas de classificação.....................................................................14
3.3.6.2 Como classificar...................................................................................15
3.3.7 Linguagens pré-coordenadas...................................................................15
3.3.7.1 Características da pré-coordenação......................................................16
3.3.7.2 Vantagens.............................................................................................16
3.3.7.3 Desvantagens........................................................................................16
3.3.7.4 Ordem de citação..................................................................................17
3.3.8 Linguagens pós-coordenadas................................................................. 18
3.3.8.1 Características da pós-coordenação.....................................................18
3.3.8.2 Vantagens............................................................................................19
3.3.8.3 Desvantagens.......................................................................................19
3.3.9 Avaliação das linguagens de indexação.................................................19
3.4 Consistência da indexação.........................................................................20
3.5 Indexação automática versus automatizada...............................................21
Referências......................................................................................................22
3


      PRINCÍPIOS E TÉCNICAS DE INDEXAÇÃO, COM VISTAS À
                      RECUPERAÇÃO DA INFORMAÇÃO
                                               Profa. Madalena Martins Lopes Naves
                                                                 madalena@eci.ufmg.br


1 A RECUPERAÇÃO DA INFORMAÇÃO E OS SISTEMAS DE RECUPERAÇÃO DA
INFORMAÇÃO – SRI


A recuperação da informação consiste numa multiplicidade de operações consecutivas,
executadas para localizar uma informação necessária ou documentos que a contenham, com
a recuperação subseqüente desses documentos.
A recuperação da informação afeta o bibliotecário, como profissional que pretende
satisfazer a necessidade social do homem: ter acesso a diversos tipos de informação. O
problema da recuperação da informação pode ser visto,             por um lado, como uma
acumulação constante de um volume sempre crescente da informação e, por outro lado, o
crescimento e a complexidade , cada vez maior, das necessidades de informação.
A RI é efetuada por meio de Sistemas de Recuperação da Informação, e um SRI é uma
organização para armazenar e tornar disponível a informação, podendo ser um catálogo,
uma base dados, etc., e deve ter os seguintes componentes:

-   Seleção e Aquisição – O início de um SRI se dá pela formação de um conjunto de
    documentos previamente selecionados e adquiridos dentro dos critérios estabelecidos
    pela instituição que o mantém e de acordo com os objetivos a que ele se propõe atingir.
    No estabelecimento de uma política de seleção das informações que alimentarão o
    sistema, é fundamental que o usuário possa se manifestar e seja ouvido.

-   Indexação - considerada a parte mais importante para a eficácia de um SRI

Em qualquer SRI, os documentos podem ser analisados de duas maneiras:
a) bibliográfica ou objetivamente – trata-se do tratamento descritivo dos documentos, em
    que são identificados dados físicos do documento, como autor, título, edição, local de
    publicação, editora, data da publicação. São dados objetivos, pois estão explícitos,
    geralmente, na capa e folha de rosto. Existem regras para este tipo de análise.
4


b) intelectual ou subjetivamente – trata-se do tratamento temático dos documentos, em que
   são definidos os termos do seu conteúdo, ocorrendo aí o processo de indexação de
   assuntos. Para este tipo de análise, não existem regras fixas que a padronizem.
Esta apostila trata, exclusivamente, da segunda análise citada acima, e se aprofunda no
processo de indexação de assuntos, com vistas à recuperação da informação. É importante,
se conhecer, inicialmente, um pouco das características do profissional que executa a
indexação, o indexador.


2 O INDEXADOR
O profissional da informação que desenvolve a atividade de indexar assuntos de
documentos é chamado de indexador, catalogador de assuntos ou classificador. A maioria
desses profissionais é graduado em Biblioteconomia, e deve conhecer os fundamentos
teóricos e técnicos do tratamento temático da informação.
Um dos fatores que interferem no trabalho do indexador é a subjetividade, inerente ao ser
humano e difícil de ser controlada. Vários outros fatores são verificados, ainda, como
interferentes no processo de indexar, como o conhecimento prévio (conhecimento de
mundo, conhecimento tácito) adquirido ao longo da vida, a sua formação e a experiência no
trabalho de indexação. No entanto, o conhecimento da área de atuação é um fator
importante a ser considerado, já que o domínio da terminologia e o conhecimento da
taxonomia das classes de assuntos da área em que está atuando, auxiliam muito o trabalho
de se extrair o conteúdo de documentos.
Observa-se, ainda, a interferência de fatores lingüísticos, (como o conhecimento da língua,
do vocabulário e da sintaxe, além da identificação de tipos de estruturas textuais), fatores
cognitivos (capacidade de abstração, percepção e interpretação de informações contidas nos
textos analisados) e fatores lógicos (elementos de dedução, indução, inferência, silogismo e
outros), o que torna o estudo do processo de indexação altamente interdisciplinar.


3 O PROCESSO DE INDEXAÇÃO
No campo do tratamento da informação, o termo indexação apresenta dois sentidos: um
mais amplo, quando se refere à atividade de criar índices, seja de autor, de título, de
assunto, tanto de publicações (livros, periódicos), quanto de catálogos ou de banco de
5


dados, em bibliotecas ou centros de informação. O outro sentido, mais restrito, refere-se à
indexação, classificação ou catalogação de assuntos das informações contidas em
documentos.
Os índices podem ser encabeçados e ordenados por autores, títulos, lugares de publicações,
etc. mas, freqüentemente, a idéia de RI está ligada à recuperação de documentos pelos
assuntos que tratam.
Índice tem sido descrito como a chave para o acesso ao conteúdo dos documentos, ou como
uma ponte ou elo entre o conteúdo de um arquivo e seus usuários.
Um índice é o instrumento mais importante num SRI. Indexar é o ato de incluir o registro
de um documento num arquivo de informações.
Na literatura é feita essa distinção: a indexação back-of-book (primeiro sentido citado)
permite ao leitor localizar informação sobre um tópico dentro do livro, sendo a tarefa do
indexador ler o texto, distinguir entre informação relevante e periférica e empregar os tipos
de processamento de informação presentes na leitura. Por sua vez, a indexação acadêmica
(segundo sentido citado) fornece um termo útil estabelecido pela indexação praticada em
bases de dados de resumos e em catálogos de bibliotecas.
Esta apostila concentra-se nos aspectos da indexação acadêmica, que compreende duas
etapas distintas: a análise de assunto, quando ocorre a extração de conceitos que possam
representar o conteúdo de um documento, expresso em linguagem natural, e a tradução
desses conceitos para termos de instrumentos de indexação, que são as chamadas
linguagens de indexação, linguagens artificiais ou linguagens documentárias.
Indexação é o processo de discernir a essência de um documento e representar essa essência
num modo de expressão em linguagem de indexação. Alguns autores denominam esse
processo de análise documentária, que é definida como um conjunto de procedimentos
efetuados com o fim de expressar o conteúdo de documentos, sob formas destinadas a
facilitar a recuperação da informação. Essa passagem de um texto original para um tipo de
representação é uma operação semântica, mesmo que não obedeça a nenhuma regra precisa
e varie em função de cada organismo e do analista, que seleciona as palavras-chave,
normalmente de forma intuitiva, em função de sua ocorrência e do seu interesse para a
instituição.
6


3.1 Análise de assunto
Esta é a primeira etapa da indexação, considerada por muitos como a etapa intelectual do
trabalho do indexador. O processo de ler um documento para extrair conceitos que
traduzam a sua essência é conhecido como análise de assunto para alguns, análise temática
para outros, ou, ainda, análise documentária, análise conceitual ou, mesmo, análise de
conteúdo. Como se pode ver, trata-se de um processo em que há uma certa confusão
conceitual e para o qual aparecem diferentes concepções.
A análise de assunto feita pelo indexador humano se dá em dois momentos: quando ele vai
analisar um documento para inseri-lo num SRI, e quando recebe um pedido de informação
do usuário.
O processo de análise de assunto compreende três fases:
3.1.1   A leitura do texto pelo indexador
O texto é o ponto de partida para operações analítico-documentárias, sendo constante a
presença dos elementos conteúdo e forma, como partes essenciais do mesmo. Para ter uma
competência textual é preciso que, além de conhecer o texto que tem em mãos para análise
sob todos os aspectos, o indexador faça dele uma leitura adequada, e sabe-se que um texto
pode gerar muitas leituras, interessando mais, neste estudo, a leitura para fins
documentários.
Para que os conteúdos dos textos sejam assimilados e compreendidos, é preciso que as
informações sejam processadas na mente do leitor e, atualmente, parece ser consenso entre
os especialistas em leitura que o processamento do ato de ler se dá interativamente,
dependendo dessa interação a não compreensão ou a compreensão de um texto. Durante a
compreensão do texto pelo indexador, ocorrem dois tipos de processamento mental da
informação: o top-down e o bottom-up, que parecem ocorrer simultaneamente na mente
humana ao fazer a leitura de um texto. São inversos e complementares, e chamados por
alguns autores de modelos de leitura: é o tipo ascendente, guiado por dados, indutivo,
bottom-up, no qual a leitura é linear, das partes para o todo textual, e o tipo descendente,
dedutivo, top-down, no qual se move na forma inversa, obtendo vantagem da base de
conhecimento do leitor. Trata-se de uma dupla ação: percepção e compreensão.
A interferência de vários fatores subjetivos/cognitivos torna a leitura um ato subjetivo e
individual, posto que o sentido dado ao texto lido sempre vai variar de leitor para leitor.
7


Diante disso, o que poderia ser afirmado com relação à leitura para fins documentários?
Existe algum modelo a ser seguido? E com relação ao leitor/indexador?
Um documento, inserido num SRI, antes de ser lido pelo leitor, usuário final do sistema, é
lido por um leitor técnico, o indexador, aquele que faz a leitura para fins documentários.
Esse tipo de leitura, conhecido como leitura documentária ou leitura técnica, tem certas
características, não sendo realizada para lazer ou aprendizagem, nem é prazerosa, muito
pelo contrário. O alto grau de incerteza , ansiedade e responsabilidade contido na atividade
já mostra que a mesma traz pouca satisfação. É um tipo de leitura bem racional e rápido,
em que o leitor técnico não tem chances de aproveitar a leitura, já que seu propósito é o de
extrair o conteúdo informativo do texto, tendo em vista a sua posterior recuperação por um
leitor interessado.
Outro aspecto que merece ser ressaltado é que o autor do texto, ao escrevê-lo, tem em
mente um determinado leitor alvo para o qual direciona suas idéias; suas intenções não são
dirigidas para o leitor/indexador e não lhe interessa se esse vai ter capacidade para
interpretar as informações que aquele texto está veiculando.
São várias as tentativas de se estabelecerem alguns critérios e de sistematizar o processo de
leitura do indexador, mas não há um consenso quanto à forma mais adequada de se fazer
essa leitura, visando à extração e ao posterior tratamento das informações contidas no texto.


3.1.2   Extração de conceitos
Para definir em termos adequados o assunto de um texto, é necessário que primeiro se
extraiam os conceitos que nele estão contidos. Se, para fazer uma análise conceitual,
devem-se extrair conceitos, pergunta-se: o que é um conceito?
Conceitos são unidades do conhecimento identificadas através de enunciados verdadeiros
sobre um item de referência, representados por um termo ou palavra. É uma idéia, uma
representação mental que nos permite categorizar objetos. Existem tipos de conceitos,
como os individuais (representados por nomes de coisas individuais, em linguagem
simples) os gerais (representados por nomes de classes de coisas e podem ser expressos em
uma multiplicidade de expressões lexicais e não lexicais) os científicos (podem ser
aprendidos na vida acadêmica, e, depois, são estabelecidas conexões entre eles e os eventos
da vida diária) os cotidianos (são objetos usados normalmente, como roupas, carros).
8


A formação de conceitos é um processo que envolve discriminação e agrupamento. Os
fatores que afetam o processo são experiência prévia, tempo, fatores sociais, etc.
Conceitos, palavras e significados: Não há uma correspondência exata entre palavras e
conceitos; há pelo menos dois conceitos que se apresentam quando vemos a palavra
volume. Não somente as palavras estimulam diferentes conceitos para indivíduos
diferentes, como, para o mesmo indivíduo, de acordo com as circunstâncias. Uma das
razões para os diferentes significados que diferentes palavras têm, para diferentes pessoas, é
que há duas espécies de significado: denotação e conotação. Denotação de uma palavra é a
coisa que ela representa ou a que se refere. Apontando para um gato, eu posso dizer: “Isto é
um gato”. Já a conotação de uma palavra é altamente individual e pessoal. Se eu gosto de
gatos, minha conotação de “gato” inclui a noção de amizade, calor, etc. Se não, inclui mau
cheiro e grito à noite.
Tipos de relações entre conceitos (estabelece a sintaxe, abordada no item 3.3.4.2)
a) Relação de eqüivalência
•    Sinônimos: Meio ambiente X Ecologia
•    Quase sinônimos: Datiloscopia X Impressão Digital
•    Grafias diferentes: Contato X Contacto
•    Abreviaturas e Acrônimos: ONU X Organização das Nações Unidas
•    Traduções: Recall X Revocação
b) Relação hierárquica
•    Gênero/espécie
     Quase genérica: (Gato X Animal de estimação)
     Verdadeiramente genérica: (Gato X Mamífero)
•    Todo/parte (Sistema respiratório X Pulmão)
c)   Relação associativa (afinidade ou de coordenação)
•    Coordenação: Terra X Marte
•    Genética: Pais X Filhos
•    Instrumental: Escrita X Lápis
•    Concorrente: Ensino X Aprendizagem
•    Material: Livro X Papel
9


•   Similaridade de processo: Catalogação X Classificação


Duas variáveis interferem na escolha de conceitos: a exaustividade e a especificidade.
Ambas dependem da política de indexação adotada no SRI, que deve seguir critérios pré-
estabelecidos, tendo em vista os objetivos do sistema, os recursos disponíveis e o tipo de
usuário.
A exaustividade relaciona-se à capacidade do sistema de indexar o documento em
profundidade, ou seja, além do assunto principal, são indexados também os assuntos
secundários.
A especificidade é a capacidade do sistema de nos permitir ser precisos ao especificarmos o
assunto de um documento.
Os s fatores de especificidade e exaustividade têm influência em todo o processo de
recuperação da informação, havendo ligação desses com as medidas de revocação e
precisão. (conceitos abordados no item 2.2.2)


A análise conceitual tem, como produto, um assunto, que representa o conteúdo
informacional de um texto. A noção de assunto de um texto é indeterminada, pois há casos
em que é impossível, em princípio, decidir qual de duas diferentes e igualmente precisas
descrições, é a descrição do assunto, ou se o texto tem dois assuntos ao invés de um.
Tipos de assuntos: São identificados três tipos de assuntos: assunto simples (formado por
um único conceito). Ex: Indexação; assunto composto (formado por mais de um conceito
pertencentes a uma mesma área do conhecimento) Ex: Indexação de materiais especiais
(são dois conceitos da Biblioteconomia); e assunto complexo (formado por conceitos de
áreas diferentes) Ex: A arte como terapia para idosos (conceitos da Arte e da Psicologia).
A atividade de identificar a(s) idéia(s) principal(ais) do texto exige a capacidade de
compreensão de seu conteúdo, o que está ligado a processos cognitivos.
Na determinação do assunto, é preciso que se verifique o contexto no qual o documento é
produzido e para o qual ele existe, em determinado momento.
Conceito, assunto e contexto são aspectos interdependentes que ocorrem durante todo o
processo de análise de assunto, até o momento de se afirmar sobre o que trata o documento,
próxima fase.
1




3.1.3   Determinação da atinência
Terminada a fase de extração de conceitos, é necessário que se faça uma seleção daqueles
que realmente sintetizem o assunto do texto, partindo-se, assim, para a terceira fase do
processo de análise de assunto, que é a determinação da chamada atinência, termo
traduzido do inglês aboutness.(outras traduções: concernência, sobrecidade, temacidade)
Nesta fase da determinação da atinência para representar os conceitos extraídos do texto,
inicia-se um processo lingüístico e o problema de descrever documentos para recuperação
é, principalmente, o problema de como a linguagem é usada. Há uma forte relação entre a
atinência do documento e seu(s) significado(s) identificado(s) pelos indivíduos. Um texto
tem uma atinência relativamente permanente, mas um número variado de significados.
O produto final da atinência é uma frase de indexação, elaborada pelo indexador em
linguagem natural. Após todo o processo intelectual de leitura do texto, de extração e
seleção de conceitos, é o momento em que ele afirma: Este documento trata de..........
Das etapas de indexação, a análise de assunto é a que sofre mais influência da subjetividade
do indexador, sendo, por isso, considerada muito complexa. Por todos os aspectos
considerados neste item, pode-se concluir que essa não é uma atividade possível de ser
ensinada, não havendo uma receita, ou uma rotina a ser seguida no desenvolvimento da
mesma.
Tentativas de automatizar a análise de assunto já vêm sendo implementadas em pesquisas
de cursos de pós-graduação, mas pode-se verificar que, por enquanto, o limite da máquina
ainda é a capacidade humana de percepção e abstração.


3.2 Tradução da frase de indexação para linguagens de indexação
Quando termina a primeira etapa da indexação, com o(s) assunto(s) já definidos em
linguagem natural, chega o momento de inseri-lo(s) no SRI. Para isso, é feita a tradução da
frase de indexação para os termos da linguagem de indexação, o que significa transformar
os conceitos selecionados em termos ou símbolos autorizados para representá-los no
sistema.
1


Quando indexamos um documento por assunto, nós o colocamos em uma ou mais classes, e
cada classe deve ter um número ou rótulo, que são chamados termos indexadores. O
conjunto desses forma a linguagem de indexação.
Há dois métodos fundamentais de indexar o assunto de documentos:
a)   Indexação por palavras – utiliza termos empregados pelo autor na apresentação das suas
     idéias, isto é, as palavras encontradas nos títulos ou nos textos dos documentos
Ex: A palavra mandioca traduz uma determinada idéia, um dado conceito, que também
pode ser expresso pelas palavras aipim, macaxera.
Uma indexação por palavras registrará os documentos pelos termos utilizados pelos
autores, ou seja, na linguagem natural. O sistema indexará um documento sobre mandioca
e outro sobre aipim ( linguagem natural). Um exemplo típico de indexação por palavra é o
índice KWIC (Key Word in the Context), que utiliza títulos dos documentos. O que
acontece na recuperação de um documento cujo título é “Feijão, angu e couve”? A
recuperação só pode ser feita através dessas palavras, mas o assunto do documento é
“Costumes mineiros”. O que acontecerá com a recuperação deste documento?
b) Indexação por conceitos – a indexação por conceitos pressupõe a análise de assunto do

     documento, a decisão sobre conceitos presentes no texto e a tradução destes em
     linguagem apropriada. Na indexação por conceitos, determinam-se os cabeçalhos a
     empregar, distinguem-se homônimos, controlam-se sinônimos, prevêem-se relações de
     eqüivalência, hierárquica e associativa.
É importante ressaltar que o indexador deve estar familiarizado com a linguagem utilizada
no SRI, embora esta linguagem não deva influenciar a análise de assunto dos documentos.


3.3 Linguagens de indexação
A linguagem de indexação é aquela cujo objetivo é representar o contéudo temático dos
documentos. Alguns sistemas utilizam a linguagem natural (escrita e falada, pouco usada
por apresentar grande inconsistência) como linguagem de indexação e, nesses casos,
adotam como termos indexadores os termos na forma como aparecem nos documentos, sem
modificações. Isso traz alguns problemas, como diferentes autores usando palavras diversas
para expressarem o mesmo conceito (dispersão terminológica) ou o caso do uso de
diferentes estruturas para expressarem a mesma idéia (dispersão sintática).
1


No entanto, comumente, são utilizadas          linguagens artificiais. Essas refletirão um
vocabulário controlado, para o qual foram tomadas decisões cuidadosas sobre os termos a
serem usados, o significado de cada um, e os relacionamentos que apresentam.
Uma linguagem de indexação deve procurar indicar os relacionamentos entre os termos no
seu vocabulário. Por exemplo, se um sistema inclui os termos ENSINO MÉDIO e
ESCOLAS PROFISSIONALIZANTES, pode-se indicar a relação entre esses dois termos,
pois um usuário, procurando informação sobre ensino médio, poderá encontrar documentos
relevantes sob o termo escolas profissionalizantes que, usualmente, se ocupam também do
ensino médio. Uma linguagem de indexação que tem um vocabulário controlado e que tenta
indicar as relações entre os termos no seu vocabulário é chamada estruturada.


3.3.1 Objetivos:

-   possibilitar que o indexador represente os assuntos dos documentos de forma
    consistente;

-   compatibilizar o vocabulário usado pelo usuário com o vocabulário usado pelo
    indexador;

-   permitir ao usuário moldar a estratégia de busca de forma a obter alta revocação ou alta
    precisão, conforme o exigirem as circunstâncias.


3.3.2 Funções das linguagens de indexação:

-   substituir a grande variedade de expressões da linguagem natural por uma linguagem
    formal;

-   estabelecer um ponto comum entre linguagem do autor, linguagem do indexador e
    linguagem do usuário;

-   estabelecer um vocabulário que mostre as relações entre termos e conceitos: relações
    semânticas (equivalência, hierarquia e associativa) e relações sintáticas (coordenação de
    dois ou mais elementos para formar assuntos compostos)

-   economizar espaço de arquivo;
1



-   ajudar na recuperação de conceitos específicos.


3.3.3 Construção de linguagens de indexação
A geração de um vocabulário controlado não é uma tarefa simples, e têm-se verificado
várias iniciativas nesse sentido, pela necessidade de se tratarem, cada vez mais, de assuntos
complexos que exigem uma análise mais aprofundada e com alto grau de especificidade.
Alguns aspectos são levantados para a criação das linguagens controladas, como: gerar um
vocabulário com base nos termos de indexação de um conjunto de documentos; modificar
um vocabulário já existente ou extrair o vocabulário de outro já existente; reunir termos de
diferentes fontes: especialistas da área, dicionários, glossários, índices, etc.
Um vocabulário controlado deve ser capaz de representar conceitos que realmente ocorrem
na literatura do assunto. Este é o princípio da garantia literária. É importante ressaltar,
ainda, dois pontos que não podem ser ignorados na construção de uma linguagem, como
as questões formuladas pelos usuários, que devem ser levadas em consideração na
definição dos termos da linguagem, pois refletem suas necessidades de informação, e a
consulta a especialistas da área especializada da linguagem.
Depois do levantamento dos termos, parte-se para o estabelecimento das relações entre os
conceitos, podendo-se utilizar, para isso, a análise facetada, que consiste na divisão do
assunto em facetas (categorias de assuntos). Passa-se a optar pelo melhor termo para
representar um conceito (geral ou específico), e estabelecer as hierarquias necessárias.


3.3.4 Componentes da linguagem de indexação:
As linguagens de indexação são formadas por dois componentes básicos: vocabulário e
sintaxe.


3.3.4.1 Vocabulário é o conjunto de termos de indexação utilizáveis para representar o
conteúdo temático dos documentos, que podem ser cabeçalhos de assuntos (listas de
cabeçalhos de assunto), descritores (tesauros) ou símbolos de classificação (sistemas de
classificação bibliográfica). O vocabulário é sempre menor do que os vocabulários dos
usuários, dos documentos indexados e do próprio indexador, por causa do controle do
vocabulário. Diante disso, é necessário fornecer, além do vocabulário de indexação (termos
1


usados no índice), um vocabulário de abordagem, que consiste de termos que não são
usados no sistema para representar os conceitos, mas que podem ser usados pelos autores
dos textos, pelos indexadores, e pelos usuários ao consultar o índice. Por exemplo, o
vocabulário do sistema usa o termo TESTE DE INTELIGÊNCIA.
Porém, o assunto pode ser procurado por:
TESTES MENTAIS – termo sinônimo
TESTES PSICOLÓGICOS – termo mais geral (abrangente)
TESDE DE APTIDÃO – termo mais especifico
DESENVOLVIMENTO MENTAL – termo relacionado
Estes termos constituem o vocabulário de abordagem.


3.3.4.2 Sintaxe é o conjunto de artifícios empregados para revelar as relações entre os
conceitos e as regras para estabelecer os descritores e determinar a ordem em que devem
ser citados. Ocorrem da necessidade de se poder recuperar a interseção entre duas ou mais
classes de conceitos, e o reconhecimento das relações entre os conceitos (item 3.1.2) é
produto de uma análise de assunto cuidadosa, que é básica para todas as linguagens de
indexação estruturadas.
São evidenciadas, as relações semânticas (ou de significado) e as relações sintáticas que
existem entre os termos indexadores.
As relações semânticas devem ser controladas ou mostradas nas linguagens de indexação
com o objetivo de se indicarem os termos alternativos ou substitutivos de indexação e
busca. As relações semânticas podem ser de 3 tipos : equivalência, hierárquicas e
associativas. Dependendo da estrutura da linguagem de indexação (verbal ou simbólica), o
estabelecimento das relações semânticas pode ser mais complexo ou mais simples,
utilizadas em tesauros e listas de cabeçalhos de assuntos)
•   Relações de equivalência (ver, see, use, x) UP (usado para = Used For - UF)
•   Relações hierárquicas - TG (Termo Geral = Broader Term - BT), TE(Termo Específico
    = Narrowed Term - NT).
•   Relações associativas (ver também, see also, xx) TR (Termo Relacionado = Related
    Term - RT)
1


As relações sintáticas entre os termos de uma linguagem de indexação originam-se da
necessidade de se poder recuperar a interseção entre duas ou mais classes de conceitos
distintos. Ex. pode existir interesse pelo assunto “fundição do alumínio” e não por
“fundição” e “alumínio”. Essas relações constituem-se da associação de termos para
representar assuntos compostos. São temporárias, ao contrário das relações semânticas, que
são permanentes.
As linguagens controladas são mais eficientes no SRI, embora apresentem maior
dificuldade para o usuário. Quanto maior a diferença entre a linguagem natural e a
linguagem controlada, maiores as dificuldades dos usuários no momento da busca.


O vocabulário de uma linguagem de indexação pode ser verbal ou simbólico (codificado),
que constituem as linguagens verbais e as linguagens simbólicas.


3.3.5 Linguagens verbais
Nas linguagens verbais, os assuntos são representados por palavras, como por exemplo, um
documento que trate da História da França, será representado por FRANÇA – História.
São linguagens verbais as listas de cabeçalhos de assunto, os tesauros.
As LCA são arranjadas em ordem alfabética de cabeçalhos de assunto, e têm abrangência
geral de todas as áreas do conhecimento. Apresentam pouca flexibilidade, pois são pré-
coordenadas (ver item 3.3.7), havendo o estabelecimento de uma ordem de citação entre os
termos.
Os tesauros, por sua vez, são especializados numa determinada área do conhecimento, e
mais flexíveis, apresentando uma ordem alfabética e sistemática entre os termos de
assuntos, chamados descritores. Utiliza termos simples, não havendo ordem de citação
entre os termos, constituindo uma linguagem pós-coordenada. (ver item 3.3.8)

3.3.6 Linguagens simbólicas
Nas linguagens simbólicas, os assuntos são representados por códigos ou símbolos, na
forma da notação de um sistema de classificação bibliográfica. Assim, o exemplo de
História da França, o assunto será representado por 944 (CDD)
1


Uma das linguagens simbólicas mais usadas em bibliotecas é a classificação bibliográfica.
Um mapa completo de qualquer área do conhecimento, mostrando todos os seus conceitos e
suas relações é chamado de tabela, esquema ou sistema de classificação.


3.3.6.1 Sistemas de classificação
Se dividem em:
a)   de acordo com a apresentação dos assuntos: enumerativos - procuram indicar todos os
     assuntos e todas as combinações possíveis entre eles e apresentar os símbolos que os
     representam prontos para ser usados. Ex: .Classificação Decimal de Dewey (CDD); e os
     analítico-sintéticos – ou facetados - apresentam listas de assuntos – facetas –
     acompanhados de símbolos e deixam ao classificador a tarefa de combinar os símbolos
     para apresentar os assuntos compostos. Ex: Colon Classification (Classificação de Dois
     Pontos) e Bliss Classification.
b) de acordo com a abrangência: gerais – todas as classes do conhecimento. Ex:

Dewey, CDU, Colon, LC; e especiais - classes especiais de assunto – Ex: Coates (Música)


Elementos de um sistema de classificação:
1) Apresentação ou introdução – Origem e evolução do sistema. Atualização. Ordem de
     citação. Ordem de arquivamento. Instruções para a construção de números de
     classificação.
2) Tabelas
     Auxiliares, classe geral, assuntos
3) Notação
4) Índice alfabético


3.3.6.2 Como classificar
Ranganathan enfatizou que há três estágios diferentes na indexação, e denominou-os de
Plano Idéia (análise de assunto em nossas próprias palavras; decisão sobre a classe
principal apropriada; decisão sobre a ordem de citação para a classe; re-arranjo da análise
de assunto na ordem apropriada), Plano Verbal (exame do índice e das tabelas do esquema
1


para encontrar os conceitos necessários) e Plano Notacional (construção da notação para os
conceitos, de acordo com as regras estabelecidas).


Em todo SRI, é necessário o controle de terminologia para assegurar a coincidência das
perguntas e respostas, fazendo com que determinado assunto pesquisado seja recuperado.
Este controle pode ser feito através de coordenação de conceitos no ato da indexação ou no
momento da recuperação. São as chamadas linguagens pré e pós coordenadas.


3.3.7 Linguagens pré-coordenadas
Os sistemas pré-coordenados estabelecem a coordenação dos vários tópicos referentes a um
assunto composto no momento da indexação, e, com grande subjetividade, determinam
uma prioridade na citação desses elementos. Essa ordem é determinada a partir da
importância que os conceitos representam para os usuários.


3.3.7.1 Características da pré-coordenação:

-   subjetividade (conceitos compostos);

-   entradas múltiplas (remissivas + referências);

-   autonomia do indexador;

-   fáceis de serem usadas.

-

3.3.7.2 Vantagens:

-   um único lugar para um assunto composto: prover apenas um lugar inequívoco para
    qualquer assunto composto;

-   personalização da busca: fazer com que os usuários possam familiarizar-se com o
    sistema e, com o tempo, passem a formular questões de acordo com a linguagem do
    sistema;

-   limitação do tamanho: a entrada única ajuda a evitar o crescimento desmesurado do
    catálogo, tornando mais simples o seu uso e menos dispendiosa a sua manutenção;
1



-   flexibilidade na estratégia de busca: podem ocorrer mudanças na estratégia da pesquisa,
    podendo seguir um assunto mais restrito, mais genérico ou correlato, sem ter que se
    começar pela estaca zero;

-   busca seqüencial manual rápida: as linguagens pré-coordenadas funcionam melhor
    nesses sistemas tradicionais de registro de documentos. Elas geram arquivos maiores,
    mas a busca manual, quando realizada seqüencialmente, é mais rápida.

-   evita falsas associações e relações incorretas;

-   é mais precisa.




3.3.7.3 Desvantagens:

-   dificuldade na representação dos diferentes sentidos do termo, e das relações entre os
    termos;

-   ordem fixa: os termos somente podem ser listados numa determinada seqüência;

-   pouca flexibilidade na busca: é quase impossível fazer a combinação entre os termos no
    momento da busca;

-   tamanho e custo: o uso da “entrada múltipla” encarece o sistema e aumenta o tamanho
    do índice
Exemplos de linguagens pré-coordenadas: listas de cabeçalhos de assunto (Library of
Congress, Rovira, Wanda Ferraz), os índices permutados, os índices em cadeia e as
classificações bibliográficas. (Classificação Decimal de Dewey, Classificação Decimal
Universal).


3.3.7.4 Ordem de citação
O problema das linguagens pré-coordenadas é a necessidade de se estabelecer uma ordem
de prioridade para os diversos conceitos. É a chamada ordem de citação, a ser determinada
a partir da importância que os conceitos têm para os usuários e, nesse caso, somente o
1


primeiro elemento citado é recuperado, ficando os outros ocultos. Existem algumas regras
básicas tentando estabelecer a ordem de citação dos assuntos complexos, como:

-   o assunto antes da forma bibliográfica : Geologia – Enciclopédia

-   o assunto antes do lugar (com a preposição em): A fome no Brasil, Fome-Brasil

-   o assunto depois do lugar (com a preposição de): Montanhas do Brasil, seria Brasil-
    Montanhas

-   todo-parte: Índices de Periódicos, seria Periódicos - Índices


Opções de ordem de citação são dadas por teóricos da área, como Kaiser (1911) – “o
concreto, depois o processo” – Indexação de livros, seria Livros - Indexação; por Coates
(1960) – Coisa – Parte – Material – Ação. Uma das opções, é a utilização das Cinco
Categorias Fundamentais, estabelecidas por Ranganathan: PMEST - Personalidade (núcleo
do assunto), Matéria, Energia (processo), Espaço e Tempo)
Ex: Plantação de soja no Paraná em 2003
A ordem dos termos será: SOJA-Plantação-Paraná-2003
Como se pode verificar, apenas o termo soja poderá ser recuperado na ordem alfabética.
Uma solução para isso, é a adoção de “entradas múltiplas”, ou a utilização de uma “rede
sindética” (uso de remissivas e referências) bem elaborada.


3.3.8 Linguagens pós-coordenadas
Os sistemas pós-coordenados adotam conceitos simples usados na indexação, que são
combinados pelo usuário no momento da busca. Os termos são combinados de qualquer
maneira, conforme a necessidade mais geral ou mais específica do usuário.
Os sistemas mais modernos de recuperação da informação, principalmente os sistemas
automatizados, passaram a usar as linguagens pós-coordenadas. Neste tipo de sistema, não
existe a preocupação com a importância dos elementos de um assunto composto, e,
consequentemente, com a ordem de citação desses elementos (ordem de prioridade definida
nas linguagens pré-coordenadas).
2


Uma linguagem pós-coordenada consiste de entradas que normalmente são conceitos
únicos, podendo-se dar a entrada de todos os termos no sistema, sem a necessidade de
decisões a respeito da prioridade dos itens. Cria-se uma entrada única para cada assunto
considerado relevante. Como recurso que auxilia a busca em sistemas pós-coordenados e
automatizados, é utilizada a lógica booleana, com os elementos and, or, nor.


3.3.8.1 Características da pós-coordenação:

-   conceitos únicos: são indexados os conceitos simples;

-   comparação das entradas de assunto: permite determinar coincidências que revelam
    documentos pertinentes ao assunto pesquisado;

-   objetividade: dá-se a entrada a todos os termos relevantes, sem a necessidade de
    decisões a respeito dos itens;

-   flexibilidade na busca: os termos podem ser combinados entre si, de qualquer forma, no
    momento da busca;

-   pesos iguais para os termos: todo termo atribuído a um documento tem peso igual,
    nenhum sendo mais importante que o outro.
3.3.8.2 Vantagens:

-   independência da ordem de citação;

-   permissão de uma maior revocação;

-   mais eficiência, melhorando a qualidade e diminuindo o custo nas buscas
    automatizadas.


3.3.8.3 Desvantagens:

-   eficiência ligada à automação: as linguagens de indexação pós-coordenadas são
    consideradas mais eficientes apenas quando usadas em sistemas automatizados;

-   combinação dos termos somente na saída, podendo-se obter associações falsas e
    incorretas;
2



-   oferecimento de baixa precisão.

Exemplos de linguagens pós-coordenadas: Tesauros (descritores), o Sistema Unitermo


3.3.9 Avaliação das linguagens de indexação
A escolha de uma determinada linguagem de indexação para um SRI é uma tarefa
complexa e que exige muito conhecimento da área do conhecimento em que o sistema está
inserido, os objetivos da instituição à qual está subordinado e, principalmente, os interesses
dos usuários da informação.
Alguns aspectos gerais devem ser observados para avaliação das LI pelo indexador:

-   qualquer LI deve estar permanentemente sendo avaliada (em comparação com a
    evolução da área e a conseqüente mutação do vocabulário, tanto dos autores como dos
    leitores) e atualizada (eliminação de termos obsoletos e introdução de termos novos).

-   A criação de uma linguagem de indexação nova é um processo lento, caro e que exige
    recursos humanos qualitativa e quantitativamente preparados e disponíveis para isso, , e
    a adaptação de uma linguagem já existente pode ser racional, eficiente e mais barata;

-   Se a biblioteca ou centro de informação participar de uma rede ou de um sistema
    cooperativo, as decisões devem ser comuns, e apresentadas ao sistema para que possam
    ser incorporadas por todos os membros participantes.

-   Se a instituição é isolada, a possibilidade de soluções individuais que melhor se
    adaptem ao SRI são maiores, devendo-se considerar as características da biblioteca.

-   Caso sejam detectadas falhas na recuperação da informação, deve-se pesquisar as
    causas: Problemas na análise de assunto? Inadequações do vocabulário controlado?
    Falta de treinamento do usuário? Falta de remissivas e referências?

-   Qual a providência tomar no caso de não existirem, na LI adotada no sistema, conceitos
    que não estão representados? Em alguns sistemas, a admissão de novos termos é aceita
    mas, em outros casos, o indexador deverá usar descritores mais genéricos.


Nesse contexto, surgem dois conceitos que possibilitam também a avaliação de uma LI: a
revocação e a precisão. Revocação é o coeficiente entre o número de documentos inseridos
2


no sistema versus o número de documentos relevantes recuperados pelo usuário, e a
precisão é o coeficiente entre o número de documentos inseridos no sistema e a precisão da
busca. Ex. Para a busca de documentos sobre Escultura, se o termo de busca for Artes,
haverá alta revocação e baixa precisão, pois serão recuperados documentos que falam de
escultura, mas não só sobre este assunto. Ao passo que, se a busca for feita pelo próprio
termo Escultura, a revocação será baixa e haverá uma alta precisão, pois só serão
recuperados documentos sobre Escultura.
Pesquisas mostram que um maior grau de especificidade eleva a taxa de precisão e baixa a
de revocação; ao contrário, um aumento de exaustividade, eleva a taxa de revocação,
baixando a de precisão.


3.4 Consistência da indexação
Um aspecto importante a ser considerado é a consistência da indexação, que também será
muito afetada pela qualidade da linguagem adotada. O estabelecimento da linguagem de
indexação deverá ser feito tendo em vista a sua adequação ao sistema a que irá servir. Um
fator importante é a qualidade de atualização dessas linguagens, com a inclusão dos novos
termos que surgem nos diversos campos das ciências, adequando-se as linguagens
controladas às terminologias dessas áreas.
A consistência da indexação está ligada a dois elementos básicos: ao desempenho do
indexador e à qualidade dos instrumentos de indexação. É importante que essa consistência
seja regular, considerando-se o fator tempo na operação de um determinado sistema, sendo
necessário ao indexador um alto grau de imparcialidade e uma submissão às diretrizes da
indexação adotadas pelo sistema. Deve-se procurar controlar a subjetividade, inerente a
qualquer trabalho humano, e presente na atividade de indexação. A consistência é difícil de
ser obtida quando é grande o grupo de indexadores, ou quando trabalham em diferentes
locais. Nesses casos, é aconselhável que se estabeleça um grupo de controle centralizado
para a verificação das indexações feitas.
Para se obter consistência na indexação é preciso, ainda, que se tenha bem estabelecida uma
política de indexação, que siga critérios como nº de termos indexadores para cada
documento (exaustividade), uso de singular ou plural, uso de siglas, termos em inglês e
rede sindética.
2




3.5 Indexação automática versus automatizada
Para a eficácia do controle e da organização das informações contidas em documentos, na
atualidade, torna-se imprescindível a automação de várias atividades desenvolvidas em
bibliotecas e centros de informação, e a adoção de tecnologias da informação já é uma
realidade na maioria desses. A indexação de documentos é uma das atividades em que se
tem investido muitos recursos, visando aumentar a rapidez e a precisão na recuperação de
informações relevantes para os usuários.
Há uma controvérsia quanto ao uso das terminologias indexação automática e
automatizada, podendo-se sintetizar que, na primeira, o trabalho desenvolvido para indexar
assuntos é totalmente feito pelo computador, como indexação por palavras (KWIC), pela
freqüência com que as palavras aparecem no texto, entre outros. Já na indexação
automatizada, a primeira etapa de extrair o conteúdo do documento (análise de assunto) é
feita por um indexador humano, que após seu trabalho intelectual, insere os termos numa
base de dados automatizada. No entanto, não há um consenso quanto a essa diferença
apresentada, podendo-se verificar os dois termos usados, também, como sinônimos.
Para finalizar, levanta-se uma questão para reflexão dos bibliotecários: até que ponto pode-
se delegar à máquina a tarefa de indexação? Onde poderia se apontar um limite para as
atividades desenvolvidas pela máquina? Seria, essa, já programada para exercer atividades
mentais como abstrair, interpretar, compreender e perceber, características inerentes ao ser
humano?




                                   REFERÊNCIAS


BEGHTOL, Clare. Bibliographic classification theory and text linguistics: aboutness,
intertextuality and the cognitive act of classifying documents. Journal of Documentatin,
v.42, n.2, p.84-113, Jun.1986.
CESARINO, Maria Augusta N., PINTO, Maria Cristina M.F. Análise de assunto. Revista
de Biblioteconomia de Brasília, v.8, n.11, p.33-43, 1980.
2


DAHLBERG, Ingetraut. Teoria do conceito. Ciência da Informação, v.7, n.2, p.101-107,
1978.
FOSKETT, A C. The subject approach to information. 5.ed. London: C.Bingley, 1996.
FROHMANN, B. Rules of indexing: a critique of mentalism in information retrieval
theory. Journal of Documentation, v.46, n.2, p.81-101, Jun.1990.
LANCASTER, F.W. Indexação e resumos: teoria e prática. Brasília: Briquet de
Lemos/Livros, 1993
NAVES, Madalena M. L. Fatores interferentes no processo de análise de assunto: estudo
de caso de indexadores. Belo Horizonte: ECI/UFMG, 2000. (Tese, doutorado em Ciência
da Informação)
PINTO MOLINA, Maria. Interdisciplinarly approaches to the concept and practice of
Written Documentary Content Analysis (WTDCA). Journal of Documentation, v.50, n.2,
p.111-1333, Jun.1994.
RAMSDEN, M.J.An introduction to index language construction: a programmed text.
London: C.Bingley, 1974. (Trad. e adap. de Maria Cristina M.F.Pinto)

Más contenido relacionado

La actualidad más candente

MARC 21
MARC 21MARC 21
MARC 21UNESP
 
RDA como novo código de catalogação
RDA como novo código de catalogaçãoRDA como novo código de catalogação
RDA como novo código de catalogaçãoMarcelo Votto
 
2 Desenvolvimento de coleções: política
2 Desenvolvimento de coleções: política2 Desenvolvimento de coleções: política
2 Desenvolvimento de coleções: políticaLeticia Strehl
 
A Classificação Decimal de Dewey - CDD
A Classificação Decimal de Dewey - CDDA Classificação Decimal de Dewey - CDD
A Classificação Decimal de Dewey - CDDCarla Façanha de Brito
 
Exaustividade, precisão e consistência em indexação: sistematização conceitual
Exaustividade, precisão e consistência em indexação: sistematização conceitualExaustividade, precisão e consistência em indexação: sistematização conceitual
Exaustividade, precisão e consistência em indexação: sistematização conceitualLuciana Piovezan
 
Classificação Decimal de Dewey - CDD
Classificação Decimal de Dewey - CDDClassificação Decimal de Dewey - CDD
Classificação Decimal de Dewey - CDDDayanne Araújo
 
Softwares para bibliotecas: opções gratuitas/livres e critérios para seleção
Softwares para bibliotecas: opções gratuitas/livres e critérios para seleçãoSoftwares para bibliotecas: opções gratuitas/livres e critérios para seleção
Softwares para bibliotecas: opções gratuitas/livres e critérios para seleçãoLígia 'lilly' Freitas
 
Aula 1 Descrição Arquivística 2013
Aula 1 Descrição Arquivística 2013Aula 1 Descrição Arquivística 2013
Aula 1 Descrição Arquivística 2013Charlley Luz
 
Serviço processo referencia
Serviço processo referencia Serviço processo referencia
Serviço processo referencia Célia Dias
 
Conservação de Acervos Bibliográficos SiBUCS
Conservação de Acervos Bibliográficos SiBUCSConservação de Acervos Bibliográficos SiBUCS
Conservação de Acervos Bibliográficos SiBUCSBiblioteca UCS
 
Classificacoes Bibliográficas: uma introdução
Classificacoes Bibliográficas: uma introduçãoClassificacoes Bibliográficas: uma introdução
Classificacoes Bibliográficas: uma introduçãoBenildes Maculan
 
Classificações bibliográficas
Classificações bibliográficasClassificações bibliográficas
Classificações bibliográficasIgor Falce
 
Notação de autor - aula
Notação de autor - aulaNotação de autor - aula
Notação de autor - aulaSelma Conte
 

La actualidad más candente (20)

Catalogação
CatalogaçãoCatalogação
Catalogação
 
MARC 21
MARC 21MARC 21
MARC 21
 
CDD
CDDCDD
CDD
 
Serviço de Referência
Serviço de ReferênciaServiço de Referência
Serviço de Referência
 
RDA como novo código de catalogação
RDA como novo código de catalogaçãoRDA como novo código de catalogação
RDA como novo código de catalogação
 
Sistemas e redes de informação
Sistemas e redes de informaçãoSistemas e redes de informação
Sistemas e redes de informação
 
2 Desenvolvimento de coleções: política
2 Desenvolvimento de coleções: política2 Desenvolvimento de coleções: política
2 Desenvolvimento de coleções: política
 
A Classificação Decimal de Dewey - CDD
A Classificação Decimal de Dewey - CDDA Classificação Decimal de Dewey - CDD
A Classificação Decimal de Dewey - CDD
 
Exaustividade, precisão e consistência em indexação: sistematização conceitual
Exaustividade, precisão e consistência em indexação: sistematização conceitualExaustividade, precisão e consistência em indexação: sistematização conceitual
Exaustividade, precisão e consistência em indexação: sistematização conceitual
 
Classificação Decimal de Dewey - CDD
Classificação Decimal de Dewey - CDDClassificação Decimal de Dewey - CDD
Classificação Decimal de Dewey - CDD
 
Catalogacao aulas1
Catalogacao aulas1Catalogacao aulas1
Catalogacao aulas1
 
Softwares para bibliotecas: opções gratuitas/livres e critérios para seleção
Softwares para bibliotecas: opções gratuitas/livres e critérios para seleçãoSoftwares para bibliotecas: opções gratuitas/livres e critérios para seleção
Softwares para bibliotecas: opções gratuitas/livres e critérios para seleção
 
Aula 1 Descrição Arquivística 2013
Aula 1 Descrição Arquivística 2013Aula 1 Descrição Arquivística 2013
Aula 1 Descrição Arquivística 2013
 
Serviço processo referencia
Serviço processo referencia Serviço processo referencia
Serviço processo referencia
 
Base de Dados
Base de Dados Base de Dados
Base de Dados
 
Conservação de Acervos Bibliográficos SiBUCS
Conservação de Acervos Bibliográficos SiBUCSConservação de Acervos Bibliográficos SiBUCS
Conservação de Acervos Bibliográficos SiBUCS
 
Classificacoes Bibliográficas: uma introdução
Classificacoes Bibliográficas: uma introduçãoClassificacoes Bibliográficas: uma introdução
Classificacoes Bibliográficas: uma introdução
 
AACR2r Parte II: Pontos de acesso (2015)
AACR2r Parte II: Pontos de acesso (2015)AACR2r Parte II: Pontos de acesso (2015)
AACR2r Parte II: Pontos de acesso (2015)
 
Classificações bibliográficas
Classificações bibliográficasClassificações bibliográficas
Classificações bibliográficas
 
Notação de autor - aula
Notação de autor - aulaNotação de autor - aula
Notação de autor - aula
 

Destacado

Política de indexação
Política de indexaçãoPolítica de indexação
Política de indexaçãoSuzene Furtado
 
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...Daniel Ribeiro dos Santos
 
Política de indexação em Bibliotecas Univesitárias
Política de indexação em Bibliotecas UnivesitáriasPolítica de indexação em Bibliotecas Univesitárias
Política de indexação em Bibliotecas UnivesitáriasLuciana Piovezan
 
Política de indexação em bibliotecas universitárias: estudo diagnóstico na re...
Política de indexação em bibliotecas universitárias: estudo diagnóstico na re...Política de indexação em bibliotecas universitárias: estudo diagnóstico na re...
Política de indexação em bibliotecas universitárias: estudo diagnóstico na re...Luciana Piovezan
 
Fichamento sobre as Linguagens Documentárias
Fichamento sobre as Linguagens DocumentáriasFichamento sobre as Linguagens Documentárias
Fichamento sobre as Linguagens DocumentáriasCarla Ferreira
 
ESTUDO COMPARATIVO DA NORMA BRASILEIRA DE DESCRIÇÃO ARQUIVÍSTICA (NOBRADE) E ...
ESTUDO COMPARATIVO DA NORMA BRASILEIRA DE DESCRIÇÃO ARQUIVÍSTICA (NOBRADE) E ...ESTUDO COMPARATIVO DA NORMA BRASILEIRA DE DESCRIÇÃO ARQUIVÍSTICA (NOBRADE) E ...
ESTUDO COMPARATIVO DA NORMA BRASILEIRA DE DESCRIÇÃO ARQUIVÍSTICA (NOBRADE) E ...Daniel Ribeiro dos Santos
 
Analise Documental-AI1-1ºano
Analise Documental-AI1-1ºanoAnalise Documental-AI1-1ºano
Analise Documental-AI1-1ºanoCTDI Grupo5
 
Catalogação Retrospectiva
Catalogação RetrospectivaCatalogação Retrospectiva
Catalogação RetrospectivaRe_Biblio
 
Classificações Facetadas
Classificações FacetadasClassificações Facetadas
Classificações FacetadasCarla Ferreira
 
Preparando sua biblioteca para avaliação do mec
Preparando sua biblioteca para avaliação do mecPreparando sua biblioteca para avaliação do mec
Preparando sua biblioteca para avaliação do mecAllan Júlio Santos
 
Tratamento documental fátima rocha
Tratamento documental   fátima rochaTratamento documental   fátima rocha
Tratamento documental fátima rochaIsabel Mendinhos
 
Introdução ao RDA - Módulo 1: Modelos conceituais e desenvolvimento do RDA
Introdução ao RDA - Módulo 1: Modelos conceituais e desenvolvimento do RDAIntrodução ao RDA - Módulo 1: Modelos conceituais e desenvolvimento do RDA
Introdução ao RDA - Módulo 1: Modelos conceituais e desenvolvimento do RDAFabrício Silva Assumpção
 
Introdução ao RDA - Módulo 2: Estrutura do RDA
Introdução ao RDA - Módulo 2: Estrutura do RDAIntrodução ao RDA - Módulo 2: Estrutura do RDA
Introdução ao RDA - Módulo 2: Estrutura do RDAFabrício Silva Assumpção
 
Espécies
EspéciesEspécies
Espéciesunesp
 
AACR
AACRAACR
AACRUNESP
 

Destacado (20)

Política de indexação
Política de indexaçãoPolítica de indexação
Política de indexação
 
Indexação De Livros
Indexação De LivrosIndexação De Livros
Indexação De Livros
 
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
Sistemas de classificação bibliográfica [perspectivas da biblioteconomia cont...
 
Antropologia trabalho final
Antropologia trabalho finalAntropologia trabalho final
Antropologia trabalho final
 
Política de indexação em Bibliotecas Univesitárias
Política de indexação em Bibliotecas UnivesitáriasPolítica de indexação em Bibliotecas Univesitárias
Política de indexação em Bibliotecas Univesitárias
 
Política de indexação em bibliotecas universitárias: estudo diagnóstico na re...
Política de indexação em bibliotecas universitárias: estudo diagnóstico na re...Política de indexação em bibliotecas universitárias: estudo diagnóstico na re...
Política de indexação em bibliotecas universitárias: estudo diagnóstico na re...
 
Fichamento sobre as Linguagens Documentárias
Fichamento sobre as Linguagens DocumentáriasFichamento sobre as Linguagens Documentárias
Fichamento sobre as Linguagens Documentárias
 
ESTUDO COMPARATIVO DA NORMA BRASILEIRA DE DESCRIÇÃO ARQUIVÍSTICA (NOBRADE) E ...
ESTUDO COMPARATIVO DA NORMA BRASILEIRA DE DESCRIÇÃO ARQUIVÍSTICA (NOBRADE) E ...ESTUDO COMPARATIVO DA NORMA BRASILEIRA DE DESCRIÇÃO ARQUIVÍSTICA (NOBRADE) E ...
ESTUDO COMPARATIVO DA NORMA BRASILEIRA DE DESCRIÇÃO ARQUIVÍSTICA (NOBRADE) E ...
 
Analise Documental-AI1-1ºano
Analise Documental-AI1-1ºanoAnalise Documental-AI1-1ºano
Analise Documental-AI1-1ºano
 
Catalogação Retrospectiva
Catalogação RetrospectivaCatalogação Retrospectiva
Catalogação Retrospectiva
 
Classificação Decimal Universal 1
Classificação Decimal Universal 1Classificação Decimal Universal 1
Classificação Decimal Universal 1
 
Classificações Facetadas
Classificações FacetadasClassificações Facetadas
Classificações Facetadas
 
Preparando sua biblioteca para avaliação do mec
Preparando sua biblioteca para avaliação do mecPreparando sua biblioteca para avaliação do mec
Preparando sua biblioteca para avaliação do mec
 
Elab2010
Elab2010Elab2010
Elab2010
 
CDU
CDUCDU
CDU
 
Tratamento documental fátima rocha
Tratamento documental   fátima rochaTratamento documental   fátima rocha
Tratamento documental fátima rocha
 
Introdução ao RDA - Módulo 1: Modelos conceituais e desenvolvimento do RDA
Introdução ao RDA - Módulo 1: Modelos conceituais e desenvolvimento do RDAIntrodução ao RDA - Módulo 1: Modelos conceituais e desenvolvimento do RDA
Introdução ao RDA - Módulo 1: Modelos conceituais e desenvolvimento do RDA
 
Introdução ao RDA - Módulo 2: Estrutura do RDA
Introdução ao RDA - Módulo 2: Estrutura do RDAIntrodução ao RDA - Módulo 2: Estrutura do RDA
Introdução ao RDA - Módulo 2: Estrutura do RDA
 
Espécies
EspéciesEspécies
Espécies
 
AACR
AACRAACR
AACR
 

Similar a Principios tecnicas de_indexacao[1]

O processo de análise de assunto
O processo de análise de assuntoO processo de análise de assunto
O processo de análise de assuntojani_jpa2012
 
Producao de instrumentos de recolhas de dados
Producao de instrumentos de recolhas de dadosProducao de instrumentos de recolhas de dados
Producao de instrumentos de recolhas de dadosUniversidade Pedagogica
 
Aula 01 - Recuperação da Informação
Aula 01 - Recuperação da InformaçãoAula 01 - Recuperação da Informação
Aula 01 - Recuperação da InformaçãoNilton Heck
 
Competência em informação para o auto-arquivamento em open archives
Competência em informação para o auto-arquivamento em open archivesCompetência em informação para o auto-arquivamento em open archives
Competência em informação para o auto-arquivamento em open archivesRodrigo Moreira Garcia
 
Letramento informacional - Palestra para o maristinha estudantes 9 ano
Letramento informacional - Palestra para o maristinha estudantes 9 anoLetramento informacional - Palestra para o maristinha estudantes 9 ano
Letramento informacional - Palestra para o maristinha estudantes 9 anoKelley Cristine Gasque
 
Fontes De Informação Científica
Fontes De Informação CientíficaFontes De Informação Científica
Fontes De Informação Científicabsararangua
 
DESAFIOS E PERSPECTIVAS DO BIBLIOTECÁRIO NORMALIZADOR DE TRABALHOS ACADÊMICOS
 DESAFIOS E PERSPECTIVAS DO BIBLIOTECÁRIO NORMALIZADOR DE TRABALHOS ACADÊMICOS DESAFIOS E PERSPECTIVAS DO BIBLIOTECÁRIO NORMALIZADOR DE TRABALHOS ACADÊMICOS
DESAFIOS E PERSPECTIVAS DO BIBLIOTECÁRIO NORMALIZADOR DE TRABALHOS ACADÊMICOSJUCYARARODRIGUES
 
17. int. ao cont. biblio. egan and shera
17. int. ao cont. biblio. egan and shera17. int. ao cont. biblio. egan and shera
17. int. ao cont. biblio. egan and sheraVinícius Cordeiro
 
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3Thalita Gama
 
SEMINÁRIO PESQUISA EDUCACIONAL.pptx
SEMINÁRIO PESQUISA EDUCACIONAL.pptxSEMINÁRIO PESQUISA EDUCACIONAL.pptx
SEMINÁRIO PESQUISA EDUCACIONAL.pptxRBA
 
Representação da Informação
Representação da InformaçãoRepresentação da Informação
Representação da InformaçãoHercules Santos
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoCristina Ferreira
 
Aula 1 - Cobertura e indexação das bases de dados
Aula 1 - Cobertura e indexação das bases de dadosAula 1 - Cobertura e indexação das bases de dados
Aula 1 - Cobertura e indexação das bases de dadosLeticia Strehl
 
C21 prova- bibliotecario - documentalista
C21   prova- bibliotecario - documentalistaC21   prova- bibliotecario - documentalista
C21 prova- bibliotecario - documentalistaLucianoLLC
 
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptAllas Jony da Silva Oliveira
 
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptAdemar Trindade
 
Taxonomia: elemento fundamental para a gestao do conhecimento
Taxonomia: elemento fundamental para a gestao do conhecimentoTaxonomia: elemento fundamental para a gestao do conhecimento
Taxonomia: elemento fundamental para a gestao do conhecimentoJose Claudio Terra
 

Similar a Principios tecnicas de_indexacao[1] (20)

O processo de análise de assunto
O processo de análise de assuntoO processo de análise de assunto
O processo de análise de assunto
 
7 AULA_SRI.ppt
7 AULA_SRI.ppt7 AULA_SRI.ppt
7 AULA_SRI.ppt
 
Producao de instrumentos de recolhas de dados
Producao de instrumentos de recolhas de dadosProducao de instrumentos de recolhas de dados
Producao de instrumentos de recolhas de dados
 
Aula 01 - Recuperação da Informação
Aula 01 - Recuperação da InformaçãoAula 01 - Recuperação da Informação
Aula 01 - Recuperação da Informação
 
Competência em informação para o auto-arquivamento em open archives
Competência em informação para o auto-arquivamento em open archivesCompetência em informação para o auto-arquivamento em open archives
Competência em informação para o auto-arquivamento em open archives
 
Aula 4
Aula 4Aula 4
Aula 4
 
Letramento informacional - Palestra para o maristinha estudantes 9 ano
Letramento informacional - Palestra para o maristinha estudantes 9 anoLetramento informacional - Palestra para o maristinha estudantes 9 ano
Letramento informacional - Palestra para o maristinha estudantes 9 ano
 
2684247
26842472684247
2684247
 
Fontes De Informação Científica
Fontes De Informação CientíficaFontes De Informação Científica
Fontes De Informação Científica
 
DESAFIOS E PERSPECTIVAS DO BIBLIOTECÁRIO NORMALIZADOR DE TRABALHOS ACADÊMICOS
 DESAFIOS E PERSPECTIVAS DO BIBLIOTECÁRIO NORMALIZADOR DE TRABALHOS ACADÊMICOS DESAFIOS E PERSPECTIVAS DO BIBLIOTECÁRIO NORMALIZADOR DE TRABALHOS ACADÊMICOS
DESAFIOS E PERSPECTIVAS DO BIBLIOTECÁRIO NORMALIZADOR DE TRABALHOS ACADÊMICOS
 
17. int. ao cont. biblio. egan and shera
17. int. ao cont. biblio. egan and shera17. int. ao cont. biblio. egan and shera
17. int. ao cont. biblio. egan and shera
 
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
Preparatório Santa Biblioteconomia - Foco UFF e Aeronáutica - Aula 3
 
SEMINÁRIO PESQUISA EDUCACIONAL.pptx
SEMINÁRIO PESQUISA EDUCACIONAL.pptxSEMINÁRIO PESQUISA EDUCACIONAL.pptx
SEMINÁRIO PESQUISA EDUCACIONAL.pptx
 
Representação da Informação
Representação da InformaçãoRepresentação da Informação
Representação da Informação
 
Artigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informaçãoArtigo sistema automático de disseminação seletiva de informação
Artigo sistema automático de disseminação seletiva de informação
 
Aula 1 - Cobertura e indexação das bases de dados
Aula 1 - Cobertura e indexação das bases de dadosAula 1 - Cobertura e indexação das bases de dados
Aula 1 - Cobertura e indexação das bases de dados
 
C21 prova- bibliotecario - documentalista
C21   prova- bibliotecario - documentalistaC21   prova- bibliotecario - documentalista
C21 prova- bibliotecario - documentalista
 
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
 
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.pptva_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
va_Arte_Pesquisar_II_Estratégia_busca_fontes_informação_2019.ppt
 
Taxonomia: elemento fundamental para a gestao do conhecimento
Taxonomia: elemento fundamental para a gestao do conhecimentoTaxonomia: elemento fundamental para a gestao do conhecimento
Taxonomia: elemento fundamental para a gestao do conhecimento
 

Principios tecnicas de_indexacao[1]

  • 1. 1 UNIVERSIDADE FEDERAL DE MINAS GERAIS BIBLIOTECA UNIVERSITÁRIA CURSO DE INDEXAÇÃO Princípios e técnicas de indexação, com vistas à recuperação da informação Belo Horizonte 2004
  • 2. 2 Sumário 1 A RECUPERAÇÃO DA INFORMAÇÃO E SISTEMAS DE RECUPERAÇÃO DA INFORMAÇÃO............................................................2 2 O INDEXADOR.............................................................................................3 3 O PROCESSO DE INDEXAÇÃO..................................................................3 3.1 Análise de assunto........................................................................................5 3.1.1 A leitura do texto pelo indexador..............................................................5 3.1.2 Extração de conceitos................................................................................6 3.1.3 Determinação da atinência........................................................................9 3.2 Tradução da frase de indexação para linguagens de indexação...................9 3.3 Linguagens de indexação...........................................................................10 3.3.1Objetivos..................................................................................................11 3.3.2 Funções...................................................................................................11 3.3.3 Construção de linguagens de indexação.................................................11 3.3.4 Componentes da linguagem de indexação..............................................12 3.3.4.1 Vocabulário..........................................................................................12 3.3.4.2 Sintaxe..................................................................................................13 3.3.5 Linguagens verbais..................................................................................14 3.3.6 Linguagens simbólicas............................................................................14 3.3.6.1 Sistemas de classificação.....................................................................14 3.3.6.2 Como classificar...................................................................................15 3.3.7 Linguagens pré-coordenadas...................................................................15 3.3.7.1 Características da pré-coordenação......................................................16 3.3.7.2 Vantagens.............................................................................................16 3.3.7.3 Desvantagens........................................................................................16 3.3.7.4 Ordem de citação..................................................................................17 3.3.8 Linguagens pós-coordenadas................................................................. 18 3.3.8.1 Características da pós-coordenação.....................................................18 3.3.8.2 Vantagens............................................................................................19 3.3.8.3 Desvantagens.......................................................................................19 3.3.9 Avaliação das linguagens de indexação.................................................19 3.4 Consistência da indexação.........................................................................20 3.5 Indexação automática versus automatizada...............................................21 Referências......................................................................................................22
  • 3. 3 PRINCÍPIOS E TÉCNICAS DE INDEXAÇÃO, COM VISTAS À RECUPERAÇÃO DA INFORMAÇÃO Profa. Madalena Martins Lopes Naves madalena@eci.ufmg.br 1 A RECUPERAÇÃO DA INFORMAÇÃO E OS SISTEMAS DE RECUPERAÇÃO DA INFORMAÇÃO – SRI A recuperação da informação consiste numa multiplicidade de operações consecutivas, executadas para localizar uma informação necessária ou documentos que a contenham, com a recuperação subseqüente desses documentos. A recuperação da informação afeta o bibliotecário, como profissional que pretende satisfazer a necessidade social do homem: ter acesso a diversos tipos de informação. O problema da recuperação da informação pode ser visto, por um lado, como uma acumulação constante de um volume sempre crescente da informação e, por outro lado, o crescimento e a complexidade , cada vez maior, das necessidades de informação. A RI é efetuada por meio de Sistemas de Recuperação da Informação, e um SRI é uma organização para armazenar e tornar disponível a informação, podendo ser um catálogo, uma base dados, etc., e deve ter os seguintes componentes: - Seleção e Aquisição – O início de um SRI se dá pela formação de um conjunto de documentos previamente selecionados e adquiridos dentro dos critérios estabelecidos pela instituição que o mantém e de acordo com os objetivos a que ele se propõe atingir. No estabelecimento de uma política de seleção das informações que alimentarão o sistema, é fundamental que o usuário possa se manifestar e seja ouvido. - Indexação - considerada a parte mais importante para a eficácia de um SRI Em qualquer SRI, os documentos podem ser analisados de duas maneiras: a) bibliográfica ou objetivamente – trata-se do tratamento descritivo dos documentos, em que são identificados dados físicos do documento, como autor, título, edição, local de publicação, editora, data da publicação. São dados objetivos, pois estão explícitos, geralmente, na capa e folha de rosto. Existem regras para este tipo de análise.
  • 4. 4 b) intelectual ou subjetivamente – trata-se do tratamento temático dos documentos, em que são definidos os termos do seu conteúdo, ocorrendo aí o processo de indexação de assuntos. Para este tipo de análise, não existem regras fixas que a padronizem. Esta apostila trata, exclusivamente, da segunda análise citada acima, e se aprofunda no processo de indexação de assuntos, com vistas à recuperação da informação. É importante, se conhecer, inicialmente, um pouco das características do profissional que executa a indexação, o indexador. 2 O INDEXADOR O profissional da informação que desenvolve a atividade de indexar assuntos de documentos é chamado de indexador, catalogador de assuntos ou classificador. A maioria desses profissionais é graduado em Biblioteconomia, e deve conhecer os fundamentos teóricos e técnicos do tratamento temático da informação. Um dos fatores que interferem no trabalho do indexador é a subjetividade, inerente ao ser humano e difícil de ser controlada. Vários outros fatores são verificados, ainda, como interferentes no processo de indexar, como o conhecimento prévio (conhecimento de mundo, conhecimento tácito) adquirido ao longo da vida, a sua formação e a experiência no trabalho de indexação. No entanto, o conhecimento da área de atuação é um fator importante a ser considerado, já que o domínio da terminologia e o conhecimento da taxonomia das classes de assuntos da área em que está atuando, auxiliam muito o trabalho de se extrair o conteúdo de documentos. Observa-se, ainda, a interferência de fatores lingüísticos, (como o conhecimento da língua, do vocabulário e da sintaxe, além da identificação de tipos de estruturas textuais), fatores cognitivos (capacidade de abstração, percepção e interpretação de informações contidas nos textos analisados) e fatores lógicos (elementos de dedução, indução, inferência, silogismo e outros), o que torna o estudo do processo de indexação altamente interdisciplinar. 3 O PROCESSO DE INDEXAÇÃO No campo do tratamento da informação, o termo indexação apresenta dois sentidos: um mais amplo, quando se refere à atividade de criar índices, seja de autor, de título, de assunto, tanto de publicações (livros, periódicos), quanto de catálogos ou de banco de
  • 5. 5 dados, em bibliotecas ou centros de informação. O outro sentido, mais restrito, refere-se à indexação, classificação ou catalogação de assuntos das informações contidas em documentos. Os índices podem ser encabeçados e ordenados por autores, títulos, lugares de publicações, etc. mas, freqüentemente, a idéia de RI está ligada à recuperação de documentos pelos assuntos que tratam. Índice tem sido descrito como a chave para o acesso ao conteúdo dos documentos, ou como uma ponte ou elo entre o conteúdo de um arquivo e seus usuários. Um índice é o instrumento mais importante num SRI. Indexar é o ato de incluir o registro de um documento num arquivo de informações. Na literatura é feita essa distinção: a indexação back-of-book (primeiro sentido citado) permite ao leitor localizar informação sobre um tópico dentro do livro, sendo a tarefa do indexador ler o texto, distinguir entre informação relevante e periférica e empregar os tipos de processamento de informação presentes na leitura. Por sua vez, a indexação acadêmica (segundo sentido citado) fornece um termo útil estabelecido pela indexação praticada em bases de dados de resumos e em catálogos de bibliotecas. Esta apostila concentra-se nos aspectos da indexação acadêmica, que compreende duas etapas distintas: a análise de assunto, quando ocorre a extração de conceitos que possam representar o conteúdo de um documento, expresso em linguagem natural, e a tradução desses conceitos para termos de instrumentos de indexação, que são as chamadas linguagens de indexação, linguagens artificiais ou linguagens documentárias. Indexação é o processo de discernir a essência de um documento e representar essa essência num modo de expressão em linguagem de indexação. Alguns autores denominam esse processo de análise documentária, que é definida como um conjunto de procedimentos efetuados com o fim de expressar o conteúdo de documentos, sob formas destinadas a facilitar a recuperação da informação. Essa passagem de um texto original para um tipo de representação é uma operação semântica, mesmo que não obedeça a nenhuma regra precisa e varie em função de cada organismo e do analista, que seleciona as palavras-chave, normalmente de forma intuitiva, em função de sua ocorrência e do seu interesse para a instituição.
  • 6. 6 3.1 Análise de assunto Esta é a primeira etapa da indexação, considerada por muitos como a etapa intelectual do trabalho do indexador. O processo de ler um documento para extrair conceitos que traduzam a sua essência é conhecido como análise de assunto para alguns, análise temática para outros, ou, ainda, análise documentária, análise conceitual ou, mesmo, análise de conteúdo. Como se pode ver, trata-se de um processo em que há uma certa confusão conceitual e para o qual aparecem diferentes concepções. A análise de assunto feita pelo indexador humano se dá em dois momentos: quando ele vai analisar um documento para inseri-lo num SRI, e quando recebe um pedido de informação do usuário. O processo de análise de assunto compreende três fases: 3.1.1 A leitura do texto pelo indexador O texto é o ponto de partida para operações analítico-documentárias, sendo constante a presença dos elementos conteúdo e forma, como partes essenciais do mesmo. Para ter uma competência textual é preciso que, além de conhecer o texto que tem em mãos para análise sob todos os aspectos, o indexador faça dele uma leitura adequada, e sabe-se que um texto pode gerar muitas leituras, interessando mais, neste estudo, a leitura para fins documentários. Para que os conteúdos dos textos sejam assimilados e compreendidos, é preciso que as informações sejam processadas na mente do leitor e, atualmente, parece ser consenso entre os especialistas em leitura que o processamento do ato de ler se dá interativamente, dependendo dessa interação a não compreensão ou a compreensão de um texto. Durante a compreensão do texto pelo indexador, ocorrem dois tipos de processamento mental da informação: o top-down e o bottom-up, que parecem ocorrer simultaneamente na mente humana ao fazer a leitura de um texto. São inversos e complementares, e chamados por alguns autores de modelos de leitura: é o tipo ascendente, guiado por dados, indutivo, bottom-up, no qual a leitura é linear, das partes para o todo textual, e o tipo descendente, dedutivo, top-down, no qual se move na forma inversa, obtendo vantagem da base de conhecimento do leitor. Trata-se de uma dupla ação: percepção e compreensão. A interferência de vários fatores subjetivos/cognitivos torna a leitura um ato subjetivo e individual, posto que o sentido dado ao texto lido sempre vai variar de leitor para leitor.
  • 7. 7 Diante disso, o que poderia ser afirmado com relação à leitura para fins documentários? Existe algum modelo a ser seguido? E com relação ao leitor/indexador? Um documento, inserido num SRI, antes de ser lido pelo leitor, usuário final do sistema, é lido por um leitor técnico, o indexador, aquele que faz a leitura para fins documentários. Esse tipo de leitura, conhecido como leitura documentária ou leitura técnica, tem certas características, não sendo realizada para lazer ou aprendizagem, nem é prazerosa, muito pelo contrário. O alto grau de incerteza , ansiedade e responsabilidade contido na atividade já mostra que a mesma traz pouca satisfação. É um tipo de leitura bem racional e rápido, em que o leitor técnico não tem chances de aproveitar a leitura, já que seu propósito é o de extrair o conteúdo informativo do texto, tendo em vista a sua posterior recuperação por um leitor interessado. Outro aspecto que merece ser ressaltado é que o autor do texto, ao escrevê-lo, tem em mente um determinado leitor alvo para o qual direciona suas idéias; suas intenções não são dirigidas para o leitor/indexador e não lhe interessa se esse vai ter capacidade para interpretar as informações que aquele texto está veiculando. São várias as tentativas de se estabelecerem alguns critérios e de sistematizar o processo de leitura do indexador, mas não há um consenso quanto à forma mais adequada de se fazer essa leitura, visando à extração e ao posterior tratamento das informações contidas no texto. 3.1.2 Extração de conceitos Para definir em termos adequados o assunto de um texto, é necessário que primeiro se extraiam os conceitos que nele estão contidos. Se, para fazer uma análise conceitual, devem-se extrair conceitos, pergunta-se: o que é um conceito? Conceitos são unidades do conhecimento identificadas através de enunciados verdadeiros sobre um item de referência, representados por um termo ou palavra. É uma idéia, uma representação mental que nos permite categorizar objetos. Existem tipos de conceitos, como os individuais (representados por nomes de coisas individuais, em linguagem simples) os gerais (representados por nomes de classes de coisas e podem ser expressos em uma multiplicidade de expressões lexicais e não lexicais) os científicos (podem ser aprendidos na vida acadêmica, e, depois, são estabelecidas conexões entre eles e os eventos da vida diária) os cotidianos (são objetos usados normalmente, como roupas, carros).
  • 8. 8 A formação de conceitos é um processo que envolve discriminação e agrupamento. Os fatores que afetam o processo são experiência prévia, tempo, fatores sociais, etc. Conceitos, palavras e significados: Não há uma correspondência exata entre palavras e conceitos; há pelo menos dois conceitos que se apresentam quando vemos a palavra volume. Não somente as palavras estimulam diferentes conceitos para indivíduos diferentes, como, para o mesmo indivíduo, de acordo com as circunstâncias. Uma das razões para os diferentes significados que diferentes palavras têm, para diferentes pessoas, é que há duas espécies de significado: denotação e conotação. Denotação de uma palavra é a coisa que ela representa ou a que se refere. Apontando para um gato, eu posso dizer: “Isto é um gato”. Já a conotação de uma palavra é altamente individual e pessoal. Se eu gosto de gatos, minha conotação de “gato” inclui a noção de amizade, calor, etc. Se não, inclui mau cheiro e grito à noite. Tipos de relações entre conceitos (estabelece a sintaxe, abordada no item 3.3.4.2) a) Relação de eqüivalência • Sinônimos: Meio ambiente X Ecologia • Quase sinônimos: Datiloscopia X Impressão Digital • Grafias diferentes: Contato X Contacto • Abreviaturas e Acrônimos: ONU X Organização das Nações Unidas • Traduções: Recall X Revocação b) Relação hierárquica • Gênero/espécie Quase genérica: (Gato X Animal de estimação) Verdadeiramente genérica: (Gato X Mamífero) • Todo/parte (Sistema respiratório X Pulmão) c) Relação associativa (afinidade ou de coordenação) • Coordenação: Terra X Marte • Genética: Pais X Filhos • Instrumental: Escrita X Lápis • Concorrente: Ensino X Aprendizagem • Material: Livro X Papel
  • 9. 9 • Similaridade de processo: Catalogação X Classificação Duas variáveis interferem na escolha de conceitos: a exaustividade e a especificidade. Ambas dependem da política de indexação adotada no SRI, que deve seguir critérios pré- estabelecidos, tendo em vista os objetivos do sistema, os recursos disponíveis e o tipo de usuário. A exaustividade relaciona-se à capacidade do sistema de indexar o documento em profundidade, ou seja, além do assunto principal, são indexados também os assuntos secundários. A especificidade é a capacidade do sistema de nos permitir ser precisos ao especificarmos o assunto de um documento. Os s fatores de especificidade e exaustividade têm influência em todo o processo de recuperação da informação, havendo ligação desses com as medidas de revocação e precisão. (conceitos abordados no item 2.2.2) A análise conceitual tem, como produto, um assunto, que representa o conteúdo informacional de um texto. A noção de assunto de um texto é indeterminada, pois há casos em que é impossível, em princípio, decidir qual de duas diferentes e igualmente precisas descrições, é a descrição do assunto, ou se o texto tem dois assuntos ao invés de um. Tipos de assuntos: São identificados três tipos de assuntos: assunto simples (formado por um único conceito). Ex: Indexação; assunto composto (formado por mais de um conceito pertencentes a uma mesma área do conhecimento) Ex: Indexação de materiais especiais (são dois conceitos da Biblioteconomia); e assunto complexo (formado por conceitos de áreas diferentes) Ex: A arte como terapia para idosos (conceitos da Arte e da Psicologia). A atividade de identificar a(s) idéia(s) principal(ais) do texto exige a capacidade de compreensão de seu conteúdo, o que está ligado a processos cognitivos. Na determinação do assunto, é preciso que se verifique o contexto no qual o documento é produzido e para o qual ele existe, em determinado momento. Conceito, assunto e contexto são aspectos interdependentes que ocorrem durante todo o processo de análise de assunto, até o momento de se afirmar sobre o que trata o documento, próxima fase.
  • 10. 1 3.1.3 Determinação da atinência Terminada a fase de extração de conceitos, é necessário que se faça uma seleção daqueles que realmente sintetizem o assunto do texto, partindo-se, assim, para a terceira fase do processo de análise de assunto, que é a determinação da chamada atinência, termo traduzido do inglês aboutness.(outras traduções: concernência, sobrecidade, temacidade) Nesta fase da determinação da atinência para representar os conceitos extraídos do texto, inicia-se um processo lingüístico e o problema de descrever documentos para recuperação é, principalmente, o problema de como a linguagem é usada. Há uma forte relação entre a atinência do documento e seu(s) significado(s) identificado(s) pelos indivíduos. Um texto tem uma atinência relativamente permanente, mas um número variado de significados. O produto final da atinência é uma frase de indexação, elaborada pelo indexador em linguagem natural. Após todo o processo intelectual de leitura do texto, de extração e seleção de conceitos, é o momento em que ele afirma: Este documento trata de.......... Das etapas de indexação, a análise de assunto é a que sofre mais influência da subjetividade do indexador, sendo, por isso, considerada muito complexa. Por todos os aspectos considerados neste item, pode-se concluir que essa não é uma atividade possível de ser ensinada, não havendo uma receita, ou uma rotina a ser seguida no desenvolvimento da mesma. Tentativas de automatizar a análise de assunto já vêm sendo implementadas em pesquisas de cursos de pós-graduação, mas pode-se verificar que, por enquanto, o limite da máquina ainda é a capacidade humana de percepção e abstração. 3.2 Tradução da frase de indexação para linguagens de indexação Quando termina a primeira etapa da indexação, com o(s) assunto(s) já definidos em linguagem natural, chega o momento de inseri-lo(s) no SRI. Para isso, é feita a tradução da frase de indexação para os termos da linguagem de indexação, o que significa transformar os conceitos selecionados em termos ou símbolos autorizados para representá-los no sistema.
  • 11. 1 Quando indexamos um documento por assunto, nós o colocamos em uma ou mais classes, e cada classe deve ter um número ou rótulo, que são chamados termos indexadores. O conjunto desses forma a linguagem de indexação. Há dois métodos fundamentais de indexar o assunto de documentos: a) Indexação por palavras – utiliza termos empregados pelo autor na apresentação das suas idéias, isto é, as palavras encontradas nos títulos ou nos textos dos documentos Ex: A palavra mandioca traduz uma determinada idéia, um dado conceito, que também pode ser expresso pelas palavras aipim, macaxera. Uma indexação por palavras registrará os documentos pelos termos utilizados pelos autores, ou seja, na linguagem natural. O sistema indexará um documento sobre mandioca e outro sobre aipim ( linguagem natural). Um exemplo típico de indexação por palavra é o índice KWIC (Key Word in the Context), que utiliza títulos dos documentos. O que acontece na recuperação de um documento cujo título é “Feijão, angu e couve”? A recuperação só pode ser feita através dessas palavras, mas o assunto do documento é “Costumes mineiros”. O que acontecerá com a recuperação deste documento? b) Indexação por conceitos – a indexação por conceitos pressupõe a análise de assunto do documento, a decisão sobre conceitos presentes no texto e a tradução destes em linguagem apropriada. Na indexação por conceitos, determinam-se os cabeçalhos a empregar, distinguem-se homônimos, controlam-se sinônimos, prevêem-se relações de eqüivalência, hierárquica e associativa. É importante ressaltar que o indexador deve estar familiarizado com a linguagem utilizada no SRI, embora esta linguagem não deva influenciar a análise de assunto dos documentos. 3.3 Linguagens de indexação A linguagem de indexação é aquela cujo objetivo é representar o contéudo temático dos documentos. Alguns sistemas utilizam a linguagem natural (escrita e falada, pouco usada por apresentar grande inconsistência) como linguagem de indexação e, nesses casos, adotam como termos indexadores os termos na forma como aparecem nos documentos, sem modificações. Isso traz alguns problemas, como diferentes autores usando palavras diversas para expressarem o mesmo conceito (dispersão terminológica) ou o caso do uso de diferentes estruturas para expressarem a mesma idéia (dispersão sintática).
  • 12. 1 No entanto, comumente, são utilizadas linguagens artificiais. Essas refletirão um vocabulário controlado, para o qual foram tomadas decisões cuidadosas sobre os termos a serem usados, o significado de cada um, e os relacionamentos que apresentam. Uma linguagem de indexação deve procurar indicar os relacionamentos entre os termos no seu vocabulário. Por exemplo, se um sistema inclui os termos ENSINO MÉDIO e ESCOLAS PROFISSIONALIZANTES, pode-se indicar a relação entre esses dois termos, pois um usuário, procurando informação sobre ensino médio, poderá encontrar documentos relevantes sob o termo escolas profissionalizantes que, usualmente, se ocupam também do ensino médio. Uma linguagem de indexação que tem um vocabulário controlado e que tenta indicar as relações entre os termos no seu vocabulário é chamada estruturada. 3.3.1 Objetivos: - possibilitar que o indexador represente os assuntos dos documentos de forma consistente; - compatibilizar o vocabulário usado pelo usuário com o vocabulário usado pelo indexador; - permitir ao usuário moldar a estratégia de busca de forma a obter alta revocação ou alta precisão, conforme o exigirem as circunstâncias. 3.3.2 Funções das linguagens de indexação: - substituir a grande variedade de expressões da linguagem natural por uma linguagem formal; - estabelecer um ponto comum entre linguagem do autor, linguagem do indexador e linguagem do usuário; - estabelecer um vocabulário que mostre as relações entre termos e conceitos: relações semânticas (equivalência, hierarquia e associativa) e relações sintáticas (coordenação de dois ou mais elementos para formar assuntos compostos) - economizar espaço de arquivo;
  • 13. 1 - ajudar na recuperação de conceitos específicos. 3.3.3 Construção de linguagens de indexação A geração de um vocabulário controlado não é uma tarefa simples, e têm-se verificado várias iniciativas nesse sentido, pela necessidade de se tratarem, cada vez mais, de assuntos complexos que exigem uma análise mais aprofundada e com alto grau de especificidade. Alguns aspectos são levantados para a criação das linguagens controladas, como: gerar um vocabulário com base nos termos de indexação de um conjunto de documentos; modificar um vocabulário já existente ou extrair o vocabulário de outro já existente; reunir termos de diferentes fontes: especialistas da área, dicionários, glossários, índices, etc. Um vocabulário controlado deve ser capaz de representar conceitos que realmente ocorrem na literatura do assunto. Este é o princípio da garantia literária. É importante ressaltar, ainda, dois pontos que não podem ser ignorados na construção de uma linguagem, como as questões formuladas pelos usuários, que devem ser levadas em consideração na definição dos termos da linguagem, pois refletem suas necessidades de informação, e a consulta a especialistas da área especializada da linguagem. Depois do levantamento dos termos, parte-se para o estabelecimento das relações entre os conceitos, podendo-se utilizar, para isso, a análise facetada, que consiste na divisão do assunto em facetas (categorias de assuntos). Passa-se a optar pelo melhor termo para representar um conceito (geral ou específico), e estabelecer as hierarquias necessárias. 3.3.4 Componentes da linguagem de indexação: As linguagens de indexação são formadas por dois componentes básicos: vocabulário e sintaxe. 3.3.4.1 Vocabulário é o conjunto de termos de indexação utilizáveis para representar o conteúdo temático dos documentos, que podem ser cabeçalhos de assuntos (listas de cabeçalhos de assunto), descritores (tesauros) ou símbolos de classificação (sistemas de classificação bibliográfica). O vocabulário é sempre menor do que os vocabulários dos usuários, dos documentos indexados e do próprio indexador, por causa do controle do vocabulário. Diante disso, é necessário fornecer, além do vocabulário de indexação (termos
  • 14. 1 usados no índice), um vocabulário de abordagem, que consiste de termos que não são usados no sistema para representar os conceitos, mas que podem ser usados pelos autores dos textos, pelos indexadores, e pelos usuários ao consultar o índice. Por exemplo, o vocabulário do sistema usa o termo TESTE DE INTELIGÊNCIA. Porém, o assunto pode ser procurado por: TESTES MENTAIS – termo sinônimo TESTES PSICOLÓGICOS – termo mais geral (abrangente) TESDE DE APTIDÃO – termo mais especifico DESENVOLVIMENTO MENTAL – termo relacionado Estes termos constituem o vocabulário de abordagem. 3.3.4.2 Sintaxe é o conjunto de artifícios empregados para revelar as relações entre os conceitos e as regras para estabelecer os descritores e determinar a ordem em que devem ser citados. Ocorrem da necessidade de se poder recuperar a interseção entre duas ou mais classes de conceitos, e o reconhecimento das relações entre os conceitos (item 3.1.2) é produto de uma análise de assunto cuidadosa, que é básica para todas as linguagens de indexação estruturadas. São evidenciadas, as relações semânticas (ou de significado) e as relações sintáticas que existem entre os termos indexadores. As relações semânticas devem ser controladas ou mostradas nas linguagens de indexação com o objetivo de se indicarem os termos alternativos ou substitutivos de indexação e busca. As relações semânticas podem ser de 3 tipos : equivalência, hierárquicas e associativas. Dependendo da estrutura da linguagem de indexação (verbal ou simbólica), o estabelecimento das relações semânticas pode ser mais complexo ou mais simples, utilizadas em tesauros e listas de cabeçalhos de assuntos) • Relações de equivalência (ver, see, use, x) UP (usado para = Used For - UF) • Relações hierárquicas - TG (Termo Geral = Broader Term - BT), TE(Termo Específico = Narrowed Term - NT). • Relações associativas (ver também, see also, xx) TR (Termo Relacionado = Related Term - RT)
  • 15. 1 As relações sintáticas entre os termos de uma linguagem de indexação originam-se da necessidade de se poder recuperar a interseção entre duas ou mais classes de conceitos distintos. Ex. pode existir interesse pelo assunto “fundição do alumínio” e não por “fundição” e “alumínio”. Essas relações constituem-se da associação de termos para representar assuntos compostos. São temporárias, ao contrário das relações semânticas, que são permanentes. As linguagens controladas são mais eficientes no SRI, embora apresentem maior dificuldade para o usuário. Quanto maior a diferença entre a linguagem natural e a linguagem controlada, maiores as dificuldades dos usuários no momento da busca. O vocabulário de uma linguagem de indexação pode ser verbal ou simbólico (codificado), que constituem as linguagens verbais e as linguagens simbólicas. 3.3.5 Linguagens verbais Nas linguagens verbais, os assuntos são representados por palavras, como por exemplo, um documento que trate da História da França, será representado por FRANÇA – História. São linguagens verbais as listas de cabeçalhos de assunto, os tesauros. As LCA são arranjadas em ordem alfabética de cabeçalhos de assunto, e têm abrangência geral de todas as áreas do conhecimento. Apresentam pouca flexibilidade, pois são pré- coordenadas (ver item 3.3.7), havendo o estabelecimento de uma ordem de citação entre os termos. Os tesauros, por sua vez, são especializados numa determinada área do conhecimento, e mais flexíveis, apresentando uma ordem alfabética e sistemática entre os termos de assuntos, chamados descritores. Utiliza termos simples, não havendo ordem de citação entre os termos, constituindo uma linguagem pós-coordenada. (ver item 3.3.8) 3.3.6 Linguagens simbólicas Nas linguagens simbólicas, os assuntos são representados por códigos ou símbolos, na forma da notação de um sistema de classificação bibliográfica. Assim, o exemplo de História da França, o assunto será representado por 944 (CDD)
  • 16. 1 Uma das linguagens simbólicas mais usadas em bibliotecas é a classificação bibliográfica. Um mapa completo de qualquer área do conhecimento, mostrando todos os seus conceitos e suas relações é chamado de tabela, esquema ou sistema de classificação. 3.3.6.1 Sistemas de classificação Se dividem em: a) de acordo com a apresentação dos assuntos: enumerativos - procuram indicar todos os assuntos e todas as combinações possíveis entre eles e apresentar os símbolos que os representam prontos para ser usados. Ex: .Classificação Decimal de Dewey (CDD); e os analítico-sintéticos – ou facetados - apresentam listas de assuntos – facetas – acompanhados de símbolos e deixam ao classificador a tarefa de combinar os símbolos para apresentar os assuntos compostos. Ex: Colon Classification (Classificação de Dois Pontos) e Bliss Classification. b) de acordo com a abrangência: gerais – todas as classes do conhecimento. Ex: Dewey, CDU, Colon, LC; e especiais - classes especiais de assunto – Ex: Coates (Música) Elementos de um sistema de classificação: 1) Apresentação ou introdução – Origem e evolução do sistema. Atualização. Ordem de citação. Ordem de arquivamento. Instruções para a construção de números de classificação. 2) Tabelas Auxiliares, classe geral, assuntos 3) Notação 4) Índice alfabético 3.3.6.2 Como classificar Ranganathan enfatizou que há três estágios diferentes na indexação, e denominou-os de Plano Idéia (análise de assunto em nossas próprias palavras; decisão sobre a classe principal apropriada; decisão sobre a ordem de citação para a classe; re-arranjo da análise de assunto na ordem apropriada), Plano Verbal (exame do índice e das tabelas do esquema
  • 17. 1 para encontrar os conceitos necessários) e Plano Notacional (construção da notação para os conceitos, de acordo com as regras estabelecidas). Em todo SRI, é necessário o controle de terminologia para assegurar a coincidência das perguntas e respostas, fazendo com que determinado assunto pesquisado seja recuperado. Este controle pode ser feito através de coordenação de conceitos no ato da indexação ou no momento da recuperação. São as chamadas linguagens pré e pós coordenadas. 3.3.7 Linguagens pré-coordenadas Os sistemas pré-coordenados estabelecem a coordenação dos vários tópicos referentes a um assunto composto no momento da indexação, e, com grande subjetividade, determinam uma prioridade na citação desses elementos. Essa ordem é determinada a partir da importância que os conceitos representam para os usuários. 3.3.7.1 Características da pré-coordenação: - subjetividade (conceitos compostos); - entradas múltiplas (remissivas + referências); - autonomia do indexador; - fáceis de serem usadas. - 3.3.7.2 Vantagens: - um único lugar para um assunto composto: prover apenas um lugar inequívoco para qualquer assunto composto; - personalização da busca: fazer com que os usuários possam familiarizar-se com o sistema e, com o tempo, passem a formular questões de acordo com a linguagem do sistema; - limitação do tamanho: a entrada única ajuda a evitar o crescimento desmesurado do catálogo, tornando mais simples o seu uso e menos dispendiosa a sua manutenção;
  • 18. 1 - flexibilidade na estratégia de busca: podem ocorrer mudanças na estratégia da pesquisa, podendo seguir um assunto mais restrito, mais genérico ou correlato, sem ter que se começar pela estaca zero; - busca seqüencial manual rápida: as linguagens pré-coordenadas funcionam melhor nesses sistemas tradicionais de registro de documentos. Elas geram arquivos maiores, mas a busca manual, quando realizada seqüencialmente, é mais rápida. - evita falsas associações e relações incorretas; - é mais precisa. 3.3.7.3 Desvantagens: - dificuldade na representação dos diferentes sentidos do termo, e das relações entre os termos; - ordem fixa: os termos somente podem ser listados numa determinada seqüência; - pouca flexibilidade na busca: é quase impossível fazer a combinação entre os termos no momento da busca; - tamanho e custo: o uso da “entrada múltipla” encarece o sistema e aumenta o tamanho do índice Exemplos de linguagens pré-coordenadas: listas de cabeçalhos de assunto (Library of Congress, Rovira, Wanda Ferraz), os índices permutados, os índices em cadeia e as classificações bibliográficas. (Classificação Decimal de Dewey, Classificação Decimal Universal). 3.3.7.4 Ordem de citação O problema das linguagens pré-coordenadas é a necessidade de se estabelecer uma ordem de prioridade para os diversos conceitos. É a chamada ordem de citação, a ser determinada a partir da importância que os conceitos têm para os usuários e, nesse caso, somente o
  • 19. 1 primeiro elemento citado é recuperado, ficando os outros ocultos. Existem algumas regras básicas tentando estabelecer a ordem de citação dos assuntos complexos, como: - o assunto antes da forma bibliográfica : Geologia – Enciclopédia - o assunto antes do lugar (com a preposição em): A fome no Brasil, Fome-Brasil - o assunto depois do lugar (com a preposição de): Montanhas do Brasil, seria Brasil- Montanhas - todo-parte: Índices de Periódicos, seria Periódicos - Índices Opções de ordem de citação são dadas por teóricos da área, como Kaiser (1911) – “o concreto, depois o processo” – Indexação de livros, seria Livros - Indexação; por Coates (1960) – Coisa – Parte – Material – Ação. Uma das opções, é a utilização das Cinco Categorias Fundamentais, estabelecidas por Ranganathan: PMEST - Personalidade (núcleo do assunto), Matéria, Energia (processo), Espaço e Tempo) Ex: Plantação de soja no Paraná em 2003 A ordem dos termos será: SOJA-Plantação-Paraná-2003 Como se pode verificar, apenas o termo soja poderá ser recuperado na ordem alfabética. Uma solução para isso, é a adoção de “entradas múltiplas”, ou a utilização de uma “rede sindética” (uso de remissivas e referências) bem elaborada. 3.3.8 Linguagens pós-coordenadas Os sistemas pós-coordenados adotam conceitos simples usados na indexação, que são combinados pelo usuário no momento da busca. Os termos são combinados de qualquer maneira, conforme a necessidade mais geral ou mais específica do usuário. Os sistemas mais modernos de recuperação da informação, principalmente os sistemas automatizados, passaram a usar as linguagens pós-coordenadas. Neste tipo de sistema, não existe a preocupação com a importância dos elementos de um assunto composto, e, consequentemente, com a ordem de citação desses elementos (ordem de prioridade definida nas linguagens pré-coordenadas).
  • 20. 2 Uma linguagem pós-coordenada consiste de entradas que normalmente são conceitos únicos, podendo-se dar a entrada de todos os termos no sistema, sem a necessidade de decisões a respeito da prioridade dos itens. Cria-se uma entrada única para cada assunto considerado relevante. Como recurso que auxilia a busca em sistemas pós-coordenados e automatizados, é utilizada a lógica booleana, com os elementos and, or, nor. 3.3.8.1 Características da pós-coordenação: - conceitos únicos: são indexados os conceitos simples; - comparação das entradas de assunto: permite determinar coincidências que revelam documentos pertinentes ao assunto pesquisado; - objetividade: dá-se a entrada a todos os termos relevantes, sem a necessidade de decisões a respeito dos itens; - flexibilidade na busca: os termos podem ser combinados entre si, de qualquer forma, no momento da busca; - pesos iguais para os termos: todo termo atribuído a um documento tem peso igual, nenhum sendo mais importante que o outro. 3.3.8.2 Vantagens: - independência da ordem de citação; - permissão de uma maior revocação; - mais eficiência, melhorando a qualidade e diminuindo o custo nas buscas automatizadas. 3.3.8.3 Desvantagens: - eficiência ligada à automação: as linguagens de indexação pós-coordenadas são consideradas mais eficientes apenas quando usadas em sistemas automatizados; - combinação dos termos somente na saída, podendo-se obter associações falsas e incorretas;
  • 21. 2 - oferecimento de baixa precisão. Exemplos de linguagens pós-coordenadas: Tesauros (descritores), o Sistema Unitermo 3.3.9 Avaliação das linguagens de indexação A escolha de uma determinada linguagem de indexação para um SRI é uma tarefa complexa e que exige muito conhecimento da área do conhecimento em que o sistema está inserido, os objetivos da instituição à qual está subordinado e, principalmente, os interesses dos usuários da informação. Alguns aspectos gerais devem ser observados para avaliação das LI pelo indexador: - qualquer LI deve estar permanentemente sendo avaliada (em comparação com a evolução da área e a conseqüente mutação do vocabulário, tanto dos autores como dos leitores) e atualizada (eliminação de termos obsoletos e introdução de termos novos). - A criação de uma linguagem de indexação nova é um processo lento, caro e que exige recursos humanos qualitativa e quantitativamente preparados e disponíveis para isso, , e a adaptação de uma linguagem já existente pode ser racional, eficiente e mais barata; - Se a biblioteca ou centro de informação participar de uma rede ou de um sistema cooperativo, as decisões devem ser comuns, e apresentadas ao sistema para que possam ser incorporadas por todos os membros participantes. - Se a instituição é isolada, a possibilidade de soluções individuais que melhor se adaptem ao SRI são maiores, devendo-se considerar as características da biblioteca. - Caso sejam detectadas falhas na recuperação da informação, deve-se pesquisar as causas: Problemas na análise de assunto? Inadequações do vocabulário controlado? Falta de treinamento do usuário? Falta de remissivas e referências? - Qual a providência tomar no caso de não existirem, na LI adotada no sistema, conceitos que não estão representados? Em alguns sistemas, a admissão de novos termos é aceita mas, em outros casos, o indexador deverá usar descritores mais genéricos. Nesse contexto, surgem dois conceitos que possibilitam também a avaliação de uma LI: a revocação e a precisão. Revocação é o coeficiente entre o número de documentos inseridos
  • 22. 2 no sistema versus o número de documentos relevantes recuperados pelo usuário, e a precisão é o coeficiente entre o número de documentos inseridos no sistema e a precisão da busca. Ex. Para a busca de documentos sobre Escultura, se o termo de busca for Artes, haverá alta revocação e baixa precisão, pois serão recuperados documentos que falam de escultura, mas não só sobre este assunto. Ao passo que, se a busca for feita pelo próprio termo Escultura, a revocação será baixa e haverá uma alta precisão, pois só serão recuperados documentos sobre Escultura. Pesquisas mostram que um maior grau de especificidade eleva a taxa de precisão e baixa a de revocação; ao contrário, um aumento de exaustividade, eleva a taxa de revocação, baixando a de precisão. 3.4 Consistência da indexação Um aspecto importante a ser considerado é a consistência da indexação, que também será muito afetada pela qualidade da linguagem adotada. O estabelecimento da linguagem de indexação deverá ser feito tendo em vista a sua adequação ao sistema a que irá servir. Um fator importante é a qualidade de atualização dessas linguagens, com a inclusão dos novos termos que surgem nos diversos campos das ciências, adequando-se as linguagens controladas às terminologias dessas áreas. A consistência da indexação está ligada a dois elementos básicos: ao desempenho do indexador e à qualidade dos instrumentos de indexação. É importante que essa consistência seja regular, considerando-se o fator tempo na operação de um determinado sistema, sendo necessário ao indexador um alto grau de imparcialidade e uma submissão às diretrizes da indexação adotadas pelo sistema. Deve-se procurar controlar a subjetividade, inerente a qualquer trabalho humano, e presente na atividade de indexação. A consistência é difícil de ser obtida quando é grande o grupo de indexadores, ou quando trabalham em diferentes locais. Nesses casos, é aconselhável que se estabeleça um grupo de controle centralizado para a verificação das indexações feitas. Para se obter consistência na indexação é preciso, ainda, que se tenha bem estabelecida uma política de indexação, que siga critérios como nº de termos indexadores para cada documento (exaustividade), uso de singular ou plural, uso de siglas, termos em inglês e rede sindética.
  • 23. 2 3.5 Indexação automática versus automatizada Para a eficácia do controle e da organização das informações contidas em documentos, na atualidade, torna-se imprescindível a automação de várias atividades desenvolvidas em bibliotecas e centros de informação, e a adoção de tecnologias da informação já é uma realidade na maioria desses. A indexação de documentos é uma das atividades em que se tem investido muitos recursos, visando aumentar a rapidez e a precisão na recuperação de informações relevantes para os usuários. Há uma controvérsia quanto ao uso das terminologias indexação automática e automatizada, podendo-se sintetizar que, na primeira, o trabalho desenvolvido para indexar assuntos é totalmente feito pelo computador, como indexação por palavras (KWIC), pela freqüência com que as palavras aparecem no texto, entre outros. Já na indexação automatizada, a primeira etapa de extrair o conteúdo do documento (análise de assunto) é feita por um indexador humano, que após seu trabalho intelectual, insere os termos numa base de dados automatizada. No entanto, não há um consenso quanto a essa diferença apresentada, podendo-se verificar os dois termos usados, também, como sinônimos. Para finalizar, levanta-se uma questão para reflexão dos bibliotecários: até que ponto pode- se delegar à máquina a tarefa de indexação? Onde poderia se apontar um limite para as atividades desenvolvidas pela máquina? Seria, essa, já programada para exercer atividades mentais como abstrair, interpretar, compreender e perceber, características inerentes ao ser humano? REFERÊNCIAS BEGHTOL, Clare. Bibliographic classification theory and text linguistics: aboutness, intertextuality and the cognitive act of classifying documents. Journal of Documentatin, v.42, n.2, p.84-113, Jun.1986. CESARINO, Maria Augusta N., PINTO, Maria Cristina M.F. Análise de assunto. Revista de Biblioteconomia de Brasília, v.8, n.11, p.33-43, 1980.
  • 24. 2 DAHLBERG, Ingetraut. Teoria do conceito. Ciência da Informação, v.7, n.2, p.101-107, 1978. FOSKETT, A C. The subject approach to information. 5.ed. London: C.Bingley, 1996. FROHMANN, B. Rules of indexing: a critique of mentalism in information retrieval theory. Journal of Documentation, v.46, n.2, p.81-101, Jun.1990. LANCASTER, F.W. Indexação e resumos: teoria e prática. Brasília: Briquet de Lemos/Livros, 1993 NAVES, Madalena M. L. Fatores interferentes no processo de análise de assunto: estudo de caso de indexadores. Belo Horizonte: ECI/UFMG, 2000. (Tese, doutorado em Ciência da Informação) PINTO MOLINA, Maria. Interdisciplinarly approaches to the concept and practice of Written Documentary Content Analysis (WTDCA). Journal of Documentation, v.50, n.2, p.111-1333, Jun.1994. RAMSDEN, M.J.An introduction to index language construction: a programmed text. London: C.Bingley, 1974. (Trad. e adap. de Maria Cristina M.F.Pinto)