Este documento discute como a Linguística de Corpus e ferramentas como concordanciadores podem contribuir para a lexicografia bilíngue, especificamente no contexto do Dicionário Relacional português-francês (DIRE). O documento explica como corpora paralelos e análise de padrões lexicais, gramaticais e semânticos podem fornecer informações contextualizadas para verbetes.
Contribuição da Linguística de Corpus e suas ferramentas para Lexicografia bilíngue
1. A contribuição da Linguística de
Corpus e de suas ferramentas
para a Lexicografia bilíngue
Gisele Galafacci (bolsista Capes)
Orientadora: Profa. Dra. Adriana Zavaglia
2. Resumo
Na perspectiva de elaboração do Dicionário Relacional
(português-francês) – DIRE, a proposta deste trabalho consiste
em relatar aspectos relevantes da contribuição da Linguística de
Corpus e de suas ferramentas para a Lexicografia bilíngue.
O material de base do dicionário é composto de corpora
paralelos, ou seja, textos autênticos em língua portuguesa e suas
respectivas traduções em língua francesa, o que permite, do
ponto de vista da metodologia, detectar padrões lexicais
(fraseológicos e colocacionais), além de padrões gramaticais e de
prosódia semântica.
3. DIRE
Dicionário Relacional elaborado a partir de
corpora paralelos - formado por obras
originais em português e suas respectivas
traduções para o francês.
Sua nomenclatura trará marcas conhecidas
tradicionalmente como gramaticais.
5. Linguística de Corpus
“A Linguística de Corpus trabalha dentro de um quadro conceitual
formado por uma abordagem empirista e uma visão da linguagem
como sistema probabilístico; encaixa-se no que pode ser chamado
de Linguística Empírica. Na linguística, empírico significa primazia
aos dados provenientes da observação da linguagem, em geral
reunidos sob a forma de um corpus. Essa posição contrapõe-se a
uma visão racionalista da linguagem, segundo a qual, em linhas
gerais, o conhecimento provém de princípios, estabelecidos a priori.”
BERBER SARDINHA, T. Linguística de Corpus. Barueri, SP: Manole, 2004, p.30.
7. Importância do corpus como
fonte de informação
Ele registra a linguagem natural realmente utilizada por
falantes e escritores da língua em situações reais e, pelo
conhecimento da frequência atestada que permite
estimar a probabilidade teórica, é possível investigar a
frequência da ocorrência de traços lingüísticos (lexicais,
sintáticos, semânticos, discursivos).
BERBER SARDINHA, T. Linguística de Corpus. Barueri, SP: Manole, 2004, p.32.
8. Importância do corpus como
fonte de informação
O mais importante da diferença de frequência entre os traços é o fato de não
serem aleatórias, pois há um mapeamento regular entre a frequência maior ou
menor de um traço em um contexto de ocorrência, o que permite obter
informações das possibilidades estruturais.
Dizer que a variação não é aleatória é afirmar que a linguagem é padronizada.
A padronização se evidencia pela recorrência, isto é, uma colocação, coligação
ou estrutura que se repete significativamente mostra sinais de ser, na verdade,
um padrão lexical ou léxico-gramatical.
A linguagem forma padrões que apresentam regularidade (estáveis em
momentos distintos, isto é, têm frequência comparável em corpora distintos)
e variação sistemática (correlacionam-se com variedades textuais, genéricas,
dialetais, etc).
BERBER SARDINHA, T. Linguística de Corpus. Barueri, SP: Manole, 2004, p.31.
9. Padrões Lexicais
(fraseológicos e colocacionais)
Fraseologia: estudo das frases feitas, isto é, fossilizadas em
sua forma e seu sentido e usadas no discurso à maneira de
uma locução: a reunião de dois ou mais vocábulos que
constituem uma unidade de significação
Colocação: disposição dos vocábulos na frase que, ao mesmo
tempo em que é limitada por certos padrões sintáticos
impostos pela língua do indivíduo, também pressupõe alguma
liberdade
CAMARA JUNIOR, J.M. Dicionário de Linguística e Gramática:
referente à lingua portuguesa. 13ª ed. Petrópolis: Vozes, 1986.
10. Concordanciadores
No que concerne ao levantamento da frequência das lexias e suas respectivas traduções
no corpus, o trabalho começa a ser realizado com o auxílio do concordanciador, ou seja,
um programa de computador que constrói automaticamente uma concordância.
Na Linguística de Corpus, concordanciadores são utilizados para listar as ocorrências de
uma determinada palavra ou frase, a qual fica centralizada, com uma quantidade
definida de contextos, tanto à esquerda quanto à direita, fornecendo uma visualização
privilegiada do item. De forma geral, muitos concordanciadores, além de produzirem
concordâncias, também executam outras funções, como listar a freqüência de palavras
em um texto ou corpus, extrair palavras-chave e colocados.
WordSmithTools 6.0 AntConc 3.2
(gratuito)
15. Análise
Podemos observar alguns padrões lexicais (fraseológicos e colocacionais).
Exemplos:
o padrão colocacional do advérbio no passé composé
o padrão fraseológico “traços bem-feitos”, traduzido por “traits bien dessinés”
Mas não poderia ser traduzido por “traits bien faits”?
Foi uma opção do tradutor ou realmente se trata de um padrão fraseológico?
16. Dicionários bilíngues
traço nm trait, ligne; trace, vestige; trait, ligne du visage. (Michaelis, 1998)
traço nm trace; trait. (Signer, 1998)
traço. S.m. 1. Trait, ligne. 2. Trait, ligne du visage. 3. Trace, vestige.
(D’Olim Marote, 2004)
traço m trait m ; [vestígio] trace f. (Larousse, 2008)
22. Considerações Finais
Este trabalho procurou mostrar como a visão probabilística da Linguística de Corpus
pode contribuir para a produção de dicionários bilíngues com informações mais
detalhadas e contextualizadas das lexias de maneira a auxiliar, sobretudo, na expressão
em língua estrangeira e/ou na transposição de enunciados do português ao francês.
Welker , conforme cita Gomes (2006, p.112), acredita que o dicionário pode contribuir
para uma escolha acertada do consulente ao fornecer-lhe o maior número possível de
informações sobre cada equivalente, como informações relativas à regência, às
colocações e às marcas de uso, já que a produção de textos é bastante prejudicada pelo
fato destas informações serem insuficientes na maioria dos dicionários bilíngues.
GOMES, Denise Ferreira. O uso do dicionário bilíngue na produção escrita em alemão
como língua estrangeira. 2006. 137 f. Dissertação (Mestrado em Linguística Aplicada).
Universidade de Brasília, Brasília, 2006.
23. Referências
BERBER SARDINHA, T. Linguística de Corpus. Barueri, SP: Manole, 2004.
BUARQUE, Chico. Benjamin. São Paulo: Companhia das Letras, 1995.
______________. Court-Circuit. Traduit du portugais par Henri Raillard. Éditions
Gallimard, 1997.
CAMARA JUNIOR, J.M. Dicionário de Linguística e Gramática: referente à lingua
portuguesa. 13ª ed. Petrópolis: Vozes, 1986.
GOMES, Denise Ferreira. O uso do dicionário bilíngue na produção escrita em alemão
como língua estrangeira. 2006. 137 f. Dissertação (Mestrado em Linguística Aplicada).
Universidade de Brasília, Brasília, 2006.