1. Los corpus electrónicos
• Paloma Ibis Sorribes Miñana
• Curso: 2º Traducción y Comunicación
Intercultural
• Asignatura: Traducción asistida por ordenador
• Profesor/a: Gisela Abad
2. 1. ¿Qué son?
• Un corpus lingüístico es una colección más o menos extensa de textos o de
fragmentos de ellos en soporte electrónico.
• Su principal característica es la representatividad del estado o sector de la
lengua seleccionado.
• Su objetivo es constituirse en elementos de referencia para el estudio de
una frase concreta o un cierto aspecto de una lengua (p.e.: los corpus
textuales que facilitan el estudio del español en los dialectos
latinoamericanos).
3. 2. Tipos de corpus
En general, los principales parámetros para clasificar los corpus se centran en:
• La modalidad de la lengua: corpus orales, corpus textuales o corpus mixtos.
• El número de lenguas a que pertenecen los textos: monolingües, bilingües o multilingües.
• El tamaño o cantidad de textos que conforman el corpus: corpus grandes, equilibrados y
piramidales.
• Los límites del corpus : corpus cerrados o abiertos (también llamados corpus monitor).
• La variedad lingüística o el grado de especialización de los textos:
Generales o especializados.
Genéricos o canónicos.
• El período temporal que abarcan los textos:
Periódicos o cronológicos.
Diacrónicos o históricos (a través del tiempo), diferenciándose de los sincrónicos (presente).
• El tratamiento aplicado al corpus:
Corpus simples.
Corpus verticales.
Corpus simplificados o anotados.
De todos modos, debido al límite de tiempo, en esta exposición se va a tratar solamente tres tipos de
corpus muy diferenciados entre sí según la modalidad utilizada (es decir, el primer criterio de
clasificación de la lista).
4. 3. Los corpus orales
• Sirven para el estudio de una lengua desde un
determinado aspecto (p.e., los dialectos).
• Únicamente recogen muestras de lengua hablada.
• El objetivo no es tanto el análisis de las características
de tipo fonético, sino la obtención de una
transcripción ortográfica de la lengua hablada.
5. Algunos corpus orales
• ACUAH: Análisis de la conversación de la Universidad de Alcalá de Henares. Cedido por
la Universidad de Alcalá de Henares, Madrid.
• ALFAL: Macrocorpus de la Norma Lingüística Culta de las Principales Ciudades del
Mundo Hispánico. Cedido por la Asociación de Lingüística y Filología de América Latina.
• The Bergen Corpus of London Teenage Language (COLT) es un corpus de medio millón
de palabras cuyo objetivo fundamental es dar cuenta del dialecto de los adolescentes
de Londres y, por tanto, servir como punto de referencia para estudios de índole
lingüística.
• Corpus Oral de Lenguaje Adolescente (COLA): características similares al COLT.
• Corpus de Conversación Coloquial: también similar al COLT.
• Grabaciones orales.
6. 4. Los corpus textuales
• Conjunto de datos, textos u otros materiales sobre
determinadas materias que pueden servir de base para una
investigación o trabajo. Están conformados exclusivamente
por muestras de lengua escrita.
• Son de gran ayuda para el uso de términos, lexicografía,
neologismos… en las traducciones.
• También se utilizan para otros fines, como la realización de
análisis estadísticos o la validación de reglas lingüísticas
dentro de un territorio específico de una lengua.
7. Algunos corpus textuales
• Thesaurus Linguae Graecae (sobre griego antiguo).
• Eastern Armenian National Corpus (EANC)
(110 millones palabras).
• National Corpus of Polish.
• German Reference Corpus (DeReKo) (más de 4 billones
de palabras de alemán contemporáneo).
• Corpus textual español (Molino de Ideas) (660 millones
de palabras).
• Turkish National Corpus [5]
8. 5. Los corpus mixtos
• Los corpus mixtos combinan ambas
modalidades de lengua, aunque siempre
favoreciendo la escrita, ya que su obtención es
menos costosa que la de la lengua oral.
9. Algunos corpus mixtos
• El Corpus de Referencia del Español Actual (CREA)
• El British National Corpus (BNC)
• Afasia: Corpus mixto de lenguaje conversacional
(libro), publicado por Carlos Hernández Sacristán,
Enrique Serra Alegre y Montserrat Veyrat Rigat.
10. Índice
• 1. ¿Qué son?
• 2. Tipos de corpus
• 3. Los corpus orales
• 4. Los corpus textuales
• 5. Los corpus mixtos
12. Observaciones
• Personalmente para mí, la búsqueda de información sobre los corpus ha
resultado ser una tarea nada fácil, ya que en la red no parece haber tanta
información concreta sobre ellos como debería –definiciones de los
mismos, objetivos, utilización–.
• Tampocohe podido disponer de mucha información en los libros, ya que
no disponía de obras escritas que hablaran sobre ellos al ser una
herramienta de reciente aparición.
• He hallado mucho ruido informativo en mi búsqueda en la red incluso con
la utilización constante de buscadores booleanos, lo cual no ha
contribuido tanto a la eficacia de mi búsqueda como yo hubiera deseado.