1. Lingüística de Corpus
Julio Bernal
Alejandro Correa
Carlos Rodríguez
Daniel Moreno
Ruth Rubio
Diana Hincapié
Instituto Caro y Cuervo
Febrero de 2014
2. Presentación
• La lingüística de Corpus se encarga de analizar y
sistematizar conjuntos extensos y ordenados de datos
de una lengua producidos de manera oral, escrita, y
audiovisual. Estos datos son almacenados de forma
electrónica y sistematizados desde criterios lingüísticos,
literarios, culturales y sociales con el fin de que puedan
servir como base de investigaciones desde diferentes
ciencias o disciplinas.
3. Presentación
●
● La lingüística computacional se encarga del estudio,
diseño y elaboración de modelos computacionales
capaces de simular las habilidades lingüísticas del ser
humano. Se relaciona con el uso de herramientas
informáticas tanto para realizar diversas tareas en
lenguas naturales como para el manejo,
procesamiento, análisis y búsqueda de datos en
investigación.
4. Justificación
La aplicación de procedimientos computacionales
en la investigación lingüística se ha convertido en un
requisito para procesar señales, cuantificar datos y
verificar hipótesis en las diferentes disciplinas i.e.
fonética, lexicografía, morfosintaxis, sociolingüística,
psicolingüística, etc.
Esta tendencia se debe al éxito del razonamiento
inductivo, al análisis de grandes corpus y al
desarrollo de software especializado de libre uso.
5. Objetivo General
Seleccionar, organizar y almacenar en forma
electrónica corpus de diferentes fuentes y registros
(oral, escrito y audiovisual), a partir de bases de datos
de las lenguas de Colombia, desde criterios
lingüísticos, literarios, culturales y sociales.
6. Objetivos Específicos
● Elaborar manuales que describan el uso de programas
necesarios para procesar, transcribir, etiquetar, cuantificar
y analizar datos lingüísticos.
● Escribir un libro con los estados del arte de la Lingüística de
Corpus y la Lingüística Computacional.
● Escribir un libro sobre diccionarios electrónicos
especializados, basados en la experiencia del DIACME
(Diccionario Académico de Medicina).
● Escribir protocolos que orienten la elección, el uso y la
proyección de herramientas computacionales para
elaboración de corpus y la descripción y análisis de
material lingüístico.
7. Objetivos Específicos
● Elaborar recursos para el uso de herramientas
computacionales y el trabajo con corpus, sistematizados en
la web.
● Generar y fortalecer redes académicas en torno a la
Lingüística de corpus.
● Realizar la rehabilitación y modernización del laboratorio
de fonética del Instituto Caro y Cuervo.
● Escribir manuales (texto y video) en los que se describa el
uso pormenorizado de software para la investigación
lingüística.
8. Estrategia Académica Transversal
El grupo de investigación de lingüística de corpus del
Instituto Caro y Cuervo plantea un proyecto académico
actual y transversal, en la medida en que diferentes
investigaciones del ICC requieren de sistemas de
recolección, almacenamiento, sistematización,
descripción y/o análisis de diferentes bases de datos del
español de Colombia.