Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Traducción automática de código abierto: una oportunidad para lenguas menores
1. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Oportunidades de la TA de código abierto
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Traducción automática de código abierto:
una oportunidad para lenguas menores
Mikel L. Forcada1,2
1 Departament de Llenguatges i Sistemes Informàtics, Universitat d’Alacant,
E-03071 Alacant
2 Prompsit Language Engineering, S.L., E-03690 St. Vicent del Raspeig (Spain)
CCDUTI – Alacant, 1 de febrero de 2007
Mikel L. Forcada TA de código abierto para lenguas menores
2. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Oportunidades de la TA de código abierto
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
c 2007 Universitat d’Alacant.
c 2007 Mikel L. Forcada
Este material puede ser distribuido, copiado y exhibido si el nombre
del autor se muestra en los créditos. No se puede obtener beneficio
comercial. Las obras derivadas deben distribuirse en los mismos
términos de licencia que los del trabajo original. Más detalles:
http://creativecommons.org/licenses/by-nc-sa/2.5/
deed.es. Se pueden pedir los fuentes LaTeX a Mikel L. Forcada
(mlf@ua.es).
Mikel L. Forcada TA de código abierto para lenguas menores
3. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Oportunidades de la TA de código abierto
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Índice
1 Conceptos
2 Efectos de la disponibilidad de TA sobre las lenguas
menores
3 Sistemas de TA comerciales y lenguas menores:
oportunidades limitadas
4 Oportunidades de la TA de código abierto
5 Retos
6 Ejemplo: Apertium y el aranés
7 Conclusiones tentativas
Mikel L. Forcada TA de código abierto para lenguas menores
4. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores
Oportunidades de la TA de código abierto Software libre o de código abierto
Retos Software de traducción automática
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Lenguas menores y pares de lenguas menores/1
¿Qué es una lengua menor ? Se usan muchas denominaciones
alternativas (en “orden de Google”):
minority languages (minoritarias)
lesser-used languages (menos usadas)
minor languages (menores)
small or smaller languages (pequeñas o más pequeñas)
lesser languages (menores)
under-resourced, resource-poor or less-resourced
languages (con pocos recursos)
etc.
Mikel L. Forcada TA de código abierto para lenguas menores
5. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores
Oportunidades de la TA de código abierto Software libre o de código abierto
Retos Software de traducción automática
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Lenguas menores y pares de lenguas menores/2
¿Que és una lengua menor?
Con un pequeño número de hablantes [alfabetizados].
Lejos de la normalidad (se usa más en casa que en la
escuela o en la administración, está socialmente
discriminada, reprimida políticamente, etc.).
Carente de un sistema estable de escritura, una ortografía
fija, o una variante estándar.
Con una presencia limitada en Internet.
Con escasez de lingüistas expertos en ella.
Con pocos recursos legibles por el ordenador:
diccionarios, corpus, etc.
Mikel L. Forcada TA de código abierto para lenguas menores
6. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores
Oportunidades de la TA de código abierto Software libre o de código abierto
Retos Software de traducción automática
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Lenguas menores y pares de lenguas menores/3
Los efectos de las tecnologías de traducción sobre una lengua
menor ocurren a través de pares de lenguas.
Por ejemplo:
las lenguas menores A y B son lenguas relacionadas (es
fácil construir programas para traducir entre ellas)
C es una lengua importante.
hay programas de traducción de C a A
Así, será más fácil tener programas de traducción de C a B
Mikel L. Forcada TA de código abierto para lenguas menores
7. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores
Oportunidades de la TA de código abierto Software libre o de código abierto
Retos Software de traducción automática
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Software libre o de código abierto
El software de código abierto se llama también software libre
por estas cuatro libertades:
0 “La libertad de usar el programa, con cualquier propósito.”
1 “La libertad de estudiar cómo funciona el programa, y
adaptarlo a tus necesidades.”
2 “La libertad de distribuir copias, con lo que puedes ayudar
a tu vecino.”
3 “La libertad de mejorar el programa y hacer públicas las
mejoras a los demás, de modo que toda la comunidad se
beneficie.”
Para que las condiciones 1 y 3 se cumplan, se debe tener
acceso al código fuente (tal como lo ha escrito el programador),
de ahí que también se hable de software de código abierto.
Mikel L. Forcada TA de código abierto para lenguas menores
8. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores
Oportunidades de la TA de código abierto Software libre o de código abierto
Retos Software de traducción automática
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Software de traducción automática/1
La traducción automática (TA) es especial: depende
fuertemente de la existencia de datos. Hay tres
componentes en cualquier sistema de TA:1
El motor o ingenio
Los datos lingüísticos
Las herramientas necesarias para mantener estos datos y
convertirlos al formato usado por el motor
1
TA “basada en reglas”; la TA “basada en corpus” tiene requisitos
análogos
Mikel L. Forcada TA de código abierto para lenguas menores
9. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores
Oportunidades de la TA de código abierto Software libre o de código abierto
Retos Software de traducción automática
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Software de TA/2 : TA comercial
Los sistemas comerciales usan tecnologías de propiedad
(proprietary) que no se revelan (se las percibe como una
ventaja competitiva fundamental)
Sólo se permite una modificación parcial (personalización)
de los datos lingüísticos
Mikel L. Forcada TA de código abierto para lenguas menores
10. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores
Oportunidades de la TA de código abierto Software libre o de código abierto
Retos Software de traducción automática
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Software de TA/3: TA de código abierto
Para que la TA sea de código abierto, tanto
el motor,
los datos
como las herramientas
deben ser de código abierto.
Mikel L. Forcada TA de código abierto para lenguas menores
11. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores
Oportunidades de la TA de código abierto Software libre o de código abierto
Retos Software de traducción automática
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Software de TA/4: TA que no es ni comercial ni de
código abierto
Pero hay más posibilidades:
Sistemas que pueden usarse libremente por Internet
(algunos ni siquiera se comercializan).
El motor y las herramientas pueden ser programas de
código cerrado bien documentados, y ser usados con
datos lingüísticos abiertos.
Mikel L. Forcada TA de código abierto para lenguas menores
12. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
Incrementar la “normalidad”
TA comercial: oportunidades limitadas
Mejorar los niveles de alfabetización
Oportunidades de la TA de código abierto
Efectos sobre la estandardización
Retos
Aumentar la “visibilidad”
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Efectos de la disponibilidad de TA sobre lenguas
menores
La disponibilidad de TA para una lengua menor puede
incrementar su “normalidad”
mejorar sus niveles de alfabetización
tener un efecto en su estandarización
aumentar su “visibilidad”
Mikel L. Forcada TA de código abierto para lenguas menores
13. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
Incrementar la “normalidad”
TA comercial: oportunidades limitadas
Mejorar los niveles de alfabetización
Oportunidades de la TA de código abierto
Efectos sobre la estandardización
Retos
Aumentar la “visibilidad”
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Incrementar la “normalidad”
La TA puede contribuir a la normalidad de una lengua menor:
traducción de materiales educativos de una lengua
importante a una menor
traducción de noticias de una lengua importante para
crear medios de comunicación en la lengua minoritaria
las leyes, normas e informaciones gubernamentales se
podrían traducir a la lengua menor más fácilmente
las empresas lo tendrían más fácil para sacar al mercado
nuevos productos en la lengua menor (“localización”)
[Aquí se asume que la postedición de la TA en bruto es factible]
Mikel L. Forcada TA de código abierto para lenguas menores
14. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
Incrementar la “normalidad”
TA comercial: oportunidades limitadas
Mejorar los niveles de alfabetización
Oportunidades de la TA de código abierto
Efectos sobre la estandardización
Retos
Aumentar la “visibilidad”
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Mejorar los niveles de alfabetización
La disponibilidad de texto en la lengua menor (obtenido a
través de traducción automática y su elaboración posterior)
puede motivar la alfabetización en la lengua minoritaria
Mikel L. Forcada TA de código abierto para lenguas menores
15. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
Incrementar la “normalidad”
TA comercial: oportunidades limitadas
Mejorar los niveles de alfabetización
Oportunidades de la TA de código abierto
Efectos sobre la estandardización
Retos
Aumentar la “visibilidad”
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Efectos sobre la estandardización
La existencia de un sistema de TA de éxito puede
promover
un sistema particular de escritura (p.e. alfabeto romano sin
diacríticos para el tamazight [= bereber])
una ortografía determinada (kreyòl asisyen [=criollo
haitiano])
un dialecto concreto como estándar (variante aranesa del
occitano)
si se genera tecnología lingüística para ellos.
Mikel L. Forcada TA de código abierto para lenguas menores
16. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
Incrementar la “normalidad”
TA comercial: oportunidades limitadas
Mejorar los niveles de alfabetización
Oportunidades de la TA de código abierto
Efectos sobre la estandardización
Retos
Aumentar la “visibilidad”
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Aumentar la “visibilidad”
La disponibilidad de TA desde la lengua menor a lenguas
importantes puede ayudar a la difusión de material escrito
originalmente en la lengua menor:
por ejemplo, TA de sitios web (“al vuelo” o seguida de
postedición)
Mikel L. Forcada TA de código abierto para lenguas menores
17. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Oportunidades de la TA de código abierto
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Sistemas de TA comerciales y lenguas menores:
oportunidades limitadas
Las compañías de TA suelen tener como objetivo las
lenguas más importantes del mundo (existen excepciones,
como el catalán, pero. . . ¿es realmente el catalán una
lengua menor?)
Es muy difícil adaptar sistemas comerciales cerrados a
lenguas menores
Mikel L. Forcada TA de código abierto para lenguas menores
18. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Aumento de la pericia y los recursos lingüísticos
Oportunidades de la TA de código abierto
Aumento de la independencia
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Oportunidades de la TA de código abierto
El uso de sistemas de TA de código abierto proporciona
oportunidades adicionales, además de los efectos
positivos genéricos que acabo de mencionar:
Aumenta la pericia y los recursos lingüísticos
Aumenta la independencia
Mikel L. Forcada TA de código abierto para lenguas menores
19. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Aumento de la pericia y los recursos lingüísticos
Oportunidades de la TA de código abierto
Aumento de la independencia
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Aumento de la pericia y los recursos lingüísticos
La construcción de sistemas de TA de código abierto para
una lengua menor comporta el crecimiento de la pericia y
de los recursos lingüísticos para la lengua menor, a través
de
la reflexión sobre la lengua menor
la elicitación (explicitación) del conocimiento lingüístico
(monolingüe o bilingüe) sobre ella
la codificación subsiguiente de este conocimiento
El escenario de código abierto pone de manera natural el
conocimiento y los recursos a disposición de la
comunidad.
Mikel L. Forcada TA de código abierto para lenguas menores
20. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Aumento de la pericia y los recursos lingüísticos
Oportunidades de la TA de código abierto
Aumento de la independencia
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Caso 1: Creación desde cero de datos para un motor
de TA existente
Es un escenario muy desfavorable. Necesitamos:
Un motor de TA de libre disposición (abierto o no).
Herramientas de libre disposición (abiertas o no) para
gestionar los datos lingüísticos
Documentación completa sobre cómo construir datos
lingüísticos para su uso con el motor y las herramientas
Se deben tomar muchas decisiones lingüísticas. El
síndrome del folio en blanco puede paralizar el proyecto.
Si se supera, la pericia adquirida y los datos abiertos
resultantes pueden ser mejorados o usados para otros
fines: efecto positivo en la lengua menor.
Mikel L. Forcada TA de código abierto para lenguas menores
21. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Aumento de la pericia y los recursos lingüísticos
Oportunidades de la TA de código abierto
Aumento de la independencia
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Caso 2: Creación de datos para un motor de TA
existente a partir de datos lingüísticos existentes
Si se dispone de datos abiertos para otro par de lenguas
similar o emparentado, el síndrome del folio en blanco se
reduce dramáticamente.
Se podría, por ejemplo:
usar el mismo conjunto de categorías léxicas e indicadores
de flexión
construir reglas de flexión basándose en las ya existentes.
Mikel L. Forcada TA de código abierto para lenguas menores
22. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Aumento de la pericia y los recursos lingüísticos
Oportunidades de la TA de código abierto
Aumento de la independencia
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Caso 3: Adaptación de un motor y herramientas de TA
de código abierto para un par de lenguas nuevo
Si el motor y las herramientas son abiertos, se los puede
modificar o adaptar para abordar características no
previstas del nuevo par de lenguas:
juegos de caracteres (sistema de escritura),
necesidad de un análisis más profundo, etc.
Más difícil que crear datos nuevos
Pero los programadores no necesitan tener un control total
de la lengua menor (es posible una gestión más abstracta
de los aspectos lingüísticos)
La rescritura del código aportaría nuevos conocimentos y
recursos a la comunidad de la lengua menor.
Mikel L. Forcada TA de código abierto para lenguas menores
23. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Aumento de la pericia y los recursos lingüísticos
Oportunidades de la TA de código abierto
Aumento de la independencia
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Aumento de la independencia
Disponer de un motor, de herramientas y de datos
lingüísticos abiertos hace que los usuarios de una lengua
menor sean menos dependientes de un único proveedor
comercial de código cerrado
Esto tiene un efecto análogo, no solo sobre la TA, sino
también sobre otras tecnologías lingüísticas.
Mikel L. Forcada TA de código abierto para lenguas menores
24. Conceptos Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas
TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores
Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico
Retos Simplicidad del conocimiento lingüístico necesario
Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst
Conclusiones tentativas Modularidad
Retos
La creación de un sistema de traducción se enfrenta entre
otros a los siguientes retos:
Estandarización de la lengua menor
Neutralización de actitudes tecnofóbicas
Organización de una comunidad de desarrolladores
Elicitación del conocimiento lingüístico
Mantenimiento de la simplicidad del conocimiento
lingüístico necesario.
Estandarización y documentación de los formatos de los
datos lingüísticos
Modularidad de programas y datos.
Mikel L. Forcada TA de código abierto para lenguas menores
25. Conceptos Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas
TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores
Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico
Retos Simplicidad del conocimiento lingüístico necesario
Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst
Conclusiones tentativas Modularidad
Estandarización de la lengua menor
La traducción automática puede acelerar la estandardización
de una lengua menor, pero esto tiene su lado negativo:
la carencia de un sistema de escritura, ortografía o
dialecto de referencia estándares es un serio reto para los
desarrolladores (“síndrome del pionero”).
Mikel L. Forcada TA de código abierto para lenguas menores
26. Conceptos Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas
TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores
Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico
Retos Simplicidad del conocimiento lingüístico necesario
Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst
Conclusiones tentativas Modularidad
Neutralización de las actitudes tecnofóbicas
Para tener éxito es preciso conjugar el activismo en pro de
la lengua menor con un nivel adecuado de formación en
tecnologías de la información
Se oponen las actitudes tecnofóbicas: los eruditos de la
lengua suelen desconfiar de las tecnologías por causa de
una visión idealizada de la lengua y la comunicación
poco aprecio por los usos informales o no literarios
dar demasiado énfasis a joyas (estructuras o palabras
especiales) poco probables y resistentes a la
automatización en lugar de a los ladrillos (estructuras y
palabras cotidianas) muy probables y automatizables.
Estas adversidades “socioacadémicas” se dan (yo mismo
las he experimentado).
Mikel L. Forcada TA de código abierto para lenguas menores
27. Conceptos Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas
TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores
Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico
Retos Simplicidad del conocimiento lingüístico necesario
Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst
Conclusiones tentativas Modularidad
Organización de una comunidad de desarrolladores/1
[Asumamos que sólo estamos desarollando datos lingüísticos]
El código abierto hace posible que la comunidad de una
lengua menor desarrolle de manera colaborativa sistemas
de TA para ella.
Muchas lenguas alejadas de la normalidad tienen grupos
de activistas con habilidades lingüísticas y de traducción
Pero el tiempo ofrecido voluntariamente y estas
habilidades son necesarias pero no suficientes.
Mikel L. Forcada TA de código abierto para lenguas menores
28. Conceptos Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas
TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores
Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico
Retos Simplicidad del conocimiento lingüístico necesario
Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst
Conclusiones tentativas Modularidad
Organización de una comunidad de desarrolladores/2
Hace falta organización:
Un equipo coordinador que domine motor y herramientas,
con:
un director de programación (que instala, mantiene, y
modifica el código del programa)
un director lingüístico (que se encarga del mantenimiento
de los datos lingüísticos)
Un servidor web para el proyecto
para distribuir la última versión del sistema
donde se pueda usar en línea
a través del cual los voluntarios puedan contribuir datos
lingüísticos
Un grupo de voluntarios bien formados, certificados por el
equipo coordinador.
Mikel L. Forcada TA de código abierto para lenguas menores
29. Conceptos Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas
TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores
Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico
Retos Simplicidad del conocimiento lingüístico necesario
Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst
Conclusiones tentativas Modularidad
Elicitación del conocimiento lingüístico
El conocimiento lingüístico existente se debe hace
explícito (elicitación) para poderlo aportar al sistema.
La elicitación del conocimiento léxico es posible a través
de interfaces (formularios) web bien diseñados que
permiten
proporcionar los lemas de las palabras origen y meta
seleccionar el paradigma de flexión de las palabras origen
y meta
establecer el ámbito de una equivalencia léxica
(bidireccional, de izquierda a derecha o de derecha a
izquierda).
La elicitación de otros tipos de conocimiento (p.ej., reglas
de transferencia estructural) es más difícil (y es objeto de
intensa investigación).
Mikel L. Forcada TA de código abierto para lenguas menores
30. Conceptos Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas
TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores
Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico
Retos Simplicidad del conocimiento lingüístico necesario
Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst
Conclusiones tentativas Modularidad
Simplicidad del conocimiento lingüístico necesario
El nivel de conocimientos lingüísticos necesarios para empezar
a construir un sistema de TA debería ser el mínimo posible
(p.ej., conceptos y habilidades gramaticales básicas de
bachillerato).
Esto es bastante fácil en sistemas de transferencia
superficial como los que se usan entre lenguas
emparentadas.
Pero es muy difícil (si no imposible) en sistemas de
transferencia profunda (sintáctica o semántica).
Una documentación bien escrita puede ser muy útil.
Mikel L. Forcada TA de código abierto para lenguas menores
31. Conceptos Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas
TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores
Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico
Retos Simplicidad del conocimiento lingüístico necesario
Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst
Conclusiones tentativas Modularidad
Estandarización y documentación de los formatos de
datos lingüísticos
Una documentación adecuada del formato de los datos
lingüísticos es crucial.
La solución es usar XML. ¿Por qué?
En XML cada elemento de los datos está explícitamente
etiquetado con una marca que tiene un nombre descriptivo
con un significado claro
La estructura de los datos puede ser validada
automáticamente con DTDs (Definiciones de tipo de
documento) o similares (esquemas).
Existen muchas tecnologías para XML (que convierten
desde XML y a XML: interoperabilidad).
Mikel L. Forcada TA de código abierto para lenguas menores
32. Conceptos Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas
TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores
Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico
Retos Simplicidad del conocimiento lingüístico necesario
Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst
Conclusiones tentativas Modularidad
Modularidad
Una de las ventajas del código abierto es la posibilidad de
reutilizar el código y los datos lingüísticos para crear
nuevos sistemas de TA o nuevas aplicaciones de
tecnología de la lengua.
Para ello, es necesaria la modularidad.
Un motor modular induce modularidad en los datos que
usa.
Por ejemplo, tener un analizador morfológico
independiente y un diccionario morfológico independiente
Facilita la creación de un sistema de TA para otra lengua
meta
Se puede usar para crear un buscador inteligente (que
busca palabras independientemente de la inflexión).
Mikel L. Forcada TA de código abierto para lenguas menores
33. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Oportunidades de la TA de código abierto
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Ejemplo: Apertium y el aranés/1
Apertium (www.apertium.org) es una plataforma de TA
(motor y herramientas) de transferencia superficial y de
código abierto creada en la Universitat d’Alacant
Es especialmente adecuada para la TA entre lenguas
emparentadas
Viene con datos lingüísticos abiertos para es–ca, es–gl,
es–pt, fr–ca, en–ca, entre otros (próximamente
ro–es)2
Está siendo desarrollada en la actualidad a través de una
plataforma pública (www.sourceforge.net).
Se puede usar en línea.
2
es=español, ca=catalán, gl=gallego, pt=portugués, fr=francés,
en=inglés, ro=rumano
Mikel L. Forcada TA de código abierto para lenguas menores
34. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Oportunidades de la TA de código abierto
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Ejemplo: Apertium y el aranés/2
Acabamos de publicar un nuevo par, entre:
una lengua mediana (catalán, 6.000.000 hablantes) y
una lengua muy pequeña (aranés, 6.000 hablantes, un
dialecto estandarizado del occitano, oc, 1.000.000
hablantes?)
Evaluación actual (oc–ca y ca–oc)
Cobertura del texto (palabras conocidas): 95 %
Tasa de error: 5 %
Mikel L. Forcada TA de código abierto para lenguas menores
35. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Oportunidades de la TA de código abierto
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Ejemplo: Apertium y el aranés/3
Con un sistema que tiene el 95 % de cobertura y el 5 % de
error:
La cantidad de texto en aranés en la web puede aumentar
(visibilidad)
El peso del dialecto aranés en la estandarización
actualmente en marcha del occitano puede aumentar.
La comunidad occitana general (la mayoría en Francia)
puede crear un traductor oc–fr a partir de los datos
oc–ca y ca–fr existentes.
Se han hecho públicos datos abiertos de aranés, útiles
para crear otras aplicaciones de tecnología lingüística.
Mikel L. Forcada TA de código abierto para lenguas menores
36. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Oportunidades de la TA de código abierto
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Conclusiones tentativas
La TA puede tener un efecto positivo en lenguas menores
(normalidad, “visibilidad”, alfabetización, estandarización)
La TA de código abierto puede tener efectos específicos
adicionales (aumento de la pericia lingüística, aportación
de recursos reutilizables, reducción de la dependencia
tecnológica).
El desarrollo de TA para una lengua menor se enfrenta a
bastantes retos (falta de estandardización, actitudes
tecnofóbicas, elicitación del conocimiento lingüístico,
necesidad de formatos estándares, modularidad).
Por supuesto, estaré encantado de debatir sobre todo ello . . .
Mikel L. Forcada TA de código abierto para lenguas menores
37. Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
TA comercial: oportunidades limitadas
Oportunidades de la TA de código abierto
Retos
Ejemplo: Apertium y el aranés
Conclusiones tentativas
Agradecimientos
Financiación parcial de:
Ministerio de Ciencia y Tecnología (ayuda
TIC2003-08681-C02-01)
Ministerio de Industria, Turismo y Comercio (ayudas
FIT-340101-2004-3 y FIT-340001-2005-2).
Generalitat de Catalunya (Secretaría de
Telecomunicaciones y Sociedad de la Información)
Agradezco a A.M. Corbí-Bellot, M. Ginestí-Rosell, J.A.
Pérez-Ortiz, G. Ramírez-Sánchez, F. Sánchez-Martínez,
S. Ortiz–Rojas, C. Armentano–Oller y M.A. Scalco sus
comentarios y sugerencias sobre la charla.
Y a los organizadores de esta reunión por invitarme.
Mikel L. Forcada TA de código abierto para lenguas menores