SlideShare una empresa de Scribd logo
1 de 37
Descargar para leer sin conexión
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                    Oportunidades de la TA de código abierto
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas




               Traducción automática de código abierto:
                una oportunidad para lenguas menores

                                              Mikel L. Forcada1,2
              1 Departament       de Llenguatges i Sistemes Informàtics, Universitat d’Alacant,
                                               E-03071 Alacant
           2 Prompsit    Language Engineering, S.L., E-03690 St. Vicent del Raspeig (Spain)


                           CCDUTI – Alacant, 1 de febrero de 2007


                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                    Oportunidades de la TA de código abierto
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas




       c 2007 Universitat d’Alacant.
       c 2007 Mikel L. Forcada
      Este material puede ser distribuido, copiado y exhibido si el nombre
      del autor se muestra en los créditos. No se puede obtener beneficio
      comercial. Las obras derivadas deben distribuirse en los mismos
      términos de licencia que los del trabajo original. Más detalles:
      http://creativecommons.org/licenses/by-nc-sa/2.5/
      deed.es. Se pueden pedir los fuentes LaTeX a Mikel L. Forcada
      (mlf@ua.es).




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                    Oportunidades de la TA de código abierto
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Índice

      1     Conceptos
      2     Efectos de la disponibilidad de TA sobre las lenguas
            menores
      3     Sistemas de TA comerciales y lenguas menores:
            oportunidades limitadas
      4     Oportunidades de la TA de código abierto
      5     Retos
      6     Ejemplo: Apertium y el aranés
      7     Conclusiones tentativas

                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas   Lenguas menores y pares de lenguas menores
                    Oportunidades de la TA de código abierto    Software libre o de código abierto
                                                        Retos   Software de traducción automática
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Lenguas menores y pares de lenguas menores/1
      ¿Qué es una lengua menor ? Se usan muchas denominaciones
      alternativas (en “orden de Google”):
              minority languages (minoritarias)
              lesser-used languages (menos usadas)
              minor languages (menores)
              small or smaller languages (pequeñas o más pequeñas)
              lesser languages (menores)
              under-resourced, resource-poor or less-resourced
              languages (con pocos recursos)
              etc.

                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas   Lenguas menores y pares de lenguas menores
                    Oportunidades de la TA de código abierto    Software libre o de código abierto
                                                        Retos   Software de traducción automática
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Lenguas menores y pares de lenguas menores/2
      ¿Que és una lengua menor?
              Con un pequeño número de hablantes [alfabetizados].
              Lejos de la normalidad (se usa más en casa que en la
              escuela o en la administración, está socialmente
              discriminada, reprimida políticamente, etc.).
              Carente de un sistema estable de escritura, una ortografía
              fija, o una variante estándar.
              Con una presencia limitada en Internet.
              Con escasez de lingüistas expertos en ella.
              Con pocos recursos legibles por el ordenador:
              diccionarios, corpus, etc.
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas   Lenguas menores y pares de lenguas menores
                    Oportunidades de la TA de código abierto    Software libre o de código abierto
                                                        Retos   Software de traducción automática
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Lenguas menores y pares de lenguas menores/3


      Los efectos de las tecnologías de traducción sobre una lengua
      menor ocurren a través de pares de lenguas.
      Por ejemplo:
              las lenguas menores A y B son lenguas relacionadas (es
              fácil construir programas para traducir entre ellas)
              C es una lengua importante.
              hay programas de traducción de C a A
      Así, será más fácil tener programas de traducción de C a B



                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas   Lenguas menores y pares de lenguas menores
                    Oportunidades de la TA de código abierto    Software libre o de código abierto
                                                        Retos   Software de traducción automática
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Software libre o de código abierto
      El software de código abierto se llama también software libre
      por estas cuatro libertades:
        0 “La libertad de usar el programa, con cualquier propósito.”
        1 “La libertad de estudiar cómo funciona el programa, y
           adaptarlo a tus necesidades.”
        2 “La libertad de distribuir copias, con lo que puedes ayudar
           a tu vecino.”
        3 “La libertad de mejorar el programa y hacer públicas las
           mejoras a los demás, de modo que toda la comunidad se
           beneficie.”
      Para que las condiciones 1 y 3 se cumplan, se debe tener
      acceso al código fuente (tal como lo ha escrito el programador),
      de ahí que también se hable de software de código abierto.
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas   Lenguas menores y pares de lenguas menores
                    Oportunidades de la TA de código abierto    Software libre o de código abierto
                                                        Retos   Software de traducción automática
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Software de traducción automática/1


               La traducción automática (TA) es especial: depende
               fuertemente de la existencia de datos. Hay tres
               componentes en cualquier sistema de TA:1
                       El motor o ingenio
                       Los datos lingüísticos
                       Las herramientas necesarias para mantener estos datos y
                       convertirlos al formato usado por el motor



           1
          TA “basada en reglas”; la TA “basada en corpus” tiene requisitos
      análogos
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas   Lenguas menores y pares de lenguas menores
                    Oportunidades de la TA de código abierto    Software libre o de código abierto
                                                        Retos   Software de traducción automática
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Software de TA/2 : TA comercial



              Los sistemas comerciales usan tecnologías de propiedad
              (proprietary) que no se revelan (se las percibe como una
              ventaja competitiva fundamental)
              Sólo se permite una modificación parcial (personalización)
              de los datos lingüísticos




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas   Lenguas menores y pares de lenguas menores
                    Oportunidades de la TA de código abierto    Software libre o de código abierto
                                                        Retos   Software de traducción automática
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Software de TA/3: TA de código abierto



      Para que la TA sea de código abierto, tanto
              el motor,
              los datos
              como las herramientas
      deben ser de código abierto.




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas   Lenguas menores y pares de lenguas menores
                    Oportunidades de la TA de código abierto    Software libre o de código abierto
                                                        Retos   Software de traducción automática
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Software de TA/4: TA que no es ni comercial ni de
código abierto


      Pero hay más posibilidades:
              Sistemas que pueden usarse libremente por Internet
              (algunos ni siquiera se comercializan).
              El motor y las herramientas pueden ser programas de
              código cerrado bien documentados, y ser usados con
              datos lingüísticos abiertos.




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                                                                Incrementar la “normalidad”
                        TA comercial: oportunidades limitadas
                                                                Mejorar los niveles de alfabetización
                    Oportunidades de la TA de código abierto
                                                                Efectos sobre la estandardización
                                                        Retos
                                                                Aumentar la “visibilidad”
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Efectos de la disponibilidad de TA sobre lenguas
menores


      La disponibilidad de TA para una lengua menor puede
              incrementar su “normalidad”
              mejorar sus niveles de alfabetización
              tener un efecto en su estandarización
              aumentar su “visibilidad”




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                                                                Incrementar la “normalidad”
                        TA comercial: oportunidades limitadas
                                                                Mejorar los niveles de alfabetización
                    Oportunidades de la TA de código abierto
                                                                Efectos sobre la estandardización
                                                        Retos
                                                                Aumentar la “visibilidad”
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Incrementar la “normalidad”

      La TA puede contribuir a la normalidad de una lengua menor:
              traducción de materiales educativos de una lengua
              importante a una menor
              traducción de noticias de una lengua importante para
              crear medios de comunicación en la lengua minoritaria
              las leyes, normas e informaciones gubernamentales se
              podrían traducir a la lengua menor más fácilmente
              las empresas lo tendrían más fácil para sacar al mercado
              nuevos productos en la lengua menor (“localización”)
      [Aquí se asume que la postedición de la TA en bruto es factible]

                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                                                                Incrementar la “normalidad”
                        TA comercial: oportunidades limitadas
                                                                Mejorar los niveles de alfabetización
                    Oportunidades de la TA de código abierto
                                                                Efectos sobre la estandardización
                                                        Retos
                                                                Aumentar la “visibilidad”
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Mejorar los niveles de alfabetización




              La disponibilidad de texto en la lengua menor (obtenido a
              través de traducción automática y su elaboración posterior)
              puede motivar la alfabetización en la lengua minoritaria




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                                                                Incrementar la “normalidad”
                        TA comercial: oportunidades limitadas
                                                                Mejorar los niveles de alfabetización
                    Oportunidades de la TA de código abierto
                                                                Efectos sobre la estandardización
                                                        Retos
                                                                Aumentar la “visibilidad”
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Efectos sobre la estandardización


              La existencia de un sistema de TA de éxito puede
              promover
                       un sistema particular de escritura (p.e. alfabeto romano sin
                       diacríticos para el tamazight [= bereber])
                       una ortografía determinada (kreyòl asisyen [=criollo
                       haitiano])
                       un dialecto concreto como estándar (variante aranesa del
                       occitano)
              si se genera tecnología lingüística para ellos.



                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                                                                Incrementar la “normalidad”
                        TA comercial: oportunidades limitadas
                                                                Mejorar los niveles de alfabetización
                    Oportunidades de la TA de código abierto
                                                                Efectos sobre la estandardización
                                                        Retos
                                                                Aumentar la “visibilidad”
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Aumentar la “visibilidad”



              La disponibilidad de TA desde la lengua menor a lenguas
              importantes puede ayudar a la difusión de material escrito
              originalmente en la lengua menor:
                       por ejemplo, TA de sitios web (“al vuelo” o seguida de
                       postedición)




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                    Oportunidades de la TA de código abierto
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Sistemas de TA comerciales y lenguas menores:
oportunidades limitadas


              Las compañías de TA suelen tener como objetivo las
              lenguas más importantes del mundo (existen excepciones,
              como el catalán, pero. . . ¿es realmente el catalán una
              lengua menor?)
              Es muy difícil adaptar sistemas comerciales cerrados a
              lenguas menores




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                                                                Aumento de la pericia y los recursos lingüísticos
                    Oportunidades de la TA de código abierto
                                                                Aumento de la independencia
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Oportunidades de la TA de código abierto



              El uso de sistemas de TA de código abierto proporciona
              oportunidades adicionales, además de los efectos
              positivos genéricos que acabo de mencionar:
                       Aumenta la pericia y los recursos lingüísticos
                       Aumenta la independencia




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                                                                Aumento de la pericia y los recursos lingüísticos
                    Oportunidades de la TA de código abierto
                                                                Aumento de la independencia
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Aumento de la pericia y los recursos lingüísticos

              La construcción de sistemas de TA de código abierto para
              una lengua menor comporta el crecimiento de la pericia y
              de los recursos lingüísticos para la lengua menor, a través
              de
                       la reflexión sobre la lengua menor
                       la elicitación (explicitación) del conocimiento lingüístico
                       (monolingüe o bilingüe) sobre ella
                       la codificación subsiguiente de este conocimiento
              El escenario de código abierto pone de manera natural el
              conocimiento y los recursos a disposición de la
              comunidad.

                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                                                                Aumento de la pericia y los recursos lingüísticos
                    Oportunidades de la TA de código abierto
                                                                Aumento de la independencia
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Caso 1: Creación desde cero de datos para un motor
de TA existente
              Es un escenario muy desfavorable. Necesitamos:
                       Un motor de TA de libre disposición (abierto o no).
                       Herramientas de libre disposición (abiertas o no) para
                       gestionar los datos lingüísticos
                       Documentación completa sobre cómo construir datos
                       lingüísticos para su uso con el motor y las herramientas
              Se deben tomar muchas decisiones lingüísticas. El
              síndrome del folio en blanco puede paralizar el proyecto.
              Si se supera, la pericia adquirida y los datos abiertos
              resultantes pueden ser mejorados o usados para otros
              fines: efecto positivo en la lengua menor.
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                                                                Aumento de la pericia y los recursos lingüísticos
                    Oportunidades de la TA de código abierto
                                                                Aumento de la independencia
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Caso 2: Creación de datos para un motor de TA
existente a partir de datos lingüísticos existentes


              Si se dispone de datos abiertos para otro par de lenguas
              similar o emparentado, el síndrome del folio en blanco se
              reduce dramáticamente.
              Se podría, por ejemplo:
                       usar el mismo conjunto de categorías léxicas e indicadores
                       de flexión
                       construir reglas de flexión basándose en las ya existentes.




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                                                                Aumento de la pericia y los recursos lingüísticos
                    Oportunidades de la TA de código abierto
                                                                Aumento de la independencia
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Caso 3: Adaptación de un motor y herramientas de TA
de código abierto para un par de lenguas nuevo
              Si el motor y las herramientas son abiertos, se los puede
              modificar o adaptar para abordar características no
              previstas del nuevo par de lenguas:
                       juegos de caracteres (sistema de escritura),
                       necesidad de un análisis más profundo, etc.
              Más difícil que crear datos nuevos
              Pero los programadores no necesitan tener un control total
              de la lengua menor (es posible una gestión más abstracta
              de los aspectos lingüísticos)
      La rescritura del código aportaría nuevos conocimentos y
      recursos a la comunidad de la lengua menor.
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                                                                Aumento de la pericia y los recursos lingüísticos
                    Oportunidades de la TA de código abierto
                                                                Aumento de la independencia
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Aumento de la independencia



              Disponer de un motor, de herramientas y de datos
              lingüísticos abiertos hace que los usuarios de una lengua
              menor sean menos dependientes de un único proveedor
              comercial de código cerrado
              Esto tiene un efecto análogo, no solo sobre la TA, sino
              también sobre otras tecnologías lingüísticas.




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos    Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores    Neutralización de las actitudes tecnofóbicas
                        TA comercial: oportunidades limitadas   Organización de una comunidad de desarrolladores
                    Oportunidades de la TA de código abierto    Elicitación del conocimiento lingüístico
                                                        Retos   Simplicidad del conocimiento lingüístico necesario
                                Ejemplo: Apertium y el aranés   Estandarización y documentación de los formatos de datos lingüíst
                                      Conclusiones tentativas   Modularidad


Retos
      La creación de un sistema de traducción se enfrenta entre
      otros a los siguientes retos:
              Estandarización de la lengua menor
              Neutralización de actitudes tecnofóbicas
              Organización de una comunidad de desarrolladores
              Elicitación del conocimiento lingüístico
              Mantenimiento de la simplicidad del conocimiento
              lingüístico necesario.
              Estandarización y documentación de los formatos de los
              datos lingüísticos
              Modularidad de programas y datos.
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos    Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores    Neutralización de las actitudes tecnofóbicas
                        TA comercial: oportunidades limitadas   Organización de una comunidad de desarrolladores
                    Oportunidades de la TA de código abierto    Elicitación del conocimiento lingüístico
                                                        Retos   Simplicidad del conocimiento lingüístico necesario
                                Ejemplo: Apertium y el aranés   Estandarización y documentación de los formatos de datos lingüíst
                                      Conclusiones tentativas   Modularidad


Estandarización de la lengua menor



      La traducción automática puede acelerar la estandardización
      de una lengua menor, pero esto tiene su lado negativo:
              la carencia de un sistema de escritura, ortografía o
              dialecto de referencia estándares es un serio reto para los
              desarrolladores (“síndrome del pionero”).




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos    Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores    Neutralización de las actitudes tecnofóbicas
                        TA comercial: oportunidades limitadas   Organización de una comunidad de desarrolladores
                    Oportunidades de la TA de código abierto    Elicitación del conocimiento lingüístico
                                                        Retos   Simplicidad del conocimiento lingüístico necesario
                                Ejemplo: Apertium y el aranés   Estandarización y documentación de los formatos de datos lingüíst
                                      Conclusiones tentativas   Modularidad


Neutralización de las actitudes tecnofóbicas
              Para tener éxito es preciso conjugar el activismo en pro de
              la lengua menor con un nivel adecuado de formación en
              tecnologías de la información
              Se oponen las actitudes tecnofóbicas: los eruditos de la
              lengua suelen desconfiar de las tecnologías por causa de
                       una visión idealizada de la lengua y la comunicación
                       poco aprecio por los usos informales o no literarios
                       dar demasiado énfasis a joyas (estructuras o palabras
                       especiales) poco probables y resistentes a la
                       automatización en lugar de a los ladrillos (estructuras y
                       palabras cotidianas) muy probables y automatizables.
              Estas adversidades “socioacadémicas” se dan (yo mismo
              las he experimentado).
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos    Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores    Neutralización de las actitudes tecnofóbicas
                        TA comercial: oportunidades limitadas   Organización de una comunidad de desarrolladores
                    Oportunidades de la TA de código abierto    Elicitación del conocimiento lingüístico
                                                        Retos   Simplicidad del conocimiento lingüístico necesario
                                Ejemplo: Apertium y el aranés   Estandarización y documentación de los formatos de datos lingüíst
                                      Conclusiones tentativas   Modularidad


Organización de una comunidad de desarrolladores/1


      [Asumamos que sólo estamos desarollando datos lingüísticos]
              El código abierto hace posible que la comunidad de una
              lengua menor desarrolle de manera colaborativa sistemas
              de TA para ella.
              Muchas lenguas alejadas de la normalidad tienen grupos
              de activistas con habilidades lingüísticas y de traducción
              Pero el tiempo ofrecido voluntariamente y estas
              habilidades son necesarias pero no suficientes.



                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos    Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores    Neutralización de las actitudes tecnofóbicas
                        TA comercial: oportunidades limitadas   Organización de una comunidad de desarrolladores
                    Oportunidades de la TA de código abierto    Elicitación del conocimiento lingüístico
                                                        Retos   Simplicidad del conocimiento lingüístico necesario
                                Ejemplo: Apertium y el aranés   Estandarización y documentación de los formatos de datos lingüíst
                                      Conclusiones tentativas   Modularidad


Organización de una comunidad de desarrolladores/2
      Hace falta organización:
         Un equipo coordinador que domine motor y herramientas,
         con:
                       un director de programación (que instala, mantiene, y
                       modifica el código del programa)
                       un director lingüístico (que se encarga del mantenimiento
                       de los datos lingüísticos)
              Un servidor web para el proyecto
                       para distribuir la última versión del sistema
                       donde se pueda usar en línea
                       a través del cual los voluntarios puedan contribuir datos
                       lingüísticos
              Un grupo de voluntarios bien formados, certificados por el
              equipo coordinador.
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos    Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores    Neutralización de las actitudes tecnofóbicas
                        TA comercial: oportunidades limitadas   Organización de una comunidad de desarrolladores
                    Oportunidades de la TA de código abierto    Elicitación del conocimiento lingüístico
                                                        Retos   Simplicidad del conocimiento lingüístico necesario
                                Ejemplo: Apertium y el aranés   Estandarización y documentación de los formatos de datos lingüíst
                                      Conclusiones tentativas   Modularidad


Elicitación del conocimiento lingüístico
              El conocimiento lingüístico existente se debe hace
              explícito (elicitación) para poderlo aportar al sistema.
              La elicitación del conocimiento léxico es posible a través
              de interfaces (formularios) web bien diseñados que
              permiten
                       proporcionar los lemas de las palabras origen y meta
                       seleccionar el paradigma de flexión de las palabras origen
                       y meta
                       establecer el ámbito de una equivalencia léxica
                       (bidireccional, de izquierda a derecha o de derecha a
                       izquierda).
              La elicitación de otros tipos de conocimiento (p.ej., reglas
              de transferencia estructural) es más difícil (y es objeto de
              intensa investigación).
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos    Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores    Neutralización de las actitudes tecnofóbicas
                        TA comercial: oportunidades limitadas   Organización de una comunidad de desarrolladores
                    Oportunidades de la TA de código abierto    Elicitación del conocimiento lingüístico
                                                        Retos   Simplicidad del conocimiento lingüístico necesario
                                Ejemplo: Apertium y el aranés   Estandarización y documentación de los formatos de datos lingüíst
                                      Conclusiones tentativas   Modularidad


Simplicidad del conocimiento lingüístico necesario

      El nivel de conocimientos lingüísticos necesarios para empezar
      a construir un sistema de TA debería ser el mínimo posible
      (p.ej., conceptos y habilidades gramaticales básicas de
      bachillerato).
              Esto es bastante fácil en sistemas de transferencia
              superficial como los que se usan entre lenguas
              emparentadas.
              Pero es muy difícil (si no imposible) en sistemas de
              transferencia profunda (sintáctica o semántica).
      Una documentación bien escrita puede ser muy útil.

                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos    Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores    Neutralización de las actitudes tecnofóbicas
                        TA comercial: oportunidades limitadas   Organización de una comunidad de desarrolladores
                    Oportunidades de la TA de código abierto    Elicitación del conocimiento lingüístico
                                                        Retos   Simplicidad del conocimiento lingüístico necesario
                                Ejemplo: Apertium y el aranés   Estandarización y documentación de los formatos de datos lingüíst
                                      Conclusiones tentativas   Modularidad


Estandarización y documentación de los formatos de
datos lingüísticos

              Una documentación adecuada del formato de los datos
              lingüísticos es crucial.
              La solución es usar XML. ¿Por qué?
                       En XML cada elemento de los datos está explícitamente
                       etiquetado con una marca que tiene un nombre descriptivo
                       con un significado claro
                       La estructura de los datos puede ser validada
                       automáticamente con DTDs (Definiciones de tipo de
                       documento) o similares (esquemas).
                       Existen muchas tecnologías para XML (que convierten
                       desde XML y a XML: interoperabilidad).

                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos    Estandarización de la lengua menor
Efectos de la disponibilidad de TA sobre las lenguas menores    Neutralización de las actitudes tecnofóbicas
                        TA comercial: oportunidades limitadas   Organización de una comunidad de desarrolladores
                    Oportunidades de la TA de código abierto    Elicitación del conocimiento lingüístico
                                                        Retos   Simplicidad del conocimiento lingüístico necesario
                                Ejemplo: Apertium y el aranés   Estandarización y documentación de los formatos de datos lingüíst
                                      Conclusiones tentativas   Modularidad


Modularidad
              Una de las ventajas del código abierto es la posibilidad de
              reutilizar el código y los datos lingüísticos para crear
              nuevos sistemas de TA o nuevas aplicaciones de
              tecnología de la lengua.
              Para ello, es necesaria la modularidad.
              Un motor modular induce modularidad en los datos que
              usa.
              Por ejemplo, tener un analizador morfológico
              independiente y un diccionario morfológico independiente
                       Facilita la creación de un sistema de TA para otra lengua
                       meta
                       Se puede usar para crear un buscador inteligente (que
                       busca palabras independientemente de la inflexión).
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                    Oportunidades de la TA de código abierto
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Ejemplo: Apertium y el aranés/1
               Apertium (www.apertium.org) es una plataforma de TA
               (motor y herramientas) de transferencia superficial y de
               código abierto creada en la Universitat d’Alacant
               Es especialmente adecuada para la TA entre lenguas
               emparentadas
               Viene con datos lingüísticos abiertos para es–ca, es–gl,
               es–pt, fr–ca, en–ca, entre otros (próximamente
               ro–es)2
               Está siendo desarrollada en la actualidad a través de una
               plataforma pública (www.sourceforge.net).
               Se puede usar en línea.
           2
         es=español, ca=catalán, gl=gallego, pt=portugués, fr=francés,
      en=inglés, ro=rumano
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                    Oportunidades de la TA de código abierto
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Ejemplo: Apertium y el aranés/2


              Acabamos de publicar un nuevo par, entre:
                       una lengua mediana (catalán, 6.000.000 hablantes) y
                       una lengua muy pequeña (aranés, 6.000 hablantes, un
                       dialecto estandarizado del occitano, oc, 1.000.000
                       hablantes?)
              Evaluación actual (oc–ca y ca–oc)
                       Cobertura del texto (palabras conocidas): 95 %
                       Tasa de error: 5 %




                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                    Oportunidades de la TA de código abierto
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Ejemplo: Apertium y el aranés/3
      Con un sistema que tiene el 95 % de cobertura y el 5 % de
      error:
              La cantidad de texto en aranés en la web puede aumentar
              (visibilidad)
              El peso del dialecto aranés en la estandarización
              actualmente en marcha del occitano puede aumentar.
              La comunidad occitana general (la mayoría en Francia)
              puede crear un traductor oc–fr a partir de los datos
              oc–ca y ca–fr existentes.
              Se han hecho públicos datos abiertos de aranés, útiles
              para crear otras aplicaciones de tecnología lingüística.

                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                    Oportunidades de la TA de código abierto
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Conclusiones tentativas

              La TA puede tener un efecto positivo en lenguas menores
              (normalidad, “visibilidad”, alfabetización, estandarización)
              La TA de código abierto puede tener efectos específicos
              adicionales (aumento de la pericia lingüística, aportación
              de recursos reutilizables, reducción de la dependencia
              tecnológica).
              El desarrollo de TA para una lengua menor se enfrenta a
              bastantes retos (falta de estandardización, actitudes
              tecnofóbicas, elicitación del conocimiento lingüístico,
              necesidad de formatos estándares, modularidad).
      Por supuesto, estaré encantado de debatir sobre todo ello . . .
                                            Mikel L. Forcada    TA de código abierto para lenguas menores
Conceptos
Efectos de la disponibilidad de TA sobre las lenguas menores
                        TA comercial: oportunidades limitadas
                    Oportunidades de la TA de código abierto
                                                        Retos
                                Ejemplo: Apertium y el aranés
                                      Conclusiones tentativas


Agradecimientos

              Financiación parcial de:
                       Ministerio de Ciencia y Tecnología (ayuda
                       TIC2003-08681-C02-01)
                       Ministerio de Industria, Turismo y Comercio (ayudas
                       FIT-340101-2004-3 y FIT-340001-2005-2).
                       Generalitat de Catalunya (Secretaría de
                       Telecomunicaciones y Sociedad de la Información)
              Agradezco a A.M. Corbí-Bellot, M. Ginestí-Rosell, J.A.
              Pérez-Ortiz, G. Ramírez-Sánchez, F. Sánchez-Martínez,
              S. Ortiz–Rojas, C. Armentano–Oller y M.A. Scalco sus
              comentarios y sugerencias sobre la charla.
              Y a los organizadores de esta reunión por invitarme.
                                            Mikel L. Forcada    TA de código abierto para lenguas menores

Más contenido relacionado

La actualidad más candente

Reglas básicas para conseguir una buena traducción técnica
Reglas básicas para conseguir  una buena traducción técnicaReglas básicas para conseguir  una buena traducción técnica
Reglas básicas para conseguir una buena traducción técnicaMeztli Valeriano Orozco
 
Historia de los lenguajes de programacion
Historia de los lenguajes de programacionHistoria de los lenguajes de programacion
Historia de los lenguajes de programacionJANIIER
 
La importancia de la traducción en el intercambio
La importancia de la traducción en el intercambioLa importancia de la traducción en el intercambio
La importancia de la traducción en el intercambioJonathan Calixto Lazcano
 
tlenguajes unidad I 2016
tlenguajes unidad I 2016tlenguajes unidad I 2016
tlenguajes unidad I 2016maritqueve
 
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...eMadrid network
 
Deya brochure es_2013
Deya brochure es_2013Deya brochure es_2013
Deya brochure es_2013Euge Deyá
 
Lenguaje
LenguajeLenguaje
LenguajeAlixg19
 
HERRAMIENTAS PARA EL APRENDIZAJE DE INGLÉS TÉCNICO APOYADO EN LAS TIC
HERRAMIENTAS  PARA EL APRENDIZAJE DE  INGLÉS TÉCNICO APOYADO EN LAS TIC HERRAMIENTAS  PARA EL APRENDIZAJE DE  INGLÉS TÉCNICO APOYADO EN LAS TIC
HERRAMIENTAS PARA EL APRENDIZAJE DE INGLÉS TÉCNICO APOYADO EN LAS TIC Manuel Mujica
 
Power conceptos básicos de la comprensión lectora- Laboratorio de Ingles Tecn...
Power conceptos básicos de la comprensión lectora- Laboratorio de Ingles Tecn...Power conceptos básicos de la comprensión lectora- Laboratorio de Ingles Tecn...
Power conceptos básicos de la comprensión lectora- Laboratorio de Ingles Tecn...Patty Raimondi
 

La actualidad más candente (18)

Reglas básicas para conseguir una buena traducción técnica
Reglas básicas para conseguir  una buena traducción técnicaReglas básicas para conseguir  una buena traducción técnica
Reglas básicas para conseguir una buena traducción técnica
 
Historia de los lenguajes de programacion
Historia de los lenguajes de programacionHistoria de los lenguajes de programacion
Historia de los lenguajes de programacion
 
La importancia de la traducción en el intercambio
La importancia de la traducción en el intercambioLa importancia de la traducción en el intercambio
La importancia de la traducción en el intercambio
 
Clase 15 06
Clase 15 06Clase 15 06
Clase 15 06
 
Tallr
TallrTallr
Tallr
 
Informatica lupita
Informatica lupitaInformatica lupita
Informatica lupita
 
tlenguajes unidad I 2016
tlenguajes unidad I 2016tlenguajes unidad I 2016
tlenguajes unidad I 2016
 
Presentación - Lenguajes Paralelos
Presentación - Lenguajes ParalelosPresentación - Lenguajes Paralelos
Presentación - Lenguajes Paralelos
 
Sin título 1
Sin título 1Sin título 1
Sin título 1
 
Ingles Técnico II Informática
Ingles Técnico II InformáticaIngles Técnico II Informática
Ingles Técnico II Informática
 
La traducción y su importancia
La traducción y su importanciaLa traducción y su importancia
La traducción y su importancia
 
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
Seminario eMadrid sobre "Cloud Computing". Cloud computing en entornos Start-...
 
Lenguajes de programación
Lenguajes de programaciónLenguajes de programación
Lenguajes de programación
 
Deya brochure es_2013
Deya brochure es_2013Deya brochure es_2013
Deya brochure es_2013
 
Lenguaje
LenguajeLenguaje
Lenguaje
 
Exposición de Lenguajes de Programación
Exposición de Lenguajes de ProgramaciónExposición de Lenguajes de Programación
Exposición de Lenguajes de Programación
 
HERRAMIENTAS PARA EL APRENDIZAJE DE INGLÉS TÉCNICO APOYADO EN LAS TIC
HERRAMIENTAS  PARA EL APRENDIZAJE DE  INGLÉS TÉCNICO APOYADO EN LAS TIC HERRAMIENTAS  PARA EL APRENDIZAJE DE  INGLÉS TÉCNICO APOYADO EN LAS TIC
HERRAMIENTAS PARA EL APRENDIZAJE DE INGLÉS TÉCNICO APOYADO EN LAS TIC
 
Power conceptos básicos de la comprensión lectora- Laboratorio de Ingles Tecn...
Power conceptos básicos de la comprensión lectora- Laboratorio de Ingles Tecn...Power conceptos básicos de la comprensión lectora- Laboratorio de Ingles Tecn...
Power conceptos básicos de la comprensión lectora- Laboratorio de Ingles Tecn...
 

Similar a Traducción automática de código abierto: una oportunidad para lenguas menores

Lenguaje de programacion
Lenguaje de programacionLenguaje de programacion
Lenguaje de programacionCarenPC
 
01. lenguajes de programación autor virtuniversidad
01. lenguajes de programación autor virtuniversidad01. lenguajes de programación autor virtuniversidad
01. lenguajes de programación autor virtuniversidadLuisBeltrnAlvinoAlva
 
01. Lenguajes de programación autor Virtuniversidad.pdf
01. Lenguajes de programación autor Virtuniversidad.pdf01. Lenguajes de programación autor Virtuniversidad.pdf
01. Lenguajes de programación autor Virtuniversidad.pdfrosalesjonathan2024
 
Lenguajes de programación litzuly
Lenguajes de programación litzulyLenguajes de programación litzuly
Lenguajes de programación litzulyJorge de los Santos
 
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural Datos.gob.es
 
Lenguajes de programación
Lenguajes de programaciónLenguajes de programación
Lenguajes de programaciónKarol
 
Lenguajes de programacion
Lenguajes de programacionLenguajes de programacion
Lenguajes de programacionKarol
 
Tipos de lenguaje de programacion
Tipos de lenguaje de programacionTipos de lenguaje de programacion
Tipos de lenguaje de programacionLy Andre
 
Boletin de informatica
Boletin de informaticaBoletin de informatica
Boletin de informaticaDaniel Guerrel
 
Babel, el lenguaje de la tecnologia
Babel, el lenguaje de la tecnologiaBabel, el lenguaje de la tecnologia
Babel, el lenguaje de la tecnologiaIvnMariano
 
Lenguaje de programacion de alto nivel
Lenguaje de programacion de alto nivelLenguaje de programacion de alto nivel
Lenguaje de programacion de alto nivelelvin1202
 
Lenguajes de programación
Lenguajes de programaciónLenguajes de programación
Lenguajes de programaciónfarmero
 

Similar a Traducción automática de código abierto: una oportunidad para lenguas menores (20)

ldp.pptx
ldp.pptxldp.pptx
ldp.pptx
 
Eli rodas
Eli rodasEli rodas
Eli rodas
 
Programacion evolucion
Programacion evolucionProgramacion evolucion
Programacion evolucion
 
Introducción a la Gerencia Informática
Introducción a la Gerencia InformáticaIntroducción a la Gerencia Informática
Introducción a la Gerencia Informática
 
Lenguaje de programacion
Lenguaje de programacionLenguaje de programacion
Lenguaje de programacion
 
01. lenguajes de programación autor virtuniversidad
01. lenguajes de programación autor virtuniversidad01. lenguajes de programación autor virtuniversidad
01. lenguajes de programación autor virtuniversidad
 
01. Lenguajes de programación autor Virtuniversidad.pdf
01. Lenguajes de programación autor Virtuniversidad.pdf01. Lenguajes de programación autor Virtuniversidad.pdf
01. Lenguajes de programación autor Virtuniversidad.pdf
 
Lenguajes de programación litzuly
Lenguajes de programación litzulyLenguajes de programación litzuly
Lenguajes de programación litzuly
 
Mi lenguaje de preferencia
Mi lenguaje de preferenciaMi lenguaje de preferencia
Mi lenguaje de preferencia
 
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
Tecnologías emergentes y datos abiertos: procesamiento del lenguaje natural
 
Lenguajes de programación
Lenguajes de programaciónLenguajes de programación
Lenguajes de programación
 
Lenguajes de programacion
Lenguajes de programacionLenguajes de programacion
Lenguajes de programacion
 
Tipos de lenguaje de programacion
Tipos de lenguaje de programacionTipos de lenguaje de programacion
Tipos de lenguaje de programacion
 
Boletin de informatica
Boletin de informaticaBoletin de informatica
Boletin de informatica
 
Informatica
InformaticaInformatica
Informatica
 
Babel, el lenguaje de la tecnologia
Babel, el lenguaje de la tecnologiaBabel, el lenguaje de la tecnologia
Babel, el lenguaje de la tecnologia
 
Lenguaje de programacion de alto nivel
Lenguaje de programacion de alto nivelLenguaje de programacion de alto nivel
Lenguaje de programacion de alto nivel
 
Lenguajes de programación
Lenguajes de programaciónLenguajes de programación
Lenguajes de programación
 
Clasificacion
ClasificacionClasificacion
Clasificacion
 
Los lenguajes de programacion
Los lenguajes de programacionLos lenguajes de programacion
Los lenguajes de programacion
 

Más de Forcada Mikel

Statistical machine translation in a few slides
Statistical machine translation in a few slidesStatistical machine translation in a few slides
Statistical machine translation in a few slidesForcada Mikel
 
Integrating corpus-based and rule-based approaches in an open-source machine ...
Integrating corpus-based and rule-based approaches in an open-source machine ...Integrating corpus-based and rule-based approaches in an open-source machine ...
Integrating corpus-based and rule-based approaches in an open-source machine ...Forcada Mikel
 
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...Forcada Mikel
 
Curs urgent de traducció automàtica
Curs urgent de traducció automàticaCurs urgent de traducció automàtica
Curs urgent de traducció automàticaForcada Mikel
 
Open-source machine translation for Icelandic: the Apertium platform as an o...
Open-source machine translation for Icelandic:
 the Apertium platform as an o...Open-source machine translation for Icelandic:
 the Apertium platform as an o...
Open-source machine translation for Icelandic: the Apertium platform as an o...Forcada Mikel
 
Curso urgente de traducción automática
Curso urgente de traducción automáticaCurso urgente de traducción automática
Curso urgente de traducción automáticaForcada Mikel
 

Más de Forcada Mikel (9)

softcatala.pdf
softcatala.pdfsoftcatala.pdf
softcatala.pdf
 
Cairo 2019-seminar
Cairo 2019-seminarCairo 2019-seminar
Cairo 2019-seminar
 
Smt in-a-few-slides
Smt in-a-few-slidesSmt in-a-few-slides
Smt in-a-few-slides
 
Statistical machine translation in a few slides
Statistical machine translation in a few slidesStatistical machine translation in a few slides
Statistical machine translation in a few slides
 
Integrating corpus-based and rule-based approaches in an open-source machine ...
Integrating corpus-based and rule-based approaches in an open-source machine ...Integrating corpus-based and rule-based approaches in an open-source machine ...
Integrating corpus-based and rule-based approaches in an open-source machine ...
 
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
Traducció automàtica de codi obert: Apertium, una oportunitat per a llengües ...
 
Curs urgent de traducció automàtica
Curs urgent de traducció automàticaCurs urgent de traducció automàtica
Curs urgent de traducció automàtica
 
Open-source machine translation for Icelandic: the Apertium platform as an o...
Open-source machine translation for Icelandic:
 the Apertium platform as an o...Open-source machine translation for Icelandic:
 the Apertium platform as an o...
Open-source machine translation for Icelandic: the Apertium platform as an o...
 
Curso urgente de traducción automática
Curso urgente de traducción automáticaCurso urgente de traducción automática
Curso urgente de traducción automática
 

Último

Carta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfCarta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfangelinebocanegra1
 
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...OLGAMILENAMONTAEZNIO
 
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETDe Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETGermán Küber
 
VIDEOS DE APOYO.docx E
VIDEOS DE APOYO.docx                                  EVIDEOS DE APOYO.docx                                  E
VIDEOS DE APOYO.docx Emialexsolar
 
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSPRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSLincangoKevin
 
La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2montoyagabriela340
 
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosEl diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosLCristinaForchue
 
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfInmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfOBr.global
 
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfActividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfalejandrogomezescoto
 
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...RaymondCode
 
Matriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxMatriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxPaolaCarolinaCarvaja
 
Los mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfLos mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfodalistar77
 
Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.marianarodriguezc797
 
Análisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfAnálisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfcastrodanna185
 
Inteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidadInteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidaddanik1023m
 
La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....Aaron Betancourt
 
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfTENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfJoseAlejandroPerezBa
 
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfPresentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfymiranda2
 

Último (20)

Carta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdfCarta de Premio y Excel angeline 11-2pdf
Carta de Premio y Excel angeline 11-2pdf
 
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
Actividad 1-PRESENTACIÓN ANIMADA.pptxPreservación y conservación de los docum...
 
BEDEC Proyecto y obra , novedades 2024 - Xavier Folch
BEDEC Proyecto y obra , novedades 2024 - Xavier FolchBEDEC Proyecto y obra , novedades 2024 - Xavier Folch
BEDEC Proyecto y obra , novedades 2024 - Xavier Folch
 
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NETDe Código a Ejecución: El Papel Fundamental del MSIL en .NET
De Código a Ejecución: El Papel Fundamental del MSIL en .NET
 
VIDEOS DE APOYO.docx E
VIDEOS DE APOYO.docx                                  EVIDEOS DE APOYO.docx                                  E
VIDEOS DE APOYO.docx E
 
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOSPRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
PRESENTACION DEL TEMA LOS MEJORES SIMULADORES DE CIRCUITOS ELCTRONICOS
 
La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2La tablet trabajo en grupo del grado 9-2
La tablet trabajo en grupo del grado 9-2
 
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimosEl diseño de Algoritmos Paralelos.pdf - analisis de algortimos
El diseño de Algoritmos Paralelos.pdf - analisis de algortimos
 
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdfInmersión global en ciberseguridad e IA en la conferencia RSA.pdf
Inmersión global en ciberseguridad e IA en la conferencia RSA.pdf
 
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdfActividad 14_ Diseño de Algoritmos Paralelos.pdf
Actividad 14_ Diseño de Algoritmos Paralelos.pdf
 
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
Actividad 14: Diseño de Algoritmos Paralelos Actividad 14: Diseño de Algoritm...
 
Matriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docxMatriz de integración de tecnologías- Paola Carvajal.docx
Matriz de integración de tecnologías- Paola Carvajal.docx
 
Los mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdfLos mejores simuladores de circuitos electrónicos.pdf
Los mejores simuladores de circuitos electrónicos.pdf
 
Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.Tecnológia 2024.docx.
Tecnológia 2024.docx.Tecnológia 2024.docx.
 
Análisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdfAnálisis de artefactos tecnologicos .pdf
Análisis de artefactos tecnologicos .pdf
 
Inteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidadInteligencia artificial dentro de la contabilidad
Inteligencia artificial dentro de la contabilidad
 
La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....La Electricidad y La Electrónica.pdf....
La Electricidad y La Electrónica.pdf....
 
BEDEC Sostenibilidad, novedades 2024 - Laura Silva
BEDEC Sostenibilidad, novedades 2024 - Laura SilvaBEDEC Sostenibilidad, novedades 2024 - Laura Silva
BEDEC Sostenibilidad, novedades 2024 - Laura Silva
 
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdfTENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
TENDENCIAS DE IA Explorando el futuro de la tecnologia.pdf
 
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdfPresentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
Presentación - Diseño de Algoritmos Paralelos - Grupo 2.pdf
 

Traducción automática de código abierto: una oportunidad para lenguas menores

  • 1. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Traducción automática de código abierto: una oportunidad para lenguas menores Mikel L. Forcada1,2 1 Departament de Llenguatges i Sistemes Informàtics, Universitat d’Alacant, E-03071 Alacant 2 Prompsit Language Engineering, S.L., E-03690 St. Vicent del Raspeig (Spain) CCDUTI – Alacant, 1 de febrero de 2007 Mikel L. Forcada TA de código abierto para lenguas menores
  • 2. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas c 2007 Universitat d’Alacant. c 2007 Mikel L. Forcada Este material puede ser distribuido, copiado y exhibido si el nombre del autor se muestra en los créditos. No se puede obtener beneficio comercial. Las obras derivadas deben distribuirse en los mismos términos de licencia que los del trabajo original. Más detalles: http://creativecommons.org/licenses/by-nc-sa/2.5/ deed.es. Se pueden pedir los fuentes LaTeX a Mikel L. Forcada (mlf@ua.es). Mikel L. Forcada TA de código abierto para lenguas menores
  • 3. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Índice 1 Conceptos 2 Efectos de la disponibilidad de TA sobre las lenguas menores 3 Sistemas de TA comerciales y lenguas menores: oportunidades limitadas 4 Oportunidades de la TA de código abierto 5 Retos 6 Ejemplo: Apertium y el aranés 7 Conclusiones tentativas Mikel L. Forcada TA de código abierto para lenguas menores
  • 4. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Lenguas menores y pares de lenguas menores/1 ¿Qué es una lengua menor ? Se usan muchas denominaciones alternativas (en “orden de Google”): minority languages (minoritarias) lesser-used languages (menos usadas) minor languages (menores) small or smaller languages (pequeñas o más pequeñas) lesser languages (menores) under-resourced, resource-poor or less-resourced languages (con pocos recursos) etc. Mikel L. Forcada TA de código abierto para lenguas menores
  • 5. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Lenguas menores y pares de lenguas menores/2 ¿Que és una lengua menor? Con un pequeño número de hablantes [alfabetizados]. Lejos de la normalidad (se usa más en casa que en la escuela o en la administración, está socialmente discriminada, reprimida políticamente, etc.). Carente de un sistema estable de escritura, una ortografía fija, o una variante estándar. Con una presencia limitada en Internet. Con escasez de lingüistas expertos en ella. Con pocos recursos legibles por el ordenador: diccionarios, corpus, etc. Mikel L. Forcada TA de código abierto para lenguas menores
  • 6. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Lenguas menores y pares de lenguas menores/3 Los efectos de las tecnologías de traducción sobre una lengua menor ocurren a través de pares de lenguas. Por ejemplo: las lenguas menores A y B son lenguas relacionadas (es fácil construir programas para traducir entre ellas) C es una lengua importante. hay programas de traducción de C a A Así, será más fácil tener programas de traducción de C a B Mikel L. Forcada TA de código abierto para lenguas menores
  • 7. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software libre o de código abierto El software de código abierto se llama también software libre por estas cuatro libertades: 0 “La libertad de usar el programa, con cualquier propósito.” 1 “La libertad de estudiar cómo funciona el programa, y adaptarlo a tus necesidades.” 2 “La libertad de distribuir copias, con lo que puedes ayudar a tu vecino.” 3 “La libertad de mejorar el programa y hacer públicas las mejoras a los demás, de modo que toda la comunidad se beneficie.” Para que las condiciones 1 y 3 se cumplan, se debe tener acceso al código fuente (tal como lo ha escrito el programador), de ahí que también se hable de software de código abierto. Mikel L. Forcada TA de código abierto para lenguas menores
  • 8. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software de traducción automática/1 La traducción automática (TA) es especial: depende fuertemente de la existencia de datos. Hay tres componentes en cualquier sistema de TA:1 El motor o ingenio Los datos lingüísticos Las herramientas necesarias para mantener estos datos y convertirlos al formato usado por el motor 1 TA “basada en reglas”; la TA “basada en corpus” tiene requisitos análogos Mikel L. Forcada TA de código abierto para lenguas menores
  • 9. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software de TA/2 : TA comercial Los sistemas comerciales usan tecnologías de propiedad (proprietary) que no se revelan (se las percibe como una ventaja competitiva fundamental) Sólo se permite una modificación parcial (personalización) de los datos lingüísticos Mikel L. Forcada TA de código abierto para lenguas menores
  • 10. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software de TA/3: TA de código abierto Para que la TA sea de código abierto, tanto el motor, los datos como las herramientas deben ser de código abierto. Mikel L. Forcada TA de código abierto para lenguas menores
  • 11. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Lenguas menores y pares de lenguas menores Oportunidades de la TA de código abierto Software libre o de código abierto Retos Software de traducción automática Ejemplo: Apertium y el aranés Conclusiones tentativas Software de TA/4: TA que no es ni comercial ni de código abierto Pero hay más posibilidades: Sistemas que pueden usarse libremente por Internet (algunos ni siquiera se comercializan). El motor y las herramientas pueden ser programas de código cerrado bien documentados, y ser usados con datos lingüísticos abiertos. Mikel L. Forcada TA de código abierto para lenguas menores
  • 12. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Efectos de la disponibilidad de TA sobre lenguas menores La disponibilidad de TA para una lengua menor puede incrementar su “normalidad” mejorar sus niveles de alfabetización tener un efecto en su estandarización aumentar su “visibilidad” Mikel L. Forcada TA de código abierto para lenguas menores
  • 13. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Incrementar la “normalidad” La TA puede contribuir a la normalidad de una lengua menor: traducción de materiales educativos de una lengua importante a una menor traducción de noticias de una lengua importante para crear medios de comunicación en la lengua minoritaria las leyes, normas e informaciones gubernamentales se podrían traducir a la lengua menor más fácilmente las empresas lo tendrían más fácil para sacar al mercado nuevos productos en la lengua menor (“localización”) [Aquí se asume que la postedición de la TA en bruto es factible] Mikel L. Forcada TA de código abierto para lenguas menores
  • 14. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Mejorar los niveles de alfabetización La disponibilidad de texto en la lengua menor (obtenido a través de traducción automática y su elaboración posterior) puede motivar la alfabetización en la lengua minoritaria Mikel L. Forcada TA de código abierto para lenguas menores
  • 15. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Efectos sobre la estandardización La existencia de un sistema de TA de éxito puede promover un sistema particular de escritura (p.e. alfabeto romano sin diacríticos para el tamazight [= bereber]) una ortografía determinada (kreyòl asisyen [=criollo haitiano]) un dialecto concreto como estándar (variante aranesa del occitano) si se genera tecnología lingüística para ellos. Mikel L. Forcada TA de código abierto para lenguas menores
  • 16. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores Incrementar la “normalidad” TA comercial: oportunidades limitadas Mejorar los niveles de alfabetización Oportunidades de la TA de código abierto Efectos sobre la estandardización Retos Aumentar la “visibilidad” Ejemplo: Apertium y el aranés Conclusiones tentativas Aumentar la “visibilidad” La disponibilidad de TA desde la lengua menor a lenguas importantes puede ayudar a la difusión de material escrito originalmente en la lengua menor: por ejemplo, TA de sitios web (“al vuelo” o seguida de postedición) Mikel L. Forcada TA de código abierto para lenguas menores
  • 17. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Sistemas de TA comerciales y lenguas menores: oportunidades limitadas Las compañías de TA suelen tener como objetivo las lenguas más importantes del mundo (existen excepciones, como el catalán, pero. . . ¿es realmente el catalán una lengua menor?) Es muy difícil adaptar sistemas comerciales cerrados a lenguas menores Mikel L. Forcada TA de código abierto para lenguas menores
  • 18. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Oportunidades de la TA de código abierto El uso de sistemas de TA de código abierto proporciona oportunidades adicionales, además de los efectos positivos genéricos que acabo de mencionar: Aumenta la pericia y los recursos lingüísticos Aumenta la independencia Mikel L. Forcada TA de código abierto para lenguas menores
  • 19. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Aumento de la pericia y los recursos lingüísticos La construcción de sistemas de TA de código abierto para una lengua menor comporta el crecimiento de la pericia y de los recursos lingüísticos para la lengua menor, a través de la reflexión sobre la lengua menor la elicitación (explicitación) del conocimiento lingüístico (monolingüe o bilingüe) sobre ella la codificación subsiguiente de este conocimiento El escenario de código abierto pone de manera natural el conocimiento y los recursos a disposición de la comunidad. Mikel L. Forcada TA de código abierto para lenguas menores
  • 20. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Caso 1: Creación desde cero de datos para un motor de TA existente Es un escenario muy desfavorable. Necesitamos: Un motor de TA de libre disposición (abierto o no). Herramientas de libre disposición (abiertas o no) para gestionar los datos lingüísticos Documentación completa sobre cómo construir datos lingüísticos para su uso con el motor y las herramientas Se deben tomar muchas decisiones lingüísticas. El síndrome del folio en blanco puede paralizar el proyecto. Si se supera, la pericia adquirida y los datos abiertos resultantes pueden ser mejorados o usados para otros fines: efecto positivo en la lengua menor. Mikel L. Forcada TA de código abierto para lenguas menores
  • 21. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Caso 2: Creación de datos para un motor de TA existente a partir de datos lingüísticos existentes Si se dispone de datos abiertos para otro par de lenguas similar o emparentado, el síndrome del folio en blanco se reduce dramáticamente. Se podría, por ejemplo: usar el mismo conjunto de categorías léxicas e indicadores de flexión construir reglas de flexión basándose en las ya existentes. Mikel L. Forcada TA de código abierto para lenguas menores
  • 22. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Caso 3: Adaptación de un motor y herramientas de TA de código abierto para un par de lenguas nuevo Si el motor y las herramientas son abiertos, se los puede modificar o adaptar para abordar características no previstas del nuevo par de lenguas: juegos de caracteres (sistema de escritura), necesidad de un análisis más profundo, etc. Más difícil que crear datos nuevos Pero los programadores no necesitan tener un control total de la lengua menor (es posible una gestión más abstracta de los aspectos lingüísticos) La rescritura del código aportaría nuevos conocimentos y recursos a la comunidad de la lengua menor. Mikel L. Forcada TA de código abierto para lenguas menores
  • 23. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Aumento de la pericia y los recursos lingüísticos Oportunidades de la TA de código abierto Aumento de la independencia Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Aumento de la independencia Disponer de un motor, de herramientas y de datos lingüísticos abiertos hace que los usuarios de una lengua menor sean menos dependientes de un único proveedor comercial de código cerrado Esto tiene un efecto análogo, no solo sobre la TA, sino también sobre otras tecnologías lingüísticas. Mikel L. Forcada TA de código abierto para lenguas menores
  • 24. Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Retos La creación de un sistema de traducción se enfrenta entre otros a los siguientes retos: Estandarización de la lengua menor Neutralización de actitudes tecnofóbicas Organización de una comunidad de desarrolladores Elicitación del conocimiento lingüístico Mantenimiento de la simplicidad del conocimiento lingüístico necesario. Estandarización y documentación de los formatos de los datos lingüísticos Modularidad de programas y datos. Mikel L. Forcada TA de código abierto para lenguas menores
  • 25. Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Estandarización de la lengua menor La traducción automática puede acelerar la estandardización de una lengua menor, pero esto tiene su lado negativo: la carencia de un sistema de escritura, ortografía o dialecto de referencia estándares es un serio reto para los desarrolladores (“síndrome del pionero”). Mikel L. Forcada TA de código abierto para lenguas menores
  • 26. Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Neutralización de las actitudes tecnofóbicas Para tener éxito es preciso conjugar el activismo en pro de la lengua menor con un nivel adecuado de formación en tecnologías de la información Se oponen las actitudes tecnofóbicas: los eruditos de la lengua suelen desconfiar de las tecnologías por causa de una visión idealizada de la lengua y la comunicación poco aprecio por los usos informales o no literarios dar demasiado énfasis a joyas (estructuras o palabras especiales) poco probables y resistentes a la automatización en lugar de a los ladrillos (estructuras y palabras cotidianas) muy probables y automatizables. Estas adversidades “socioacadémicas” se dan (yo mismo las he experimentado). Mikel L. Forcada TA de código abierto para lenguas menores
  • 27. Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Organización de una comunidad de desarrolladores/1 [Asumamos que sólo estamos desarollando datos lingüísticos] El código abierto hace posible que la comunidad de una lengua menor desarrolle de manera colaborativa sistemas de TA para ella. Muchas lenguas alejadas de la normalidad tienen grupos de activistas con habilidades lingüísticas y de traducción Pero el tiempo ofrecido voluntariamente y estas habilidades son necesarias pero no suficientes. Mikel L. Forcada TA de código abierto para lenguas menores
  • 28. Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Organización de una comunidad de desarrolladores/2 Hace falta organización: Un equipo coordinador que domine motor y herramientas, con: un director de programación (que instala, mantiene, y modifica el código del programa) un director lingüístico (que se encarga del mantenimiento de los datos lingüísticos) Un servidor web para el proyecto para distribuir la última versión del sistema donde se pueda usar en línea a través del cual los voluntarios puedan contribuir datos lingüísticos Un grupo de voluntarios bien formados, certificados por el equipo coordinador. Mikel L. Forcada TA de código abierto para lenguas menores
  • 29. Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Elicitación del conocimiento lingüístico El conocimiento lingüístico existente se debe hace explícito (elicitación) para poderlo aportar al sistema. La elicitación del conocimiento léxico es posible a través de interfaces (formularios) web bien diseñados que permiten proporcionar los lemas de las palabras origen y meta seleccionar el paradigma de flexión de las palabras origen y meta establecer el ámbito de una equivalencia léxica (bidireccional, de izquierda a derecha o de derecha a izquierda). La elicitación de otros tipos de conocimiento (p.ej., reglas de transferencia estructural) es más difícil (y es objeto de intensa investigación). Mikel L. Forcada TA de código abierto para lenguas menores
  • 30. Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Simplicidad del conocimiento lingüístico necesario El nivel de conocimientos lingüísticos necesarios para empezar a construir un sistema de TA debería ser el mínimo posible (p.ej., conceptos y habilidades gramaticales básicas de bachillerato). Esto es bastante fácil en sistemas de transferencia superficial como los que se usan entre lenguas emparentadas. Pero es muy difícil (si no imposible) en sistemas de transferencia profunda (sintáctica o semántica). Una documentación bien escrita puede ser muy útil. Mikel L. Forcada TA de código abierto para lenguas menores
  • 31. Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Estandarización y documentación de los formatos de datos lingüísticos Una documentación adecuada del formato de los datos lingüísticos es crucial. La solución es usar XML. ¿Por qué? En XML cada elemento de los datos está explícitamente etiquetado con una marca que tiene un nombre descriptivo con un significado claro La estructura de los datos puede ser validada automáticamente con DTDs (Definiciones de tipo de documento) o similares (esquemas). Existen muchas tecnologías para XML (que convierten desde XML y a XML: interoperabilidad). Mikel L. Forcada TA de código abierto para lenguas menores
  • 32. Conceptos Estandarización de la lengua menor Efectos de la disponibilidad de TA sobre las lenguas menores Neutralización de las actitudes tecnofóbicas TA comercial: oportunidades limitadas Organización de una comunidad de desarrolladores Oportunidades de la TA de código abierto Elicitación del conocimiento lingüístico Retos Simplicidad del conocimiento lingüístico necesario Ejemplo: Apertium y el aranés Estandarización y documentación de los formatos de datos lingüíst Conclusiones tentativas Modularidad Modularidad Una de las ventajas del código abierto es la posibilidad de reutilizar el código y los datos lingüísticos para crear nuevos sistemas de TA o nuevas aplicaciones de tecnología de la lengua. Para ello, es necesaria la modularidad. Un motor modular induce modularidad en los datos que usa. Por ejemplo, tener un analizador morfológico independiente y un diccionario morfológico independiente Facilita la creación de un sistema de TA para otra lengua meta Se puede usar para crear un buscador inteligente (que busca palabras independientemente de la inflexión). Mikel L. Forcada TA de código abierto para lenguas menores
  • 33. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Ejemplo: Apertium y el aranés/1 Apertium (www.apertium.org) es una plataforma de TA (motor y herramientas) de transferencia superficial y de código abierto creada en la Universitat d’Alacant Es especialmente adecuada para la TA entre lenguas emparentadas Viene con datos lingüísticos abiertos para es–ca, es–gl, es–pt, fr–ca, en–ca, entre otros (próximamente ro–es)2 Está siendo desarrollada en la actualidad a través de una plataforma pública (www.sourceforge.net). Se puede usar en línea. 2 es=español, ca=catalán, gl=gallego, pt=portugués, fr=francés, en=inglés, ro=rumano Mikel L. Forcada TA de código abierto para lenguas menores
  • 34. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Ejemplo: Apertium y el aranés/2 Acabamos de publicar un nuevo par, entre: una lengua mediana (catalán, 6.000.000 hablantes) y una lengua muy pequeña (aranés, 6.000 hablantes, un dialecto estandarizado del occitano, oc, 1.000.000 hablantes?) Evaluación actual (oc–ca y ca–oc) Cobertura del texto (palabras conocidas): 95 % Tasa de error: 5 % Mikel L. Forcada TA de código abierto para lenguas menores
  • 35. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Ejemplo: Apertium y el aranés/3 Con un sistema que tiene el 95 % de cobertura y el 5 % de error: La cantidad de texto en aranés en la web puede aumentar (visibilidad) El peso del dialecto aranés en la estandarización actualmente en marcha del occitano puede aumentar. La comunidad occitana general (la mayoría en Francia) puede crear un traductor oc–fr a partir de los datos oc–ca y ca–fr existentes. Se han hecho públicos datos abiertos de aranés, útiles para crear otras aplicaciones de tecnología lingüística. Mikel L. Forcada TA de código abierto para lenguas menores
  • 36. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Conclusiones tentativas La TA puede tener un efecto positivo en lenguas menores (normalidad, “visibilidad”, alfabetización, estandarización) La TA de código abierto puede tener efectos específicos adicionales (aumento de la pericia lingüística, aportación de recursos reutilizables, reducción de la dependencia tecnológica). El desarrollo de TA para una lengua menor se enfrenta a bastantes retos (falta de estandardización, actitudes tecnofóbicas, elicitación del conocimiento lingüístico, necesidad de formatos estándares, modularidad). Por supuesto, estaré encantado de debatir sobre todo ello . . . Mikel L. Forcada TA de código abierto para lenguas menores
  • 37. Conceptos Efectos de la disponibilidad de TA sobre las lenguas menores TA comercial: oportunidades limitadas Oportunidades de la TA de código abierto Retos Ejemplo: Apertium y el aranés Conclusiones tentativas Agradecimientos Financiación parcial de: Ministerio de Ciencia y Tecnología (ayuda TIC2003-08681-C02-01) Ministerio de Industria, Turismo y Comercio (ayudas FIT-340101-2004-3 y FIT-340001-2005-2). Generalitat de Catalunya (Secretaría de Telecomunicaciones y Sociedad de la Información) Agradezco a A.M. Corbí-Bellot, M. Ginestí-Rosell, J.A. Pérez-Ortiz, G. Ramírez-Sánchez, F. Sánchez-Martínez, S. Ortiz–Rojas, C. Armentano–Oller y M.A. Scalco sus comentarios y sugerencias sobre la charla. Y a los organizadores de esta reunión por invitarme. Mikel L. Forcada TA de código abierto para lenguas menores