SlideShare una empresa de Scribd logo
1 de 49
Descargar para leer sin conexión
Introducción
                   Extracción de equivalencias terminológicas
                       Experimentos Diseñados y Resultados
                   Conclusiones y Perspectivas para el Futuro
                                                   Referencias




    Extracción de Traducciones de Términos a partir de
       Corpus Comparables pertenecientes a áreas
                       específicas

     Xabier Saralegi                  Iñaki San Vicente                Maddalen López de Lacalle

                                                     Fundación Elhuyar
                                                           I+D


                                               SEPLN 2008, Leganés
                                                       12/09/2008



Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                        Experimentos Diseñados y Resultados
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Indice

   1     Introducción
            Marco y Contexto del Trabajo
            Métodos para la Extracción de Terminología Bilingüe
   2     Extracción de equivalencias terminológicas
           Esquema General del Proceso
           Construcción de Contextos
           Traducción de los Contextos
           Búsqueda de Equivalentes
   3     Experimentos Diseñados y Resultados
           Creación del Corpus
           Evaluación del Método de Extracción
   4     Conclusiones y Perspectivas para el Futuro

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Marco y Contexto del Trabajo
                        Experimentos Diseñados y Resultados
                                                                  Métodos para la Extracción de Terminología Bilingüe
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Índice

   1     Introducción
            Marco y Contexto del Trabajo
            Métodos para la Extracción de Terminología Bilingüe
   2     Extracción de equivalencias terminológicas
           Esquema General del Proceso
           Construcción de Contextos
           Traducción de los Contextos
           Búsqueda de Equivalentes
   3     Experimentos Diseñados y Resultados
           Creación del Corpus
           Evaluación del Método de Extracción
   4     Conclusiones y Perspectivas para el Futuro

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Marco y Contexto del Trabajo
                        Experimentos Diseñados y Resultados
                                                                  Métodos para la Extracción de Terminología Bilingüe
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Marco y Contexto del Trabajo

            Proyecto Azerhitz:
                     Objetivo: crear una herramienta para la extracción de terminología
                     bilingüe
                     Par de lenguas euskera-castellano/inglés/francés/. . .
                     Dominio científico
                     Corpus comparables como fuente. ¿Por qué?
                                              El euskera es una lengua de recursos limitados,
                                              gran dificultad para obtener corpus paralelos
            Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,
            2008):
                     Técnicas de extracción de terminología bilingüe eu-en partir de
                     corpus comparables
                     Estudio sobre el grado de comparabilidad y su efecto en la calidad
                     de la extracción

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Marco y Contexto del Trabajo
                        Experimentos Diseñados y Resultados
                                                                  Métodos para la Extracción de Terminología Bilingüe
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Marco y Contexto del Trabajo

            Proyecto Azerhitz:
                     Objetivo: crear una herramienta para la extracción de terminología
                     bilingüe
                     Par de lenguas euskera-castellano/inglés/francés/. . .
                     Dominio científico
                     Corpus comparables como fuente. ¿Por qué?
                                              El euskera es una lengua de recursos limitados,
                                              gran dificultad para obtener corpus paralelos
            Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,
            2008):
                     Técnicas de extracción de terminología bilingüe eu-en partir de
                     corpus comparables
                     Estudio sobre el grado de comparabilidad y su efecto en la calidad
                     de la extracción

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Marco y Contexto del Trabajo
                        Experimentos Diseñados y Resultados
                                                                  Métodos para la Extracción de Terminología Bilingüe
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Marco y Contexto del Trabajo

            Proyecto Azerhitz:
                     Objetivo: crear una herramienta para la extracción de terminología
                     bilingüe
                     Par de lenguas euskera-castellano/inglés/francés/. . .
                     Dominio científico
                     Corpus comparables como fuente. ¿Por qué?
                                              El euskera es una lengua de recursos limitados,
                                              gran dificultad para obtener corpus paralelos
            Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,
            2008):
                     Técnicas de extracción de terminología bilingüe eu-en partir de
                     corpus comparables
                     Estudio sobre el grado de comparabilidad y su efecto en la calidad
                     de la extracción

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Marco y Contexto del Trabajo
                        Experimentos Diseñados y Resultados
                                                                  Métodos para la Extracción de Terminología Bilingüe
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Marco y Contexto del Trabajo

            Proyecto Azerhitz:
                     Objetivo: crear una herramienta para la extracción de terminología
                     bilingüe
                     Par de lenguas euskera-castellano/inglés/francés/. . .
                     Dominio científico
                     Corpus comparables como fuente. ¿Por qué?
                                              El euskera es una lengua de recursos limitados,
                                              gran dificultad para obtener corpus paralelos
            Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,
            2008):
                     Técnicas de extracción de terminología bilingüe eu-en partir de
                     corpus comparables
                     Estudio sobre el grado de comparabilidad y su efecto en la calidad
                     de la extracción

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Marco y Contexto del Trabajo
                        Experimentos Diseñados y Resultados
                                                                  Métodos para la Extracción de Terminología Bilingüe
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Índice

   1     Introducción
            Marco y Contexto del Trabajo
            Métodos para la Extracción de Terminología Bilingüe
   2     Extracción de equivalencias terminológicas
           Esquema General del Proceso
           Construcción de Contextos
           Traducción de los Contextos
           Búsqueda de Equivalentes
   3     Experimentos Diseñados y Resultados
           Creación del Corpus
           Evaluación del Método de Extracción
   4     Conclusiones y Perspectivas para el Futuro

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Marco y Contexto del Trabajo
                        Experimentos Diseñados y Resultados
                                                                  Métodos para la Extracción de Terminología Bilingüe
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Métodos para la Extracción de Terminología Bilingüe


            Paradigmas
                     Similitud entre contextos (Fung, 1995), (Rapp, 1999): “Las
                     traducciones equivalentes ocurren dentro de contextos similares”
                     Similitud ortográfica-fonética: detección de cognados

            Objetivos del trabajo
                     Mejorar el cálculo de similitud entre contextos:
                              Tratamiento de ambigüedad y falta de cobertura en la traducción de
                              contextos
                              Modelos probabilísticos para el cálculo de similitud
                     Diseño de un método de extracción híbrido: Combinación de los
                     dos paradigmas



 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Marco y Contexto del Trabajo
                        Experimentos Diseñados y Resultados
                                                                  Métodos para la Extracción de Terminología Bilingüe
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Métodos para la Extracción de Terminología Bilingüe


            Paradigmas
                     Similitud entre contextos (Fung, 1995), (Rapp, 1999): “Las
                     traducciones equivalentes ocurren dentro de contextos similares”
                     Similitud ortográfica-fonética: detección de cognados

            Objetivos del trabajo
                     Mejorar el cálculo de similitud entre contextos:
                              Tratamiento de ambigüedad y falta de cobertura en la traducción de
                              contextos
                              Modelos probabilísticos para el cálculo de similitud
                     Diseño de un método de extracción híbrido: Combinación de los
                     dos paradigmas



 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Índice

   1     Introducción
            Marco y Contexto del Trabajo
            Métodos para la Extracción de Terminología Bilingüe
   2     Extracción de equivalencias terminológicas
           Esquema General del Proceso
           Construcción de Contextos
           Traducción de los Contextos
           Búsqueda de Equivalentes
   3     Experimentos Diseñados y Resultados
           Creación del Corpus
           Evaluación del Método de Extracción
   4     Conclusiones y Perspectivas para el Futuro

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Algoritmo de extracción




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Índice

   1     Introducción
            Marco y Contexto del Trabajo
            Métodos para la Extracción de Terminología Bilingüe
   2     Extracción de equivalencias terminológicas
           Esquema General del Proceso
           Construcción de Contextos
           Traducción de los Contextos
           Búsqueda de Equivalentes
   3     Experimentos Diseñados y Resultados
           Creación del Corpus
           Evaluación del Método de Extracción
   4     Conclusiones y Perspectivas para el Futuro

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Construcción de Contextos




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Construcción de Contextos I




            Preproceso:
                     Corpus lematizado y etiquetado mediante Eustagger (euskera) y
                     Treetagger (castellano)
                     Palabras clave: nombres comunes, adjetivos, verbos




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Construcción de Contextos II

           Representación de contextos:
                    Básado en el paradigma ”bag-of-words”
                    Contextos delimitados mediante ventanas y/o marcas de puntuación.
                    Tamaños de ventana diferentes para cada lengua:
                         Euskera → 10 (±5)
                         Castellano → 14 (±7)

   Ejemplo
   “ Las [ pilas de combustible funcionan de forma similar a las
   baterías pero éstas sólo almacenan energía y las pilas la generan a
   través de la combustión de hidrógeno de forma limpia, eficiente ] y
   sostenible.”


                    Palabras ponderadas dentro del contexto mediante Log Likelihood
                    Ratio (Baseline)


 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Construcción de Contextos: Modelos Probabilísticos



             Representación (implícita en el ranking) mediante modelos
             probabilísticos para IR (Terrier1 )
                     Okapi (BM25)
                     PL2: instancia del framework Divergence From Randomess
             Por cada término candidato se indexa un documento
                     Ese documento está formado por las palabras que aparecen en
                     los contextos del término candidato en el corpus




       1
           http://http://ir.dcs.gla.ac.uk/terrier/
 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Índice

   1     Introducción
            Marco y Contexto del Trabajo
            Métodos para la Extracción de Terminología Bilingüe
   2     Extracción de equivalencias terminológicas
           Esquema General del Proceso
           Construcción de Contextos
           Traducción de los Contextos
           Búsqueda de Equivalentes
   3     Experimentos Diseñados y Resultados
           Creación del Corpus
           Evaluación del Método de Extracción
   4     Conclusiones y Perspectivas para el Futuro

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Traducción de los Contextos




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Traducción de los Contextos




            Para calcular el grado de semejanza entre contextos estos han
            de ser traducidos en una dirección
            Traducción guiada por diccionarios electrónicos (MRD)
            Problemas inherentes a la traducción guiada por diccionarios:
                 Ambigüedad en la traducción → Estrategias de selección
                 Falta de cobertura → Tratamiento de palabras OOV




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Traducción de los Contextos




            Para calcular el grado de semejanza entre contextos estos han
            de ser traducidos en una dirección
            Traducción guiada por diccionarios electrónicos (MRD)
            Problemas inherentes a la traducción guiada por diccionarios:
                 Ambigüedad en la traducción → Estrategias de selección
                 Falta de cobertura → Tratamiento de palabras OOV




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Selección de Traducción



            Primera traducción: la primera es normalmente la más probable

            Algoritmo basado en concurrencias (Gao et al., 2001)
                     Las traducciones correctas de las diferentes palabras que
                     conforman un contexto tienen un grado de asociación mayor que
                     la traducciones erróneas

                     El algoritmo busca la combinación de traducciones que maximiza
                     el grado de asociación global o cohesión




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Selección de Traducción



            Primera traducción: la primera es normalmente la más probable

            Algoritmo basado en concurrencias (Gao et al., 2001)
                     Las traducciones correctas de las diferentes palabras que
                     conforman un contexto tienen un grado de asociación mayor que
                     la traducciones erróneas

                     El algoritmo busca la combinación de traducciones que maximiza
                     el grado de asociación global o cohesión




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                         Esquema General del proceso
                     Extracción de equivalencias terminológicas
                                                                         Construcción de Contextos
                         Experimentos Diseñados y Resultados
                                                                         Traducción de los Contextos
                     Conclusiones y Perspectivas para el Futuro
                                                                         Ranking de Equivalentes
                                                     Referencias


Algoritmo Basado en Concurrencias (Gao et al., 2001)

 (1) Given a Basque (source language) query
 e = {e1 , e2 , ..., en }, for each query term e, we
 define a set of m distinct Spanish translations                               (b) Compute the cohesion score for ci ,j as
 according to a bilingual dictionary
 D : D (ei ) = {ci ,1 , ci ,2 , ..., ci ,m }.                              cohesion(ci ,j | e, D ) = log    ∑        am(ci ,j , D (ek ))
                                                                                                           D (ek )
 (2) For each set D (ei ):                                                                                                 (2)
      (a) For each translation ci ,j ∈ D (ei ), define                        (c) Select the translation c ∈ D (ei ) with the
 the similarity score between the translation ci ,j and                  highest cohesion score
 a set D (ek )(k = i ) as the sum of the similarities
 between ci ,j and each translation in the set D (ek )                       c = argmaxce,j ∈D (ei ) cohesion(ce,j | e, D )            (3)
 according to Eq. (1)

     am(ci ,j , D (ek )) =       ∑            am(ci ,j , ck ,l )   (1)
                             ck ,l ∈D (ek )




  Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle          Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Tratamiento de Palabras OOV

            Cobertura del MRD →                           55 %
            Incremento de la cobertura de la traducción del contexto
            mediante el uso de cognados
                     Reglas de transformación:
                          c → k acta=akta normalizar n-gramas fonológicos equivalentes
                          -ción → -zio, acción=akzio transformaciones regulares
                          -ción → -zio, acción=akzio transformaciones regulares
                     Similitud ortográfica: Cálculo de LCSR entre término a traducir y
                     candidatos a traducción (LCSR > 0.8 → traducción correcta)

   Ejemplo
   Chimpancé - Txinpantze:
   chimpancé (é → e) = chimpance (ch- → tx) = tximpance (mp → np) = txinpance (ce → ze) =
   txinpanze
   LCSR (txinpantze, txinpanze) = 0,9

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Índice

   1     Introducción
            Marco y Contexto del Trabajo
            Métodos para la Extracción de Terminología Bilingüe
   2     Extracción de equivalencias terminológicas
           Esquema General del Proceso
           Construcción de Contextos
           Traducción de los Contextos
           Búsqueda de Equivalentes
   3     Experimentos Diseñados y Resultados
           Creación del Corpus
           Evaluación del Método de Extracción
   4     Conclusiones y Perspectivas para el Futuro

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Búsqueda de Equivalentes




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Ranking de Equivalentes I

            El contexto traducido del término a traducir (euskera) es
            comparado con los contextos de los candidatos en el idioma de
            destino (castellano).
            Ranking en base a la similitud entre contextos
            Restricción: Los candidatos a traducción comparten la categoría
            gramatical con la palabra de origen

            Vectores de contexto (Baseline):
                     Ranking de acuerdo a medidas de similitud: Jaccard, Dice,
                     Cosine, . . .


            Modelos probabilísticos:
                     Ranking de acuerdo a modelos probabilísticos: Okapi, DFR

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Ranking de Equivalentes I

            El contexto traducido del término a traducir (euskera) es
            comparado con los contextos de los candidatos en el idioma de
            destino (castellano).
            Ranking en base a la similitud entre contextos
            Restricción: Los candidatos a traducción comparten la categoría
            gramatical con la palabra de origen

            Vectores de contexto (Baseline):
                     Ranking de acuerdo a medidas de similitud: Jaccard, Dice,
                     Cosine, . . .


            Modelos probabilísticos:
                     Ranking de acuerdo a modelos probabilísticos: Okapi, DFR

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Ranking de Equivalentes I

            El contexto traducido del término a traducir (euskera) es
            comparado con los contextos de los candidatos en el idioma de
            destino (castellano).
            Ranking en base a la similitud entre contextos
            Restricción: Los candidatos a traducción comparten la categoría
            gramatical con la palabra de origen

            Vectores de contexto (Baseline):
                     Ranking de acuerdo a medidas de similitud: Jaccard, Dice,
                     Cosine, . . .


            Modelos probabilísticos:
                     Ranking de acuerdo a modelos probabilísticos: Okapi, DFR

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                                                                  Esquema General del proceso
                    Extracción de equivalencias terminológicas
                                                                  Construcción de Contextos
                        Experimentos Diseñados y Resultados
                                                                  Traducción de los Contextos
                    Conclusiones y Perspectivas para el Futuro
                                                                  Ranking de Equivalentes
                                                    Referencias


Ranking de Equivalentes II



   Mejora de la precisión obtenida en el ranking:

            La detección de cognados se aplica entre los 100 primeros
            candidatos, tal y como se ha explicado en la sección 3
                LCSR > 0,834. Si más de un candidato supera el umbral aquel
                     con el valor LCSR mas alto es elegido
                     Los traducciones obtenidas con este método son promocionadas
                     a la 1a posición del ranking




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Creación del Corpus
                        Experimentos Diseñados y Resultados
                                                                  Evaluación del Método de Extracción
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Índice

   1     Introducción
            Marco y Contexto del Trabajo
            Métodos para la Extracción de Terminología Bilingüe
   2     Extracción de equivalencias terminológicas
           Esquema General del Proceso
           Construcción de Contextos
           Traducción de los Contextos
           Búsqueda de Equivalentes
   3     Experimentos Diseñados y Resultados
           Creación del Corpus
           Evaluación del Método de Extracción
   4     Conclusiones y Perspectivas para el Futuro

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Creación del Corpus
                        Experimentos Diseñados y Resultados
                                                                  Evaluación del Método de Extracción
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Creación del Corpus I

          Corpus en euskera = noticias de www.zientzia.net
          Corpus en castellano = noticias de www.madrimasd.org
          Comparabilidad:
                  Periodo: 2000-2007
                  Ambas webs ofrecen noticias científicas, del género divulgativo.
                  Distribución temática de los documentos del corpus:



          Tema                                                     Madri+d          Zientzia.net
          Biología, Alimentación, Agricultura y                    36,59 %            24,31 %
          Pesca
          Salud                                                     9,73 %             16,26 %
          Ciencias de la Tierra                                     6,12 %             10,44 %
          Física, Química y Matemáticas                             6,65 %             7,18 %
          Tecnología e Industria                                   29,45 %             24,15 %
          Energía y Medio Ambiente                                 11,45 %             7,35 %


 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Creación del Corpus
                        Experimentos Diseñados y Resultados
                                                                  Evaluación del Método de Extracción
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Creación del Corpus I

          Corpus en euskera = noticias de www.zientzia.net
          Corpus en castellano = noticias de www.madrimasd.org
          Comparabilidad:
                  Periodo: 2000-2007
                  Ambas webs ofrecen noticias científicas, del género divulgativo.
                  Distribución temática de los documentos del corpus:



          Tema                                                     Madri+d          Zientzia.net
          Biología, Alimentación, Agricultura y                    36,59 %            24,31 %
          Pesca
          Salud                                                     9,73 %             16,26 %
          Ciencias de la Tierra                                     6,12 %             10,44 %
          Física, Química y Matemáticas                             6,65 %             7,18 %
          Tecnología e Industria                                   29,45 %             24,15 %
          Energía y Medio Ambiente                                 11,45 %             7,35 %


 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Creación del Corpus
                        Experimentos Diseñados y Resultados
                                                                  Evaluación del Método de Extracción
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Creación del Corpus II




            Características del corpus:


                          Corpus                    #palabras                        #doc
                                                   eu       es                    eu     es
                      Test Corpus                1.092K 1.107K                   2521 1242




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Creación del Corpus
                        Experimentos Diseñados y Resultados
                                                                  Evaluación del Método de Extracción
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Índice

   1     Introducción
            Marco y Contexto del Trabajo
            Métodos para la Extracción de Terminología Bilingüe
   2     Extracción de equivalencias terminológicas
           Esquema General del Proceso
           Construcción de Contextos
           Traducción de los Contextos
           Búsqueda de Equivalentes
   3     Experimentos Diseñados y Resultados
           Creación del Corpus
           Evaluación del Método de Extracción
   4     Conclusiones y Perspectivas para el Futuro

 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Creación del Corpus
                        Experimentos Diseñados y Resultados
                                                                  Evaluación del Método de Extracción
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Test Set


            Términos equivalentes euskera-castellano:
                     Pares de términos que aparecen en los corpus y no están
                     representados en el diccionario utilizado para traducir los
                     contextos
                     Equivalencia verificada automáticamente → Diccionarios
                     especializados(Euskalterm, ZThiztegia)
                     Ambos términos tienen una frequencia mínima determinada
                     Dos listas de términos (100 pares de términos por lista)
                           10 ≤ frecuencia del término ≤ 30
                           frecuencia del término > 50




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Creación del Corpus
                        Experimentos Diseñados y Resultados
                                                                  Evaluación del Método de Extracción
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Aspectos Evaluados

            Representación de contextos y cálculo de similitud:
                     LLR y coseno
                     modelos probabilísticos: Okapi (b=0,75) / Pl2 (c=1)
            Métodos de Traducción:
                     Selección de la primera traducción
                     Algoritmo de selección de máxima coherencia

                     Detección de cognados para el tratamiento de palabras
                     desconocidas (OOV)
            Ranking de candidatos a traducciones:
                     Similitud entre contextos
                     Hibridación similitud de contextos + cognados


 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                     Extracción de equivalencias terminológicas
                                                                   Creación del Corpus
                         Experimentos Diseñados y Resultados
                                                                   Evaluación del Método de Extracción
                     Conclusiones y Perspectivas para el Futuro
                                                     Referencias


Representación de Contextos y Cálculo de Similitud


                                                                                           Precisión media
                         Precisión media                                           Top     Top Top Top             Top
                 Top     Top Top Top               Top                             1       5     10    15          20
                 1       5     10    15            20                   LLR +
     LLR +                                                                         0,07 0,15 0,17 0,18 0,23
                 0,27 0,52 0,62 0,65 0,65                               cos
     cos                                                                Okapi      0,05 0,12 0,17 0,21 0,23
     Okapi       0,34 0,47 0,60 0,65 0,69                               PL2        0,06 0,16 0,21 0,23 0,24
     PL2         0,37 0,50 0,61 0,68 0,73
                                                                   Cuadro: Precisión obtenida para los
 Cuadro: Precisión obtenida para los
                                                                   términos de frecuencia media-baja
 términos de frecuencia alta (> 50).
                                                                   ([10..30]). Comparativa del baseline
 Comparativa del baseline (LLR+cos) con
                                                                   (LLR+cos) con los modelos probabilísticos
 los modelos probabilísticos Okapi y PL2.
                                                                   Okapi y PL2.




  Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Creación del Corpus
                        Experimentos Diseñados y Resultados
                                                                  Evaluación del Método de Extracción
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Influencia de los Métodos de Selección / Detección de
Cognados

                           Precisión media                                                   Precisión media
                Top      Top     Top    Top           Top                         Top      Top     Top    Top         Top
                1        5       10     15            20                          1        5       10     15          20
 PL2+First      0,37     0,50 0,61 0,68               0,73        PL2+First       0,06     0,16 0,21 0,23             0,24
 PL2+Coo        0,37     0,50 0,64 0,68               0,72        PL2+Coo         0,07     0,13 0,19 0,22             0,22
 PL2+First                                                        PL2+First
                0,30     0,54      0,59     0,72      0,74                        0,05     0,16     0,23     0,25     0,26
 +Cog                                                             +Cog
 PL2+Coo                                                          PL2+Coo
                0,32     0,55      0,67     0,71      0,74                        0,06     0,18     0,19     0,25     0,26
 +Cog                                                             +Cog
 PL2+Coo                                                          PL2+Coo
 +Cog           0,38     0,61      0,72     0,75      0,78        +Cog            0,28     0,39     0,40     0,45     0,46
 +Cog-re                                                          +Cog-re


 Cuadro: Precisión obtenida para los                              Cuadro: Precisión obtenida para los
 términos de frecuencia alta (> 50)                               términos de frecuencia media-baja ([10..30])
 combinando el modelo PL2 con las distintas                       combinando el modelo PL2 con las distintas
 técnicas implementadas.                                          técnicas implementadas.
 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Creación del Corpus
                        Experimentos Diseñados y Resultados
                                                                  Evaluación del Método de Extracción
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Resultados


            Efecto de los cognados:
                     Proceso de traducción de contextos: precisión ↑
                     Aplicado entre los candidatos incluidos en el ranking:
                     precisión ↑↑



            Modelos probabilísticos superan LLR + coseno.
            PL2 > Okapi > LLR+cos



            Términos de frecuencia alta: precisión ↑



 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Conclusiones
                        Experimentos Diseñados y Resultados
                                                                  Perspectivas para el Futuro
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Conclusiones

            Integración de diferentes técnicas existentes y su adaptación a
            un nuevo par de lenguas
            La detección de cognados ayuda a mejorar los resultados,
            utilizada tanto en el proceso de traducción de contextos como
            sobre el ranking final → adecuado para corpus del área científica
            (alta presencia de cognados)
            El algoritmo de selección basado en concurrencias obtiene
            peores resultados que el método de la 1a traducción.

                            Análisis de los resultados
                                                       + Experimentación
                             Afinado del algoritmo

            Corpus de pequeño tamaño (sólo el %18 de las palabras en
            Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Conclusiones
                        Experimentos Diseñados y Resultados
                                                                  Perspectivas para el Futuro
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Conclusiones

            Integración de diferentes técnicas existentes y su adaptación a
            un nuevo par de lenguas
            La detección de cognados ayuda a mejorar los resultados,
            utilizada tanto en el proceso de traducción de contextos como
            sobre el ranking final → adecuado para corpus del área científica
            (alta presencia de cognados)
            El algoritmo de selección basado en concurrencias obtiene
            peores resultados que el método de la 1a traducción.

                            Análisis de los resultados
                                                       + Experimentación
                             Afinado del algoritmo

            Corpus de pequeño tamaño (sólo el %18 de las palabras en
            Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Conclusiones
                        Experimentos Diseñados y Resultados
                                                                  Perspectivas para el Futuro
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Conclusiones

            Integración de diferentes técnicas existentes y su adaptación a
            un nuevo par de lenguas
            La detección de cognados ayuda a mejorar los resultados,
            utilizada tanto en el proceso de traducción de contextos como
            sobre el ranking final → adecuado para corpus del área científica
            (alta presencia de cognados)
            El algoritmo de selección basado en concurrencias obtiene
            peores resultados que el método de la 1a traducción.

                            Análisis de los resultados
                                                       + Experimentación
                             Afinado del algoritmo

            Corpus de pequeño tamaño (sólo el %18 de las palabras en
            Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Conclusiones
                        Experimentos Diseñados y Resultados
                                                                  Perspectivas para el Futuro
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Conclusiones

            Integración de diferentes técnicas existentes y su adaptación a
            un nuevo par de lenguas
            La detección de cognados ayuda a mejorar los resultados,
            utilizada tanto en el proceso de traducción de contextos como
            sobre el ranking final → adecuado para corpus del área científica
            (alta presencia de cognados)
            El algoritmo de selección basado en concurrencias obtiene
            peores resultados que el método de la 1a traducción.

                            Análisis de los resultados
                                                       + Experimentación
                             Afinado del algoritmo

            Corpus de pequeño tamaño (sólo el %18 de las palabras en
            Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                                                                  Conclusiones
                        Experimentos Diseñados y Resultados
                                                                  Perspectivas para el Futuro
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Perpectivas para el Futuro




            Creación de corpus de mayor tamaño
            Profundizar en los experimentos
                     Algoritmos de selección de traducciones
                     Modelos probabilísticos
            Expandir trabajo a otras lenguas (Francés, Alemán, . . . )




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                        Experimentos Diseñados y Resultados
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Referencias I


   Fung, Pascale. 1995. Compiling bilingual lexicon entries from a
   non-parallel English-Chinese corpus. In David Yarovsky and Kenneth
   Church, editors, Proceedings of the Third Workshop on Very Large
   Corpora, pages 173–183, Somerset, New Jersey. Association for
   Computational Linguistics.
   Gao, Jianfeng, Jian-Yun Nie, Endong Xun, Jian Zhang, Ming Zhou,
   and Changning Huang. 2001. Improving query translation for
   cross-language information retrieval using statistical models. In SIGIR
   ’01: Proceedings of the 24th annual international ACM SIGIR
   conference on Research and development in information retrieval,
   pages 96–104. ACM.


 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                    Extracción de equivalencias terminológicas
                        Experimentos Diseñados y Resultados
                    Conclusiones y Perspectivas para el Futuro
                                                    Referencias


Referencias II



   Rapp, Reinhard. 1999. Automatic identification of word translations
   from unrelated english and german corpora. In ACL37, pages
   519–512, University of Maryland.
   Saralegi, Xabier, Iñaki San Vicente, and Antton Gurrutxaga. 2008.
   Similitud entre documentos multilingües de carácter técnico en un
   entorno web. In Proceedings of quot;Building and Using Comparable
   Corporaquot;workshop (LREC 2008), Marrakech, May.




 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables
Introducción
                   Extracción de equivalencias terminológicas
                       Experimentos Diseñados y Resultados
                   Conclusiones y Perspectivas para el Futuro
                                                   Referencias




    Extracción de Traducciones de Términos a partir de
       Corpus Comparables pertenecientes a áreas
                       específicas

     Xabier Saralegi                  Iñaki San Vicente                Maddalen López de Lacalle

                                                     Fundación Elhuyar
                                                           I+D


                                               SEPLN 2008, Leganés
                                                       12/09/2008



Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle    Extracción de Traducciones de Términos a partir de Corpus Comparables

Más contenido relacionado

Destacado

Objetivo K2B
Objetivo K2BObjetivo K2B
Objetivo K2BK2B
 
Informatica (Redes Wi Fi)
Informatica (Redes Wi Fi)Informatica (Redes Wi Fi)
Informatica (Redes Wi Fi)OliVerLic100
 
Los trabajos del futuro
Los trabajos del futuroLos trabajos del futuro
Los trabajos del futuroELBA VELAZQUEZ
 
Programacióactivitats previessetmacul2011
Programacióactivitats previessetmacul2011Programacióactivitats previessetmacul2011
Programacióactivitats previessetmacul2011Neus Cortiella
 
Cosmos classique pdf
Cosmos classique pdfCosmos classique pdf
Cosmos classique pdfMahesh Patil
 
Setmana cultural 2011 manual 1
Setmana cultural 2011 manual 1Setmana cultural 2011 manual 1
Setmana cultural 2011 manual 1Neus Cortiella
 
Adjectives: MInd Map
Adjectives: MInd MapAdjectives: MInd Map
Adjectives: MInd Mapjenny jimenez
 
Red Fig Installations A5 brochure DP (003)
Red Fig Installations A5 brochure DP (003)Red Fig Installations A5 brochure DP (003)
Red Fig Installations A5 brochure DP (003)Avishay Ziv
 
La Conjura De Los Necios
La Conjura De Los NeciosLa Conjura De Los Necios
La Conjura De Los Necioshomologacion
 
Kids Learning Suit
Kids Learning SuitKids Learning Suit
Kids Learning SuitRamesh Kumar
 
El estres ocupacional[1]
El estres ocupacional[1]El estres ocupacional[1]
El estres ocupacional[1]ELBA VELAZQUEZ
 
Webinar Slides : Migrating to MySQL, MariaDB Galera and/or Percona XtraDB Clu...
Webinar Slides : Migrating to MySQL, MariaDB Galera and/or Percona XtraDB Clu...Webinar Slides : Migrating to MySQL, MariaDB Galera and/or Percona XtraDB Clu...
Webinar Slides : Migrating to MySQL, MariaDB Galera and/or Percona XtraDB Clu...Severalnines
 
PresentacióN Proyectos 2015 Femag 2008 P
PresentacióN Proyectos 2015 Femag 2008 PPresentacióN Proyectos 2015 Femag 2008 P
PresentacióN Proyectos 2015 Femag 2008 PInterbenavente
 
Webinar slides: Replication Topology Changes for MySQL and MariaDB
Webinar slides: Replication Topology Changes for MySQL and MariaDBWebinar slides: Replication Topology Changes for MySQL and MariaDB
Webinar slides: Replication Topology Changes for MySQL and MariaDBSeveralnines
 
Become a MySQL DBA: performing live database upgrades - webinar slides
Become a MySQL DBA: performing live database upgrades - webinar slidesBecome a MySQL DBA: performing live database upgrades - webinar slides
Become a MySQL DBA: performing live database upgrades - webinar slidesSeveralnines
 

Destacado (19)

Diapositiva T[1].O
Diapositiva T[1].ODiapositiva T[1].O
Diapositiva T[1].O
 
Objetivo K2B
Objetivo K2BObjetivo K2B
Objetivo K2B
 
Informatica (Redes Wi Fi)
Informatica (Redes Wi Fi)Informatica (Redes Wi Fi)
Informatica (Redes Wi Fi)
 
Ladino camargodeivifernando actividad 05
Ladino camargodeivifernando actividad 05Ladino camargodeivifernando actividad 05
Ladino camargodeivifernando actividad 05
 
Los trabajos del futuro
Los trabajos del futuroLos trabajos del futuro
Los trabajos del futuro
 
Programacióactivitats previessetmacul2011
Programacióactivitats previessetmacul2011Programacióactivitats previessetmacul2011
Programacióactivitats previessetmacul2011
 
Cosmos classique pdf
Cosmos classique pdfCosmos classique pdf
Cosmos classique pdf
 
Setmana cultural 2011 manual 1
Setmana cultural 2011 manual 1Setmana cultural 2011 manual 1
Setmana cultural 2011 manual 1
 
Adjectives: MInd Map
Adjectives: MInd MapAdjectives: MInd Map
Adjectives: MInd Map
 
Red Fig Installations A5 brochure DP (003)
Red Fig Installations A5 brochure DP (003)Red Fig Installations A5 brochure DP (003)
Red Fig Installations A5 brochure DP (003)
 
Presentacion mgbl
Presentacion mgblPresentacion mgbl
Presentacion mgbl
 
La Conjura De Los Necios
La Conjura De Los NeciosLa Conjura De Los Necios
La Conjura De Los Necios
 
Kids Learning Suit
Kids Learning SuitKids Learning Suit
Kids Learning Suit
 
El estres ocupacional[1]
El estres ocupacional[1]El estres ocupacional[1]
El estres ocupacional[1]
 
Guia DidáCtica RSO
Guia DidáCtica RSOGuia DidáCtica RSO
Guia DidáCtica RSO
 
Webinar Slides : Migrating to MySQL, MariaDB Galera and/or Percona XtraDB Clu...
Webinar Slides : Migrating to MySQL, MariaDB Galera and/or Percona XtraDB Clu...Webinar Slides : Migrating to MySQL, MariaDB Galera and/or Percona XtraDB Clu...
Webinar Slides : Migrating to MySQL, MariaDB Galera and/or Percona XtraDB Clu...
 
PresentacióN Proyectos 2015 Femag 2008 P
PresentacióN Proyectos 2015 Femag 2008 PPresentacióN Proyectos 2015 Femag 2008 P
PresentacióN Proyectos 2015 Femag 2008 P
 
Webinar slides: Replication Topology Changes for MySQL and MariaDB
Webinar slides: Replication Topology Changes for MySQL and MariaDBWebinar slides: Replication Topology Changes for MySQL and MariaDB
Webinar slides: Replication Topology Changes for MySQL and MariaDB
 
Become a MySQL DBA: performing live database upgrades - webinar slides
Become a MySQL DBA: performing live database upgrades - webinar slidesBecome a MySQL DBA: performing live database upgrades - webinar slides
Become a MySQL DBA: performing live database upgrades - webinar slides
 

Similar a Extracción Terminología Bilingüe Corpus Comparables

CLED2009 Nour Adoumieh
CLED2009 Nour AdoumiehCLED2009 Nour Adoumieh
CLED2009 Nour AdoumiehNour Adoumieh
 
Gestión intelectual para la producción de tesis
Gestión intelectual para la producción de tesisGestión intelectual para la producción de tesis
Gestión intelectual para la producción de tesisAnalia Borba
 
Ontologías y su utilidad en ingeniería de software
Ontologías y su utilidad en ingeniería de softwareOntologías y su utilidad en ingeniería de software
Ontologías y su utilidad en ingeniería de softwareSelin Carrasco
 
Findemaster
FindemasterFindemaster
Findemastermarlex72
 
Caso de estudio
Caso de estudioCaso de estudio
Caso de estudiokintskpi
 
Aprendizaje por investigación 2015 evaluación mag. claudia cabrera
Aprendizaje por investigación 2015 evaluación mag. claudia cabreraAprendizaje por investigación 2015 evaluación mag. claudia cabrera
Aprendizaje por investigación 2015 evaluación mag. claudia cabreraClaudia Cabrera
 
Stilus lenguando-lc aplicada a la correccion
Stilus lenguando-lc aplicada a la correccionStilus lenguando-lc aplicada a la correccion
Stilus lenguando-lc aplicada a la correccionSngular Meaning
 
Carolina motta perilla_evidencia_actividad4.1
Carolina motta perilla_evidencia_actividad4.1Carolina motta perilla_evidencia_actividad4.1
Carolina motta perilla_evidencia_actividad4.1Carolina Perilla
 
Instrumentos de evaluación rúbrica-2022
Instrumentos de evaluación rúbrica-2022Instrumentos de evaluación rúbrica-2022
Instrumentos de evaluación rúbrica-2022PaolaAndreaOrregoAco
 
Evaluación de competencias desde la socioformación. Dra. Liria Rincones Pérez
Evaluación de competencias desde la socioformación. Dra. Liria Rincones PérezEvaluación de competencias desde la socioformación. Dra. Liria Rincones Pérez
Evaluación de competencias desde la socioformación. Dra. Liria Rincones PérezUNERMB-JUBILADA
 
COEM 3002 La redacción como proceso
COEM 3002 La redacción como procesoCOEM 3002 La redacción como proceso
COEM 3002 La redacción como procesoIlia E. Lopez-Jimenez
 
Diferencia de tecnicas y estretegias.
Diferencia  de tecnicas y estretegias.Diferencia  de tecnicas y estretegias.
Diferencia de tecnicas y estretegias.diego21reyes
 
Septiembre
SeptiembreSeptiembre
Septiembreesantosf
 
Normas de redacción equipo número 9
Normas de redacción equipo número 9 Normas de redacción equipo número 9
Normas de redacción equipo número 9 Nicol Macadan
 
Objetivos de una investigación
Objetivos de una investigaciónObjetivos de una investigación
Objetivos de una investigaciónIsabel Olivares.
 

Similar a Extracción Terminología Bilingüe Corpus Comparables (20)

CLED2009 Nour Adoumieh
CLED2009 Nour AdoumiehCLED2009 Nour Adoumieh
CLED2009 Nour Adoumieh
 
Gestión intelectual para la producción de tesis
Gestión intelectual para la producción de tesisGestión intelectual para la producción de tesis
Gestión intelectual para la producción de tesis
 
Equipo3 actividadfinal slide_share
Equipo3 actividadfinal slide_shareEquipo3 actividadfinal slide_share
Equipo3 actividadfinal slide_share
 
Trabajo final
Trabajo finalTrabajo final
Trabajo final
 
Practica 8
Practica 8Practica 8
Practica 8
 
Ontologías y su utilidad en ingeniería de software
Ontologías y su utilidad en ingeniería de softwareOntologías y su utilidad en ingeniería de software
Ontologías y su utilidad en ingeniería de software
 
Findemaster
FindemasterFindemaster
Findemaster
 
Caso de estudio
Caso de estudioCaso de estudio
Caso de estudio
 
Aprendizaje por investigación 2015 evaluación mag. claudia cabrera
Aprendizaje por investigación 2015 evaluación mag. claudia cabreraAprendizaje por investigación 2015 evaluación mag. claudia cabrera
Aprendizaje por investigación 2015 evaluación mag. claudia cabrera
 
Tipos de investigacion
Tipos de investigacionTipos de investigacion
Tipos de investigacion
 
Stilus lenguando-lc aplicada a la correccion
Stilus lenguando-lc aplicada a la correccionStilus lenguando-lc aplicada a la correccion
Stilus lenguando-lc aplicada a la correccion
 
Carolina motta perilla_evidencia_actividad4.1
Carolina motta perilla_evidencia_actividad4.1Carolina motta perilla_evidencia_actividad4.1
Carolina motta perilla_evidencia_actividad4.1
 
Instrumentos de evaluación rúbrica-2022
Instrumentos de evaluación rúbrica-2022Instrumentos de evaluación rúbrica-2022
Instrumentos de evaluación rúbrica-2022
 
Evaluación de competencias desde la socioformación. Dra. Liria Rincones Pérez
Evaluación de competencias desde la socioformación. Dra. Liria Rincones PérezEvaluación de competencias desde la socioformación. Dra. Liria Rincones Pérez
Evaluación de competencias desde la socioformación. Dra. Liria Rincones Pérez
 
COEM 3002 La redacción como proceso
COEM 3002 La redacción como procesoCOEM 3002 La redacción como proceso
COEM 3002 La redacción como proceso
 
Diferencia de tecnicas y estretegias.
Diferencia  de tecnicas y estretegias.Diferencia  de tecnicas y estretegias.
Diferencia de tecnicas y estretegias.
 
Septiembre
SeptiembreSeptiembre
Septiembre
 
Normas de redacción equipo número 9
Normas de redacción equipo número 9 Normas de redacción equipo número 9
Normas de redacción equipo número 9
 
Objetivos de una investigación
Objetivos de una investigaciónObjetivos de una investigación
Objetivos de una investigación
 
Proyecto lenguaje en la disciplina 27 mayo
Proyecto lenguaje en la disciplina 27 mayoProyecto lenguaje en la disciplina 27 mayo
Proyecto lenguaje en la disciplina 27 mayo
 

Último

Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 

Último (19)

Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 

Extracción Terminología Bilingüe Corpus Comparables

  • 1. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle Fundación Elhuyar I+D SEPLN 2008, Leganés 12/09/2008 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 2. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Indice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 3. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 4. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Marco y Contexto del Trabajo Proyecto Azerhitz: Objetivo: crear una herramienta para la extracción de terminología bilingüe Par de lenguas euskera-castellano/inglés/francés/. . . Dominio científico Corpus comparables como fuente. ¿Por qué? El euskera es una lengua de recursos limitados, gran dificultad para obtener corpus paralelos Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga, 2008): Técnicas de extracción de terminología bilingüe eu-en partir de corpus comparables Estudio sobre el grado de comparabilidad y su efecto en la calidad de la extracción Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 5. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Marco y Contexto del Trabajo Proyecto Azerhitz: Objetivo: crear una herramienta para la extracción de terminología bilingüe Par de lenguas euskera-castellano/inglés/francés/. . . Dominio científico Corpus comparables como fuente. ¿Por qué? El euskera es una lengua de recursos limitados, gran dificultad para obtener corpus paralelos Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga, 2008): Técnicas de extracción de terminología bilingüe eu-en partir de corpus comparables Estudio sobre el grado de comparabilidad y su efecto en la calidad de la extracción Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 6. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Marco y Contexto del Trabajo Proyecto Azerhitz: Objetivo: crear una herramienta para la extracción de terminología bilingüe Par de lenguas euskera-castellano/inglés/francés/. . . Dominio científico Corpus comparables como fuente. ¿Por qué? El euskera es una lengua de recursos limitados, gran dificultad para obtener corpus paralelos Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga, 2008): Técnicas de extracción de terminología bilingüe eu-en partir de corpus comparables Estudio sobre el grado de comparabilidad y su efecto en la calidad de la extracción Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 7. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Marco y Contexto del Trabajo Proyecto Azerhitz: Objetivo: crear una herramienta para la extracción de terminología bilingüe Par de lenguas euskera-castellano/inglés/francés/. . . Dominio científico Corpus comparables como fuente. ¿Por qué? El euskera es una lengua de recursos limitados, gran dificultad para obtener corpus paralelos Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga, 2008): Técnicas de extracción de terminología bilingüe eu-en partir de corpus comparables Estudio sobre el grado de comparabilidad y su efecto en la calidad de la extracción Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 8. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 9. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Métodos para la Extracción de Terminología Bilingüe Paradigmas Similitud entre contextos (Fung, 1995), (Rapp, 1999): “Las traducciones equivalentes ocurren dentro de contextos similares” Similitud ortográfica-fonética: detección de cognados Objetivos del trabajo Mejorar el cálculo de similitud entre contextos: Tratamiento de ambigüedad y falta de cobertura en la traducción de contextos Modelos probabilísticos para el cálculo de similitud Diseño de un método de extracción híbrido: Combinación de los dos paradigmas Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 10. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Métodos para la Extracción de Terminología Bilingüe Paradigmas Similitud entre contextos (Fung, 1995), (Rapp, 1999): “Las traducciones equivalentes ocurren dentro de contextos similares” Similitud ortográfica-fonética: detección de cognados Objetivos del trabajo Mejorar el cálculo de similitud entre contextos: Tratamiento de ambigüedad y falta de cobertura en la traducción de contextos Modelos probabilísticos para el cálculo de similitud Diseño de un método de extracción híbrido: Combinación de los dos paradigmas Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 11. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 12. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Algoritmo de extracción Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 13. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 14. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Construcción de Contextos Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 15. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Construcción de Contextos I Preproceso: Corpus lematizado y etiquetado mediante Eustagger (euskera) y Treetagger (castellano) Palabras clave: nombres comunes, adjetivos, verbos Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 16. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Construcción de Contextos II Representación de contextos: Básado en el paradigma ”bag-of-words” Contextos delimitados mediante ventanas y/o marcas de puntuación. Tamaños de ventana diferentes para cada lengua: Euskera → 10 (±5) Castellano → 14 (±7) Ejemplo “ Las [ pilas de combustible funcionan de forma similar a las baterías pero éstas sólo almacenan energía y las pilas la generan a través de la combustión de hidrógeno de forma limpia, eficiente ] y sostenible.” Palabras ponderadas dentro del contexto mediante Log Likelihood Ratio (Baseline) Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 17. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Construcción de Contextos: Modelos Probabilísticos Representación (implícita en el ranking) mediante modelos probabilísticos para IR (Terrier1 ) Okapi (BM25) PL2: instancia del framework Divergence From Randomess Por cada término candidato se indexa un documento Ese documento está formado por las palabras que aparecen en los contextos del término candidato en el corpus 1 http://http://ir.dcs.gla.ac.uk/terrier/ Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 18. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 19. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Traducción de los Contextos Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 20. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Traducción de los Contextos Para calcular el grado de semejanza entre contextos estos han de ser traducidos en una dirección Traducción guiada por diccionarios electrónicos (MRD) Problemas inherentes a la traducción guiada por diccionarios: Ambigüedad en la traducción → Estrategias de selección Falta de cobertura → Tratamiento de palabras OOV Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 21. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Traducción de los Contextos Para calcular el grado de semejanza entre contextos estos han de ser traducidos en una dirección Traducción guiada por diccionarios electrónicos (MRD) Problemas inherentes a la traducción guiada por diccionarios: Ambigüedad en la traducción → Estrategias de selección Falta de cobertura → Tratamiento de palabras OOV Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 22. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Selección de Traducción Primera traducción: la primera es normalmente la más probable Algoritmo basado en concurrencias (Gao et al., 2001) Las traducciones correctas de las diferentes palabras que conforman un contexto tienen un grado de asociación mayor que la traducciones erróneas El algoritmo busca la combinación de traducciones que maximiza el grado de asociación global o cohesión Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 23. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Selección de Traducción Primera traducción: la primera es normalmente la más probable Algoritmo basado en concurrencias (Gao et al., 2001) Las traducciones correctas de las diferentes palabras que conforman un contexto tienen un grado de asociación mayor que la traducciones erróneas El algoritmo busca la combinación de traducciones que maximiza el grado de asociación global o cohesión Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 24. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Algoritmo Basado en Concurrencias (Gao et al., 2001) (1) Given a Basque (source language) query e = {e1 , e2 , ..., en }, for each query term e, we define a set of m distinct Spanish translations (b) Compute the cohesion score for ci ,j as according to a bilingual dictionary D : D (ei ) = {ci ,1 , ci ,2 , ..., ci ,m }. cohesion(ci ,j | e, D ) = log ∑ am(ci ,j , D (ek )) D (ek ) (2) For each set D (ei ): (2) (a) For each translation ci ,j ∈ D (ei ), define (c) Select the translation c ∈ D (ei ) with the the similarity score between the translation ci ,j and highest cohesion score a set D (ek )(k = i ) as the sum of the similarities between ci ,j and each translation in the set D (ek ) c = argmaxce,j ∈D (ei ) cohesion(ce,j | e, D ) (3) according to Eq. (1) am(ci ,j , D (ek )) = ∑ am(ci ,j , ck ,l ) (1) ck ,l ∈D (ek ) Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 25. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Tratamiento de Palabras OOV Cobertura del MRD → 55 % Incremento de la cobertura de la traducción del contexto mediante el uso de cognados Reglas de transformación: c → k acta=akta normalizar n-gramas fonológicos equivalentes -ción → -zio, acción=akzio transformaciones regulares -ción → -zio, acción=akzio transformaciones regulares Similitud ortográfica: Cálculo de LCSR entre término a traducir y candidatos a traducción (LCSR > 0.8 → traducción correcta) Ejemplo Chimpancé - Txinpantze: chimpancé (é → e) = chimpance (ch- → tx) = tximpance (mp → np) = txinpance (ce → ze) = txinpanze LCSR (txinpantze, txinpanze) = 0,9 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 26. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 27. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Búsqueda de Equivalentes Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 28. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Ranking de Equivalentes I El contexto traducido del término a traducir (euskera) es comparado con los contextos de los candidatos en el idioma de destino (castellano). Ranking en base a la similitud entre contextos Restricción: Los candidatos a traducción comparten la categoría gramatical con la palabra de origen Vectores de contexto (Baseline): Ranking de acuerdo a medidas de similitud: Jaccard, Dice, Cosine, . . . Modelos probabilísticos: Ranking de acuerdo a modelos probabilísticos: Okapi, DFR Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 29. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Ranking de Equivalentes I El contexto traducido del término a traducir (euskera) es comparado con los contextos de los candidatos en el idioma de destino (castellano). Ranking en base a la similitud entre contextos Restricción: Los candidatos a traducción comparten la categoría gramatical con la palabra de origen Vectores de contexto (Baseline): Ranking de acuerdo a medidas de similitud: Jaccard, Dice, Cosine, . . . Modelos probabilísticos: Ranking de acuerdo a modelos probabilísticos: Okapi, DFR Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 30. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Ranking de Equivalentes I El contexto traducido del término a traducir (euskera) es comparado con los contextos de los candidatos en el idioma de destino (castellano). Ranking en base a la similitud entre contextos Restricción: Los candidatos a traducción comparten la categoría gramatical con la palabra de origen Vectores de contexto (Baseline): Ranking de acuerdo a medidas de similitud: Jaccard, Dice, Cosine, . . . Modelos probabilísticos: Ranking de acuerdo a modelos probabilísticos: Okapi, DFR Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 31. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Ranking de Equivalentes II Mejora de la precisión obtenida en el ranking: La detección de cognados se aplica entre los 100 primeros candidatos, tal y como se ha explicado en la sección 3 LCSR > 0,834. Si más de un candidato supera el umbral aquel con el valor LCSR mas alto es elegido Los traducciones obtenidas con este método son promocionadas a la 1a posición del ranking Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 32. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 33. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Creación del Corpus I Corpus en euskera = noticias de www.zientzia.net Corpus en castellano = noticias de www.madrimasd.org Comparabilidad: Periodo: 2000-2007 Ambas webs ofrecen noticias científicas, del género divulgativo. Distribución temática de los documentos del corpus: Tema Madri+d Zientzia.net Biología, Alimentación, Agricultura y 36,59 % 24,31 % Pesca Salud 9,73 % 16,26 % Ciencias de la Tierra 6,12 % 10,44 % Física, Química y Matemáticas 6,65 % 7,18 % Tecnología e Industria 29,45 % 24,15 % Energía y Medio Ambiente 11,45 % 7,35 % Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 34. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Creación del Corpus I Corpus en euskera = noticias de www.zientzia.net Corpus en castellano = noticias de www.madrimasd.org Comparabilidad: Periodo: 2000-2007 Ambas webs ofrecen noticias científicas, del género divulgativo. Distribución temática de los documentos del corpus: Tema Madri+d Zientzia.net Biología, Alimentación, Agricultura y 36,59 % 24,31 % Pesca Salud 9,73 % 16,26 % Ciencias de la Tierra 6,12 % 10,44 % Física, Química y Matemáticas 6,65 % 7,18 % Tecnología e Industria 29,45 % 24,15 % Energía y Medio Ambiente 11,45 % 7,35 % Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 35. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Creación del Corpus II Características del corpus: Corpus #palabras #doc eu es eu es Test Corpus 1.092K 1.107K 2521 1242 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 36. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 37. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Test Set Términos equivalentes euskera-castellano: Pares de términos que aparecen en los corpus y no están representados en el diccionario utilizado para traducir los contextos Equivalencia verificada automáticamente → Diccionarios especializados(Euskalterm, ZThiztegia) Ambos términos tienen una frequencia mínima determinada Dos listas de términos (100 pares de términos por lista) 10 ≤ frecuencia del término ≤ 30 frecuencia del término > 50 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 38. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Aspectos Evaluados Representación de contextos y cálculo de similitud: LLR y coseno modelos probabilísticos: Okapi (b=0,75) / Pl2 (c=1) Métodos de Traducción: Selección de la primera traducción Algoritmo de selección de máxima coherencia Detección de cognados para el tratamiento de palabras desconocidas (OOV) Ranking de candidatos a traducciones: Similitud entre contextos Hibridación similitud de contextos + cognados Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 39. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Representación de Contextos y Cálculo de Similitud Precisión media Precisión media Top Top Top Top Top Top Top Top Top Top 1 5 10 15 20 1 5 10 15 20 LLR + LLR + 0,07 0,15 0,17 0,18 0,23 0,27 0,52 0,62 0,65 0,65 cos cos Okapi 0,05 0,12 0,17 0,21 0,23 Okapi 0,34 0,47 0,60 0,65 0,69 PL2 0,06 0,16 0,21 0,23 0,24 PL2 0,37 0,50 0,61 0,68 0,73 Cuadro: Precisión obtenida para los Cuadro: Precisión obtenida para los términos de frecuencia media-baja términos de frecuencia alta (> 50). ([10..30]). Comparativa del baseline Comparativa del baseline (LLR+cos) con (LLR+cos) con los modelos probabilísticos los modelos probabilísticos Okapi y PL2. Okapi y PL2. Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 40. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Influencia de los Métodos de Selección / Detección de Cognados Precisión media Precisión media Top Top Top Top Top Top Top Top Top Top 1 5 10 15 20 1 5 10 15 20 PL2+First 0,37 0,50 0,61 0,68 0,73 PL2+First 0,06 0,16 0,21 0,23 0,24 PL2+Coo 0,37 0,50 0,64 0,68 0,72 PL2+Coo 0,07 0,13 0,19 0,22 0,22 PL2+First PL2+First 0,30 0,54 0,59 0,72 0,74 0,05 0,16 0,23 0,25 0,26 +Cog +Cog PL2+Coo PL2+Coo 0,32 0,55 0,67 0,71 0,74 0,06 0,18 0,19 0,25 0,26 +Cog +Cog PL2+Coo PL2+Coo +Cog 0,38 0,61 0,72 0,75 0,78 +Cog 0,28 0,39 0,40 0,45 0,46 +Cog-re +Cog-re Cuadro: Precisión obtenida para los Cuadro: Precisión obtenida para los términos de frecuencia alta (> 50) términos de frecuencia media-baja ([10..30]) combinando el modelo PL2 con las distintas combinando el modelo PL2 con las distintas técnicas implementadas. técnicas implementadas. Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 41. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Resultados Efecto de los cognados: Proceso de traducción de contextos: precisión ↑ Aplicado entre los candidatos incluidos en el ranking: precisión ↑↑ Modelos probabilísticos superan LLR + coseno. PL2 > Okapi > LLR+cos Términos de frecuencia alta: precisión ↑ Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 42. Introducción Extracción de equivalencias terminológicas Conclusiones Experimentos Diseñados y Resultados Perspectivas para el Futuro Conclusiones y Perspectivas para el Futuro Referencias Conclusiones Integración de diferentes técnicas existentes y su adaptación a un nuevo par de lenguas La detección de cognados ayuda a mejorar los resultados, utilizada tanto en el proceso de traducción de contextos como sobre el ranking final → adecuado para corpus del área científica (alta presencia de cognados) El algoritmo de selección basado en concurrencias obtiene peores resultados que el método de la 1a traducción. Análisis de los resultados + Experimentación Afinado del algoritmo Corpus de pequeño tamaño (sólo el %18 de las palabras en Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓ Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 43. Introducción Extracción de equivalencias terminológicas Conclusiones Experimentos Diseñados y Resultados Perspectivas para el Futuro Conclusiones y Perspectivas para el Futuro Referencias Conclusiones Integración de diferentes técnicas existentes y su adaptación a un nuevo par de lenguas La detección de cognados ayuda a mejorar los resultados, utilizada tanto en el proceso de traducción de contextos como sobre el ranking final → adecuado para corpus del área científica (alta presencia de cognados) El algoritmo de selección basado en concurrencias obtiene peores resultados que el método de la 1a traducción. Análisis de los resultados + Experimentación Afinado del algoritmo Corpus de pequeño tamaño (sólo el %18 de las palabras en Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓ Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 44. Introducción Extracción de equivalencias terminológicas Conclusiones Experimentos Diseñados y Resultados Perspectivas para el Futuro Conclusiones y Perspectivas para el Futuro Referencias Conclusiones Integración de diferentes técnicas existentes y su adaptación a un nuevo par de lenguas La detección de cognados ayuda a mejorar los resultados, utilizada tanto en el proceso de traducción de contextos como sobre el ranking final → adecuado para corpus del área científica (alta presencia de cognados) El algoritmo de selección basado en concurrencias obtiene peores resultados que el método de la 1a traducción. Análisis de los resultados + Experimentación Afinado del algoritmo Corpus de pequeño tamaño (sólo el %18 de las palabras en Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓ Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 45. Introducción Extracción de equivalencias terminológicas Conclusiones Experimentos Diseñados y Resultados Perspectivas para el Futuro Conclusiones y Perspectivas para el Futuro Referencias Conclusiones Integración de diferentes técnicas existentes y su adaptación a un nuevo par de lenguas La detección de cognados ayuda a mejorar los resultados, utilizada tanto en el proceso de traducción de contextos como sobre el ranking final → adecuado para corpus del área científica (alta presencia de cognados) El algoritmo de selección basado en concurrencias obtiene peores resultados que el método de la 1a traducción. Análisis de los resultados + Experimentación Afinado del algoritmo Corpus de pequeño tamaño (sólo el %18 de las palabras en Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓ Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 46. Introducción Extracción de equivalencias terminológicas Conclusiones Experimentos Diseñados y Resultados Perspectivas para el Futuro Conclusiones y Perspectivas para el Futuro Referencias Perpectivas para el Futuro Creación de corpus de mayor tamaño Profundizar en los experimentos Algoritmos de selección de traducciones Modelos probabilísticos Expandir trabajo a otras lenguas (Francés, Alemán, . . . ) Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 47. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Referencias I Fung, Pascale. 1995. Compiling bilingual lexicon entries from a non-parallel English-Chinese corpus. In David Yarovsky and Kenneth Church, editors, Proceedings of the Third Workshop on Very Large Corpora, pages 173–183, Somerset, New Jersey. Association for Computational Linguistics. Gao, Jianfeng, Jian-Yun Nie, Endong Xun, Jian Zhang, Ming Zhou, and Changning Huang. 2001. Improving query translation for cross-language information retrieval using statistical models. In SIGIR ’01: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 96–104. ACM. Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 48. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Referencias II Rapp, Reinhard. 1999. Automatic identification of word translations from unrelated english and german corpora. In ACL37, pages 519–512, University of Maryland. Saralegi, Xabier, Iñaki San Vicente, and Antton Gurrutxaga. 2008. Similitud entre documentos multilingües de carácter técnico en un entorno web. In Proceedings of quot;Building and Using Comparable Corporaquot;workshop (LREC 2008), Marrakech, May. Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
  • 49. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas específicas Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle Fundación Elhuyar I+D SEPLN 2008, Leganés 12/09/2008 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables