Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Extracción Terminología Bilingüe Corpus Comparables
1. Introducción
Extracción de equivalencias terminológicas
Experimentos Diseñados y Resultados
Conclusiones y Perspectivas para el Futuro
Referencias
Extracción de Traducciones de Términos a partir de
Corpus Comparables pertenecientes a áreas
específicas
Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle
Fundación Elhuyar
I+D
SEPLN 2008, Leganés
12/09/2008
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
2. Introducción
Extracción de equivalencias terminológicas
Experimentos Diseñados y Resultados
Conclusiones y Perspectivas para el Futuro
Referencias
Indice
1 Introducción
Marco y Contexto del Trabajo
Métodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicas
Esquema General del Proceso
Construcción de Contextos
Traducción de los Contextos
Búsqueda de Equivalentes
3 Experimentos Diseñados y Resultados
Creación del Corpus
Evaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
3. Introducción
Extracción de equivalencias terminológicas
Marco y Contexto del Trabajo
Experimentos Diseñados y Resultados
Métodos para la Extracción de Terminología Bilingüe
Conclusiones y Perspectivas para el Futuro
Referencias
Índice
1 Introducción
Marco y Contexto del Trabajo
Métodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicas
Esquema General del Proceso
Construcción de Contextos
Traducción de los Contextos
Búsqueda de Equivalentes
3 Experimentos Diseñados y Resultados
Creación del Corpus
Evaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
4. Introducción
Extracción de equivalencias terminológicas
Marco y Contexto del Trabajo
Experimentos Diseñados y Resultados
Métodos para la Extracción de Terminología Bilingüe
Conclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del Trabajo
Proyecto Azerhitz:
Objetivo: crear una herramienta para la extracción de terminología
bilingüe
Par de lenguas euskera-castellano/inglés/francés/. . .
Dominio científico
Corpus comparables como fuente. ¿Por qué?
El euskera es una lengua de recursos limitados,
gran dificultad para obtener corpus paralelos
Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,
2008):
Técnicas de extracción de terminología bilingüe eu-en partir de
corpus comparables
Estudio sobre el grado de comparabilidad y su efecto en la calidad
de la extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
5. Introducción
Extracción de equivalencias terminológicas
Marco y Contexto del Trabajo
Experimentos Diseñados y Resultados
Métodos para la Extracción de Terminología Bilingüe
Conclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del Trabajo
Proyecto Azerhitz:
Objetivo: crear una herramienta para la extracción de terminología
bilingüe
Par de lenguas euskera-castellano/inglés/francés/. . .
Dominio científico
Corpus comparables como fuente. ¿Por qué?
El euskera es una lengua de recursos limitados,
gran dificultad para obtener corpus paralelos
Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,
2008):
Técnicas de extracción de terminología bilingüe eu-en partir de
corpus comparables
Estudio sobre el grado de comparabilidad y su efecto en la calidad
de la extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
6. Introducción
Extracción de equivalencias terminológicas
Marco y Contexto del Trabajo
Experimentos Diseñados y Resultados
Métodos para la Extracción de Terminología Bilingüe
Conclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del Trabajo
Proyecto Azerhitz:
Objetivo: crear una herramienta para la extracción de terminología
bilingüe
Par de lenguas euskera-castellano/inglés/francés/. . .
Dominio científico
Corpus comparables como fuente. ¿Por qué?
El euskera es una lengua de recursos limitados,
gran dificultad para obtener corpus paralelos
Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,
2008):
Técnicas de extracción de terminología bilingüe eu-en partir de
corpus comparables
Estudio sobre el grado de comparabilidad y su efecto en la calidad
de la extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
7. Introducción
Extracción de equivalencias terminológicas
Marco y Contexto del Trabajo
Experimentos Diseñados y Resultados
Métodos para la Extracción de Terminología Bilingüe
Conclusiones y Perspectivas para el Futuro
Referencias
Marco y Contexto del Trabajo
Proyecto Azerhitz:
Objetivo: crear una herramienta para la extracción de terminología
bilingüe
Par de lenguas euskera-castellano/inglés/francés/. . .
Dominio científico
Corpus comparables como fuente. ¿Por qué?
El euskera es una lengua de recursos limitados,
gran dificultad para obtener corpus paralelos
Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga,
2008):
Técnicas de extracción de terminología bilingüe eu-en partir de
corpus comparables
Estudio sobre el grado de comparabilidad y su efecto en la calidad
de la extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
8. Introducción
Extracción de equivalencias terminológicas
Marco y Contexto del Trabajo
Experimentos Diseñados y Resultados
Métodos para la Extracción de Terminología Bilingüe
Conclusiones y Perspectivas para el Futuro
Referencias
Índice
1 Introducción
Marco y Contexto del Trabajo
Métodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicas
Esquema General del Proceso
Construcción de Contextos
Traducción de los Contextos
Búsqueda de Equivalentes
3 Experimentos Diseñados y Resultados
Creación del Corpus
Evaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
9. Introducción
Extracción de equivalencias terminológicas
Marco y Contexto del Trabajo
Experimentos Diseñados y Resultados
Métodos para la Extracción de Terminología Bilingüe
Conclusiones y Perspectivas para el Futuro
Referencias
Métodos para la Extracción de Terminología Bilingüe
Paradigmas
Similitud entre contextos (Fung, 1995), (Rapp, 1999): “Las
traducciones equivalentes ocurren dentro de contextos similares”
Similitud ortográfica-fonética: detección de cognados
Objetivos del trabajo
Mejorar el cálculo de similitud entre contextos:
Tratamiento de ambigüedad y falta de cobertura en la traducción de
contextos
Modelos probabilísticos para el cálculo de similitud
Diseño de un método de extracción híbrido: Combinación de los
dos paradigmas
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
10. Introducción
Extracción de equivalencias terminológicas
Marco y Contexto del Trabajo
Experimentos Diseñados y Resultados
Métodos para la Extracción de Terminología Bilingüe
Conclusiones y Perspectivas para el Futuro
Referencias
Métodos para la Extracción de Terminología Bilingüe
Paradigmas
Similitud entre contextos (Fung, 1995), (Rapp, 1999): “Las
traducciones equivalentes ocurren dentro de contextos similares”
Similitud ortográfica-fonética: detección de cognados
Objetivos del trabajo
Mejorar el cálculo de similitud entre contextos:
Tratamiento de ambigüedad y falta de cobertura en la traducción de
contextos
Modelos probabilísticos para el cálculo de similitud
Diseño de un método de extracción híbrido: Combinación de los
dos paradigmas
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
11. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Índice
1 Introducción
Marco y Contexto del Trabajo
Métodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicas
Esquema General del Proceso
Construcción de Contextos
Traducción de los Contextos
Búsqueda de Equivalentes
3 Experimentos Diseñados y Resultados
Creación del Corpus
Evaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
12. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Algoritmo de extracción
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
13. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Índice
1 Introducción
Marco y Contexto del Trabajo
Métodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicas
Esquema General del Proceso
Construcción de Contextos
Traducción de los Contextos
Búsqueda de Equivalentes
3 Experimentos Diseñados y Resultados
Creación del Corpus
Evaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
14. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Construcción de Contextos
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
15. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Construcción de Contextos I
Preproceso:
Corpus lematizado y etiquetado mediante Eustagger (euskera) y
Treetagger (castellano)
Palabras clave: nombres comunes, adjetivos, verbos
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
16. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Construcción de Contextos II
Representación de contextos:
Básado en el paradigma ”bag-of-words”
Contextos delimitados mediante ventanas y/o marcas de puntuación.
Tamaños de ventana diferentes para cada lengua:
Euskera → 10 (±5)
Castellano → 14 (±7)
Ejemplo
“ Las [ pilas de combustible funcionan de forma similar a las
baterías pero éstas sólo almacenan energía y las pilas la generan a
través de la combustión de hidrógeno de forma limpia, eficiente ] y
sostenible.”
Palabras ponderadas dentro del contexto mediante Log Likelihood
Ratio (Baseline)
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
17. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Construcción de Contextos: Modelos Probabilísticos
Representación (implícita en el ranking) mediante modelos
probabilísticos para IR (Terrier1 )
Okapi (BM25)
PL2: instancia del framework Divergence From Randomess
Por cada término candidato se indexa un documento
Ese documento está formado por las palabras que aparecen en
los contextos del término candidato en el corpus
1
http://http://ir.dcs.gla.ac.uk/terrier/
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
18. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Índice
1 Introducción
Marco y Contexto del Trabajo
Métodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicas
Esquema General del Proceso
Construcción de Contextos
Traducción de los Contextos
Búsqueda de Equivalentes
3 Experimentos Diseñados y Resultados
Creación del Corpus
Evaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
19. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Traducción de los Contextos
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
20. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Traducción de los Contextos
Para calcular el grado de semejanza entre contextos estos han
de ser traducidos en una dirección
Traducción guiada por diccionarios electrónicos (MRD)
Problemas inherentes a la traducción guiada por diccionarios:
Ambigüedad en la traducción → Estrategias de selección
Falta de cobertura → Tratamiento de palabras OOV
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
21. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Traducción de los Contextos
Para calcular el grado de semejanza entre contextos estos han
de ser traducidos en una dirección
Traducción guiada por diccionarios electrónicos (MRD)
Problemas inherentes a la traducción guiada por diccionarios:
Ambigüedad en la traducción → Estrategias de selección
Falta de cobertura → Tratamiento de palabras OOV
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
22. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Selección de Traducción
Primera traducción: la primera es normalmente la más probable
Algoritmo basado en concurrencias (Gao et al., 2001)
Las traducciones correctas de las diferentes palabras que
conforman un contexto tienen un grado de asociación mayor que
la traducciones erróneas
El algoritmo busca la combinación de traducciones que maximiza
el grado de asociación global o cohesión
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
23. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Selección de Traducción
Primera traducción: la primera es normalmente la más probable
Algoritmo basado en concurrencias (Gao et al., 2001)
Las traducciones correctas de las diferentes palabras que
conforman un contexto tienen un grado de asociación mayor que
la traducciones erróneas
El algoritmo busca la combinación de traducciones que maximiza
el grado de asociación global o cohesión
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
24. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Algoritmo Basado en Concurrencias (Gao et al., 2001)
(1) Given a Basque (source language) query
e = {e1 , e2 , ..., en }, for each query term e, we
define a set of m distinct Spanish translations (b) Compute the cohesion score for ci ,j as
according to a bilingual dictionary
D : D (ei ) = {ci ,1 , ci ,2 , ..., ci ,m }. cohesion(ci ,j | e, D ) = log ∑ am(ci ,j , D (ek ))
D (ek )
(2) For each set D (ei ): (2)
(a) For each translation ci ,j ∈ D (ei ), define (c) Select the translation c ∈ D (ei ) with the
the similarity score between the translation ci ,j and highest cohesion score
a set D (ek )(k = i ) as the sum of the similarities
between ci ,j and each translation in the set D (ek ) c = argmaxce,j ∈D (ei ) cohesion(ce,j | e, D ) (3)
according to Eq. (1)
am(ci ,j , D (ek )) = ∑ am(ci ,j , ck ,l ) (1)
ck ,l ∈D (ek )
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
25. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Tratamiento de Palabras OOV
Cobertura del MRD → 55 %
Incremento de la cobertura de la traducción del contexto
mediante el uso de cognados
Reglas de transformación:
c → k acta=akta normalizar n-gramas fonológicos equivalentes
-ción → -zio, acción=akzio transformaciones regulares
-ción → -zio, acción=akzio transformaciones regulares
Similitud ortográfica: Cálculo de LCSR entre término a traducir y
candidatos a traducción (LCSR > 0.8 → traducción correcta)
Ejemplo
Chimpancé - Txinpantze:
chimpancé (é → e) = chimpance (ch- → tx) = tximpance (mp → np) = txinpance (ce → ze) =
txinpanze
LCSR (txinpantze, txinpanze) = 0,9
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
26. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Índice
1 Introducción
Marco y Contexto del Trabajo
Métodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicas
Esquema General del Proceso
Construcción de Contextos
Traducción de los Contextos
Búsqueda de Equivalentes
3 Experimentos Diseñados y Resultados
Creación del Corpus
Evaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
27. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Búsqueda de Equivalentes
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
28. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Ranking de Equivalentes I
El contexto traducido del término a traducir (euskera) es
comparado con los contextos de los candidatos en el idioma de
destino (castellano).
Ranking en base a la similitud entre contextos
Restricción: Los candidatos a traducción comparten la categoría
gramatical con la palabra de origen
Vectores de contexto (Baseline):
Ranking de acuerdo a medidas de similitud: Jaccard, Dice,
Cosine, . . .
Modelos probabilísticos:
Ranking de acuerdo a modelos probabilísticos: Okapi, DFR
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
29. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Ranking de Equivalentes I
El contexto traducido del término a traducir (euskera) es
comparado con los contextos de los candidatos en el idioma de
destino (castellano).
Ranking en base a la similitud entre contextos
Restricción: Los candidatos a traducción comparten la categoría
gramatical con la palabra de origen
Vectores de contexto (Baseline):
Ranking de acuerdo a medidas de similitud: Jaccard, Dice,
Cosine, . . .
Modelos probabilísticos:
Ranking de acuerdo a modelos probabilísticos: Okapi, DFR
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
30. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Ranking de Equivalentes I
El contexto traducido del término a traducir (euskera) es
comparado con los contextos de los candidatos en el idioma de
destino (castellano).
Ranking en base a la similitud entre contextos
Restricción: Los candidatos a traducción comparten la categoría
gramatical con la palabra de origen
Vectores de contexto (Baseline):
Ranking de acuerdo a medidas de similitud: Jaccard, Dice,
Cosine, . . .
Modelos probabilísticos:
Ranking de acuerdo a modelos probabilísticos: Okapi, DFR
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
31. Introducción
Esquema General del proceso
Extracción de equivalencias terminológicas
Construcción de Contextos
Experimentos Diseñados y Resultados
Traducción de los Contextos
Conclusiones y Perspectivas para el Futuro
Ranking de Equivalentes
Referencias
Ranking de Equivalentes II
Mejora de la precisión obtenida en el ranking:
La detección de cognados se aplica entre los 100 primeros
candidatos, tal y como se ha explicado en la sección 3
LCSR > 0,834. Si más de un candidato supera el umbral aquel
con el valor LCSR mas alto es elegido
Los traducciones obtenidas con este método son promocionadas
a la 1a posición del ranking
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
32. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Índice
1 Introducción
Marco y Contexto del Trabajo
Métodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicas
Esquema General del Proceso
Construcción de Contextos
Traducción de los Contextos
Búsqueda de Equivalentes
3 Experimentos Diseñados y Resultados
Creación del Corpus
Evaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
33. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Creación del Corpus I
Corpus en euskera = noticias de www.zientzia.net
Corpus en castellano = noticias de www.madrimasd.org
Comparabilidad:
Periodo: 2000-2007
Ambas webs ofrecen noticias científicas, del género divulgativo.
Distribución temática de los documentos del corpus:
Tema Madri+d Zientzia.net
Biología, Alimentación, Agricultura y 36,59 % 24,31 %
Pesca
Salud 9,73 % 16,26 %
Ciencias de la Tierra 6,12 % 10,44 %
Física, Química y Matemáticas 6,65 % 7,18 %
Tecnología e Industria 29,45 % 24,15 %
Energía y Medio Ambiente 11,45 % 7,35 %
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
34. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Creación del Corpus I
Corpus en euskera = noticias de www.zientzia.net
Corpus en castellano = noticias de www.madrimasd.org
Comparabilidad:
Periodo: 2000-2007
Ambas webs ofrecen noticias científicas, del género divulgativo.
Distribución temática de los documentos del corpus:
Tema Madri+d Zientzia.net
Biología, Alimentación, Agricultura y 36,59 % 24,31 %
Pesca
Salud 9,73 % 16,26 %
Ciencias de la Tierra 6,12 % 10,44 %
Física, Química y Matemáticas 6,65 % 7,18 %
Tecnología e Industria 29,45 % 24,15 %
Energía y Medio Ambiente 11,45 % 7,35 %
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
35. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Creación del Corpus II
Características del corpus:
Corpus #palabras #doc
eu es eu es
Test Corpus 1.092K 1.107K 2521 1242
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
36. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Índice
1 Introducción
Marco y Contexto del Trabajo
Métodos para la Extracción de Terminología Bilingüe
2 Extracción de equivalencias terminológicas
Esquema General del Proceso
Construcción de Contextos
Traducción de los Contextos
Búsqueda de Equivalentes
3 Experimentos Diseñados y Resultados
Creación del Corpus
Evaluación del Método de Extracción
4 Conclusiones y Perspectivas para el Futuro
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
37. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Test Set
Términos equivalentes euskera-castellano:
Pares de términos que aparecen en los corpus y no están
representados en el diccionario utilizado para traducir los
contextos
Equivalencia verificada automáticamente → Diccionarios
especializados(Euskalterm, ZThiztegia)
Ambos términos tienen una frequencia mínima determinada
Dos listas de términos (100 pares de términos por lista)
10 ≤ frecuencia del término ≤ 30
frecuencia del término > 50
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
38. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Aspectos Evaluados
Representación de contextos y cálculo de similitud:
LLR y coseno
modelos probabilísticos: Okapi (b=0,75) / Pl2 (c=1)
Métodos de Traducción:
Selección de la primera traducción
Algoritmo de selección de máxima coherencia
Detección de cognados para el tratamiento de palabras
desconocidas (OOV)
Ranking de candidatos a traducciones:
Similitud entre contextos
Hibridación similitud de contextos + cognados
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
39. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Representación de Contextos y Cálculo de Similitud
Precisión media
Precisión media Top Top Top Top Top
Top Top Top Top Top 1 5 10 15 20
1 5 10 15 20 LLR +
LLR + 0,07 0,15 0,17 0,18 0,23
0,27 0,52 0,62 0,65 0,65 cos
cos Okapi 0,05 0,12 0,17 0,21 0,23
Okapi 0,34 0,47 0,60 0,65 0,69 PL2 0,06 0,16 0,21 0,23 0,24
PL2 0,37 0,50 0,61 0,68 0,73
Cuadro: Precisión obtenida para los
Cuadro: Precisión obtenida para los
términos de frecuencia media-baja
términos de frecuencia alta (> 50).
([10..30]). Comparativa del baseline
Comparativa del baseline (LLR+cos) con
(LLR+cos) con los modelos probabilísticos
los modelos probabilísticos Okapi y PL2.
Okapi y PL2.
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
40. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Influencia de los Métodos de Selección / Detección de
Cognados
Precisión media Precisión media
Top Top Top Top Top Top Top Top Top Top
1 5 10 15 20 1 5 10 15 20
PL2+First 0,37 0,50 0,61 0,68 0,73 PL2+First 0,06 0,16 0,21 0,23 0,24
PL2+Coo 0,37 0,50 0,64 0,68 0,72 PL2+Coo 0,07 0,13 0,19 0,22 0,22
PL2+First PL2+First
0,30 0,54 0,59 0,72 0,74 0,05 0,16 0,23 0,25 0,26
+Cog +Cog
PL2+Coo PL2+Coo
0,32 0,55 0,67 0,71 0,74 0,06 0,18 0,19 0,25 0,26
+Cog +Cog
PL2+Coo PL2+Coo
+Cog 0,38 0,61 0,72 0,75 0,78 +Cog 0,28 0,39 0,40 0,45 0,46
+Cog-re +Cog-re
Cuadro: Precisión obtenida para los Cuadro: Precisión obtenida para los
términos de frecuencia alta (> 50) términos de frecuencia media-baja ([10..30])
combinando el modelo PL2 con las distintas combinando el modelo PL2 con las distintas
técnicas implementadas. técnicas implementadas.
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
41. Introducción
Extracción de equivalencias terminológicas
Creación del Corpus
Experimentos Diseñados y Resultados
Evaluación del Método de Extracción
Conclusiones y Perspectivas para el Futuro
Referencias
Resultados
Efecto de los cognados:
Proceso de traducción de contextos: precisión ↑
Aplicado entre los candidatos incluidos en el ranking:
precisión ↑↑
Modelos probabilísticos superan LLR + coseno.
PL2 > Okapi > LLR+cos
Términos de frecuencia alta: precisión ↑
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
42. Introducción
Extracción de equivalencias terminológicas
Conclusiones
Experimentos Diseñados y Resultados
Perspectivas para el Futuro
Conclusiones y Perspectivas para el Futuro
Referencias
Conclusiones
Integración de diferentes técnicas existentes y su adaptación a
un nuevo par de lenguas
La detección de cognados ayuda a mejorar los resultados,
utilizada tanto en el proceso de traducción de contextos como
sobre el ranking final → adecuado para corpus del área científica
(alta presencia de cognados)
El algoritmo de selección basado en concurrencias obtiene
peores resultados que el método de la 1a traducción.
Análisis de los resultados
+ Experimentación
Afinado del algoritmo
Corpus de pequeño tamaño (sólo el %18 de las palabras en
Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
43. Introducción
Extracción de equivalencias terminológicas
Conclusiones
Experimentos Diseñados y Resultados
Perspectivas para el Futuro
Conclusiones y Perspectivas para el Futuro
Referencias
Conclusiones
Integración de diferentes técnicas existentes y su adaptación a
un nuevo par de lenguas
La detección de cognados ayuda a mejorar los resultados,
utilizada tanto en el proceso de traducción de contextos como
sobre el ranking final → adecuado para corpus del área científica
(alta presencia de cognados)
El algoritmo de selección basado en concurrencias obtiene
peores resultados que el método de la 1a traducción.
Análisis de los resultados
+ Experimentación
Afinado del algoritmo
Corpus de pequeño tamaño (sólo el %18 de las palabras en
Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
44. Introducción
Extracción de equivalencias terminológicas
Conclusiones
Experimentos Diseñados y Resultados
Perspectivas para el Futuro
Conclusiones y Perspectivas para el Futuro
Referencias
Conclusiones
Integración de diferentes técnicas existentes y su adaptación a
un nuevo par de lenguas
La detección de cognados ayuda a mejorar los resultados,
utilizada tanto en el proceso de traducción de contextos como
sobre el ranking final → adecuado para corpus del área científica
(alta presencia de cognados)
El algoritmo de selección basado en concurrencias obtiene
peores resultados que el método de la 1a traducción.
Análisis de los resultados
+ Experimentación
Afinado del algoritmo
Corpus de pequeño tamaño (sólo el %18 de las palabras en
Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
45. Introducción
Extracción de equivalencias terminológicas
Conclusiones
Experimentos Diseñados y Resultados
Perspectivas para el Futuro
Conclusiones y Perspectivas para el Futuro
Referencias
Conclusiones
Integración de diferentes técnicas existentes y su adaptación a
un nuevo par de lenguas
La detección de cognados ayuda a mejorar los resultados,
utilizada tanto en el proceso de traducción de contextos como
sobre el ranking final → adecuado para corpus del área científica
(alta presencia de cognados)
El algoritmo de selección basado en concurrencias obtiene
peores resultados que el método de la 1a traducción.
Análisis de los resultados
+ Experimentación
Afinado del algoritmo
Corpus de pequeño tamaño (sólo el %18 de las palabras en
Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
46. Introducción
Extracción de equivalencias terminológicas
Conclusiones
Experimentos Diseñados y Resultados
Perspectivas para el Futuro
Conclusiones y Perspectivas para el Futuro
Referencias
Perpectivas para el Futuro
Creación de corpus de mayor tamaño
Profundizar en los experimentos
Algoritmos de selección de traducciones
Modelos probabilísticos
Expandir trabajo a otras lenguas (Francés, Alemán, . . . )
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
47. Introducción
Extracción de equivalencias terminológicas
Experimentos Diseñados y Resultados
Conclusiones y Perspectivas para el Futuro
Referencias
Referencias I
Fung, Pascale. 1995. Compiling bilingual lexicon entries from a
non-parallel English-Chinese corpus. In David Yarovsky and Kenneth
Church, editors, Proceedings of the Third Workshop on Very Large
Corpora, pages 173–183, Somerset, New Jersey. Association for
Computational Linguistics.
Gao, Jianfeng, Jian-Yun Nie, Endong Xun, Jian Zhang, Ming Zhou,
and Changning Huang. 2001. Improving query translation for
cross-language information retrieval using statistical models. In SIGIR
’01: Proceedings of the 24th annual international ACM SIGIR
conference on Research and development in information retrieval,
pages 96–104. ACM.
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
48. Introducción
Extracción de equivalencias terminológicas
Experimentos Diseñados y Resultados
Conclusiones y Perspectivas para el Futuro
Referencias
Referencias II
Rapp, Reinhard. 1999. Automatic identification of word translations
from unrelated english and german corpora. In ACL37, pages
519–512, University of Maryland.
Saralegi, Xabier, Iñaki San Vicente, and Antton Gurrutxaga. 2008.
Similitud entre documentos multilingües de carácter técnico en un
entorno web. In Proceedings of quot;Building and Using Comparable
Corporaquot;workshop (LREC 2008), Marrakech, May.
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables
49. Introducción
Extracción de equivalencias terminológicas
Experimentos Diseñados y Resultados
Conclusiones y Perspectivas para el Futuro
Referencias
Extracción de Traducciones de Términos a partir de
Corpus Comparables pertenecientes a áreas
específicas
Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle
Fundación Elhuyar
I+D
SEPLN 2008, Leganés
12/09/2008
Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables