Extracción Terminología Bilingüe Corpus Comparables

1. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas especíﬁcas Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle Fundación Elhuyar I+D SEPLN 2008, Leganés 12/09/2008 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

2. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Indice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

3. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

4. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Marco y Contexto del Trabajo Proyecto Azerhitz: Objetivo: crear una herramienta para la extracción de terminología bilingüe Par de lenguas euskera-castellano/inglés/francés/. . . Dominio cientíﬁco Corpus comparables como fuente. ¿Por qué? El euskera es una lengua de recursos limitados, gran diﬁcultad para obtener corpus paralelos Trabajo precedente (Saralegi, San Vicente, and Gurrutxaga, 2008): Técnicas de extracción de terminología bilingüe eu-en partir de corpus comparables Estudio sobre el grado de comparabilidad y su efecto en la calidad de la extracción Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

8. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

9. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Métodos para la Extracción de Terminología Bilingüe Paradigmas Similitud entre contextos (Fung, 1995), (Rapp, 1999): “Las traducciones equivalentes ocurren dentro de contextos similares” Similitud ortográﬁca-fonética: detección de cognados Objetivos del trabajo Mejorar el cálculo de similitud entre contextos: Tratamiento de ambigüedad y falta de cobertura en la traducción de contextos Modelos probabilísticos para el cálculo de similitud Diseño de un método de extracción híbrido: Combinación de los dos paradigmas Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

10. Introducción Extracción de equivalencias terminológicas Marco y Contexto del Trabajo Experimentos Diseñados y Resultados Métodos para la Extracción de Terminología Bilingüe Conclusiones y Perspectivas para el Futuro Referencias Métodos para la Extracción de Terminología Bilingüe Paradigmas Similitud entre contextos (Fung, 1995), (Rapp, 1999): “Las traducciones equivalentes ocurren dentro de contextos similares” Similitud ortográﬁca-fonética: detección de cognados Objetivos del trabajo Mejorar el cálculo de similitud entre contextos: Tratamiento de ambigüedad y falta de cobertura en la traducción de contextos Modelos probabilísticos para el cálculo de similitud Diseño de un método de extracción híbrido: Combinación de los dos paradigmas Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

11. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

12. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Algoritmo de extracción Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

14. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Construcción de Contextos Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

15. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Construcción de Contextos I Preproceso: Corpus lematizado y etiquetado mediante Eustagger (euskera) y Treetagger (castellano) Palabras clave: nombres comunes, adjetivos, verbos Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

16. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Construcción de Contextos II Representación de contextos: Básado en el paradigma ”bag-of-words” Contextos delimitados mediante ventanas y/o marcas de puntuación. Tamaños de ventana diferentes para cada lengua: Euskera → 10 (±5) Castellano → 14 (±7) Ejemplo “ Las [ pilas de combustible funcionan de forma similar a las baterías pero éstas sólo almacenan energía y las pilas la generan a través de la combustión de hidrógeno de forma limpia, eficiente ] y sostenible.” Palabras ponderadas dentro del contexto mediante Log Likelihood Ratio (Baseline) Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

17. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Construcción de Contextos: Modelos Probabilísticos Representación (implícita en el ranking) mediante modelos probabilísticos para IR (Terrier1 ) Okapi (BM25) PL2: instancia del framework Divergence From Randomess Por cada término candidato se indexa un documento Ese documento está formado por las palabras que aparecen en los contextos del término candidato en el corpus 1 http://http://ir.dcs.gla.ac.uk/terrier/ Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

19. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Traducción de los Contextos Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

20. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Traducción de los Contextos Para calcular el grado de semejanza entre contextos estos han de ser traducidos en una dirección Traducción guiada por diccionarios electrónicos (MRD) Problemas inherentes a la traducción guiada por diccionarios: Ambigüedad en la traducción → Estrategias de selección Falta de cobertura → Tratamiento de palabras OOV Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

21. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Traducción de los Contextos Para calcular el grado de semejanza entre contextos estos han de ser traducidos en una dirección Traducción guiada por diccionarios electrónicos (MRD) Problemas inherentes a la traducción guiada por diccionarios: Ambigüedad en la traducción → Estrategias de selección Falta de cobertura → Tratamiento de palabras OOV Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

22. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Selección de Traducción Primera traducción: la primera es normalmente la más probable Algoritmo basado en concurrencias (Gao et al., 2001) Las traducciones correctas de las diferentes palabras que conforman un contexto tienen un grado de asociación mayor que la traducciones erróneas El algoritmo busca la combinación de traducciones que maximiza el grado de asociación global o cohesión Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

23. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Selección de Traducción Primera traducción: la primera es normalmente la más probable Algoritmo basado en concurrencias (Gao et al., 2001) Las traducciones correctas de las diferentes palabras que conforman un contexto tienen un grado de asociación mayor que la traducciones erróneas El algoritmo busca la combinación de traducciones que maximiza el grado de asociación global o cohesión Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

24. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Algoritmo Basado en Concurrencias (Gao et al., 2001) (1) Given a Basque (source language) query e = {e1 , e2 , ..., en }, for each query term e, we deﬁne a set of m distinct Spanish translations (b) Compute the cohesion score for ci ,j as according to a bilingual dictionary D : D (ei ) = {ci ,1 , ci ,2 , ..., ci ,m }. cohesion(ci ,j | e, D ) = log ∑ am(ci ,j , D (ek )) D (ek ) (2) For each set D (ei ): (2) (a) For each translation ci ,j ∈ D (ei ), deﬁne (c) Select the translation c ∈ D (ei ) with the the similarity score between the translation ci ,j and highest cohesion score a set D (ek )(k = i ) as the sum of the similarities between ci ,j and each translation in the set D (ek ) c = argmaxce,j ∈D (ei ) cohesion(ce,j | e, D ) (3) according to Eq. (1) am(ci ,j , D (ek )) = ∑ am(ci ,j , ck ,l ) (1) ck ,l ∈D (ek ) Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

25. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Tratamiento de Palabras OOV Cobertura del MRD → 55 % Incremento de la cobertura de la traducción del contexto mediante el uso de cognados Reglas de transformación: c → k acta=akta normalizar n-gramas fonológicos equivalentes -ción → -zio, acción=akzio transformaciones regulares -ción → -zio, acción=akzio transformaciones regulares Similitud ortográﬁca: Cálculo de LCSR entre término a traducir y candidatos a traducción (LCSR > 0.8 → traducción correcta) Ejemplo Chimpancé - Txinpantze: chimpancé (é → e) = chimpance (ch- → tx) = tximpance (mp → np) = txinpance (ce → ze) = txinpanze LCSR (txinpantze, txinpanze) = 0,9 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

27. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Búsqueda de Equivalentes Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

28. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Ranking de Equivalentes I El contexto traducido del término a traducir (euskera) es comparado con los contextos de los candidatos en el idioma de destino (castellano). Ranking en base a la similitud entre contextos Restricción: Los candidatos a traducción comparten la categoría gramatical con la palabra de origen Vectores de contexto (Baseline): Ranking de acuerdo a medidas de similitud: Jaccard, Dice, Cosine, . . . Modelos probabilísticos: Ranking de acuerdo a modelos probabilísticos: Okapi, DFR Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

31. Introducción Esquema General del proceso Extracción de equivalencias terminológicas Construcción de Contextos Experimentos Diseñados y Resultados Traducción de los Contextos Conclusiones y Perspectivas para el Futuro Ranking de Equivalentes Referencias Ranking de Equivalentes II Mejora de la precisión obtenida en el ranking: La detección de cognados se aplica entre los 100 primeros candidatos, tal y como se ha explicado en la sección 3 LCSR > 0,834. Si más de un candidato supera el umbral aquel con el valor LCSR mas alto es elegido Los traducciones obtenidas con este método son promocionadas a la 1a posición del ranking Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

32. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

33. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Creación del Corpus I Corpus en euskera = noticias de www.zientzia.net Corpus en castellano = noticias de www.madrimasd.org Comparabilidad: Periodo: 2000-2007 Ambas webs ofrecen noticias cientíﬁcas, del género divulgativo. Distribución temática de los documentos del corpus: Tema Madri+d Zientzia.net Biología, Alimentación, Agricultura y 36,59 % 24,31 % Pesca Salud 9,73 % 16,26 % Ciencias de la Tierra 6,12 % 10,44 % Física, Química y Matemáticas 6,65 % 7,18 % Tecnología e Industria 29,45 % 24,15 % Energía y Medio Ambiente 11,45 % 7,35 % Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

34. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Creación del Corpus I Corpus en euskera = noticias de www.zientzia.net Corpus en castellano = noticias de www.madrimasd.org Comparabilidad: Periodo: 2000-2007 Ambas webs ofrecen noticias cientíﬁcas, del género divulgativo. Distribución temática de los documentos del corpus: Tema Madri+d Zientzia.net Biología, Alimentación, Agricultura y 36,59 % 24,31 % Pesca Salud 9,73 % 16,26 % Ciencias de la Tierra 6,12 % 10,44 % Física, Química y Matemáticas 6,65 % 7,18 % Tecnología e Industria 29,45 % 24,15 % Energía y Medio Ambiente 11,45 % 7,35 % Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

35. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Creación del Corpus II Características del corpus: Corpus #palabras #doc eu es eu es Test Corpus 1.092K 1.107K 2521 1242 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

36. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Índice 1 Introducción Marco y Contexto del Trabajo Métodos para la Extracción de Terminología Bilingüe 2 Extracción de equivalencias terminológicas Esquema General del Proceso Construcción de Contextos Traducción de los Contextos Búsqueda de Equivalentes 3 Experimentos Diseñados y Resultados Creación del Corpus Evaluación del Método de Extracción 4 Conclusiones y Perspectivas para el Futuro Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

37. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Test Set Términos equivalentes euskera-castellano: Pares de términos que aparecen en los corpus y no están representados en el diccionario utilizado para traducir los contextos Equivalencia veriﬁcada automáticamente → Diccionarios especializados(Euskalterm, ZThiztegia) Ambos términos tienen una frequencia mínima determinada Dos listas de términos (100 pares de términos por lista) 10 ≤ frecuencia del término ≤ 30 frecuencia del término > 50 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

38. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Aspectos Evaluados Representación de contextos y cálculo de similitud: LLR y coseno modelos probabilísticos: Okapi (b=0,75) / Pl2 (c=1) Métodos de Traducción: Selección de la primera traducción Algoritmo de selección de máxima coherencia Detección de cognados para el tratamiento de palabras desconocidas (OOV) Ranking de candidatos a traducciones: Similitud entre contextos Hibridación similitud de contextos + cognados Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

39. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Representación de Contextos y Cálculo de Similitud Precisión media Precisión media Top Top Top Top Top Top Top Top Top Top 1 5 10 15 20 1 5 10 15 20 LLR + LLR + 0,07 0,15 0,17 0,18 0,23 0,27 0,52 0,62 0,65 0,65 cos cos Okapi 0,05 0,12 0,17 0,21 0,23 Okapi 0,34 0,47 0,60 0,65 0,69 PL2 0,06 0,16 0,21 0,23 0,24 PL2 0,37 0,50 0,61 0,68 0,73 Cuadro: Precisión obtenida para los Cuadro: Precisión obtenida para los términos de frecuencia media-baja términos de frecuencia alta (> 50). ([10..30]). Comparativa del baseline Comparativa del baseline (LLR+cos) con (LLR+cos) con los modelos probabilísticos los modelos probabilísticos Okapi y PL2. Okapi y PL2. Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

40. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Inﬂuencia de los Métodos de Selección / Detección de Cognados Precisión media Precisión media Top Top Top Top Top Top Top Top Top Top 1 5 10 15 20 1 5 10 15 20 PL2+First 0,37 0,50 0,61 0,68 0,73 PL2+First 0,06 0,16 0,21 0,23 0,24 PL2+Coo 0,37 0,50 0,64 0,68 0,72 PL2+Coo 0,07 0,13 0,19 0,22 0,22 PL2+First PL2+First 0,30 0,54 0,59 0,72 0,74 0,05 0,16 0,23 0,25 0,26 +Cog +Cog PL2+Coo PL2+Coo 0,32 0,55 0,67 0,71 0,74 0,06 0,18 0,19 0,25 0,26 +Cog +Cog PL2+Coo PL2+Coo +Cog 0,38 0,61 0,72 0,75 0,78 +Cog 0,28 0,39 0,40 0,45 0,46 +Cog-re +Cog-re Cuadro: Precisión obtenida para los Cuadro: Precisión obtenida para los términos de frecuencia alta (> 50) términos de frecuencia media-baja ([10..30]) combinando el modelo PL2 con las distintas combinando el modelo PL2 con las distintas técnicas implementadas. técnicas implementadas. Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

41. Introducción Extracción de equivalencias terminológicas Creación del Corpus Experimentos Diseñados y Resultados Evaluación del Método de Extracción Conclusiones y Perspectivas para el Futuro Referencias Resultados Efecto de los cognados: Proceso de traducción de contextos: precisión ↑ Aplicado entre los candidatos incluidos en el ranking: precisión ↑↑ Modelos probabilísticos superan LLR + coseno. PL2 > Okapi > LLR+cos Términos de frecuencia alta: precisión ↑ Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

42. Introducción Extracción de equivalencias terminológicas Conclusiones Experimentos Diseñados y Resultados Perspectivas para el Futuro Conclusiones y Perspectivas para el Futuro Referencias Conclusiones Integración de diferentes técnicas existentes y su adaptación a un nuevo par de lenguas La detección de cognados ayuda a mejorar los resultados, utilizada tanto en el proceso de traducción de contextos como sobre el ranking final → adecuado para corpus del área científica (alta presencia de cognados) El algoritmo de selección basado en concurrencias obtiene peores resultados que el método de la 1a traducción. Análisis de los resultados + Experimentación Afinado del algoritmo Corpus de pequeño tamaño (sólo el %18 de las palabras en Euskera alcanzan una frequencia de 10)→ cobertura ↓ ↓ Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

46. Introducción Extracción de equivalencias terminológicas Conclusiones Experimentos Diseñados y Resultados Perspectivas para el Futuro Conclusiones y Perspectivas para el Futuro Referencias Perpectivas para el Futuro Creación de corpus de mayor tamaño Profundizar en los experimentos Algoritmos de selección de traducciones Modelos probabilísticos Expandir trabajo a otras lenguas (Francés, Alemán, . . . ) Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

47. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Referencias I Fung, Pascale. 1995. Compiling bilingual lexicon entries from a non-parallel English-Chinese corpus. In David Yarovsky and Kenneth Church, editors, Proceedings of the Third Workshop on Very Large Corpora, pages 173–183, Somerset, New Jersey. Association for Computational Linguistics. Gao, Jianfeng, Jian-Yun Nie, Endong Xun, Jian Zhang, Ming Zhou, and Changning Huang. 2001. Improving query translation for cross-language information retrieval using statistical models. In SIGIR ’01: Proceedings of the 24th annual international ACM SIGIR conference on Research and development in information retrieval, pages 96–104. ACM. Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

48. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Referencias II Rapp, Reinhard. 1999. Automatic identiﬁcation of word translations from unrelated english and german corpora. In ACL37, pages 519–512, University of Maryland. Saralegi, Xabier, Iñaki San Vicente, and Antton Gurrutxaga. 2008. Similitud entre documentos multilingües de carácter técnico en un entorno web. In Proceedings of quot;Building and Using Comparable Corporaquot;workshop (LREC 2008), Marrakech, May. Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

49. Introducción Extracción de equivalencias terminológicas Experimentos Diseñados y Resultados Conclusiones y Perspectivas para el Futuro Referencias Extracción de Traducciones de Términos a partir de Corpus Comparables pertenecientes a áreas especíﬁcas Xabier Saralegi Iñaki San Vicente Maddalen López de Lacalle Fundación Elhuyar I+D SEPLN 2008, Leganés 12/09/2008 Xabier Saralegi, Iñaki San Vicente, Maddalen López de Lacalle Extracción de Traducciones de Términos a partir de Corpus Comparables

Extracción Terminología Bilingüe Corpus Comparables

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (19)

Similar a Extracción Terminología Bilingüe Corpus Comparables

Similar a Extracción Terminología Bilingüe Corpus Comparables (20)

Último

Último (19)

Extracción Terminología Bilingüe Corpus Comparables