SlideShare una empresa de Scribd logo
1 de 37
Descargar para leer sin conexión
© 2012 #1
traducción automática
para LSPs
Diego Bartolomé, CEO
© 2012 #2
presentaciones
© 2012 #3
¿dónde estamos?
1954 machine translation movie
© 2012 #4
¡nunca!
no funciona para lo que hacemos
salen errores muy graves
se equivoca en cosas muy sencillas
pierdo más tiempo que empezando de cero
la calidad final siempre será peor
nos va a quitar el trabajo
...
© 2012 #5
... pero ...
los precios van a la baja
los deadlines son cada vez más ajustados
la competencia es cada vez más dura
hay diferentes niveles de calidad tolerados
cada vez con más contenido para traducir
y en más idiomas
a veces, es necesario traducir en tiempo real
© 2012 #6
© 2012 #7
© 2012 #8
le podemos dar una oportunidad
incrementa la productividad
nos elimina ciertas tareas repetitivas
mejora con el tiempo
reduce los costes
permite acceder a nuevos clientes
proporciona nuevos modelos de negocio
no sirve para todo
© 2012 #9
Gartner hype cycle
© 2012 #10
en los 80/90
3 sistemas principales: Systran, Logos, Metal
interés renovado por 3 motivos principales
aumento de la capacidad computacional
reducción del coste de hardware y software
aparición de los modelos estadísticos (IBM)
métodos basados en ejemplos
principalmente en Japón
proyecto de S2S: Verbmobil
© 2012 #11
boom actual
plena efervescencia de sistemas
reglas
basados en ejemplos
estadísticos
basados en contexto
alternativas: crowdsourcing
importantes compañías involucradas
IBM, SAP, Google, Microsoft ...
© 2012 #12
© 2012 #13
modelo SMT
© 2012 #14
sobre la SMT
ventajas
rapidez de desarrollo de idiomas y dominios
superioridad en aplicaciones acotadas
alto volumen de texto multilingüe disponible
no necesita intervención lingüística
inconvenientes
metodología estadística
cómo particularizar
© 2012 #15
productividad en Autodesk
© 2012 #16
productividad según longitud
© 2012 #17
¿qué tenemos en tauyou?
demo ttext
© 2012 #18
características
<idiomas _ dominios _ palabras traducidas>
ilimitadas
<glosarios>
traducciones y palabras prohibidas
<formatos de ficheros>
tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx,
xls, xlsx, xml, html, rtf, InDesign, ...
<y mucho más>
aprendizaje
dinos lo que necesitas y lo hacemos
© 2012 #19
creación de dominio
<LSP> <tauyou>
memorias de traducción corpus open-source
documentos previos alineación documentación
webs de clientes información pública
reglas programación de reglas
otros datos extracción de terminología
<algunas cuestiones>
mínimo número de palabras
necesidad de clasificación de datos
pares de idiomas
© 2012 #20
y más
<selección y limpieza de datos>
tablas de traducción y modelos de lenguaje
datos y parámetros para ajuste fino
medidas de test
<creación de motores>
varios + purga
<validación>
por traductores profesionales
<mejora continua>
nuevos ficheros, corpus, reglas, etc...
© 2012 #21
el proceso de producción (I)
decodificación SMT
conversión
formato
segmentar
texto
tareas
NLP
tokenizar
reescribir
origen
minúsculas
© 2012 #22
el proceso de producción (II)
decodificación SMT
fichero
traducido
reformatear detokenizar
reescribir
destino
mayúsculasevaluación
© 2012 #23
minimización del riesgo
<tauyou>
cálculo medidas calidad
<LSP>
análisis de coste y tiempo
<LSP> + <tauyou>
medir la evolución
© 2012 #24
Niveles de calidad
Nivel Traducción Contenido Calidad
1111 HumanaHumanaHumanaHumana Marketing, traducciones conMarketing, traducciones conMarketing, traducciones conMarketing, traducciones con
certificcicertificcicertificcicertificcióóóón, documentacin, documentacin, documentacin, documentacióóóónnnn
ttttéééécnica muy especializadacnica muy especializadacnica muy especializadacnica muy especializada
para uso externo, webs depara uso externo, webs depara uso externo, webs depara uso externo, webs de
mucho trmucho trmucho trmucho trááááficoficoficofico
AltaAltaAltaAlta
2222 MT posteditadaMT posteditadaMT posteditadaMT posteditada DocumentaciDocumentaciDocumentaciDocumentacióóóón e uso interno,n e uso interno,n e uso interno,n e uso interno,
ppppááááginas web de trginas web de trginas web de trginas web de trááááfico mediofico mediofico mediofico medio
MediaMediaMediaMedia
3333 MT +terminologMT +terminologMT +terminologMT +terminologíííía,a,a,a,
TM y/o diccionariosTM y/o diccionariosTM y/o diccionariosTM y/o diccionarios
InformaciInformaciInformaciInformacióóóón bn bn bn báááásica, conocer elsica, conocer elsica, conocer elsica, conocer el
contenido del textocontenido del textocontenido del textocontenido del texto
Debajo de laDebajo de laDebajo de laDebajo de la
mediamediamediamedia
4444 MT en brutoMT en brutoMT en brutoMT en bruto Medios sociales/digitales,Medios sociales/digitales,Medios sociales/digitales,Medios sociales/digitales,
informaciinformaciinformaciinformacióóóón para clienten para clienten para clienten para cliente
PobrePobrePobrePobre
© 2012 #25
postedición suficientemente buena
Se intenta obtener una traducción correcta desde el punto de
vista semántico.
Se asegura que no se haya añadido ni omitido ninguna
información accidentalmente.
Se modifica todo contenido ofensivo, inadecuado o no aceptable
culturalmente.
Se utiliza tanto como sea posible del resultado “en bruto” de la
traducción automática.
Se aplican las reglas básicas con respecto a la ortografía.
No hay que implementar correcciones de naturaleza estilística.
No hay que reestructurar oraciones solo para mejorar el flujo
natural del texto.
© 2012 #26
postedición de calidad
Se intenta obtener una traducción correcta desde el punto de vista
gramatical, sintáctico y semántico.
Se asegura que la terminología clave esté correctamente traducida y
que los términos no traducidos sean los que aparecen en la lista
de “Términos que no se deben traducir“ del cliente.
Se asegura que no se haya añadido ni omitido ninguna información.
Se modifica todo contenido ofensivo, inadecuado o no aceptable
culturalmente.
Se utiliza tanto como sea posible del resultado “en bruto” de la
traducción automática.
Se aplican reglas básicas con respecto a la ortografía, puntuación y
guiones.
Se asegura que el formato sea el correcto.
© 2012 #27
casos habituales
© 2012 #28
datos 1
<gran volumen de datos heterogéneos>
entrenamiento con todo
clasificación semántica por dominios
ajuste fino para cada cliente
priorización por glosarios
aprendizaje continuo
© 2012 #29
datos 2
<datos escasos>
añadir diccionarios al corpus
completar con segmentos complementarios
combinar datos del cliente con texto genérico
adaptación a dominio en base a genérico
aumentar el número de frases con reglas
© 2012 #30
datos 3
<datos sucios>
eliminar traducciones múltiples
detectar texto en otros idiomas
corregir ortografía
seleccionar frases con gramática correcta
alineación con terminología del cliente
filtrar otros segmentos indeseados
© 2012 #31
datos 4
<creación y mejora de datos>
cliente final definido
documentos traducidos sin alinear
traducciones genéricas
creacion del corpus/memorias óptimas
extensión y filtrado basado en reglas
© 2012 #32
cuestiones lingüísticas 1
<palabras no traducidas>
creación de diccionarios
<errores gramaticales>
reglas de post-proceso
<filtrado de calidad>
eliminar aquellas que no cumplan requisitos
© 2012 #33
cuestiones lingüísticas 2
<limpieza del texto original>
ortografía y gramática
simplificación de frases
homogeneización terminológica
<detección de palabras especiales>
personas, lugares, organizaciones
códigos alfanuméricos
© 2012 #34
caso de uso ...
<volumen recurrentes>
traducciones frecuencues
clientes de diferentes dominios
<flujo>
conseguir cuanto más datos mejor
recibir un nuevo fichero para traducir
crear un dominio ad-hoc para ese fichero
entrenar la solución y reglas básicas
<salida>
adaptación óptima en alrededor 4 horas
© 2012 #35
algunos consejos
clientes más grandes
idiomas
con volúmenes más altos
con estructura similar
con necesidades o terminología específica
involucrar a traductores innovadores
empezar ... probar
© 2012 #36
otras soluciones
<author>
mejorar la calidad del texto original
coherencia y simplificación
ortografía, gramática, semántica
<web>
traducción de páginas web
MT + postedición automática
<API>
integración en otras aplicaciones
posibilidad de tiempo real
© 2012 #37
¡Gracias!
// Diego Bartolomé, PhD
<dirección> C/ Les Planes 39 – 08201 Sabadell
<teléfono> +34 93 711 29 96
<móvil> +34 670 331 225
<email> dbc@tauyou.com
<www> tauyou.com

Más contenido relacionado

Similar a 2012 Traducción Automática para LSPs

Cas2010 behavior-driven-development-aplicado-en-acceptance-test-automation
Cas2010 behavior-driven-development-aplicado-en-acceptance-test-automationCas2010 behavior-driven-development-aplicado-en-acceptance-test-automation
Cas2010 behavior-driven-development-aplicado-en-acceptance-test-automationAgile Spain
 
Una introducción a ontimize
Una introducción a ontimizeUna introducción a ontimize
Una introducción a ontimizeontimize
 
Desarrollo De Proyectos Con Visual Basic
Desarrollo De Proyectos Con Visual BasicDesarrollo De Proyectos Con Visual Basic
Desarrollo De Proyectos Con Visual Basicguest01eddce
 
Desarrollo De Proyectos Con Visual Basic
Desarrollo De Proyectos Con Visual BasicDesarrollo De Proyectos Con Visual Basic
Desarrollo De Proyectos Con Visual Basicguest01eddce
 
1.1. Conceptos preliminares sobre la evolucion y desarrollo de los leguajes d...
1.1. Conceptos preliminares sobre la evolucion y desarrollo de los leguajes d...1.1. Conceptos preliminares sobre la evolucion y desarrollo de los leguajes d...
1.1. Conceptos preliminares sobre la evolucion y desarrollo de los leguajes d...LeonelCortes5
 
20º Webinar EXIN en Castellano: Elementos de un SLA: un punto de partida
20º Webinar EXIN en Castellano: Elementos de un SLA: un punto de partida20º Webinar EXIN en Castellano: Elementos de un SLA: un punto de partida
20º Webinar EXIN en Castellano: Elementos de un SLA: un punto de partidaEXIN
 
3 Atos Solo Pruebas 2009
3 Atos Solo Pruebas 20093 Atos Solo Pruebas 2009
3 Atos Solo Pruebas 2009Pepe
 
presen_final_ componentes insoetenibilidad
presen_final_ componentes insoetenibilidadpresen_final_ componentes insoetenibilidad
presen_final_ componentes insoetenibilidadlemusmath
 
Metodologías Ágiles en la Práctica
Metodologías Ágiles en la PrácticaMetodologías Ágiles en la Práctica
Metodologías Ágiles en la PrácticaManuel Rubio
 
Porque probar #esvs2010
Porque probar #esvs2010Porque probar #esvs2010
Porque probar #esvs2010rido
 
Porque probar #esvs2010
Porque probar #esvs2010Porque probar #esvs2010
Porque probar #esvs2010guestff2893
 
Libro blanco comparando el costo total de propiedad en las soluciones de int...
Libro blanco comparando el costo  total de propiedad en las soluciones de int...Libro blanco comparando el costo  total de propiedad en las soluciones de int...
Libro blanco comparando el costo total de propiedad en las soluciones de int...Hernando Bernal Algecira
 
Meetup: Sesión #8 Domain Driven Design
Meetup: Sesión #8 Domain Driven DesignMeetup: Sesión #8 Domain Driven Design
Meetup: Sesión #8 Domain Driven DesignOsvaldo Mercado Coss
 
CPSL - Presentación de servicios 2019
CPSL - Presentación de servicios 2019CPSL - Presentación de servicios 2019
CPSL - Presentación de servicios 2019Adela Baena
 
Apuntes #XPweek
Apuntes #XPweekApuntes #XPweek
Apuntes #XPweekCarlos Ble
 

Similar a 2012 Traducción Automática para LSPs (20)

Cas2010 behavior-driven-development-aplicado-en-acceptance-test-automation
Cas2010 behavior-driven-development-aplicado-en-acceptance-test-automationCas2010 behavior-driven-development-aplicado-en-acceptance-test-automation
Cas2010 behavior-driven-development-aplicado-en-acceptance-test-automation
 
Una introducción a ontimize
Una introducción a ontimizeUna introducción a ontimize
Una introducción a ontimize
 
Desarrollo De Proyectos Con Visual Basic
Desarrollo De Proyectos Con Visual BasicDesarrollo De Proyectos Con Visual Basic
Desarrollo De Proyectos Con Visual Basic
 
Desarrollo De Proyectos Con Visual Basic
Desarrollo De Proyectos Con Visual BasicDesarrollo De Proyectos Con Visual Basic
Desarrollo De Proyectos Con Visual Basic
 
Diseño físico
Diseño físicoDiseño físico
Diseño físico
 
Aii
AiiAii
Aii
 
1.1. Conceptos preliminares sobre la evolucion y desarrollo de los leguajes d...
1.1. Conceptos preliminares sobre la evolucion y desarrollo de los leguajes d...1.1. Conceptos preliminares sobre la evolucion y desarrollo de los leguajes d...
1.1. Conceptos preliminares sobre la evolucion y desarrollo de los leguajes d...
 
20º Webinar EXIN en Castellano: Elementos de un SLA: un punto de partida
20º Webinar EXIN en Castellano: Elementos de un SLA: un punto de partida20º Webinar EXIN en Castellano: Elementos de un SLA: un punto de partida
20º Webinar EXIN en Castellano: Elementos de un SLA: un punto de partida
 
3 Atos Solo Pruebas 2009
3 Atos Solo Pruebas 20093 Atos Solo Pruebas 2009
3 Atos Solo Pruebas 2009
 
presen_final_ componentes insoetenibilidad
presen_final_ componentes insoetenibilidadpresen_final_ componentes insoetenibilidad
presen_final_ componentes insoetenibilidad
 
Metodologías Ágiles en la Práctica
Metodologías Ágiles en la PrácticaMetodologías Ágiles en la Práctica
Metodologías Ágiles en la Práctica
 
Admin_mysql
Admin_mysqlAdmin_mysql
Admin_mysql
 
Porque probar #esvs2010
Porque probar #esvs2010Porque probar #esvs2010
Porque probar #esvs2010
 
Porque probar #esvs2010
Porque probar #esvs2010Porque probar #esvs2010
Porque probar #esvs2010
 
Libro blanco comparando el costo total de propiedad en las soluciones de int...
Libro blanco comparando el costo  total de propiedad en las soluciones de int...Libro blanco comparando el costo  total de propiedad en las soluciones de int...
Libro blanco comparando el costo total de propiedad en las soluciones de int...
 
Domain driven desing
Domain driven desingDomain driven desing
Domain driven desing
 
Meetup: Sesión #8 Domain Driven Design
Meetup: Sesión #8 Domain Driven DesignMeetup: Sesión #8 Domain Driven Design
Meetup: Sesión #8 Domain Driven Design
 
CPSL - Presentación de servicios 2019
CPSL - Presentación de servicios 2019CPSL - Presentación de servicios 2019
CPSL - Presentación de servicios 2019
 
Apuntes #XPweek
Apuntes #XPweekApuntes #XPweek
Apuntes #XPweek
 
Unidad ii. tdd
Unidad ii. tddUnidad ii. tdd
Unidad ii. tdd
 

Más de tauyou

Artificial Intelligence and Machine Learning found in Translation
Artificial Intelligence and Machine Learning found in TranslationArtificial Intelligence and Machine Learning found in Translation
Artificial Intelligence and Machine Learning found in Translationtauyou
 
Some Lessons Learned on Machine Translation
Some Lessons Learned on Machine TranslationSome Lessons Learned on Machine Translation
Some Lessons Learned on Machine Translationtauyou
 
From the Lab to the Market
From the Lab to the MarketFrom the Lab to the Market
From the Lab to the Markettauyou
 
APIfying the Translation Industry
APIfying the Translation IndustryAPIfying the Translation Industry
APIfying the Translation Industrytauyou
 
The Discreet Charm of Machine Translation
The Discreet Charm of Machine TranslationThe Discreet Charm of Machine Translation
The Discreet Charm of Machine Translationtauyou
 
Women in Localization UK Webinar with Diego Bartolome
Women in Localization UK Webinar with Diego BartolomeWomen in Localization UK Webinar with Diego Bartolome
Women in Localization UK Webinar with Diego Bartolometauyou
 
TAUS Post-editing webinar. Spanish-to-English Module
TAUS Post-editing webinar. Spanish-to-English ModuleTAUS Post-editing webinar. Spanish-to-English Module
TAUS Post-editing webinar. Spanish-to-English Moduletauyou
 
The Beauty of Machine Translation
The Beauty of Machine TranslationThe Beauty of Machine Translation
The Beauty of Machine Translationtauyou
 
Emerging Technologies Enabling New Business Models
Emerging Technologies Enabling New Business ModelsEmerging Technologies Enabling New Business Models
Emerging Technologies Enabling New Business Modelstauyou
 
Innovating in Translation
Innovating in TranslationInnovating in Translation
Innovating in Translationtauyou
 
Pushing Machine Translation Forward
Pushing Machine Translation ForwardPushing Machine Translation Forward
Pushing Machine Translation Forwardtauyou
 
The State of Post-Editing
The State of Post-EditingThe State of Post-Editing
The State of Post-Editingtauyou
 
Machine Translation Master Class at the EUATC Conference by Diego Bartolome
Machine Translation Master Class at the EUATC Conference by Diego BartolomeMachine Translation Master Class at the EUATC Conference by Diego Bartolome
Machine Translation Master Class at the EUATC Conference by Diego Bartolometauyou
 
lo que he aprendido (y quiero compartir)
lo que he aprendido (y quiero compartir)lo que he aprendido (y quiero compartir)
lo que he aprendido (y quiero compartir)tauyou
 
What you need to put Machine Translation into practice: Tools, People, and Pr...
What you need to put Machine Translation into practice: Tools, People, and Pr...What you need to put Machine Translation into practice: Tools, People, and Pr...
What you need to put Machine Translation into practice: Tools, People, and Pr...tauyou
 
How we failed to win a 100,000,000 word contract (GALA Istanbul 2014)
How we failed to win a 100,000,000 word contract (GALA Istanbul 2014)How we failed to win a 100,000,000 word contract (GALA Istanbul 2014)
How we failed to win a 100,000,000 word contract (GALA Istanbul 2014)tauyou
 
Learn to Innovate (GALA Istanbul 2014)
Learn to Innovate (GALA Istanbul 2014)Learn to Innovate (GALA Istanbul 2014)
Learn to Innovate (GALA Istanbul 2014)tauyou
 
Entrepreneurship in Education
Entrepreneurship in EducationEntrepreneurship in Education
Entrepreneurship in Educationtauyou
 
2013 UAB Barcelona: Change the world (one start-up at a time)
2013 UAB Barcelona: Change the world (one start-up at a time)2013 UAB Barcelona: Change the world (one start-up at a time)
2013 UAB Barcelona: Change the world (one start-up at a time)tauyou
 
2013 Tekom Wiesbaden: A Business Model Generation Session
2013 Tekom Wiesbaden: A Business Model Generation Session2013 Tekom Wiesbaden: A Business Model Generation Session
2013 Tekom Wiesbaden: A Business Model Generation Sessiontauyou
 

Más de tauyou (20)

Artificial Intelligence and Machine Learning found in Translation
Artificial Intelligence and Machine Learning found in TranslationArtificial Intelligence and Machine Learning found in Translation
Artificial Intelligence and Machine Learning found in Translation
 
Some Lessons Learned on Machine Translation
Some Lessons Learned on Machine TranslationSome Lessons Learned on Machine Translation
Some Lessons Learned on Machine Translation
 
From the Lab to the Market
From the Lab to the MarketFrom the Lab to the Market
From the Lab to the Market
 
APIfying the Translation Industry
APIfying the Translation IndustryAPIfying the Translation Industry
APIfying the Translation Industry
 
The Discreet Charm of Machine Translation
The Discreet Charm of Machine TranslationThe Discreet Charm of Machine Translation
The Discreet Charm of Machine Translation
 
Women in Localization UK Webinar with Diego Bartolome
Women in Localization UK Webinar with Diego BartolomeWomen in Localization UK Webinar with Diego Bartolome
Women in Localization UK Webinar with Diego Bartolome
 
TAUS Post-editing webinar. Spanish-to-English Module
TAUS Post-editing webinar. Spanish-to-English ModuleTAUS Post-editing webinar. Spanish-to-English Module
TAUS Post-editing webinar. Spanish-to-English Module
 
The Beauty of Machine Translation
The Beauty of Machine TranslationThe Beauty of Machine Translation
The Beauty of Machine Translation
 
Emerging Technologies Enabling New Business Models
Emerging Technologies Enabling New Business ModelsEmerging Technologies Enabling New Business Models
Emerging Technologies Enabling New Business Models
 
Innovating in Translation
Innovating in TranslationInnovating in Translation
Innovating in Translation
 
Pushing Machine Translation Forward
Pushing Machine Translation ForwardPushing Machine Translation Forward
Pushing Machine Translation Forward
 
The State of Post-Editing
The State of Post-EditingThe State of Post-Editing
The State of Post-Editing
 
Machine Translation Master Class at the EUATC Conference by Diego Bartolome
Machine Translation Master Class at the EUATC Conference by Diego BartolomeMachine Translation Master Class at the EUATC Conference by Diego Bartolome
Machine Translation Master Class at the EUATC Conference by Diego Bartolome
 
lo que he aprendido (y quiero compartir)
lo que he aprendido (y quiero compartir)lo que he aprendido (y quiero compartir)
lo que he aprendido (y quiero compartir)
 
What you need to put Machine Translation into practice: Tools, People, and Pr...
What you need to put Machine Translation into practice: Tools, People, and Pr...What you need to put Machine Translation into practice: Tools, People, and Pr...
What you need to put Machine Translation into practice: Tools, People, and Pr...
 
How we failed to win a 100,000,000 word contract (GALA Istanbul 2014)
How we failed to win a 100,000,000 word contract (GALA Istanbul 2014)How we failed to win a 100,000,000 word contract (GALA Istanbul 2014)
How we failed to win a 100,000,000 word contract (GALA Istanbul 2014)
 
Learn to Innovate (GALA Istanbul 2014)
Learn to Innovate (GALA Istanbul 2014)Learn to Innovate (GALA Istanbul 2014)
Learn to Innovate (GALA Istanbul 2014)
 
Entrepreneurship in Education
Entrepreneurship in EducationEntrepreneurship in Education
Entrepreneurship in Education
 
2013 UAB Barcelona: Change the world (one start-up at a time)
2013 UAB Barcelona: Change the world (one start-up at a time)2013 UAB Barcelona: Change the world (one start-up at a time)
2013 UAB Barcelona: Change the world (one start-up at a time)
 
2013 Tekom Wiesbaden: A Business Model Generation Session
2013 Tekom Wiesbaden: A Business Model Generation Session2013 Tekom Wiesbaden: A Business Model Generation Session
2013 Tekom Wiesbaden: A Business Model Generation Session
 

Último

La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafiosFundación YOD YOD
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxpabonheidy28
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxJOSEMANUELHERNANDEZH11
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfSergioMendoza354770
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024GiovanniJavierHidalg
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...FacuMeza2
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersIván López Martín
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...AlanCedillo9
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 

Último (19)

La era de la educación digital y sus desafios
La era de la educación digital y sus desafiosLa era de la educación digital y sus desafios
La era de la educación digital y sus desafios
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
Plan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docxPlan de aula informatica segundo periodo.docx
Plan de aula informatica segundo periodo.docx
 
Hernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptxHernandez_Hernandez_Practica web de la sesion 12.pptx
Hernandez_Hernandez_Practica web de la sesion 12.pptx
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdfPARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
PARTES DE UN OSCILOSCOPIO ANALOGICO .pdf
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024Cortes-24-de-abril-Tungurahua-3 año 2024
Cortes-24-de-abril-Tungurahua-3 año 2024
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
ATAJOS DE WINDOWS. Los diferentes atajos para utilizar en windows y ser más e...
 
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 TestcontainersSalmorejoTech 2024 - Spring Boot <3 Testcontainers
SalmorejoTech 2024 - Spring Boot <3 Testcontainers
 
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
Instrumentación Hoy_ INTERPRETAR EL DIAGRAMA UNIFILAR GENERAL DE UNA PLANTA I...
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 

2012 Traducción Automática para LSPs

  • 1. © 2012 #1 traducción automática para LSPs Diego Bartolomé, CEO
  • 3. © 2012 #3 ¿dónde estamos? 1954 machine translation movie
  • 4. © 2012 #4 ¡nunca! no funciona para lo que hacemos salen errores muy graves se equivoca en cosas muy sencillas pierdo más tiempo que empezando de cero la calidad final siempre será peor nos va a quitar el trabajo ...
  • 5. © 2012 #5 ... pero ... los precios van a la baja los deadlines son cada vez más ajustados la competencia es cada vez más dura hay diferentes niveles de calidad tolerados cada vez con más contenido para traducir y en más idiomas a veces, es necesario traducir en tiempo real
  • 8. © 2012 #8 le podemos dar una oportunidad incrementa la productividad nos elimina ciertas tareas repetitivas mejora con el tiempo reduce los costes permite acceder a nuevos clientes proporciona nuevos modelos de negocio no sirve para todo
  • 9. © 2012 #9 Gartner hype cycle
  • 10. © 2012 #10 en los 80/90 3 sistemas principales: Systran, Logos, Metal interés renovado por 3 motivos principales aumento de la capacidad computacional reducción del coste de hardware y software aparición de los modelos estadísticos (IBM) métodos basados en ejemplos principalmente en Japón proyecto de S2S: Verbmobil
  • 11. © 2012 #11 boom actual plena efervescencia de sistemas reglas basados en ejemplos estadísticos basados en contexto alternativas: crowdsourcing importantes compañías involucradas IBM, SAP, Google, Microsoft ...
  • 14. © 2012 #14 sobre la SMT ventajas rapidez de desarrollo de idiomas y dominios superioridad en aplicaciones acotadas alto volumen de texto multilingüe disponible no necesita intervención lingüística inconvenientes metodología estadística cómo particularizar
  • 16. © 2012 #16 productividad según longitud
  • 17. © 2012 #17 ¿qué tenemos en tauyou? demo ttext
  • 18. © 2012 #18 características <idiomas _ dominios _ palabras traducidas> ilimitadas <glosarios> traducciones y palabras prohibidas <formatos de ficheros> tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx, xls, xlsx, xml, html, rtf, InDesign, ... <y mucho más> aprendizaje dinos lo que necesitas y lo hacemos
  • 19. © 2012 #19 creación de dominio <LSP> <tauyou> memorias de traducción corpus open-source documentos previos alineación documentación webs de clientes información pública reglas programación de reglas otros datos extracción de terminología <algunas cuestiones> mínimo número de palabras necesidad de clasificación de datos pares de idiomas
  • 20. © 2012 #20 y más <selección y limpieza de datos> tablas de traducción y modelos de lenguaje datos y parámetros para ajuste fino medidas de test <creación de motores> varios + purga <validación> por traductores profesionales <mejora continua> nuevos ficheros, corpus, reglas, etc...
  • 21. © 2012 #21 el proceso de producción (I) decodificación SMT conversión formato segmentar texto tareas NLP tokenizar reescribir origen minúsculas
  • 22. © 2012 #22 el proceso de producción (II) decodificación SMT fichero traducido reformatear detokenizar reescribir destino mayúsculasevaluación
  • 23. © 2012 #23 minimización del riesgo <tauyou> cálculo medidas calidad <LSP> análisis de coste y tiempo <LSP> + <tauyou> medir la evolución
  • 24. © 2012 #24 Niveles de calidad Nivel Traducción Contenido Calidad 1111 HumanaHumanaHumanaHumana Marketing, traducciones conMarketing, traducciones conMarketing, traducciones conMarketing, traducciones con certificcicertificcicertificcicertificcióóóón, documentacin, documentacin, documentacin, documentacióóóónnnn ttttéééécnica muy especializadacnica muy especializadacnica muy especializadacnica muy especializada para uso externo, webs depara uso externo, webs depara uso externo, webs depara uso externo, webs de mucho trmucho trmucho trmucho trááááficoficoficofico AltaAltaAltaAlta 2222 MT posteditadaMT posteditadaMT posteditadaMT posteditada DocumentaciDocumentaciDocumentaciDocumentacióóóón e uso interno,n e uso interno,n e uso interno,n e uso interno, ppppááááginas web de trginas web de trginas web de trginas web de trááááfico mediofico mediofico mediofico medio MediaMediaMediaMedia 3333 MT +terminologMT +terminologMT +terminologMT +terminologíííía,a,a,a, TM y/o diccionariosTM y/o diccionariosTM y/o diccionariosTM y/o diccionarios InformaciInformaciInformaciInformacióóóón bn bn bn báááásica, conocer elsica, conocer elsica, conocer elsica, conocer el contenido del textocontenido del textocontenido del textocontenido del texto Debajo de laDebajo de laDebajo de laDebajo de la mediamediamediamedia 4444 MT en brutoMT en brutoMT en brutoMT en bruto Medios sociales/digitales,Medios sociales/digitales,Medios sociales/digitales,Medios sociales/digitales, informaciinformaciinformaciinformacióóóón para clienten para clienten para clienten para cliente PobrePobrePobrePobre
  • 25. © 2012 #25 postedición suficientemente buena Se intenta obtener una traducción correcta desde el punto de vista semántico. Se asegura que no se haya añadido ni omitido ninguna información accidentalmente. Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente. Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática. Se aplican las reglas básicas con respecto a la ortografía. No hay que implementar correcciones de naturaleza estilística. No hay que reestructurar oraciones solo para mejorar el flujo natural del texto.
  • 26. © 2012 #26 postedición de calidad Se intenta obtener una traducción correcta desde el punto de vista gramatical, sintáctico y semántico. Se asegura que la terminología clave esté correctamente traducida y que los términos no traducidos sean los que aparecen en la lista de “Términos que no se deben traducir“ del cliente. Se asegura que no se haya añadido ni omitido ninguna información. Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente. Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática. Se aplican reglas básicas con respecto a la ortografía, puntuación y guiones. Se asegura que el formato sea el correcto.
  • 27. © 2012 #27 casos habituales
  • 28. © 2012 #28 datos 1 <gran volumen de datos heterogéneos> entrenamiento con todo clasificación semántica por dominios ajuste fino para cada cliente priorización por glosarios aprendizaje continuo
  • 29. © 2012 #29 datos 2 <datos escasos> añadir diccionarios al corpus completar con segmentos complementarios combinar datos del cliente con texto genérico adaptación a dominio en base a genérico aumentar el número de frases con reglas
  • 30. © 2012 #30 datos 3 <datos sucios> eliminar traducciones múltiples detectar texto en otros idiomas corregir ortografía seleccionar frases con gramática correcta alineación con terminología del cliente filtrar otros segmentos indeseados
  • 31. © 2012 #31 datos 4 <creación y mejora de datos> cliente final definido documentos traducidos sin alinear traducciones genéricas creacion del corpus/memorias óptimas extensión y filtrado basado en reglas
  • 32. © 2012 #32 cuestiones lingüísticas 1 <palabras no traducidas> creación de diccionarios <errores gramaticales> reglas de post-proceso <filtrado de calidad> eliminar aquellas que no cumplan requisitos
  • 33. © 2012 #33 cuestiones lingüísticas 2 <limpieza del texto original> ortografía y gramática simplificación de frases homogeneización terminológica <detección de palabras especiales> personas, lugares, organizaciones códigos alfanuméricos
  • 34. © 2012 #34 caso de uso ... <volumen recurrentes> traducciones frecuencues clientes de diferentes dominios <flujo> conseguir cuanto más datos mejor recibir un nuevo fichero para traducir crear un dominio ad-hoc para ese fichero entrenar la solución y reglas básicas <salida> adaptación óptima en alrededor 4 horas
  • 35. © 2012 #35 algunos consejos clientes más grandes idiomas con volúmenes más altos con estructura similar con necesidades o terminología específica involucrar a traductores innovadores empezar ... probar
  • 36. © 2012 #36 otras soluciones <author> mejorar la calidad del texto original coherencia y simplificación ortografía, gramática, semántica <web> traducción de páginas web MT + postedición automática <API> integración en otras aplicaciones posibilidad de tiempo real
  • 37. © 2012 #37 ¡Gracias! // Diego Bartolomé, PhD <dirección> C/ Les Planes 39 – 08201 Sabadell <teléfono> +34 93 711 29 96 <móvil> +34 670 331 225 <email> dbc@tauyou.com <www> tauyou.com