The Strategic Agenda for the Multilingual Digital Single Market V0.9
Mehrsprachigkeit und semantische Technologien
1. Mehrsprachigkeit und
semantische Technologien!
Felix Sasaki, Georg Rehm!
DFKI GmbH!
Forschungsbereich Sprachtechnologie, Berlin!
!
Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!
!
3. Übersetzung: Ein Riesengeschäft!!
Kommerzielle Übersetzung: ein Markt von
über 20 Milliarden Euro jährlich!!
Bereitstellung von Inhalten in dutzenden
von Sprachen immer öfter unverzichtbar!
Mehrsprachige Technologien – 6. Oktober 2014! 3!
4. Übersetzung: Ein Riesengeschäft!!
Wirtschaftlicher Vorteil;!
Anforderung an öffentliche
Einrichtungen, insbesondere in Europa!
Mehrsprachige Technologien – 6. Oktober 2014! 4!
5. Übersetzung – ein Potential in Europa:
The Digital Single Market!!
• 51% der europäischen
Einzelhändler verkaufen
Waren über das Internet!
• Nur 21% unterstützen
grenzüberschreitende
Transaktionen!
• 30% der Europäer haben
bereits im Internet eingekauft!
• Nur 7% haben einen Einkauf
bei einem Händler aus einem
anderen EU-Mitgliedsstaat
getätigt!
Vgl. „Flash Eurobarometer:!
User language preferences online“!
5!
Mehrsprachige Technologien – 6. Oktober 2014!
6. Die Sprachtechnologie-Community
in Europa: META-NET!
• Exzellenznetzwerk!
• 60 Forschungseinrichtungen
in 34 Ländern!
• Ziel: technologische Basis
für das mehrsprachige
Europa!
Mehrsprachige Technologien – 6. Oktober 2014! 6!
8. Automatische Übersetzung
für Jedermann?!
Online
Übersetzungstool:
Google Translate,
Bing Translate, ...!
Meine
Inhalte!
Alle Sprachen .... ?!
Mehrsprachige Technologien – 6. Oktober 2014! 8!
9. Exkurs: Ansätze für MT!
9!
Regelbasierter Ansatz!
– Nutzt Grammatik,
Lexikon, Überset-zungsregeln
!
– Vorteil: leicht
anpassbar an
neue Bereiche!
– Nachteil: sehr
große Anzahl
handgeschriebener
Regeln nötig!
!
Mehrsprachige Technologien – 6. Oktober 2014!
10. Exkurs: Ansätze für MT!
Statistischer Ansatz!
– Nutzt Trainingsdaten von existierenden
Übersetzungen!
– Vorteil: Neue Zielsprachen sind mit
Trainingsdaten schnell implementiert!
– Nachteil: Anpassung in speziellen Domänen
wegen fehlender Trainingsdaten oft schwierig!
10!
Ich mag meine Katze || I like my cat || 7!
Ich mag meine Katze || I love my cat || 3!
P (“I like my cat” || “Ich mag meine Katze“) = 0.7!
Mehrsprachige Technologien – 6. Oktober 2014!
12. WAS BRAUCHEN KMU UM MT
ERFOLGREICH EINZUSETZEN?!
Mehrsprachige Technologien – 6. Oktober 2014! 12!
13. 1. Eigene Übersetzungssysteme!
• System anpassen via
entsprechender
Trainingsdaten!
– Verfügbarkeit variiert
stark je nach Sprachpaar!
– Vgl. die META-NET
Language White
Paper Serie!
8IJUF 1BQFS 4FSJFT
5)& (&3."/
-"/(6"(& */
5)& %*(*5"-
"(&
8FJ•CVDI4FSJF
%* %654$)
413$) *.
%*(*5-/
;*5-53
MKPTDIB #VSDIBSEU
.BSLVT HH
,BUISJO JDIMFS
#SJHJUUF ,SFOO
+ÚSO ,SFVUFM
OOFUUF -F•NÚMMNBOO
(FPSH 3FIN
.BOGSFE 4UFEF
)BOT 6T[LPSFJU
.BSUJO 7PML
Mehrsprachige Technologien – 6. Oktober 2014! 13!
14. 1. Eigene Übersetzungssysteme!
• System anpassen via entsprechender
Trainingsdaten!
– Anpassung an Domänen!
14!
...
Mehrsprachige Technologien – 6. Oktober 2014!
15. 1. Eigene Übersetzungssysteme!
• System anpassen via entsprechender
Trainingsdaten!
– Eigene Terminologie: (Firmen) spezifische
Übersetzungsrichtlinien!
15!
„Auto car“!
„Auto vehicle“!
„Auto ...“!
Mehrsprachige Technologien – 6. Oktober 2014!
16. 1. Eigene Übersetzungssysteme!
• Leichte Integration in
Digital Content
Management!
– Workflows zwischen
CMS, DMS, Enterprise
CM, Web CMS, ...!
• Schnittstellen!
Mehrsprachige Technologien – 6. Oktober 2014! 16!
17. 2. Qualität!
• Übersetzungsqualität: Was ist das?!
– Beispiel: Text verständlich, Layout kaputt –
Zeitersparnis durch Übersetzungssystem geht
verloren!
• Maße für Maschinen und den Menschen!
– Qualität = Ähnlichkeit der Sätze mit
Beispielübersetzungen!
– Qualität = passend zu den Anforderungen im
jeweiligen Übersetzungsauftrag!
Mehrsprachige Technologien – 6. Oktober 2014! 17!
18. 3. Integration in Workflows!
• Inhaltserstellung!
• Übersetzung!
• Korrektur durch menschliche Übersetzer
(Post-Editing)!
• Qualitätsüberprüfung in mehreren
Zyklen ...!
• Fertigstellung!
Mehrsprachige Technologien – 6. Oktober 2014! 18!
21. Forschungsergebnisse 1: MOSES!
• Open-Source-Übersetzungssystem!
• Übersetzungssysteme im Eigenbau!
– Trainingsdaten!
– Terminologie!
– ... fertig J!
• Achtung: Trainingsdaten sind teuer!!
– Je mehr Qualität, desto mehr Daten nötig!
Mehrsprachige Technologien – 6. Oktober 2014! 21!
22. Forschungsergebnisse 2: MQM!
• Multidimensional Quality Metrics (MQM)!
• Metamodell zur Definition von Metriken,
entwickelt im QTLaunchPad Projekt!
• Modell wird in konkreten Projekten
instanziiert, in Abhängigkeit von den
Anforderungen!
– Beispiel: Layout mehr oder weniger relevant!
Mehrsprachige Technologien – 6. Oktober 2014! 22!
23. Forschungsergebnisse 2: MQM!
• Multidimensional Quality Metrics (MQM)!
• META-Modell zur Definition von Metriken!
• Modell wird in konkreten Projekten
instanziiert, in Abhängigkeit von den
Anforderungen!
– Beispiel: Layout mehr oder weniger relevant!
24. Forschungsergebnisse 3: ITS 2.0!
• Internationalization Tag Set (ITS) 2.0!
• Metadaten („data categories“) für
Übersetzungsworkflows!
• Beispiel: „Translate“!
– Ausgewählte Zeichenketten markieren
als „nicht zu übersetzen“!
• Mehrwert!
– Qualität steigt!
– Zahl von (manuellen) Korrekturen sinkt
Geschwindigkeit wird erhöht!
Mehrsprachige Technologien – 6. Oktober 2014! 24!
25. ITS 2.0 Metadaten und
automatische Qualitätskontrolle!
25!
td class=totrans!
Canyon X and the Land of the Navajo/td!
its:domainRule .../!
its:translateRule .../!
its:storageSizeRule ... storageSize=30/!
target ... its:storageSize=30
its:locQualityIssueComment=Number of bytes in the target
(using UTF-8) is: 32. Number allowed: 30. ... mrk...Canyon X
et la terre des Navajos/mrk...!
Mehrsprachige Technologien – 6. Oktober 2014!
26. Forschungsergebnisse 4:
Integration mit mehrsprachigen
Datenquellen!
• LIDER Projekt:
Mehrsprachigkeit trifft
semantische Technologien!
• Beispielnutzung:!
– Sprachübergreifende Links bei
Wikipedia!
– Generierung von
Übersetzungsvorschlägen für
den menschlichen Übersetzer!
Mehrsprachige Technologien – 6. Oktober 2014! 26!
27. Beispiel: Generierung von
Übersetzungsvorschlägen!
• Eingabe: DBpedia + Wikidata
Abfrageergebnisse und ausgezeichnete
Dokumente!
p… the home of span!
its-ta-ident-ref=http://dbpedia.org/resource/
Samuel_Beckett!
...Samuel Beckett/span./p!
Mehrsprachige Technologien – 6. Oktober 2014! 27!
28. Beispiel: Generierung von
Übersetzungsvorschlägen!
• Ausgabe: Übersetzungsvorschläge
gespeichert als ITS 2.0 „Localization Note“!
p… the home of span!
its-ta-ident-ref=http://dbpedia.org/resource/
Samuel_Beckett its-loc-note=TRANSLATION
SUGGESTIONS: 1) wikidata:サミュエル・ベケット!
2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/
span./p!
Mehrsprachige Technologien – 6. Oktober 2014! 28!
29. Beispiel: Generierung von
Übersetzungsvorschlägen!
• Ausgabe: Übersetzungsvorschläge
gespeichert als ITS 2.0 „Localization Note“!
p… the home of span!
its-ta-ident-ref=http://dbpedia.org/resource/
Samuel_Beckett its-loc-note=TRANSLATION
SUGGESTIONS: 1) wikidata:サミュエル・ベケット!
2) dbpedia:サミュエル・ベケット“ ...Samuel Beckett/
span./p!
29!
Herausforderung:!
„Zu viel Information ist keine Information!“!
Mehrsprachige Technologien – 6. Oktober 2014!
30. Ziel: Die mehrsprachige Plattform!
• Open-Source-MT für Jedermann!
– MOSES-basiert, leicht nutzbare Schnittstellen,
Trainingsdaten, Terminologie!
• Qualitätsdefinition!
– MQM: MT für jedes Projekt neu, so wie benötigt!
• Workflowintegration!
– ITS 2.0 Metadaten, Verarbeitung standardisierter
Formate!
• Nutzung mehrsprachiger, verlinkter Daten!
– Verlinkung mit der passenden Information – nicht
zu viel!!
Mehrsprachige Technologien – 6. Oktober 2014! 30!
31. ... als Teil der Open Web Platform!!
31!
• Open Source MT!
• Qualitätsdefinition!
• Workflowintegration!
• Nutzung mehrsprachiger,
verlinkter Daten!
Mehrsprachige Technologien – 6. Oktober 2014!
32. Mehrsprachigkeit und
semantische Technologien!
Felix Sasaki, Georg Rehm!
DFKI GmbH!
Forschungsbereich Sprachtechnologie, Berlin!
!
Statusmeeting Semantic Media Web – 6. Oktober 2014, Berlin!
!