Se ha denunciado esta presentación.
Utilizamos tu perfil de LinkedIn y tus datos de actividad para personalizar los anuncios y mostrarte publicidad más relevante. Puedes cambiar tus preferencias de publicidad en cualquier momento.

Utilidad de los datos enlazados para la terminología

238 visualizaciones

Publicado el

Presentación sobre las ventajas de los datos enlazados (linked data) para la representación de recursos lingüísticos en la Web. Aplicación del modelo lemon-ontolex para representar datos de terminologías multilingües en España. La experiencia de Terminoteca RDF. Presentado en la Jornada sobre “TERMINESP y la terminología del español” organizada por la Representación de la Comisión Europea en España (28/10/2016).

Publicado en: Datos y análisis
  • Sé el primero en comentar

Utilidad de los datos enlazados para la terminología

  1. 1. Utilidad de los datos enlazados para la terminología Jorge Gracia Ontology Engineering Group Dpto. de Inteligencia Artificial Universidad Politécnica de Madrid jgracia@fi.upm.es Jornada sobre “TERMINESP y la terminología del español” Representación de la Comisión Europea en España, Madrid 28 de octubre de 2016
  2. 2. Recursos lingüísticos en la Web 2 2
  3. 3. Recursos lingüísticos en la Web Recursos Lingüísticos Electrónicos • corpus • lexicones • diccionarios • “wordnets” • terminologías • etc. 3
  4. 4. Recursos lingüísticos en la Web Actualmente… • En formatos heterogéneos • Diferentes esquemas de representación • APIs no estándar • Aislados entre sí (“data silos”) • Diferentes niveles de acceso (desde “mándame un email” a servicios web) • Múltiples catálogos de recursos lingüísticos con diferentes metadatos y esquemas de representación Por tanto... el descubrimiento y reutilización de RLs resulta costoso en tiempo y esfuerzo 4
  5. 5. *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell “Red” Etimología: Del latin “rete” Género: “f” Definición: “Conjunto de ordenadores o de equipos informáticos conectados entre sí….” “Red” Traducciones: “xarxa”(ca), “rede”(ga), … “Red” Norma: UNE 21302-131 Inglés: network Alemán: Netzwerk “Red” Pronunciation: [red] Grammar category: sustantivo femenino Singular: “red” Plural: “redes” “Red_de_computadores” Category: redes informáticas Image Recursos lingüísticos en la Web “Red” (de ordenadores) 5
  6. 6. *Picture attribution: http://commons.wikimedia.org/wiki/User:Gugerell “Red” Etimología: Del latin “rete” Género: “f” Definición: “Conjunto de ordenadores o de equipos informáticos conectados entre sí….” “Red” Traducciones: “xarxa”(ca), “rede”(ga), … “Red” Norma: UNE 21302-131 Inglés: network Alemán: Netzwerk “Red” Pronunciation: [red] Grammar category: sustantivo femenino Singular: “red” Plural: “redes” “Red_de_computadores” Category: redes informáticas Image Recursos lingüísticos en la Web Información complementaria pero no conectada 6
  7. 7. Datos enlazados para los recursos lingüísticos 7
  8. 8. Datos enlazados Prinicipos de los Datos Enlazados (linked data principles) 1. Usar URIs (Uniform Resource Identifiers) para identificar “cosas” en la Web 2. Usar HTTP URIs para que la gente pueda acceder a esos identificadores y obtener algo 3. Cuando alguien accede a una URI, debe proporcionarse información útil sobre el recurso que identifica (en RDF) 4. Incluir enlaces a otras URIs, para que se puedan descubrir más cosas. 8 8
  9. 9. Datos enlazados 9 9
  10. 10. Datos enlazados Red Phonetic form Form number singular [RED] Form plural [REDES] Phonetic form number Red Sense written form “red”@es Sense written form “xarxa”@ca translation Red image Red Sense Sense translation written form “red” “network” written form Red written form Form gender femenine “red” 10
  11. 11. Datos enlazados Red Phonetic form Form number singular [RED] Form plural [REDES] Phonetic form number Red Sense written form “red”@es Sense written form “xarxa”@ca translation Red image Red Sense Sense translation written form “red” “network” written form Red written form Form gender femenine “red” 11
  12. 12. Datos enlazados Algunos BENEFICIOS de los recursos lingüísticos como datos enlazados • Agregación e integración de recursos lingüísticos • Los datos se exponen de manera estandarizada (SPARQL) • Se facilita el descubrimiento de los datos • Uso de vocabularios acordados para representar contenido lingüístico NIF NLP Interchange Format 12 12
  13. 13. Datos enlazados Linguistic Linked Data Cloud Aparición de la “nube de datos lingüísticos enlazados” Linguistic Linked Open Data (LLOD) cloud 13 http://linguistic-lod.org/llod-cloud 13
  14. 14. El modelo lemon-ontolex 14
  15. 15. lemon-ontolex 15 El núcleo del modelo https://www.w3.org/2016/05/ontolex/
  16. 16. lemon-ontolex 16 El módulo vartrans
  17. 17. Datos enlazados en terminologías: Terminoteca RDF 17
  18. 18. Terminesp TERMCAT IATE Otras terminologías Terminoteca RDF 18
  19. 19. Terminoteca RDF TERMINOTECA RDF como demostrador del potencial de los datos enlazados en terminologías • Basado en Terminesp y Termcat • Multilingüe: inglés, catalán, francés, italiano, sueco, alemán, latín http://linguistic.linkeddata.es/terminoteca/ 19
  20. 20. Terminesp TERMINESP es la base de datos terminológica creada por AETER (Asociación Española de Terminología) en base a la terminología contenida en las normas UNE (AENOR) >30,000 términos técnicos con definiciones (en español) Variedad de dominios: aeronáutica, agricultura, ingeniería eléctrica, … Traducciones al Inglés, francés, alemán, italiano, sueco Denominación científica (latín) 20 http://www.wikilengua.org/index.php/Wikilengua:Terminesp
  21. 21. Terminesp 4 http://www.wikilengua.org/index.php/Wikilengua:Terminesp 21
  22. 22. Termcat http://www.termcat.cat/en/Terminologia_Oberta/ TERMCAT es el centro de terminología de la lengua catalana, responsable de la Terminologia Oberta: Gran variedad de dominios. [En nuestro prototipo: Internet y sociedad de la información, Telecomunicaciones, Industria electrónica] Traducciones al español, inglés y francés Siglas, abreviaturas, sinónimos,… 22
  23. 23. Termcat http://www.termcat.cat/en/Terminologia_Oberta/ 23
  24. 24. Terminoteca RDF Conversión de TERMINESP y TERMCAT a datos enlazados: De acuerdo al modelo lemon-ontolex Cada elemento lingüístico (lexical entry, lexical form, lexical sense, translation, …) identificado con una URI Creación de conceptos en skos para dar cuenta de la información semántica En TERMINESP: >30000 conceptos creados Añadida información de categorías gramaticales (part-of-speech) Añadido el tipo de sintagma (nominal, adjetival, preposicional, …) En TERMCAT: > 7000 conceptos creados (tres dominios) 24
  25. 25. Terminoteca RDF 25 DE ES SV IT FR EN ES FR EN CA
  26. 26. Terminoteca RDF 26 DE ES SV IT FR EN CA Terminoteca-RDF
  27. 27. Terminoteca RDF 27
  28. 28. Terminoteca RDF 28
  29. 29. Terminoteca RDF 29
  30. 30. Terminoteca RDF Interfaz web para obtener traducciones directas http://linguistic.linkeddata.es/terminoteca/search/ 30
  31. 31. Terminoteca RDF 31 Motor SPARQL para búsquedas semánticas más complejas http://linguistic.linkeddata.es/terminoteca/sparql-editor/
  32. 32. Terminoteca RDF Ejemplo: “Dame traducciones al catalán [Termcat] y al alemán [Terminesp] del término en español ‘amplificador’, indicando el origen de los datos y el dominio de aplicación.” 32 wr_target provenance subject "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s ocietat%20de%20la%20informacio.xml "Electrònica"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr onica%20i%20dels%20materials%20electrics.xml "Electrònica"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s ocietat%20de%20la%20informacio.xml "Societat de la informació"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr onica%20i%20dels%20materials%20electrics.xml "Societat de la informació"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126104034_TO%20Internet%20i%20s ocietat%20de%20la%20informacio.xml "Telecomunicacions"@ca "amplificador"@ca http://www.termcat.cat/Thor/files/terminologiaOberta/20101126103843_TO%20Industria%20electr onica%20i%20dels%20materials%20electrics.xml "Telecomunicacions"@ca "Verstärker"@de http://www.wikilengua.org "Verstärket"@de http://www.wikilengua.org
  33. 33. Terminoteca RDF 33 Ejemplo: “Dame las siglas [de Termcat] asociadas a las entradas en inglés que vengan de Terminesp [y que no tenían siglas asociadas, inicialmente].” label initialism "code division multiple access"@en "CDMA"@en "time division multiple access"@en "TDMA"@en "light-emitting diode"@en "LED"@en "unipolar transistor"@en "FET"@en "N-channel field-effect transistor"@en "N-FET"@en "database management system"@en "DBMS"@en "frequency division multiple access"@en "FDMA"@en "low-noise amplifier"@en "LNA"@en "automatic gain control"@en "AGC"@en "programmable logic controller"@en "PLC"@en "alternating current"@en "AC"@en "direct current"@en "DC"@en "programmable logic device"@en "PLD"@en
  34. 34. Conclusiones
  35. 35. Conclusiones • Los datos enlazados pueden ser de utilidad para los recursos lingüísticos en general y las terminologías en particular • Iniciativa Terminoteca RDF: crear un grafo unificado de terminologías en España basado en técnicas de datos enlazados • Validación y enriquecimiento de los datos, y enlazado a otras fuentes • Futuros pasos: • Enlace con otras terminologías y fuentes de datos (ej.: IATE, DBpedia, Apertium) • Evolución más allá de estado de “prototipo” de investigación • Interacción más directa con los propios procesos de creación/validación/publicación de datos de Terminesp y Termcat 35
  36. 36. ¡Gracias! 36Ontology Engineering Group

×