VII Jornada de Terminología y Traducción Institucional
https://ec.europa.eu/spain/events/20180524_8-event-terminology-institutional-translation_es
MARTIN KRALLINGER, Unidad de Minería de Datos Biológicos del Centro Nacional de Investigaciones Oncológicas (BSC) Interoperabilidad y minería de datos al servicio de las ciencias biomédicas
5. Descrip9on
Terminological
resources
• Registry of linguisEc / terminological resources (368 in total, 103 of medical domain)
• Spanish medical abbrevia9on definiEon database (> 34,064 , AbreMES)
• Spanish medical term database generated by CUTEXT – automaEc term recogniEon of the
medical domain in Spanish from the medical literature, EHRs, etc.
• Bilingual medical glossary of for mulEple language pairs (MeSpEN <400 thousand)
• Spanish medical controlled vocabularies, ontologies and medical enEty gazeaeers generated by
deep learning based medical machine transla9on
• Medical Word embeddings generated from Spanish medical corpora
Resources and
components of
preprocessing &
linguis9c
annota9on
• Document standardizaEon sodware that converts PDF files into HTML, TXT or XML files
• AutomaEc language recogniEon tool (Spanish- English- Catalan)
• Spanish clinical text automaEc sec9onizer
• Spanish medical spellchecker component
• Spanish medical text tokeniza9on component
• Spanish medical sentence spliIng component
• Spanish medical Part-of-speech labelling (grammaEcal label) component
• Spanish medical word lemma9zer component
Medical concept
recogni9on and
seman9c tagging
• GazeMeer-lookup: System of recogniEon of terms from a terminology (tested with Snomed,
adaptaEon of GATE
• Automa9c Term recogni9on (ATR): a system called CUTEXT for the recogniEon of terms using
linguisEc-staEsEcal standards
• PharmaCONER Tagger: deep learning based system for detec9ng drugs, chemical compounds
and genes in clinical texts
• Time expression enEty recogniEon system HeidelTime grammar for temporal tagging of
Spanish Electronic Health Records
hMps://zenodo.org/communi9es/medicalnlp
hMps://github.com/PlanTL-SANIDAD
Recursos PLN biomédico y clínico generado por el
Plan TL (1)
6. Descrip9on
Clinical concept
modifier recogni9on
• RecogniEon of nega9ons, adaptaEon of NegEex
• RecogniEon of expressions of clinical certainty
• Negated term recogniEon (TENTES)
Other resources • System of calculaEon of similarity of medical texts and / or to find similar cases (incl. text
clustering): whole documents and sentence level
• Medical Machine transla9on system (phrase-based and deep-learning based)
• Medical Text annotaEon and corpus labeling system (AdaptaEon of AnnotateIt & BRAT)
• AutomaEc term mapping & grounding using lexical similarity scores and ontology mapping
• AnnotaEon and evalua9on plaXorm for shared tasks (BeCalm – Markyt with Uni. Vigo)
Annotated corpora
& annota9on
schema
• Corpus and annotaEon schema for drugs, chemical compounds, genes/proteins
(PharmaCoNER)
• Corpus and annotaEon schema for abbreviaEons and definiEon pair annotaEons (BARR1)
• Corpus and annotaEon schema for abbreviaEons resoluEon and normalizaEon to
SNOMED-CT (BARR2)
• Corpus and annotaEon schema for sensiEve protected health informaEon enEty menEons
(MEDDOCAN)
• Corpus for manually annotated clinical coding with CIE10 together with annotaEon
evidence text labels
• Corpus for manually annotated clinical enEty menEons and their mapping to SNOMED-CT
for: diseases, treatments, drugs, symptoms and procedures
• Corpus for manually annotated enEty menEons and their relaEons: drug-drug target
relaEons (English – ChemProt)
hMps://zenodo.org/communi9es/medicalnlp
Recursos PLN biomédico y clínico generado por el
Plan TL (2)
7. Módulos integrados
• Conversión a minúsculas.
• Conversión al lema.
• Separación de signos y
números.
• Eliminación de Eldes.
• Expansión de acrónimos.
• SusEtución de caracteres
extraños.
• SusEtución de palabras por
su sinónimo más común.
• Modificador: Negación
• Modificador: conjunciones
• Modificador certeza clínica
• Calculo de similitud textual CUTEX – reconocimiento de términos y mapeo a CIE10,
SNOMED-CT, UMLS
haps://github.com/PlanTL-SANIDAD/CUTEXT
Reconocimiento automáEco de términos
15. Chung-Chi Huang, and Zhiyong Lu Brief Bioinform 2015;bib.bbv024
Tareas compeEEvas y campañas de evaluación
dominio biomédico y clínico
16. 16
Chung-Chi Huang, and Zhiyong Lu Brief Bioinform
2015;bib.bbv024
Tareas compeEEvas y campañas de evaluación fases
17. Tarea Corpus URL
MEDDOCAN
(IberLEF)
Tarea relacionada con reconocimiento
de enEdades nombradas de
información sensible (Protected Health
InformaEon –PHI). Subtareas de
reconocimiento y clasificación de
menciones, subtareas de ofuscación de
información sensible
• Guías de anotación
• EEqueta manual
• Evaluación de calidad
• Formato BRAT y i2b2
• AnnotateIt, BRAT
• Expertos dominio
• Casos clínicos
hMp://temu.bsc.es/meddocan
PHARMACONER
(BioNLP-OST)
Tarea relacionada con reconocimiento
de enEdades nombradas Epo:
compuestos químicos, fármacos,
proteínas. Subtareas de reconocimiento
y clasificación de menciones, subtareas
de indización con conceptos SNOMED
CT de sustancias
• Guías de anotación
• EEqueta manual
• Evaluación de calidad
• Formato BRAT
• AnnotateIt, BRAT
• Expertos dominio
• Casos clínicos
hMp://temu.bsc.es/
pharmaconer/
WMT19 Shared
Task: Biomedical
Transla9on Task
Sub-tarea relacionada con traducción
automá9ca de términos médicos
Español/ inglés (ambas direcciones)
centrada en términos de relevancia
clínica tales, en especial trastornos y
enfermedades y conceptos de UMLS
• Guías de traducción
• Traducción manual
• Evaluación de calidad
• Formato TSV
• Expertos traductores
dominio médico
• EHR, Casos clínicos
hMp://www.statmt.org/
wmt19/biomedical-
transla9on-task.html
Tareas compeEEvas Plan TL (1)
18. Tarea Corpus URL
BioASQ Español Tarea relacionada con
indización automáEca de la
literatura médica en español
con términos DeCS
(Descriptores en Ciencias de la
Salud).
• Guías de indización
• Evaluación de calidad
• Formato BioASQ JSON
• Expertos indización
• Literatura medica
hMp://bioasq.org/
MedTermMap
Subtareas HPO Español y
Inglés
(LOUHI)
Tarea relacionada con mapeo
automáEco de términos a
conceptos en vocabularios
controlados de la ontología
HPO (Human Phenotype
Ontology) versión en inglés y
versión traducida a español.
• Guías de mapeo
• Evaluación de calidad
• Formato TSV y JSON
• Expertos en terminología
medica y fenoEpos clínicos
• EHR, Casos clínicos,
terminologías internas
hMps://louhi2019.dk.eu
MedTermMap
Subtarea SNOMED CT
Español
(LOUHI)
Tarea relacionada con mapeo
automáEco de términos a
conceptos en vocabularios
controlados de la ontología
SNOMED CT versión en
español.
• Guías de mapeo
• Evaluación de calidad
• Formato TSV y JSON
• Expertos en terminología
medica y fenoEpos clínicos
• EHR, Casos clínicos,
terminologías internas
hMps://louhi2019.dk.eu
Tareas compeEEvas Plan TL (2)
34. Use of AI for text mining
0
0
0
1
1
1
0
beginning capital letter
digits
only digits
alpha-numeric characters
only capital letters and digits
no lowercase letters
all capital letters
capital letter(s) which is not the first letter
two consecutive capital letters
a Greek word as a sub-string
period
hyphen
slash
Contain only alphanumeric character(s)
Contain no lower letters
0
1
0
0
0
0
1
0
Orthographic features - boolean features
chunk features
POS features
dictionary features
lemma features
word features
aaA_11a
aA_1a
mi-prefix
word pattern
El FOXQ1 se asoció a metástasis y a mal pronósEco del cáncer de pulmón, por lo que la
introducción de miR-21a para disminuir el FOXQ1 debería inhibir la migración y la invasión
de células de cáncer de pulmón.
64. Open Biological and Biomedical Ontology (OBO)
Annotated text
corpora or datasets
Real-world use
cases
Text mining
building blocks for
medical data
Community-
wide
evaluations
1. Scope
Types of medical
data
Tools/ontology/
resources for
medical text mining
a. Clinical data
(medical
records)
b. Clinical trials
c. Drug adverse
events
d. Social media
e. Patents
f. Combinations
(of above)
a. Entity types
b. Relation types
c. Special
challenges:
acronyms, medical
jargon, telegraphic
syntax, semi-
structured records
a. Clinical corpus
creation: guidelines,
selection, scope,
structure, document
standardisation,
corpus types/size,
access barriers
b. Annotation format,
tools/frameworks,
assessments
c. Available corpora/
tools
a. Resources: pre-
processing, NER
(medical entity
annotation), NLP
(syntax & semantics)
b. Ontologies, lexical
resources, medical
concepts
c. EHR derived
verbatim lists,
terminologies, NE
a. BioCreative
b. i2b2
c. Medical
TREC
d. CLEF
eHeatlh
a. Specific
examples of the
application of
ontologies and
literature mining to
identify diagnostics/
therapies for disease
b. Links between
bio-text mining and
clinical text mining:
focus genomic
components,
genotype/phenotype
2. Building blocks 3. Data/corpora 4. Resources 5. Evaluations 6. Use cases
TOPIC AREAS
66. Convenios – Faro Sanidad
En9ty Use Cases
FISEVI/SAS Cardiovascular disease risk,
Stop-Start rules, do-not-do
rules, colorectal cancer
AEMPS Pharmaco-epidemiology,
adverse drug related events,
semanEc labeling system of
drug fact sheets
AQuAS Discharge summaries –
stroke assist in quality
assessment of treatments
En9ty Use Cases
Hospital Son
Espases
Nosocimial infecEons and adverse
events due to hospital stays
Hospital Clinic Modelling of retroviral metabolism,
automaEc coding of primary care
(health problems – derivaEon to
specialists)
InsEtuto Aragonés
de Ciencias de la
Salud
QuesEon Answering system based
on clinical pracEce guidelines,
semanEc indexing engine using
controlled vocabularies
En9ty Use Cases
Hospital XII de
Octubre
ObservaEons mental health,
decision support – anEbioEcs
treatments, paEent complaint
analysis
InsEtuto de
Salud Carlos III
Indexing and semanEc
classificaEon of open health
data (literature)
69. Interoperabilidad de PLN en Biomedicina
● Interoperabilidad de metadatos: metadatos para describir tanto datos como componentes.
• Metadatos específicos para describir publicaciones ciennficas, historia clínica electrónica, corpus anotados y
vocabularios u otras fuentes de conocimiento
• Componentes o herramientas se describen también con metadatos propios.
• Metadatos facilitan la interoperabilidad, puesto que se han definido estándares de metadatos y existen
protocolos comparEdos para el intercambio de esta información.
● Interoperabilidad de los datos: la interoperabilidad de los datos incluye la interoperabilidad sintácEca (todo aquello
que Eene que ver con el formato uElizado) y la interoperabilidad semánEca (o las anotaciones).
● Interoperabilidad entre componentes: los componentes de PLN no actúan de forma aislada, sino que suelen formar
parte de cadenas de procesamiento en los que intervienen varios componentes.
● Interoperabilidad legal: desde el punto de vista legal, es clave que a la hora de integrar y construir flujos de
procesamiento, integrando disEntas componentes, las componentes entre sí no tengan incompaEbilidad relacionadas
con las licencias asociadas a ellas.
● Interoperabilidad organiza9va: en el ámbito de salud, también Eene dimensiones relacionadas con criterios de
políEcas de uso, aspectos organizaEvos desde el punto de vista social, de seguridad, privacidad y gesEón de recursos
en el contexto de insEtuciones sanitarias.
77. The Plan TL aims to promote the
development of NLP and machine
translation in Spanish and Spain’s
co-official languages.
The Plan for the Advancement of Language Technology (Plan TL)
aims to promote development of NLP and machine translaEon in
Spanish and Spain’s co-official languages.
One of the flagship projects of the Plan TL is related to Healthcare
and Biomedical domain.
• Increase the amount, quality and availability of linguis9c
infrastructure.
• Transfer knowledge from the research field to the industry.
• Improving the quality and capacity of public services,
integraEng NLP and machine translaEon technologies.
IdenEfy use cases in public administra9on
Corpora
• Bilingual corpora (MeSpEN)
• Clinical cases corpus (SPACC): chemicals,
drugs, genes, diseases, treatments, symptoms,
abbreviations, procedures
• Medical literature corpus
Terminological resources
• CUTEXT: medical term recognition (incl. negation
& certainty, UMLS mapping)
• Medical Bilingual glossary, abbreviation-
definition pairs
Components
• Medical tokenizer, sentence splitter,
lemmatizer, PoS tagger, clincal sectionizer,
HeidelTime adap. NegEx adapt.
Evalua9on campaigns
• Spanish medical abbreviations (IberEval2017,
2018): BARR (abstracts), BARR2 (clinical cases)
• De-identification Spanish (IberLEF 2019):
MEDOCCAN
• Indexing articles using DeCS-MeSH
• Apply NLP to allow for new services
Libraries
• Secondary use of EHR:
• ICD 10 codification
• Anonymization
R&D funding
agencies … AEMPS
• Technological supervision and
competitive intelligence: tools for
strategic decision-making
• Access to resources and services to
be integrated in their portfolio
• Pharmacoepidemiology studies
Plan for the Advancement of Language Technology
hMp://temu.bsc.es
80. Clinical Data
80%
20%
80% of health data “locked”
in unstructured text
Structured Numerical,
Coded Health Information
Unstructured text:
Clinical narrative
Informa1on source for:
• clinical decision support
• paEent cohort straEficaEon
• disease/adverse drug event
surveillance
• populaEon health management
• etc..
Galician health system:
200.000 clinical notes
per day
Transforming clinical text wriMen by
healthcare professionals into
structured clinical data representa9ons