Presentación TFG Informes de Alta Automáticos

Sistema de clasificación automática de la polaridad
de notas clínicas de evolución
•Departamento: Tecnologías de la Información
•Directores de los trabajos: Manuel J. Maña López , Manuel de la Villa Cordero
•Autores de los trabajos: Samuel Díaz Millán, Eduardo Acuña Coronado
1/66
Sistema para la elaboración automática de informes de alta
hospitalaria

PRESENTACIÓN DEL PROBLEMA
2/66

3/66
A B
C
Informe
de alta

4/66
Aprox. 30 – 50 minutos
C
Informe
de alta

5/66

Solución
Clasificador de
polaridad
Generador de
informes de alta
6/66

•Director del trabajo: Manuel J. Maña López, Manuel de la Villa Cordero
•Autor del trabajo: Samuel Díaz Millán
7/66

ÍNDICE
1. OBJETIVOS
2. EL CORPUS Y SU PROCESAMIENTO
3. CLASIFICACIÓN AUTOMÁTICA
4. ANÁLISIS DE RESULTADOS
5. CONCLUSIONES Y TRABAJO FUTURO
6. DEMOSTRACIÓN DEL SISTEMA
Dirigido por: Manuel J. Maña López
Autor: Samuel Díaz Millán
Departamento: Tecnologías de la Información
8/66Manuel de la Villa Cordero

1. OBJETIVOS
• Creación de sistema de predicción de
polaridad.
• Predicciones resultantes como entrada para el
elaborador de informes de alta.
1: OBJETIVOS
2: EL CORPUS Y SU PROCESAMIENTO
3: CLASIFICACIÓN AUTOMÁTICA
4: ANÁLISIS DE RESULTADOS
5: CONCLUSIONES Y TRABAJO FUTURO
6: DEMOSTRACIÓN DEL SISTEMA 9/66

2. EL CORPUS Y SU PROCESAMIENTO
2.1. Elaboración del corpus
2.2. Procesamiento con FreelingMed
2.3. Etiquetado con KAF
2.4. Sistema Gestor de Base de Datos
2.5. Modelo entidad-relación
1: OBJETIVOS

2.1. ELABORACIÓN DEL CORPUS
• Disponemos de 929 notas clínicas de evolución
de 161 pacientes anónimos durante 2015.
• Provienen del Hospital Virgen del Rocío de Sevilla.
• Pacientes con al menos 2 evoluciones.
• Casos de insuficiencia cardíaca, síndrome
coronario o EPOC.
1: OBJETIVOS

Anonimización del personal sanitario:
//ESPAÑA ESPAÑA, MANUEL/ DR GARCÍA.
Subjetivamente mejor. Respiración nasal, sin utilización de prensa abdominal, habla
fluida, no disnea. Tolera el decúbito. No fiebre, no otra sintomatología.
GUARDIA RESPIRAOTRIO (GARCÍA)
En la tarde de ayer repitió nuevo episodio de disnea intensa con trabajo respiratorio y
uso de musculatura abdominal, evidenciándose en la exploración crpitantes en ambos
hemitórax hasta tercio medio. Por lo que se reinicia nuevamente VMNI con parámetros
IPAP 15/EPAP 5.
1: OBJETIVOS

• Para etiquetar, 3 anotadores:
Anotador 1, Anotador 2 y Juez.
• Anotadores 1 y 2 siguen:
1. Lectura comprensiva de una nota.
2. Buscar cambio o mantenimiento en el estado.
1: OBJETIVOS

3. Etiquetar la nota con uno de estos valores.
Signo Significado Ejemplo
+ Evolución favorable, mejoría “Continúa con evolución favorable, eupneica en reposo
tolerando la deambulación y el habla sin O2
suplementario. No refiere más episodios de disnea y pasa
mejor las noches, aunque refiere que se encuentra muy
nerviosa. No deposiciones desde el ingreso.”
0 Estabilidad, sin signos palpables
de mejoría ni de empeoramiento
“Aceptablemente estabilizada. Asintomática. Mantiene
buenas diuresis. En control analítico previo al alta:
creatinina de 1,21.Hb. de 9.2.“
- Evolución negativa,
empeoramiento
“Durante el día con glucemias de 400-247-339-375 mg/dl y
actualmente con 470 mg/dl. Mal control con pauta
subcutánea por lo que iniciamos perfusión iv de insulina a 6
UI/h.”
1: OBJETIVOS

4. Copiar las expresiones que sustentan el juicio
de la polaridad.
Ejemplo Motivación
“Continúa con evolución favorable, eupneica en reposo
tolerando la deambulación y el habla sin O2 suplementario. No
refiere más episodios de disnea y pasa mejor las noches,
aunque refiere que se encuentra muy nerviosa. No deposiciones
desde el ingreso.”
evolución favorable; eupneica;
tolerando la deambulación; pasa
mejor las noches
“Aceptablemente estabilizada. Asintomática. Mantiene buenas
diuresis. En control analítico previo al alta: creatinina de
1,21.Hb. de 9.2. “
Aceptablemente estabilizada
“Durante el día con glucemias de 400-247-339-375 mg/dl y
actualmente con 470 mg/dl. Mal control con pauta subcutánea
por lo que iniciamos perfusión iv de insulina a 6 UI/h.”
Mal control
1: OBJETIVOS

• El juez sigue el siguiente procedimiento:
+ +
- 0 ++
0
–
+
1: OBJETIVOS

Coincidencias y discrepancias en el juicio de la
polaridad:
Notas + 0 -
Coincidencias 729 (78,47%) 424 (45,64%) 151 (16,25%) 154 (16,58%)
+ 0 ó 0 + 0 - ó - 0 + - ó - +
Discrepancias 200 (21,53%) 84 (9,04%) 64 (6,89%) 52 (5,60%)
1: OBJETIVOS

Distribución de polaridades:
455
288
186
Polaridades
+ (49%)
0 (31%)
– (20%)
Total: 929 notas
1: OBJETIVOS

2.2. PROCESAMIENTO CON FREELINGMED
1: OBJETIVOS
Freeling
Diccionarios
médicos
FreelingMed KAF

2.3. ETIQUETADO CON KAF
• Text
1: OBJETIVOS

• Term y References
1: OBJETIVOS

• Chunks
1: OBJETIVOS

• Dependences
1: OBJETIVOS

2.4. SISTEMA GESTOR DE BASE DE DATOS
• Para almacenar la información de KAF
necesitamos una base de datos.
• Apache Derby.
• Basado en estándares SQL, Java y JDBC 
Permite una buena integración en Java.
• Permite incrustarse en la aplicación.
1: OBJETIVOS

3. CLASIFICACIÓN AUTOMÁTICA
3.1. Escenario de experimentación
3.2. Preproceso de datos y atributos
3.3. Representación de los datos
3.4. Selección de atributos
3.5. Desequilibrio de clases
3.6. Selección de clasificadores
1: OBJETIVOS

3.1. ESCENARIO DE EXPERIMENTACIÓN
• División del corpus: 2/3 – 1/3
• Mantenemos la proporción de clases:
Estratificación
COLECCIÓN COMPLETA (929)
TRAINING (620) TEST (309)
1: OBJETIVOS

3.2. PREPROCESO DE DATOS Y ATRIBUTOS
• Eliminación de símbolos aislados.
• Pasar a minúscula todas la palabras.
... .. . , ; : < > [ ]
( ) + - / * ¡ ! ¿ ?
| @ “ · # % € $ & =
‘ ‘’ ` { }
Diuresis  diuresis
Historial  historial
1: OBJETIVOS

3.2. PREPROCESO DE DATOS Y ATRIBUTOS
• Eliminación de palabras vacías.
Posición Palabra Ocurrencias
1 de 3190
2 en 1558
3 con 1545
4 la 1326
5 y 1272
6 a 1031
7 se 834
8 el 821
9 que 721
10 por 597
11 ha 341
12 al 311
13 para 264
14 desde 217
15 los 187
16 su 168
17 las 156
18 lo 148
19 esta 129
20 mi 114
21 aunque 109
22 hasta 105
23 un 103
24 durante 96
25 una 95
26 es 92
27 si 91
28 tras 89
29 está 85
30 más 85
31 pero 82
32 muy 82
33 le 82
34 hace 72
35 e 72
36 como 67
37 tiene 66
38 o 53
1: OBJETIVOS

3.3. REPRESENTACIÓN DE DATOS
• Herramienta de minería de datos  Weka
• Para experimentar con Weka  ARFF
KAF Sistema ARFF WEKA Modelo
1: OBJETIVOS

3.3. REPRESENTACIÓN DE DATOS
Pesos
Binario Frecuencia TF TF-IDF
0 / 1 n ocurrencias
1: OBJETIVOS

3.4. SELECCIÓN DE ATRIBUTOS
• Existen miles de atributos por cada ARFF, por
tanto, posibilidad de ruido en los datos.
• Solución  Selector de atributos  Infogain
• Empleamos 3 porcentajes de Infogain:
– 10%
– 5%
– 1%
1: OBJETIVOS

3.5. DESEQUILIBRIO DE CLASES
• Corpus no equilibrado.
• Algunos clasificadores pueden verse afectados.
+ 0 –
304 192 124
1: OBJETIVOS

• SpreadSubsampling:
– 1
– 1.5
– 2
124 124 124
186 186 124
248 192 124
1: OBJETIVOS
304 192 124
Conjunto original:

• Resample:
– 1
– 0.75
– 0.5
206 206 206
231 203 186
255 199 165
1: OBJETIVOS
304 192 124
Conjunto original:

• SMOTE:
– 25%
– 50%
304 192 155
304 192 186
1: OBJETIVOS
304 192 124
Conjunto original:

3.6. SELECCIÓN DE CLASIFICADORES
• J48 – Árbol de decisión
• NaiveBayes – Teorema de Bayes
• SMO – Máquina de Vector Soporte
• IBk – Aprendizaje perezoso
• JRip – Reglas de decisión
• RandomForest – Bagging
• AdaBoost – Boosting
1: OBJETIVOS

4.1. Introducción
4.2. Discusión de resultados
1: OBJETIVOS

4.1. INTRODUCCIÓN
Realizamos un total de 308 pruebas:
1. Motivaciones: 84 pruebas.
1.1. Colección completa: 7 algoritmos x 4 pesos = 28 pruebas.
1.2. Colección completa y sampling:
7 parejas algoritmo-peso x 8 combinaciones de sampling = 56 pruebas.
2. Palabras: 112 pruebas.
2.2. Infogain: 7 algoritmos x 4 pesos x 3 porcentajes de atributos = 84 pruebas.
3. Términos: 112 pruebas.
3.2. Infogain: 7 algoritmos x 4 pesos x 3 porcentajes de atributos = 84 pruebas.
1: OBJETIVOS

4.2. DISCUSIÓN DE RESULTADOS
Comparamos los mejores resultados de las
pruebas con los de los anotadores.
Resultados + 0 -
Anotador 1
+ 0,922 436 8 11
0 0,813 45 211 32
- 0,835 10 12 164
Anotador 2
+ 0,928 440 9 6
0 0,801 44 203 41
- 0,844 9 7 170
Resultados + 0 -
Motivaciones
SMO Binario ó
AdaBoost (SMO Binario)
+ 0,8 128 16 7
0 0,576 29 49 18
- 0,641 12 9 41
Palabras
AdaBoost
(SMO tf-idf) 100%
+ 0,822 132 14 5
0 0,639 31 61 4
- 0,66 7 20 35
Términos
NaiveBayes tf-idf ó
AdaBoost
(NaiveBayes tf-idf) 5%
+ 0,774 113 33 5
0 0,604 21 64 11
- 0,632 7 19 36
1: OBJETIVOS

• Valores de Medida-F alejados de los expertos
sin embargo, marcan un buen punto de partida.
• Peores clasificadores: IBk, JRip, RandomForest.
• Mejores clasificadores: J48, NaiveBayes, SMO y
AdaBoost.
1: OBJETIVOS

• Mejores pesos: Binario y tf-idf.
• Mejor atributo: palabras.
• Infogain positivo para los términos y negativo
para las palabras.
1: OBJETIVOS

• Sampling mejora algunos resultados de las
motivaciones.
• SpreadSubsampling, mejor valor: 2.
• Resample, resultados similares.
• SMOTE, mejor valor: 25%.
1: OBJETIVOS

Como conclusiones:
• Los resultados son un buen punto de partida.
• Técnicas de Infogain y sampling no son críticas.
• Objetivos cumplidos.
1: OBJETIVOS

Como trabajo futuro:
• Ajustar parámetros de los clasificadores.
• Emplear otros clasificadores.
• Análisis de texto más complejo.
• Trabajar con un corpus mayor.
1: OBJETIVOS

SistemaARFF
Modelo
Nota
clínica
Polaridad
1: OBJETIVOS

Sistema para la elaboración automática de informes de
alta hospitalaria
49/66
•Directores del trabajo: Manuel J. Maña López, Manuel de la Villa Cordero
•Autor del trabajo: Eduardo Acuña Coronado

50/66
ÍNDICE
Dirigido por: Manuel J. Maña López
Autor: Eduardo Acuña Coronado
Departamento: Tecnologías de la Información
1. OBJETIVOS
2. ENTRADA DEL SISTEMA
3. ELABORACIÓN DEL RESUMEN
Manuel de la Villa Cordero

1. OBJETIVOS
• Recoger los documentos polarizados.
• Generar un resumen automático.
• Crear un resumen manual.
1: OBJETIVOS
2: ENTRADA DEL SISTEMA
3: ELABORACIÓN DEL RESUMEN

2. ENTRADA DEL SISTEMA
• 929 notas clínicas con su polaridad de 161
pacientes.
• 84 resúmenes cortos:
42 resúmenes x 2 anotadores.
• 84 resúmenes largos:
42 resúmenes x 2 anotadores.
• Resúmenes generados con una aplicación.
1: OBJETIVOS

3. ELABORACIÓN DEL RESUMEN
3.1. Determinación de plantilla
3.2. Selección de sentencias
1: OBJETIVOS

3.1. DETERMINACIÓN DE PLANTILLA
1: OBJETIVOS

3.2. SELECCIÓN DE SENTENCIAS
Selección de
sentencias
Manual Automática
TextRank*
1: OBJETIVOS

O3
O1
O4
O2
O5
disnea
Algoritmo TextRank*
1: OBJETIVOS

O3
O1
O4
O2
O5
1º
2º
3º
4º
5º
Algoritmo TextRank*
1: OBJETIVOS

4.1. ROUGE
4.2. Discusión de resultados
1: OBJETIVOS

4.1. ROUGE
• Usamos ROUGE para analizar los resúmenes.
• Usa n-gramas para indicar el solapamiento
entre términos.
• Nos devuelve valores de precisión, cobertura y
medida-F.
1: OBJETIVOS

4.1. ROUGE
ROUGE
Resúmenes del
sistema
Resúmenes de
los expertos
Resultados
1: OBJETIVOS

Realizamos un total de 336 pruebas:
1. Resúmenes cortos: 168 pruebas  42 resúmenes cortos x 4 tipos de n-grama.
2. Resúmenes largos: 168 pruebas  42 resúmenes largos x 4 tipos de n-grama.
Resumen del
paciente
Cobertura media Precisión media Medida F media
Corto 1-Grama 0,197 0,252 0,195
Corto 2-Grama 0,138 0,145 0,127
Corto 3-Grama 0,117 0,129 0,111
Corto 4-Grama 0,097 0,102 0,090
Largo 1-Grama 0,246 0,340 0,252
Largo 2-Grama 0,178 0,222 0,176
Largo 3-Grama 0,172 0,208 0,166
Largo 4-Grama 0,169 0,186 0,156
1: OBJETIVOS

Como conclusiones:
• Ahorro en tiempo.
• Resultados prometedores.
• Discrepancia de criterios.
• Pérdida de información.
• Oraciones inconexas.
1: OBJETIVOS

Posibles trabajos futuros:
• Resumen abstractivo.
• Usar técnicas de aprendizaje automático.
1: OBJETIVOS

1: OBJETIVOS
Sistema
Notas del
paciente
polarizadas
Resumen

•Directores de los trabajos: Manuel J. Maña López , Manuel de la Villa Cordero
•Autores de los trabajos: Samuel Díaz Millán, Eduardo Acuña Coronado
66/66
Sistema para la elaboración automática de informes de alta
hospitalaria

Presentación TFG Informes de Alta Automáticos

Recomendados

Recomendados

Más contenido relacionado

Similar a Presentación TFG Informes de Alta Automáticos

Similar a Presentación TFG Informes de Alta Automáticos (20)

Más de Manuel de la Villa

Más de Manuel de la Villa (17)

Último

Último (20)

Presentación TFG Informes de Alta Automáticos

Notas del editor