Sesión en el IX Encuentro e-Salud y Telemedicina: TIC para los retos de I+i en servicios de salud en enfermedades crónicas. La presentación realiza una introducción al concepto de Big Data y sus posibles aplicaciones en salud. Se centra principalmente en el tratamiento de información no estructurada a través de tecnología de análisis de texto (text analytics)
La prevención en trabajos con riesgo de exposición al ruido.docx
Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos
1. IX Encuentro e-Salud y Telemedicina: TIC para los
retos de I+i en servicios de salud en enfermedades
crónicas
Big Data en salud:
tecnologías para conocer
mejor a los pacientes a través
de los datos
José Luis Martínez Fernández
Socio Director de DAEDALUS S.A.
Profesor Asociado de la Universidad Carlos III de Madrid
@jlmartinez_es
http://es.linkedin.com/in/jlmartinezfernandez
1 de Julio de 2015, Santander
Universidad Internacional Menéndez
Pelayo
2. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Contenido
§ ¿Qué es Big Data?
§ Big Data en el dominio de salud
§ Arquitectura típica de un proceso de Big Data
§ Datos
• Análisis de datos estructurados en Big Data
• Aprendizaje automático
• Análisis de datos no estructurados en Big Data
• Técnicas de Análisis de Texto
• Evaluando técnicas de análisis de texto
§ Recursos
§ Aplicaciones
• La experiencia de TrendMiner
§ Retos
3. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
¿QUÉ ES BIG DATA?
4. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Técnicas para capturar, gestionar y procesar grandes volúmenes de datos en
tiempos aceptables
§ Doug Laney (analista de META Group, ahora Gartner) identifica en 2001 los retos y
oportunidades del crecimiento de los datos:
• Volumen: aumento de datos
• Velocidad: de entrada/salida de datos
• Variedad: rango de tipos y fuentes de datos
§ Gartner: modelo de las 3Vs (2012):
• “Big data is high volume, high velocity, and/or high variety information assets that
require new forms of processing to enable enhanced decision making, insight
discovery and process optimization.”
Big Data: ¿qué es?
5. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
5
¿Qué es Big Data?
6. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Data Never Sleep 2.0
https://www.domo.com/learn/data-never-
sleeps-2
¿Qué es Big Data?
7. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Big Data en el dominio de salud
VOLUMEN VELOCIDAD
VARIEDAD
§ Millones de historias
clínicas
§ Miles de publicaciones
científicas
§ Dispositivos
§ Internet …
§ Informes diarios …
§ Nuevas publicaciones
científicas
§ Internet …
§ ECGS
§ Diagnósticos
§ Resultados de pruebas
§ …
8. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
“En los últimos 5 años se ha generado más
información científica que en toda la historia
…”
Winston Hide, Escuela Pública de Harvard
“Solo en MedLine se publican 20.000
artículos a la semana”
María Herrero, Tesis Doctoral
“Los profesionales de salud dedican el 20%
de su tiempo a buscar y procesar información
necesaria para la práctica sanitaria ”
Clinical Solutions, Elsevier
Big Data en el dominio de salud
9. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Big Data en el dominio de salud
10. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
#cardiotuitero
Big Data en el dominio de salud
11. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Big Data en el dominio de salud
12. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Big Data en el dominio de salud
13. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
La información no estructurada es cada vez más importante en
Salud
Documentación médica Medios sociales
Redes, foros,
comunidades de salud
Extraer información estructurada “accionable” de contenido no
estructurado
Big Data en el dominio de salud
14. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ ¿Cuántos datos se procesan de la
Historia Clínica Electrónica?
§ Aplicaciones:
• Soporte a la codificación ICD9/10,
SNOMED CT, CIMA, …
• Sistemas de ayuda a operadores
humanos: procesos de
codificación (p. ej.: diagnósticos
en partes de alta en urgencias)
No Estructurados Estructurados
Big Data en el dominio de salud
15. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
ARQUITECTURA TÍPICA DE UN
PROCESO DE BIG DATA
16. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Arquitectura típica de un proceso de análisis de
sentimiento
Adquisición/
Grabación
Extracción/
Limpieza
Interpretación/
Agregación
Análisis/
Modelado
Interpretación
17. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Arquitectura típica de un proceso de análisis de
sentimiento
Big Interactions Big Transactions
Big Processing
Big Analytics
• Sociales: Twitter…..
• Generadas por máquinas:
sensores, escáneres de
seguridad, ...
• Datos históricos: que crecen
exponencialmente
• Web: clicks, logs, …
• No SQL: Hadoop (distribución)
• Evolución SGBD: Oracle Exadata
• Aumento RAM
• Visualización: nubes, árboles, …
• Análisis de opinión
• Segmentación de clientes
• Detección de fraude
18. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
DATOS
19. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Datos no estructurados Datos estructurados
19
Datos
20% de los datos frente al … ¡¡80%!!
20. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ De bases de datos relacionales
§ A bases de datos NoSQL
Datos
21. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
ANÁLISIS DE DATOS
ESTRUCTURADOS EN BIG DATA
22. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Machine Learning/
Pattern
Recognition
Statistics/
AI
Data Mining
Database
systems
Datos estructurados
23. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Modelo
Valida
(estadística)
Genera
(aprendizaje)
DATOS RESULTADOS
Datos estructurados
Proceso de Análisis
24. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Modelos
Predictivos
responden preguntas sobre datos
futuros
Ej.:
• ¿Cuáles serán las ventas el año próximo?
• ¿Es esta transacción fraudulenta?
• ¿Qué tipo de seguro es más probable que
contrate el cliente X?
Descriptivos
Proporcionan información sobre las
relaciones entre los datos y sus
características
Ej.:
• Los clientes que compran pañales suelen
comprar cerveza.
• El tabaco y el alcohol son los factores más
importantes en la enfermedad Y.
• Los clientes sin televisión y con bicicleta tienen
características muy diferenciadas del resto.
Datos estructurados
25. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Técnica
Supervisada
No-supervisada
Predicción
Clasificación
Descripción
Clustering
Asociación
• Bayesiana
• Redes de neuronas
• Regresión
• Árboles de decisión
• Support Vector Machines
• …
• K-Medias
• Conceptual
• Probabilístico
• A priori
• …
Datos estructurados
26. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
TÉCNICAS DE ANÁLISIS DE
TEXTO EN BIG DATA
27. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Pipeline para análisis de texto
ACL2014 proceedings, CoreNLP description
28. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ División de un texto de entrada en oraciones y palabras.
§ ¡Fácil!, ¿verdad? Ejemplos:
Técnicas de Análisis de Texto
Segmentación (tokenization)
Ø ECG al alta: Ritmo sinusal a 70 Ipm. PR 100 msec. BRD+HBAI. QRS 120
msec.
Ø SCASEST (ANGINA MIXTA) EN VARON DE 67 AÑOS CON CARDIOPATIA
29. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Este proceso asigna a cada palabra la categoría gramatical que le corresponde.
§ Ej.: Acude por angina progresiva desde hace 10 días
Técnicas de Análisis de Texto
Etiquetado de partes del discurso (POS tagging)
{ "form": "angina",
"id": "3",
"inip": "10",
"endp": "15",
"bold": "no",
"italic": "no",
"underscore": "no",
"separation": "1”,
"analysis_list": [
{
"tag": "NCFS-NYN3",
"lemma": "angina",
"original_form": "angina”}]}
30. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Dos tipos de implementaciones:
• Estadística: Hidden Markov Models, Maximum Entropy, Support Vector Machines,
basado en reglas
• Basada en conocimiento: Introduce un paso previo al análisis estadístico en el
que las etiquetas posibles para una palabra forman parte de una base léxica.
§ Se apoyan en colecciones de texto etiquetadas: TreeBank (Linguistic Data Consortium,
LDC)
§ Problemas
• Ambigüedad
• Casa: Juan se casa el viernes, Juan se ha ido de casa
• Puede incluir o no lematización
§ Precisión del 97% (teóricamente): dependiente del contexto de aplicación
Técnicas de Análisis de Texto
Etiquetado de partes del discurso (POS tagging)
31. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Identificación de nombres propios.
§ Ej.: “En el Día Internacional de la
Enfermería, entrevistamos a ROSA PÉREZ,
enfermera, autora de El blog de Rosa”
Extracción de Entidades (NER)
Técnicas de Análisis de Texto
"entity_list": [
{
"form": "Día Internacional de la Enfermería",
"sementity": {
"class": "instance",
"type": "Top",
"confidence": "unknown"
}}]
"variant_list": [
{
"form": "ROSA PÉREZ",
"sementity": {
"class": "instance",
"type": "Top>Person>FullName",
"confidence": "unknown"
},
"variant_list": [
{
"form": "ROSA PÉREZ",
"inip": "58",
"endp": "67"
}
],
"relevance": "100"
}]
32. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ El proceso de extracción de entidades, en ocasiones, va más allá: categorización
(persona, lugar, …)
§ ¿Estándar para la categorización?
§ Linked Open Data
Extracción de Entidades (NER)
Técnicas de Análisis de Texto
33. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ El análisis sintáctico consiste en obtener la estructura sintagmática de una frase.
Análisis sintáctico (syntactic parsing)
Técnicas de Análisis de Texto
34. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Análisis sintáctico (syntactic parsing)
Técnicas de Análisis de Texto
35. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Implementación:
• Se implementa como parte del proceso de etiquetado POS:
§ los corpus de entrenamiento incluyen etiquetas para identificar sintagmas
• Técnicas basadas en análisis de dependencias:
• La estructura sintáctica consiste en entradas léxicas enlazadas mediante
relaciones binarias asimétricas, denominadas dependencias.
Análisis sintáctico (syntactic parsing)
Técnicas de Análisis de Texto
36. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Asignar un texto a un conjunto de clases predeterminado.
§ Tipos de algoritmos:
• Estadísticos:
• Aprendizaje automático: árboles de decisión, SVM, Redes neuronales,
clasificadores bayesianos
• Representación vectorial
• Basados en reglas:
Clasificación de textos
Técnicas de Análisis de Texto
C
B
A
37. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Selección de características:
• Índice Gini: basado en la probabilidad condicional de que un documento
pertenezca a una clase dado que contiene una palabra determinada.
• Ganancia de información: no solo tiene en cuenta la aparición de una palabra en
el documento si no que también contempla el número de documentos que
contienen esa palabra.
• Información mutua: tiene en cuenta la co-ocurrencia de una palabra determinada
y una clase concreta.
Clasificación de textos
Técnicas de Análisis de Texto
38. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Creación de clases/grupos a partir del conjunto de elementos.
§ Número desconocido de clases.
§ Técnicas:
• Algoritmos basados en distancias: cercanía entre dos documentos
• Algoritmos aglomerativos o jerárquicos: agrupa elementos dando lugar a una
jerarquía.
• Algoritmos basados en particiones:
• K-means: utiliza k representantes alrededor de los cuales se forman los
grupos
• Topic modeling: crear un modelo probabilístico generativo a partir de los textos
del corpus. El corpus se representa en función de variables aleatorias, cuyos
parámetros se estiman a partir de una colección concreta.
Agrupación de textos (clustering)
Técnicas de Análisis de Texto
39. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Determinar el parecer de un hablante respecto a un tema determinado
§ Determinar la polaridad (positiva, negativa o neutra) expresada en un texto.
§ Implementación:
• Listas de palabras positivas/negativas à Cuenta
• Aprendizaje automático
• Análisis PLN: detección de aspectos y de sentimiento sobre estos aspectos
Análisis de sentimiento (sentiment analysis)
Técnicas de Análisis de Texto
40. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Estoy encantado con el servicio de urgencias del hospital
Análisis de sentimiento (sentiment analysis)
Técnicas de Análisis de Texto
"polarity_term_list": [{
"text": "estar encantado”,
"score_tag": "P+",
"sentimented_concept_list": [
{
"form": "servicio de urgencias”,
"type": "Top>Product>ProfessionalService",
"score_tag": "P+"
}]
"sentimented_concept_list": [{
"form": "hospital",
"type": "Top>Location>Facility",
}]
41. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Herramienta para organizar grandes cantidades de información.
§ ¿Sobre qué temas o topics trata el contenido de un documento?
§ Modelo bayesiano:
§ Asumimos que un topic queda definido por una distribución probabilística de
términos.
§ Asumimos que cada documento se genera a partir de una distribución de topics
(ocultos).
§ Algoritmos (no supervisados) para entrenar un modelo LDA: inferencia
variacional y muestreo de Gibbs.
§ Herramientas open-source que lo implementan: Mallet (muestreo de Gibbs).
Latent Dirichlet Allocation
Técnicas de Análisis de Texto
Análisis de tendencias
42. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Análisis de tendencias. LDA
Técnicas de Análisis de Texto
43. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
EVALUACIÓN
44. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Precisión: Proporción de sentimientos etiquetados correctamente de entre
los encontrados por el sistema
§ Recall(cobertura): Proporción de sentimientos encontrados respecto al total
de expresiones de sentimiento existentes en la colección
S
S
S
S
S
S
Evaluación
45. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Los requisitos dependen de la aplicación
• Monitorización de marca en medios sociales: alta precisión, baja cobertura
• Lucha antiterrorista: alta cobertura, baja precisión
§ Precisión y cobertura están
inversamente relacionadas
• Buscar compromiso
§ Las personas NO tenemos una precisión
del 100%
• Tests con analistas humanos:
acuerdo 85-95%
(91% en dominio médico,
[Krallinger, 2015]))
Evaluación
46. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Evaluación
Estado del arte en cuanto a medidas de precisión
§ Extracción de entidades: 70-85%
§ Clasificación: 70-80%
§ Análisis de sentimiento: 60-70%
La mejora de calidad depende de la adaptación de las herramientas y recursos a la
aplicación/tarea
Evaluación
47. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
RECURSOS
48. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Anatomical Therapeutic
Chemical (ATC) Classification
System
Ibuprofeno algiasdin|apirofeno|aragel|articalm|astefor|
brufen|dalsy|dersindol|diltix|dolencar|doltra|espididol|
espidifen|….
nauseas estomago revuelto|sentirse mareado|
nauseas|nauseas solas|nauseoso|nauseoso|ansia
nauseosa|……
35.259 términos
16.418 fármacos
y 2.228
principios
activos
2.566 códigos
ATC
42.548
principales
enfermedades
Cáncer|neoplasia maligna|….
Recursos
49. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
TRENDMINER
Aplicaciones
Monitorización de información sobre salud en medios sociales
50. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ Detectar menciones de fármacos y eventos médicos (enfermedades,
síntomas, efectos adversos, etc.) en medios sociales.
§ Los medios sociales pueden ser fuentes valiosas en la monitorización de
eventos médicos.
§ Aplicación a tareas de farmacovigilancia llevadas a cabo por las agencias de
medicamentos y compañías farmacéuticas.
Objetivos
Aplicaciones. TrendMiner
51. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Patients on Twitter
Spanish patient Forums
Aplicaciones. TrendMiner
Fuentes analizadas
52. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Aplicaciones. TrendMiner
§ Ejemplo de comentario en Forumclinic
53. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Spanish DrugEffect DB containing relations among drugs
and effects
63.000 relations
Aplicaciones. TrendMiner
Recursos integrados
54. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Collecting texts from
Twitter & Blogs
Datawarehous
e
Health monitoring Dashboard
GATE Annotation Pipeline
Analytics Processing
Gatherer processes
Real-time visualization
Inquirer processes
Spanish
Drug
Effect
Database
Aplicaciones. TrendMiner
55. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Datos agregados de los efectos del fármaco lorazepam
Aplicaciones. TrendMiner
56. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Línea temporal con la evolución de los fármacos y eventos
mencionados con el lorazempan
Aplicaciones. TrendMiner
57. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
RETOS
58. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§ ¡¡Datos!!
• Acceso a los datos para los no médicos
• Anonimización (Proyecto Visc+)
• Estandarización
• Propiedad de la información
• Compartición de conjuntos de datos
§ Veracidad/confiabilidad de los datos
§ Aplicaciones dirigidas por los usuarios (médicos y pacientes)
§ Integración de sistemas aislados
• Dispersión en diferentes hospitales, centros de salud, …
Retos
59. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
¡Gracias por vuestra atención!
José Luis Martínez Fernández
Socio Director de Daedalus S.A.
Profesor Asociado Universidad Carlos III de
Madrid
jmartinez@daedalus.es
Daedalus, S.A.
Tel: +34 913324301
info@daedalus.es
http://www.daedalus.es
@daedalus_sa
60. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Bibliografía
§ Aggarwal, Charu C., & Zhai, ChengXiang (2012). A survey of text classification
algorithms. In Mining text data (pp. 163–222).
§ El Poder de los datos, Informe de la Fundación Bankinter, Mayo 2015
§ Europeans becoming enthusiastic users of online health information, EU report, 2014
§ María Herrero Zazo,
Semantic Resources in Pharmacovigilance: A Corpus and an Ontology for Drug-Drug
Interactions, Directores: Isabel Segura-Bedmar y Paloma Martínez, Universidad Carlos III de
Madrid, Departamento de Informática, 2015
§ Martínez,P.,
Nuevo sistema para detectar efectos adversos de los medicamentos usando redes
sociales, 2015, Oficina de Información Científica, Universidad Carlos III de Madrid
§ Martin Krallinger et al. CHEMDNER: The drugs and chemical names extraction challenge.
Journal of Cheminformatics, 7(Suppl 1):S1 (2015)
61. Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Bibliografía
§ Maynard, D. Et al, NLP Techniques for Term Extraction and Ontology Population,
Proceedings of the 2008 conference on Ontology Learning and Population: Bridging the
Gap between Text and Knowledge, Pages 107-127
§ Monitorización de la alergia en Twitter, Fundación Telefónica, 2015
§ Isabel Segura-Bedmar, Paloma Martínez, Ricardo Revert , Julián Moreno-Schneider,
(2015).
Exploring Spanish Health Social Media for detecting drug effects, BMC Medical
Informatics and Decision Making, June, 2015, Volumen: 15, Número: Supplement
S2, Páginas: doi:10.1186/1472-6947-15-S2-S
§ Paloma Martínez, Isabel Segura-Bedmar, Thierry Declerck, José Luis Martínez
Fernández, (2014).
TrendMiner: Large-scale Cross-lingual Trend Mining Summarization of Realtime
Media Streams, September, 2014, Procesamiento del Lenguaje Natural , Volumen: 53,
Páginas: 163-166