SlideShare una empresa de Scribd logo
1 de 61
Descargar para leer sin conexión
IX Encuentro e-Salud y Telemedicina: TIC para los
retos de I+i en servicios de salud en enfermedades
crónicas
Big Data en salud:
tecnologías para conocer
mejor a los pacientes a través
de los datos
José Luis Martínez Fernández
Socio Director de DAEDALUS S.A.
Profesor Asociado de la Universidad Carlos III de Madrid
@jlmartinez_es
http://es.linkedin.com/in/jlmartinezfernandez
1 de Julio de 2015, Santander
Universidad Internacional Menéndez
Pelayo
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Contenido
§  ¿Qué es Big Data?
§  Big Data en el dominio de salud
§  Arquitectura típica de un proceso de Big Data
§  Datos
•  Análisis de datos estructurados en Big Data
•  Aprendizaje automático
•  Análisis de datos no estructurados en Big Data
•  Técnicas de Análisis de Texto
•  Evaluando técnicas de análisis de texto
§  Recursos
§  Aplicaciones
•  La experiencia de TrendMiner
§  Retos
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
¿QUÉ ES BIG DATA?
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Técnicas para capturar, gestionar y procesar grandes volúmenes de datos en
tiempos aceptables
§  Doug Laney (analista de META Group, ahora Gartner) identifica en 2001 los retos y
oportunidades del crecimiento de los datos:
•  Volumen: aumento de datos
•  Velocidad: de entrada/salida de datos
•  Variedad: rango de tipos y fuentes de datos
§  Gartner: modelo de las 3Vs (2012):
•  “Big data is high volume, high velocity, and/or high variety information assets that
require new forms of processing to enable enhanced decision making, insight
discovery and process optimization.”
Big Data: ¿qué es?
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
5
¿Qué es Big Data?
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Data Never Sleep 2.0
https://www.domo.com/learn/data-never-
sleeps-2
¿Qué es Big Data?
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Big Data en el dominio de salud
VOLUMEN VELOCIDAD
VARIEDAD
§  Millones de historias
clínicas
§  Miles de publicaciones
científicas
§  Dispositivos
§  Internet …
§  Informes diarios …
§  Nuevas publicaciones
científicas
§  Internet …
§  ECGS
§  Diagnósticos
§  Resultados de pruebas
§  …
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
“En los últimos 5 años se ha generado más
información científica que en toda la historia
…”
Winston Hide, Escuela Pública de Harvard
“Solo en MedLine se publican 20.000
artículos a la semana”
María Herrero, Tesis Doctoral
“Los profesionales de salud dedican el 20%
de su tiempo a buscar y procesar información
necesaria para la práctica sanitaria ”
Clinical Solutions, Elsevier
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
#cardiotuitero
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
La información no estructurada es cada vez más importante en
Salud
Documentación médica Medios sociales
Redes, foros,
comunidades de salud
Extraer información estructurada “accionable” de contenido no
estructurado
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  ¿Cuántos datos se procesan de la
Historia Clínica Electrónica?
§  Aplicaciones:
•  Soporte a la codificación ICD9/10,
SNOMED CT, CIMA, …
•  Sistemas de ayuda a operadores
humanos: procesos de
codificación (p. ej.: diagnósticos
en partes de alta en urgencias)
No Estructurados Estructurados
Big Data en el dominio de salud
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
ARQUITECTURA TÍPICA DE UN
PROCESO DE BIG DATA
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Arquitectura típica de un proceso de análisis de
sentimiento
Adquisición/
Grabación
Extracción/
Limpieza
Interpretación/
Agregación
Análisis/
Modelado
Interpretación
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Arquitectura típica de un proceso de análisis de
sentimiento
Big Interactions Big Transactions
Big Processing
Big Analytics
•  Sociales: Twitter…..
•  Generadas por máquinas:
sensores, escáneres de
seguridad, ...
•  Datos históricos: que crecen
exponencialmente
•  Web: clicks, logs, …
•  No SQL: Hadoop (distribución)
•  Evolución SGBD: Oracle Exadata
•  Aumento RAM
•  Visualización: nubes, árboles, …
•  Análisis de opinión
•  Segmentación de clientes
•  Detección de fraude
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
DATOS
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Datos no estructurados Datos estructurados
19
Datos
20% de los datos frente al … ¡¡80%!!
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  De bases de datos relacionales
§  A bases de datos NoSQL
Datos
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
ANÁLISIS DE DATOS
ESTRUCTURADOS EN BIG DATA
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Machine Learning/
Pattern
Recognition
Statistics/
AI
Data Mining
Database
systems
Datos estructurados
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Modelo
Valida
(estadística)
Genera
(aprendizaje)
DATOS RESULTADOS
Datos estructurados
Proceso de Análisis
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Modelos
Predictivos
responden preguntas sobre datos
futuros
Ej.:
•  ¿Cuáles serán las ventas el año próximo?
•  ¿Es esta transacción fraudulenta?
•  ¿Qué tipo de seguro es más probable que
contrate el cliente X?
Descriptivos
Proporcionan información sobre las
relaciones entre los datos y sus
características
Ej.:
•  Los clientes que compran pañales suelen
comprar cerveza.
•  El tabaco y el alcohol son los factores más
importantes en la enfermedad Y.
•  Los clientes sin televisión y con bicicleta tienen
características muy diferenciadas del resto.
Datos estructurados
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Técnica
Supervisada
No-supervisada
Predicción
Clasificación
Descripción
Clustering
Asociación
•  Bayesiana
•  Redes de neuronas
•  Regresión
•  Árboles de decisión
•  Support Vector Machines
•  …
•  K-Medias
•  Conceptual
•  Probabilístico
•  A priori
•  …
Datos estructurados
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
TÉCNICAS DE ANÁLISIS DE
TEXTO EN BIG DATA
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Pipeline para análisis de texto
ACL2014 proceedings, CoreNLP description
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  División de un texto de entrada en oraciones y palabras.
§  ¡Fácil!, ¿verdad? Ejemplos:
Técnicas de Análisis de Texto
Segmentación (tokenization)
Ø  ECG al alta: Ritmo sinusal a 70 Ipm. PR 100 msec. BRD+HBAI. QRS 120
msec.
Ø  SCASEST (ANGINA MIXTA) EN VARON DE 67 AÑOS CON CARDIOPATIA
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Este proceso asigna a cada palabra la categoría gramatical que le corresponde.
§  Ej.: Acude por angina progresiva desde hace 10 días
Técnicas de Análisis de Texto
Etiquetado de partes del discurso (POS tagging)
{ "form": "angina",
"id": "3",
"inip": "10",
"endp": "15",
"bold": "no",
"italic": "no",
"underscore": "no",
"separation": "1”,
"analysis_list": [
{
"tag": "NCFS-NYN3",
"lemma": "angina",
"original_form": "angina”}]}
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Dos tipos de implementaciones:
•  Estadística: Hidden Markov Models, Maximum Entropy, Support Vector Machines,
basado en reglas
•  Basada en conocimiento: Introduce un paso previo al análisis estadístico en el
que las etiquetas posibles para una palabra forman parte de una base léxica.
§  Se apoyan en colecciones de texto etiquetadas: TreeBank (Linguistic Data Consortium,
LDC)
§  Problemas
•  Ambigüedad
•  Casa: Juan se casa el viernes, Juan se ha ido de casa
•  Puede incluir o no lematización
§  Precisión del 97% (teóricamente): dependiente del contexto de aplicación
Técnicas de Análisis de Texto
Etiquetado de partes del discurso (POS tagging)
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Identificación de nombres propios.
§  Ej.: “En el Día Internacional de la
Enfermería, entrevistamos a ROSA PÉREZ,
enfermera, autora de El blog de Rosa”
Extracción de Entidades (NER)
Técnicas de Análisis de Texto
"entity_list": [
{
"form": "Día Internacional de la Enfermería",
"sementity": {
"class": "instance",
"type": "Top",
"confidence": "unknown"
}}]
"variant_list": [
{
"form": "ROSA PÉREZ",
"sementity": {
"class": "instance",
"type": "Top>Person>FullName",
"confidence": "unknown"
},
"variant_list": [
{
"form": "ROSA PÉREZ",
"inip": "58",
"endp": "67"
}
],
"relevance": "100"
}]
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  El proceso de extracción de entidades, en ocasiones, va más allá: categorización
(persona, lugar, …)
§  ¿Estándar para la categorización?
§  Linked Open Data
Extracción de Entidades (NER)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  El análisis sintáctico consiste en obtener la estructura sintagmática de una frase.
Análisis sintáctico (syntactic parsing)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Análisis sintáctico (syntactic parsing)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Implementación:
•  Se implementa como parte del proceso de etiquetado POS:
§  los corpus de entrenamiento incluyen etiquetas para identificar sintagmas
•  Técnicas basadas en análisis de dependencias:
•  La estructura sintáctica consiste en entradas léxicas enlazadas mediante
relaciones binarias asimétricas, denominadas dependencias.
Análisis sintáctico (syntactic parsing)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Asignar un texto a un conjunto de clases predeterminado.
§  Tipos de algoritmos:
•  Estadísticos:
•  Aprendizaje automático: árboles de decisión, SVM, Redes neuronales,
clasificadores bayesianos
•  Representación vectorial
•  Basados en reglas:
Clasificación de textos
Técnicas de Análisis de Texto
C
B
A
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Selección de características:
•  Índice Gini: basado en la probabilidad condicional de que un documento
pertenezca a una clase dado que contiene una palabra determinada.
•  Ganancia de información: no solo tiene en cuenta la aparición de una palabra en
el documento si no que también contempla el número de documentos que
contienen esa palabra.
•  Información mutua: tiene en cuenta la co-ocurrencia de una palabra determinada
y una clase concreta.
Clasificación de textos
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Creación de clases/grupos a partir del conjunto de elementos.
§  Número desconocido de clases.
§  Técnicas:
•  Algoritmos basados en distancias: cercanía entre dos documentos
•  Algoritmos aglomerativos o jerárquicos: agrupa elementos dando lugar a una
jerarquía.
•  Algoritmos basados en particiones:
•  K-means: utiliza k representantes alrededor de los cuales se forman los
grupos
•  Topic modeling: crear un modelo probabilístico generativo a partir de los textos
del corpus. El corpus se representa en función de variables aleatorias, cuyos
parámetros se estiman a partir de una colección concreta.
Agrupación de textos (clustering)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Determinar el parecer de un hablante respecto a un tema determinado
§  Determinar la polaridad (positiva, negativa o neutra) expresada en un texto.
§  Implementación:
•  Listas de palabras positivas/negativas à Cuenta
•  Aprendizaje automático
•  Análisis PLN: detección de aspectos y de sentimiento sobre estos aspectos
Análisis de sentimiento (sentiment analysis)
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Estoy encantado con el servicio de urgencias del hospital
Análisis de sentimiento (sentiment analysis)
Técnicas de Análisis de Texto
"polarity_term_list": [{
"text": "estar encantado”,
"score_tag": "P+",
"sentimented_concept_list": [
{
"form": "servicio de urgencias”,
"type": "Top>Product>ProfessionalService",
"score_tag": "P+"
}]
"sentimented_concept_list": [{
"form": "hospital",
"type": "Top>Location>Facility",
}]
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Herramienta para organizar grandes cantidades de información.
§  ¿Sobre qué temas o topics trata el contenido de un documento?
§  Modelo bayesiano:
§  Asumimos que un topic queda definido por una distribución probabilística de
términos.
§  Asumimos que cada documento se genera a partir de una distribución de topics
(ocultos).
§  Algoritmos (no supervisados) para entrenar un modelo LDA: inferencia
variacional y muestreo de Gibbs.
§  Herramientas open-source que lo implementan: Mallet (muestreo de Gibbs).
Latent Dirichlet Allocation
Técnicas de Análisis de Texto
Análisis de tendencias
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Análisis de tendencias. LDA
Técnicas de Análisis de Texto
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
EVALUACIÓN
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Precisión: Proporción de sentimientos etiquetados correctamente de entre
los encontrados por el sistema
§  Recall(cobertura): Proporción de sentimientos encontrados respecto al total
de expresiones de sentimiento existentes en la colección
S
S
S
S
S
S
Evaluación
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Los requisitos dependen de la aplicación
•  Monitorización de marca en medios sociales: alta precisión, baja cobertura
•  Lucha antiterrorista: alta cobertura, baja precisión
§  Precisión y cobertura están
inversamente relacionadas
•  Buscar compromiso
§  Las personas NO tenemos una precisión
del 100%
•  Tests con analistas humanos:
acuerdo 85-95%
(91% en dominio médico,
[Krallinger, 2015]))
Evaluación
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Evaluación
Estado del arte en cuanto a medidas de precisión
§  Extracción de entidades: 70-85%
§  Clasificación: 70-80%
§  Análisis de sentimiento: 60-70%
La mejora de calidad depende de la adaptación de las herramientas y recursos a la
aplicación/tarea
Evaluación
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
RECURSOS
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Anatomical Therapeutic
Chemical (ATC) Classification
System
Ibuprofeno algiasdin|apirofeno|aragel|articalm|astefor|
brufen|dalsy|dersindol|diltix|dolencar|doltra|espididol|
espidifen|….
nauseas estomago revuelto|sentirse mareado|
nauseas|nauseas solas|nauseoso|nauseoso|ansia
nauseosa|……
35.259 términos
16.418 fármacos
y 2.228
principios
activos
2.566 códigos
ATC
42.548
principales
enfermedades
Cáncer|neoplasia maligna|….
Recursos
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
TRENDMINER
Aplicaciones
Monitorización de información sobre salud en medios sociales
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  Detectar menciones de fármacos y eventos médicos (enfermedades,
síntomas, efectos adversos, etc.) en medios sociales.
§  Los medios sociales pueden ser fuentes valiosas en la monitorización de
eventos médicos.
§  Aplicación a tareas de farmacovigilancia llevadas a cabo por las agencias de
medicamentos y compañías farmacéuticas.
Objetivos
Aplicaciones. TrendMiner
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Patients on Twitter
Spanish patient Forums
Aplicaciones. TrendMiner
Fuentes analizadas
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Aplicaciones. TrendMiner
§  Ejemplo de comentario en Forumclinic
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Spanish DrugEffect DB containing relations among drugs
and effects
63.000 relations
Aplicaciones. TrendMiner
Recursos integrados
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Collecting texts from
Twitter & Blogs
Datawarehous
e
Health monitoring Dashboard
GATE Annotation Pipeline
Analytics Processing
Gatherer processes
Real-time visualization
Inquirer processes
Spanish
Drug
Effect
Database
Aplicaciones. TrendMiner
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Datos agregados de los efectos del fármaco lorazepam
Aplicaciones. TrendMiner
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Línea temporal con la evolución de los fármacos y eventos
mencionados con el lorazempan
Aplicaciones. TrendMiner
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
RETOS
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
§  ¡¡Datos!!
•  Acceso a los datos para los no médicos
•  Anonimización (Proyecto Visc+)
•  Estandarización
•  Propiedad de la información
•  Compartición de conjuntos de datos
§  Veracidad/confiabilidad de los datos
§  Aplicaciones dirigidas por los usuarios (médicos y pacientes)
§  Integración de sistemas aislados
•  Dispersión en diferentes hospitales, centros de salud, …
Retos
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
¡Gracias por vuestra atención!
José Luis Martínez Fernández
Socio Director de Daedalus S.A.
Profesor Asociado Universidad Carlos III de
Madrid
jmartinez@daedalus.es
Daedalus, S.A.
Tel: +34 913324301
info@daedalus.es
http://www.daedalus.es
@daedalus_sa
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Bibliografía
§  Aggarwal, Charu C., & Zhai, ChengXiang (2012). A survey of text classification
algorithms. In Mining text data (pp. 163–222).
§  El Poder de los datos, Informe de la Fundación Bankinter, Mayo 2015
§  Europeans becoming enthusiastic users of online health information, EU report, 2014
§  María Herrero Zazo,
Semantic Resources in Pharmacovigilance: A Corpus and an Ontology for Drug-Drug
Interactions, Directores: Isabel Segura-Bedmar y Paloma Martínez, Universidad Carlos III de
Madrid, Departamento de Informática, 2015
§  Martínez,P.,
Nuevo sistema para detectar efectos adversos de los medicamentos usando redes
sociales, 2015, Oficina de Información Científica, Universidad Carlos III de Madrid
§  Martin Krallinger et al. CHEMDNER: The drugs and chemical names extraction challenge.
Journal of Cheminformatics, 7(Suppl 1):S1 (2015)
Big Data en salud: tecnologías para conocer mejor a los pacientes a través
de los datos
Bibliografía
§  Maynard, D. Et al, NLP Techniques for Term Extraction and Ontology Population,
Proceedings of the 2008 conference on Ontology Learning and Population: Bridging the
Gap between Text and Knowledge, Pages 107-127
§  Monitorización de la alergia en Twitter, Fundación Telefónica, 2015
§  Isabel Segura-Bedmar, Paloma Martínez, Ricardo Revert , Julián Moreno-Schneider,
(2015).
Exploring Spanish Health Social Media for detecting drug effects, BMC Medical
Informatics and Decision Making, June, 2015, Volumen: 15, Número: Supplement
S2, Páginas: doi:10.1186/1472-6947-15-S2-S
§  Paloma Martínez, Isabel Segura-Bedmar, Thierry Declerck, José Luis Martínez
Fernández, (2014).
TrendMiner: Large-scale Cross-lingual Trend Mining Summarization of Realtime
Media Streams, September, 2014, Procesamiento del Lenguaje Natural , Volumen: 53,
Páginas: 163-166

Más contenido relacionado

La actualidad más candente

La actualidad más candente (20)

Big data presentacion diapositiva
Big data presentacion diapositivaBig data presentacion diapositiva
Big data presentacion diapositiva
 
Big data diapositivas
Big data diapositivasBig data diapositivas
Big data diapositivas
 
Big data
Big dataBig data
Big data
 
1 big data y redes sociales
1 big data y redes sociales1 big data y redes sociales
1 big data y redes sociales
 
Big data en entornos corporativos - CommCorp
Big data en entornos corporativos - CommCorpBig data en entornos corporativos - CommCorp
Big data en entornos corporativos - CommCorp
 
Nuevas tecnologias power point pptx
Nuevas tecnologias power point pptxNuevas tecnologias power point pptx
Nuevas tecnologias power point pptx
 
Big Data
Big DataBig Data
Big Data
 
Big Data para analizar las redes sociales
Big Data para analizar las redes socialesBig Data para analizar las redes sociales
Big Data para analizar las redes sociales
 
Bigdata trabajo de investigacion
Bigdata trabajo de investigacion Bigdata trabajo de investigacion
Bigdata trabajo de investigacion
 
Big data-grupo-7
Big data-grupo-7Big data-grupo-7
Big data-grupo-7
 
Proyecto big data
Proyecto big dataProyecto big data
Proyecto big data
 
Presentacion big data
Presentacion big dataPresentacion big data
Presentacion big data
 
Big Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big ResultsBig Data, Big Customer Value, Big Results
Big Data, Big Customer Value, Big Results
 
Big Data & RRHH
Big Data & RRHHBig Data & RRHH
Big Data & RRHH
 
Big Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negociosBig Data: conceptos generales e impacto en los negocios
Big Data: conceptos generales e impacto en los negocios
 
Desmitificando el Big Data
Desmitificando el Big DataDesmitificando el Big Data
Desmitificando el Big Data
 
Paradigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadas
Paradigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadasParadigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadas
Paradigmas de Procesamiento en Big Data: Arquitecturas y Tecnologías aplicadas
 
Iniciación al BiG Data - español
Iniciación al BiG Data - españolIniciación al BiG Data - español
Iniciación al BiG Data - español
 
Qué es el Big Data?
Qué es el Big Data?Qué es el Big Data?
Qué es el Big Data?
 
Cómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organizaciónCómo empezar a implementar proyectos Big Data en tu organización
Cómo empezar a implementar proyectos Big Data en tu organización
 

Destacado

Protocolos.SARM.HULP.2011
Protocolos.SARM.HULP.2011Protocolos.SARM.HULP.2011
Protocolos.SARM.HULP.2011
PROANTIBIOTICOS
 
Diapositivas del proyecto tecnologico 2013
Diapositivas del proyecto tecnologico 2013Diapositivas del proyecto tecnologico 2013
Diapositivas del proyecto tecnologico 2013
Juan Carlos Luna
 
Anime trabajo de tecnologia diaspocitivas (1)
Anime trabajo de tecnologia diaspocitivas (1)Anime trabajo de tecnologia diaspocitivas (1)
Anime trabajo de tecnologia diaspocitivas (1)
Sebastian Gomez
 
Uspto reexamination request - update - august 29th to september 4th, 2012 -...
Uspto   reexamination request - update - august 29th to september 4th, 2012 -...Uspto   reexamination request - update - august 29th to september 4th, 2012 -...
Uspto reexamination request - update - august 29th to september 4th, 2012 -...
InvnTree IP Services Pvt. Ltd.
 
Ig Plus Data Sheet
Ig Plus Data SheetIg Plus Data Sheet
Ig Plus Data Sheet
ressupply
 
Portafolio astrid alviso
Portafolio astrid alvisoPortafolio astrid alviso
Portafolio astrid alviso
astrid_alviso
 

Destacado (18)

Uci sin paredes gertech
Uci sin paredes gertechUci sin paredes gertech
Uci sin paredes gertech
 
Protocolos.SARM.HULP.2011
Protocolos.SARM.HULP.2011Protocolos.SARM.HULP.2011
Protocolos.SARM.HULP.2011
 
Big Data y transformación de la salud
Big Data y transformación de la saludBig Data y transformación de la salud
Big Data y transformación de la salud
 
El poder de transformar el negocio Big Data, Cloud, Internet de las cosas, C...
El poder de transformar el negocio  Big Data, Cloud, Internet de las cosas, C...El poder de transformar el negocio  Big Data, Cloud, Internet de las cosas, C...
El poder de transformar el negocio Big Data, Cloud, Internet de las cosas, C...
 
Diapositivas del proyecto tecnologico 2013
Diapositivas del proyecto tecnologico 2013Diapositivas del proyecto tecnologico 2013
Diapositivas del proyecto tecnologico 2013
 
Cocal Notícias 515: versão online
Cocal Notícias 515: versão onlineCocal Notícias 515: versão online
Cocal Notícias 515: versão online
 
Unidad ii monreal
Unidad ii  monrealUnidad ii  monreal
Unidad ii monreal
 
SM+ Markenerlebnis Quarterly Spezial NPO und NGO
SM+ Markenerlebnis Quarterly Spezial NPO und NGOSM+ Markenerlebnis Quarterly Spezial NPO und NGO
SM+ Markenerlebnis Quarterly Spezial NPO und NGO
 
Technosite y la innovación en la tercera generación
Technosite y la innovación en la tercera generaciónTechnosite y la innovación en la tercera generación
Technosite y la innovación en la tercera generación
 
Anime trabajo de tecnologia diaspocitivas (1)
Anime trabajo de tecnologia diaspocitivas (1)Anime trabajo de tecnologia diaspocitivas (1)
Anime trabajo de tecnologia diaspocitivas (1)
 
Transfer de hotel y aeropuerto esp
Transfer de hotel y aeropuerto espTransfer de hotel y aeropuerto esp
Transfer de hotel y aeropuerto esp
 
Uspto reexamination request - update - august 29th to september 4th, 2012 -...
Uspto   reexamination request - update - august 29th to september 4th, 2012 -...Uspto   reexamination request - update - august 29th to september 4th, 2012 -...
Uspto reexamination request - update - august 29th to september 4th, 2012 -...
 
Ig Plus Data Sheet
Ig Plus Data SheetIg Plus Data Sheet
Ig Plus Data Sheet
 
Tuning
TuningTuning
Tuning
 
Portafolio astrid alviso
Portafolio astrid alvisoPortafolio astrid alviso
Portafolio astrid alviso
 
Abstract copy munk
Abstract copy munkAbstract copy munk
Abstract copy munk
 
Dossier comercial respostes 2010 11
Dossier comercial respostes 2010 11Dossier comercial respostes 2010 11
Dossier comercial respostes 2010 11
 
Ibm redguide api economy
Ibm redguide   api economyIbm redguide   api economy
Ibm redguide api economy
 

Similar a Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

Similar a Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos (20)

La medicina en relación con
La medicina en relación conLa medicina en relación con
La medicina en relación con
 
PRESENTACIÓN SOBRE EL BIG DATA- EQUIPO 4
PRESENTACIÓN SOBRE EL BIG DATA- EQUIPO 4PRESENTACIÓN SOBRE EL BIG DATA- EQUIPO 4
PRESENTACIÓN SOBRE EL BIG DATA- EQUIPO 4
 
Datlas Analytics para Salud en México
Datlas Analytics para Salud en MéxicoDatlas Analytics para Salud en México
Datlas Analytics para Salud en México
 
Big Problem Data
Big Problem DataBig Problem Data
Big Problem Data
 
Joan Guanyabens i Calvet
Joan Guanyabens i CalvetJoan Guanyabens i Calvet
Joan Guanyabens i Calvet
 
II Encuentro ASD. ¿Hay ejemplos prácticos de aplicación de los datos al secto...
II Encuentro ASD. ¿Hay ejemplos prácticos de aplicación de los datos al secto...II Encuentro ASD. ¿Hay ejemplos prácticos de aplicación de los datos al secto...
II Encuentro ASD. ¿Hay ejemplos prácticos de aplicación de los datos al secto...
 
Informática médica
Informática médicaInformática médica
Informática médica
 
eSalud. Medicina y TICs.
eSalud. Medicina y TICs.eSalud. Medicina y TICs.
eSalud. Medicina y TICs.
 
Procesamiento digital de imágenes e inteligencia aritificial
Procesamiento digital de imágenes e inteligencia aritificialProcesamiento digital de imágenes e inteligencia aritificial
Procesamiento digital de imágenes e inteligencia aritificial
 
Big Data y medicina
Big Data y medicinaBig Data y medicina
Big Data y medicina
 
Informática en Medicina
Informática en MedicinaInformática en Medicina
Informática en Medicina
 
Sistemas De Informacion y Vigilancia En Salud Publica
Sistemas De Informacion  y Vigilancia En Salud PublicaSistemas De Informacion  y Vigilancia En Salud Publica
Sistemas De Informacion y Vigilancia En Salud Publica
 
Big data y medicina
Big data y medicinaBig data y medicina
Big data y medicina
 
Innovacion Tecnoliga Y Hospital
Innovacion Tecnoliga Y HospitalInnovacion Tecnoliga Y Hospital
Innovacion Tecnoliga Y Hospital
 
Innovacion Tecnoliga Y Hospital
Innovacion Tecnoliga Y HospitalInnovacion Tecnoliga Y Hospital
Innovacion Tecnoliga Y Hospital
 
planificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptxplanificacion sanitaria materia 5 power point.pptx
planificacion sanitaria materia 5 power point.pptx
 
Angela de big data informatica
Angela de big data informaticaAngela de big data informatica
Angela de big data informatica
 
Ensayo tic
Ensayo ticEnsayo tic
Ensayo tic
 
Las TIC en el futuro de la medicina
Las TIC en el futuro de la medicinaLas TIC en el futuro de la medicina
Las TIC en el futuro de la medicina
 
Historia Clinica Digital
Historia Clinica DigitalHistoria Clinica Digital
Historia Clinica Digital
 

Último

100^ safe in Dubai%)( UAE))((☎️^+971[563[407[584[** *)) Abortion Pills for Sa...
100^ safe in Dubai%)( UAE))((☎️^+971[563[407[584[** *)) Abortion Pills for Sa...100^ safe in Dubai%)( UAE))((☎️^+971[563[407[584[** *)) Abortion Pills for Sa...
100^ safe in Dubai%)( UAE))((☎️^+971[563[407[584[** *)) Abortion Pills for Sa...
ag5345936
 
anatomia-funcional-del-suelo-pelvico - Copia.pdf
anatomia-funcional-del-suelo-pelvico - Copia.pdfanatomia-funcional-del-suelo-pelvico - Copia.pdf
anatomia-funcional-del-suelo-pelvico - Copia.pdf
helenaosouza
 

Último (8)

Examen fisico del Recien nacido Peru.pptx
Examen fisico del Recien nacido Peru.pptxExamen fisico del Recien nacido Peru.pptx
Examen fisico del Recien nacido Peru.pptx
 
IMPRIMIR - HERNIAS. RESUMO UNIVERSIDADEpdf
IMPRIMIR - HERNIAS. RESUMO UNIVERSIDADEpdfIMPRIMIR - HERNIAS. RESUMO UNIVERSIDADEpdf
IMPRIMIR - HERNIAS. RESUMO UNIVERSIDADEpdf
 
100^ safe in Dubai%)( UAE))((☎️^+971[563[407[584[** *)) Abortion Pills for Sa...
100^ safe in Dubai%)( UAE))((☎️^+971[563[407[584[** *)) Abortion Pills for Sa...100^ safe in Dubai%)( UAE))((☎️^+971[563[407[584[** *)) Abortion Pills for Sa...
100^ safe in Dubai%)( UAE))((☎️^+971[563[407[584[** *)) Abortion Pills for Sa...
 
cama ocupada.pptx espero les sirva para sus
cama ocupada.pptx espero les sirva para suscama ocupada.pptx espero les sirva para sus
cama ocupada.pptx espero les sirva para sus
 
Tejido Epitelial medicina (1)-compactado.pdf
Tejido Epitelial medicina  (1)-compactado.pdfTejido Epitelial medicina  (1)-compactado.pdf
Tejido Epitelial medicina (1)-compactado.pdf
 
PARASITOSIS INTESTINAL en Pediatría, Enfermería y Familiar II
PARASITOSIS INTESTINAL en Pediatría, Enfermería y Familiar IIPARASITOSIS INTESTINAL en Pediatría, Enfermería y Familiar II
PARASITOSIS INTESTINAL en Pediatría, Enfermería y Familiar II
 
anatomia-funcional-del-suelo-pelvico - Copia.pdf
anatomia-funcional-del-suelo-pelvico - Copia.pdfanatomia-funcional-del-suelo-pelvico - Copia.pdf
anatomia-funcional-del-suelo-pelvico - Copia.pdf
 
La prevención en trabajos con riesgo de exposición al ruido.docx
La prevención en trabajos con riesgo de exposición al ruido.docxLa prevención en trabajos con riesgo de exposición al ruido.docx
La prevención en trabajos con riesgo de exposición al ruido.docx
 

Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos

  • 1. IX Encuentro e-Salud y Telemedicina: TIC para los retos de I+i en servicios de salud en enfermedades crónicas Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos José Luis Martínez Fernández Socio Director de DAEDALUS S.A. Profesor Asociado de la Universidad Carlos III de Madrid @jlmartinez_es http://es.linkedin.com/in/jlmartinezfernandez 1 de Julio de 2015, Santander Universidad Internacional Menéndez Pelayo
  • 2. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Contenido §  ¿Qué es Big Data? §  Big Data en el dominio de salud §  Arquitectura típica de un proceso de Big Data §  Datos •  Análisis de datos estructurados en Big Data •  Aprendizaje automático •  Análisis de datos no estructurados en Big Data •  Técnicas de Análisis de Texto •  Evaluando técnicas de análisis de texto §  Recursos §  Aplicaciones •  La experiencia de TrendMiner §  Retos
  • 3. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos ¿QUÉ ES BIG DATA?
  • 4. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Técnicas para capturar, gestionar y procesar grandes volúmenes de datos en tiempos aceptables §  Doug Laney (analista de META Group, ahora Gartner) identifica en 2001 los retos y oportunidades del crecimiento de los datos: •  Volumen: aumento de datos •  Velocidad: de entrada/salida de datos •  Variedad: rango de tipos y fuentes de datos §  Gartner: modelo de las 3Vs (2012): •  “Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.” Big Data: ¿qué es?
  • 5. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos 5 ¿Qué es Big Data?
  • 6. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Data Never Sleep 2.0 https://www.domo.com/learn/data-never- sleeps-2 ¿Qué es Big Data?
  • 7. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Big Data en el dominio de salud VOLUMEN VELOCIDAD VARIEDAD §  Millones de historias clínicas §  Miles de publicaciones científicas §  Dispositivos §  Internet … §  Informes diarios … §  Nuevas publicaciones científicas §  Internet … §  ECGS §  Diagnósticos §  Resultados de pruebas §  …
  • 8. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos “En los últimos 5 años se ha generado más información científica que en toda la historia …” Winston Hide, Escuela Pública de Harvard “Solo en MedLine se publican 20.000 artículos a la semana” María Herrero, Tesis Doctoral “Los profesionales de salud dedican el 20% de su tiempo a buscar y procesar información necesaria para la práctica sanitaria ” Clinical Solutions, Elsevier Big Data en el dominio de salud
  • 9. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Big Data en el dominio de salud
  • 10. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos #cardiotuitero Big Data en el dominio de salud
  • 11. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Big Data en el dominio de salud
  • 12. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Big Data en el dominio de salud
  • 13. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos La información no estructurada es cada vez más importante en Salud Documentación médica Medios sociales Redes, foros, comunidades de salud Extraer información estructurada “accionable” de contenido no estructurado Big Data en el dominio de salud
  • 14. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  ¿Cuántos datos se procesan de la Historia Clínica Electrónica? §  Aplicaciones: •  Soporte a la codificación ICD9/10, SNOMED CT, CIMA, … •  Sistemas de ayuda a operadores humanos: procesos de codificación (p. ej.: diagnósticos en partes de alta en urgencias) No Estructurados Estructurados Big Data en el dominio de salud
  • 15. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos ARQUITECTURA TÍPICA DE UN PROCESO DE BIG DATA
  • 16. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Arquitectura típica de un proceso de análisis de sentimiento Adquisición/ Grabación Extracción/ Limpieza Interpretación/ Agregación Análisis/ Modelado Interpretación
  • 17. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Arquitectura típica de un proceso de análisis de sentimiento Big Interactions Big Transactions Big Processing Big Analytics •  Sociales: Twitter….. •  Generadas por máquinas: sensores, escáneres de seguridad, ... •  Datos históricos: que crecen exponencialmente •  Web: clicks, logs, … •  No SQL: Hadoop (distribución) •  Evolución SGBD: Oracle Exadata •  Aumento RAM •  Visualización: nubes, árboles, … •  Análisis de opinión •  Segmentación de clientes •  Detección de fraude
  • 18. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos DATOS
  • 19. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Datos no estructurados Datos estructurados 19 Datos 20% de los datos frente al … ¡¡80%!!
  • 20. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  De bases de datos relacionales §  A bases de datos NoSQL Datos
  • 21. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos ANÁLISIS DE DATOS ESTRUCTURADOS EN BIG DATA
  • 22. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Machine Learning/ Pattern Recognition Statistics/ AI Data Mining Database systems Datos estructurados
  • 23. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Modelo Valida (estadística) Genera (aprendizaje) DATOS RESULTADOS Datos estructurados Proceso de Análisis
  • 24. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Modelos Predictivos responden preguntas sobre datos futuros Ej.: •  ¿Cuáles serán las ventas el año próximo? •  ¿Es esta transacción fraudulenta? •  ¿Qué tipo de seguro es más probable que contrate el cliente X? Descriptivos Proporcionan información sobre las relaciones entre los datos y sus características Ej.: •  Los clientes que compran pañales suelen comprar cerveza. •  El tabaco y el alcohol son los factores más importantes en la enfermedad Y. •  Los clientes sin televisión y con bicicleta tienen características muy diferenciadas del resto. Datos estructurados
  • 25. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Técnica Supervisada No-supervisada Predicción Clasificación Descripción Clustering Asociación •  Bayesiana •  Redes de neuronas •  Regresión •  Árboles de decisión •  Support Vector Machines •  … •  K-Medias •  Conceptual •  Probabilístico •  A priori •  … Datos estructurados
  • 26. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos TÉCNICAS DE ANÁLISIS DE TEXTO EN BIG DATA
  • 27. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Pipeline para análisis de texto ACL2014 proceedings, CoreNLP description
  • 28. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  División de un texto de entrada en oraciones y palabras. §  ¡Fácil!, ¿verdad? Ejemplos: Técnicas de Análisis de Texto Segmentación (tokenization) Ø  ECG al alta: Ritmo sinusal a 70 Ipm. PR 100 msec. BRD+HBAI. QRS 120 msec. Ø  SCASEST (ANGINA MIXTA) EN VARON DE 67 AÑOS CON CARDIOPATIA
  • 29. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Este proceso asigna a cada palabra la categoría gramatical que le corresponde. §  Ej.: Acude por angina progresiva desde hace 10 días Técnicas de Análisis de Texto Etiquetado de partes del discurso (POS tagging) { "form": "angina", "id": "3", "inip": "10", "endp": "15", "bold": "no", "italic": "no", "underscore": "no", "separation": "1”, "analysis_list": [ { "tag": "NCFS-NYN3", "lemma": "angina", "original_form": "angina”}]}
  • 30. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Dos tipos de implementaciones: •  Estadística: Hidden Markov Models, Maximum Entropy, Support Vector Machines, basado en reglas •  Basada en conocimiento: Introduce un paso previo al análisis estadístico en el que las etiquetas posibles para una palabra forman parte de una base léxica. §  Se apoyan en colecciones de texto etiquetadas: TreeBank (Linguistic Data Consortium, LDC) §  Problemas •  Ambigüedad •  Casa: Juan se casa el viernes, Juan se ha ido de casa •  Puede incluir o no lematización §  Precisión del 97% (teóricamente): dependiente del contexto de aplicación Técnicas de Análisis de Texto Etiquetado de partes del discurso (POS tagging)
  • 31. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Identificación de nombres propios. §  Ej.: “En el Día Internacional de la Enfermería, entrevistamos a ROSA PÉREZ, enfermera, autora de El blog de Rosa” Extracción de Entidades (NER) Técnicas de Análisis de Texto "entity_list": [ { "form": "Día Internacional de la Enfermería", "sementity": { "class": "instance", "type": "Top", "confidence": "unknown" }}] "variant_list": [ { "form": "ROSA PÉREZ", "sementity": { "class": "instance", "type": "Top>Person>FullName", "confidence": "unknown" }, "variant_list": [ { "form": "ROSA PÉREZ", "inip": "58", "endp": "67" } ], "relevance": "100" }]
  • 32. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  El proceso de extracción de entidades, en ocasiones, va más allá: categorización (persona, lugar, …) §  ¿Estándar para la categorización? §  Linked Open Data Extracción de Entidades (NER) Técnicas de Análisis de Texto
  • 33. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  El análisis sintáctico consiste en obtener la estructura sintagmática de una frase. Análisis sintáctico (syntactic parsing) Técnicas de Análisis de Texto
  • 34. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Análisis sintáctico (syntactic parsing) Técnicas de Análisis de Texto
  • 35. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Implementación: •  Se implementa como parte del proceso de etiquetado POS: §  los corpus de entrenamiento incluyen etiquetas para identificar sintagmas •  Técnicas basadas en análisis de dependencias: •  La estructura sintáctica consiste en entradas léxicas enlazadas mediante relaciones binarias asimétricas, denominadas dependencias. Análisis sintáctico (syntactic parsing) Técnicas de Análisis de Texto
  • 36. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Asignar un texto a un conjunto de clases predeterminado. §  Tipos de algoritmos: •  Estadísticos: •  Aprendizaje automático: árboles de decisión, SVM, Redes neuronales, clasificadores bayesianos •  Representación vectorial •  Basados en reglas: Clasificación de textos Técnicas de Análisis de Texto C B A
  • 37. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Selección de características: •  Índice Gini: basado en la probabilidad condicional de que un documento pertenezca a una clase dado que contiene una palabra determinada. •  Ganancia de información: no solo tiene en cuenta la aparición de una palabra en el documento si no que también contempla el número de documentos que contienen esa palabra. •  Información mutua: tiene en cuenta la co-ocurrencia de una palabra determinada y una clase concreta. Clasificación de textos Técnicas de Análisis de Texto
  • 38. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Creación de clases/grupos a partir del conjunto de elementos. §  Número desconocido de clases. §  Técnicas: •  Algoritmos basados en distancias: cercanía entre dos documentos •  Algoritmos aglomerativos o jerárquicos: agrupa elementos dando lugar a una jerarquía. •  Algoritmos basados en particiones: •  K-means: utiliza k representantes alrededor de los cuales se forman los grupos •  Topic modeling: crear un modelo probabilístico generativo a partir de los textos del corpus. El corpus se representa en función de variables aleatorias, cuyos parámetros se estiman a partir de una colección concreta. Agrupación de textos (clustering) Técnicas de Análisis de Texto
  • 39. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Determinar el parecer de un hablante respecto a un tema determinado §  Determinar la polaridad (positiva, negativa o neutra) expresada en un texto. §  Implementación: •  Listas de palabras positivas/negativas à Cuenta •  Aprendizaje automático •  Análisis PLN: detección de aspectos y de sentimiento sobre estos aspectos Análisis de sentimiento (sentiment analysis) Técnicas de Análisis de Texto
  • 40. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Estoy encantado con el servicio de urgencias del hospital Análisis de sentimiento (sentiment analysis) Técnicas de Análisis de Texto "polarity_term_list": [{ "text": "estar encantado”, "score_tag": "P+", "sentimented_concept_list": [ { "form": "servicio de urgencias”, "type": "Top>Product>ProfessionalService", "score_tag": "P+" }] "sentimented_concept_list": [{ "form": "hospital", "type": "Top>Location>Facility", }]
  • 41. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Herramienta para organizar grandes cantidades de información. §  ¿Sobre qué temas o topics trata el contenido de un documento? §  Modelo bayesiano: §  Asumimos que un topic queda definido por una distribución probabilística de términos. §  Asumimos que cada documento se genera a partir de una distribución de topics (ocultos). §  Algoritmos (no supervisados) para entrenar un modelo LDA: inferencia variacional y muestreo de Gibbs. §  Herramientas open-source que lo implementan: Mallet (muestreo de Gibbs). Latent Dirichlet Allocation Técnicas de Análisis de Texto Análisis de tendencias
  • 42. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Análisis de tendencias. LDA Técnicas de Análisis de Texto
  • 43. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos EVALUACIÓN
  • 44. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Precisión: Proporción de sentimientos etiquetados correctamente de entre los encontrados por el sistema §  Recall(cobertura): Proporción de sentimientos encontrados respecto al total de expresiones de sentimiento existentes en la colección S S S S S S Evaluación
  • 45. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Los requisitos dependen de la aplicación •  Monitorización de marca en medios sociales: alta precisión, baja cobertura •  Lucha antiterrorista: alta cobertura, baja precisión §  Precisión y cobertura están inversamente relacionadas •  Buscar compromiso §  Las personas NO tenemos una precisión del 100% •  Tests con analistas humanos: acuerdo 85-95% (91% en dominio médico, [Krallinger, 2015])) Evaluación
  • 46. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Evaluación Estado del arte en cuanto a medidas de precisión §  Extracción de entidades: 70-85% §  Clasificación: 70-80% §  Análisis de sentimiento: 60-70% La mejora de calidad depende de la adaptación de las herramientas y recursos a la aplicación/tarea Evaluación
  • 47. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos RECURSOS
  • 48. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Anatomical Therapeutic Chemical (ATC) Classification System Ibuprofeno algiasdin|apirofeno|aragel|articalm|astefor| brufen|dalsy|dersindol|diltix|dolencar|doltra|espididol| espidifen|…. nauseas estomago revuelto|sentirse mareado| nauseas|nauseas solas|nauseoso|nauseoso|ansia nauseosa|…… 35.259 términos 16.418 fármacos y 2.228 principios activos 2.566 códigos ATC 42.548 principales enfermedades Cáncer|neoplasia maligna|…. Recursos
  • 49. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos TRENDMINER Aplicaciones Monitorización de información sobre salud en medios sociales
  • 50. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  Detectar menciones de fármacos y eventos médicos (enfermedades, síntomas, efectos adversos, etc.) en medios sociales. §  Los medios sociales pueden ser fuentes valiosas en la monitorización de eventos médicos. §  Aplicación a tareas de farmacovigilancia llevadas a cabo por las agencias de medicamentos y compañías farmacéuticas. Objetivos Aplicaciones. TrendMiner
  • 51. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Patients on Twitter Spanish patient Forums Aplicaciones. TrendMiner Fuentes analizadas
  • 52. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Aplicaciones. TrendMiner §  Ejemplo de comentario en Forumclinic
  • 53. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Spanish DrugEffect DB containing relations among drugs and effects 63.000 relations Aplicaciones. TrendMiner Recursos integrados
  • 54. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Collecting texts from Twitter & Blogs Datawarehous e Health monitoring Dashboard GATE Annotation Pipeline Analytics Processing Gatherer processes Real-time visualization Inquirer processes Spanish Drug Effect Database Aplicaciones. TrendMiner
  • 55. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Datos agregados de los efectos del fármaco lorazepam Aplicaciones. TrendMiner
  • 56. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Línea temporal con la evolución de los fármacos y eventos mencionados con el lorazempan Aplicaciones. TrendMiner
  • 57. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos RETOS
  • 58. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos §  ¡¡Datos!! •  Acceso a los datos para los no médicos •  Anonimización (Proyecto Visc+) •  Estandarización •  Propiedad de la información •  Compartición de conjuntos de datos §  Veracidad/confiabilidad de los datos §  Aplicaciones dirigidas por los usuarios (médicos y pacientes) §  Integración de sistemas aislados •  Dispersión en diferentes hospitales, centros de salud, … Retos
  • 59. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos ¡Gracias por vuestra atención! José Luis Martínez Fernández Socio Director de Daedalus S.A. Profesor Asociado Universidad Carlos III de Madrid jmartinez@daedalus.es Daedalus, S.A. Tel: +34 913324301 info@daedalus.es http://www.daedalus.es @daedalus_sa
  • 60. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Bibliografía §  Aggarwal, Charu C., & Zhai, ChengXiang (2012). A survey of text classification algorithms. In Mining text data (pp. 163–222). §  El Poder de los datos, Informe de la Fundación Bankinter, Mayo 2015 §  Europeans becoming enthusiastic users of online health information, EU report, 2014 §  María Herrero Zazo, Semantic Resources in Pharmacovigilance: A Corpus and an Ontology for Drug-Drug Interactions, Directores: Isabel Segura-Bedmar y Paloma Martínez, Universidad Carlos III de Madrid, Departamento de Informática, 2015 §  Martínez,P., Nuevo sistema para detectar efectos adversos de los medicamentos usando redes sociales, 2015, Oficina de Información Científica, Universidad Carlos III de Madrid §  Martin Krallinger et al. CHEMDNER: The drugs and chemical names extraction challenge. Journal of Cheminformatics, 7(Suppl 1):S1 (2015)
  • 61. Big Data en salud: tecnologías para conocer mejor a los pacientes a través de los datos Bibliografía §  Maynard, D. Et al, NLP Techniques for Term Extraction and Ontology Population, Proceedings of the 2008 conference on Ontology Learning and Population: Bridging the Gap between Text and Knowledge, Pages 107-127 §  Monitorización de la alergia en Twitter, Fundación Telefónica, 2015 §  Isabel Segura-Bedmar, Paloma Martínez, Ricardo Revert , Julián Moreno-Schneider, (2015). Exploring Spanish Health Social Media for detecting drug effects, BMC Medical Informatics and Decision Making, June, 2015, Volumen: 15, Número: Supplement S2, Páginas: doi:10.1186/1472-6947-15-S2-S §  Paloma Martínez, Isabel Segura-Bedmar, Thierry Declerck, José Luis Martínez Fernández, (2014). TrendMiner: Large-scale Cross-lingual Trend Mining Summarization of Realtime Media Streams, September, 2014, Procesamiento del Lenguaje Natural , Volumen: 53, Páginas: 163-166