El uso de datos masivos (big data) y datos abiertos (open data) en las ciencias sociales y de la salud aumenta cada día debido a las mejoras en los procesos de predicción y reconocimiento de patrones, entre otros. El aprendizaje automático y las nuevas tecnologías ofrecen la oportunidad de utilizar nuevas fuentes de información que agregan un valor importante a nuestros sistemas de información y facilitan la toma de decisiones. Sin embargo, las fuentes de datos son diversas y los conjuntos de datos no están estructurados, por lo tanto, en la mayoría de los casos, es necesario un pre-procesado adecuado de datos: la recolección, la limpieza y la integración son procesos clave que no podemos ignorar si queremos que los resultados del análisis estadístico tradicional sean confiables. En esta conferencia se mostrarán varios proyectos en los que se deben procesar varias fuentes de información: datos de historia clínica, datos de monitoreo en tiempo real automatizados (de acelerómetros) y datos proporcionados por los pacientes a través de aplicaciones móviles (con y sin supervisión del usuario).
Los proyectos ejemplos son: 1. Bip4cast, cuyo objetivo es la predicción de crisis en el trastorno bipolar; 2. WAP Madrid, para el fomento del deporte y el control de obesidad y colesterol en los ciudadanos de Madrid.
Indicaciones y contraindicaciones de la sonda vesical y sonda nasogastrica.pptx
Healthcare Big Data Projects
1. BIG DATA
Agosto 25 y 26 | Lima – Perú 2017
ANALYTICS SUMMIT
#BIGDATASUMMIT2017
2. PROYECTOS BIG DATA EN
HEALTHCARE
Agosto 25 y 26 | Lima – Perú 2017
CIENCIAS DE LA SALUD Y CIENCIAS SOCIALES
#BIGDATASUMMIT2017
Prof. Dra. Victoria López
vlopezlo@ucm.es
@victoriademates
www.victorialopez.es
4. Introducción
Todos estamos preocupados por la salud.
Los presupuestos se discuten menos que en otras ciencias
Son proyectos con un objetivo claro
Invertir en prevencción supone un ahorro en tratamientos
¿Por qué los proyectos en CC.Salud y
Sociales tienen tanto éxito?
#BIGDATASUMMIT2017
5. Introducción
Las tecnologías big data proporcionan una medicina personalizada
Convivencia de ciencias de la salud y las ciencias sociales
Son proyectos multidisciplinares
¿Por qué los proyectos en CC.Salud y
Sociales tienen tanto éxito?
#BIGDATASUMMIT2017
6. •La mayoría de este tipo de proyectos son Big Data:
Grandes volúmenes de datos
• Sistemas altamente monitorizados
• Nuevas fuentes de información
•Acelerómetros
•Smartphones
#BIGDATASUMMIT2017 6
Introducción
HealthCare and Big Data
7. La mayoría de este tipo de proyectos son Big Data:
•Velocidad
• Necesitamos conocer lo que va a ocurrir con la máxima
antelación
• Tiempo real como tiempo real
•Variedad
• Datos desestructurados y diversos
• Se requiere pre-procesamiento
#BIGDATASUMMIT2017 7
Introducción
HealthCare and Big Data
8. La mayoría de este tipo de proyectos son Big Data:
•Veracidad
• Fiabilidad de resultados
• No es solo cuestión económica
• Data cleaning e integración
• El ruido y los datos atípicos deben ser detectados y
tratados
#BIGDATASUMMIT2017 8
Introducción
HealthCare and Big Data
9. • The challenge of data privacy is to utilize data while protecting
individual’s privacy preferences and their personally identifiable
information
• - computer security
• - data security
• - information security
• Privacy becomes a big deal when health personal data is involved.
#BIGDATASUMMIT2017 9
Privacidad de la Información
Un objetivo muy ambicioso
10. oWhere storing data (cloud,
inHouse)?
oWho is allowed to see the data?
oHow the data can be accessed?
oIs our project under the law?
• New techniques:
• Data Anonymization
• Cryptography
• Disjoin private – public data
#BIGDATASUMMIT2017 10
Fuente: http://www.isotader.es/nuevas-reglas-europeas-en-materia-de-
proteccion-de-datos/
Privacidad de la Información
Nueva LOPD
11. o Data collection
o Data dissemination
o Technology
o Legality – Audit
o Public expectation of privacy
#BIGDATASUMMIT2017 11
Fuentes de Información
¿Dónde están los datos? ¿Qué datos
interesan?
12. InHouse vs. Cloud
Custody
Data Anonymization
- Encrypting all or part of the data
- Removing sensible data
Personally identifiable information from data sets
Technology that converts clear text data into a nonhuman
readable and irreversible form (no de-anonymization)
#BIGDATASUMMIT2017 12
Tratamiento de los Datos
¿Dónde almacenar? ¿Cómo procesar?
13.
14. • CAD prediction system for bipolar disorder, a complex mental disorder in which
the core feature is disturbance in mood, ranging from extreme elation (mania)
to severe depression, accompanied by disturbances in thinking and behaviour.
• 2% of the world’s population. The disease has substantial consequences both
for the individual and for health care spending.
#BIGDATASUMMIT2017 14
Bip4Cast
Predicción en el trastorno bipolar
15. • The World Health Organization has identified BD as the sixth leading cause of
disability-adjusted life years in the world. In 2009, the direct and indirect costs
of BD were estimated to be US$151 billion. In the UK, the estimated national
cost of bipolar disorder was £4.59 billion per year. Hospitalisation during acute
episodes costs £69 million per year.
• Biomedical informatics methods are needed to process data and form
recommendations and/or predictions to assist decision makers in the form of
computer-aided decision (CAD) support.
#BIGDATASUMMIT2017 15
Bip4Cast
Predicción en el trastorno bipolar
21. Victoria López, Gabriel Valverde, Julio C, Anchiraico y Diego Urgelés. “Specification of a
Cad Prediction System for Bipolar Disorder”, Uncertainty Modelling in Knowledge
Engineering and Decision Making, Proceedings of the 12th International FLINS conference,
World Scientific Proceedings Series on Computer Engineering and Information Science, vol. 10, pp.
162-167. ISBN 978-981-3146-96-9, World Scientific, 2016.
Publicaciones y TFM-TFG
Implicaciones y cambios
Rendición de Cuentas: Se exigirá a las organizaciones la implantación de mecanismos que garanticen y aseguren el cumplimiento de las obligaciones en materia de protección de datos y que permitan demostrar documentalmente su eficacia.
Transparencia: Se exigirá la conservación de la documentación de todas las operaciones de tratamiento de datos efectuadas por el responsable o encargado del tratamiento.
Menores de edad: Se fija la edad de los menores en menos de 13 años (frente a la actual regulación española que la fija en menos de 14), en relación a la oferta directa de servicios de la sociedad de la información (comercio electrónico). Además el tratamiento de los datos de estos menores solamente será lícito si el padre o tutor del menor ha prestado su consentimiento previo.
Derecho al olvido: Este derecho consiste en la supresión de datos bien porque ya no son necesarios conforme a la finalidad para la que fueron recabados ya sea porque el interesado ha revocado su consentimiento para el tratamiento; porque ha expirado el plazo para el tratamiento legal de los datos; porque el interesado ha ejercitado su derecho de oposición, o bien porque el tratamiento de los datos no se está realizando conforme al nuevo Reglamento. Los responsables de los datos que han cedido o comunicado la información a terceros estarán obligados a comunicarles la obligación de suprimir cualquier enlace a los datos publicados, así como a eliminar cualquier copia o réplica de dichos datos.
Medidas de Seguridad: El Reglamento no hace un desglose de las medidas ni establece diversos niveles de seguridad en función del tipo de datos personales que se trate, sino que impone al responsable y al encargado que las implementen asegurar un nivel de protección adecuado atendiendo a tres criterios:
los riesgos que se presenten
la naturaleza de los datos
los costes de implementación
El Delegado de Protección de Datos: La propuesta de Reglamento le dedica una sección entera a esta nueva figura, dada la relevancia que tiene para el futuro. Se establece la obligatoriedad de contar con un “Data Protection Officer” (DPO) o Delegado de Protección de Datos, por un plazo mínimo de 2 años, en los siguientes casos:
Autoridades y organismos públicos
Empresas con al menos 250 empleados
Cuando las actividades del responsable o del encargado consistan en el tratamiento de categorías de datos sensibles; tales como raza, sexo, salud, origen étnico, opiniones políticas, etc.
En el tratamiento de datos de localización
En el tratamiento de datos de menores
En el tratamiento de empleados a gran escala.
Los medicamentos estan clasicados en 6 categoras: litio, antiepilepticos, antipsicoticos,
ansiolticos o hipnoticos, antidepresivos y otros. Cada tipo de medicamento esta agrupado
en el diagrama de area y es representado mediante un color. Cuanto mas ancha sea
el area, mas tomas de la misma tipologa se producen. De esta forma obtenemos por un
lado cuanta cantidad de medicamentos y por otro de que clases toma el paciente.
Como ambos conjuntos de datos (medicamentos y test) estan superpuestos, puede apreciarse
que impacto tienen los unos sobre los otros de una forma ecaz.
Analizamos la graca del primer paciente, que aparece en la Figura 5.3. Se puede
observar que parte de un estado en el que se consuman hasta cuatro tipos distintos de
medicamentos. La reduccion de las tomas de litio y la eliminacion de los ansioltocos
parece provocar una fuerte cada la EEAG y un incremento en la HDRS, que vuelve a
recuperarse en cuanto se restaura la cantidad de litio que se tomaba al principio. Esto
sugiere que este paciente es muy sensible al litio, por lo que puede existir correlacion
entre el litio y el estado depresivo del paciente.