Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Presentacion big data
1. ‘BIG DATA’
‘No envíes un humano a hacer el trabajo de
una máquina’ [Agente Smith, ‘The Matrix’]
eHealth technology unit
Vicent Ribas
Data Analytics in Medicine Manager
05/04/2017
2.
3.
4.
5.
6. “ innovation for the industry” 6
SPAINSVERIGE
ANNs (DSP)
KTH
Stockholm
PRE-DOC DOC POST-DOC
Data Mining
CONSULT.
ANNs
(+)
Traffic Analysis
ACN (France)
ANNs
(+)
CV Function
Data
Mining
Startup
(BCN)
ANNs
(+)
Infl. Diseases
IDIBAPS/
VHIR/EUT
XXth century
Research Line
Manager @ EUT
MSc
Applied
Math /
Telecom
Eng.
H2020 reviewer
XXIst century
7. 7The eHealth Unit
Medicina personalizada para la mejora en el diagnóstico, tratamiento
personalizado, para una mejora del pronóstico y una mejor comprensión de los
procesos patofisiológicos.
Data analytics in medicine
8. 8The eHealth Unit
Data analytics in medicine
Decision
SupportSystems
Diagnosis
Early detection of diseases,
screening, …
Data Warehouses
Data collection, Interoperability,
EHR, HL7, Data Marts,
Ontologies, Big Data, ...
Expert Systems
Knowledge modeling, rules,
Clinical guidelines, …
Data Analytics
Knowledge extraction,
statistics, correlation, ...
Online Analytical Processing
Multidimensional analysis, Data
Models, Healthcare Intelligence.
DataMining
Association rules and
Nearest-neighbor search
Knowledge modeling, rules, …
Clustering
Case based reasoning,
decision trees, rule-based
predictive models, ...
Data stream mining
Incremental, real-time analysis,
mobile analytics, Big Data, ...
Data cleaning
Data curation, semantic annotation ,
anomalous value detection, ...
MachineLearning
MLAlgorithms,Supervisedandunsupervisedlearning,
crossvalidation,…
Prognosis
Patient’s evolution, risk
prediction, comorbidity
analysis, etc
Therapy response
Therapy validation,
development of new drugs , …
Doctors,caregivers,
patients,biomedicaland
clinicalresearchers
Hospitals,Laboratories,Clinical
researchcentres,
Pharmaceuticalcompanies,
andpublichealthinstitutions
ArtificialIntelligence
Probabilisticreasoning,Casualreasoningand
diagnostics,distributedartificialintelligence,…
Desarrollamos Sistemas de Soporte al a Decisión Clínica integrables en diferentes plataformas.
10. 10
The eHealth Unit
Algo de contexto sobre Big Data
• Mis datos
• Messenger
• Fotos
• Posts
• Contactos
• Apps instaladas en el móvil
TOTAL: 100 MB
• Mensajes
• Contactos
• Fotos
• Otros???
TOTAL: 2 GB
• Posts
• Fotos
• Otros???
TOTAL: 75,4 MB
• Playlists
• Podcasts
• Otros???
TOTAL: 2,41 GB
• Notas
• Bibliografía
• Otros???
TOTAL: 1,44 GB
• Aplicaciones
• Datos de salud
• Datos bancarios
• Etc… (enganchado al
iWARE)
TOTAL: 43 GB
11. 11
The eHealth Unit
Algo de contexto sobre Big Data
• Y un enfermo ‘medio’ en una UCI?
Data # parameters / bed and day Estimated size / bed and day
Clinical data 900 1.76 KB
Environmental data 20 160 B
Monitoring and pump
data
5 82.5 MB
Other data 20 160 B
TOTAL 945 parameters 90 MB / day
12. 12
The eHealth Unit
Algo de contexto sobre Big Data
• Y un enfermo ‘medio’ en una UCI?
Data # parameters / bed and day Estimated size / bed and day
Clinical data 900 1.76 KB
Environmental data 20 160 B
Monitoring and pump
data
5 82.5 MB
Other data 20 160 B
TOTAL 945 parameters 90 MB / day
14. 14
The eHealth Unit
Algo de contexto sobre Big Data
• El tamaño importa? [Mis datasets en el tiempo]
1999 DARPA TIMIT DB
15 KB
2001 Carrefour Network
50 MB
2003 MINECO Web Analysis
100 MB
2007 Blood Pressure Data
300 MB
2012 Smart ECG Data
400 MB
2015 LC Screening Data
500 GB
2015 Shockomics
1 TB
-2
0
2
4
6
8
10
12
14
1 2 3 4 5 6 7
15. 15
The eHealth Unit
Algo de contexto sobre Big Data
• Algunos datos interesantes:
• Google procesa 20PB de datos cada dia.
• YouTube genera 27PB en tráfico de datos por año.
• NetFlix y Youtube ocupan la mitad del tráfico de Internet.
• El gran colisionador de hadrones (LHC) del CERN genera cerca de 20PB de
datos útiles al año.
• El volumen anual de tráfico IP llegará a los 3.3ZB en 2021 o 278EB al mes.
• En 2016 el tráfico IP fue de 1.2ZB (anual) o 96EB al mes.
• En la próxima década, los astrónomos esperan procesar 10PB de datos cada
hora del telescopio Square Kilometre Array (SKA).
• TABLA DE CONVERSIÓN (Número de Avogadro = 6,022 x 1023 ):
NOTACIÓN INGENIERIA DECIMAL
1PB 1015 Bytes
1EB 1018 Bytes
1ZB 1021 Bytes
17. 17
The eHealth Unit
Vale, pero esto solo afecta a Telcos y NSA no?
• Los biólogos también se han apuntado al club del Big Data. Con el advenimiento del
‘high-throughput’ genomics, los expertos en ciencias de la vida han empezado a
analizar conjuntos de datos masivos, encontrándose con problemas en el manejo,
procesado, y transporte de información que antes era del dominio de astrónomos y
físicos especializados en alta energía.
• El Instituto Europeo de Bioinformática (IBI) en Hinxton (UK), […] uno de los mayores
repositorios de datos biológicos del mundo, actualmente almacena 20PB […] de datos
en backups de genes, proteínas y moléculas. Los datos genéticos representan un 10%
de esta cifra y este número se dobla cada año.
18. 18
The eHealth Unit
Vale, pero esto solo afecta a Telcos y NSA no?
• A medida que los precios de los instrumentos de secuenciación baja, los pequeños
laboratorios de biología pueden convertirse en generadores de Big Data. Incluso
laboratorios sin estos instrumentos pueden convertirse en usuarios de Big Data
accediendo a TB de datos de repositorios públicos como EBI o US National Center for
Biotechnology Information en Bethesda (Maryland). En 2012, el EBI recibió 9 millones
de búsquedas en su repositorio.
• Esto significa que los científicos deben almacenar grandes conjuntos de datos,
analizarlos, compararlos y compartirlos. La secuenciación genómica de una sola
persona comprende alrededor de 140Gb de datos. Para comparar genomas se necesita
más que un PC y un sistema de compartición de archivos online.
19. 19
The eHealth Unit
Vale, pero esto solo afecta a Telcos y NSA no?
• Gran parte de la construcción de modelos en Big Data para biología es virtual y con un
claro foco en ‘cloud computing’.
• Una de las herramientas más usadas es el ENSBML genome browser operado de forma
conjunta entre EBI y el Wellcome Trust Sanger Institute en Hinxton. Los servidores
principales de ENSBML se encuentran en el Reino Unido pero cuando los usuarios de
los EEUU y Japon tuvieron dificultades en acceder a los datos, el EBI resolvió el
problema contratando servidores ‘espejo’ (mirror sites) en los centros de datos de
Amazon Web Services Elastic Compute Cloud (E2C).
• Otras plataformas de Cloud Computing comúnmente utilizadas son las de Microsoft
Azure o las de Fujitsu Cloud Service (K5).
• Las plataformas en la nube son una solución pero también suponen retos importantes.
Irónicamente, su proliferación puede suponer también un cuello de botella si los datos
acaban en varias nubes y, por lo tanto, tienen que moverse para ser compartidos. A
parte, el uso de la nube también supone encomendar datos sensibles a un
proveedor remoto.
20. 20
The eHealth Unit
Vale, pero esto solo afecta a Telcos y NSA no?
O cómo hacer ‘trampas’ en unas elecciones:
the Cambridge Analytics Issue
23. 23
The eHealth Unit
Investigación médica a escala fisiológica
Biological processes Physiological
scale
Industrial sector Application domain
Molecular biology Genome and
physiome
Bioinformatics
Pharmaceutics
Susceptibility to disease
Metabolic pathways Targets for intervention
Cytology and histology Cell and tissue
levels
Systems biology
Laboratory tests
Disease diagnosis
Medical imaging Organ level Neuroinformatics
Medical informatics
Medical equipment &
instrumentation
Pharmaceutics
Anatomical and physiological
monitoring
Electrophysiological
measurement
Clinical signs System level Diagnosis, prognosis and
screening
Out-of-hospital care Level of the
individual
Ambulatory monitoring for early
diagnosis
Lifestyle factors Population level Public health
informatics
Disease protection and
prevention
27. 28
The eHealth Unit
Proyecto en el área de salud
• Análisis multiómico del shock.
- El shock se define como una bajada significativa de la tensión arterial
refractaria a la administración de fluidos.
- Las principales fuentes de shock son: infección (shock séptico) y
disfunción cardiovascular (shock cardiogénico).
- La tasa de mortalidad del shock es > 70%.
28. 29
The eHealth Unit
Proyecto en el área de salud
• Contexto sobre los datos.
- Datos de 73 pacientes ingresados en dos UCIs (Bélgica y Ginebra).
- Análisis transcriptómico, proteómico y metabolómico a partir de muestras
de plasma obtenidas durante la admisión en la UCI, a las 48 h y a los 5
días.
- En total, se obtienen ~15000 mRNA, ~5000 proteínas + ~ 5000 péptidos
y ~500 metabolitos. En total, 1TB de datos analizados.
30. 31
The eHealth Unit
Algo de rabiosa actualidad
• DEEP LEARNING
- Aprendizaje imitando el funcionamiento del cerebro humano.
- Resumir información
- Detección de patrones
- Soporte al diagnóstico
- Descripción de imágenes
- Generación de contenidos
- Jugar a ‘Go’