SlideShare una empresa de Scribd logo
Big Data @ LHC
Isidro González Caballero
Big Data @ LHC
Isidro González Caballero
Very Large Data
CERN: El mayor laboratorio del mundo en
Física de Partículas
 Fundado en 1954
 21 estados miembros
 Incluyendo España!
 ~10.000 científicos de 113
países
 No todos están
físicamente en el CERN
LHC: El gran colisionador de hadrones
 Los 4 experimentos
produjeron ~100 PB
en el Run-I
 En el Run-2 habrá
más de 150 PB
El detector CMS
Canales de
medida: 100M
En total cada experimento produce
15-30 PB/año
Se almacenan 100 - 1000 colisiones
cada segundo
Lo que supone 100-1500 MB/s
40M colisiones/s
1 PB/s de datos
Una colisión (suceso)
Una colisión (suceso)
Análisis de datos: el GRID
 El 80% de la computación de CMS se hace fuera del CERN en
centros repartidos por todo el mundo utilizando tecnologías
GRID
 Modelo jerárquico basado en MONARC y coordinado
por el WLCG
 Un Tier-0 en el CERN  24 x 7, workflows estructurados
 10-15 Tier-1 en países distintos  24 x 7, workf. Estruct.
 ~30 Tier-2 por experimento  8 x 5, workflows mixtos
 Infinidad de Tier-3, normalmente en las instituciones
 Conexiones de 10 Gbps entre Tier-0 y Tier-1
 En la Universidad de Oviedo hemos instalado un Tier-3 (150
TB y 160 cores) y participamos en el Tier-2 español
Modelo orientado a los datos
 El modelo está dirigido por la
ubicación de los datos
 Se colocan los datos de manera
organizada
 Se llevan los jobs a los datos
 Las mejoras en la conectividad WAN
permiten usar herramientas AAA (Any
data, Any time, Any where)
 Para storageless clusters y failover
 Herramientas “inteligentes” para el
movimiento de datos (usando
información de accounting)
 La distribución de metadatos y
datos de calibración se hace
utilizando proxies: FroNTier/Squid,
CVMFS
Almacenamiento de datos en el CERN
 CERN Advance STORage manager
(CASTOR)
 Sistema de almacenamiento jerárquico
 Soporta accesos RFIO, XROOT y GridFTP
 Sistema mixto disco-cinta
 Cinta: Almacenamiento a largo plazo
 Disco: Datos “recientes”
 Run-I: 88 PB en cinta + 13 PB en disco
 Run-2: 150 PB de cinta y 160 PB raw
(60 PB reales) de disco
 Podría llegar hasta 10 GB/s
 Hay 100.000 (+ 20.000 en Wigner)
cores
simulación
reconstruction
análisis
Análsis
interactivo
Análisis
físico no
interactivo
detector
event
summary
data
raw
data
Reprocesado
de sucesos
Simulación
de sucesos
Objetos de análisis
Filtrado de suc.
(Selección &
reconstrucción)
Datos
procesados
les.robertson@cern.ch
simulación
reconstruction
análisis
Análsis
interactivo
Análisis
físico no
interactivo
detector
event
summary
data
raw
data
Reprocesado
de sucesos
Simulación
de sucesos
Objetos de análisis
Filtrado de suc.
(Selección &
reconstrucción)
Datos
procesados
les.robertson@cern.ch
Tier-2
Tier-2
Tier-1
Tier-3
Tier-1
Tier-2
Tier-0
2 millones de
jobs diarios
Modelos de computación más flexibles
 Las diferencias entre niveles son cada vez
menos de función
 Relacionadas con la disponibilidad
Machine development
 Se usaran los distintos Tier’s según las necesidades
 Se empiezan a usar recursos oportunísticos
 HLT Farm cuando no es necesaria
 Clouds institucionales y comerciales
Finalizando
 La física de partículas ha sido una de las áreas científicas que más ha
empujado los límites de la computación de grandes cantidades de
datos en el pasado
 El análisis científico de los datos solo es una parte de las tareas
computacionales exigentes que se hacen:
 Tratamiento de metadatos, sensores, usuarios, ….
 La experiencia y las inercias de muchos años dan lugar a patrones y
estrategias bien establecidos en el tratamiento de los datos
 Algunos de estos se están empezando a replantear con vistas a los
progresivos incrementos en el volumen de datos de los futuros upgrades

Más contenido relacionado

Similar a Big data @ lhc

El Experimento ATLAS: Ciencia y TICs
El Experimento ATLAS: Ciencia y TICsEl Experimento ATLAS: Ciencia y TICs
El Experimento ATLAS: Ciencia y TICs
Elias Said Hung
 
Martalosada 100322123912-phpapp02
Martalosada 100322123912-phpapp02Martalosada 100322123912-phpapp02
Martalosada 100322123912-phpapp02
Proyecto CeVALE2
 
LHC Computing - Seminario CIEMAT (Madrid)
LHC Computing - Seminario CIEMAT (Madrid)LHC Computing - Seminario CIEMAT (Madrid)
LHC Computing - Seminario CIEMAT (Madrid)
Josep Flix, PhD
 
Introduccion a la Bioinformatica
Introduccion a la BioinformaticaIntroduccion a la Bioinformatica
Introduccion a la Bioinformatica
Alberto Labarga
 
Paralela1
Paralela1Paralela1
Paralela1
Abraham Zamudio
 
Partículas fundamentales.pptx
Partículas fundamentales.pptxPartículas fundamentales.pptx
Partículas fundamentales.pptx
monnergarter
 
El Gran Colisionador De Hadrones LHC (Cmp)
El Gran Colisionador De Hadrones LHC (Cmp)El Gran Colisionador De Hadrones LHC (Cmp)
El Gran Colisionador De Hadrones LHC (Cmp)
Carmen María Pérez
 
Astronomía y Big Data. Estrellas en la era del Petabyte
Astronomía y Big Data. Estrellas en la era del PetabyteAstronomía y Big Data. Estrellas en la era del Petabyte
Astronomía y Big Data. Estrellas en la era del Petabyte
Juan Ignacio Pérez Sacristán
 
Samuel J Gutierrez Muñoz
Samuel J Gutierrez MuñozSamuel J Gutierrez Muñoz
Samuel J Gutierrez Muñoz
Sam Gutierrez M
 
5 microprocesadores 2
5 microprocesadores 25 microprocesadores 2
5 microprocesadores 2
conrado perea
 
Introastrocomput
IntroastrocomputIntroastrocomput
Introastrocomput
universidad de sonora
 
Experiencia formativa en el cern
Experiencia formativa en el cernExperiencia formativa en el cern
Experiencia formativa en el cern
Joaquin Luceno
 
Teoria memorias cache
Teoria memorias cacheTeoria memorias cache
Teoria memorias cache
currocordoba
 
Cluster de Alto RoI para Aplicaciones Petroleras
Cluster de Alto RoI para Aplicaciones PetrolerasCluster de Alto RoI para Aplicaciones Petroleras
Cluster de Alto RoI para Aplicaciones Petroleras
José Enrique Alvarez Estrada
 
Como funciona un pc 01
Como funciona un pc 01Como funciona un pc 01
Como funciona un pc 01
Lily- XztrzitA-
 
Tomografia espiral multicorte
Tomografia espiral multicorteTomografia espiral multicorte
Tomografia espiral multicorte
Pedro Feria - UPCH
 
Kinemetrics ETNA2 - Brochure.pdf
Kinemetrics ETNA2 - Brochure.pdfKinemetrics ETNA2 - Brochure.pdf
Kinemetrics ETNA2 - Brochure.pdf
RenatoLozada3
 
Semana de la ciencia 2016 - Explorando las fronteras de la Física de partícul...
Semana de la ciencia 2016 - Explorando las fronteras de la Física de partícul...Semana de la ciencia 2016 - Explorando las fronteras de la Física de partícul...
Semana de la ciencia 2016 - Explorando las fronteras de la Física de partícul...
UnioviHEP
 
Análisis Forense
Análisis ForenseAnálisis Forense
Análisis Forense
Chema Alonso
 
Manual redes
Manual redesManual redes
Manual redes
Xiomara18Atiencia
 

Similar a Big data @ lhc (20)

El Experimento ATLAS: Ciencia y TICs
El Experimento ATLAS: Ciencia y TICsEl Experimento ATLAS: Ciencia y TICs
El Experimento ATLAS: Ciencia y TICs
 
Martalosada 100322123912-phpapp02
Martalosada 100322123912-phpapp02Martalosada 100322123912-phpapp02
Martalosada 100322123912-phpapp02
 
LHC Computing - Seminario CIEMAT (Madrid)
LHC Computing - Seminario CIEMAT (Madrid)LHC Computing - Seminario CIEMAT (Madrid)
LHC Computing - Seminario CIEMAT (Madrid)
 
Introduccion a la Bioinformatica
Introduccion a la BioinformaticaIntroduccion a la Bioinformatica
Introduccion a la Bioinformatica
 
Paralela1
Paralela1Paralela1
Paralela1
 
Partículas fundamentales.pptx
Partículas fundamentales.pptxPartículas fundamentales.pptx
Partículas fundamentales.pptx
 
El Gran Colisionador De Hadrones LHC (Cmp)
El Gran Colisionador De Hadrones LHC (Cmp)El Gran Colisionador De Hadrones LHC (Cmp)
El Gran Colisionador De Hadrones LHC (Cmp)
 
Astronomía y Big Data. Estrellas en la era del Petabyte
Astronomía y Big Data. Estrellas en la era del PetabyteAstronomía y Big Data. Estrellas en la era del Petabyte
Astronomía y Big Data. Estrellas en la era del Petabyte
 
Samuel J Gutierrez Muñoz
Samuel J Gutierrez MuñozSamuel J Gutierrez Muñoz
Samuel J Gutierrez Muñoz
 
5 microprocesadores 2
5 microprocesadores 25 microprocesadores 2
5 microprocesadores 2
 
Introastrocomput
IntroastrocomputIntroastrocomput
Introastrocomput
 
Experiencia formativa en el cern
Experiencia formativa en el cernExperiencia formativa en el cern
Experiencia formativa en el cern
 
Teoria memorias cache
Teoria memorias cacheTeoria memorias cache
Teoria memorias cache
 
Cluster de Alto RoI para Aplicaciones Petroleras
Cluster de Alto RoI para Aplicaciones PetrolerasCluster de Alto RoI para Aplicaciones Petroleras
Cluster de Alto RoI para Aplicaciones Petroleras
 
Como funciona un pc 01
Como funciona un pc 01Como funciona un pc 01
Como funciona un pc 01
 
Tomografia espiral multicorte
Tomografia espiral multicorteTomografia espiral multicorte
Tomografia espiral multicorte
 
Kinemetrics ETNA2 - Brochure.pdf
Kinemetrics ETNA2 - Brochure.pdfKinemetrics ETNA2 - Brochure.pdf
Kinemetrics ETNA2 - Brochure.pdf
 
Semana de la ciencia 2016 - Explorando las fronteras de la Física de partícul...
Semana de la ciencia 2016 - Explorando las fronteras de la Física de partícul...Semana de la ciencia 2016 - Explorando las fronteras de la Física de partícul...
Semana de la ciencia 2016 - Explorando las fronteras de la Física de partícul...
 
Análisis Forense
Análisis ForenseAnálisis Forense
Análisis Forense
 
Manual redes
Manual redesManual redes
Manual redes
 

Último

10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
IrapuatoCmovamos
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
eliassalascolonia43
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
DilmerCarranza
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
agustincarranza11
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
eleandroth
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
christianllacchasand
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
AaronPleitez
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
riveroarlett5b
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
mirimerlos5
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
IrapuatoCmovamos
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
YulEz1
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
GustavoTello19
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
MarcoPolo545324
 
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
Mayra798665
 

Último (14)

10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf10 colonias - Análisis socio-demográfico 2024.pdf
10 colonias - Análisis socio-demográfico 2024.pdf
 
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllllANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
ANA0003227-lagunas.pdfñlñlñlñlñññlñlllll
 
vivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodosvivienda segura concreto, construcción y métodos
vivienda segura concreto, construcción y métodos
 
Plan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdfPlan de Compensación Dxn Internacional peru pdf
Plan de Compensación Dxn Internacional peru pdf
 
Presentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptxPresentación simple corporativa degradado en violeta blanco.pptx
Presentación simple corporativa degradado en violeta blanco.pptx
 
Plan Emergencia solicitado en obras de construccion
Plan Emergencia  solicitado en obras de construccionPlan Emergencia  solicitado en obras de construccion
Plan Emergencia solicitado en obras de construccion
 
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIOLINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
LINEA DE TIEMPO Y PERIODO INTERTESTAMENTARIO
 
resumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TIresumen de manual de organizacion y funciones de TI
resumen de manual de organizacion y funciones de TI
 
Informe fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docxInforme fina mini bibliotecacomunitaria .docx
Informe fina mini bibliotecacomunitaria .docx
 
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdfREPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
REPORTE-HEMEROGRÁFICO-MAYO 2024-IRAPUATO.pdf
 
INTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdfINTELIGENCIA ARTIFICIAL monografia02.pdf
INTELIGENCIA ARTIFICIAL monografia02.pdf
 
MI CECTOR POSTE BLANCO - Paián .pdf
MI  CECTOR  POSTE  BLANCO - Paián   .pdfMI  CECTOR  POSTE  BLANCO - Paián   .pdf
MI CECTOR POSTE BLANCO - Paián .pdf
 
04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos04 capital interes simple.pdf de la clase métodos cuantitativos
04 capital interes simple.pdf de la clase métodos cuantitativos
 
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptxUGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
UGEL SAN MIGUEL SACALE TARJETA ROJA A LA VIOLENCIA.pptx
 

Big data @ lhc

  • 1. Big Data @ LHC Isidro González Caballero
  • 2. Big Data @ LHC Isidro González Caballero Very Large Data
  • 3. CERN: El mayor laboratorio del mundo en Física de Partículas  Fundado en 1954  21 estados miembros  Incluyendo España!  ~10.000 científicos de 113 países  No todos están físicamente en el CERN
  • 4. LHC: El gran colisionador de hadrones  Los 4 experimentos produjeron ~100 PB en el Run-I  En el Run-2 habrá más de 150 PB
  • 5. El detector CMS Canales de medida: 100M En total cada experimento produce 15-30 PB/año Se almacenan 100 - 1000 colisiones cada segundo Lo que supone 100-1500 MB/s 40M colisiones/s 1 PB/s de datos
  • 8. Análisis de datos: el GRID  El 80% de la computación de CMS se hace fuera del CERN en centros repartidos por todo el mundo utilizando tecnologías GRID  Modelo jerárquico basado en MONARC y coordinado por el WLCG  Un Tier-0 en el CERN  24 x 7, workflows estructurados  10-15 Tier-1 en países distintos  24 x 7, workf. Estruct.  ~30 Tier-2 por experimento  8 x 5, workflows mixtos  Infinidad de Tier-3, normalmente en las instituciones  Conexiones de 10 Gbps entre Tier-0 y Tier-1  En la Universidad de Oviedo hemos instalado un Tier-3 (150 TB y 160 cores) y participamos en el Tier-2 español
  • 9. Modelo orientado a los datos  El modelo está dirigido por la ubicación de los datos  Se colocan los datos de manera organizada  Se llevan los jobs a los datos  Las mejoras en la conectividad WAN permiten usar herramientas AAA (Any data, Any time, Any where)  Para storageless clusters y failover  Herramientas “inteligentes” para el movimiento de datos (usando información de accounting)  La distribución de metadatos y datos de calibración se hace utilizando proxies: FroNTier/Squid, CVMFS
  • 10. Almacenamiento de datos en el CERN  CERN Advance STORage manager (CASTOR)  Sistema de almacenamiento jerárquico  Soporta accesos RFIO, XROOT y GridFTP  Sistema mixto disco-cinta  Cinta: Almacenamiento a largo plazo  Disco: Datos “recientes”  Run-I: 88 PB en cinta + 13 PB en disco  Run-2: 150 PB de cinta y 160 PB raw (60 PB reales) de disco  Podría llegar hasta 10 GB/s  Hay 100.000 (+ 20.000 en Wigner) cores
  • 11. simulación reconstruction análisis Análsis interactivo Análisis físico no interactivo detector event summary data raw data Reprocesado de sucesos Simulación de sucesos Objetos de análisis Filtrado de suc. (Selección & reconstrucción) Datos procesados les.robertson@cern.ch
  • 12. simulación reconstruction análisis Análsis interactivo Análisis físico no interactivo detector event summary data raw data Reprocesado de sucesos Simulación de sucesos Objetos de análisis Filtrado de suc. (Selección & reconstrucción) Datos procesados les.robertson@cern.ch Tier-2 Tier-2 Tier-1 Tier-3 Tier-1 Tier-2 Tier-0 2 millones de jobs diarios
  • 13.
  • 14. Modelos de computación más flexibles  Las diferencias entre niveles son cada vez menos de función  Relacionadas con la disponibilidad Machine development  Se usaran los distintos Tier’s según las necesidades  Se empiezan a usar recursos oportunísticos  HLT Farm cuando no es necesaria  Clouds institucionales y comerciales
  • 15.
  • 16.
  • 17. Finalizando  La física de partículas ha sido una de las áreas científicas que más ha empujado los límites de la computación de grandes cantidades de datos en el pasado  El análisis científico de los datos solo es una parte de las tareas computacionales exigentes que se hacen:  Tratamiento de metadatos, sensores, usuarios, ….  La experiencia y las inercias de muchos años dan lugar a patrones y estrategias bien establecidos en el tratamiento de los datos  Algunos de estos se están empezando a replantear con vistas a los progresivos incrementos en el volumen de datos de los futuros upgrades