GENÓMICA: FUNDAMENTOS Y APLICACIONES
                                           2010

    Infraestructura Computacional: Computación Grid




                   Mario Villamizar
Grupo de Tecnologías de Información y Comunicación (COMIT)
   Departamento de Ingeniería de Sistemas y Computación
      Universidad de los Andes, Bogotá D.C., Colombia
GENÓMICA: FUNDAMENTOS Y APLICACIONES


        Agenda


Computador Personal y Servidores

Cluster Computing

Grid Computing

Grid Computing en Colombia
GENÓMICA: FUNDAMENTOS Y APLICACIONES


        Agenda


Computador Personal y Servidores

Cluster Computing

Grid Computing

Grid Computing en Colombia
GENÓMICA: FUNDAMENTOS Y APLICACIONES


Un Sistema Computacional




  Tomado de: Cisco CCNA Discovery 1.0
GENÓMICA: FUNDAMENTOS Y APLICACIONES


Un Sistema Computacional (2)
GENÓMICA: FUNDAMENTOS Y APLICACIONES


       Esquema de Trabajo de Un Investigador



                                       Tengo que ejecutar
                                       300 trabajos, cada
                                      uno toma 4 horas de
                                         procesamiento.

                                      ¿Espero 1200 horas
                                         (50 días) para
                                      obtener resultados?



Un investigador puede aprovechar todas las capacidades
 computacionales de su equipo de escritorio o portátil.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


Servidor de Cómputo
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                      Servidor de Cómputo (2)

                             Trabajo 1

                             Trabajo 2           Un servidor mejora
                                                  las capacidades
                                 …..           computacionales que
                                               tiene un investigador.
                             Trabajo N

     Servidor
Sin embargo, en el nuevo servidor ahora se requieren ejecutar 2000 trabajos
(N=2000) que tienen un tiempo de ejecución promedio de 3 horas.

Tiempo de procesamiento total = 6000 horas = 250 días de procesamiento.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


        Agenda


Computador Personal y Servidores

Cluster Computing

Grid Computing

Grid Computing en Colombia
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                        Cluster Computing




Una organización compra y administra un conjunto de servidores (10s-
10000s) para soportar sus requerimientos computacionales.

Se agrupan grandes capacidades de cómputo                (procesamiento,
almacenamiento, memoria RAM, redes de alta velocidad).
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                                 Cluster Computing (2)




      Investigador
                          Nodo Maestro




  Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo
    Trabajo 1        Trabajo 2       …….      Trabajo N




Se utiliza un planificador de colas de trabajos para que este se encargue de
distribuir los trabajos entre los diferentes servidores.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                        Cluster Computing (3)




                  Ing. Química               Ing. Industrial


                      ds

                 Bioinformática        Física de Altas Energías

Cluster computing permite que cada organización utilice su infraestructura
computacional para soportar los proyectos de sus grupos de investigación.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


        Agenda


Computador Personal y Servidores

Cluster Computing

Grid Computing

Grid Computing en Colombia
GENÓMICA: FUNDAMENTOS Y APLICACIONES


               Mayores Necesidades de Cómputo

                                                   50M de sensores
                                                600M de colisiones por
                                                        segundo
                                                  50M de señales por
                                                         colisión
                                                150K DVD por segundo
                                                   15 PB por año por
                                                      experimento
                                               7.000 físicos colaborando
                                                     en 80 países

El proyecto LHC (Large Hadron Collider) del CERN (European Organization
for Nuclear Research) para crear el acelerador y colisionador de partículas
más grande del mundo.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                                     Grid Computing
                                           Trabajo 2




                                                             Trabajo 3
                 Trabajo 1




                                                         Investigador

                                                             Trabajo 4




                             Trabajo N



                                             ……...



Un infraestructura grid es creada y administrada por varias organizaciones
que conforman una organización virtual (VO) que tiene un objetivo común.

Cada organización aporta un conjunto de recursos (cómputo, recursos
humanos y físicos, etc.).
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                                Grid Computing (2)
                                        Trabajo 2




                                                          Trabajo 3
                Trabajo 1




                                                      Investigador

                                                          Trabajo 4




                            Trabajo N



                                          ……...




Un grid es una arquitectura basada en estándares para compartir
aplicaciones y recursos que hace posible que sistemas y aplicaciones
heterogéneas compartan recursos de cómputo y almacenamiento de manera
transparente [The grid report]
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                      Grid Computing (3)




Infraestructuras Grid a Nivel      Infraestructuras Grid Latinoamérica
          Mundial                               y Colombia
GENÓMICA: FUNDAMENTOS Y APLICACIONES


     Ventajas de las Infraestructuras Grid Computing


Fortalecimiento de la capacidad investigativa de los países.


Aporte de la ciencia a problemas nacionales.


Posibilidad de participar en redes internacionales.


Creación de comunidades de investigación y ciencia.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


Retos en las Infraestructuras Grid Computing
GENÓMICA: FUNDAMENTOS Y APLICACIONES


Soluciones Para Construir y Crear Infraestructuras Grid
                    Computing
GENÓMICA: FUNDAMENTOS Y APLICACIONES


        Agenda


Computador Personal y Servidores

Cluster Computing

Grid Computing

Grid Computing en Colombia
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                                                 Grid Computing en Colombia
                                                                                                                     INSTITUCIÓN B /
                                                                                                                       GRUPO DE
                                                                                                                    INVESTIGACIÓN B


                                                                               Investigador
                                                                                                     Nodo Maestro




                                         INSTITUCIÓN A /
                                           GRUPO DE
                                        INVESTIGACIÓN A
                                                                           Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo
                                                                             Trabajo 1          Trabajo 2      …….          Trabajo N
     Investigador
                         Nodo Maestro



                                                                                                                       INSTITUCIÓN C /
                                                                                                                         GRUPO DE
                                                                                                                      INVESTIGACIÓN C

 Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo
                                                                                 Investigador
   Trabajo 1        Trabajo 2      …….          Trabajo N                                              Nodo Maestro




                                                                            Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo
                                                                               Trabajo 1          Trabajo 2      …….          Trabajo N




  Cada institución o grupo de investigación tiene su infraestructura de
cómputo.
  Los grupos no utilizan sus infraestructuras constantemente.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                                            Grid Computing en Colombia (2)
                                                                                                                           INSTITUCIÓN B /
                                                                                                                             GRUPO DE
                                                                                                                          INVESTIGACIÓN B


                                                                                     Investigador
                                                                                                           Nodo Maestro




                                         INSTITUCIÓN A /
                                           GRUPO DE
                                        INVESTIGACIÓN A
                                                                                 Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo

     Investigador
                         Nodo Maestro
                                                            Infraestructura        Trabajo 1          Trabajo 2      …….          Trabajo N



                                                                  Grid
                                                              Computing                                                      INSTITUCIÓN C /
                                                                                                                               GRUPO DE
                                                                                                                            INVESTIGACIÓN C

 Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo
                                                                                       Investigador
   Trabajo 1        Trabajo 2      …….          Trabajo N                                                    Nodo Maestro




                                                                                  Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo
                                                                                     Trabajo 1          Trabajo 2      …….          Trabajo N




   Se puede crear una infraestructura Grid Computing con el fin de agrupar
grandes capacidades computacionales para una organización virtual (VO).
   Se pueden COMPARTIR recursos entre instituciones o grupos de
investigación.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                 Grid Computing en Colombia (3)

   Se está desarrollando el proyecto Grid Colombia que busca que
diferentes instituciones a nivel nacional puedan compartir sus capacidades
de cómputo (compartir recursos cuando no son utilizados).

  Aprovechar la red de alta velocidad RENATA (Red Nacional Académica
de Tecnología Avanzada).

  Unirse a proyectos desarrollados a nivel mundial.

  Permitir el desarrollo de proyectos de e Ciencia que requieran grandes
capacidades de cómputo.

  Permitir que grupos de investigación o instituciones con bajos recursos
puedan a acceder a los recursos disponibles en otras organizaciones.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                    Grid Computing en Uniandes

   Desarrollo de una infraestructura grid institucional entre los diferentes
grupos de investigación (Proyecto Campus Grid Uniandes).



   Participación en infraestructuras y proyectos grid a nivel mundial como es
el caso del LHC, EELA-2, EGEE.



  Desarrollo de proyectos que buscan aprovechar capacidades
computacionales no utilizadas en los equipos de salas de cómputo
convencionales (UnaGrid).
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                  Grid Computing en Uniandes (2)

  Se ha dado soporte a proyectos de diferentes áreas como:


Ingeniería industrial: problema de optimización de rutas y elementos finitos.

Ingeniería química: Bacillus thuringiensis.

Bioinformática: Phytophthora infestans, Xanthomonas axonopodis pv.
Manihotis y Café.

Física de altas energías: CMS – LHC.

Ingeniería civil: simulación de granos de arena.
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                                 Grid Computing en Uniandes (3)
   Framework para la ejecución transparente de aplicaciones y pipelines de
bioinformática en infraestructuras grid computing.
                                                                                   INSTALLATION
            LONI Pipeline Users
                                                                     Authentication                        Storage

                              Local Files
                            Local Modules
                           Local Workflows
                          Local Data Sources
                           Local Data Sinks


                                                                               User Database             NFS Server
                                                                    LDAP
       LONI Pipeline Client



                                                                                                       Remote Files
                                                                                                      Server Modules
                                                                                                     Server Workflows
                                                                                                    Server Data Sources
                                               LAN/WAN Network                                       Server Data Sinks
       LONI Pipeline Client
                                                                                  Uniandes LONI Pipeline
                                                                                         Server



                                                                           Opportunistic SGE
       LONI Pipeline Client                                                                    Dedicated SGE Cluster
                                                                               Cluster




       LONI Pipeline Client                         BLAST
                                                   HMMER
                                                InterPro Scan
GENÓMICA: FUNDAMENTOS Y APLICACIONES


                Grid Computing en Uniandes (4)
  Ejecución transparente de pipelines por medio de interfaces gráficas
(GUIs) amigables al usuario (sin comandos).
GENÓMICA: FUNDAMENTOS Y APLICACIONES



!Gracias por su atención!




                  ¿Preguntas?

Infraestructura computacional: Computación en grid

  • 1.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES 2010 Infraestructura Computacional: Computación Grid Mario Villamizar Grupo de Tecnologías de Información y Comunicación (COMIT) Departamento de Ingeniería de Sistemas y Computación Universidad de los Andes, Bogotá D.C., Colombia
  • 2.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Agenda Computador Personal y Servidores Cluster Computing Grid Computing Grid Computing en Colombia
  • 3.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Agenda Computador Personal y Servidores Cluster Computing Grid Computing Grid Computing en Colombia
  • 4.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Un Sistema Computacional Tomado de: Cisco CCNA Discovery 1.0
  • 5.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Un Sistema Computacional (2)
  • 6.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Esquema de Trabajo de Un Investigador Tengo que ejecutar 300 trabajos, cada uno toma 4 horas de procesamiento. ¿Espero 1200 horas (50 días) para obtener resultados? Un investigador puede aprovechar todas las capacidades computacionales de su equipo de escritorio o portátil.
  • 7.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Servidor de Cómputo
  • 8.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Servidor de Cómputo (2) Trabajo 1 Trabajo 2 Un servidor mejora las capacidades ….. computacionales que tiene un investigador. Trabajo N Servidor Sin embargo, en el nuevo servidor ahora se requieren ejecutar 2000 trabajos (N=2000) que tienen un tiempo de ejecución promedio de 3 horas. Tiempo de procesamiento total = 6000 horas = 250 días de procesamiento.
  • 9.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Agenda Computador Personal y Servidores Cluster Computing Grid Computing Grid Computing en Colombia
  • 10.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Cluster Computing Una organización compra y administra un conjunto de servidores (10s- 10000s) para soportar sus requerimientos computacionales. Se agrupan grandes capacidades de cómputo (procesamiento, almacenamiento, memoria RAM, redes de alta velocidad).
  • 11.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Cluster Computing (2) Investigador Nodo Maestro Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo Trabajo 1 Trabajo 2 ……. Trabajo N Se utiliza un planificador de colas de trabajos para que este se encargue de distribuir los trabajos entre los diferentes servidores.
  • 12.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Cluster Computing (3) Ing. Química Ing. Industrial ds Bioinformática Física de Altas Energías Cluster computing permite que cada organización utilice su infraestructura computacional para soportar los proyectos de sus grupos de investigación.
  • 13.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Agenda Computador Personal y Servidores Cluster Computing Grid Computing Grid Computing en Colombia
  • 14.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Mayores Necesidades de Cómputo 50M de sensores 600M de colisiones por segundo 50M de señales por colisión 150K DVD por segundo 15 PB por año por experimento 7.000 físicos colaborando en 80 países El proyecto LHC (Large Hadron Collider) del CERN (European Organization for Nuclear Research) para crear el acelerador y colisionador de partículas más grande del mundo.
  • 15.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing Trabajo 2 Trabajo 3 Trabajo 1 Investigador Trabajo 4 Trabajo N ……... Un infraestructura grid es creada y administrada por varias organizaciones que conforman una organización virtual (VO) que tiene un objetivo común. Cada organización aporta un conjunto de recursos (cómputo, recursos humanos y físicos, etc.).
  • 16.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing (2) Trabajo 2 Trabajo 3 Trabajo 1 Investigador Trabajo 4 Trabajo N ……... Un grid es una arquitectura basada en estándares para compartir aplicaciones y recursos que hace posible que sistemas y aplicaciones heterogéneas compartan recursos de cómputo y almacenamiento de manera transparente [The grid report]
  • 17.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing (3) Infraestructuras Grid a Nivel Infraestructuras Grid Latinoamérica Mundial y Colombia
  • 18.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Ventajas de las Infraestructuras Grid Computing Fortalecimiento de la capacidad investigativa de los países. Aporte de la ciencia a problemas nacionales. Posibilidad de participar en redes internacionales. Creación de comunidades de investigación y ciencia.
  • 19.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Retos en las Infraestructuras Grid Computing
  • 20.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Soluciones Para Construir y Crear Infraestructuras Grid Computing
  • 21.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Agenda Computador Personal y Servidores Cluster Computing Grid Computing Grid Computing en Colombia
  • 22.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing en Colombia INSTITUCIÓN B / GRUPO DE INVESTIGACIÓN B Investigador Nodo Maestro INSTITUCIÓN A / GRUPO DE INVESTIGACIÓN A Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo Trabajo 1 Trabajo 2 ……. Trabajo N Investigador Nodo Maestro INSTITUCIÓN C / GRUPO DE INVESTIGACIÓN C Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo Investigador Trabajo 1 Trabajo 2 ……. Trabajo N Nodo Maestro Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo Trabajo 1 Trabajo 2 ……. Trabajo N Cada institución o grupo de investigación tiene su infraestructura de cómputo. Los grupos no utilizan sus infraestructuras constantemente.
  • 23.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing en Colombia (2) INSTITUCIÓN B / GRUPO DE INVESTIGACIÓN B Investigador Nodo Maestro INSTITUCIÓN A / GRUPO DE INVESTIGACIÓN A Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo Investigador Nodo Maestro Infraestructura Trabajo 1 Trabajo 2 ……. Trabajo N Grid Computing INSTITUCIÓN C / GRUPO DE INVESTIGACIÓN C Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo Investigador Trabajo 1 Trabajo 2 ……. Trabajo N Nodo Maestro Nodo Esclavo Nodo Esclavo Nodo Esclavo Nodo Esclavo Trabajo 1 Trabajo 2 ……. Trabajo N Se puede crear una infraestructura Grid Computing con el fin de agrupar grandes capacidades computacionales para una organización virtual (VO). Se pueden COMPARTIR recursos entre instituciones o grupos de investigación.
  • 24.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing en Colombia (3) Se está desarrollando el proyecto Grid Colombia que busca que diferentes instituciones a nivel nacional puedan compartir sus capacidades de cómputo (compartir recursos cuando no son utilizados). Aprovechar la red de alta velocidad RENATA (Red Nacional Académica de Tecnología Avanzada). Unirse a proyectos desarrollados a nivel mundial. Permitir el desarrollo de proyectos de e Ciencia que requieran grandes capacidades de cómputo. Permitir que grupos de investigación o instituciones con bajos recursos puedan a acceder a los recursos disponibles en otras organizaciones.
  • 25.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing en Uniandes Desarrollo de una infraestructura grid institucional entre los diferentes grupos de investigación (Proyecto Campus Grid Uniandes). Participación en infraestructuras y proyectos grid a nivel mundial como es el caso del LHC, EELA-2, EGEE. Desarrollo de proyectos que buscan aprovechar capacidades computacionales no utilizadas en los equipos de salas de cómputo convencionales (UnaGrid).
  • 26.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing en Uniandes (2) Se ha dado soporte a proyectos de diferentes áreas como: Ingeniería industrial: problema de optimización de rutas y elementos finitos. Ingeniería química: Bacillus thuringiensis. Bioinformática: Phytophthora infestans, Xanthomonas axonopodis pv. Manihotis y Café. Física de altas energías: CMS – LHC. Ingeniería civil: simulación de granos de arena.
  • 27.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing en Uniandes (3) Framework para la ejecución transparente de aplicaciones y pipelines de bioinformática en infraestructuras grid computing. INSTALLATION LONI Pipeline Users Authentication Storage Local Files Local Modules Local Workflows Local Data Sources Local Data Sinks User Database NFS Server LDAP LONI Pipeline Client Remote Files Server Modules Server Workflows Server Data Sources LAN/WAN Network Server Data Sinks LONI Pipeline Client Uniandes LONI Pipeline Server Opportunistic SGE LONI Pipeline Client Dedicated SGE Cluster Cluster LONI Pipeline Client BLAST HMMER InterPro Scan
  • 28.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES Grid Computing en Uniandes (4) Ejecución transparente de pipelines por medio de interfaces gráficas (GUIs) amigables al usuario (sin comandos).
  • 29.
    GENÓMICA: FUNDAMENTOS YAPLICACIONES !Gracias por su atención! ¿Preguntas?