Estimados usuarios. Bienvenidos a nuestro sitio virtual de la UNIVERSIDAD MAGISTER en Slide Share donde podrá encontrar los resultados de importantes trabajos de investigación prácticos producidos por nuestros profesionales. Esperamos que estos Mares Azules que les ponemos a su disposición sirvan de base para otras investigaciones y juntos cooperemos en el Desarrollo Económico y Social de Costa Rica y otras latitudes. Queremos ser enfáticos en que estos trabajos tienen Propiedad Intelectual por lo que queda totalmente prohibida su reproducción parcial o total, así como ser utilizados por otro autor, a excepción de que los compartan como citas de autor o referencias bibliográficas. Toda esta información también quedará a su disposición desde nuestro sitio web www.umagister.com, Disfruten con nosotros de este magno contenido bibliográfico Magister esperando sus amables comentarios, no sin antes agradecer a nuestro Ing. Jerry González quien está administrando este sitio. Rectoría, Universidad Magister. – 2015.
Similar a Evaluación del Sistema de Procesamiento de Grabdes Volúmenes de Datos Científicos en la Escuela de Física de la Universidad de Costa Rica (20)
2. UNIVERSIDAD
MAGISTER
EVALUACIÓN DEL SISTEMA DE PROCESAMIENTO DE GRANDES
VOLÚMENES DE DATOS CIENTÍFICOS EN LA ESCUELA DE FÍSICA DE LA
UNIVERSIDAD DE COSTA RICA
GUSTAVO GARBANZO SALAS
3. PREFACIO
• UCR, PROYECTOS DE INVESTIGACIÓN, C.A.D, GRANDES VOLÚMENES
DE DATOS.
• PROPÓSITO GENERAL DEL ESTUDIO “EVALUACIÓN DEL SISTEMA
ACTUAL DE PROCESAMIENTO DE DATOS CON EL FIN DE DISEÑAR
UNO MÁS ACORDE A LAS NECESIDADES Y CAPACIDADES”
• DESCRIPCIÓN DEL CONTENIDO POR CAPÍTULO
4. INTRODUCCIÓN
ANTECEDENTES
• Computación científica, Guy de Téramond, Jorge Páez, Walter
Fernández.
JUSTIFICACIÓN
• Renovación de personal, PhD afuera, sistemas actuales, nuevas
técnicas de programación, más necesidades por proyecto.
FORMULACIÓN DEL PROBLEMA
• ¿Cómo procesa actualmente la Escuela de Física de la Universidad
de Costa Rica los altos volúmenes de datos científicos de sus
proyectos de investigación?
5. INTRODUCCIÓN
OBJETIVO GENERAL
• Analizar los sistemas actuales con que cuenta la Escuela de Física
de la Universidad de Costa Rica para el procesamiento de grandes
volúmenes de datos científicos de los proyectos de investigación
con el fin de que se diseñe un Sistema de Computación de Alto
Rendimiento.
6. INTRODUCCIÓN
OBJETIVOS ESPECÍFICOS
• Diagnosticar la situación actual del sistema de procesamiento.
• Determinar las necesidades en infraestructura en computación de
alto desempeño.
• Establecer los requerimientos mínimos de una plataforma de
computación de alto desempeño para que cumpla con las
necesidades.
• Proponer el diseño de una arquitectura de software y hardware para
un nuevo sistema de computación de alto desempeño para el
procesamiento.
7. INTRODUCCIÓN
VARIABLES DE INVESTIGACIÓN
• Situación actual del sistema de procesamiento de grandes
volúmenes de datos científicos.
• Rendimiento actual del sistema de procesamiento de grandes
volúmenes de datos científicos.
• Necesidades de computación de alto desempeño en los proyectos
científicos.
• Establecer los requerimientos mínimos de un sistema de
procesamiento de alto desempeño.
8. MARCO TEÓRICO
Universidad de Costa Rica, Escuela de Física.
CONCEPTOS
• Ingeniería
• Ingeniería en sistemas
• Computación de alto desempeño
• Grandes volúmenes de datos
• Procesamiento
12. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
34%
58%
8%
20-34
35-64
65 o más
GRUPO 1 INFORMACIÓN PERSONAL Y EXPERIENCIA DEL INVESTIGADOR
EN C.A.D.
41%
17%
17%
25%
1-5
6-10
11-20
21 o más
RANGO DE EDAD DEL
INVESTIGADOR
TIEMPO DE INVESTIGACIÓN
UCR
13. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
83%
17%
Sí
No
GRUPO 1 INFORMACIÓN PERSONAL Y EXPERIENCIA DEL INVESTIGADOR
EN C.A.D.
CONOCIMIENTO EN
SISTEMAS C.A.D.
ACCESO A SISTEMA
DE C.A.D. C.I
83%
17%
Sí
No
14. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
GRUPO 2 SITUACIÓN ACTUAL DEL SISTEMA
PROCESAMIENTO DE
DATOS
CARACTERÍSTICAS DEL
SISTEMA
17%
8%
67%
0%8%
Estación de Trabajo de la
UCR
Computadora personal
Ambas
No los procesa usted
HPC
45%
25%
15%
15%
UPS
RAM ECC
RAID 1 ó 5
Ninguna de las Anteriores
15. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
GRUPO 2 SITUACIÓN ACTUAL DEL SISTEMA
REGISTRO DE HORAS DE
CÁLCULO POR PROYECTO
CONTROL DE COLAS DE
TRABAJO
42%
25%
8%
25%
Sí
No
No se
Un trabajo a la vez
16%
0%
17%
67%
Usted
Sección
Centro de Investigación
No se tiene registro
16. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
GRUPO 3 RENDIMIENTO ACTUAL DEL SISTEMA
CALIFICACIÓN DEL SISTEMA
DE PROCESAMIENTO
HORAS CÁLCULO DE
8%
67%
17%
8%
Excelente
Bueno
Regular
Malo
50%
8%0%
42% Meno de 8 horas
9-16 horas
17-24 horas
Más de 24 horas
17. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
GRUPO 4 NECESIDADES DE COMPUTACIÓN DE ALTO DESEMPEÑO
PROGRAMACIÓN DE LAS
APLICACIONES DE
TIPO DE PROCESAMIENTO DE DATOS
58%
0%
42%
Usted
Terceros
Ambos
41%
53%
6%
Serie
Paralelo
Lo desconozco
18. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
GRUPO 4 NECESIDADES DE COMPUTACIÓN DE ALTO DESEMPEÑO
FORMACIÓN A ESTUDIANTES
EN PROGRAMACIÓN EN
LENGUAJE DE PROGRAMACIÓN MÁS
100%
0%
Sí
No
12%
19%
16%
16%
3%
16%
9%
3%3%3%
C
C++
Fortran
Python
Mathematica
MatLab
IDL
Ruby
Grads
BASH Shell
19. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
GRUPO 5 REQUERIMIENTOS MÍNIMOS DE COMPUTACIÓN DE ALTO
DESEMPEÑO
REQUERIMIENTOS DE
HARDWARE POR PROYECTO
SISTEMA OPERATIVO DE USO ACTUAL
8%
25%
34%
8%
8%
17%
1-10 Cores 1-10 RAM 100GB
a 1 TB
11-20 Cores 11-20 RAM 1.5-
5 TB
21-30 Cores 21-30 RAM 3.5-
5 TB
160 Cores 640 RAM 5 TB
320 Cores 420 RAM 32 TB
480 Cores 640 RAM 64 TB
5% 5%
6%
39%
28%
6%
11% Scientific LINUX
Mac OS X
Windows 8.1
GNU/LINUX Ubuntu
GNU/LINUX Rocks
Windows 7
GNU/LINUX CentOS
20. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
GRUPO 5 REQUERIMIENTOS MÍNIMOS DE COMPUTACIÓN DE ALTO
DESEMPEÑO
PROBLEMAS MÁS COMUNES
DEL SISTEMA
FRECUENCIA DE LOS
17%
25%
25%
8%
25%
Diariamente
1-2 días por seman
3-4 días por semana
Al menos 1 vez al mes
Ocasionalmente
16%
16%
21%16%
5%
5%
21%
Falta de Compiladores
Falta de Librerías
Errores de Compilación
Errores de
Procesamiento
Errores de Verificación
de Datos
21. ANÁLISIS E INTERPRETACIÓN DE
RESULTADOS
GRUPO 5 REQUERIMIENTOS MÍNIMOS DE COMPUTACIÓN DE ALTO
DESEMPEÑO
CONJUNTO DE DATOS DE
ENTRADA DEL
TOTAL DE DATOS ANALIZADOS
POR PROYECTO
33%
25%
42%
1-5 GB
6-10 GB
Más de 10 GB
50%
16%
17%
17%
1-2 TB
3-10 TB
11-30 TB
Más de 30 TB
22. CONCLUSIONES Y
RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• A pesar de la experiencia del
investigador en C.A.D., el equipo
que utiliza, no cuenta con las
características especializadas ni
en software ni hardware que
garanticen la adecuada gestión de
datos y resultados.
• Sugerir y desarrollar un estándar
de compra para un sistema
especializado en el procesamiento
paralelo de datos científicos de un
bajo costo pero que cumpla con
las mínimas condiciones para
asegurar la gestión adecuada de la
información.
VARIABLE 1. ESTADO ACTUAL DEL SISTEMA DE PROCESAMIENTO
23. CONCLUSIONES Y
RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• Desconocimiento de manejo de
recursos de software (gestión
multi usuarios, control de colas de
trabajo, organizadores de trabajo)
en la mayoría de estos sistemas se
cuenta con un ambiente mono
usuario y mono tarea.
• Brindar talleres y capacitaciones
sobre el adecuado uso de los
sistemas actuales, y como
implementar algunas técnicas que
pueden llegar a mejorar el
rendimiento de procesamiento de
estos sistemas.
VARIABLE 1. ESTADO ACTUAL DEL SISTEMA DE PROCESAMIENTO
24. CONCLUSIONES Y
RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• Aunque el 67% de los
investigadores cataloga su
sistema de procesamiento como
bueno, es difícil imaginar que los
tiempos de procesamiento sean
los óptimos (programación en
paralelo propia en sistemas no
aptos), además no se tiene punto
• Proveer una plataforma de
información y registro e incentivar
una mejor cultura de
documentación y manejo de
estadísticas de cómputo para los
investigadores.
VARIABLE 2. RENDIMIENTO DEL SISTEMA DE PROCESAMIENTO
25. CONCLUSIONES Y
RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• Aunque los tiempos de
procesamiento tienen un amplio
rango, este factor justifica la
disponibilidad del sistema y es de
gran importancia a la hora de
tomar en cuenta las ventajas de
un sistema de procesamiento de
alto desempeño.
• Optimizar los sistemas actuales
para proveer un mejor
rendimiento con el fin de
minimizar los tiempos de
procesamiento de los datos de los
proyectos de investigación.
VARIABLE 2. RENDIMIENTO DEL SISTEMA DE PROCESAMIENTO
26. CONCLUSIONES Y
RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• El 58 % de los investigadores
realiza su propia programación de
aplicaciones de procesamiento y el
53% las realiza en paralelo pero
solamente el 8% utiliza sistemas
de computación de alto
desempeño para el procesamiento
de datos.
• Plantar un proyecto conjunto para
solicitar recursos para adquirir
equipo moderno de computación
de alto desempeño que posea las
facilidades y especificaciones
necesarias para ser utilizado por
un amplio grupo de
investigadores, enfocado
VARIABLE 3. NECESIDADES EN C.D.A. DE LOS PROYECTOS DE
INVESTIGACIÓN
27. CONCLUSIONES Y
RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• El 100% de los investigadores
reconoce la necesidad de impartir
un curso de programación
orientada al procesamiento de
datos en paralelo con una amplia
gama de lenguajes de
programación que utilizan los
investigadores actualmente, de los
• Proponer la apertura de un curso
especializado en programación en
paralelo bajo sistemas de
computación de alto desempeño y
redactar un borrador sobre el
temario, el materiales y posibles
ejercicios necesarios para el curso.
VARIABLE 3. NECESIDADES EN C.D.A. DE LOS PROYECTOS DE
INVESTIGACIÓN
28. CONCLUSIONES Y
RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• La mayoría de arquitecturas de
cómputo de los sistemas actuales
no cuenta con la optimización ni
de hardware ni de software
adecuada para las tareas que
realiza, esto se evidencia en los
errores y frecuencia con la que
ocurren estos.
• Formular posibles escenarios y
arquitecturas con el fin de
construir un perfil de sistema de
computación de alto desempeño
para que los investigadores logren
de una manera más rápida y fácil
identificas sus necesidades de
procesamiento sin tener que
VARIABLE 4. REQUERIMIENTOS MÍNIMOS DE UNA PLATAFORMA DE
C.A.D.
29. CONCLUSIONES Y
RECOMENDACIONES
CONCLUSIÓN RECOMENDACIÓN
• Son muchos los posibles
escenarios de requerimientos de
hardware, pero si se nota una
tendencia a sistemas de
almacenamiento intensivos,
debido a la los periodos de
investigación y el tamaño de la
colección de datos de entrada y
• Realizar un planeamiento en
conjunto con el departamento
administrativo para hacer un
pronóstico a mediano y largo
plazo con el fin de formular las
necesidades de hardware y
software especializado de acuerdo
a los investigadores que regresan
VARIABLE 4. REQUERIMIENTOS MÍNIMOS DE UNA PLATAFORMA DE
C.A.D.
30. COSTO DE LA
INVESTIGACIÓN
DETALLE
CANTIDAD
DE HORAS
HOMBRE
COSTO TOTAL
(COLONES)
COSTO
TOTAL
(DÓLARES)
Seminario de
Graduación
32 105 000 194
Documentación 10 200 000 370
Análisis Teórico y
Práctico del sistema
36 1 200 000 2200
Materiales y fotocopias,
hojas e impresiones
5 150 000 277
TOTAL 83 1 655 000 3041
31. PROPUESTA
PROPUESTA DE DISEÑO DE UN SISTEMA DE COMPUTACIÓN DE ALTO
RENDIMIENTO PARA LA ESCUELA DE FÍSICA DE LA UNIVERSIDAD DE COSTA
RICA.
OBJETIVO GENERAL:
• Proveer a la Escuela de Física de la Universidad de Costa Rica del diseño
básico y funcional para un primer Sistema de Computación de Alto
Desempeño (SICAD) para el procesamiento de grandes volúmenes de
datos de proyectos de investigación científica.
32. PROPUESTA
OBJETIVOS ESPECÍFICOS:
• Diseñar una arquitectura de hardware y software básico para el
S.I.C.A.D. con el fin de que se procese mejor los grandes volúmenes
de datos científicos de los proyectos de investigación de la Escuela
de Física de la Universidad de Costa Rica.
• Implementar el diseño formulado en la propuesta en el S.I.CA.D. de
prueba con que cuenta actualmente la Escuela de Física de la
Universidad de Costa Rica.
33. PROPUESTA
DESARROLLO DEL DISEÑO BASADO EN UML
• Etapa 1: Infraestructura del sistema
• Etapa 2: Comportamiento del sistema
• Etapa 3: Interacción con el sistema
34. PROPUESTA
ETAPA 1: INFRAESTRUCTURA DEL SISTEMA
En esta etapa se estudian las necesidades, se establecen los
requerimientos del sistema, se verifican aspectos como el espacio
físico que ocupa el sistema, la capacidad eléctrica y de red del lugar,
se instala la plataforma física del sistema (servidores y nodos de
procesamiento y de almacenamiento), se configuran los equipos,
servicios necesarios y se realizan pruebas y depuraciones al sistema.
38. PROPUESTA
ETAPA 2: COMPORTAMIENTO DEL SISTEMA
• En esta etapa del diseño se analiza el comportamiento de sistema
ensamblado en la etapa uno se verifican el óptimo funcionamiento
y rendimiento de todos los servidores y servicios que integran la
solución y se hacen las simulaciones necesarias de prueba, se
buscan principales fuentes de error y se estudia el rendimiento del
sistema.
42. PROPUESTA
ETAPA 3: INTERACCIÓN DEL SISTEMA
• En esta etapa del diseño se describe la interacción del
sistema de computación de alto desempeño con los
usuarios finales y su capacidad de procesar múltiples
envíos de trabajos provenientes de múltiples usuarios
simultáneamente.
47. INVESTIGACIONES DERIVADAS
• Realizar un estudio del consumo eléctrico de los sistemas de
procesamiento de grandes volúmenes de datos científicos de los
proyectos de investigación.
• Implementar un manual de mejores prácticas, uso y mantenimiento
para una infraestructura básica de computación de alto desempeño.
• Realizar un estudio de viabilidad para la implementación de un
sistema de archivos por red de alto desempeño, como por ejemplo
LustreFS.
48. F.O.D.A.
FORTALEZAS OPORTUNIDADES
Infraestructura de red interna Donaciones de equipo
Personal Capacitado Presupuestos extraordinarios
Equipos de prueba Proveedores Nacionales
DEBILIDADES AMENAZAS
Capacidad de carga eléctrica del edificio Cambios en las políticas de donación de
equipo UCR
Presupuesto para equipo de cómputo Conflictos internos centros de
investigación – Escuela
Objetivos de la Dirección Cambios en las políticas de uso Centro de
Informática
49. COSTO DE LA PROPUESTA
DETALLE
CANTIDAD DE
HORAS HOMBRE
COSTO
TOTAL
(COLONES)
COSTO
TOTAL
(DÓLARES)
Técnico especializado 168 1 932 000 3577
Ingeniero en sistemas 140 17 280 000 32 000
Capacitaciones del
personal encargado de la
instalación y
configuración
80 4 400 000 8000
Equipos de HPC 14 Servidores 6 500 000 12 000
Equipos de red 1 Switch capa 3 1 600 000 3000
TOTAL 388 31 712 000 58 577