GRID COMPUTING (computacion en grId) es un sistema q permite aprobechar los recursos no utilizxados de los usuarios conectados al grid transformando un simple ordenador a un super ordenador virtual
1. UNIVERSIDAD NACIONAL FEDERICO VILLARREAL
FACULTAD DE INGENIERIA INDUSTRIAL Y DE SISTEMAS
E.A.P. DE INGENIERIA DE SISTEMAS
GRID COMPUTING
INTEGRANTES:
• GABRIEL PAUL HURTADO MATAMOROS
• JOHN KEELER CHIPANA CHAVEZ
ORIENTADOR:
LIMA - PERU
AGOSTO 2011
2. DEDICATORIA:
Este trabajo es dedicado a todos
Los alumnos de la sec. “C”
del primer ciclo de la escuela de
ingeniería de sistemas
AGRADECIMIENTOS:
A todos mis profesores de la
Universidad Nacional
Federico Villarreal, por su ejemplo de
profesionalidad que nunca he
Olvidado.
I
3. INTRODUCCION:
1.- Actualmente, la difusión de la información con el uso del Internet ha crecido
increíblemente y es notable la utilidad y los beneficios obtenidos a partir de esto. Por
otro lado, la cantidad de implementaciones, a través de la misma Internet, y el
almacenamiento de grandes cantidades de datos han hecho de los recursos
computacionales una necesidad. Las necesidades de las organizaciones para el
procesamiento de datos son cada vez mayores, mientras que el área científica ha
puesto sus ojos en el estudio de fenómenos que necesitan a su vez una cantidad de
procesamiento enorme y acceso a diferentes recursos que no necesariamente se
encuentren dentro de las mismas organizaciones científicas.
2.- Los Grids integran el uso de diferentes tecnologías e infraestructura como redes,
comunicación, computación e información que permiten proporcionar en conjunto una
plataforma virtual para la computación y gestión de los datos del mismo modo que
Internet integra recursos para formar una plataforma virtual de información. De esta
forma, se puede acceder a gran cantidad de recursos computacionales dispersos
geográficamente y crear una organización compuesta de varias entidades que pueden
beneficiarse con el uso de estos recursos.
3.- El presente trabajo abarca las generalidades de la tecnología Grid, la arquitectura
que soporta dicha tecnología y conceptos referentes a seguridad y planificación de
trabajo y recursos en un entorno Grid, así como las aplicaciones y la descripción de
una implementación para observar las ventajas potenciales del uso de un ambiente
Grid.
II
4. INDICE Pág.
Carátula
Dedicatoria I
Agradecimiento I
Introducción II
Indice III
Lista de figuras 1
CAPITULO I: PLANTEAMIENTO METODOLOGICO
1.1 Grid Computing 2
1.2 Justificación de la investigación 3
1.3 Objetivos
1.3.1 Objetivo general 4
1.3.2 Objetivos específicos
1.4 Técnicas e instrumentos para obtener información 5
CAPITULO II: MARCO REFERENCIAL
2.1 Marco Histórico
2.2 Marco Teórico
2.3 Estado del Arte
CAPITULO III: CASOS DE EXITO
3.1 Casos en Formato Texto
3.2 Casos en Formato Video
CAPITULO IV: CONCLUSIONES Y RECOMENDACIONES
4.1 Conclusiones
4.2 Recomendaciones
Referencias Bibliográficas
• Bibliografía Especializada
• Revistas Especializadas
• Direcciones Electrónicas
ANEXOS
Anexo A: (PONLE TITUTLOOOOOOOOOOO)
Anexo B: Middleware
Anexo C: El Grid en los centros académicos y de investigación.
APENDICE
Apéndices I: Revisando el futuro de la grid en América Latina.
Apéndices II: worldwide-lhc-computing-grid-comienza-funcionar.
III
5. Lista de figuras
Figura 1 (sistema de Grid Computing)
Figura 2 (El funcionamiento del Grid)
Figura 3 (arquitectura del Grid)
Figura 4 (Utilización de un Grid para cubrir picos de actividad)
Figura 5 (aplicación del grid en la bioinformática)
Figura 6 (proyecto seti@home)
Figura 7 (La Arquitectura Terracota)
IV
7. 1.2. Justificación Del Tema
Grid computing es una de las tecnologías que podrían cambiar la forma de ver el
estudio de la ciencia por ende merece el estudio de dicha tecnologica informática ya
que aun no ha sido desarrollado en su totalidad.
El desarrollo de Grid Computing tiene importancia en nuestra vida cotidiana como en
la educación, salud, etc. Que cambiaran la forma de solucionar los problemas que se
presenten, debido a las limitaciones que han ido aquejando por muchos años ala
ciencia.
8. 1.3. OBJETIVOS
1.3.1. Objetivos generales:
Definir, explicar y presentar los conceptos, características y ventajas de la
Computación Distribuida, así como sus aplicaciones y relación con otras
tecnologías informáticas.
1.3.2 Objetivos específicos:
1. Describir los conceptos de la computación distribuida.
2. Dar a conocer las áreas de aplicación de la computación distribuida y su
relación con diferentes tecnologías.
3. Dar a conocer la arquitectura y requisitos de la computación distribuida.
4. Describir la forma de implementación y trabajo de una aplicación en
sistemas de computación distribuida.
5. Dar a conocer las políticas y requerimientos de seguridad en la
computación Grid.
9. 1.4 Técnicas e instrumentos para obtener información
Las técnicas empleadas para la búsqueda de información para este proyecto
son:
1.4.1 Navegadores como:
• Google
• Bing
• Ask
• Yahoo
1.4.2 Buscadores de imágenes:
• google Imágenes
• Flickr
• Photo Bucket
1.4.3 Audios en formato mp3:
• downloader. buscador de audios.
1.4.4 Buscador de videos:
• Youtube
• Videos search
1.4.5 Revistas virtuales.
1.4.6 Libros
1.4.7Tesis
1.4.8 papers
10. CAPITULO II: MARCO REFERENCIAL
2.1 Marco Histórico
En los últimos treinta años hemos ido viendo pasar distintos conceptos de la
tecnología de redes, desde el principio de la década de 1970, pasando por la década
de 1980 con el descubrimiento de Internet y su posterior eclosión en los 90, hasta el
día de hoy con el grid, los servicios web, XML Y P2P.
2.1.1 Historia
La historia de cómo surgieron los GRIDs y de por qué se crearon es interesante y
muestra una perspectiva de la evolución de la computación que no se suele conocer.
Como todos los avances en la humanidad, surge como respuesta a un problema, para
el cuál las soluciones existentes no eran suficientes o no eran viables considerando los
recursos disponibles para resolverlo.
El Problema
En todo el mundo, los laboratorios científicos elaboran y usan programas que los
ayudan a lograr avances en sus investigaciones de un modo que no podrían lograr si
no fuese por estos.
La gran desventaja de esto es que surgía una nueva necesidad, la de obtener nuevos
y más poderosos computadores para ejecutar estos programas que en su mayoría
eran pesados en cuanto a tiempo de procesamiento se refiere.
Además, estos procesos generalmente hacían uso de grandes cantidades de datos y a
su vez generaban altos volúmenes de datos procesados.
Se necesitaba una solución eficiente para este problema que preocupaba a los
investigadores, y ésta debería ser eficiente en el uso de sus limitados recursos.
Las Alternativas
Para solucionar este problema existían diferentes alternativas, cada una con sus
ventajas y desventajas.
• Supercomputadoras
Las supercomputadoras, muchos procesadores (siempre potencias de 2) en una
arquitectura paralela que brindan un enorme poder de cómputo en los cuales se
ejecutan procesos separados en cada uno para realizar tareas muy pesadas en un
tiempo exponencialmente menor que si se usara una arquitectura tradicional.
Ventajas
• Alto rendimiento
• Poco espacio
11. Desventajas
• Altos costos
• Escalabilidad limitada
• Clusters
Los clusters, muchos computadores trabajando en conjunto para lograr determinadas
tareas. Un concepto que nació a partir de las supercomputadoras, ofreciendo alto
rendimiento para cálculos muy pesados, pero poco a poco evolucionó para brindar
otras opciones como alta disponibilidad, almacenamiento, balance de carga, entre
otras.
Ventajas
• Bajos costos
• Alto nivel de escalabilidad
Desventajas
• Mucho espacio ocupado
• Altos consumos de energía eléctrica
• Necesitan grandes sistemas de enfriamiento
• Peer-to-Peer
Peer-to-Peer, comunicación entre pares, nació como una forma de compartir archivos,
pero pronto se descubrió su potencial para aprovechar el poder de cómputo a nivel
mundial.
• Surgimiento de Grid
La palabra grid en inglés significa malla y hace referencia a la red eléctrica. Para
obtener electricidad, simplemente debemos conectarnos a cualquier punto de la malla
eléctrica (power grid) sin preocuparnos por las plantas generadoras que
interconectadas brindan esta omnipresencia del servicio, es decir, no sabemos de
dónde proviene la electricidad que usamos, simplemente la aprovechamos.
Este fue el concepto que adaptaron Carl Kesselman e Ian Foster en su libro The Grid:
Blueprint for a new computing infrastructure publicado en 1998.
La idea que presentaron en su publicación era la de crear una red mundial de
laboratorios proveedores de poder de cómputo y capacidad de almacenamiento, así
como lo hacen las plantas eléctricas para proveer la electricidad, y que el acceso a
ellos fuese fácil, permitiendo a todos aprovechar la capacidad de este gran conjunto
heterogéneo de sistemas sin necesidad de preocuparse por la interconexión ya que
(como enchufar un electrodoméstico) no importaría que o cuales nodos de esta red me
proveen el servicio
12. 2.1.2. ¿Qué es Grid Computing?
Cada uno de los conceptos antes enunciados entroncaba una arquitectura asociada al
mismo que iba haciendo desaparecer al anterior. La necesidad de una mayor
capacidad de computación para resolver los desafíos científicos y técnicos que nos
encontramos en los problemas reales del día a día (estudio del genoma, necesidad de
hallar vacunas contra el sida, búsqueda de inteligencia en el espacio exterior,
simulaciones de riesgos en evoluciones de mercados financieros…) ha provocado
que los problemas sean abordados desde la perspectiva de la utilización y
colaboración entre distintos recursos heterogéneos y dispersos geográficamente. Se
hace necesario utilizar y maximizar los recursos existentes empleando toda la
capacidad productiva que pueden ofrecer.
Figura 1 (sistema de Grid Computing)
Auque la idea de aprovechar recursos de una parte de la red informática que no se
esta utilizando es básicamente antigua, aparece en un programa llamado warm, que
se utilizo en las primeras redes Ethernet del laboratorio de PARC (Palo Alto Research
Center), de Xerox, mayoritariamente se ha entendido que podemos centrar el origen
del Grid en el proyecto SETI @ home, que sucedió a otro de la NASA denominado
SETI, siglas inglesas de Search for Extra-Terrestrial Inteligence, en el que se buscaba
señales de inteligencia extraterrestre por medio de las observaciones de potentes
13. radiotelescopios. El proyecto SETE@home continuaba lo iniciado por la NASA; pero lo
que hizo que se considerase el primer Grid fue la utilización de un software que se
podía descargar de Internet con el objetivo de utilizar ordenadores personales de los
internautas que se bajaban el programa con la intención de aumentar la capacidad de
procesamiento necesario para analizar las señales proporcionadas por el
radiotelescopio de Arecibo (Puerto Rico).
Como resultado del proyecto más de un millón y medio de personas han permitido
que sus ordenadores personales colaboren con el proyecto. Los resultados de estos
colaboradores anónimos de más de 200 países han sido espectaculares: Una medida
de 10 trillones de operaciones por segundo y el equivalente a más de 150.000 años
de tiempo de computación.
Los lugares donde habitualmente se suele reconocer que se gestó el concepto de
Grid son Laboratorio nacional de Argone en la universidad de Chicago, pero
perteneciente al Ministerio de Energía de Estados Unidos y la Universidad de
California del Sur, en cuyos laboratorios se utilizaban conceptos de procesamiento en
paralelo y computación distribuida con el objetivo de aumentar la potencia de cálculo
A partir de la colaboración entre distintos equipos.
Dentro de estos equipos de investigadores, destacan por la influencia que han ejercido
en la evolución del pensamiento y estandarización del Grid diversos nombres, pero en
especial los de Lan Foster y Carl Kesselman, quienes en 1999 iniciaron el proyecto
Globus con el objetivo de proporcionar un conjunto de herramientas para el
establecimiento de un marco de trabajo y una estandarización que permitiese la
evolución del concepto Grid. Uno de los frutos madurados dentro del proyecto Globus
es la OGSA (Open Grid Services Architecture), que se convertirá en el estándar de
código abierto para el desarrollo de la nueva generación de futuros Grid
2.1.3 ¿Qué es un sistema Grid?
La computación grid es una tecnología innovadora que permite utilizar de forma
coordinada todo tipo de recursos (entre ellos cómputo, almacenamiento y aplicaciones
específicas) que no están sujetos a un control centralizado. En este sentido es una
nueva forma de computación distribuida, en la cual los recursos pueden ser
heterogéneos (diferentes arquitecturas, supercomputadores, clusters...) y se
encuentran conectados mediante redes de área extensa (por ejemplo Internet).
14. Desarrollado en ámbitos científicos a principios de los años 1990, su entrada al
mercado comercial siguiendo la idea de la llamada Utility computing supone una
revolución que dará mucho que hablar.
El término grid se refiere a una infraestructura que permite la integración y el uso
colectivo de ordenadores de alto rendimiento, redes y bases de datos que son
propiedad y están administrados por diferentes instituciones. Puesto que la
colaboración entre instituciones envuelve un intercambio de datos, o de tiempo de
computación, el propósito del grid es facilitar la integración de recursos
computacionales. Universidades, laboratorios de investigación o empresas se asocian
para formar grid para lo cual utilizan algún tipo de software que implemente este
concepto.
Llamamos grid al sistema de computación distribuido que permite compartir recursos
no centrados geográficamente para resolver problemas de gran escala. Los recursos
compartidos pueden ser ordenadores (PC, estaciones de trabajo, supercomputadoras,
PDA, portátiles, móviles, etc.), software, datos e información, instrumentos especiales
(radio, telescopios, etc.) o personas/colaboradores.
La computación grid ofrece muchas ventajas frente a otras tecnologías alternativas. La
potencia que ofrece multitud de computadores conectados en red usando grid es
prácticamente ilimitada, además de que ofrece una perfecta integración de sistemas y
dispositivos heterogéneos, por lo que las conexiones entre diferentes máquinas no
generarán ningún problema. Se trata de una solución altamente escalable, potente y
flexible, ya que evitarán problemas de falta de recursos (cuellos de botella) y nunca
queda obsoleta, debido a la posibilidad de modificar el número y características de sus
componentes.
Estos recursos se distribuyen en la red de forma transparente pero guardando unas
pautas de seguridad y políticas de gestión de carácter tanto técnico como económico.
Así pues, su objetivo será el de compartir una serie de recursos en la red de manera
uniforme, segura, transparente, eficiente y fiable, ofreciendo un único punto de acceso
a un conjunto de recursos distribuidos geográficamente en diferentes dominios de
administración. Esto nos puede llevar a pensar que la computación Grid permite la
creación de empresas virtuales. Es importante saber que una grid es un conjunto de
maquinas distribuidas que ayudan a mejorar el trabajo sobre software pesados.
15. 2.2 Marco Teórico
2.2.1 ¿Cómo funciona Grid Computing?
La figura 1 presenta los distintos niveles lógicos que representan el funcionamiento de
un grid. El primer nivel es el nivel de acceso que resuelve la manera como un usuario
final interactúa con el grid. El segundo nivel es el corazón del grid y allí se encuentran
los servicios que podemos esperar de un grid. En el último nivel encontramos los
recursos propiamente dichos y que deben ser apropiados para ejecutar una cierta
tarea. Para entender el funcionamiento de un grid, es necesario entender lo que pasa
(o debería pasar pues como dijimos esta tecnología todavía está en desarrollo) en
cada uno de esos niveles.
El nivel de acceso es un portal orientado a aplicaciones. Un grid se construye para
resolver problemas y la interacción de un usuario de esta infraestructura debe ser un
mecanismo que le permita expresar el problema que desea resolver.
Esta no es una tarea fácil porque mucha de la lógica de distribución va a estar
implementada a este nivel. El portal debe ofrecer las herramientas necesarias para
que el usuario pueda expresar su conocimiento sobre el problema con el objetivo de
maximizar el aprovechamiento del grid para su problema.
El tema de portales es entonces objeto de fuerte investigación pues es el punto donde
distintas aplicaciones expresan sus requerimientos a servicios muy diversos.
La tecnología de portales basados en arquitecturas de portlets se está erigiendo como
el estándar para abordar esta temática y parece adecuada para enfrentar este reto.
Sin embargo, aún queda mucho camino por recorrer, entre otras cosas porque al
servicio de acceso se le agregan otros relacionados como envío de datos, recolección
de resultados, monitorización y control de las aplicaciones una vez se encuentran en
ejecución en el grid, etc.
El nivel de servicios expresa todo lo que el grid puede hacer por un usuario potencial.
Es aquí donde las diferentes implementaciones se diferencian y es aquí donde el
trabajo es más intenso para lograr la interoperabilidad de las distintas soluciones.
Ante la decisión de seleccionar una solución particular los administradores de sistemas
distribuidos se enfrentan a alternativas que van desde tener el conjunto básico de
servicios y a partir de ese conjunto construir la solución más adecuada (aproximación
de Globus) hasta soluciones empresariales donde todo está ya integrado y donde se
define tanto el conjunto de servicios disponibles como la manera particular de
interactuar con ellos (por ejemplo el SGE de Sun Microsystems).
16. Figura 2 (El funcionamiento del Grid)
Sin embargo, la mayoría de las soluciones se basan en el estándar de facto adoptado
por la industria que es el definido por el Global Grid Forum (ahora
Open Grid Forum) y cuya última implementación es el Globus
Toolkit 4 (GT4) por lo que aunque la interoperabilidad no es automática, se presenta al
menos como abordable. Por último, encontramos el nivel de los recursos físicos que
son los que administran el nivel de servicios y que constituyen en última instancia la
plataforma real donde se ejecutarán las aplicaciones.
Dependiendo del tipo de grid (cómputo, almacenamiento o colaboración) se
encontrarán recursos de un tipo u otro. Es por esto que en este nivel además de
computadores o grupos de computadores aparecen también dispositivos
especializados como censores, microscopios, telescopios, etc.
Cuando dentro de los recursos disponibles por un entorno de grid no se encuentran los
necesarios para satisfacer el requerimiento de un usuario entran a participar los
acuerdos e interoperabilidad con otros grids para poder responder finalmente al
requerimiento original.
Lo anterior idealmente se debe dar de manera transparente para quien utiliza los
servicios del grid (transparencia que debería sentirse incluso en los tiempos de
17. respuesta. Niveles lógicos de una solución grid soporte con redes de comunicaciones
de alta velocidad).
2.2.2 La Arquitectura de Grid Computing
La arquitectura propuesta es una arquitectura de protocolos que definen los
mecanismos básicos que permiten a los usuarios y a los recursos negociar,
establecer, gestionar y explotar la compartición de recursos;
• Es una arquitectura abierta basada en un estándar que facilita la extensibilidad,
la Inter operatibilidad, la portabilidad y la compartición de código;
• En el nivel de infraestructura es donde se encuentran los recursos
computacionales, como son los ordenadores, los clusters, los
supercomputadores, los sistemas de almacenamiento en red, las bases de
datos, etc.; (suministra los componentes que serán compartidos);
• El nivel de conectividad incluye los protocolos de comunicación y seguridad
que permiten a los recursos computacionales comunicarse. La seguridad es un
punto muy importante de la computación en Grid por su propia naturaleza
distribuída ya que se comparten recursos entre distintas organizaciones que
pueden tener distintas políticas de seguridad;
• El nivel de recurso se centra en la gestión de un único recurso y permite tener
información y control sobre el mismo.
En este nivel se encuentran los protocolos que permiten obtener la información de un
recurso: las características técnicas, la carga actual, el precio, etc.
También se encuentran los protocolos que permiten el control del recurso: el acceso al
mismo, el arranque de procesos, la gestión, la parada, la monitorización, la
contabilidad de uso y la auditoria del recurso.
La capa de recursos engloba todos los servicios que permiten gestionar un conjunto
de recursos. Se encuentran los servicios de directorio, que permiten localizar los
recursos que son de nuestro interés; los schedulers distribuidos, que permiten asignar
las tareas a cada recurso; la monitorización y diagnóstico de la ejecución de las
distintas tareas en que se distribuyen la ejecución de una aplicación; la contabilidad,
que permite calcular el coste de la utilización de varios recursos heterogéneos, el
acceso a datos distribuidos, etc.
• El último nivel es el de aplicación donde se encuentran los protocolos que
permiten a las aplicaciones el acceso a la infraestructura del Grid a través de
las distintas capas. Según el tipo de aplicación será necesario conectarse a las
18. distintas capas o acceder directamente a una de ellas e incluso a la de
infraestructura.
• El servicio de scheduler distribuido es una de las aplicaciones más complejas
de un desarrollo Grid ya que existen tres scheduler distintos: el planificador de
trabajos (Job Scheduler) que intenta maximizar la cantidad de trabajo realizado
(trabajos por unidad de tiempo), el planificador de recursos que intenta
maximizar el uso de los recursos y el planificador de la aplicación que divide la
aplicación en tareas, asigna los recursos para su ejecución y vigila el desarrollo
de los mismos.
Figura 3 (arquitectura del Grid)
2.2.3 Beneficios de Negocios Asociados al Grid
El concepto de grid encuentra mas cabida en una empresa que tiene una determinada
características que la hacen objetivos prioritarios a la hora de implantar esta
tecnología.
El perfil de las empresas ideales para implantar el concepto de grid sería:
• Empresas con aplicaciones intensivas en poder de procesamiento
19. • Empresas con aplicaciones intensivas en capacidad de almacenamiento
• Empresas con un parque de ordenadores personales amplio y muchos
servidores.
• Empresas con picos o puntas de trabajo
• Empresas con centros dispersos geográficamente
• Empresas con una oferta cambiante y actualizada con frecuencia
• Empresas con aplicaciones que tardan mucho tiempo en ejecutarse
completamente
En el caso de que no nos encontremos en una empresa de estas características, ello
no quiere decir que no podamos implantar un grid sino que no aprovechara totalmente
todas las ventajas que se pueden conseguir con esta nueva tecnología.
Vamos a ir desgranando poco a poco cada uno de los beneficios que podemos ir
extrayendo de la implantación de un grid en una empresa.
El tiempo es oro:
Esta máxima es uno de los principales argumentos al llevar acabo un grid en una
empresa.
Imaginemos el típico caso de una empresa española que tiene que analizar los riesgos
de su cartera. esta cartera tiene un volumen bastante grande y esta compuesto por
activos de todo tipo y en los principales mercados financieros, como New York, Tokio,
etc. el proceso de calculo es sumamente complejo, ya que intervienen infinidad de
variable con cálculos recurrentes según la variación de las hipótesis que se toman con
base para ellos. En definitiva lo que le interesa a la empresa es valorar de la forma
más eficiente los activos que tiene y las posiciones que tiene que afrontar el máximo
partido de su cartera con el mínimo riesgo. Supongamos entonces que los cálculos se
realizasen en un periodo de tres horas.
Este proceso se realiza de madrugada y los resultados son necesarios conocerlos a
las nueve de la mañana. Por lo tanto, se podrán recoger datos de cotizaciones como
mucha hasta las seis de la mañana. En el caso de que en alguno de los mercados
internacionales se cambie la tendencia bruscamente en el espacio de un tiempo en el
que nuestro proceso esta en marcha, nuestros cálculos están partiendo claramente
erróneos. Siguiendo la cadena, los resultados no estarán correctamente calculados, la
información resultante es engañosa.
Para evitar este problema, podremos comprar unas maquinas con mayor poder de
procesamiento, que nos permitan acortar el periodo de calculo del proceso. Por esto
supone un desembolso, la mayor parte de las veces cuantioso. Deberemos por tanto
analizar si el coste que supone la compra de mas maquinas lo podemos repercutir en
20. nuestros negocios sin que por ello perdamos competitividad con respecto a nuestra
competencia. Además contaremos con unas maquinas infrautilizadas en el resto del
tiempo, por que básicamente las utilizamos en pleno rendimiento solamente unas
pocas horas a lo largo del día. Esta solución parece, pues, poco económica.
Pero ¿y si implantamos un grid? podemos utilizar la capacidad de procesamiento de
nuestros PC para crear un súper ordenador virtual durante unas pocas horas y
conseguir reducir el tiempo de calculo de nuestro proceso critico. Con ello no
tendríamos que comprar más hardware, y utilizaríamos convenientemente recursos
que no se están empleando.
Además conseguiremos ventajas competitivas por obtenerlo aun precio menor y mejor
la información disponible para maximizar nuestras inversiones con el menor riesgo
posible.
En definitiva, el tiempo es dinero.
Los procesos de una empresa son mas “gridizables” cuanto mas intensivo sean estos
procesos el poder de procesamiento. Aun más: en el ejemplo anterior, lo ideal seria la
utilización de recursos distribuidos geográficamente, al igual que ocurre en la vida real
en una organización. Es decir, mientras los centros de trabajo de España están
cerrados, en America están en pleno rendimiento, con lo cual en un futuro todavía
lejano, pero mas cercano de lo que podamos imaginar, utilizaremos recursos
separados geográficamente para la consecución de objetivos comunes en nuestra
organización.
La información al instante:
Dentro del amplio especto de las empresas que no nos podemos encontrar hoy en día,
hay algunas que no tienen procesos complejos de cálculo como el caso anterior si no
viven del manejo de trasmisión de información.
Las organizaciones de hoy en día están físicamente ubicadas en un ámbito geográfico
disperso.
Es normal encontrar una organización que tenga un departamento enfocado a la
realización de una determinada actividad distante varios cientos de kilómetros de otro
que desempeña un trabajo diferente. La organización en cu conjunto necesita del
esfuerzo de los dos departamentos para la fabricación de su producto.
Imaginemos para ilustrar este punto en una empresa tiene un amplio conjunto de
delegaciones repartidas por todo el mundo. En cada una de ellas se acomete un
trabajo especifico, con sus propios sistemas de información y con los datos
almacenados en base de datos distintas entre si. Cada una es, por tanto, propietaria
de sus propios datos. La colaboración entre los distintos equipos es fundamental para
la consecución del producto final, por lo tanto es necesario que cada uno de los
21. departamentos comparta la información propia con el resto y además, como en
cualquier proyecto, se necesita una permanente actualización de los datos. No
obstante,
Es necesario mantener unos niveles de seguridad que permitan acceder a la
información únicamente a personas que estén autorizadas para ello.
El problema, pues, se manifiesta al tener que compartir datos entre diferentes
sistemas de almacenamiento con distintas arquitecturas y tener que mantener una
política de actualizaciones constantes junto con la necesidad de implantar una política
de acceso ala información según los diferentes perfiles que se establezcan.
Mediante una data grid es posible implantar un espacio virtual en el que todos los
integrantes de los diferentes equipos en las distintas delegaciones con distintas
arquitecturas tecnológicas accedan como si de un único directorio se tratase. Con la
ventaja de que las actualizaciones se reflejan automáticamente y no es necesaria la
transmisión constante de datos entre diferentes delegaciones.
Además, cada delegación tendrá acceso única y exclusivamente a aquellos datos de
otras que necesite para su trabajo. El beneficio para la empresa proviene de la
utilización de una tecnología barata para compartir la información y también de la
reducción en los tiempos de los proyectos, al integrarlos más rápidamente.
2.2.3.1 Costes flexibles:
Uno de los principales problemas con los que nos encontramos en cualquier empresa
son los costes fijos que tenemos que soportar para la actividad productiva.
La transformación de un coste fijo en variables se convierte una ventaja competitiva.
En cualquier Departamento de Informática de una empresa se tienen en cuenta los
problemas de sobrecapacidad y falta de capacidad. Cuando se adquiere una nueva
maquina, es decir, que se pueda adaptar fácilmente a una demanda de servicios
mayor, también es un problema la sobrecapacidad, esto es, que baje la demanda de
servicios y nos encontraremos con unos equipos infrautilizados,
Para ello, lo ideal seria contar con maquinas virtuales que nos diesen servicio cuando
realmente lo necesitemos.
Además, los recursos con que contamos en una empresa son cada vez más
heterogéneos: distintas arquitecturas, diferentes empresas de software y hardware y
múltiples dispositivos. Según diferentes estudios, nuestra inversión crece diez veces
más rápido en equipos de información que hace cinco años.
El grid proporciona dos grandes ventajas para solucionar estos problemas desde dos
puntos de vista:
• Cubrir puntas o picos de demanda.
22. • Transformar costes fijos en costes variables
Cualquier empresa que tenga un pico de demanda o incluso una demanda cíclica
estacional con épocas de mayor servicio y otras con valles en los que baja su
utilización tiene que disponer de una infraestructura informática que haga frente
siempre al umbral máximo de utilización, ya que, si no, corre el riesgo no de poder
atender las peticiones existentes, con la consiguiente perdida de imagen y negocio.
Para cubrir una demanda desigual, podemos conseguir un grid en el que
planifiquemos la utilización de recursos infrautilizados con el objetivo de dar cobertura
a los procesos que en ese momento lo necesitan.
Figura 4 (Utilización de un grid para cubrir picos de actividad)
Pero aun hay más: en el caso de que no contemos con una amplia base de
ordenadores personales o de servicios que puedan desviarse para cubrir esa
demanda, podemos cubrir a proveedores externos (grig service providers) para que
nos facilite esa capacidad que ahora mismo necesitamos.
Con ello contaremos siempre con un pago por uso, es decir, tanto utilizo tanto pago, y
transformaremos un coste fijo, que es la compra de nuestros equipos, en un coste
variable, que es el alquiler de procesamiento.
Ejemplo de ellos es posible encontrarlo ya hoy en día, con proyectos piloto en Estados
Unidos en los que una gran cadena de venta al por menor de equipos informáticos los
alquila a otras empresas con el objetivo de que consiga mas capacidad de
procesamiento.
23. Pero esta ventaja es muy importante también extrapolarla a la forma que se van ha
calcular los nuevos proyectos que se aborden en la empresa. Por ejemplo, cuando
vayan ha estudiar el lanzamiento de un nuevo producto al mercado podremos calcular
de forma eficiente y real cuanto nos cuesta desde el punto de vista del soporte
informático que es necesario para dar servicio al nuevo lanzamiento y no tener que
hacer estudios complejos que reparte la capacidad existente entre las maquinas que
tenemos. Acudiremos al mercado para ver cuanto nos costaría la capacidad de
procesamiento que necesitamos en este podríamos utilizar la informática como la
electricidad, el agua o cualquier otro de nuestros gastos corrientes.
Desgraciadamente todavía no esta disponible la infraestructura tecnológica y de
comunicaciones que nos permita utilizar el grid como un servicio más de pago por uso,
pero lo que si podemos es crear superordenadores virtuales, con nuestros equipos
para acometer las pautas trabajo sin que aumentemos nuestros costes fijos y
olvidarnos de problemas relacionados con demanda volátiles.
2.2.4 Ventajas y desventajas:
La Computación Grid está creada con el fin de brindar una solución a determinadas
cuestiones, como problemas que requieren de un gran número de ciclos de
procesamiento o acceso a una gran cantidad de datos. Encontrar un hardware y un
software que permitan brindar estas utilidades comúnmente proporciona
inconvenientes de costos, seguridad y disponibilidad. En ese sentido se integran
diferentes tipos de máquinas y de recursos, por lo tanto una red grid nunca queda
obsoleta, todos los recursos se aprovechan. Si se renuevan todas las PCs de una
oficina, se pueden incorporar las antiguas y las nuevas.
Por otra parte, esta tecnología brinda a las empresas el beneficio de la velocidad, lo
que supone una ventaja competitiva, con lo cual se provee una mejora de los tiempos
para la producción de nuevos productos y servicios.
Facilita la posibilidad de compartir, acceder y gestionar información, mediante la
colaboración y la flexibilidad operacional, aunando no sólo recursos tecnológicos
dispares, sino también personas y aptitudes diversas. Otro de los aspectos al que se
tiende es a incrementar la productividad otorgando a los usuarios finales acceso a los
recursos de computación, datos y almacenamiento que necesiten, cuando los
necesiten.
Con respecto a la seguridad en la grid, ésta está sustentada con las “intergrids”, donde
esa seguridad es la misma que ofrece la red Lan sobre la cual se utiliza tecnología
grid.
24. El paralelismo puede estar visto como un problema, ya que una máquina paralela es
muy costosa. Pero, si tenemos disponibilidad de un conjunto de máquinas
heterogéneas de pequeño o mediano porte, cuya potencia computacional sumada sea
considerable, eso permitiría generar sistemas distribuidos de muy bajo costo y gran
potencia computacional.
Grid computing necesita, para mantener su estructura, de diferentes servicios como
Internet, conexiones de 24 horas, los 365 días, con banda ancha, servidores de
capacidad, seguridad informática, VPN, firewalls, encriptación, comunicaciones
seguras, políticas de seguridad, normas ISO, y algunas características más… Sin
todas estas funciones y características no es posible hablar de Grid Computing.
La tolerancia a fallos significa que si una de las máquinas que forman parte del grid
colapsa, el sistema lo reconoce y la tarea se reenvía a otra máquina, con lo cual se
cumple el objetivo de crear infraestructuras operativas flexibles y resistentes.
Actualmente, hay cinco aplicaciones generales para la Computación Grid:
• Súper computación distribuida.
Son aquellas aplicaciones cuyas necesidades no pueden ser satisfechas en un único
nodo. Las necesidades se producen en instantes de tiempo determinados y consumen
muchos recursos.
• Sistemas distribuidos en tiempo real.
Son aplicaciones que generan un flujo de datos a alta velocidad que debe ser
analizado y procesado en tiempo real.
• Servicios puntuales.
Aquí no se tiene en cuenta la potencia de cálculo y capacidad de almacenamiento sino
los recursos que una organización puede considerar como no necesarios. Grid
presenta a la organización esos recursos.
• Proceso intensivo de datos.
Son aquellas aplicaciones que hacen un gran uso del espacio de almacenamiento.
Este tipo de aplicaciones desbordan la capacidad de almacenamiento de un único
nodo y los datos son distribuidos por todo el grid. Además de los beneficios por el
incremento de espacio, la distribución de los datos a lo largo del grid permite el acceso
a los mismos de forma distribuida.
• Entornos virtuales de colaboración.
Área asociada al concepto de Teleinmersión, de manera que se utilizan los enormes
recursos computacionales del grid y su naturaleza distribuida para generar entornos
virtuales 3D distribuidos.
25. Existen aplicaciones reales que hacen uso de mini-grids, las cuales están centradas
en el campo de la investigación en el terreno de las ciencias físicas, médicas y del
tratamiento de la información. Además existen diversas aplicaciones en el campo de la
seguridad vial. Por ejemplo, este sistema permite traducir el riesgo de herir a un
peatón y la resistencia del parachoques de un vehículo en una serie de datos que
ayudan a diseñar la solución de protección más adecuada.
Entre los primeros proyectos grid, surge Information Power Grid (IPG), que permite la
integración y gestión de recursos de los centros de la NASA. El proyecto SETI@Home
a nivel mundial, de investigación de vida extra-terrestre, o búsqueda de vida inteligente
en el espacio, puede ser considerado como precursor de esta tecnología, si bien la
idea de Grid Computing es mucho más ambiciosa puesto que no sólo se trata de
compartir ciclos de CPU para realizar cálculos complejos sino que se busca la
creación de una infraestructura de computación distribuida, con interconexión de
diferentes redes, de definición de estándares, de desarrollo de procedimientos para la
construcción de aplicaciones, etc.
Características
• Capacidad de balanceo de sistemas: no habría necesidad de calcular la
capacidad de los sistemas en función de los picos de trabajo, ya que la
capacidad se puede reasignar desde la granja de recursos a donde se
necesite;
• Alta disponibilidad. con la nueva funcionalidad, si un servidor falla, se reasignan
los servicios en los servidores restantes;
• Reducción de costes: con esta arquitectura los servicios son gestionados por
"granjas de recursos". Ya no es necesario disponer de "grandes servidores" y
podremos hacer uso de componentes de bajo coste. Cada sistema puede ser
configurado siguiendo el mismo patrón;
Se relaciona el concepto de grid con la nueva generación de Internet. El nuevo
protocolo de Internet IPv6 permitirá trabajar con una Internet más rápida y accesible.
Una de las ideas clave en la superación de las limitaciones actuales de Internet IPv4
es la aparición de nuevos niveles de servicio que harán uso de la nueva capacidad de
la red para intercomunicar los ordenadores.
Este avance en la comunicación permitirá el avance de las ideas de grid computing al
utilizar como soporte la altísima conectividad de Internet. Es por ello que uno de los
campos de mayor innovación en el uso del grid computing, fuera de los conceptos de
supercomputación, es el desarrollo de un estándar para definir los Grid Services frente
a los actuales Web Services.
26. 2.2.4.1 Desventajas:
No obstante, la computación grid presenta algunos inconvenientes que deben
solucionarse. Estos problemas son:
• Recursos heterogéneos: la computación grid debe ser capaz de poder manejar
cualquier tipo de recurso que maneje el sistema, si no resultará totalmente
inútil.
• Descubrimiento, selección, reserva, asignación, gestión y monitorización de
recursos son procesos que deben controlarse externamente y que influyen en
el funcionamiento del grid.
• Necesidad de desarrollo de aplicaciones para manejar el grid, así como
desarrollo de modelos eficientes de uso.
• Comunicación lenta y no uniforme.
• Organizativos: dominios de administración, modelo de explotación y costes,
política de seguridad...
2.2.4.2 Ventajas y requisitos
En definitiva, grid supone un avance respecto a la World Wide Web:
El World Wide Web proporciona un acceso transparente a información que está
almacenada en millones de ordenadores repartidos por todo el mundo. Frente a ello, el
grid es una infraestructura nueva que proporciona acceso transparente a potencia de
cálculo y capacidad de almacenamiento distribuida por una organización o por todo el
mundo.
Los requisitos que debe cumplir cualquier grid son:
Los datos deben compartirse entre miles de usuarios con intereses distintos. Se deben
enlazar los centros principales de supercomputación, no sólo los PC. Se debe
asegurar que los datos sean accesibles en cualquier lugar y en cualquier momento.
Debe armonizar las distintas políticas de gestión de muchos centros diferentes. Debe
proporcionar seguridad.
Y los beneficios que se obtienen:
27. • Proporciona un mecanismo de colaboración transparente entre grupos
dispersos, tanto científicos como comerciales.
• Posibilita el funcionamiento de aplicaciones a gran escala.
• Facilita el acceso a recursos distribuidos desde nuestros PC.
• Todos estos objetivos y beneficios se engloban en la idea de "e-Ciencia".
Estos beneficios tendrán repercusión en muchos campos:
• Medicina (imágenes, diagnosis y tratamiento).
• Bioinformática (estudios en genómica y proteómica).
• Nanotecnología (diseño de nuevos materiales a escala molecular).
• Ingeniería (diseño, simulación, análisis de fallos y acceso remoto a
instrumentos de control).
• Recursos naturales y medio ambiente (previsión meteorológica, observación
del planeta, modelos y predicción de sistemas complejos).
La tecnología derivada del grid abre un enorme abanico de posibilidades para el
desarrollo de aplicaciones en muchos sectores. Por ejemplo: desarrollo científico y
tecnológico, educación, sanidad, y administración pública.
Figura 5 (aplicación del grid en la bioinformática).
28. 2.3 Estado del Arte
En la actualidad existen diferentes proyectos que resuelven problemas
utilizando la grid computing, por lo que se desarrollarán aquellos que
específicamente realizan esta clase de computación.
2.3.1 Proyectos BOINC:
Como se ha mencionado en el punto 1.2.4, BOINC es un software
intermedio que conecta diversos servicios que hacen posible la computación
voluntaria. Se han desarrollado diversos proyectos que utilizan esta tecnología para
poder captar capacidad de procesamiento ociosa en el mundo entero y poder
procesar la gran cantidad de información que cada uno de estos proyectos
posee. Entre los proyectos más importantes tenemos:
2.3.2 SETI@Home:
Por sus siglas en inglés, Búsqueda de Inteligencia Extraterrestre, es el
proyecto por el cual BOINC fue creado, para salvaguardar algunos aspectos de
seguridad y de control de los resultados que eran enviados por los usuarios
pertenecientes a la red.
SETI es una red científica liderada por el David Anderson, que también lidera el
equipo encargado de BOINC, cuya meta es la detección de vida inteligente fuera de
nuestro planeta. El proyecto posee radio telescopios que monitorean el espacio
captando ondas de radio de banda estrecha, las cuales se saben, no ocurren de
forma natural, por lo que su detección sería una evidencia de tecnología
extraterrestre.
Las señales de los radiotelescopios consisten en ruidos provenientes de fuentes
celestiales y señales producidas por el hombre. Los proyectos de radio SETI se
encargan del análisis de estas señales, las cuales se procesan digitalmente, por
lo que una potencia mayor de cálculo permite que la búsqueda cubra un mayor
rango de frecuencias con una mayor sensibilidad.
Inicialmente estos cálculos se realizaban mediante computadoras en los mismos
radiotelescopios, las cuales se encargaban de procesar la mayor cantidad de
información. En 1995, David Geyde, propuso que radio SETI tuviera una
29. supercomputadora virtual conectada a través de Internet. El proyecto
SETI@Home fue lanzado en mayo de 1999.
El proyecto SETI@Home posee diversos recursos computacionales, como servidores
de base de datos para información de usuarios, listas, unidades de trabajo, resultados,
información procesada; servidores web para el hosting de la web del proyecto.
Cada uno de estos servicios está dividido en 10 servidores, la mayoría de los
cuales utilizan tecnología Intel.
Entre los principales patrocinadores del proyecto se encuentran:
• The Planetary Society
• Sun Microsystems
• Intel
• ProCurve Networking
• SnapAppliance
• Quantum
• XILINX
Figura 6 (proyecto seti@home)
30. 2.3.3. EINSTEIN@Home
Al igual que SETI@Home, EINSTEIN@Home es un proyecto de computación
voluntaria que analiza ondas gravitacionales producidas por fuentes de ondas
continuas, las cuales pueden incluir púlsares. El nombre proviene del científico
alemán, Albert Einstein, quien a principios del siglo XX predijo la ocurrencia de estas
ondas gravitacionales.
El proyecto fue lanzado oficialmente el 19 de Febrero del 2005 como
contribución por parte de la Sociedad Americana de Física para el World Year of
Physics 2005.
El objetivo científico del proyecto es la búsqueda de fuentes de radiación
gravitacional de onda continua. El éxito en la detección de ondas gravitacionales
constituiría un hito importante en la física, ya que nunca antes se ha detectado un
objeto astronómico únicamente por radiación gravitacional.
La información es obtenida mediante dos fuentes, por el Laser Interferometer
Gravitational-Wave Observatory, y mediante GEO 600, otro detector de ondas
gravitacionales.
2.3.4. Rosetta@Home:
Es un proyecto orientado a determinar las formas tridimensionales de las
proteínas a través de investigaciones científicas experimentales que a la larga
podrían llevar a descubrir curas para las más grandes enfermedades humanas, como
el VIH, la malaria y el cáncer.
Todos los proyectos antes mencionados son parte de la computación voluntaria,
donde usuarios al rededor del mundo donan su tiempo de cómputo desperdiciado a
diversos proyectos, los cuales pueden ser elegidos, por ejemplo, por interés en el
tipo de proyecto planteado.
Otros proyectos
Muchos otros proyectos, en distintas áreas de investigación, utilizan la
tecnología BOINC, donde cabe destacar los siguientes:
• Matemáticas, Juegos de Estrategia, 3D, Informática
• SZTAKI DesktopGrid
• Chess960@Home
• Rectilinear Crossing Number
• Riesel Sieve
31. • VTU@Home
• Render Farm
• Prime Grid
• Xtrenelab
• ABC@Home
• DepSpi
• Biología y Medicina
• Malariacontrol.net
• Predictor@Home
• World Community Grid
• SIMAP
• Tanpaku
• Ralph@Home
• Docking@Home
• Project Neuron
• Proteins@Home
• Astronomía, Física y Química
• QMC@Home
• LHC@Home
• Spinhenge@Home
• Leiden Classical
• Hash Clash
• Ufluids
• Orbit@Home
• Ciencias de la Tierra
• Climateprediction
• BBC Climate Change Experiment
• Seasonal Attribution Project
2.3.5 Terracota
Terracota es una infraestructura de software open source que permite ejecutar
una aplicación hecha en Java en cuantos computadores sean necesarios para tal
fin, sin tener que elaborar un código específico para poder ser ejecutado en un cluster
convencional.
32. La arquitectura de Terracota tiene dos elementos principales, los nodos cliente y el
Terracota Server Array.
Cada nodo cliente corresponde a un proceso Java dentro del cluster. Estos nodos
ejecutan una Máquina Virtual Java estándar, logrando cargar a Terracota
mediante sus librerías; todo esto ocurre cuando la Máquina Virtual Java se inicializa.
El Terracota Server Array provee una inteligencia de clustering tolerante a fallos,
además de instalaciones de alto rendimiento. Cada instancia del Servidor
Terracota dentro del array es 100% procesos Java.
Terracota utiliza la tecnología Network-Attached Memory (NAM) para permitir
realizar el clustering con Máquinas Virtuales Java. Terracota es la Máquina
Virtual Java para la aplicación a ejecutar dentro del cluster, mientras que para
la verdadera Máquina Virtual Java, Terracota es la aplicación.
Figura 7 (La Arquitectura Terracota)
Con Terracota, un cambio en una Máquina Virtual Java se ve reflejado casi
instantáneamente en las demás máquinas virtuales que necesitan saber del cambio
producido.
2.3.6 The Globus Toolkit
The Globus Toolkit es un conjunto de módulos independientes de código abierto
elaborados para el desarrollo de servicios orientados a las aplicaciones de
computación distribuida, permitiendo a personas compartir poder computacional,
33. bases de datos, y otras herramientas, de forma segura a través de los límites de
corporaciones e instituciones, sin sacrificar autonomía geográfica
El toolkit se basa en tecnologías estándar como XML, SOAP, WSDL, Web
Services Resource y ha sido implementado íntegramente en Java.
Globus Toolkit intenta proporcionar un sistema de componentes estándar que pueda
dar soporte a una gran variedad de aplicaciones personalizadas sin la necesidad de
desarrollar completamente una infraestructura a medida para cada aplicación. No
proporciona una solución “lista para usar”, sino que proporciona bloques
constructivos y herramientas estándares para ser usados por los desarrolladores e
integradores del sistema.
2.3.7 Sun Grid Engine
El Sun Grid Engine es un esfuerzo de la comunidad open source para la adopción de
soluciones de computación distribuida. El proyecto Grid Engine proporciona software
para la gestión de recursos distribuidos para grandes necesidades de potencia
computacional.
El proyecto nace a partir de la compra, por parte de Sun Microsystems, de Gridware,
un desarrollo privativo de Gestión de Recursos Distribuidos, DRM por sus siglas en
ingles.
Dentro de las misiones que han sido tomadas como horizonte dentro del proyecto, se
tiene:
• Brindar tecnología de punta en Grid Engine.
• Establecer estándares para guiar a la comunidad en computación
distribuida.
• Permitir que desarrolladores puedan crear innovadores servicios y
aplicaciones a través de ambientes computacionales distribuidos y
heterogéneos.
El software Transfer-queue Over Globus (TOG) permite a las empresas acceder a
recursos computacionales a través de su existente instalación de Grid Engine. TOG
integra Grid Engine 5.3 y el Globus Toolkit.
El Globus Toolkit es esencialmente una API que permite interconectar recursos
computacionales. La integración con Globus, permite a Grid Engine, soportar la
colaboración entre empresas, permitiendo a cada una de ellas acceder a recursos
remotos que cada una posee.
TOG ha sido utilizado para crear proyectos de computación en grid entre las
universidades de Glasgow y Edimburgo, en el Reino Unido.
34. CAPITULO III: CASOS DE ÉXITO
3.1 Casos en Formato Texto
El apoyo de la industria
La computación distribuida empezó a ser escalada a niveles globales con la madurez
de Internet en los años 90. Dos proyectos en particular han demostrado que el
concepto es totalmente viable y eficiente, incluso más de lo que los expertos
auguraban en un principio.
El primero de estos proyectos revolucionarios, conocido por Distributed.net, emplea
miles de ordenadores distintos para crackear códigos de encriptación (RC5-64, CSC,
DES-III, DES-II-1, DES-II-1, RC5-56, etc.).
El segundo y más popular de todos los proyectos de computación distribuida de la
historia es SETI@home, cuyo objetivo, hasta su finalización en diciembre de 2005, era
la búsqueda de vida extraterrestre mediante la detección de su tecnología de
comunicaciones, buscando patrones que demuestren inteligencia en las ondas de
radio procedentes del espacio. La potencia global de todos los terminales participantes
ha sido enorme; en concreto, se han conseguido un total acumulado de dos millones
de años de tiempo de CPU, alrededor de 50 TB de datos y cinco millones de usuarios.
Recientemente, el proyecto se ha integrado en Berkeley Open Infrastructure for
Network Computing (BOINC), una iniciativa con objetivos similares.
La paulatina entrada de grid computing en el mundo de los negocios está siendo
posible gracias al respaldo que la tecnología está consiguiendo de un buen número de
fabricantes, y a su implicación en el proceso de estandarización. Este apoyo
contribuirá a la disponibilidad de una mayor oferta de herramientas comerciales
basadas en estándares.
En los últimos años, grid ha conseguido el compromiso de firmas como, entre otras
muchas, IBM, Platform Computing, Sun, SAS, Oracle, CA, EMC, NetApp y HP, que
están adaptando su oferta para soportar la tecnología mediante desarrollos propios y
alianzas. Sirva como ejemplo el acuerdo de licenciamiento de software establecido
recientemente entre IBM y Univa, startup de software grid de código abierto. Univa fue
fundada en diciembre de 2004 por Steve Tuecke, Ian Foster y Carl Kesselman, los
creadores en 1995 del Globus Project (más tarde rebautizada como Globus Alliance),
del que surgió Globus Toolkit. La oferta de la compañía, que prepara el lanzamiento
del que será su primer producto comercial (Univa Globus Enterprise), se basa en
35. implementaciones comerciales del Kit., que incluye librerías y servicios de software
para monitorizar, descubrir y gestionar recursos, así como gestión de archivos y
seguridad. Este modelo de grid computing guarda ciertos paralelismos con el
desarrollo de Linux, con Globus Toolkit jugando el papel de sistema operativo de
código abierto y Univa el de compañías de distribución del tipo de Red Hat o SuSE de
Novell para crear soluciones comerciales dirigidas al mundo de la empresa. La
popularidad alcanzada por la pila LAMP de código abierto (Linux, Apache, MySQL y
PHP o Perl) anima a los defensores de grid computing a considerar la inclusión en el
“paquete” de Globus Toolkit, lo que daría a esta tecnología una muy buena
oportunidad comercial.
En el mundo del código propietario destaca la compañía United Devices, una de las
pioneras en productos y servicios grid. Su objetivo es desarrollar programas que
cubran todo tipo de áreas de interés para empresas y usuarios, como aplicaciones
financieras y de biotecnología, y establecer modelos de negocio en los que se compre
la potencia de cálculo de otros usuarios para poder resolver los distintos problemas. La
plataforma Grid MP de United Devices se basa en protocolos e interfaces estándares
(TCP/IP, HTTP, Servicios Web…) para que las empresas puedan emplear sus
aplicaciones en un entorno grid formado por sus tradicionales plataformas Intel PC
ejecutando sistemas operativos Linux o Windows. Con Grid MP es mucho más sencillo
adaptar las aplicaciones al grid que mediante el Globus Toolkit, además de ofrecer
servicios mucho más potentes, si bien tiene la desventaja de que no es de código
abierto y es necesario, por lo tanto, comprar el producto.
En el proceso de estandarización de grid computing, el ya citado Global Grid Forum
(GFC), con más de 400 organizaciones miembros, juega un papel esencial. A través
de sus grupos de trabajo, define especificaciones de grid, en colaboración con otros
cuerpos de estandarización, y actúa como punto mundial de intercambio de ideas y
experiencias sobre la tecnología.
Como fiel reflejo de la paulatina entrada de grid computing en los entornos
empresariales, durante los últimos años un buen número de organizaciones
comerciales de distintos sectores se están incorporando a GGF (Global Grid Forum).
La intención no es otra que llevar el grid a este nuevo escenario, y para ello los grupos
de trabajo de GGF se han implicado en el desarrollo de las especificaciones y las
mejores prácticas para su aplicación en general y en el ámbito específico de cada
industria. Por ejemplo, hay un grupo de grid para las ciencias de la salud que observa
los asuntos relacionados con la integración de las TI con estas ciencias dentro de una
infraestructura de computación distribuida. Un servicio relacionado con el ámbito
sanitario podría usar las especificaciones generales en la arquitectura de la red de
36. computación en grid, pero también tendría que alcanzar los estándares necesarios
para este ámbito y que son exclusivos del mismo.
Una organización fundamental para el desarrollo de estándares de grid es la Globus
Alliance, que ha desarrollado Globus Toolkit sobre la arquitectura basada en servicios
Web OGSA (Open Grid Services Architecture). Globus Toolkit, basado en software de
código abierto, proporciona un conjunto de herramientas de programación Java
(librerías, servicios y API) para desarrollar sistemas y aplicaciones grid basándose en
sus servicios y capacidades básicas, tales como la seguridad, la localización y gestión
de los recursos y las comunicaciones.
Con un enfoque específico en el mundo de la empresa, en abril de 2004 se creó EGA
(Enterprise Global Alliance), que cuenta con comités regionales en Europa y Japón. En
colaboración con Global Grid Forum, Globus y entidades como DMTF (Distributed
Management Task Force), OASIS, W3C, SNIA, su actividad gira alrededor de cinco
grupos de trabajo para solucionar áreas técnicas especificas, como aprovisionamiento
de datos y componentes, seguridad y facturación.
El pasado mes de mayo, EGA anunció el primer modelo de referencia (Reference
Model) de la industria para los grids de empresa, que sienta las bases de las
soluciones estandarizadas. El modelo establece los requerimientos necesarios para
acelerar la adopción de grids computing e incluye un glosario para estandarizar la
terminología, un modelo de gestión y del ciclo de vida de los componentes y un
conjunto de entornos de aplicación. Al igual que todos los desarrollos de EGA, el
Reference Model es independiente de fabricantes, tecnologías e implementaciones, y
es fruto del consenso de la industria sobre las funciones básicas del grid computing en
la empresa.
A este primer lanzamiento le siguió el pasado mes de julio la publicación del
documento Enterprise Grid Security Requirements, que aporta a los usuarios la
información necesaria para evaluar y tomar decisiones de gestión de riesgos para el
despliegue de grids de empresa. Creado sobre el Reference Model, recoge las
conclusiones técnicas del Grid Security Working Group acerca de los riesgos y retos
inherentes a una grid computing de empresa, ofreciendo un conjunto de
requerimientos de seguridad para el desarrollo de productos y la configuración de
sistemas. El documento sienta las bases de la colaboración entre organizaciones para
ayudar a eliminar las actividades de desarrollo de estándares redundantes y derribar
más rápidamente las barreras a la adopción.
También es de destacar como una de las iniciativas de la industria por potenciar la
entrada de grid en los entornos de negocio el proyecto MegaGrid, que cuenta con la
participación de Dell, EMC, Intel y Oracle. Los cuatro fabricantes, miembros todos ellos
37. de EGA, combinarán sus tecnologías para desarrollar un modelo de diseño e
implementación de infraestructura de informática grid corporativa. La fase inicial del
proyecto se centra en el diseño, prueba y elaboración de documentación sobre las
mejores prácticas efectivas de la industria para posteriormente, definir infraestructuras
de grid computing más eficientes en coste y rendimiento. Para determinar cuáles son
las mejores prácticas se realizarán pruebas de escalabilidad, rendimiento y capacidad
de gestión sobre un amplio abanico de diferentes configuraciones de almacenamiento
en red, servidores y bases de datos. La infraestructura de trabajo será diseñada,
configurada y validada en el Oracle Global IT Data Center.
Entre los casos de éxito de despliegue de grid computing en entornos de negocio se
encuentra, en España, el SCH. Es precisamente el sector financiero uno de los mayor
partido pueden sacar de grid para cálculos financieros complejos. Bank of America
asegura haber ahorrado decenas de millones de dólares en tres años con la
tecnología. La entidad la utiliza para calcular riesgo complejos, con la ventaja que
supone que el fallo de un componente no hace peligrar la caída del sistema en su
totalidad y, sobre todo, de poder mejorar enormemente su nivel de uso. En la
actualidad la utilización de sus servidores centrales es del 90%, 24 horas al día, y su
escalabilidad mediante blades está garantizada.
Otro sector especialmente indicado para grid es el farmacéutico. Novartis AG, gracias
a una inversión de 400.000 dólares en tecnología grid de United Devices, ha obtenido
ahorros de más de 2 millones de dólares. Mediante la integración de 2.700 PC con
procesador Intel Pentium 4 ha conseguido una potencia de cálculo superior a los 5
Teraflops, que ha sido fundamental para acelerar el desarrollo de sus nuevos
fármacos.
3.2 Casos en Formato Video.
• El proyecto seti@home
• Itaca ibergrid 2009
38. CAPITULO IV: CONCLUSIONES Y RECOMENDACIONES
4.1 Conclusiones
• En resumen Grid Computing es un sistema que permite compartir sistemas de
calculo
• En conclusión Grid Computing es una de las tecnologías que causan un
impacto en la vida cotidiana, por sus distintas aplicaciones que nos hacen ver
con otras perspectivas la solución de problemas, debido a diversas
limitaciones tecnológicas y que con el desarrollo de esta permite ver con otro
panorama los nuevos problemas de la ciencia entre otras ramas más
• En conclusión Grid Computing se ha convertido en una de las herramientas
mas importantes en ámbito de la competitividad para casi todas las empresas
ya que esta le permite tomar decisiones con mayor asertividad.
• En general la aplicación de Grid Computing tiene importancia en la relación de
la vida diaria así como en la ciencia gracias a su amplio poder de
procesamiento para desarrollar y dar soluciones a problemas sociales y
científicos que requieran una mayor cantidad de procesamiento
• La difusión de entornos de aplicación Grid permitirá el uso de recursos
computacionales que se encontraban fuera del alcance de las organizaciones,
lo que tendrá un alto impacto de desarrollo propicio para implementaciones
científicas a gran escala e integración de servicios entre sectores
empresariales.
• La implementación de tecnologías Grid permite resolver una gran cantidad de
problemas a través de la integración de múltiples organizaciones, lo que
significa no solo un ahorro de costos y tiempo sino que garantiza la calidad,
gestionando la información de manera que se pueda involucrar aquellas
organizaciones que cumplan los requisitos apropiados.
39. 4.2 Recomendaciones
• Para un mejor entendimiento en “BENEFICIOS DE NEGOCIOS ASOCIADOS
AL GRID” es recomendable adquirir el libro E-Business Colaborativo de los
autores :
o Eduardo Munilla Calvo
o Ignacio García Valcárcel
Ya que en esta monografía no se pudo abarcar dicho tema por las limitaciones
que Google Books pone para poder visualizar el libro completo debido a los
derechos del autor.
• Es recomendable leer acerca de MI RED NUNCA SE CAE que es uno de los
mejores beneficios que trae Grid Computing para un mayor concepto acerca
de las ventajas que trae esta tecnología informática, ya que no se pudo
abarcar este tema en la monografía por las diversas limitaciones que hubo.
• Seria beneficioso para su conocimiento sobre la Grid Computing que se
conecten a una de las diversas Grid que existen en apoyo a la ciencia,
matemática, biología, etc. Ya que de esta forma apreciarían con mayor claridad
como funciona una Grid y también se podría conocer una de sus muchas
aplicaciones que tiene dicha tecnología informática.
• Para conocer más acerca de los sistemas compartidos es indispensable que se
estudie todo acerca de PEER-TO-PEER (p2p) y los CLUSTER para garantizar
una comprensión y un manejo de información idóneo acerca de Grid
Computing.
40. Referencias Bibliográficas
• Bibliografía Especializada
1. [Pagina 187 ] Eduardo Munilla Calvo “E-Business Colaborativo”
Editorial FC Madrid, España, 2003
2. [Pagina 19 ] Martín Alberto Ibérico Hidalgo
“ADMINISTRADOR DE PROYECTOS DE GRID
COMPUTING QUE HACEN USO DE LA CAPACIDAD
DE CÓMPUTO OCIOSA DE LABORATORIOS
INFORMÁTICOS”, PUCP, Tesis para optar por
el Título de Ingeniero Informático, Lima, 2009
• Revistas Especializadas
1. [Pagina 51] “Revista sistemas 96”
2. [Pagina 11] “MITSloan Management Review” Gestion de
sistemas informaticos, 15 de octubre del 2004
3. [Pagina 14] “PC WORLD”, editora latin america, Perú, 2009.
4. [Pagina 18] “software guru”, editora Tijuana, Mexico, 2009
• Direcciones Electrónicas
[www 1] http://www.acis.org.co/fileadmin/Revista_98/4_Uno.pdf
[www 2] http://translate.google.com.pe/translate?hl=es&langpair=en|
es&u=http://sloanreview.mit.edu/the-magazine/1999-spring/46114/grid-
computing/
[www 3] http://cristophermoquillaza.blogspot.com/2009/09/sistema-
informatica-grid-grid-computing.html
[www 4] http://www.linuxzone.es/2011/08/19/tu-tambien-puedes-colaborar-en-
grandes-proyectos-con-bonic/
[www 5] http://es.scribd.com/doc/53024314/Marcto-Teorico-Grid-Computing
[www 6] http://www.ramonmillan.com/tutoriales/gridcomputing.php
[www 7 ] http://grid.ifca.unican.es/cursos/presentaciones/DB_GRID.ppt
[www 8] http://www.vnunet.es/Actualidad/An%C3%A1lisis/Infraestructura
[www 9] http://people.freebsd.org/~brooks/pubs/usebsd2004/fbsdgrids.pd
[www 10] http://server11.infn.it/workload-grid/docs/DataGrid-01-D1.2-0112-0- 3.pd
[www 11] http://www.lip.pt/computing/projects/crossgrid/doc/DataGridOverview.pdf
[www 12] http://www.crossgrid.org
[www 13] http://asds.dacya.ucm.es/jlvazquez/files/081004GT4slides.pdf
[www 14] http://www.rediris.es/rediris/boletin/66-67/ponencia2.pdf
41. ANEXOS
ANEXO A:(titulo DE TU ANEXO)
La mayoría de las empresas hoy en día se utiliza muy poco de la potencia de cálculo
disponible a través de las máquinas y el software que ya posee. PCs, servidores y
mainframes todos se sientan ociosos gran parte del tiempo, mientras que las personas
que los operan son fuera de la oficina o la planta. Y como un reciente estudio de IBM
Corp. señala, esto es un problema importante al menos por tres razones. En primer
lugar, las empresas están continuamente le pide que haga más con menos, pero
parece que no puede romper el ciclo de aumento de las necesidades de
infraestructura y costos. En segundo lugar, hay mucho valor encerrado en la
infraestructura que las empresas como para liberar la esperanza de que pudiera
cambiar la forma de hacer negocios. Y en tercer lugar, hay una presión continua sobre
las funciones de TI para hacer frente a una cartera de proyectos y para ayudar a
implementar nuevas capacidades comerciales (Desau, 2003). Afortunadamente, hay
una solución a esta sub-utilización de la infraestructura informática. En la actualidad,
es bastante fácil de lograr un 60% a 70% de utilización en un mainframe, pero la
mayoría de las empresas están utilizando sólo el 15% al 20% del total de sus recursos
informáticos a través de toda su infraestructura. Pero con la nueva práctica de grid
computing, las empresas podrían alcanzar un 90% en un futuro próximo.
Grid computing es una colección de recursos de computación distribuida (memoria,
procesamiento y tecnología de la comunicación) disponibles a través de una red que
aparece, a un usuario final, como un gran sistema de computación virtual. De forma
dinámica los vínculos distantes computadoras y recursos de computación a través de
Internet o una red privada virtual sobre la base de las necesidades. En esencia,
proporciona potencia de cálculo de la demanda, al igual que un servicio público.
A nivel de la tecnología, la computación grid está estrechamente relacionada con
(P2P) peer-to-peer. Hace unos años, el P2P se ve como una forma para que los
usuarios compartir archivos directamente (usando Napster, por ejemplo), hoy en día
permite que diferentes tipos de ordenadores y dispositivos para comunicarse
directamente entre sí, sin un servidor en el centro. P2P se convertirá en una parte
fundamental de la forma de computación distribuida (otro nombre para grid computing)
se desarrolla a través de Internet y cómo las empresas a construir sistemas de
distribución interna (Fontana, 2002). En abril de 2002, el Global Grid Forum, un grupo
fundado por académicos e investigadores para establecer los estándares para grid
computing, se fusionó con el Grupo de Trabajo P2P, una colaboración más grande de
42. las universidades y las empresas. En conjunto, la esperanza de casarse con el trabajo
del foro en los servidores de aprovechar la red de p2p, con la posibilidad de conectar
equipos de escritorios de la misma manera.
ANEXO B: Middleware
De todas estas capas, la más interesante es el middleware, el auténtico
cerebro del grid, que se ocupa de las siguientes funciones:
• Encontrar el lugar conveniente para ejecutar la tarea solicitada por el
usuario.
• Optimizar el uso de recursos que pueden estar muy dispersos.
• Organizar el acceso eficiente a los datos.
• Autenticar los diferentes elementos.
• Ejecutar las tareas.
• Monitorizar el progreso de los trabajos en ejecución.
• Gestionar automáticamente la recuperación frente a fallos.
• Avisar cuando se haya terminado la tarea y devolver los resultados.
El middleware está formado por muchos programas software; algunos de estos
programas actúan como agentes (agents) y otros como intermediarios
(brokers), negociando entre sí, de forma automática, en representación de los
usuarios del grid y de los proveedores de recursos. Un elemento fundamental
del middleware son los meta datos (datos sobre los datos), que contienen,
entre otras cosas, toda la información sobre el formato de los datos y dónde se
almacenan (a veces en varios sitios distintos). Los agentes individuales
presentan la meta datos referidos a los usuarios, datos y recursos.
ANEXO C: El Grid en los centros académicos y de investigación:
La computación distribuida empezó a ser escalada a niveles globales con la madurez
de Internet en los años 90. Dos proyectos en particular han demostrado que el
concepto es totalmente viable y eficiente, incluso más de lo que los expertos
auguraban en un principio: Distributed.net y SETI@home.
Distributed.net emplea miles de ordenadores distintos para crackear códigos de
encriptación (RC5-64, CSC, DES-III, DES-II-1, DES-II-1, RC5-56, etc.). Fundado en
43. 1997, el proyecto ha crecido hasta abarcar hoy en día más de 60.000 usuarios
alrededor de todo el mundo. El poder de cómputo de Distributed.net ha ido creciendo
hasta llegar a ser el equivalente a más de 160.000 computadoras PII 266MHz
trabajando 24 horas al día, 7 días a la semana, y 365 días al año.
SETI@home ha sido el proyecto de computación distribuida más popular de la
historia, cuyo objetivo era la búsqueda de vida extraterreste mediante la detección de
su tecnología de comunicaciones, buscando patrones que demuestren inteligencia en
las ondas de radio procedentes del espacio. Para ello, cualquier persona que quisiera
colaborar podía descargarse un salvapantallas gratuito (de este modo aprovechaba los
ciclos del ordenador sólo cuando éste no estaba en uso), que instalado en su
ordenador analiza señales del espacio captadas con el radiotelescopio de Arecibo en
Puerto Rico. El software se hizo público el 17 de mayo del 1999 y, desde entonces
hasta su finalización el 15 de diciembre de 2005, más de 5 millones de voluntarios han
instalado el programa en su ordenador, se han conseguido un total acumulado de dos
millones de años de tiempo de CPU y se han analizado alrededor de 50 TB de datos,
convirtiendo al proyecto en el mayor computador virtual de la historia de la humanidad
por análisis realizados. En la actualidad, SETI@Home sigue en funcionamiento pero
integrado en BOINC (Berkeley Open Infrastructure for Network Computing), un
proyecto basado en recursos de redes abiertas con los mismos principios que el
proyecto original. La nueva infraestructura continuará con la búsqueda de señales de
radio extraterrestres, pero ahora además la potencia de CPU de los participantes se
dedicará también a investigar sobre otras tareas, como el cambio climático, la
astronomía y la cura de enfermedades.
El sector más involucrado en todo el mundo en la puesta a punto de plataformas grid
en el desarrollo de aplicaciones adaptadas a esta nueva tecnología es, sin lugar a
dudas, el de la investigación. En España las principales universidades e instituciones
de investigación han participado intensamente en diversos proyectos sobre grid, tanto
nacionales como internacionales, entre otros: “IRISGrid”, “Damien", “HealthGrid”,
“CrossGrid”, “Enabling Grids for e-Science in Europe”,
44. APENDICES
Apéndice I: Revisando el futuro de la Grid en América Latina:
Itacurucá fue el punto de encuentro entre los miembros del Proyecto GISELA, quienes
discutieron durante tres días los avances de la principal iniciativa regional de
infraestructura de Grid en América Latina y su respectiva apropiación por parte de las
comunidades de investigación.
Todos los grupos de trabajo estuvieron involucrados en la revisión del Proyecto
GISELA, divididos en servicios, redes, apoyo a las comunidades, diseminación y
entrenamiento.
Los miembros de GISELA dedicaron buena parte de la agenda a revisar el esquema
de trabajo propuesto para transferir el modelo Grid a América Latina, con una visión de
sostenibilidad; esta tarea, en la que RedCLARA cumple un rol central, se distribuye
entre los miembros de un grupo de enlace con responsabilidades técnicas y de
organización para construir un modelo de servicios de computación distribuida en la
región, siendo éste el principal reto del proyecto.
Apéndice II: worldwide-lhc-computing-grid-comienza-funcionar:
Tres semanas después de que los primeros haces de partículas fueran inyectados en
el Large Hadron Collider (LHC), el acelerador de partículas más grande del mundo, la
red mundial de procesado de datos Worldwide LHC Computing Grid (WLCG) celebra
el inicio de su gran reto tecnológico: el análisis y la gestión de más de 15 millones de
Gigabytes de datos al año, que se generarán a partir de centenares de millones de
colisiones subatómicas que tendrán lugar en el interior del LHC cada segundo.
El WLCG combina la potencia de almacenamiento y de cálculo de más de 140 centros
informáticos, situados en 33 países diferentes. En España, el Port d’Informació
Científica (PIC), situado en el campus de la Universitat Autònoma de Barcelona, es el
Centro Regional de nivel Tier-1 – el nivel 1 dentro de la jerarquía de los centros – que
se conecta directamente con el CERN para recibir los datos del LHC.
“Nuestra capacidad de gestionar datos a esta escala es el resultado de muchos años
de trabajo”, dice Ian Bird, director del proyecto WLCG. “El resultado que vemos hoy
demuestra que la colaboración entre países de todo el mundo ha sido un éxito. Sin
estas alianzas internacionales, conseguirlo hubiera sido imposible”. “El Worldwide LHC
Computing Grid es un pilar fundamental del proyecto LHC”, afirma Jos Engelen,
director científico del CERN y del proyecto LHC. “Es absolutamente necesario para el
análisis de los datos del LHC. Es el resultado de una ‘revolución silenciosa’ que ha
tenido lugar en la informática a gran escala en los últimos cinco años.”