Este documento introduce la tecnología de clústeres. Explica que un clúster es una agrupación de sistemas de cómputo que actúan como una sola unidad de procesamiento. También describe las características de los clústeres y las redes de computación, y cómo cada una se adapta mejor a diferentes tipos de problemas. Finalmente, concluye que el procesamiento distribuido en redes es generalmente más adecuado para los grandes volúmenes de datos requeridos en análisis de "Big Data".
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Introducción a la tecnología cluster
1. INTRODUCCIÓN A LA TECNOLOGÍA CLUSTER
raineropenschool.com/bigdata
Rainer Open School – Big Data
2. PONENTE
Rafael Morales
Consultor y formador en
Sistemas de información (IT).
Gestión de proyectos (PM).
Aseguramiento de la calidad (QA).
En LinkedIn: http://bit.ly/20Qh0oZ
Email: contacto@rafael-morales.com
raineropenschool.com/bigdata
3. INTRODUCCIÓN
Un clúster, o “agrupación” de
sistemas, es una agregación de
dispositivos de cómputo en una
sola entidad de procesamiento.
Es un término popular que quizás
se usa con demasiada ligereza.
Vamos a tratar de entender qué
es, qué no es y para qué sirve..
raineropenschool.com/bigdata
Diseño de la red privada de un clúster
Fuente: El autor
4. CONTEXTO SOCIAL Y TECNOLÓGICO
El avance social va acompañado
de una demanda cada vez mayor
de capacidad de cálculo, en
desafíos que superan cualquier
potencia de cómputo. Cada
momento histórico plantea sus
propios desafíos de cálculo.
raineropenschool.com/bigdata
Simulación climatológica del Atlántico
Fuente: NASA GSFC / William Putman
5. EJEMPLOS DE APLICACIÓN
Áreas como la predicción
climatológica, la ingeniería
química, la bioquímica o incluso
la industria del entretenimiento,
pueden consumir todos los
recursos disponibles.
Fotograma de Gravity (2013)
Fuente: Warner Bros
raineropenschool.com/bigdata
6. INCORPORACIÓN PROGRESIVA DE LA IA
Una de las áreas que está
experimentando un incremento
de requisitos a mayor velocidad
es la inteligencia artificial, que ya
tenemos presente de forma
cotidiana en los dispositivos
móviles.
Sistema de navegación móvil
Fuente: Dariusz Sankowski
raineropenschool.com/bigdata
7. RÉCORD DE VELOCIDAD
El progreso de la tecnología de
procesadores ha dado un
completo giro en los últimos 20
años. En 2002 el Pentium IVs,
Northwood, marcaba un récord
de velocidad con 2’2 GHz.
Procesador Intel Pentium IV
Fuente: Intel
raineropenschool.com/bigdata
8. 10 AÑOS DESPUÉS
Una década más tarde, la familia
Ivy Bridge del Xeón E3-1200 tenía
una velocidad media de 3’3 GHz.
Ciertamente es un aumento de
velocidad, pero…Procesador Intel Xeón E3-1200
Fuente: Intel
raineropenschool.com/bigdata
9. COMPAREMOS LA EVOLUCIÓN DE VELOCIDAD…
0
500
1000
1500
2000
2500
3000
3500
4000
raineropenschool.com/bigdata
10. … CON EL INCREMENTO DE NÚCLEOS
0
2
4
6
8
10
12
14
16
18
1975 1980 1985 1990 1995 2000 2005 2010 2015
raineropenschool.com/bigdata
11. EL PUNTO DE INFLEXIÓN DIGITAL
Hacia 2002 se produce la “inflexión
digital” y más o menos en ese
momento se produce el cambio de
tendencia: el esfuerzo se traslada a
incrementar el número de núcleos,
no la velocidad. Es decir, se opta por
el multiproceso como estrategia de
futuro. ¿Por qué?
raineropenschool.com/bigdata
Global Information Storage Capacity
Fuente: Martin Hilbert
12. SISTEMAS MULTIPROCESADOR
Los sistemas multiprocesador,
vectoriales o convencionales,
aparecieron en los años 70. Cray,
Ahmdal o Thinking Machines
fueron un exponente de aquella
época.
Connection Machine 5
Fuente: Thinking Machines
raineropenschool.com/bigdata
13. PROCESADORES MULTINÚCLEO
En los 90, empezó a trabajarse
en procesadores multinúcleo de
propósito general, más baratos y
rápidos que los sistemas
anteriores.Procesador GK104
Fuente: Nvidia
raineropenschool.com/bigdata
14. SÍSTEMAS EN CLÚSTER
Al mismo tiempo, se ha venido
desarrollado una estrategia de
agrupación (clustering) de nodos,
como una forma eficaz y
económica de alcanzar enormes
potencias de cálculo.
Supercomputador Cray Titan
Fuente: Oak Ridge National Laboratory
raineropenschool.com/bigdata
15. SISTEMAS EN REJILLA
La forma de multiproceso más
popular es la rejilla (grid
computing). No es realmente un
clúster ni es tan potente como un
clúster, pero es enormemente
económica y flexible.
Representación de la red GridPP
Fuente: gridpp.ac.uk
raineropenschool.com/bigdata
16. CARACTERÍSTICAS DE UN CLÚSTER
Es adecuado para problemas con
algoritmos muy complejos y pequeños
conjuntos de datos:
Se encuentran en un entorno
cerrado (CPD)
Está formado por una red privada
Se comporta como un solo sistema
Suele tener un solo sistema
operativo
Clúster Cóndor
Fuente: Air Force Research Laboratory
raineropenschool.com/bigdata
17. CARACTERÍSTICAS DE UN SISTEMA EN REJILLA
Una rejilla (grid) es adecuada para
algoritmos relativamente simples y
grandes volúmenes de datos:
Los nodos se encuentran
dispersos
Están unidos por una red pública
Es enormemente escalable
Los nodos retienen su
individualidad
Panel de control de Oracle 11g Database
Fuente: Oracle
raineropenschool.com/bigdata
18. APLICACIÓN EN BIG DATA
Big Data es un término que
representa un amplio conjunto de
técnicas para el análisis masivo
de datos. Sistemas como
Hadoop, son una buena
aplicación de la arquitectura de
proceso distribuido en rejilla.
Editor de consultas en Hive / HUE
Fuente: Romainrr
raineropenschool.com/bigdata
19. Multiproceso
masivamente
paralelo
Procesamiento
distribuido en
rejilla
PROCESAMIENTO EN CLUSTER VS REJILLA
Tenemos por tanto dos grandes
paradigmas: o lanzamos un
software complejísimo entre un
gran número de células que
interactúan entre sí, o repartimos
un pequeños conjunto de
instrucciones por un gran número
de nodos. ¿Qué problemas hay?
raineropenschool.com/bigdata
20. LEY DE AHMDAL
El problema es que el
multiproceso tiene límites de
rendimiento. A partir de un punto,
añadir más nodos no tiene un
impacto lineal en la capacidad de
procesamiento.
raineropenschool.com/bigdata
21. INDETERMINACIÓN DE LA SEÑAL ELECTRÓNICA
Además, la velocidad de la luz
impone un límite. A 3 GHz una
señal electrónica apenas recorre
10 cm. Si aumentamos el reloj es
imposible sincronizar los circuitos
y la indeterminación impide que
éstos funcionen correctamente.
Divisor de haz láser
Fuente: Zaereth
raineropenschool.com/bigdata
22. CONCLUSIONES
Nuestra sociedad de la información exige cada día más potencia de
cómputo.
Hay muchas estrategias de multiproceso
Incremento de núcleos (procesadores multinúcleo)
El agrupamiento de nodos (clustering).
Coordinación de nodos en red (grid computing).
No hay una solución perfecta para todo, cada arquitectura puede ser más
adecuada a un tipo de problema.
Además, cada una de estas propuestas tiene sus propias limitaciones.
El modelo de procesamiento distribuido en rejilla suele ser el más
adecuado para los problemas del tipo “Big Data”.
raineropenschool.com/bigdata
23. LECTURAS RECOMENDADAS
In Search of Clusters
Gregory Pfister
ISBN: 978-0138997090
http://amzn.to/1O6NFiF
Es antiguo, pero una de las mejores
fuentes para aprender cómo
funcionan los clústers de todo tipo.
raineropenschool.com/bigdata
24. DESPEDIDA
Puedes seguir las novedades del
sector así como las convocatorias
de nuevos seminarios y
actividades en
raineropenschool.com/bigdata
raineropenschool.com/bigdata