2. Un sistema de gestión de bases de
datos, consiste en una colección de datos
interrelacionados y un conjunto de programas
que permiten a los usuarios acceder y modificar
dichos datos. La colección de datos se denomina
base de datos.
La arquitectura de un sistema de base de datos
está influenciada en gran medida por el sistema
informático subyacente en el que se ejecuta el
sistema de base de datos. En la arquitectura de
un sistema de base de datos se reflejan
aspectos como la conexión en red:
• Base de datos Distribuidas
• Base de datos Paralelas
3. SGBD paralelo: Un SGBD que se ejecuta
sobre múltiples procesadores y discos que
han sido diseñados para ejecutar
operaciones en paralelo, cuando sea
posible, con el propósito de mejorar el
rendimiento.
Los sistemas paralelos mejoran la velocidad
de procesamiento y de E/S mediante la
utilización de UCP y discos en paralelo .
Los sistemas paralelos de base de datos
constan de varios procesadores y varios
discos conectados a través de una red de
interconexión de alta velocidad. Para medir el
rendimiento de los sistemas de base de
datos existen 2 medidas principales:
4. 1. La productividad que se entiende como el
número de tareas que pueden completarse
en un intervalo de tiempo determinado.
2. El tiempo de respuesta que es la cantidad
de tiempo que necesita para completar una
única tarea a partir del momento en que se
envíe. Un sistema que procese un gran
número de pequeñas transacciones puede
mejorar su productividad realizando muchas
transacciones en paralelo. Un sistema que
procese transacciones más largas puede
mejorar tanto su productividad como sus
tiempos de respuesta realizando en paralelo
cada una de las subtareas de cada
transacción.
5. El objetivo del paralelismo en los
sistemas de bases de datos suele ser
asegurar que la ejecución del sistema
continuará realizándose a una
velocidad aceptable, incluso en el
caso de que aumente el tamaño de la
base de datos o el número de
transacciones (ampliabilidad).
6. Porque la necesidad de usar Bd
Paralelas ??
Actualmente los Sistemas Paralelos se están
comercializando con éxito por prácticamente
todos los fabricantes de BD. Tal cambio lo
han impulsado las siguientes tendencias:
Los requisitos transaccionales de las
empresas han aumentado, con el uso
creciente de las computadoras.
El crecimiento de la WWW y los datos
recogidos por los visitantes han producido
BD extremadamente grandes en muchas
empresas.
Las empresas utilizan volúmenes crecientes
de datos para planificar sus actividades y sus
tarifas.
7. ◦ Las consultas utilizadas para estos fines se
denominan consultas de Ayuda a la Toma de
Decisiones y las necesidades de datos para las
mismas pueden llegar a los terabytes.
◦ Los sistemas con un único procesador no son
capaces de tratar volúmenes de datos tan grandes a
la velocidad necesaria.
◦ La naturaleza orientada a conjuntos de las consultas
de BD se presta de manera natural a la
paralelización.
◦ Varios sistemas comerciales y de investigación han
demostrado la potencia y dimensionalidad del
procesamiento paralelo de consultas.
◦ Con el abaratamiento de los microprocesadores, las
máquinas paralelas se han vuelto comunes y
relativamente baratas.
◦ El paralelismo también se utiliza para proporcionar
ampliabilidad, y las cargas de trabajo crecientes se
tratan sin aumentar el tiempo de respuesta mediante
un aumento en el grado de paralelismo.
8. Modelos de Arquitectura
Memoria compartida. Todos los
procesadores comparten una
memoria común.
Disco compartido. Todos los
procesadores comparten un disco
común.
Sin compartimiento. Los procesadores
no comparten ni memoria ni disco.
Jerárquico. Es un híbrido de las
anteriores.
10. TÉCNICAS DE DIVISIÓN
Se presentan 3 estrategias básicas
para la división de datos.
Se da por supuesto que hay n
discos, D0, D1, …, Dn-1, entre los
cuales se van dividir los datos.
TÉCNICA 1.- TURNO ROTATORIO
La relación se explora en cualquier
orden y la i-ésima tupla se envía al
disco numerado D i mod n.
11. El esquema de turno rotatorio asegura
una distribución homogénea de las
tuplas entre los discos por ello, cada
disco tiene aproximadamente el
mismo número de tuplas que los
demás.
ACCESO
Con este esquema tanto las consultas
concretas como las de rango son
difíciles de procesar, dado que se
debe emplear en la búsqueda cada
uno de los n discos.
12. TÉCNICA 2.- DIVISIÓN POR
ASOCIACIÓN
En esta estrategia de división uno o más
atributos del esquema de la relación se
designan como atributos de la división.
Se escoge una función de asociación
cuyo rango sea [0, 1, …, n-1].
Cada tupla de la relación original se
asocia en términos de los atributos de la
división.
Si la función de asociación devuelve i, la
tupla se ubica en el disco Di.
13. ACCESO
Este esquema se adapta mejor a las consultas
concretas basadas en el atributo de división.
Dirigir la consulta a un solo disco ahorra el costo de
iniciar una consulta en varios discos.
Si la función de asociación es una buena función
aleatoria y los atributos de división forman una clave de
la relación, el número de tuplas en cada uno de los
discos será aproximadamente el mismo.
El esquema, sin embargo, no se adapta bien a las
búsquedas concretas en términos de atributos que no
sean de división.
Por lo tanto, hace falta explorar todos los discos para
responder a las consultas por rango.
TÉCNICA 3.- DIVISIÓN POR RANGOS
14. Factores negativos de Paralelismo
Estos pueden atenuar tanto la ganancia
de velocidad como la ampliabilidad:
Costes de inicio. El inicio de un único
proceso lleva asociado un coste de
inicio.
Interferencia. Como los procesos que
se ejecutan en un sistema paralelo
acceden confrecuencia a recursos
compartidos, pueden sufrir un cierto
retardo como consecuencia de la
esta.
15. Sesgo. Al dividir cada tarea en un
cierto número de pasos paralelos se
reduce el tamaño del paso medio.
Normalmente es difícil dividir una
tarea en partes exactamente
iguales, entonces se dice que la forma
de distribución de los tamaños es
sesgada.
El sesgo se transforma en un
problema creciente al aumentar el
grado de paralelismo.