Silver.pdf

Fundamentos de bases de datos
Quinta edición
www.detodoprogramacion.com

Fundamentos de bases de datos
Quinta edición
ABRAHAM SILBERSCHATZ
Universidad de Yale
HENRY F. KORTH
Universidad de Lehigh
S. SUDARSHAN
Instituto tecnológico indio, Bombay
Traducción
FERNANDO SÁENZ PÉREZ
ANTONIO GARCÍA CORDERO
JESÚS CORREAS FERNÁNDEZ
Universidad Complutense de Madrid
Revisión técnica
LUIS GRAU FERNÁNDEZ
Universidad Nacional de Educación a Distancia
MADRID BOGOTÁ BUENOS AIRES CARACAS GUATEMALA LISBOA
MÉXICO NUEVA YORK PANAMÁ SAN JUAN SANTIAGO SAO PAULO
AUCKLAND HAMBURGO LONDRES MILÁN MONTREAL NUEVA DELHI PARÍS
SAN FRANCISCO SIDNEY SINGAPUR ST. LOUIS TOKIO TORONTO

La información contenida en este libro procede de una obra original publicada por The McGraw-Hill Companies.
No obstante, McGraw-Hill/Interamericana de España no garantiza la exactitud o perfección de la información
publicada. Tampoco asume ningún tipo de garantía sobre los contenidos y las opiniones vertidas en dichos textos.
Este trabajo se publica con el reconocimiento expreso de que se está proporcionando una información, pero no
tratando de prestar ningún tipo de servicio profesional o técnico. Los procedimientos y la información que se
presentan en este libro tienen sólo la intención de servir como guía general.
McGraw-Hill ha solicitado los permisos oportunos para la realización y el desarrollo de esta obra.
Fundamentos de bases de datos, quinta edición
No está permitida la reproducción total o parcial de este libro, ni su tratamiento informático, ni la transmisión de
ninguna forma o por cualquier medio, ya sea electrónico, mecánico, por fotocopia, por registro u otros métodos, sin el
permiso previo y por escrito de los titulares del Copyright.
McGraw-Hill/Interamericana
de de España, S.A.U.
DERECHOS RESERVADOS © 2006, respecto a la quinta edición en español, por
McGRAW-HILL/INTERAMERICANA DE ESPAÑA, S.A.U.
Edificio Valrealty, 1ª planta
Basauri, 17
28023 Aravaca (Madrid)
http://www.mcgraw-hill.es
universidad@mcgraw-hill.com
Traducido de la quinta edición en inglés de
Database System Concepts
ISBN: 0-07-295886-3
Copyright © 2006 por The McGraw-Hill Companies, Inc.
ISBN: 84-481-4644-1
Depósito legal: M.
Editor: Carmelo Sánchez González
Compuesto por: Fernando Sáenz Pérez
Impreso en
IMPRESO EN ESPAÑA - PRINTED IN SPAIN

En memoria de mi padre Joseph Silberschatz,
de mi madre Vera Silberschatz
y de mis abuelos Stepha y Aaron Rosenblum.
Avi Silberschatz
A mi esposa, Joan,
mis hijos, Abigail y Joseph,
y mis padres, Henry y Frances.
Hank Korth
A mi esposa, Sita,
mi hijo, Madhur,
y mi madre, Indira.
S. Sudarshan

Contenido
Prefacio XV
Capítulo 1 Introducción
1.1 Aplicaciones de los sistemas de bases de datos 1
1.2 Propósito de los sistemas de bases de datos 2
1.3 Visión de los datos 4
1.4 Lenguajes de bases de datos 7
1.5 Bases de datos relacionales 9
1.6 Diseño de bases de datos 11
1.7 Bases de datos basadas en objetos y
semiestructuradas 15
1.8 Almacenamiento de datos y consultas 16
1.9 Gestión de transacciones 17
1.10 Minería y análisis de datos 18
1.11 Arquitectura de las bases de datos 19
1.12 Usuarios y administradores de bases de datos 21
1.13 Historia de los sistemas de bases de datos 22
1.14 Resumen 24
Ejercicios 25
Notas bibliográficas 26
PARTE 1 BASES DE DATOS RELACIONALES
Capítulo 2 El modelo relacional
2.1 La estructura de las bases de datos relacionales 29
2.2 Operaciones fundamentales del álgebra
relacional 36
2.3 Otras operaciones del álgebra relacional 44
2.4 Operaciones del álgebra relacional extendida 48
2.5 Valores nulos 53
2.6 Modificación de la base de datos 54
2.7 Resumen 56
Ejercicios 57
Capítulo 3 SQL
3.1 Introducción 61
3.2 Definición de datos 62
3.3 Estructura básica de las consultas SQL 65
3.4 Operaciones sobre conjuntos 71
3.5 Funciones de agregación 73
3.6 Valores nulos 75
3.7 Subconsultas anidadas 76
3.8 Consultas complejas 80
3.9 Vistas 81
3.10 Modificación de la base de datos 84
3.11 Reunión de relaciones∗∗ 90
3.12 Resumen 94
Ejercicios 95
VII

VIII Contenido
Capítulo 4 SQL avanzado
4.1 Tipos de datos y esquemas 101
4.2 Restricciones de integridad 105
4.3 Autorización 111
4.4 SQL incorporado 112
4.5 SQL dinámico 114
4.6 Funciones y procedimientos∗∗ 121
4.7 Consultas recursivas∗∗ 126
4.8 Características avanzadas de SQL∗∗ 129
4.9 Resumen 132
Ejercicios 133
Capítulo 5 Otros lenguajes relacionales
5.1 El cálculo relacional de tuplas 137
5.2 El cálculo relacional de dominios 141
5.3 Query-by-Example 144
5.4 Datalog 151
5.5 Resumen 162
Ejercicios 163
PARTE 2 DISEÑO DE BASES DE DATOS
Capítulo 6 Diseño de bases de datos y el modelo E-R
6.1 Visión general del proceso de diseño 169
6.2 El modelo entidad-relación 171
6.3 Restricciones 176
6.4 Diagramas entidad-relación 180
6.5 Aspectos del diseño entidad-relación 184
6.6 Conjuntos de entidades débiles 189
6.7 Características del modelo E-R extendido 190
6.8 Diseño de una base de datos para un banco 197
6.9 Reducción a esquemas relacionales 200
6.10 Otros aspectos del diseño de bases de datos 207
6.11 El lenguaje de modelado unificado UML∗∗ 210
6.12 Resumen 212
Ejercicios 213
Capítulo 7 Diseño de bases de datos relacionales
7.1 Características de los buenos diseños
relacionales 219
7.2 Dominios atómicos y la primera forma normal 223
7.3 Descomposición mediante dependencias
funcionales 224
7.4 Teoría de las dependencias funcionales 231
7.5 Algoritmos de descomposición 239
7.6 Descomposición mediante dependencias
multivaloradas 244
7.7 Más formas normales 248
7.8 Proceso de diseño de las bases de datos 248
7.9 Modelado de datos temporales 251
7.10 Resumen 253
Ejercicios 254
Capítulo 8 Diseño y desarrollo de aplicaciones
8.1 Interfaces de usuario y herramientas 259
8.2 Interfaces Web para bases de datos 262
8.3 Fundamentos de Web 263
8.4 Servlets y JSP 267
8.5 Creación de aplicaciones Web de gran tamaño 271
8.6 Disparadores 273
8.7 Autorización en SQL 278
8.8 Seguridad de las aplicaciones 285
8.9 Resumen 291
Ejercicios 293

Contenido IX
PARTE 3 BASES DE DATOS ORIENTADAS A OBJETOS Y XML
Capítulo 9 Bases de datos basadas en objetos
9.1 Visión general 301
9.2 Tipos de datos complejos 302
9.3 Tipos estructurados y herencia en SQL 303
9.4 Herencia de tablas 308
9.5 Tipos array y multiconjunto en SQL 309
9.6 Identidad de los objetos y tipos de referencia en
SQL 313
9.7 Implementación de las características O-R 315
9.8 Lenguajes de programación persistentes 316
9.9 Sistemas orientados a objetos y sistemas
relacionales orientados a objetos 322
9.10 Resumen 323
Ejercicios 324
Capítulo 10 XML
10.1 Motivación 329
10.2 Estructura de los datos XML 332
10.3 Esquema de los documentos XML 335
10.4 Consulta y transformación 340
10.5 La interfaz de programación de aplicaciones de
XML 349
10.6 Almacenamiento de datos XML 350
10.7 Aplicaciones XML 354
10.8 Resumen 358
Ejercicios 360
PARTE 4 ALMACENAMIENTO DE DATOS Y CONSULTAS
Capítulo 11 Almacenamiento y estructura de archivos
11.1 Visión general de los medios físicos de
almacenamiento 367
11.2 Discos magnéticos 370
11.3 RAID 375
11.4 Almacenamiento terciario 382
11.5 Acceso al almacenamiento 383
11.6 Organización de los archivos 386
11.7 Organización de los registros en archivos 390
11.8 Almacenamiento con diccionarios de datos 393
11.9 Resumen 395
Ejercicios 396
Capítulo 12 Indexación y asociación
12.1 Conceptos básicos 401
12.2 Índices ordenados 402
12.3 Archivos de índices de árbol B+
408
12.4 Archivos de índices de árbol B 417
12.5 Accesos bajo varias claves 418
12.6 Asociación estática 421
12.7 Asociación dinámica 426
12.8 Comparación de la indexación ordenada y la
asociación 431
12.9 Índices de mapas de bits 432
12.10 Definición de índices en SQL 435
12.11 Resumen 436
Ejercicios 438
Capítulo 13 Procesamiento de consultas
13.2 Medidas del coste de una consulta 445
13.3 Operación selección 446
13.4 Ordenación 450
13.5 Operación reunión 452
13.6 Otras operaciones 463
13.7 Evaluación de expresiones 466
13.8 Resumen 470
Ejercicios 472

X Contenido
Capítulo 14 Optimización de consultas
14.2 Transformación de expresiones relacionales 476
14.3 Estimación de las estadísticas de los resultados de
las expresiones 482
14.4 Elección de los planes de evaluación 487
14.5 Vistas materializadas∗∗ 494
14.6 Resumen 498
Ejercicios 500
PARTE 5 GESTIÓN DE TRANSACCIONES
Capítulo 15 Transacciones
15.1 Concepto de transacción 507
15.2 Estados de una transacción 510
15.3 Implementación de la atomicidad y la
durabilidad 512
15.4 Ejecuciones concurrentes 513
15.5 Secuencialidad 516
15.6 Recuperabilidad 520
15.7 Implementación del aislamiento 522
15.8 Comprobación de la secuencialidad 522
15.9 Resumen 523
Ejercicios 525
Capítulo 16 Control de concurrencia
16.1 Protocolos basados en el bloqueo 529
16.2 Protocolos basados en marcas temporales 539
16.3 Protocolos basados en validación 542
16.4 Granularidad múltiple 544
16.5 Esquemas multiversión 546
16.6 Tratamiento de interbloqueos 548
16.7 Operaciones para insertar y borrar 553
16.8 Niveles débiles de consistencia 555
16.9 Concurrencia en los índices∗∗ 557
16.10 Resumen 560
Ejercicios 562
Capítulo 17 Sistema de recuperación
17.1 Clasificación de los fallos 567
17.2 Estructura del almacenamiento 568
17.3 Recuperación y atomicidad 571
17.4 Recuperación basada en el registro histórico 572
17.5 Transacciones concurrentes y recuperación 579
17.6 Gestión de la memoria intermedia 581
17.7 Fallo con pérdida de almacenamiento no
volátil 584
17.8 Técnicas avanzadas de recuperación∗∗ 585
17.9 Sistemas remotos de copias de seguridad 591
17.10 Resumen 593
Ejercicios 596
PARTE 6 MINERíA DE DATOS Y RECUPERACIÓN DE
INFORMACIÓN
Capítulo 18 Análisis y minería de datos
18.1 Sistemas de ayuda a la toma de decisiones 601
18.2 Análisis de datos y OLAP 602
18.3 Almacenes de datos 612
18.4 Minería de datos 615
18.5 Resumen 625
Ejercicios 627

Contenido XI
Capítulo 19 Recuperación de información
19.2 Clasificación por relevancia según los
términos 632
19.3 Relevancia según los hipervínculos 635
19.4 Sinónimos, homónimos y ontologías 638
19.5 Creación de índices de documentos 639
19.6 Medida de la efectividad de la recuperación 640
19.7 Motores de búsqueda en Web 641
19.8 Recuperación de información y datos
estructurados 642
19.9 Directorios 643
19.10 Resumen 645
Ejercicios 646
PARTE 7 ARQUITECTURA DE SISTEMAS
Capítulo 20 Arquitecturas de los sistemas de bases de datos
20.1 Arquitecturas centralizadas y cliente–
servidor 651
20.2 Arquitecturas de sistemas servidores 653
20.3 Sistemas paralelos 657
20.4 Sistemas distribuidos 663
20.5 Tipos de redes 666
20.6 Resumen 668
Ejercicios 669
Capítulo 21 Bases de datos paralelas
21.2 Paralelismo de E/S 674
21.3 Paralelismo entre consultas 677
21.4 Paralelismo en consultas 678
21.5 Paralelismo en operaciones 678
21.6 Paralelismo entre operaciones 685
21.7 Diseño de sistemas paralelos 687
21.8 Resumen 688
Ejercicios 689
Capítulo 22 Bases de datos distribuidas
22.1 Bases de datos homogéneas y heterogéneas 693
22.2 Almacenamiento distribuido de datos 694
22.3 Transacciones distribuidas 697
22.4 Protocolos de compromiso 698
22.5 Control de la concurrencia en las bases de datos
distribuidas 704
22.6 Disponibilidad 710
22.7 Procesamiento distribuido de consultas 714
22.8 Bases de datos distribuidas heterogéneas 717
22.9 Sistemas de directorio 719
22.10 Resumen 723
Ejercicios 726
PARTE 8 OTROS TEMAS
Capítulo 23 Desarrollo avanzado de aplicaciones
23.1 Ajuste del rendimiento 733
23.2 Pruebas de rendimiento 741
23.3 Normalización 744
23.4 Migración de aplicaciones 748
23.5 Resumen 749
Ejercicios 750

XII Contenido
Capítulo 24 Tipos de datos avanzados y nuevas aplicaciones
24.1 Motivación 753
24.2 El tiempo en las bases de datos 754
24.3 Datos espaciales y geográficos 756
24.4 Bases de datos multimedia 765
24.5 Computadoras portátiles y bases de datos
personales 767
24.6 Resumen 772
Ejercicios 773
Capítulo 25 Procesamiento avanzado de transacciones
25.1 Monitores de procesamiento de
transacciones 777
25.2 Flujos de trabajo de transacciones 781
25.3 Comercio electrónico 786
25.4 Bases de datos en memoria principal 788
25.5 Sistemas de transacciones de tiempo real 790
25.6 Transacciones de larga duración 791
25.7 Gestión de transacciones en varias bases de
datos 796
25.8 Resumen 799
Ejercicios 801
PARTE 9 ESTUDIO DE CASOS
Capítulo 26 PostgreSQL
Anastassia Ailamaki, Sailesh Krishnamurthy, Spiros Papadimitriou, Bianca Schroeder
26.2 Interfaces de usuario 808
26.3 Variaciones y extensiones de SQL 809
26.4 Gestión de transacciones en PostgreSQL 817
26.5 Almacenamiento e índices 824
26.6 Procesamiento y optimización de consultas 827
26.7 Arquitectura del sistema 830
Capítulo 27 Oracle
Hakan Jakobsson
27.1 Herramientas para el diseño de bases de datos y la
consulta 833
27.5 Control de concurrencia y recuperación 849
27.7 Réplica, distribución y datos externos 854
27.8 Herramientas de gestión de bases de datos 855
27.9 Minería de datos 856
Capítulo 28 DB2 Universal Database de IBM
Sriram Padmanabhan
28.2 Herramientas de diseño de bases de datos 860
28.4 Almacenamiento e indexación 864
28.5 Agrupación multidimensional 867
28.7 Tablas de consultas materializadas 874
28.8 Características autónomas de DB2 876
28.9 Herramientas y utilidades 876
28.10 Control de concurrencia y recuperación 878
28.12 Réplicas, distribución y datos externos 881
28.13 Características de inteligencia de negocio 882

Contenido XIII
Capítulo 29 SQL Server de Microsoft
Sameet Agarwal, José A. Blakeley, Thierry D’Hers, Gerald Hinson, Dirk Myers, Vaqar
Pirzada, Bill Ramos, Balaji Rathakrishnan, Michael Rys, Florian Waas, Michael Zwilling
29.1 Herramientas para la administración, el diseño y
la consulta de las bases de datos 885
29.5 Concurrencia y recuperación 899
29.7 Acceso a los datos 904
29.8 Procesamiento de consultas heterogéneas
distribuidas 905
29.9 Duplicación 906
29.10 Programación de servidores en .NET 908
29.11 Soporte de XML en SQL Server 2005 912
29.12 Service Broker de SQLServer 916
29.13 Almacenes de datos e inteligencia de negocio 918
Bibliografía 923
Índice 943

Prefacio
La gestión de las bases de datos ha evolucionado desde una aplicación informática especializada hasta
convertirse en parte esencial de los entornos informáticos modernos. Por tanto, el conocimiento acerca
de los sistemas de bases de datos se ha convertido en una parte imprescindible de la formación en
informática. En este texto se presentan los conceptos fundamentales de la gestión de las bases de datos.
Estos conceptos incluyen aspectos del diseño de bases de datos, de los lenguajes y de la implementación
de los sistemas de bases de datos.
Este libro está orientado a un primer curso de bases de datos para los niveles técnicos y superiores.
Además del material básico para un primer curso, el texto también contiene material avanzado que se
puede usar como complemento del curso o como material introductorio de un curso avanzado.
En este libro se asume que se dispone de conocimientos básicos sobre estructuras de datos básicas, or-
ganización de computadoras y un lenguaje de programación de alto nivel (tipo Pascal). Los conceptos se
presentan usando descripciones intuitivas, muchas de las cuales están basadas en el ejemplo propuesto
de una entidad bancaria. Se tratan los resultados teóricos importantes, pero se omiten las demostracio-
nes formales. En lugar de las demostraciones se usan figuras y ejemplos para sugerir su justificación.
Las descripciones formales y las pruebas pueden hallarse en los artículos de investigación y en los textos
avanzados a los que se hace referencia en las notas bibliográficas.
Los conceptos y algoritmos fundamentales tratados en este libro suelen basarse en los usados en
sistemas de bases de datos comerciales o experimentales ya existentes. El objetivo es presentar esos
conceptos y algoritmos en un marco general que no esté vinculado a ningún sistema de bases de datos
en concreto. Los detalles de los sistemas de bases de datos concretos se estudian en la Parte 9, “Estudio
de casos”.
En esta quinta edición de Fundamentos de bases de datos se ha mantenido el estilo global de las ediciones
anteriores, mientras que su contenido y organización han evolucionado para reflejar las modificaciones
que se están produciendo en el modo en que las bases de datos se diseñan, se gestionan y se usan.
También se han tenido en cuenta las tendencias en la enseñanza de los conceptos de bases de datos
y se han hecho adaptaciones para facilitar esas tendencias donde ha resultado conveniente. Antes de
describir el contenido del libro con detalle, se destacarán algunas de las características de la quinta
edición.
• Tratamiento precoz de SQL. Muchos profesores usan SQL como componente principal de sus
proyectos de fin de curso (visítese el sitio Web http://www.mhe.es/universidad/informatica/funda
mentos para ver proyectos de ejemplo). Con objeto de proporcionar a los estudiantes tiempo su-
ficiente para realizar los proyectos, especialmente en universidades que trabajen por trimestres,
resulta fundamental enseñar SQL tan pronto como sea posible. Con esto en mente se han llevado
a cabo varias modificaciones en la organización del libro:
1. Aplazar la presentación del modelo entidad-relación hasta la Parte 2, titulada “Diseño de
bases de datos”.
XV

XVI Prefacio
2. Racionalizar la introducción del modelo relacional mediante el aplazamiento del tratamiento
del cálculo relacional hasta el Capítulo 5, mientras se mantiene el tratamiento del álgebra
relacional en el Capítulo 2.
3. Dedicar dos de los primeros capítulos a SQL. El Capítulo 3 trata las características básicas de
SQL, incluidas la definición y la manipulación de los datos. El Capítulo 4 trata característi-
cas más avanzadas, como las restricciones de integridad, SQL dinámico y los constructores
procedimentales. Entre el material nuevo de este capítulo figura un tratamiento más amplio
de JDBC, de los constructores procedimentales en SQL, de la recursión en SQL y de las nue-
vas características de SQL:2003. Este capítulo también incluye una breve visión general de las
autorizaciones, aunque su tratamiento detallado se pospone hasta el Capítulo 8.
Estas modificaciones permiten que los estudiantes comiencen a escribir consultas de SQL en
una etapa inicial del curso y que se familiaricen con el empleo de los sistemas de bases de da-
tos. Esto también permite a los estudiantes desarrollar una intuición sobre el diseño de bases de
datos que facilita la enseñanza de las metodologías de diseño en la Parte 2 del texto. Se ha des-
cubierto que los estudiantes aprecian mejor los aspectos del diseño de bases de datos con esta
organización.
• Una parte nueva (la Parte 2) que está dedicada al diseño de las bases de datos. La Parte 2
del texto contiene tres capítulos dedicados al diseño de las bases de datos y de las aplicaciones
para bases de datos. Aquí se incluye un capítulo (el Capítulo 6) sobre el modelo entidad-relación
que contiene todo el material del capítulo correspondiente de la cuarta edición (el Capítulo 2),
además de varias actualizaciones significativas. También se presenta en el Capítulo 6 una breve
visión general del proceso de diseño de las bases de datos. Los profesores que prefieran comenzar
el curso con el modelo E-R pueden empezar por este capítulo sin pérdida de continuidad, ya que
se ha hecho todo lo posible para evitar las dependencias con cualquier capítulo anterior salvo
con el Capítulo 1.
El Capítulo 7, sobre el diseño relacional, presenta el material tratado en el Capítulo 7 de la
cuarta edición, pero con un estilo nuevo y más legible. Los conceptos de diseño del modelo E-R se
usan para crear una visión general intuitiva de los aspectos del diseño relacional, adelantándose
a la presentación del enfoque formal al diseño mediante dependencias funcionales y multivalo-
radas y la normalización algorítmica. Este capítulo también incluye un apartado nuevo sobre los
aspectos temporales del diseño de bases de datos.
La Parte 2 concluye con un nuevo capítulo, el Capítulo 8, que describe el diseño y el desarrollo
de las aplicaciones de bases de datos, incluidas las aplicaciones Web, los servlets, JSP, los dispara-
dores y los aspectos de seguridad. Para atender a la creciente necesidad de proteger el software
de ataques, el tratamiento de la seguridad ha aumentado significativamente respecto de la cuarta
edición.
• Tratamiento completamente revisado y actualizado de las bases de datos basadas en objetos y
de XML. La Parte 3 incluye un capítulo profundamente revisado sobre las bases de datos basadas
en objetos que pone el énfasis en las características relacionales de objetos de SQL y sustituye a
los capítulos independientes sobre bases de datos orientadas a objetos y bases de datos relacio-
nales de objetos de la cuarta edición. Se ha eliminado parte del material introductorio sobre la
orientación a objetos de cursos anteriores con el que los estudiantes están familiarizados, al igual
que los detalles sintácticos del ahora obsoleto estándar ODMG. No obstante, se han conservado
conceptos importantes subyacentes a las bases de datos orientadas a objetos, incluyendo nuevo
material sobre el estándar JDO para añadir persistencia a Java.
La Parte 3 incluye también un capítulo sobre el diseño y la consulta de datos XML, que se
ha revisado a fondo respecto del capítulo correspondiente de la cuarta edición. Contiene un
tratamiento mejorado de XML Schema y de XQuery, tratamiento del estándar SQL/XML y más
ejemplos de aplicaciones XML, incluyendo servicios Web.
• Material reorganizado sobre la minería de datos y la recuperación de la información. La mi-
nería de datos y el procesamiento analítico en conexión son actualmente usos extremadamente
importantes de las bases de datos—ya no sólo “temas avanzados”. Por tanto, se ha trasladado el

Prefacio XVII
tratamiento de estos temas a una parte nueva, la Parte 6, que contiene un capítulo sobre minería
y análisis de datos junto con otro capítulo sobre la recuperación de la información.
• Nuevo caso de estudio: PostgreSQL. PostgreSQL es un sistema de bases de datos de código abier-
to que ha conseguido enorme popularidad en los últimos años. Además de ser una plataforma
sobre la que crear aplicaciones de bases de datos, el código fuente puede estudiarse y ampliarse
en cursos que pongan énfasis en la implementación de sistemas de bases de datos. Por tanto, se
ha añadido un caso de estudio de PostgreSQL a la Parte 9, en la que se suma a los tres casos de
estudio que aparecían en la cuarta edición (Oracle, IBM DB2 y Microsoft SQL Server). Estos tres
últimos casos de estudio se han actualizado para que reflejen las últimas versiones del software
respectivo.
El tratamiento de los temas que no se han mencionado anteriormente, incluidos el procesamiento
de transacciones (concurrencia y recuperación), las estructuras de almacenamiento, el procesamiento de
consultas y las bases de datos distribuidas y paralelas, se ha actualizado respecto de sus equivalentes de
la cuarta edición, aunque su organización general permanezca relativamente intacta. El tratamiento de
QBE en el Capítulo 5 se ha revisado, eliminando los detalles sintácticos de la agregación y de las actua-
lizaciones que no corresponden a ninguna implementación real, pero se han conservado los conceptos
fundamentales de QBE.
Organización
El texto está organizado en nueve partes principales y tres apéndices.
• Visión general (Capítulo 1). En el Capítulo 1 se proporciona una visión general de la naturaleza
y propósito de los sistemas de bases de datos. Se explica cómo se ha desarrollado el concepto de
sistema de bases de datos, cuáles son las características usuales de los sistemas de bases de datos,
lo que proporciona al usuario un sistema de bases de datos y cómo se comunican los sistemas de
bases de datos con los sistemas operativos. También se introduce un ejemplo de aplicación de las
bases de datos: una entidad bancaria que consta de muchas sucursales. Este ejemplo se usa a lo
largo de todo el libro. Este capítulo es de naturaleza justificativa, histórica y explicativa.
• Parte 1: Bases de datos relacionales (Capítulos 2 a 5). El Capítulo 2 introduce el modelo relacional
de datos y trata de conceptos básicos y del álgebra relacional. Este capítulo también ofrece una
breve introducción a las restricciones de integridad. Los Capítulos 3 y 4 se centran en el más
influyente de los lenguajes relacionales orientados al usuario: SQL. Mientras que el Capítulo 3
ofrece una introducción básica a SQL, el Capítulo 4 describe características de SQL más avanzadas,
incluido el modo de establecer comunicación entre un lenguaje de programación y una base de
datos que soporte SQL. El Capítulo 5 trata de otros lenguajes relacionales, incluido el cálculo
relacional, QBE y Datalog.
Los capítulos de esta parte describen la manipulación de los datos: consultas, actualizaciones,
inserciones y eliminaciones y dan por supuesto que se ha proporcionado un diseño de esquema.
Los aspectos del diseño de esquemas se posponen hasta la Parte 2.
• Parte 2: Diseño de bases de datos (Capítulos 6 a 8). El Capítulo 6 ofrece una visión general del
proceso de diseño de las bases de datos, con el énfasis puesto en el diseño mediante el modelo de
datos entidad-relación. Este modelo ofrece una vista de alto nivel de los aspectos del diseño de
las bases de datos y de los problemas que se hallan al capturar la semántica de las aplicaciones
realistas en las restricciones de un modelo de datos. La notación de los diagramas de clase UML
también se trata en este capítulo.
El Capítulo 7 introduce la teoría del diseño de las bases de datos relacionales. Se tratan la teo-
ría de las dependencias funcionales y de la normalización, con el énfasis puesto en la motivación
y la comprensión intuitiva de cada forma normal. Este capítulo comienza con una visión general
del diseño relacional y se basa en la comprensión intuitiva de la implicación lógica de las depen-
dencias funcionales. Esto permite introducir el concepto de normalización antes de haber tratado
completamente la teoría de la dependencia funcional, que se presenta más avanzado el capítulo.

XVIII Prefacio
Los profesores pueden decidir usar únicamente este tratamiento inicial de los Apartados 7.1 a
7.3 sin pérdida de continuidad. Los profesores que empleen todo el capítulo conseguirán que
los estudiantes tengan una buena comprensión de los conceptos de normalización para justificar
algunos de los conceptos más difíciles de comprender de la teoría de la dependencia funcional.
El Capítulo 8 trata del diseño y del desarrollo de las aplicaciones. Este capítulo pone énfasis en
la creación de aplicaciones de bases de datos con interfaces basadas en Web. Además, el capítulo
trata de la seguridad de las aplicaciones.
• Parte 3: Bases de datos basadas en objetos y XML (Capítulos 9 y 10). El Capítulo 9 trata de las
bases de datos basadas en objetos. Este capítulo describe el modelo de datos objeto-relación, que
amplía el modelo de datos relacional para dar soporte a tipos de datos complejos, la herencia de
tipos y la identidad de los objetos. Este capítulo también describe el acceso a las bases de datos
desde lenguajes de programación orientados a objetos.
El Capítulo 10 trata del estándar XML para la representación de datos, que está experimen-
tando un uso creciente en el intercambio y el almacenamiento de datos complejos. Este capítulo
también describe los lenguajes de consultas para XML.
• Parte 4: Almacenamiento de datos y consultas (Capítulos 11 a 14). El Capítulo 11 trata de la
estructura de disco, de archivos y del sistema de archivos. En el Capítulo 12 se presenta una
gran variedad de técnicas de acceso a los datos, incluidos los índices asociativos y de árbol B+
.
Los Capítulos 13 y 14 abordan los algoritmos de evaluación de consultas y su optimización. En
estos capítulos se examinan los aspectos internos de los componentes de almacenamiento y de
recuperación de las bases de datos.
• Parte 5: Gestión de transacciones (Capítulos 15 a 17). El Capítulo 15 se centra en los fundamentos
de los sistemas de procesamiento de transacciones, incluidas la atomicidad, la consistencia, el
aislamiento y la durabilidad de las transacciones, así como la noción de la secuencialidad.
El Capítulo 16 se centra en el control de concurrencia y presenta varias técnicas para garan-
tizar la secuencialidad, incluidos el bloqueo, las marcas de tiempo y las técnicas optimistas (de
validación). Este capítulo también trata los interbloqueos.
El Capítulo 17 trata las principales técnicas para garantizar la ejecución correcta de las tran-
sacciones pese a las caídas del sistema y los fallos de los discos. Estas técnicas incluyen los regis-
tros, los puntos de revisión y los volcados de las bases de datos.
• Parte 6: Minería de datos y recuperación de la información (Capítulos 18 y 19). El Capítu-
lo 18 introduce el concepto de almacén de datos y explica la minería de datos y el procesamiento
analítico en conexión (online analytical processing, OLAP), incluido el soporte de OLAP y del alma-
cenamiento de datos por SQL:1999. El Capítulo 19 describe las técnicas de recuperación de datos
para la consulta de datos textuales, incluidas las técnicas basadas en hipervínculos usadas en los
motores de búsqueda Web.
La Parte 6 usa los conceptos de modelado y de lenguaje de las partes 1 y 2, pero no depende
de las partes 3, 4 o 5. Por tanto, puede incorporarse fácilmente en cursos que se centren en SQL y
en el diseño de bases de datos.
• Parte 7: Arquitectura de sistemas (Capítulos 20 a 22). El Capítulo 20 trata de la arquitectura de
los sistemas informáticos y describe la influencia de los subyacentes a los sistemas de bases de
datos. En este capítulo se estudian los sistemas centralizados, los sistemas cliente–servidor, las
arquitecturas paralela y distribuida, y los tipos de red.
El Capítulo 21, que trata las bases de datos paralelas, explora una gran variedad de técnicas
de paralelismo, incluidos el paralelismo de E/S, el paralelismo en consultas y entre consultas, y
el paralelismo en operaciones y entre operaciones. Este capítulo también describe el diseño de
sistemas paralelos.
El Capítulo 22 trata de los sistemas distribuidos de bases de datos, revisitando los aspectos del
diseño de bases de datos, la gestión de las transacciones y la evaluación y la optimización de las
consultas en el contexto de las bases de datos distribuidas. Este capítulo también trata aspectos
de la disponibilidad de los sistemas durante los fallos y describe el sistema de directorios LDAP.

Prefacio XIX
• Parte 8: Otros temas (Capítulos 23 a 25). El Capítulo 23 trata de las pruebas de rendimiento, el
ajuste de rendimiento, la normalización y la migración de aplicaciones desde sistemas heredados.
El Capítulo 24 trata de los tipos de datos avanzados y de las nuevas aplicaciones, incluidos
los datos temporales, los datos espaciales y geográficos, y los aspectos de la gestión de bases de
datos móviles y personales.
Finalmente, el Capítulo 25 trata del procesamiento avanzado de transacciones. Entre los temas
tratados están los monitores de procesamiento de transacciones, los flujos de trabajo transaccio-
nales, el comercio electrónico, los sistemas de transacciones de alto rendimiento, los sistemas de
transacciones en tiempo real, las transacciones de larga duración y la gestión de transacciones en
sistemas con múltiples bases de datos.
• Parte 9: Estudio de casos (Capítulos 26 a 29). En esta parte se estudian cuatro de los principales
sistemas de bases de datos, como PostgreSQL, Oracle, DB2 de IBM y SQL Server de Microsoft.
Estos capítulos destacan las características propias de cada uno de los sistemas y describen su
estructura interna. Ofrecen gran abundancia de información interesante sobre los productos res-
pectivos y ayudan al lector a comprender el uso en los sistemas reales de las diferentes técnicas
de implementación descritas en partes anteriores. También tratan varios aspectos prácticos in-
teresantes del diseño de sistemas reales.
• Apéndices en Internet. Aunque la mayor parte de las nuevas aplicaciones de bases de datos
usan el modelo relacional o el modelo relacional orientado a objetos, los modelos de datos de red
y jerárquico se siguen usando en algunas aplicaciones heredadas. Para los lectores interesados en
estos modelos de datos se ofrecen apéndices que describen los modelos de datos de red y jerár-
quico, en los Apéndices A y B respectivamente; los apéndices sólo se encuentran disponibles en
la dirección http://www.mhe.es/universidad/informatica/fundamentos. Estos apéndices sólo están
disponibles en inglés.
El Apéndice C describe el diseño avanzado de bases de datos relacionales, incluida la teo-
ría de las dependencias multivaloradas, las dependencias de reunión y las formas normales de
proyección-reunión y de dominio-clave. Este apéndice está pensado para quienes deseen estu-
diar la teoría del diseño de bases de datos relacionales con más detalle y para los profesores que
deseen hacerlo en sus cursos. De nuevo, este apéndice está disponible únicamente en la página
Web del libro.
La quinta edición
La producción de esta quinta edición ha estado guiada por los muchos comentarios y sugerencias que se
han recibido relativos a ediciones anteriores, por nuestras propias observaciones al ejercer la docencia
en la Universidad de Yale, la Universidad de Lehigh y el IIT de Bombay y por nuestro análisis de las
direcciones hacia las que está evolucionando la tecnología de las bases de datos.
El procedimiento básico fue reescribir el material de cada capítulo, actualizando el material antiguo,
añadiendo explicaciones sobre desarrollos recientes de la tecnología de las bases de datos y mejorando
las descripciones de los temas que los estudiantes hallaban difíciles de comprender. Al igual que en la
cuarta edición, cada capítulo tiene una lista de términos de repaso que puede ayudar a los lectores a
repasar los temas principales que se han tratado en él. La mayor parte de los capítulos también contiene
al final una sección que ofrece información sobre las herramientas de software relacionadas con el tema
del capítulo. También se han añadido ejercicios nuevos y referencias actualizadas.
Nota para los profesores
Este libro contiene material tanto básico como avanzado, que puede que no se abarque en un solo semes-
tre. Se han marcado varios apartados como avanzados mediante el símbolo ∗∗. Estos apartados pueden
omitirse, si se desea, sin pérdida de continuidad. Los ejercicios que son difíciles (y pueden omitirse)
también están marcados mediante el símbolo “∗∗”.
Es posible diseñar los cursos usando varios subconjuntos de los capítulos. A continuación se esbozan
varias de las posibilidades:

XX Prefacio
• Los apartados del Capítulo 4 desde el Apartado 4.6 en adelante pueden omitirse en los cursos
introductorios.
• El Capítulo 5 puede omitirse si los estudiantes no van a usar el cálculo relacional, QBE ni Datalog
como parte del curso.
• Los Capítulos 9 (Bases de datos orientadas a objetos), 10 (XML) y 14 (Optimización de consultas)
pueden omitirse en los cursos introductorios.
• Tanto el tratamiento del procesamiento de las transacciones (Capítulos 15 a 17) como el trata-
miento de la arquitectura de los sistemas de bases de datos (Capítulos 20 a 22) constan de un
capítulo introductorio (Capítulos 15 y 20, respectivamente) seguidos de los capítulos con los de-
talles. Se puede decidir usar los Capítulos 15 y 20 y omitir los Capítulos 16, 17, 21 y 22, si se
posponen esos capítulos para un curso avanzado.
• Los Capítulos 18 y 19, que tratan de la minería de datos y de la recuperación de la información,
pueden usarse como material para estudio individual u omitirse en los cursos introductorios.
• Los Capítulos 23 a 25 son adecuados para cursos avanzados o para su estudio individual por
parte de los estudiantes.
• Los capítulos de estudio de casos 26 a 29 son adecuados para su estudio individual por los estu-
diantes.
Se pueden encontrar modelos de programaciones para cursos, basados en este texto, en la página
Web del libro:
http://www.mhe.es/universidad/informatica/fundamentos
Cómo entrar en contacto con los autores y otros usuarios
Se ha hecho todo lo posible por eliminar del texto las erratas y errores. Pero, como en los nuevos de-
sarrollos de software, probablemente queden fallos. En la página Web del libro se puede obtener una
lista de erratas actualizada. Se agradecerá que se notifique cualquier error u omisión del libro que no se
encuentre en la lista de erratas actual.
Nos alegrará recibir sugerencias de mejoras para el libro. También son bienvenidas las contribuciones
para la página Web del libro que puedan resultar útiles para otros lectores, como ejercicios de progra-
mación, sugerencias de proyectos, laboratorios y tutoriales en línea, y ayudas a la docencia.
El correo electrónico debe dirigirse a db-book@cs.yale.edu. El resto de la correspondencia debe en-
viarse a Avi Silberschatz, Department of Computer Science, Yale University, 51 Prospect Street, P.O. Box
208285, New Haven, CT 06520-8285, EE.UU.
También se dispone de una lista de correo mediante la cual los usuarios del libro pueden comunicarse
entre sí y con los autores, y recibir actualizaciones del libro y otra información relacionada. La lista está
moderada, por lo que en ella no se recibe correo basura. Se ruega seguir el enlace a la lista de correo de
la página Web del libro para suscribirse.
Agradecimientos
Esta edición se ha beneficiado de los muchos y útiles comentarios que nos han proporcionado los es-
tudiantes que han usado las cuatro ediciones anteriores. Además, muchas personas nos han escrito o
hablado acerca del libro, y nos han ofrecido sugerencias y comentarios. Aunque no podemos mencio-
narlos aquí a todos, damos las gracias especialmente a los siguientes:
• A Hani Abu-Salem, Universidad DePaul; Jamel R. Alsabbagh, Universidad Grand Valley State;
Ramzi Bualuan, Universidad Notre Dame; Zhengxin Chen, Universidad de Nebraska en Omaha;
Jan Chomick, Universidad SUNY Buffalo; Qin Ding, Universidad Penn State en Harrisburg; Fran-
tisek Franek, Universidad McMaster; Shashi K. Gadia, Universidad Iowa State; William Hankley,
Universidad Kansas State; Randy M. Kaplan, Universidad Drexel; Mark Llewellyn, Universidad

Prefacio XXI
de Central Florida; Marty Maskarinec, Universidad Western Illinois; Yiu-Kai Dennis Ng, Univer-
sidad Brigham Young; Sunil Prabhakar, Universidad Purdue; Stewart Shen, Universidad Old Do-
minion; Anita Whitehall, Foothill College; Christopher Wilson, Universidad de Oregón; Weining
Zhang, Universidad de Texas en San Antonio; todos ellos revisaron el libro y sus comentarios nos
ayudaron mucho a formular esta quinta edición.
• A Anastassia Ailamaki, Sailesh Krishnamurthy, Spiros Papadimitriou y Bianca Schroeder (Uni-
versidad Carnegie Mellon) por escribir el apéndice que describe el sistema de bases de datos
PostgreSQL.
• A Hakan Jakobsson (Oracle) por el apéndice sobre el sistema de bases de datos Oracle.
• A Sriram Padmanabhan (IBM) por el apéndice que describe el sistema de bases de datos DB2 de
IBM.
• A Sameet Agarwal, José A. Blakeley, Thierry D’Hers, Gerald Hinson, Dirk Myers, Vaqar Pirzada,
Bill Ramos, Balaji Rathakrishnan, Michael Rys, Florian Waas y Michael Zwilling (todos ellos de
Microsoft) por el apéndice sobre el sistema de bases de datos Microsoft SQL Server. A José Blake-
ley también por coordinar y editar el Capítulo 29, y a César Galindo-Legaria, Goetz Graefe, Kalen
Delaney y Thomas Casey (todos ellos de Microsoft) por sus aportaciones a la edición anterior del
capítulo sobre SQL Server de Microsoft.
• A Chen Li y a Sharad Mehrotra por ofrecer material sobre JDBC y sobre seguridad que nos ha
ayudado a actualizar y ampliar el Capítulo 8.
• A Valentin Dinu, Goetz Graefe, Bruce Hillyer, Chad Hogg, Nahid Rahman, Patrick Schmid, Jeff
Storey, Prem Thomas, Liu Zhenming y, especialmente, a N.L. Sarda por su respuesta, que nos
ayudó a preparar la quinta edición.
• A Rami Khouri, Nahid Rahman y Michael Rys por su respuesta a las versiones de borrador de
los capítulos de la quinta edición.
• A Raj Ashar, Janek Bogucki, Gavin M. Bierman, Christian Breimann, Tom Chappell, Y. C. Chin,
Laurens Damen, Prasanna Dhandapani, Arvind Hulgeri, Zheng Jiaping, Graham J. L. Kemp, Hae
Choon Lee, Sang-Won Lee, Thanh-Duy Nguyen, D. B. Phatak, Juan Altmayer Pizzorno, Rajarshi
Rakshit, Greg Riccardi, N. L. Sarda, Max Smolens, Nikhil Sethi y Tim Wahls por señalar errores
en la cuarta edición.
• A Marilyn Turnamian, cuya excelente ayuda como secretaria fue esencial para la finalización a
tiempo de esta quinta edición.
La editora fue Betsy Jones. La editora patrocinadora fue Kelly Lowery. La editora de desarrollo fue
Melinda D. Bilecki. La directora del proyecto fue Peggy Selle. El director ejecutivo de mercadotecnia
fue Michael Weitz. La directora de mercadotecnia fue Dawn Bercier. La ilustradora y diseñadora de la
cubierta fue JoAnne Schopler. El editor de copia autónomo fue George Watson. La correctora de pruebas
autónoma fue Judy Gantenbein. La diseñadora fue Laurie Janssen. El indexador autónomo fue Tobiah
Waldron.
Esta edición se basa en las cuatro ediciones anteriores, por lo que volvemos a dar las gracias a las
muchas personas que nos ayudaron con las cuatro primeras ediciones, como R. B. Abhyankar, Don Ba-
tory, Phil Bernhard, Haran Boral, Paul Bourgeois, Phil Bohannon, Robert Brazile, Yuri Breitbart, Michael
Carey, Soumen Chakrabarti, J. Edwards, Christos Faloutsos, Homma Farian, Alan Fekete, Shashi Ga-
dia, Jim Gray, Le Gruenwald, Eitan M. Gurari, Ron Hitchens, Yannis Ioannidis, Hyoung-Joo Kim, Won
Kim, Henry Korth (padre de Henry F.), Carol Kroll, Gary Lindstrom, Irwin Levinstein, Ling Liu, Da-
ve Maier, Keith Marzullo, Fletcher Mattox, Sharad Mehrotra, Jim Melton, Alberto Mendelzon, Hector
Garcia-Molina, Ami Motro, Bhagirath Narahari, Anil Nigam, Cyril Orji, Meral Ozsoyoglu, Bruce Porter,
Jim Peterson, K.V. Raghavan, Krithi Ramamritham, Mike Reiter, Odinaldo Rodriguez, Mark Roth, Marek
Rusinkiewicz, Sunita Sarawagi, N.L. Sarda, S. Seshadri, Shashi Shekhar, Amit Sheth, Nandit Soparkar,
Greg Speegle, Dilys Thomas y Marianne Winslett.

XXII Prefacio
Marilyn Turnamian y Nandprasad Joshi ofrecieron ayuda como secretarias para la cuarta edición,
y Marilyn también preparó un primer borrador del diseño de la cubierta para la cuarta edición. Lyn
Dupré editó la copia de la tercera edición y Sara Strandtman editó el texto de la tercera edición. Nilesh
Dalvi, Sumit Sanghai, Gaurav Bhalotia, Arvind Hulgeri K.V. Raghavan, Prateek Kapadia, Sara Strandt-
man, Greg Speegle y Dawn Bezviner ayudaron a preparar el manual para los profesores de ediciones
anteriores. La nueva cubierta es una evolución de las cuatro primeras ediciones. La idea de usar barcos
como parte del concepto de la cubierta nos la sugirió inicialmente Bruce Stephan.
Finalmente, Sudarshan quiere agradecer a su esposa, Sita, su amor y su apoyo, y a su hijo Madhur su
amor. Hank quiere agradecer a su mujer, Joan, y a sus hijos, Abby y Joe, su amor y su comprensión. Avi
quiere agradecer a Valerie su amor, su paciencia y su apoyo durante la revisión de este libro.
A. S.
H. F. K.
S. S.

C A P Í T U L O 1
Introducción
Un sistema gestor de bases de datos (SGBD) consiste en una colección de datos interrelacionados y un
conjunto de programas para acceder a dichos datos. La colección de datos, normalmente denominada
base de datos, contiene información relevante para una empresa. El objetivo principal de un SGBD es
proporcionar una forma de almacenar y recuperar la información de una base de datos de manera que
sea tanto práctica como eficiente.
Los sistemas de bases de datos se diseñan para gestionar grandes cantidades de información. La
gestión de los datos implica tanto la definición de estructuras para almacenar la información como la
provisión de mecanismos para la manipulación de la información. Además, los sistemas de bases de
datos deben garantizar la fiabilidad de la información almacenada, a pesar de las caídas del sistema o
de los intentos de acceso no autorizados. Si los datos van a ser compartidos entre diferentes usuarios, el
sistema debe evitar posibles resultados anómalos.
Dado que la información es tan importante en la mayoría de las organizaciones, los científicos infor-
máticos han desarrollado una gran cuerpo de conceptos y técnicas para la gestión de los datos. Estos
conceptos y técnicas constituyen el objetivo central de este libro. En este capítulo se presenta una breve
introducción a los principios de los sistemas de bases de datos.
1.1 Aplicaciones de los sistemas de bases de datos
Las bases de datos se usan ampliamente. Algunas de sus aplicaciones representativas son:
• Banca: para información de los clientes, cuentas, préstamos y transacciones bancarias.
• Líneas aéreas: para reservas e información de horarios. Las líneas aéreas fueron de las primeras en
usar las bases de datos de forma distribuida geográficamente.
• Universidades: para información de los estudiantes, matrículas en las asignaturas y cursos.
• Transacciones de tarjetas de crédito: para compras con tarjeta de crédito y la generación de los ex-
tractos mensuales.
• Telecomunicaciones: para guardar un registro de las llamadas realizadas, generar las facturas men-
suales, mantener el saldo de las tarjetas telefónicas de prepago y para almacenar información
sobre las redes de comunicaciones.
• Finanzas: para almacenar información sobre compañías tenedoras, ventas y compras de produc-
tos financieros, como acciones y bonos; también para almacenar datos del mercado en tiempo real
para permitir a los clientes la compraventa en línea y a la compañía la compraventa automática.
• Ventas: para información de clientes, productos y compras.
1

2 Capítulo 1 Introducción
• Comercio en línea: para los datos de ventas ya mencionados y para el seguimiento de los pedidos
Web, generación de listas de recomendaciones y mantenimiento de evaluaciones de productos
en línea.
• Producción: para la gestión de la cadena de proveedores y para el seguimiento de la producción
de artículos en las factorías, inventarios en los almacenes y pedidos.
• Recursos humanos: para información sobre los empleados, salarios, impuestos sobre los sueldos y
prestaciones sociales, y para la generación de las nóminas.
Como muestra esta lista, las bases de datos forman una parte esencial de casi todas las empresas actuales.
Durante las últimas cuatro décadas del siglo veinte, el uso de las bases de datos creció en todas las
empresas. En los primeros días, muy pocas personas interactuaban directamente con los sistemas de ba-
ses de datos, aunque sin darse cuenta interactuaban indirectamente con bases de datos—con informes
impresos como los extractos de las tarjetas de crédito, o mediante agentes como los cajeros de los bancos
y los agentes de reservas de las líneas aéreas. Después vinieron los cajeros automáticos y permitieron a
los usuarios interactuar directamente con las bases de datos. Las interfaces telefónicas con las compu-
tadoras (sistemas de respuesta vocal interactiva) también permitieron a los usuarios tratar directamente
con las bases de datos—la persona que llamaba podía marcar un número y pulsar las teclas del teléfono
para introducir información o para seleccionar opciones alternativas, para conocer las horas de llegada
o salida de los vuelos, por ejemplo, o para matricularse de asignaturas en una universidad.
La revolución de Internet a finales de los años noventa aumentó significativamente el acceso directo
del usuario a las bases de datos. Las organizaciones convirtieron muchas de sus interfaces telefónicas
a las bases de datos en interfaces Web, y dejaron disponibles en línea muchos servicios. Por ejemplo,
cuando se accede a una librería en línea y se busca en una colección de libros o de música, se está
accediendo a datos almacenados en una base de datos. Cuando se realiza un pedido en línea, el pedido
se almacena en una base de datos. Cuando se accede al sitio Web de un banco y se consultan el estado
de la cuenta y los movimientos, la información se recupera del sistema de bases de datos del banco.
Cuando se accede a un sitio Web, puede que se recupere información personal de una base de datos
para seleccionar los anuncios que se deben mostrar. Más aún, los datos sobre los accesos Web pueden
almacenarse en una base de datos
Así, aunque las interfaces de usuario ocultan los detalles del acceso a las bases de datos, y la mayoría
de la gente ni siquiera es consciente de que están interactuando con una base de datos, el acceso a las
bases de datos forma actualmente una parte esencial de la vida de casi todas las personas.
La importancia de los sistemas de bases de datos se puede juzgar de otra forma—actualmente, los
fabricantes de sistemas de bases de datos como Oracle están entre las mayores compañías de software
del mundo, y los sistemas de bases de datos forman una parte importante de la línea de productos de
compañías más diversificadas como Microsoft e IBM.
1.2 Propósito de los sistemas de bases de datos
Los sistemas de bases de datos surgieron en respuesta a los primeros métodos de gestión informatizada
de los datos comerciales. A modo de ejemplo de dichos métodos, típicos de los años sesenta, considérese
parte de una entidad bancaria que, entre otros datos, guarda información sobre todos los clientes y
todas las cuentas de ahorro. Una manera de guardar la información en la computadora es almacenarla
en archivos del sistema operativo. Para permitir que los usuarios manipulen la información, el sistema
tiene varios programas de aplicación que gestionan los archivos, incluyendo programas para:
• Efectuar cargos o abonos en las cuentas.
• Añadir cuentas nuevas.
• Calcular el saldo de las cuentas.
• Generar los extractos mensuales.

1.2 Propósito de los sistemas de bases de datos 3
Estos programas de aplicación los han escrito programadores de sistemas en respuesta a las necesidades
del banco.
Se añaden nuevos programas de aplicación al sistema según surgen las necesidades. Por ejemplo,
supóngase que una caja de ahorros decide ofrecer cuentas corrientes. En consecuencia, se crean nuevos
archivos permanentes que contienen información acerca de todas las cuentas corrientes abiertas en el
banco y puede que haya que escribir nuevos programas de aplicación para afrontar situaciones que no
se dan en las cuentas de ahorro, como los descubiertos. Así, con el paso del tiempo, se añaden más
archivos y programas de aplicación al sistema.
Los sistemas operativos convencionales soportan este sistema de procesamiento de archivos típico.
El sistema almacena los registros permanentes en varios archivos y necesita diferentes programas de
aplicación para extraer y añadir a los archivos correspondientes. Antes de la aparición de los sistemas
gestores de bases de datos (SGBDs), las organizaciones normalmente almacenaban la información en
sistemas de este tipo.
Guardar la información de la organización en un sistema de procesamiento de archivos tiene una
serie de inconvenientes importantes:
• Redundancia e inconsistencia de los datos. Debido a que los archivos y programas de aplicación
los crean diferentes programadores en el transcurso de un largo período de tiempo, es probable
que los diversos archivos tengan estructuras diferentes y que los programas estén escritos en
varios lenguajes de programación diferentes. Además, puede que la información esté duplicada
en varios lugares (archivos). Por ejemplo, la dirección y el número de teléfono de un cliente dado
pueden aparecer en un archivo que contenga registros de cuentas de ahorros y en un archivo que
contenga registros de cuentas corrientes. Esta redundancia conduce a costes de almacenamiento
y de acceso más elevados. Además, puede dar lugar a la inconsistencia de los datos; es decir,
puede que las diferentes copias de los mismos datos no coincidan. Por ejemplo, puede que el
cambio en la dirección de un cliente esté reflejado en los registros de las cuentas de ahorro pero
no en el resto del sistema.
• Dificultad en el acceso a los datos. Supóngase que uno de los empleados del banco necesita ave-
riguar los nombres de todos los clientes que viven en un código postal dado. El empleado pide
al departamento de procesamiento de datos que genere esa lista. Debido a que esta petición no
fue prevista por los diseñadores del sistema original, no hay un programa de aplicación a mano
para satisfacerla. Hay, sin embargo, un programa de aplicación que genera la lista de todos los
clientes. El empleado del banco tiene ahora dos opciones: bien obtener la lista de todos los clientes
y extraer manualmente la información que necesita, o bien pedir a un programador de sistemas
que escriba el programa de aplicación necesario. Ambas alternativas son obviamente insatisfac-
torias. Supóngase que se escribe el programa y que, varios días más tarde, el mismo empleado
necesita reducir esa lista para que incluya únicamente a aquellos clientes que tengan una cuenta
con saldo igual o superior a 10.000 e. Como se puede esperar, no existe ningún programa que
genere tal lista. De nuevo, el empleado tiene que elegir entre dos opciones, ninguna de las cuales
es satisfactoria.
La cuestión aquí es que los entornos de procesamiento de archivos convencionales no per-
miten recuperar los datos necesarios de una forma práctica y eficiente. Hacen falta sistemas de
recuperación de datos más adecuados para el uso general.
• Aislamiento de datos. Como los datos están dispersos en varios archivos, y los archivos pueden
estar en diferentes formatos, es difícil escribir nuevos programas de aplicación para recuperar los
datos correspondientes.
• Problemas de integridad. Los valores de los datos almacenados en la base de datos deben satisfa-
cer ciertos tipos de restricciones de consistencia. Por ejemplo, el saldo de ciertos tipos de cuentas
bancarias no puede nunca ser inferior a una cantidad predeterminada (por ejemplo, 25 e). Los de-
sarrolladores hacen cumplir esas restricciones en el sistema añadiendo el código correspondiente
en los diversos programas de aplicación. Sin embargo, cuando se añaden nuevas restricciones,
es difícil cambiar los programas para hacer que se cumplan. El problema se complica cuando las
restricciones implican diferentes elementos de datos de diferentes archivos.

• Problemas de atomicidad. Los sistemas informáticos, como cualquier otro dispositivo mecánico
o eléctrico, está sujeto a fallos. En muchas aplicaciones es crucial asegurar que, si se produce al-
gún fallo, los datos se restauren al estado consistente que existía antes del fallo. Considérese un
programa para transferir 50 e desde la cuenta A a la B. Si se produce un fallo del sistema durante
la ejecución del programa, es posible que los 50 e fueran retirados de la cuenta A pero no abo-
nados en la cuenta B, dando lugar a un estado inconsistente de la base de datos. Evidentemente,
resulta esencial para la consistencia de la base de datos que tengan lugar tanto el abono como
el cargo, o que no tenga lugar ninguno. Es decir, la transferencia de fondos debe ser atómica—
debe ocurrir en su totalidad o no ocurrir en absoluto. Resulta difícil asegurar la atomicidad en
los sistemas convencionales de procesamiento de archivos.
• Anomalías en el acceso concurrente. Para aumentar el rendimiento global del sistema y obtener
una respuesta más rápida, muchos sistemas permiten que varios usuarios actualicen los datos si-
multáneamente. En realidad, hoy en día, los principales sitios de comercio electrónico de Internet
pueden tener millones de accesos diarios de compradores a sus datos. En tales entornos es posible
la interacción de actualizaciones concurrentes y puede dar lugar a datos inconsistentes. Consi-
dérese una cuenta bancaria A, que contenga 500 e. Si dos clientes retiran fondos (por ejemplo,
50 e y 100 e, respectivamente) de la cuenta A aproximadamente al mismo tiempo, el resultado
de las ejecuciones concurrentes puede dejar la cuenta en un estado incorrecto (o inconsistente).
Supóngase que los programas que se ejecutan para cada retirada leen el saldo anterior, reducen
su valor en el importe que se retira y luego escriben el resultado. Si los dos programas se ejecutan
concurrentemente, pueden leer el valor 500 e, y escribir después 450 e y 400 e, respectivamente.
Dependiendo de cuál escriba el valor en último lugar, la cuenta puede contener 450 e o 400 e, en
lugar del valor correcto, 350 e. Para protegerse contra esta posibilidad, el sistema debe mantener
alguna forma de supervisión. Pero es difícil ofrecer supervisión, ya que muchos programas de
aplicación diferentes que no se han coordinado con anterioridad pueden tener acceso a los datos.
• Problemas de seguridad. No todos los usuarios de un sistema de bases de datos deben poder ac-
ceder a todos los datos. Por ejemplo, en un sistema bancario, el personal de nóminas sólo necesita
ver la parte de la base de datos que contiene información acerca de los diferentes empleados del
banco. No necesitan tener acceso a la información acerca de las cuentas de clientes. Pero, como
los programas de aplicación se añaden al sistema de procesamiento de datos de una forma ad
hoc, es difícil hacer cumplir tales restricciones de seguridad.
Estas dificultades, entre otras, motivaron el desarrollo de los sistemas de bases de datos. En el res-
to del libro se examinarán los conceptos y los algoritmos que permiten que los sistemas de bases de
datos resuelvan los problemas de los sistemas de procesamiento de archivos. En general, en este libro
se usa una entidad bancaria como ejemplo de aplicación típica de procesamiento de datos que puede
encontrarse en una empresa.
1.3 Visión de los datos
Un sistema de bases de datos es una colección de datos interrelacionados y un conjunto de programas
que permiten a los usuarios tener acceso a esos datos y modificarlos. Una de las principales finalidades
de los sistemas de bases de datos es ofrecer a los usuarios una visión abstracta de los datos. Es decir, el
sistema oculta ciertos detalles del modo en que se almacenan y mantienen los datos.
1.3.1 Abstracción de datos
Para que el sistema sea útil debe recuperar los datos eficientemente. La necesidad de eficiencia ha lle-
vado a los diseñadores a usar estructuras de datos complejas para la representación de los datos en la
base de datos. Dado que muchos de los usuarios de sistemas de bases de datos no tienen formación
en informática, los desarrolladores ocultan esa complejidad a los usuarios mediante varios niveles de
abstracción para simplificar la interacción de los usuarios con el sistema:

1.3 Visión de los datos 5
vista 1 vista 2
nivel
lógico
nivel
físico
vista n
…
nivel de vistas
Figura 1.1 Los tres niveles de abstracción de datos.
• Nivel físico. El nivel más bajo de abstracción describe cómo se almacenan realmente los datos. El
nivel físico describe en detalle las estructuras de datos complejas de bajo nivel.
• Nivel lógico. El nivel inmediatamente superior de abstracción describe qué datos se almacenan
en la base de datos y qué relaciones existen entre esos datos. El nivel lógico, por tanto, describe
toda la base de datos en términos de un número pequeño de estructuras relativamente simples.
Aunque la implementación de esas estructuras simples en el nivel lógico puede involucrar es-
tructuras complejas del nivel físico, los usuarios del nivel lógico no necesitan preocuparse de
esta complejidad. Los administradores de bases de datos, que deben decidir la información que
se guarda en la base de datos, usan el nivel de abstracción lógico.
• Nivel de vistas. El nivel más elevado de abstracción sólo describe parte de la base de datos. Aun-
que el nivel lógico usa estructuras más simples, queda algo de complejidad debido a la variedad
de información almacenada en las grandes bases de datos. Muchos usuarios del sistema de bases
de datos no necesitan toda esta información; en su lugar sólo necesitan tener acceso a una parte
de la base de datos. El nivel de abstracción de vistas existe para simplificar su interacción con el
sistema. El sistema puede proporcionar muchas vistas para la misma base de datos.
La Figura 1.1 muestra la relación entre los tres niveles de abstracción.
Una analogía con el concepto de tipos de datos en lenguajes de programación puede clarificar la
diferencia entre los niveles de abstracción. La mayoría de los lenguajes de programación de alto nivel
soportan el concepto de tipo estructurado. Por ejemplo, en los lenguajes tipo Pascal se pueden declarar
registros de la manera siguiente:
type cliente = record
id_cliente : string;
nombre_cliente : string;
calle_cliente : string;
ciudad_cliente : string;
end;
Este código define un nuevo tipo de registro denominado cliente con cuatro campos. Cada campo tie-
ne un nombre y un tipo asociados. Una entidad bancaria puede tener varios tipos de estos registros,
incluidos:
• cuenta, con los campos número_cuenta y saldo.
• empleado, con los campos nombre_empleado y sueldo.
En el nivel físico, los registros cliente, cuenta o empleado se pueden describir como bloques de posi-
ciones consecutivas de almacenamiento (por ejemplo, palabras o bytes). El compilador oculta este nivel

de detalle a los programadores. De manera parecida, el sistema de base de datos oculta muchos de los
detalles de almacenamiento de los niveles inferiores a los programadores de bases de datos. Los admi-
nistradores de bases de datos, por otro lado, pueden ser conscientes de ciertos detalles de la organización
física de los datos.
En el nivel lógico cada registro de este tipo se describe mediante una definición de tipo, como en
el fragmento de código anterior, y también se define la relación entre estos tipos de registros. Los pro-
gramadores que usan un lenguaje de programación trabajan en este nivel de abstracción. De manera
parecida, los administradores de bases de datos suelen trabajar en este nivel de abstracción.
Finalmente, en el nivel de vistas, los usuarios de computadoras ven un conjunto de programas de
aplicación que ocultan los detalles de los tipos de datos. De manera parecida, en el nivel de vistas se
definen varias vistas de la base de datos y los usuarios de la base de datos pueden verlas. Además de
ocultar los detalles del nivel lógico de la base de datos, las vistas también proporcionan un mecanismo
de seguridad para evitar que los usuarios tengan acceso a ciertas partes de la base de datos. Por ejemplo,
los cajeros de un banco sólo ven la parte de la base de datos que contiene información de las cuentas de
los clientes; no pueden tener acceso a la información referente a los sueldos de los empleados.
1.3.2 Ejemplares y esquemas
Las bases de datos van cambiando a lo largo del tiempo conforme la información se inserta y se elimina.
La colección de información almacenada en la base de datos en un momento dado se denomina ejemplar
de la base de datos. El diseño general de la base de datos se denomina esquema de la base de datos. Los
esquemas se modifican rara vez, si es que se modifican.
El concepto de esquemas y ejemplares de las bases de datos se puede comprender por analogía con
los programas escritos en un lenguaje de programación. El esquema de la base de datos se corresponde
con las declaraciones de las variables (junto con las definiciones de tipos asociadas) de los programas.
Cada variable tiene un valor concreto en un instante dado. Los valores de las variables de un programa
en un instante dado se corresponden con un ejemplar del esquema de la base de datos.
Los sistemas de bases de datos tiene varios esquemas divididos según los niveles de abstracción. El
esquema físico describe el diseño de la base de datos en el nivel físico, mientras que el esquema lógico
describe su diseño en el nivel lógico. Las bases de datos también pueden tener varios esquemas en el
nivel de vistas, a veces denominados subesquemas, que describen diferentes vistas de la base de datos.
De éstos, el esquema lógico es con mucho el más importante en términos de su efecto sobre los pro-
gramas de aplicación, ya que los programadores crean las aplicaciones usando el esquema lógico. El
esquema físico está oculto bajo el esquema lógico, y generalmente puede modificarse fácilmente sin
afectar a los programas de aplicación. Se dice que los programas de aplicación muestran independen-
cia!física respecto de los datos si no dependen del esquema físico y, por tanto, no hace falta volver a
escribirlos si se modifica el esquema físico.
Se estudiarán los lenguajes para la descripción de los esquemas, después de introducir el concepto de
modelos de datos en el apartado siguiente.
1.3.3 Modelos de datos
Bajo la estructura de las bases de datos se encuentra el modelo de datos: una colección de herramientas
conceptuales para describir los datos, sus relaciones, su semántica y las restricciones de consistencia.
Los modelos de datos ofrecen un modo de describir el diseño de las bases de datos en los niveles físico,
lógico y de vistas.
En este texto se van a tratar varios modelos de datos diferentes. Los modelos de datos pueden clasi-
ficarse en cuatro categorías diferentes:
• Modelo relacional. El modelo relacional usa una colección de tablas para representar tanto los
datos como sus relaciones. Cada tabla tiene varias columnas, y cada columna tiene un nombre
único. El modelo relacional es un ejemplo de un modelo basado en registros. Los modelos basa-
dos en registros se denominan así porque la base de datos se estructura en registros de formato
fijo de varios tipos. Cada tabla contiene registros de un tipo dado. Cada tipo de registro define un
número fijo de campos, o atributos. Las columnas de la tabla se corresponden con los atributos

1.4 Lenguajes de bases de datos 7
del tipo de registro. El modelo de datos relacional es el modelo de datos más ampliamente usado,
y una gran mayoría de sistemas de bases de datos actuales se basan en el modelo relacional. Los
Capítulos 2 al 7 tratan el modelo relacional en detalle.
• El modelo entidad-relación. El modelo de datos entidad-relación (E-R) se basa en una percepción
del mundo real que consiste en una colección de objetos básicos, denominados entidades, y de las
relaciones entre ellos. Una entidad es una “cosa” u “objeto” del mundo real que es distinguible
de otros objetos. El modelo entidad-relación se usa mucho en el diseño de bases de datos y en el
Capítulo 6 se examina detalladamente.
• Modelo de datos orientado a objetos. El modelo de datos orientado a objetos es otro modelo de
datos que está recibiendo una atención creciente. El modelo orientado a objetos se puede con-
siderar como una extensión del modelo E-R con los conceptos de la encapsulación, los métodos
(funciones) y la identidad de los objetos. En el Capítulo 9 se examina este modelo de datos.
• Modelo de datos semiestructurados. El modelo de datos semiestructurados permite la especi-
ficación de datos donde los elementos de datos individuales del mismo tipo pueden tener dife-
rentes conjuntos de atributos. Esto lo diferencia de los modelos de datos mencionados anterior-
mente, en los que cada elemento de datos de un tipo particular debe tener el mismo conjunto
de atributos. El lenguaje de marcas extensible ( XML, eXtensible Markup Language) se emplea
mucho para representar datos semiestructurados. Se estudia en el Capítulo 10.
El modelo de datos de red y el modelo de datos jerárquico precedieron cronológicamente al relacio-
nal. Estos modelos estuvieron íntimamente ligados a la implementación subyacente y complicaban la
tarea del modelado de datos. En consecuencia, se usan muy poco hoy en día, excepto en el código de
bases de datos antiguas que sigue estando en servicio en algunos lugares. Se describen brevemente en
los Apéndices A y B para los lectores interesados.
1.4 Lenguajes de bases de datos
Los sistemas de bases de datos proporcionan un lenguaje de definición de datos para especificar el
esquema de la base de datos y un lenguaje de manipulación de datos para expresar las consultas y las
modificaciones de la base de datos. En la práctica, los lenguajes de definición y manipulación de datos
no son dos lenguajes diferentes; en cambio, simplemente forman parte de un único lenguaje de bases de
datos, como puede ser el muy usado SQL.
1.4.1 Lenguaje de manipulación de datos
Un lenguaje de manipulación de datos (LMD) es un lenguaje que permite a los usuarios tener acceso a
los datos organizados mediante el modelo de datos correspondiente o manipularlos. Los tipos de acceso
son:
• La recuperación de la información almacenada en la base de datos.
• La inserción de información nueva en la base de datos.
• El borrado de la información de la base de datos.
• La modificación de la información almacenada en la base de datos.
Hay fundamentalmente dos tipos:
• Los LMDs procedimentales necesitan que el usuario especifique qué datos se necesitan y cómo
obtener esos datos.
• Los LMDs declarativos (también conocidos como LMDs no procedimentales) necesitan que el
usuario especifique qué datos se necesitan sin que haga falta que especifique cómo obtener esos
datos.

Los LMDs declarativos suelen resultar más fáciles de aprender y de usar que los procedimentales.
Sin embargo, como el usuario no tiene que especificar cómo conseguir los datos, el sistema de bases de
datos tiene que determinar un medio eficiente de acceso a los datos.
Una consulta es una instrucción que solicita que se recupere información. La parte de los LMDs impli-
cada en la recuperación de información se denomina lenguaje de consultas. Aunque técnicamente sea
incorrecto, resulta habitual usar las expresiones lenguaje de consultas y lenguaje de manipulación de datos
como sinónimas.
Existen varios lenguajes de consultas de bases de datos en uso, tanto comercial como experimen-
talmente. El lenguaje de consultas más ampliamente usado, SQL, se estudiará en los Capítulos 3 y 4.
También se estudiarán otros lenguajes de consultas en el Capítulo 5.
Los niveles de abstracción que se trataron en el Apartado 1.3 no sólo se aplican a la definición o es-
tructuración de datos, sino también a su manipulación. En el nivel físico se deben definir los algoritmos
que permitan un acceso eficiente a los datos. En los niveles superiores de abstracción se pone el énfasis
en la facilidad de uso. El objetivo es permitir que los seres humanos interactúen de manera eficiente con
el sistema. El componente procesador de consultas del sistema de bases de datos (que se estudia en los
Capítulos 13 y 14) traduce las consultas LMD en secuencias de acciones en el nivel físico del sistema de
bases de datos.
1.4.2 Lenguaje de denición de datos
Los esquemas de las bases de datos se especifican mediante un conjunto de definiciones expresadas
mediante un lenguaje especial denominado lenguaje de definición de datos (LDD). El LDD también se
usa para especificar más propiedades de los datos.
La estructura de almacenamiento y los métodos de acceso usados por el sistema de bases de datos se
especifican mediante un conjunto de instrucciones en un tipo especial de LDD denominado lenguaje de
almacenamiento y definición de datos. Estas instrucciones definen los detalles de implementación de
los esquemas de las bases de datos, que suelen ocultarse a los usuarios.
Los valores de los datos almacenados en la base de datos deben satisfacer ciertas restricciones de
consistencia. Por ejemplo, supóngase que el saldo de una cuenta no debe caer por debajo de 100 e. El
LDD proporciona facilidades para especificar tales restricciones. Los sistemas de bases de datos las com-
prueban cada vez que se modifica la base de datos. En general, las restricciones pueden ser predicados
arbitrarios relativos a la base de datos. No obstante, los predicados arbitrarios pueden resultar costosos
de comprobar. Por tanto, los sistemas de bases de datos se concentran en las restricciones de integridad
que pueden comprobarse con una sobrecarga mínima:
• Restricciones de dominio. Se debe asociar un dominio de valores posibles a cada atributo (por
ejemplo, tipos enteros, tipos de carácter, tipos fecha/hora). La declaración de un atributo como
parte de un dominio concreto actúa como restricción de los valores que puede adoptar. Las res-
tricciones de dominio son la forma más elemental de restricción de integridad. El sistema las
comprueba fácilmente siempre que se introduce un nuevo elemento de datos en la base de datos.
• Integridad referencial. Hay casos en los que se desea asegurar que un valor que aparece en una
relación para un conjunto de atributos dado aparece también para un determinado conjunto de
atributos en otra relación (integridad referencial). Las modificaciones de la base de datos pueden
causar violaciones de la integridad referencial. Cuando se viola una restricción de integridad, el
procedimiento normal es rechazar la acción que ha causado esa violación.
• Asertos. Un aserto es cualquier condición que la base de datos debe satisfacer siempre. Las res-
tricciones de dominio y las restricciones de integridad referencial son formas especiales de aser-
tos. No obstante, hay muchas restricciones que no pueden expresarse empleando únicamente
esas formas especiales. Por ejemplo: “Cada préstamo tiene como mínimo un cliente tenedor de
una cuenta con un saldo mínimo de 1.000,00 e” debe expresarse en forma de aserto. Cuando se
crea un aserto, el sistema comprueba su validez. Si el aserto es válido, cualquier modificación
futura de la base de datos se permite únicamente si no hace que se viole ese aserto.
• Autorización. Puede que se desee diferenciar entre los usuarios en cuanto al tipo de acceso que
se les permite a diferentes valores de los datos de la base de datos. Estas diferenciaciones se

1.5 Bases de datos relacionales 9
expresan en términos de autorización, cuyas modalidades más frecuentes son: autorización de
lectura, que permite la lectura pero no la modificación de los datos; autorización de inserción,
que permite la inserción de datos nuevos, pero no la modificación de los datos ya existentes;
autorización de actualización, que permite la modificación, pero no la eliminación, de los datos;
y la autorización de eliminación, que permite la eliminación de datos. A cada usuario se le
pueden asignar todos, ninguno o una combinación de estos tipos de autorización.
El LDD, al igual que cualquier otro lenguaje de programación, obtiene como entrada algunas ins-
trucciones y genera una salida. La salida del LDD se coloca en el diccionario de datos, que contiene
metadatos—es decir, datos sobre datos. El diccionario de datos se considera un tipo especial de tabla,
a la que sólo puede tener acceso y actualizar el propio sistema de bases de datos (no los usuarios nor-
males). El sistema de bases de datos consulta el diccionario de datos antes de leer o modificar los datos
reales.
1.5 Bases de datos relacionales
Las bases de datos relacionales se basan en el modelo relacional y usan un conjunto de tablas para
representar tanto los datos como las relaciones entre ellos. También incluyen un LMD y un LDD. La
mayor parte de los sistemas de bases de datos relacionales comerciales emplean el lenguaje SQL, que
se trata en este apartado y que se tratará con gran detalle en los Capítulos 3 y 4. En el Capítulo 5 se
estudiarán otros lenguajes influyentes.
1.5.1 Tablas
Cada tabla tiene varias columnas, y cada columna tiene un nombre único. En la Figura 1.2 se presenta
un ejemplo de base de datos relacional consistente en tres tablas: una muestra detalles de los clientes de
un banco, la segunda muestra las cuentas y la tercera muestra las cuentas que pertenecen a cada cliente.
La primera tabla, la tabla cliente, muestra, por ejemplo, que el cliente identificado por id_cliente 19.28-
3.746 se llama González y vive en la calle Arenal en La Granja. La segunda tabla, cuenta, muestra, por
ejemplo, que la cuenta C-101 tiene un saldo de 500 e y la C-201 un saldo de 900 e.
La tercera tabla muestra las cuentas que pertenecen a cada cliente. Por ejemplo, la cuenta C-101 per-
tenece al cliente cuyo id_cliente es 19.283.746 (González), y los clientes 19.283.746 (González) y 01.928.374
(Gómez) comparten el número de cuenta C-201 (pueden compartir un negocio).
El modelo relacional es un ejemplo de modelo basado en registros. Los modelos basados en registros
se denominan así porque la base de datos se estructura en registros de formato fijo de varios tipos.
Cada tabla contiene registros de un tipo dado. Cada tipo de registro define un número fijo de campos, o
atributos. Las columnas de la tabla se corresponden con los atributos del tipo de registro.
No es difícil ver cómo se pueden almacenar las tablas en archivos. Por ejemplo, se puede usar un
carácter especial (como la coma) para delimitar los diferentes atributos de un registro, y otro carácter
especial (como el carácter de nueva línea) para delimitar los registros. El modelo relacional oculta esos
detalles de implementación de bajo nivel a los desarrolladores de bases de datos y a los usuarios.
El modelo de datos relacional es el modelo de datos más ampliamente usado, y una gran mayoría de
los sistemas de bases de datos actuales se basan en el modelo relacional. Los Capítulos 2 al 7 tratan el
modelo relacional con detalle.
Obsérvese también que en el modelo relacional es posible crear esquemas que tengan problemas tales
como información duplicada innecesariamente. Por ejemplo, supóngase que se almacena número_cuenta
como atributo de un registro cliente. Entonces, para representar el hecho de que tanto la cuentas C-101
como la cuenta C-201 pertenece al cliente González (con id_cliente 19.283.746) sería necesario almacenar
dos filas en la tabla cliente. Los valores de nombre_cliente, calle_cliente y ciudad_cliente de González estarían
innecesariamente duplicados en las dos filas. En el Capítulo 7 se estudiará el modo de distinguir los
buenos diseños de esquema de los malos.

id cliente nombre cliente calle cliente ciudad cliente
19.283.746 González Arenal, 12 La Granja
67.789.901 López Mayor, 3 Peguerinos
18.273.609 Abril Preciados, 123 Valsaı́n
32.112.312 Santos Mayor, 100 Peguerinos
33.666.999 Rupérez Ramblas, 175 León
01.928.374 Gómez Carretas, 72 Cerceda
(a) La tabla cliente
número cuenta saldo
C-101 500
C-215 700
C-102 400
C-305 350
C-201 900
C-217 750
C-222 700
(b) La tabla cuenta
id cliente número cuenta
19.283.746 C-101
19.283.746 C-201
01.928.374 C-215
67.789.901 C-102
18.273.609 C-305
32.112.312 C-217
33.666.999 C-222
01.928.374 C-201
(c) La tabla impositor
Figura 1.2 Un ejemplo de base de datos relacional.
1.5.2 Lenguaje de manipulación de datos
El lenguaje de consultas de SQL no es procedimental. Usa como entrada varias tablas (posiblemente sólo
una) y devuelve siempre una sola tabla. A continuación se ofrece un ejemplo de consulta SQL que halla
el nombre de todos los clientes que residen en Peguerinos:
select cliente.nombre_cliente
from cliente
where cliente.ciudad_cliente = ’Peguerinos’
La consulta especifica que hay que recuperar (select) las filas de (from) la tabla cliente en las que (where)
la ciudad_cliente es Peguerinos, y que sólo debe mostrarse el atributo nombre_cliente de esas filas. Más
concretamente, el resultado de la ejecución de esta consulta es una tabla con una sola columna denomi-
nada nombre_cliente y un conjunto de filas, cada una de las cuales contiene el nombre de un cliente cuya
ciudad_cliente es Peguerinos. Si la consulta se ejecuta sobre la tabla de la Figura 1.2, el resultado constará
de dos filas, una con el nombre López y otra con el nombre Santos.
Las consultas pueden involucrar información de más de una tabla. Por ejemplo, la siguiente consulta
busca todos los números de cuenta y sus saldos del cliente con id_cliente 19.283.746.

select cuenta.número_cuenta, cuenta.saldo
from impositor, cuenta
where impositor.id_cliente = ’19.283.746’ and
impositor.número_cuenta = cuenta.número_cuenta
Si la consulta anterior se ejecutase sobre las tablas de la Figura 1.2, el sistema encontraría que las dos
cuentas denominadas C-101 y C-201 pertenecen al cliente 19.283.746 y el resultado consistiría en una
tabla con dos columnas (número_cuenta, saldo) y dos filas (C-101, 500) y (C-201,900).
1.5.3 Lenguaje de denición de datos
SQL ofrece un LDD elaborado que permite definir tablas, restricciones de integridad, asertos, etc.
Por ejemplo, la siguiente instrucción del lenguaje SQL define la tabla cuenta:
create table cuenta
(número_cuenta char(10),
saldo integer)
La ejecución de esta instrucción LDD crea la tabla cuenta. Además, actualiza el diccionario de datos,
que contiene metadatos (1.4.2). Los esquemas de las tablas son ejemplos de metadatos.
1.5.4 Acceso a las bases de datos desde los programas de aplicación
SQL no es tan potente como la máquina universal de Turing; es decir, hay algunos cálculos que no pue-
den obtenerse mediante ninguna consulta SQL. Esos cálculos deben escribirse en un lenguaje anfitrión,
como Cobol, C, C++ o Java. Los programas de aplicación son programas que se usan para interactuar
de esta manera con las bases de datos. Algunos de los ejemplos de un sistema bancario serían los progra-
mas que generan las nóminas, realizan cargos en las cuentas, realizan abonos en las cuentas o transfieren
fondos entre las cuentas.
Para tener acceso a la base de datos, las instrucciones LMD deben ejecutarse desde el lenguaje anfi-
trión. Hay dos maneras de conseguirlo:
• Proporcionando una interfaz de programas de aplicación (conjunto de procedimientos) que se
pueda usar para enviar instrucciones LMD y LDD a la base de datos y recuperar los resultados.
El estándar de conectividad abierta de bases de datos (ODBC, Open Data Base Connectivity)
definido por Microsoft para su empleo con el lenguaje C es un estándar de interfaz de programas
de aplicación usado habitualmente. El estándar de conectividad de Java con bases de datos (JDBC,
Java Data Base Connectivity) ofrece las características correspondientes para el lenguaje Java.
• Extendiendo la sintaxis del lenguaje anfitrión para que incorpore las llamadas LMD dentro del
programa del lenguaje anfitrión. Generalmente, un carácter especial precede a las llamadas LMD
y un preprocesador, denominado precompilador LMD, convierte las instrucciones LMD en lla-
madas normales a procedimientos en el lenguaje anfitrión.
1.6 Diseño de bases de datos
Los sistemas de bases de datos se diseñan para gestionar grandes cantidades de información. Esas gran-
des cantidades de información no existen aisladas. Forman parte del funcionamiento de alguna empre-
sa, cuyo producto final puede que sea la información obtenida de la base de datos o algún dispositivo o
servicio para el que la base de datos sólo desempeña un papel secundario.
El diseño de bases de datos implica principalmente el diseño del esquema de las bases de datos. El
diseño de un entorno completo de aplicaciones para la base de datos que satisfaga las necesidades de la
empresa que se está modelando exige prestar atención a un conjunto de aspectos más amplio. Este texto
se centrará inicialmente en la escritura de las consultas a la base de datos y en el diseño de los esquemas
de las bases de datos. En el Capítulo 8 se estudia el proceso general de diseño de las aplicaciones.

1.6.1 Proceso de diseño
Los modelos de datos de alto nivel resultan útiles a los diseñadores de bases de datos al ofrecerles un
marco conceptual en el que especificar, de manera sistemática, los requisitos de datos de los usuarios de
las bases de datos y la manera en que se estructurará la base de datos para satisfacer esos requisitos. La
fase inicial del diseño de las bases de datos, por tanto, es caracterizar completamente los requisitos de
datos de los hipotéticos usuarios de la base de datos. Los diseñadores de bases de datos deben interac-
tuar ampliamente con los expertos y usuarios del dominio para llevar a cabo esta tarea. El resultado de
esta fase es la especificación de los requisitos de los usuarios.
A continuación, el diseñador escoge un modelo de datos y, mediante la aplicación de los conceptos
del modelo de datos elegido, traduce esos requisitos en un esquema conceptual de la base de datos.
El esquema desarrollado en esta fase de diseño conceptual ofrece una visión general detallada de la
empresa. El diseñador revisa el esquema para confirmar que todos los requisitos de datos se satisfacen
realmente y no entran en conflicto entre sí. El diseñador también puede examinar el diseño para eliminar
cualquier característica redundante. En este punto, la atención se centra en describir los datos y sus
relaciones, más que en especificar los detalles del almacenamiento físico.
En términos del modelo relacional, el proceso de diseño conceptual implica decisiones sobre qué atri-
butos se desea capturar en la base de datos y cómo agruparlos para formar las diferentes tablas. La parte
“qué” es, esencialmente, una decisión conceptual, y no se seguirá estudiando en este texto. La parte del
“cómo” es, esencialmente, un problema informático. Hay dos vías principales para afrontar el problema.
La primera supone usar el modelo entidad-relación (Apartado 1.6.3); la otra es emplear un conjunto de
algoritmos (denominados colectivamente como normalización) que toma como entrada el conjunto de
todos los atributos y genera un conjunto de tablas (Apartado 1.6.4).
Un esquema conceptual completamente desarrollado también indica los requisitos funcionales de la
empresa. En la especificación de requisitos funcionales los usuarios describen el tipo de operaciones
(o transacciones) que se llevarán a cabo con los datos. Un ejemplo de estas operaciones es modificar
o actualizar los datos, buscar y recuperar datos concretos y eliminar datos. En esta etapa del diseño
conceptual el diseñador puede revisar el esquema para asegurarse de que satisface los requisitos fun-
cionales.
El proceso de pasar de un modelo de datos abstracto a la implementación de la base de datos continúa
con dos fases de diseño finales. En la fase de diseño lógico el diseñador relaciona el esquema conceptual
de alto nivel con el modelo de implementación de datos del sistema de bases de datos que se va a
usar. El diseñador usa el esquema de bases de datos específico para el sistema resultante en la fase
de diseño físico posterior, en la que se especifican las características físicas de la base de datos. Entre
esas características están la forma de organización de los archivos y las estructuras de almacenamiento
interno; se estudian en el Capítulo 11.
1.6.2 Diseño de la base de datos para una entidad bancaria
Para ilustrar el proceso de diseño, examinemos el modo en que puede diseñarse una base de datos
para una entidad bancaria. La especificación inicial de los requisitos de los usuarios puede basarse en
entrevistas con los usuarios de la base de datos y en el análisis de la entidad realizado por el propio
diseñador. La descripción que surge de esta fase de diseño sirve como base para especificar la estructura
conceptual de la base de datos. Éstas son las principales características de la entidad bancaria:
• El banco está organizado en sucursales. Cada sucursal se ubica en una ciudad determinada y
queda identificada por un nombre único. El banco supervisa los activos de cada sucursal.
• Los clientes quedan identificados por el valor de su id_cliente. El banco almacena el nombre de
cada cliente y la calle y la ciudad en la que vive. Los clientes pueden abrir cuentas y solicitar
préstamos. Cada cliente puede asociarse con un empleado del banco en concreto, que puede
actuar como prestamista o como asesor personal para ese cliente.
• El banco ofrece dos tipos de cuenta: de ahorro y corriente. Las cuentas pueden tener como titular
a más de un cliente, y cada cliente puede abrir más de una cuenta. A cada cuenta se le asigna
un número de cuenta único. El banco guarda un registro del saldo de cada cuenta y de la fecha

más reciente en que cada cliente titular de esa cuenta tuvo acceso a ella. Además, cada cuenta de
ahorro tiene una tasa de interés y se registran los descubiertos de las cuentas corrientes.
• El banco ofrece préstamos a sus clientes. Cada préstamo se origina en una sucursal concreta
y puede tener como titulares a uno o más clientes. Cada préstamo queda identificado por un
número de préstamo único. De cada préstamo el banco realiza un seguimiento del importe del
préstamo y de sus pagos. Aunque el número de pago del préstamo no identifica de manera única
un pago concreto entre todos los del banco, el número de pago identifica cada pago concreto de
un préstamo dado. Se registran la fecha y el importe de cada pago.
• Los empleados del banco quedan identificados por el valor de su id_empleado. La administración
del banco almacena el nombre y número de teléfono de cada empleado, el nombre de las personas
dependientes de cada empleado y el número de id_empleado del jefe de cada empleado. El banco
también realiza un seguimiento de la fecha de contratación y, por tanto, de la antigüedad de cada
empleado.
En las entidades bancarias reales, el banco realizaría un seguimiento de los depósitos y de los reinte-
gros de las cuentas de ahorro y corrientes, igual que realiza un seguimiento de los pagos de las cuentas
de crédito. Dado que los requisitos de modelado para ese seguimiento son parecidas y nos gustaría que
la aplicación de ejemplo no tuviera un tamaño excesivo, en nuestro modelo no se realiza el seguimiento
de esos depósitos y reintegros.
1.6.3 El modelo entidad-relación
El modelo de datos entidad-relación (E-R) está basado en una percepción del mundo real que consiste en
un conjunto de objetos básicos, denominados entidades, y de las relaciones entre esos objetos. Una entidad
es una “cosa” u “objeto” del mundo real que es distinguible de otros objetos. Por ejemplo, cada persona
es una entidad, y las cuentas bancarias pueden considerarse entidades.
Las entidades se describen en las bases de datos mediante un conjunto de atributos. Por ejemplo,
los atributos número_cuenta y saldo pueden describir una cuenta concreta de un banco y constituyen
atributos del conjunto de entidades cuenta. Análogamente, los atributos nombre_cliente, calle_cliente y
ciudad_cliente pueden describir una entidad cliente.
Se usa un atributo extra, id_cliente, para identificar unívocamente a los clientes (dado que es posible
que haya dos clientes con el mismo nombre, calle y ciudad). Se debe asignar un identificador de clien-
te único a cada cliente. En Estados Unidos, muchas empresas usan el número de la seguridad social
de cada persona (un número único que el Gobierno de Estados Unidos asigna a cada persona) como
identificador de cliente.
Una relación es una asociación entre varias entidades. Por ejemplo, la relación impositor asocia un
cliente con cada cuenta que tiene. El conjunto de todas las entidades del mismo tipo, y el conjunto de
todas las relaciones del mismo tipo se denominan, respectivamente, conjunto de entidades y conjunto
de relaciones.
La estructura lógica general (esquema) de la base de datos se puede expresar gráficamente mediante
un diagrama E-R, que está constituido por los siguientes componentes:
• Rectángulos, que representan conjuntos de entidades.
• Elipses, que representan atributos.
• Rombos, que representan conjuntos de relaciones entre miembros de varios conjuntos de entida-
des.
• Líneas, que unen los atributos con los conjuntos de entidades entre sí, y también los conjuntos
de entidades con las relaciones.
Cada componente se etiqueta con la entidad o relación que representa.
Como ilustración, considérese parte de un sistema bancario de bases de datos consistente en los clien-
tes y las cuentas que tienen esos clientes. La Figura 1.3 muestra el diagrama E-R correspondiente. El

nombre_cliente calle_cliente
id_cliente ciudad_cliente
cliente
saldo
cuenta
impositor
número_cuenta
Figura 1.3 Un ejemplo de diagrama E-R.
id cliente número cuenta saldo
19.283.746 C-101 500
19.283.746 C-201 900
01.928.374 C-215 700
67.789.901 C-102 400
18.273.609 C-305 350
32.112.312 C-217 750
33.666.999 C-222 700
01.928.374 C-201 900
Figura 1.4 La tabla impositor’.
diagrama E-R indica que hay dos conjuntos de entidades, cliente y cuenta, con los atributos descritos
anteriormente. El diagrama también muestra la relación impositor entre cliente y cuenta.
Además de entidades y relaciones, el modelo E-R representa ciertas restricciones que los contenidos
de la base de datos deben cumplir. Una restricción importante es la correspondencia de cardinalidades,
que expresa el número de entidades con las que otra entidad se puede asociar a través de un conjunto
de relaciones. Por ejemplo, si cada cuenta sólo debe pertenecer a un cliente, el modelo puede expresar
esa restricción.
El modelo entidad-relación se usa ampliamente en el diseño de bases de datos, y en el Capítulo 6 se
explora en detalle.
1.6.4 Normalización
Otro método de diseño de bases de datos es usar un proceso que suele denominarse normalización.
El objetivo es generar un conjunto de esquemas de relaciones que permita almacenar información sin
redundancias innecesarias, pero que también permita recuperar la información con facilidad. El enfoque
es diseñar esquemas que se hallen en la forma normal adecuada. Para determinar si un esquema de
relación se halla en una de las formas normales deseadas, hace falta información adicional sobre la
empresa real que se está modelando con la base de datos. El enfoque más frecuente es usar dependencias
funcionales, que se tratan en el Apartado 7.4.
Para comprender la necesidad de la normalización, obsérvese lo que puede fallar en un mal diseño
de base de datos. Algunas de las propiedades no deseables de un mal son:
• Repetición de la información.
• Imposibilidad de representar determinada información.
Se examinarán estos problemas con la ayuda de un diseño de bases de datos modificado para el ejemplo
bancario.
Supóngase que, en lugar de tener las dos tablas separadas cuenta e impositor, se tiene una sola tabla,
impositor’, que combina la información de las dos tablas (como puede verse en la Figura 1.4). Obsér-
vese que hay dos filas de impositor’ que contienen información sobre la cuenta C-201. La repetición de
información en este diseño alternativo no es deseable. La repetición de información malgasta espacio.

Silver.pdf

Recomendados

Recomendados

Más contenido relacionado

Similar a Silver.pdf

Similar a Silver.pdf (20)

Más de VICTORMORO11

Más de VICTORMORO11 (9)

Último

Último (11)

Silver.pdf