Apuntes de organizacion_de_archivos

I.E.S

Administración de Archivos

SEPTIMO CUATRIMESTRE
Lic. Sistemas computacionales
JESUS MARTINEZ FAJARDO

V.P.M.

1

I.E.S


Unidad I.
Dispositivos de almacenamiento externo
•
•
•
•
•
•
•
•
•

1.1 Tecnologías IDE y SCSI.
1.2 Tarjetas Controladoras.
1.3 Config.Sys y Autoexec.Bat
1.4 Buffer
1.5 Cinta Magnética
1.6 Discos Flexibles
1.7 Discos Duros
1.8 Cd ROM
1.9 Zip y Jaz

IDE
Un nuevo enfoque de interfaz unidad/controlador es la llamada IDE, Integrated
Drive Electronics (Electrónica Integrada de Unidad). Tal vez es el cable mas corto
del mundo de Controlador/Unidad, se encuentra en una unidad IDE. Reúne 25 a
35 sectores en una pista que usa básicamente tecnologías ST506.
En vez de la unidad y el controlador por separado, IDE coloca el controlador
directamente dentro de la unidad en busca de eliminar perdida de datos entre la
unidad y el controlador. Los IDE se conectan al bus en una de tres formas.
1. La unidad/Controlador IDE se conecta a una ranura del bus si es una
hardcard (tarjeta dura).
2. La mayor parte de las IDE hoy día se conectan al bus con una simple
tarjeta de paso (Paddle). Bajo este esquema un cable de 40
conductores corre de la
Unidad/Controlador IDE a una tarjeta
adaptadora IDE, que realmente no
es mas que una tarjeta enchufada a una ranura de expansión tal que
entregue los datos al bus.
3. Mas y mas tarjetas madre incluye un conector IDE directamente en la
tarjeta.
Dentro de esta tecnología (IDE) hay dos cosas que no se deben de realizar, no se
le puede dar mantenimiento mediante programas y no se le debe formatear a bajo
nivel porque puede dañar la unidad.
Los pasos para instalar una unidad sencilla IDE son:

V.P.M.

2

I.E.S


1. Instale el adaptador IDE (recuerde que IDE coloca el controlador del disco
en la unidad
misma; por lo tanto no existen "Controladores IDE").
2. Monte la unidad IDE en el gabinete.
3. Conecte la energía en la unidad IDE.
4. Conecte ambos extremos del cable tipo listón de 40 conductores de la
unidad al adaptador.

Con un controlador IDE no puedes tener conectados dos discos duros y una
cinta, ya que los controladores IDE solo pueden controlar dos discos duros.

SCSI

SCSI (se pronuncia scosi), significa SMALL COMPUTER SYSTEMS
INTERFACE (Interfaz de Sistemas Pequeños de Computo). Esta interfaz se utiliza
para conectar varios periféricos a una computadora, alojando hasta ocho
diferentes tipos (Id0 a Id7) para conectarse a un adaptador anfitrión SCSI de la
PC. SCSI es el único modo de conectar varios dispositivos de entrada y salida
(Por ejemplo: Scanner, Plotters, Discos duros, Unidad de Cd-Rom, Impresoras,
Cámaras de vídeo y unidades de respaldo con cinta) a la PC de un modo
consistente.
SCSI es normalmente de mayor capacidad que los IDE y ofrecen mejores
prestaciones. La principal desventaja de los SCSI radica en su precio y en su
mayor dificultad de instalación. Dentro de esta interface podemos distinguir entre
el SCSI (ancho de banda de 8 bits), SCSI-2 (ancho de banda de 16 bits), Fast
Wide SCSI -2 (ancho de banda de 16 bits y transferencia máxima en modo
sincrono de 20 Mbytes por segundo), Ultra SCSI (ancho de banda de 8 bits y
velocidad de transferencia máxima de 29 Mbytes por segundo) y Ultra Wide SCSI
(ancho de banda de 16 bits y velocidad máxima de transferencia de 49 Mbytes por
segundo).

V.P.M.

3

I.E.S


Cada periférico SCSI tiene inteligencia propia, a diferencia de los puertos serie y
paralelo. Al escribir datos en la unidad de disco SCSI, el CPU solo envía el
mensaje "Escribir datos, disco duro-1" y los datos son escritos en el disco duro. El
disco duro toma el mensaje, toma los datos y los escribe, luego envía un mensaje
de regreso "datos escritos". Una vez que el mensaje fue enviado, el CPU puede
dedicarse a otros trabajos.
La interfaz SCSI tiene unos resistores de terminación que se utilizan para que la
señal no se regrese o rebote (cuando hay mas de dos dispositivos conectados) en
el bus. Estos se encargan de retener la señal a la entrada del dispositivo hasta
que este la capte. Tiene también siete jumpers en los cuales se configuran las
direcciones de diferentes dispositivos conectados a la interface.
Algunos tipos de discos y unidades de cinta que tienen interfaz SCSI

Unidades de disco removibles como Bernoulli y
Syquest, Dispositivos de Almacenamiento
UNIDADES DE DISCO DURO
Winchester sellados, CD-ROM.

DISCOS WORM (WRITE
ONCE, READ MANY TIMES)
ESCRIBIR UNA VEZ, LEER
MUCHAS VECES.

UNIDADES DE CINTA

V.P.M.

Unidad óptica reescribible, Unidades ópticas
multifuncionales puede usar discos WORM o
discos reescribibles, Unidad óptica con
cambiador automático de discos, funciona igual
que las maquinas antiguas que cambiaban
discos automáticamente y las nuevas que
cambian discos compactos automáticamente,
Unidades de disco flopticas y Unidades de
disquetes.
Unidades DAT (Digital Audio Tape, Cinta
Digital de Audio), Unidades de 8 mm del mismo
tamaño que las cintas de vídeo de 8 mm.,
cartuchos de un cuarto de pulgada, unidades
de cartucho que normalmente se utilizan para
respaldo, Cinta óptica digital.

4

I.E.S


1.2 Tarjetas Controladoras
Todos los dispositivos periféricos, tanto internos como externos necesitan
valerse de algún medio para comunicarse entre ellos y las computadoras. Algunas
veces les llaman controladores, interfaces, puertos o adaptadores.
Básicamente un controlador es un traductor entre la CPU y el dispositivo periférico
como discos duros, disquete, teclado o monitor. Básicamente los controladores
ejecutan las siguientes funciones:
a. Aíslan el equipo de los programas.
b. Adecuan las velocidades entre los dispositivos que
operan a diferentes velocidades.
c. Convierten datos de un formato a otro.
La infraestructura de componentes es mucho mejor y diferente, así que uno se
imagina que habría grandes problemas de compatibilidad; sin embargo el equipo
ha sido domesticado para responder a las solicitudes de la CPU del mismo modo
(aunque con mayor rapidez) que el viejo controlador de IBM diseñado por Cebe.
Existe la misma situación respecto de los controladores de vídeo diseñados por
ATI o Paradise: responden a los mismos programas que los CGA, EGA o VGA
originales de IBM, pero son mas baratos y generalmente trabajan con mayor
rapidez. Utilizar controladores con interfaces bien definidas hace posible construir
equipo compatible.
Como manejar la igualdad de velocidades
La mayor parte de los dispositivos periféricos son considerablemente mas lento
que la CPU transferir datos. Aun el disco duro por ejemplo, es miles de veces mas
lento que la CPU.
La mayor parte de las micro computadoras (como la CPU) han sido diseñadas
para controlar todo lo de sus sistemas, pero no es necesario. Una compañía
llamada Cogent Data Systems fabrica un controlador de disco duro para las
maquinas de clase AT que tienen memoria y un microprocesador directamente en
el : La CPU principal solo hace una solicitud de controlador del disco duro, y luego
(con programación adecuada) sale a hacerse cargo de alguna otra cosa mientras
espera que el controlador haga su trabajo.
Eventualmente, el controlador le informa a la CPU que termino con la solicitud de
datos, y que los datos han sido transferidos a la memoria de la CPU.
Verdaderamente, los beneficios de la "Igualación de velocidad" de los
controladores no han sido explotados en el mundo de la PC, ya que no existe aun
la Computación Distribuida interna.

V.P.M.

5

I.E.S


Conversiones a partir de formato de CPU
Los controladores convierten los datos del formato de la CPU (+5 volts, digital,
etc.) a cualquiera que sea el formato el que utilizan los periféricos (por ejemplo, lo
que se llama Modified Frecuency Modulation para los discos duros anteriores).
La CPU habla su propio lenguaje eléctrico con otros chips de la tarjeta madre,
pero es un lenguaje que no tiene mucho poder - Una CPU no podría "gritar" con
suficiente fuerza para ser oído lejos en una LAN.
Los dispositivos, como monitores necesitan que las señales sean modificadas
hacia formas que pueden utilizar. Una vez mas los monitores sirven para ello.
Un sistemas típico tiene controlador de teclado, controlador de vídeo,
controladores para el disco duro y los disquete, y controladores-interfaz para los
puertos serie y paralelo.
Muchos piensan que un controlador debe alojarse en su propia tarjeta, no es
así, el controlador de teclado generalmente no es una tarjeta, sino un chip en la
tarjeta madre. Los controladores de disco duro y disquete están generalmente
separados en las maquinas tipo XT, pero en las misma tarjeta en la mayor parte
de las maquinas de clase AT. Como hemos visto, muchas de las maquinas nuevas
ponen los controladores de vídeo, disco duro, disquete, puerto paralelo y serie
todos en una sola tarjeta; la tarjeta madre.
Monitores y adaptadores de vídeo
Las PC, igual que la mayor parte de las computadoras, utilizan tecnología de
tubo de rayos catódicos (CTR Cathode Ray Tube) para mostrar la información al
usuario. Para que la computadora se comunique con un monitor de imagen, se
requiere de un adaptador de imagen insertado en una de las ranuras de expansión
de la PC. Existen varios adaptadores de imagen disponibles:
1. MDA (Monochrome Display Adapter) de las IBM y
compatibles.
2. Hercules Monochrome Graphics Adapter y compatibles.
3. CGA (Color/Graphics Adpter) y compatibles de IBM.
4. EGA (Enhanced Graphics Adapter) y compatibles de
IBM.
5. PGA (Professional Graphics Adapter) y compatibles de
IBM.
6. VGA (Vídeo Graphics Array) de IBM.
7. MCGA (Multi Color Graphics Array) de IBM.
8. 8514/A VGA (Very High Resolution Graphics Array) de
IBM.
9. XGA (Extended Graphics Array).
10. Adaptadores gráficos de alta resolución que no son de
IBM.

V.P.M.

6

I.E.S


Cada adaptador puede dar servicio a uno o mas tipos de pantallas. Las familias
principales de pantallas son las siguientes:
a. Monitores monocromáticos TTL.
b. Monitores de vídeo compuesto.
c. Monitores RGB.
d. Monitores RGB de alta resolución.
e. Monitores Multiscan.
Controladores y unidades de disco para disco duro y disquete
La unidad de disquete (o floppy disk) es un periférico esencial. Dado que es un
periférico requiere de una tarjeta de interfaz. Esta tarjeta se llama controlador de
disquete.
Tenemos la tendencia a no pensar que determinadas tarjetas, como las tarjetas
del puerto paralelo o de vídeo, sean especificas para AT o sean especificas para
XT. Sin embargo los controladores de disco duro de las XT son radicalmente
diferentes de los controladores de la AT, en general no son intercambiables
Interfaces de impresora.
Una impresora requiere de una interfaz, básicamente un puerto paralelo o serie.
En el caso del puerto, la interfaz generalmente presenta pocos o ningún problema.
Los puertos serie algunas veces pueden ser problemáticos.
Los puertos de impresora han sido denominados de manera que DOS pueda
usar su nombre para referirse a ellos. DOS llama al primer puerto de impresora de
una PC LPT1, DOS también da soporte a LPT1 y LPT3.
Módem y puertos de comunicación.
La otra interfaz común para impresoras es el puerto serie. Sin embargo este se
utiliza con mas frecuencia para los módems. Los módem permiten a las
computadoras comunicarse a larga distancia con otras a través de las líneas
telefónicas.
Reloj Calendario del sistema.
El reloj calendario del sistema marca la fecha y hora aun cuando la unidad este
apagada. Las maquinas tipo AT están diseñadas para incluir el reloj directamente
en la tarjeta madre. Las de tipo XT no lo tienen, así que necesitan arreglárselas
con ayuda de tarjetas accesorias.

V.P.M.

7

I.E.S


Interfaz SCSI
Mas y mas computadoras vienen con una tarjeta de adaptador anfitrión SCSI
(Interfaz de Pequeños Sistemas de computación). Se puede utilizar un adaptador
SCSI para conectar la PC a algunos tipos de discos duros a la mayor parte de las
unidades ópticas, a scanner o a unidades de cinta.

1.3 Config.sys y Autoexec.bat
Cada vez que se pone en marcha el sistema, el Dos busca en la raíz dos
archivos especiales: el config.sys y el autoexec.bat.
Como ya se sabe el autoexec.bat es un archivo especial de procesamiento por
lotes cuyas ordenes son ejecutadas por el Dos de forma automática cada vez que
se inicia el sistema.

Procesamiento por lotes
Por lo general estamos en constante interacción con la computadora, a este
proceso se le denomina procesamiento interactivo el cual forma la mayor parte del
procesamiento hoy en día.
El procesamiento en el cual el sistema obtiene las ordenes a partir de un
archivo en lugar de obtenerlas del usuario a través del teclado se denomina
procesamiento por lotes y sus extensión es .bat y como hay algunas aplicaciones
que están formadas por varios programas pequeños que se ejecutan
secuencialmente. Este proceso ayuda en el ahorro de tiempo, sino también en
escritura.
Las siguientes reglas proporcionan las líneas maestras para crear procedimiento
por lotes.
a. No dar nombres de ordenes del Dos tales como cls.bat
a los archivos por lotes, ya que no podrán encontrarse
los archivos .bat.
b. El Dos ejecuta los com y exe antes de los Bat de igual
nombre con cargo a la estrategia de búsqueda indicada
en la orden del path.
c. Los archivos por lotes deben tener la extensión .bat.
d. Si se invoca a un proceso, por lotes que reside en un
disco flexible y después se saca el disco, al finalizar el
programa se insertara el disco.
e. Al cambiar la unidad de disco o directorio por defecto
durante la ejecución del archivo .bat no afecta.
El dos proporciona varias ordenes que mejoran el procesamiento por lotes:

V.P.M.

8

I.E.S


Rem [mensaje]
Pause [mensaje]
Echo [on/off/mensaje]
Goto [Etiqueta]
If [Not] Condición orden -del -Dos
For variable in (conjunto) do orden del Dos
Shift
REM
Visualiza mensajes en pantalla durante el procedimiento por lotes
PAUSE
Es similar al Rem, pero suspende temporalmente el procesamiento hasta pulsar
una tecla
ECHO
Permite o impide la visualización de nombres de ordenes del Dos, no inhibe la
salida producida por las ordenes, su longitud es de 117 caracteres, cuando esta
activado visualiza los nombres de todas las ordenes en pantalla a medida que se
ejecuta.
GOTO
Proporciona un mecanismo para hacer un salto dentro de un archivo de
procesamiento por lotes.
IF
Es el procesamiento condicional dentro de las ordenes del dos.
FOR
Proporciona un mecanismo para hacer un procesamiento repetitivo dentro de un
archivo .bat
SHIFT
Se utiliza para utilizar mas de 10 parámetros, se limita a hacer rotar los
parámetros un lugar hacia la izquierda.

AUTOEXEC.BAT
Cada vez que se inicia el sistema, el dos busca en la raíz del disco de arranque
el archivo AUTOEXEC.BAT si este archivo existe el dos ejecuta los comandos
contenidos en el. Si el dos no localiza el archivo AUTOEXEC.BAT este procede a
ejecutar el comando DATE seguido del comando TIME.

V.P.M.

9

I.E.S


Los archivos .bat se ejecutan lentamente por que el Dos tiene que interpretar
cada orden antes de ejecutarla. Así que no están hechos para usarlos como
lenguaje de programación.
PATH
El Path no es mas que una lista de subdirectorios que usa el Dos para buscar
cuando un programa no se encuentra en el subdirectorio actual, la sintaxis del
path es:
PATH= C ; Sub1; Sub2; ... Subn;
SUBST
Uno de los problemas del comando Path es que solo puede contener 127
caracteres en una lista al igual que otros comandos del Dos. Pero Path por si solo
tiene 5 caracteres lo que nos queda solo 122 caracteres para la ruta. Una solución
para este problema es el comando Subst, el cual constituye una ruta de
subdirectorios por una letra del drive como:
SUBST D: C: DOS
SUBST E: C: WP
Entonces tu puedes usar D: siempre que quieras ir al subdirectorio C: Dos.
VERIFY
Este comando cuando esta activo en "On" causa que el Dos verifique que los
datos escritos en disco hayan sido grabados correctamente. Entonces el Dos leerá
del disco los datos que fueron escritos y compara con los datos originales que se
supone fueron escritos. Si estos concuerdan se procederá con el proceso de
escritura de lo contrario mandara un mensaje de error.
Sin embargo el Verifique hace la operación de escritura en un disco mas lenta,
puesto que después de cada escritura verifica que los datos se hayan escrito
correctamente.
MODE
El programa Mod.com es usado para configurar los puertos seriales en la PC, por
ejemplo: si yo quisiera usar en módem a 2400 baudios, yo tendría que ejecutar el
siguiente comando:
MODE COM1 : 2400, ...
Si yo siempre usara mi módem a 2400 baudios, yo tendría que incluir el
comando Mode en mi archivo autoexec.bat. Las impresoras seriales y plotters
típicos requieren un comando o conjunto de comandos similares.
El software residente en memoria (también llamado TSR) es un software que
esta en memoria hasta que se reinicie el sistema o especifique removerlo de la
memoria.
Generalmente el software es llamado 1 sola vez. Al intentar llamarlo una segunda
vez, cuando esta residente en memoria puede causar problemas. Este problema
hace que el Autoexec.bat sea una excelente manera de llamarlo, así no tendrás
que preocuparte por mandarlo llamar nuevamente.
V.P.M.

10

I.E.S


En general algunas de las tareas mas importantes del Autoexec.bat son:
a. Efectúa algunas tareas de configuración final que no se efectúan en
el Config.sys.
b. Define un Path o ruta de caminos
c. Crea cualquier otra variable de medio ambiente requerida por el
sistema, algunas variables comspec son creadas automáticamente,
otras es necesario especificarlas (Comando SET).
d. Define el prompt inicial del sistema.
e. Carga cualquier tipo de programa residente en memoria.
A continuación un pequeño ejemplo de lo que podría ser un archivo
AUTOEXEC.BAT

@ ECHO OFF
REM NAME
: AUTOEXEC.BAT
REM VERSION : 4.01
REM DATE
: Abril 28, 1999
REM Ponerle un nuevo formato al prompt del sistema
PROMPT = $P $d$g
REM El path del sistema...
PATH = C: ; C: DOS; C: BORLANDC; C: KILLER
REM Sustituyendo una ruta por un drive lógico
SUBST D : C : Utilerias Wp
REM Borrar archivos .TMP que aparezcan en C: WORD
IF EXIST C: WORD *.TMP DEL C: WORD *.TMP
^Z

1.4 Buffer
Es un área de memoria principal reservada para contener los datos leídos de un
archivo mientras se utilizan. Cuando esta área temporal queda llena, el programa
puede empezar a utilizar estos datos.
Manejar un buffer implica trabajar con grandes grupos de datos de memoria Ram
para que el número de accesos al almacenamiento se reduzca.
El sistema operativo es quien maneja realmente los buffer del sistema. La
entrada buffer del CONFIG.SYS permite especificar el numero de
almacenamientos intermedios (o accesos) de discos que ha de usar del DOS, esto
dependerá del tipo de configuración de cada sistema y se mide en términos de
tiempos que consume el desplazamiento, el retraso por rotación y el tiempo de
transferencia. Cada sector objeto de lectura anticipada consume un equivalente de
memoria de 512 bytes.

V.P.M.

11

I.E.S


En esta ocasión se revisaran diversas formas de administrar el buffer para tratar
de reducir lo mas posible los costosos accesos a dispositivos que son muy lentos
respecto al CPU.
Almacenamiento temporal único por demanda.
Es utilizado cuando existe un registro por bloque y un almacenamiento por
archivo. En este caso el buffer es llenado por demanda del programa del usuario.
El buffer contiene un apuntador al programa y un área de datos.
El programa de canal es similar a este:
1. Esperar que se pida una lectura.
2. Mandar una orden de E/S a la unidad de control.
3. Esperar a que se llene el buffer.
4. Generar una interrupción para que se utilice el buffer.
En esta espera el CPU y el programa del usuario están ociosos.
Almacenamiento temporal por anticipación.
Se utiliza para evitar esos tiempos ociosos, o sea que se pretende anticipar a la
solicitud de lectura del programa manteniendo el buffer lleno.
La estructura de este tipo de buffer esta formado por un apuntador al programa,
una bandera de estado (0 vacío, 1 lleno) y el área de datos.
El canal esta revisando continuamente la bandera y si el buffer utiliza la bandera
cambia su estado para que el buffer sea llenado de nuevo.
Programa de canal para llenar el buffer:
Ciclo: Si bandera=1 ir a ciclo
Emite un comando de inicio E/S a la Unidad de Control
Esperar mientras el buffer se llena
Bandera = 1
Ir a ciclo.
Programa de canal para desalojar el buffer:
Espera: Si bandera =0 ir a espera
Lee el contenido del buffer en el área de trabajo del registro
Bandera = 0
Ir a espera.

V.P.M.

12

I.E.S


Almacenamiento temporal con bloques.
Este caso se utiliza para cuando en el bloque leído existen n registros. La
estructura del buffer incluye un contador (respecto a la estructura anterior) para
indicar el registro (registro del buffer) próximo a leer.
Programa de canal para llenar el buffer:
Ciclo: Si bandera = 1 ir a ciclo
Emite un comando de E/S a la unidad de control
Esperar mientras el buffer se llena
Contador = 1
Bandera = 1
Ir a ciclo.
Programa de canal para desalojar el buffer:
Espera : Si bandera = 0 ir a espera.
Lee el registro (contador) dentro del área de trabajo.
contador = contador +1
Si contador > n
Bandera = 0
Vete a espera
La rutina de desalojo esta en espera de las lecturas, pero el programa puede
ejecutar otras instrucciones en ese tiempo y mientras se desaloja no puede ser
llenado.
Doble almacenamiento temporal.
Es utilizado para n registros por bloque, en este caso existen dos buffers, uno
se llena mientras el otro desaloja, esto reduce la espera.
Lógicamente la estructura del buffer cambia, incluye un apuntador al otro buffer.
Existen dos apuntadores para utilizar la anticipación de llenado y desalojo, estos
son:
P-llenar: Apunta al buffer que se esta llenando o debe llenarse.
P_desalojo: Apunta al buffer que se esta desalojando o debe desalojarse.
Se llena el buffer apuntado por P-llenar

V.P.M.

13

I.E.S


Programa de llenado:
Ciclo: Si P-llenar^ .bandera = 1 ir a ciclo
Emite comando de E/S a la U. de C.
Esperar mientras P-llenar^ .buffer está llenándose
P-llenar^ .contador = 1
P-llenar^ .bandera = 1
P-llenar = P-llenar^ .siguiente
Ir a ciclo.
El programa se cicla cuando un buffer está lleno y el otro no está totalmente vacío.
Programa de desalojo:
Espera: Si P-desalojo^ .bandera-llenar=0 ir a espera
Leer registro (P-vacio^ .contador) dentro del área de trabajo del
registro
P-desalojo^ .contador = P-desalojo^ .contador + 1
Si P-desalojo^ .contador > n
P-desalojo^ .bandera - llenar = 0
P-desalojo = P-desalojo^ .siguiente
Ir a espera.
Esta rutina esta en ciclo solo cuando un buffer ya desalojó y el otro está vacío o
empieza a llenarse.
Si el buffer es llenado con más rapidez que desalojado, el programa permanecerá
en ciclo, pero esto es preferible a tener ocioso al CPU. Existe una forma de
atenuar este problema y es encadenar mas buffers.
Triple almacenamiento temporal.
En esta situación se pretende que el buffer 1 este lleno, el buffer 2 se este
llenando y el buffer 3 este desalojando.
Si persiste el problema de que el llenado es más rápido que el desalojo, la
rutina de desalojo tendrá que esperar. El tener varios buffers en actividad es que
los periodos ociosos se reducen, pero a su vez aumenta la complejidad, el tiempo
de ejecución de las rutinas de llenado y desalojo y lo que se requiere de memoria
principal.

1.5 Cinta Magnética
La unidad de cinta es un dispositivo de acceso secuencial, esto quiere decir que
no puede saltar sobre la superficie del cassette como los discos.

V.P.M.

14

I.E.S


La cinta magnética es frecuentemente usada para respaldar el contenido de las
unidades de disco duro, además , es muchas veces el medio elegido para
almacenar archivos grandes que se leen y procesan de manera secuencial..
Si se desea acceder a algún registro se debe primero pasar por los primeros
registros hasta llegar al deseado. Debido a que se debe acceder secuencialmente;
es muy difícil leer y escribir en una misma cinta.

ALMACENAMIENTO DE DATOS EN CINTA MAGNÉTICA

Los datos se almacenan en forma de pequeñas marcas en el material
magnetizable que cubre una cara de la cinta de plástico. La superficie recubierta
de la cinta se divide en columnas verticales (o cuadros) e hileras horizontales
llamadas canales o pistas. En muchos sistemas de cintas actuales se emplea el
código BCD de 8 bits con un formato de cinta magnética de nueve pistas.
Hoy en día es común utilizar 9 pistas para grabar datos en carretes de cinta
estándar de media pulgada de ancho. Sin embargo, hace poco se idearon
sistemas de cinta más modernos que graban 18 pistas de datos en la misma
superficie. La cinta de estos sistemas se almacena en cartuchos de 10X13 cm.
Dado que cualquier cinta magnética es un medio continuo, ¨ Como es posible
identificar registros individuales en cada cinta? la respuesta es que pueden
separarse los registro mediante espacios en blanco llamado separación entre
registros. Esta separación se crea automáticamente al grabar los datos en la
cinta. Cuando se leen los datos desde un registro de una cinta en movimiento al
procesador, la cinta se detiene al llegar a una sedación. La cinta permanece
inmóvil hasta que se termine de procesar el registro y a continuación se mueve
otra vez para pasar el siguiente registro a la computadora. El procedimiento se
repite hasta que se procesa todo el archivo, los archivos pueden ser de longitudes
variables. Si la cinta contiene un gran número de registros muy cortos y si cada
uno de los registros esta separado por medio de una separación entre registros es
posible que mas de la mitad de la cinta este en blanco y que se interrumpa
constantemente el movimiento de la cinta. Para evitar esta situación ineficiente, es
posible unir varios registros cortos para formar un bloque de cinta.

V.P.M.

15

I.E.S


LECTURA Y ESCRITURA
Si en el casete hay registros cortos y largos mezclados, la lectura y escritura en
el mismo casete se vuelve desesperante. Si se almacena cada registro lógico en
la cinta como un solo registro físico no puede escribirse registros con longitudes
diferentes en el mismo espacio. El registro mas largo borrara parte del registro
siguiente, mientras que el registro mas corto dejara parte del registro mas antiguo
lo que producirá un error.
Esto se puede solucionar con dos alternativas, en la primera se necesitan hacer
los siguientes pasos:
a. Encontrar el registro lógico anterior al deseado.
b. Encontrar el comienzo del registro lógico deseado.
c. Avanzar el casete para encontrar el resto del registro
lógico deseado.
d. Rebobinar para encontrar el registro lógico siguiente.
En la segunda alternativa se desperdicia mucho espacio de casete, si los
registros estaban ordenados alfabéticamente o de otra forma pronto estarán
completamente desordenados porque, en el registro que se va a leer hay una
merca o etiqueta que indica en que numero de registro lógico se encuentra la
información.
Se recomienda tener dos unidades de cinta, una para leer y otra para escribir.
CABEZA DE LECTURA/ESCRITURA

Una unida de cinta de 9 pistas cuenta con 9 cabezas de L/E. Al leerse la pista los
patrones magnetizados de la cinta inducen pulsos de corriente en las bobinas de
lectura y estos pulsos constituyen los datos que se transmiten al procesador.
Durante la operación de grabación fluyen pulsos eléctricos por las bobinas de
grabación de las pistas apropiadas, y que hacen que el recubrimiento de oxido de
la cinta quede magnetizado conforme el padrón apropiado.
VENTAJAS Y LIMITACIONES
ventajas:
1. Alta densidad de datos: Un carrete común de cinta de 10½ plg. de
dm. Tiene una longitud de 2400ft. Y puede grabar 800,1600,6250
caracteres en cada pulgada dependiendo de la unidad de cinta que
utilice, por lo tanto, si se graban 6250 caracteres en una pulgada de
cinta y si la cinta tiene una longitud de 28800 pulgadas entonces la
capacidad máxima de la cinta será de 180 millones de caracteres.
Además, como ya se vio, los cartuchos modernos de 18 pistas
pueden lograr una densidad de datos 6 veces mayor.

V.P.M.

16

I.E.S


2. Bajo costo y facilidad de manejo.- Un carrete de 10½ pulgada
cuesta menos de 20 dls. y dado que el carrete es compacto y pesa
menos de 1 kg. y medio, ocupa muy poco espacio de
almacenamiento y es fácil de manejar.
Limitaciones:
1. Falta de acceso directo a los registros.- La cinta es un medio de
acceso secuencial que se utiliza para el procesamiento por lotes. Es
necesario leer y procesar toda la cinta para actualizar todos los
registros de un archivo organizados en forma secuencial. Si se
requiere acceso frecuente a los registros del archivo en forma rápida
y aleatoria, el archivo no deberá almacenarse en cinta magnética; se
requeriría demasiado tiempo de operador para montar y desmontar
cintas, se desperdiciaría mucho tiempo de maquina en la lectura de
registros que no necesitan.
2. Problemas ambientales.- Las partículas de polvo y la falta de
control de los niveles de la temperatura o humedad pueden causar
errores en la lectura de cintas, las cintas y sus envase deben
etiquetarse y controlarse cuidadosamente para no borrar por error un
archivo importante.

1.6 Discos Flexibles
Este es un dispositivo de almacenamiento secundario, que permite realizar en
forma sencilla el intercambio de información entre computadoras, así como la
carga de nuevos programas en el disco rígido los discos flexibles fueron
presentados a finales de los años 60´s por IBM para sustituir las tarjetas
controladoras. Es blando y puede doblarse fácilmente de ahí el nombre de disco
flexible. Los tamaños más conocidos son: el de 8", el de 5¼ " y el de 3½ ".
A continuación se examinaran cada uno de los componentes de los discos de 5¼ "
y el de 3½ ".

Disquete de 5¼ "
Envoltura.- Esta es una cartulina negra, que le proporciona al disco la rigidez
precisa para que pueda ser insertado en la unidad.
Abertura de Lect./Esc..- Le permite a la cabeza de lectura / escritura acceder a la
superficie del disco para leer o escribir datos en el.
Eje del disco.- Este es una arandela de plástico reforzado que le permite a la
unidad hacer girar el disco en su interior.
Orificio Indice.- Esta pequeña abertura le proporciona al controlador de disco un
mecanismo de temporización que le permite conocer la posición del disco a cada
momento.
V.P.M.

17

I.E.S


Muesca protectora.- Determina si se puede o no escribir o no en el disco. Si la
muesca se encuentra cubierta solo se podrá leer del disco.

Disquete 3½ ".
Chapa protectora.- Esta es una chapa metálica que impide que la abertura de
lectura / escritura se encuentre expuesta como en los discos de 5¼ ". Al insertar el
disco en la unidad ésta se encarga de desplazarla para así poder acceder a la
superficie del disco.
Orificio de Giro.- le permite a la unidad hacer girar el disco.
Muesca de sector.- Le permite al controlador del disco conocer la posición de giro
en cada instante.
Muesca de protección.- Esta es una pequeña pestaña que se encuentra en la
esquina del disco, que sirve para activar o desactivar la protección contra
escritura.

Pistas, sectores y capacidades
Las pistas son círculos concéntricos invisibles, que comienzan en el borde
exterior del disco y continúan hacia el centro sin tocarse jamás. Las pistas están
enumeradas y se dividen en pequeños bloques denominados sectores que
contienen 512 bytes cada uno. El número total de pistas y sectores va a depender
del tipo de disco que se esté utilizando.
Cuando se introdujeron los discos flexibles solo podía utilizarse una cara del
disco. Anteriormente los discos de 5¼ ", tenían una capacidad de 160 Kb y los de
3½ " de 720 Kb, pero conforme ha ido perfeccionándose la tecnología, se ha
aumentado la capacidad de almacenamiento, gracias a la posibilidad de utilizar las
dos caras del disco y del aumento en la densidad de grabación.
Conociéndose el número de pistas, sectores y bytes por sector es posible
determinar la capacidad de almacenamiento mediante la siguiente fórmula:
Capacidad = (No. de caras)* (No. de pistas) * (No. de sectores) * (Cap. de sector)
En la siguiente tabla se establece una comparación de las características de los
4 tipos de discos flexibles más comunes.

V.P.M.

18

I.E.S


Almacenamiento de datos en discos flexibles
Dentro de la unidad de disco, un motor hace girar el disco rápidamente, los
datos se graban en las pistas de la superficie del disco en movimiento y se leen de
esa superficie por medio de una cabeza de lect/esc.
La capacidad de almacenamiento de información en un disco depende de los bits
por pulgada de pista y el número de pistas por pulgada radial.

Acceso a los datos en discos flexibles
El brazo de acceso mueve mueve la cabeza de lect/esc. Directamente a la pista
que contiene los datos deseados sin leer otras pistas. Los fabricantes de unidades
de disco utilizan o bien el método de sectores o bien el de cilindros para organizar
y almacenar físicamente los datos en los discos.
Método de sectores.- Este método consiste en dividir la superficie del disco en
segmentos invisibles cuya forma es similar a las rebanadas de un pastel,
generalmente existen al menos 8 de estos segmentos en un disco.
Antes de que una unidad de disco pueda tener acceso aun registro en un
sector, el programa de la computadora debe proporcionar la dirección en disco del
registro, esta dirección específica el número de pistas y sector.
La lectura de datos en un disco flexible se realiza de la siguiente manera:
El brazo de acceso mueve la cabeza de lect./esc a la pista que se
específica en la dirección del disco.
El controlador de disco busca el agujero índice que marca el punto donde
comienza el primer sector de una pista, la luz atraviesa el agujero una vez
cada revolución para indicar su ubicación.
Cuando se detecta el agujero índice, el controlador de disco comienza a
leer los datos de la pista específica.
Cuando el sector específico comienza a pasar bajo la cabeza de lect/esc el
controlador empieza a transmitir datos a la unidad de proceso.
Método de cilindros.- Este método para organizar los datos en el disco se usa
con los paquetes de discos removibles. Los brazos de accesos se mueven al
unísono en dirección radial con respecto al paquete de discos.

V.P.M.

19

I.E.S


Antes de accesar a un registro, un programa de computadora debe proporcionar
la dirección del registro, esta dirección consta del número de cilindros, el número
de superficie y el número de registro.
Ubicación del espacio del disco.
Cuando se formatea un disco, el DOS lo divide en sectores lógicos para poder
almacenar lo siguiente:
Registro de arranque del DOS.
Tabla de ubicación de archivos (FAT)
Anotaciones sobre el directorio raíz
Sectores de datos
El registro de arranque siempre estará situado en la cara 0, pista 0, sector 1 en
cualquier disco DOS:
La FAT se encarga de llevar un seguimiento de los sectores libres, ocupados y
deteriorados del disco, la FAT siempre se localiza en el segundo y tercer sector
del disco. Si la zona del disco que contiene la FAT llega a estropearse no se podrá
accesar a ningún dato del disco, por esta razón el DOS coloca una segunda copia
de la FAT en los sectores cuatro y cinco.
Enseguida de la FAT de cada disco, el DOS reserva un espacio para las
anotaciones de direcciones de los archivos en el directorio raíz
Formateo de discos flexibles.
Cada vez que se compra un disco, si éste no se encuentra formateado hay que
procesarlo con FORMAT antes que pueda ser utilizado por el DOS. La orden
Format juega un papel crítico en la preparación de los discos, ya que influye
directamente sobre cada una de las anotaciones de una u otra forma.
La función primaria de format es la de colocar marcas identificativas en el medio
de almacenamiento para cada uno de los sectores del disco.
En general simplemente examina cada sector del disco pista por pista y coloca
una marca temporal junto a cada una.

1.7 Discos Duros

Como su nombre lo dice, son sólidos, porque están construidos sobre un disco
grueso de aluminio. Un disco duro posee un material magnético de mejor calidad
V.P.M.

20

I.E.S


para poder disponer de un mayor número de pistas y sectores por pista, además
que sobre el montaje pueden tenerse uno, dos o más discos, cada uno con sus
propias cabezas.
El disco duro se diferencia del disco flexible en que el primero normalmente está
fijo en el computador y no es transportable. Cada disco de la unidad tiene sus dos
lados recubiertos por una fina capa de óxido metálico sensible al magnetismo,
usualmente cromo o níquel.
El proceso de lectura o escritura es el mismo que se mencionó para los discos
flexibles.

Las principales partes que forman un disco son:
Pistas o Tracks
son unas pistas concéntricas invisibles a lo largo de las cuales se graban los
pulsos magnéticos. En otras palabras son los renglones del disco.

Sectores
Cada pista se subdivide en sectores; por ejemplo 9 sectores por pista o 15
sectores por pista en discos flexibles DD (doble densidad) y HD (alta densidad)
respectivamente.
En la figura se muestra el esquema de un disco magnético:

Cilindro
Se le llama cilindro al conjunto de pistas a las que el sistema operativo puede
acceder simultáneamente en cada posición de las cabezas. Si se trata de un disco
flexible, cada cilindro consta de dos pistas, una por encima y otra por debajo del
disco. En el caso de un disco duro que tenga dos platos, el cilindro consta de 4
pistas.

V.P.M.

21

I.E.S


Manejando cilindros se accede a los datos más rápidamente que manejando
pistas individuales, ya que el sistema operativo puede grabar o leer mayor
cantidad de información sin tener que mover la cabeza.

Cluster
Es la longitud de la pista tomada como unidad de proceso en cada operación de
lectura o de escritura en el disco, la cual equivale a la longitud de un sector en los
discos flexibles o al conjunto de 4 u 8 sectores contiguos en los discos duros.
Entre mayor sea el "cluster" más se simplifica la administración del índice de los
archivos del disco (FAT), pero también se desperdicia mas espacio cuando se
manejan archivos pequeños. Por ejemplo, si se está grabando un archivo de 1800
bytes en un disquete de 1.2 MB, el número mínimo de bytes que el sistema
operativo puede leer o escribir en este disco es de 512 (un sector), por lo cual, al
archivo se le asignan 4 sectores desperdiciándose así 264 bytes.
En la tabla se puede ver la capacidad del cluster en los diferentes tipos de discos
(bajo MS-DOS).
Capacidad del
disco

Tamaño del disco

Sectores por
cluster

Cap. del cluster

360K

5 &frac 14

2

1024 bytes

720K

3 &frac 14

2

1024 bytes

1.2M

5&frac 14

1

512 bytes

1.44M

3&frac 14

1

512 bytes

4
8

2048 bytes
4096 bytes

disco duro típico

Otros conceptos importantes referentes a los discos son:

Tiempo de acceso
Es el tiempo que transcurre desde el instante en que se envían los datos a un
dispositivo de almacenamiento y el momento en que éste entrega o recibe los
primeros caracteres. Como el microprocesador está enviando continuamente
información al disco, lo ideal es que el tiempo de acceso sea mínimo. El tiempo de
acceso típico de un disco duro es de 15 mSeg.

V.P.M.

22

I.E.S


Formateo
Se le llama al proceso mediante el cual se prepara el disco para ser utilizado.
Durante el formateo se hacen las siguientes tares: se le marcan las pistas y
sectores al disco, se le define la zona de directorio, se crean la FAT (File
Allocation Table) y el registro de arranque y, eventualmente, se le graban los
archivos del sistema operativo para el arranque del sistema. Existen dos tipos de
formateo: el de bajo nivel y el lógico.
El de bajo nivel es un proceso físico que divide las pistas circulares en un
número específico de sectores con capacidad para 528 bytes cada uno, de los
cuales 512 son para datos y 16 para control del sistema. El comienzo de cada
sector se indica mediante un código magnético de dirección, a continuación, sigue
un código para encabezamiento del sector (Id), que contiene los números del
cilindro, la cabeza y el sector respectivo. Los datos de información se graban en la
porción central de cada sector. En la actualidad, teóricamente sólo es necesario el
formateo de bajo nivel una sola vez, y se debe dejar como último recurso para
arreglar un disco.
El formateo lógico se hace para dotar al disco de un sistema de direcciones que
permita leer y escribir datos en sectores definidos. El formateo lógico permite la
recuperación de la información en caso de un formateo accidental, en cambio, el
formateo de bajo nivel no.

Tabla de partición
Es el índice del disco duro y especifica la ubicación y el tamaño de cada una de
las particiones del disco. El sistema operativo puede manejar varias tablas de
particiones lógicas.

Particiones del disco
Consiste en dividir un disco duro en una o mas particiones lógicas que se
comportan cada una como si fuesen un disco real e independiente del resto, a
cada unidad se le identifica con una letra. Así, la unidad C es la partición primaria
y D sería la partición extendida (si la hay).
Por medio del programa "FDISK" del DOS, en las PC-IBM se puede hacen las
particiones del disco y además permite especificar cuál unidad es la de arranque
del sistema.

Registro de arranque (BOOT)
Este registro contiene las características relacionadas con el disco, como son:
versión del sistema operativo, utilizada para el formateo; número de cabezas,
número de bytes por sector, el número de sectores en el disco. Debido a que en
los discos flexibles no hay particiones, el registro de arranque se localiza en el
primer sector físico del disco. En el caso de un disco duro, el registro de arranque

V.P.M.

23

I.E.S


se localiza en el segundo sector de la pista cero, después de la tabla de partición.
El registro de arranque es creado en el disco durante el formateo lógico de éste.
Al encender el computador, una rutina de la ROM-BIOS busca el registro de
arranque en las diferentes unidades de disco del sistema para poder iniciar su
funcionamiento.

La FAT (File Allocation Table)
Contiene la información acerca de cada sector del disco, indicándole al sistema
operativo cuáles "Cluster" se encuentran ocupados, cuáles se encuentran
disponibles y cuáles se encuentran averiados. Además, contiene el nombre del
archivo al que le pertenecen los datos almacenados. La FAT está ubicada a
continuación del registro de arranque.
Otra información muy importante que contiene la FAT es la tabla donde se
indican los sectores que conforman un archivo, pues al momento de grabar uno de
éstos en el disco, es poco probable que quede ubicado en sectores consecutivos,
a menos de que se trate de un disco vacío.
Debido a que el tamaño de un sector es muy pequeño (512 bytes), el sistema
operativo (en las PC) coloca en la FAT el número del "Cluster" en vez del número
del sector, y como un cluster por lo general está formado por cuatro sectores, se
simplifica el manejo de la FAT. Para cada "Cluster" del disco la FAT reserva dos
bytes. Algunos de los valores que tener la FAT son: FFF, para indicar el último
"Cluster del archivo"; FF7, para indicar que el "cluster" esta malo; 0, para indicar
que el "Cluster" está disponible.

Directorio raíz
A continuación de la FAT esta localizado el directorio raíz, el cual se utiliza para
almacenar informaciones como nombre del archivo, localización, número de
"Cluster" que ocupa, hora y fecha de creación; toda esta información ocupa 32
bytes. A continuación del directorio raíz se encuentra el área de datos, que va
hasta el último sector del disco, y es donde se guarda la diferente información de
los archivos.

1.8 Cd-ROM

El origen del CD ROM
A partir del éxito que se obtuvo dentro de la electrónica con la producción de
disco compacto, se dio origen en el campo de la informática a un dispositivo que

V.P.M.

24

I.E.S


se proyecto desde su inicio para solo lectura de datos digitales dándole el nombre
de CD ROM.
Ante todo digamos que el CD ROM, significa según sus iniciales Compact DiskRead Only Memory (Disco Compacto de solo Lectura), equivalente a
almacenamiento de datos permanentes no modificables, cuya capacidad permite
almacenar grandes cantidades de información en forma digital.

Estructura del disco CD ROM
El material del que esta hecho es de policarbonato dicho material es una fibra
plastificada resistente (también es utilizado en la fabricación de ventanas contra
balas y cascos protectores).
1. Físicamente es idéntico a un disco compacto de sonido, lleno de cavidades
microscópicas.
2. 1.2 mm de grosor y un orificio central de 15 mm. de diámetro.
3. Tiene 120 mm. de diámetro (alrededor de 4.72 plgs.)
4. Las perforaciones miden 0.12 micras de profundidad y 0.6 micras de
anchura (1 micra = 1 milésima de milímetro).
5. La separación entre dos vueltas continuas de la espiral es muy pequeña de
1.6 micras por plg. (TPI), muy superior a la de los discos flexibles (hasta 96
TPI) y a la de los discos duros (varios cientos de TPI).
6. La longitud total de la pista espiral del disco CD ROM es de casi 5 Km. y a
lo largo de ella se ordenan casi 2 000 000 de perforaciones.
Almacenamiento de información
Para que la información se transforme en perforaciones y planos se necesita de
una operación llamada grabación Master.
Una grabación Master, consiste en una onda que transmite la información ya
codificada, se transfiere de una cinta magnética a un modulador donde se controla
el haz láser de onda que transmitido por el lente que enfoca a la superficie
fotosensible del disco. Al girar el disco del lente se va moviendo hasta dar lugar a
la pista espiral, al dejar la superficie expuesta las regiones del disco se convierten
en hoyos.
El CD ROM tiene una capacidad de almacenamiento de 500, 550 552 y 600
Mbytes (aproximadamente de 450 disquetes de alta densidad) dependiendo de la
marca del fabricante.
Elementos para el funcionamiento del CD ROM
1. Un motor que se encarga de que el disco gire, el cual contiene un
detector que se localiza en relación al radio del disco.
2. El láser es el que proyecta una luz dirigida al enfocador. Este reflejo
que sucede se penetra en una película reflectora.

V.P.M.

25

I.E.S


3. La superficie de esta película esta constituida por platos y hoyos,
donde son utilizados para el almacenamiento de datos.
4. Al reflejar la luz sobre una pista es retenida, en cambio cuando es
reflejada en los hoyos su reflejo se devuelve al detector, en donde
pasa a través de un prisma que refleja el láser a un diodo de luz
sensible.
5. Los pulsos de luz que pegan en el diodo de luz sensible genera un
voltaje electrónico en donde se conduce a un circuito donde se
genera el código 1 y 0 en el cual la PC entiende.
Proceso de fabricación del CD ROM:

Su producción consta de cuatro fases
Pre-Mastering:
Aquí se reciben los datos que hay que incluir en el CD en diferentes soportes
(pueden facilitarse un disco duro o un CD). Posteriormente los datos se
comprueban bit a bit. Hay que asegurarse de que la estructura de los sectores
correspondan con el tipo de CD ROM que se pretende fabricar. Una vez realizado
lo anterior se puede pasar a la siguiente fase, no sin guardar antes una imagen de
los datos en un disco duro para que sirva de referencia en las etapas
subsecuentes como control de calidad.

Mastering:
Comienza con la impresión de los símbolos numéricos en un disco de vidrio de 24
cm. de diámetro por medio de un rayo láser. El disco de vidrio está recubierto de
una capa fotorresistente. Esta operación dura alrededor de 90 minutos. Cuando el
disco ya se encuentra grabado se procede a su metalización con una capa de
níquel, de la que, a través de un tratamiento electrolito, se obtienen un total de tres
planchas. La última de ellas es llamada matriz, que pasa por un control de
comprobación de errores. Si en algún lado se encuentra alguna falla el proceso
deberá iniciarse de nuevo.

Prensado del CD:
El policarbonato es la materia prima base para fabricar un CD. El policarbonato es
un material plástico transparente y con cualidades ópticas muy definidas. Su forma
original es granulada, pero se licúa a 310 ºC; cuando ha sido licuado, se presiona

V.P.M.

26

I.E.S


sobre el molde que contiene la matriz. El plástico se enfría rápidamente, con lo
que se forma una copia de la matriz. Esta copia no puede ser leída por una unidad
de CD-ROM, ya que es totalmente transparente, y el rayo láser no se reflejaría en
ella.
Para que la luz del láser pueda ser reflejada se procede a la metalización, que
consiste en depositar una fina capa de aluminio sobre el disco. Este disco es muy
sensible y es vulnerable a arañazos y podría oxidarse por lo que se le aplica una
capa de laca, esta laca protege y permite imprimir sobre el CD las tintas
serigráficas especiales (hasta cuatro colores), formando lo que se conoce como
etiqueta.
Una vez salidos de la línea, los CD`s son probados por un escáner que detecta
las posibles impurezas del plástico o defectos de la capa de aluminio.
Acabado:
El CD-ROM ya puede ser leído, pero hace falta rodearlo de una presentación
atractiva para comercializarlo.

Lectura de información

El modo de lectura se basa en un haz de rayo láser que se puede reflejar en los
orificios y planos, dependiendo de la luz reflejada obtendremos 0 ó 1 de cada bit,
el disco durante este proceso gira a una velocidad constante, es decir, el disco no
variará en su velocidad, la transferencia del disco al CPU se realiza a 150
Kbytes /seg aproximadamente dependiendo del modelo, es decir su velocidad es
de 6 ó 7 veces más lenta a la de un disco duro.

Existen tres unidades de lectura:
Externa: Se conectan al CPU como una unidad externa periférica más y como tal
se le conoce.
Internas: Instaladas dentro del CPU y se conectan a la unidad central de proceso
como una unidad lectora de disquetes.
Multidiscos (JUKE - BOXES): Como su nombre lo indica permite un acceso a
gran cantidad de discos, su capacidad varia de 6 a 100 CD`s.

V.P.M.

27

I.E.S


VENTAJAS Y DESVENTAJAS
Ventajas:
1. No hay contacto físico entre la cabeza lectora y el disco en
consecuencia no existe rozamiento alguno teniendo así menor
desgaste y mayor seguridad en los datos.
2. Durabilidad (mas de 100 años).
3. La gran capacidad de almacenamiento de estos discos.
4. Fiabilidad entre la temperatura y la humedad.
Desventajas:
1. El acceso es secuencial, es decir, la búsqueda se efectúa a lo largo
de toda la grabación en espiral por lo que la recuperación de datos
es más lenta.
Aplicaciones:
Las aplicaciones del CD-ROM son muy variadas por su capacidad de
almacenamiento, en estos discos se pueden encontrar:
1. Enciclopedias, con más de 250 000 páginas de información.
2. Cursos de idiomas, con mezclas de sonidos e imágenes.
3. Bases de datos de cualquier ciencia.
4. Bibliotecas completas de programas.
5. Juegos, etc.

1.9 Zip y Jazz
ZIP
El zip es un dispositivo de almacenamiento removible, es una unidad más para
la computadora. Es cómodo, práctico, rápido y fácil de manejar, trabaja como los
discos duros, permitiendo un fácil acceso de instalación de archivos y
aplicaciones. El zip es un disco blando de alta densidad en un cartucho duro, goza
de gran popularidad con una capacidad de almacenamiento de 100 MB, lo cual es
de gran utilidad tomando en cuenta que da un almacenamiento ilimitado, la alta
densidad de los datos y la gran velocidad en sus movimientos de rotación hacen
que sea mejor que los discos flexibles de 3½ ".
La unidad zip de 100 MB es fácil de instalar e increíblemente portátil, su
fabricación es casi perfecta, libre de molestias al archivar datos. El zip puede
transportar archivos que no cabrían en los discos flexibles, un disco zip equivale a
casi 70 discos normales, por esto, se pueden almacenar paquetes de grandes
dimensiones y tantos programas como el zip lo permita: los discos a pesar de ser
pequeños y ligeros ofrecen una gran resistencia a el maltrato, manteniendo intacta
la información contenida en ellos.

V.P.M.

28

I.E.S


El zip es capaz de ofrecer no sólo capacidad, sino también con una gran
rapidéz, con 29 ms de acceso promedio y 1.4 MB/seg de velocidad máxima
sostenida de transferencia, pequeña y silenciosa la unidad cabe en la mano y
pesa una pulgada (cerca de 450 gramos). Para ahorro de energía, luego de un
periodo prefijado la inactividad, la unidad entra automáticamente en modo de bajo
consumo de energía. Dadas sus características, el uso típico del zip es el
resguardo de archivos y el transporte de información. La instalación no puede se
más sencilla y solo requiere conectar al puerto paralelo de la computadora en el
caso de un zip externo o instalar una tarjeta controladora SCSI si es un zip interno.
El zip de Iomega proporciona dos tipos de interfaz y una capacidad infinita para
guardar datos. El zip azul viene en versión para puerto paralelo y SCSI, esta
última para usuarios de Mac. La versión SCSI de la unidad zip incluye un cable
SCSI con conectores de 25 pins en ambos extremos, esto lo hace bueno para
usarse en mac y en PC que tengan un adaptador SCSI con un conector externo
de 25pins.
El drive zip tiene un costo aproximado de $199 y $1 6 dólares los cartuchos de 100
MB.

CARACTERISTICAS TÉCNICAS
* Tiempo promedio de búsqueda:
discos de 100 MB 29 ms
discos de 25 MB 16 ms
* Leer hasta 60 MB / min.
* Rapidez rotatoria 2945 RPM
* Tiempo del formato largo (verifica superficie) 10 min.
* Tiempo del formato corto 10 seg.
* Tamaño del buffer 32 K.
* Fiabilidad.
* Vida estimada del disco 10 años.
* Modo de apagado automático 15 min.
* Interfaces SCSI II

V.P.M.

29

I.E.S


JAZZ
La unidad jazz usa discos de 1GB de capacidad con autentica tecnología de
disco duro. El Jazz no solo toma en serio el espacio de almacenamiento, sino que
mejora el aprovechamiento de las unidades internas en muchas PCs. Las
caracteristicas son, por ello, impresionantes incluso superiores a la de algunos
discos duros: velocidad de transferencia por ráfagas de 10 MB /seg. , 12 ms de
tiempo promedio de búsqueda, 17 ms de tiempo promedio de acceso y la
capacidad de ser reconocida como disco duro por el sistema operativo de la
computadora.
Su precio es de $300 Dls. la unidad externa y $250 Dls. la unidad interna, pesa
aproximadamente 2 libras y su capacidad formateada del cartucho es de 1020.9
MB. El costo del cartucho de 1 GB es de $100Dls. aproximadamente, la
instalación de la unidad es sumamente sencilla y las utilerias del manejo son
claras e intuitivas (e incluye protección de datos y catalogación). Puede dejar caer
los cartuchos de una altura de 8 pies (2.43 mts.) sin causarles ningún daño.
Por otro lado, el Jazz tiene las mismas caracteristicas portátiles que su hermano
zip, pero a diferencia de este, tiene la rapidez y capacidad para cargar
aplicaciones, permitir el desarrollo de multimedia, hacer el resguardo de la
computadora en 10 min., guarda hasta 8 hrs. de música con calidad de CD, 2 hrs.
de película o 150 fotografías de color, etc.
Estamos antes el concepto mas moderno de versatilidad en materia de
almacenamiento. No es de extrañar que los usos crezcan en todas las direcciones
y que esta tecnología pase a ser un nuevo estándar en la industria. Muy pronto las
computadoras vendrán ya equipadas con una unidad Iomega y con software que
permita detectar la presencia de un zip o jazz y seleccionarla como ruta básica de
almacenamiento.

V.P.M.

30

I.E.S


Unidad II

Definiciones y Conceptos
•
•
•

2.1 Definiciones y conceptos
2.2 Elementos de un archivo de datos
2.3 Clasificación y Operaciones de los archivos

2.1 Definiciones y Conceptos
Carácter:
Nivel mínimo de almacenamiento.
Dato:
Conjunto de caracteres con algún significado.
Campo:
Característica de un individuo u objeto.
Registro:
Colección de campos del mismo individuo u objeto.
Archivo:
Colección de registros con estructura idéntica.
Base de datos:
Colección de archivos relacionados entre si.
Campos Llave
Son aquellos que permiten identificar en forma unívoca a un registro.
Generalmente se designaran como campos llave, aquellos que no contienen datos
repetidos.
Si el sistema de archivos no posee campos con esas características, deberán
utilizarse llaves intermedias o escalonadas.
Este método presenta listas de objetos (o individuos) que se van reduciendo
conforme se introducen los valores para cada una de las llaves escalonadas. El
proceso se da por concluido al hacer contacto visual con el objeto buscado o hasta
reducir la lista de tal forma que se determina la inexistencia del objeto.
V.P.M.

31

I.E.S


Campos de secuencia
Son aquellos que permiten establecer una colección de continuidad entre los
registros de un archivo.

Transacciones
Es cada uno de los procesos que se utilizan en el mantenimiento del sistema de
archivos (altas, bajas, cambios, etc.).
Operaciones
Es cada una de las acciones especificas que se realizan para completar una
transacción.

2.2 Elementos de un archivo de datos.

V.P.M.

32

I.E.S


ELEMENTOS PROPIOS DEL ARCHIVO.
•

Atributos.- Son marcas fisicas que determinan el tipo de operaciones y
caracteristicas de un archivo.

•

Identificador de archivo.- Es un elemento logico que se crea en un
ambiente de programacion para hacer referencia al archivo de datos.

•

Apuntador de registro.- Es un marca logica que indica la posicion donde
se realizara la siguiente operación de lectura o escritura en el archivo.

•

Número de registro.- Son elementos logicos que indican la posición
relativa del registro en el archivo.

•

Marca de fin de archivo(EOF).- Es una marca física que determina la
finalización del archivo.

•

Marca de fin de línea (EOL).- Es una marca física utilizada en los archivos
de texto para indicar la finalización de una línea.

2.3 Clasificación y Operaciones de los archivos.
CLASIFICACIÓN DE ARCHIVOS DE DATOS
Por su estructura
Con tipo.- Son aquellos que presentan un formato basado en una estructura
especifica.
De texto.- Son documentos que se graban en formato ASCII y contienen la
informacion de manera legible para el usuario.
Sin tipo.- Son archivos que son procesados por bloques de lectura y/o escritura.
No tienen un formato determinado, y su representacion puede ser o no binaria. El
tamaño de los bloques es ajustable.
Por su funcion
Archivo Maestro.- Es aquel que contiene la informacion global. Este sera
actualizado periodicamente puesto que no es operado en linea.
Archivo de Transacciones.- Es aquel donde se registran las operaciones que se
realizan en un periodo determinado. Una vez transcurrido este se realizara la
actualizacion del archivo maestro y se reinicializara el de transacciones.

V.P.M.

33

I.E.S


Archivo de Reporte.- Es aquel que se utiliza para notificar la ocurrencia de errores
o casos especiales en la operación de un sistema. Ocasionalmente contiene
tambien los resultados finales de los procesos.
Archivo de Trabajo.- Son aquellos archivos temporales imperseptibles para el
usuario que son utilizados generalmente en etapas intermedias en el
procesamiento de datos.
Archivo de Programa.- Son los llamados archivos ejecutables, asi como las
librerias o utilerias asociadas.
Archivo de Texto.- Son aquellos que se encuentran en formato ASCII y contienen
generalmente informacion referente a la ayuda y presentacion del sistema, asi
como a la salida de datos con destino al medio de almacenmaiento.
OPERACIONES CON ARCHIVOS DE DATOS.
Creación.- Consiste en la asignación de un espacio en el medio de
almacenamiento mediante la colocación del nombre del archivo en el directorio.
Apertura.- Es el establecimiento de un canal de comunicación con un archivo
determinado.
Cierre.- Es la cancelación de un canal de comunicación previamente establecido
con un archivo. Incluye una verificación al buffer para realizar un vaciado
automático de los datos contenidos en el a través del canal.
Asignación.- Es la asociación de un nombre de archivo con un identificador valido
en el lenguaje de programación en donde se esta manipulando.
Actualización.- Son los procesos que modifican el contenido de la base de datos
(altas, bajas, cambios).
Consulta.- Es el acceso a los datos para generar una salida por un medio
determinado; el acceso puede ser especifico, grupal o global.
Eliminación.- Es la eliminación física del archivo en el medio de almacenamiento.
Renombrado.- Es la modificación del nombre del archivo en el ámbito del sistema
operativo.
Clasificación.- Consiste en la organización de los registros de acuerdo a un criterio
determinado.
Mezcla.- Es la combinación de dos o mas archivos para dar como resultado un
archivo único.
V.P.M.

34

I.E.S


Partición.- Es la descomposición de un archivo en dos o mas.
Importación.- Consiste en extender un archivo a partir de los datos contenidos en
otro, ya sea que los registros añadidos se supriman o no de este ultimo.
Exportación.- Es la generación de un nuevo archivo o la extensión de uno ya
existente a partir de los datos contenidos en un archivo primario, ya sea que los
datos exportados sean o no suprimidos de este.

Unidad III

Archivos Secuenciales.
•
•
•

3.1 Estructura
3.2 Operaciones
3.3 Mantenimiento

3.1 Estructura
Archivo Secuencial.
Es una organización que consiste en almacenar y recuperar datos en forma
contigua. Para accesar al registro n deben procesarse los n-1 registros previos.
Una de las ventajas que ofrece esta organización es el buen aprovechamiento que
se hace del medio de almacenamiento, así como la facilidad (relativa) en su
implementacion y el bajo costo de operación al no requerir de un medio de
almacenamiento direccionable.
Las razones para implementar una organización secuencial pueden ser:
•

•

V.P.M.

El problema no requiere de una organización mas compleja.El diseñador determina que después de analizar el problema
este no requiere de toma de decisiones en tiempo real o con
un alto nivel de prioridad. El caso no amerita la inversión del
tiempo y esfuerzo para implementar una organización mas
compleja.
No existe disponibilidad de recursos.- En este caso no es
posible la adquisición de medios de almacenamiento
direccionable o de otros recursos que permitan procesos en

35

I.E.S


línea (equipo de Telecomunicaciones, Verificación de datos y
demás).
CARACTERISTICAS:
Ventajas:
La implementacion es económica.
Los algoritmos que controlan la generación de transacciones son mas
sencillos.
Pueden determinarse con precisión el orden de arribo de los datos.
Desventajas
La información no esta actualizada en todo momento.
El acceso a los datos es relativamente lento.
Cuando se opta por la organización secuencial pueden utilizarse varias
alternativas siendo la mas común el procesamiento por lotes.

Procesamiento por lotes.
Las operaciones regulares se acumulan por un periodo de tiempo determinado
o hasta completar un volumen especifico, generándose así el archivo de
transacciones.
Una vez transcurrido este periodo o habiéndose completado el volumen de
transacciones, la información es "vaciada" en el archivo maestro, realizándose así
la actualización.
Concluida la actualización el archivo de transacciones debe ser inicializado,
preparándolo así para el siguiente periodo.

3.2 Operaciones
GENERACION DEL ARCHIVO DE TRANSACCIONES
Ante la imposibilidad de realizar verificaciones de existencia y/o comprobación
de valores en el archivo maestro al concretar una transacción, normalmente se
establecen códigos y/o normas de seguridad que permitan detectar parcialmente
(al menos para ciertos casos) transacciones invalidas que provocarían errores en
la actualización.
La codificación mencionada anteriormente permite reducir en forma
considerable la ocurrencia de errores al detectar desde su generación una
transacción invalida por no satisfacer determinados formatos.
El siguiente esquema muestra el proceso de generación de un archivo de
transacciones.

V.P.M.

36

I.E.S


EDICION: En esta etapa se realizan las siguientes comprobaciones:
• Verificación de rangos de valores validos.
• Verificación de formatos validos.
• Sustitución de códigos de captura por valores completos o reales.
• Comprobación de datos en los campos mínimos necesarios (campo
llave y campo indicador del tipo de transacción).
• Comprobación de datos en aquellos campos relacionados con el tipo
de transacción.
EDICION INTELIGENTE .- Cuando el dispositivo de entrada es capaz de procesar
las tareas del modulo de edición, restringiendo así las transacciones invalidas, se
genera inmediatamente el archivo de transacciones editadas.

V.P.M.

37

I.E.S


ACTUALIZACIÓN.- A este proceso ingresan determinados archivos y resultan
otros, además de formatos específicos de control:

Los tipos básicos de transacción son:

FRECUENCIA DE ACTUALIZACIÓN:
Es el criterio que determina la periodicidad con que habrá de llevarse a cabo el
proceso de actualización. Se determina por los siguientes factores:

Un concepto relacionado íntimamente a la frecuencia de actualización es la
Razón de Actividad de Archivo (RAA). Esta se calcula de la siguiente manera:

La relación que se da entre la frecuencia de actualización y la RAA del archivo
maestro es inversamente proporcional.

V.P.M.

38

I.E.S


3.3 Mantenimiento
Lógica de actualización:
Como es sabido, los archivos que entran al proceso de actualización se
encuentran ordenados con respecto a su llave; esto por los requerimientos propios
del manejo secuencial y la necesidad de establecer comparaciones entre las
llaves actuales de los archivos maestro y de transacciones.
Supóngase un archivo de transacciones que no contiene llaves repetidas; es decir
solo puede existir una transacción para cada llave como máximo.

V.P.M.

39

I.E.S


Unidad IV
Archivos Secuencial - Indexado
•
•
•

4.1 Estructura.
4.2 Operaciones.
4.3 Mantenimiento.

4.1 Estructura
Dentro de las organizaciones de archivos existen diversos modelos que hacen
uso de índices; es decir, estructuras que contienen parejas llave _ dirección de tal
manera que se hace referencia a los datos contenidos en el archivo principal.
Los tipos de índices que existen son:
DENSO: El índice tiene una entrada por cada registro en el archivo principal.
DISPERSO: El índice contiene una entrada por cada conjunto de registros en el
archivo principal.
La organización secuencial indexada utiliza un índice disperso para su
manipulación, el archivo principal contiene bloques de registros agrupados por
alguna característica especifica o por un intervalo dentro del universo de llaves

V.P.M.

40

I.E.S


posibles.

La eficiencia del modelo depende primordialmente de la adecuada selección de
la cantidad de bloques y el tamaño que se le asigne a cada uno de ellos.
Ante una inadecuada planeación, pueden quedar bloques con espacio sobrado
y bloques que sean insuficientes para almacenar a ciertos registros. En este ultimo
caso se hará uso del área de desborde, esta es la zona del archivo continua al
último bloque asignado.

4.2 Operaciones
Existen dos formas básicas para el manejo del área de desborde:
DESBORDE SECUENCIAL:

Al saturarse un bloque, los registros excedentes se envían al área de desborde;
de esta manera, me mezclan registros que originalmente correspondían a bloques
distintos. Durante la búsqueda de una llave, se barre (uno por uno) el bloque
correspondiente, de no encontrarse o si este estaba saturado se barre el área de
desborde.

V.P.M.

41

I.E.S


DESBORDE LIGADO:

Cuando un bloque se satura, se activa una liga en el ultimo registro del bloque
para indicar la dirección en el área de desborde del primer registro que
correspondería a este mismo bloque. Cada registro en el área de desborde tiene
una liga que apunta al siguiente registro asociado al mismo bloque.
Ejemplo:

Algunos modelos transportan el área de desborde a un archivo original y
agregan un campo al índice que será la liga hacia este nuevo archivo. La razón de
esto es la Optimizaciòn de espacio en el archivo principal.

V.P.M.

42

I.E.S


La cantidad de bloques y el tamaño de cada uno de ellos debe seleccionarse
después de un analisis del estudio, de una muestra estadística que permita
observar la distribución de los datos llave dentro del universo de llaves posibles.
Es importante considerar la relación entre cantidad de bloques, velocidad de
acceso y aprovechamiento del espacio. Cuando el modelo tiende a asignar un
gran numero de bloques se incrementa ligeramente la velocidad de acceso, dado
que cada bloque contendrá un intervalo corto de llaves; en contraparte, se reduce
la posibilidad de estimar con precisión tamaños adecuados para cada bloque y
con ello las consecuencias indeseables que esto acarrea.

4.3 Mantenimiento del modelo
Al transcurrir un determinado tiempo de operación la estructura tiende a
saturarse, se requiere entonces realizar un reacomodo de los datos contenidos en
el área de desborde, trasladándolos hacia el archivo principal, teniendo que ajustar
por supuesto el tamaño de los bloques y en consecuencia los apuntadores en el
índice.

El mantenimiento puede darse por cualquiera de estos criterios:
•
•

Tiempo transcurrido
Tamaño del área de desborde (entre 25 y 30% del tamaño del archivo
principal)

La eliminación de registros en tiempo de operación se recomienda en forma
lógica; es decir, mediante marcas que indiquen si un registro esta activo o no en el

V.P.M.

43

I.E.S


proceso de mantenimiento se realizara el reacomodo de los registros suprimiendo
así los registros marcados para la eliminación.
Cuando es relevante el orden de llegada de los registros en cada bloque puede
tomarse el criterio de sustituir a un registro eliminado por el ultimo asociado al
mismo bloque ya sea que este se encuentre al final del bloque o en el área de
desborde.

Unidad V
Archivos directos
5.1 Estructura.
5.2 Operaciones.

5.1 Estructura
ARCHIVOS DIRECTOS

La organización directa es aquella que permite un posicionamiento sobre
registros específicos al localizar una llave. Lo anterior permite agilizar la
localización de un dato en un archivo determinado al no requerirse el
procesamiento de los registros contiguos previos.
Existen básicamente tres alternativas para implementar un acceso directo:
Archivo clasificado para búsqueda binaria: Se requiere que el archivo principal
se mantenga ordenado respecto a la llave en todo momento. La ventaja de este
método reside en la alta velocidad de acceso; su desventaja consiste en el tiempo
que debe invertirse para mantener clasificado al archivo en todo momento. Este
método se utiliza cuando el tiempo de búsqueda tiene una prioridad
extremadamente alta en relación al tiempo de actualización.
Ajuste de llave a esqueleto: Este método se utiliza cuando la llave contiene
digitos y opcionalmente caracteres alfabéticos. El algoritmo de asignación consiste
en tomar de la llave aquellos caracteres (preferentemente digitos) que presenten
mayor variación y utilizarlos como dirección en un esqueleto previamente creado.
El esqueleto contendrá la cantidad de registros inicialmente estimados y en forma
contigua al área de desborde para los sinónimos resultantes.
El método anterior nos da la oportunidad de seleccionar aprovechamiento del
espacio o velocidad de acceso (en forma excluyente). Para mayor velocidad,
tamaño de esqueleto grande, con el consecuente desperdicio de espacio.
La velocidad de acceso queda determinada por la longitud de las cadenas de
búsqueda, que a su vez se obtiene de las posibles combinaciones existentes para
los caracteres descartados en la llave original (considerando solo los caracteres
variados).
V.P.M.

44

I.E.S


Una implementacion de este método que puede darse para las eliminaciones
consiste en la baja lógica con procesos posteriores de reacomodo si se desea
obtener una velocidad adecuada en la operacion del sistema.
Si no es relevante la rapidez al realizar una baja, se procederá a sustituir el
registro eliminado por aquel que se encuentre al final de la cadena de búsqueda o
incluso al recorrer los registros de esta cadena; lo anterior según se requiera
mantener o no el orden de llegada de los registros.
Transformación de llaves (Hashing): Este método consiste en descomponer la
lave en múltiples fragmentos y mediante la aplicación de diverso algoritmos, dar
origen a un numero en un intervalo determinado y utilizarlo como dirección de
registro en el esqueleto.
Existe otro modelo de acceso directo que es considerado como un caso especial:
Relación directa - Llave dirección: Este método es aplicable para sistemas
donde los elementos a registrar reciben un folio consecutivo como llave. La llave
del registro se hace corresponder con la dirección física de este, por lo que la
velocidad de acceso es extremadamente alta.
Esta implementaron no permite eliminación física; cuando un registro es
inhabilitado, se le aplica una marca lógica que podrá ser removida en caso de
requerirse la reactivación posterior de tal registro.
El inconveniente mas delicado es la ocupación innecesaria de espacio para
aquellos registros eliminados lógicamente que no habrán de ser reactivados.

5.2 Operaciones
ACCESO DIRECTO POR INDEXAMIENTO
La utilización de un índice denso (con una entrada para cada registro en el
archivo principal) permitirá un acceso directo en el archivo principal después de un
proceso de búsqueda en el índice.
En virtud de la escasa longitud del registro de índice, los accesos a disco
permitirán la manipulación de múltiples registros de este tipo, acelerando así la
localización de una llave. En la búsqueda de mejorar la eficiencia del modelo, se
pueden implementar las siguientes variantes:

V.P.M.

45

I.E.S


* Indice clasificado para búsqueda binaria.

* Indice de búsqueda binaria arbolado.

MULTINIVELES DE INDICES
Para archivos de gran tamaño el inconveniente para mantenimiento de índices
se presenta en el tamaño que estos ocupan y por consiguiente la cantidad de

V.P.M.

46

I.E.S


memoria requerida para mantenerlos en esa zona (memoria principal) y lograr así
un nivel de eficiencia optimo.
La solución a este inconveniente se obtiene fragmentando el índice en múltiples
niveles en una estructura arbolada.
Las técnicas mas conocidas son:
ISAM Index Sequential Access Method
VSAM Virtual Storage Access Method

ISAM
Es un modelo que se relaciona íntimamente al hardware de almacenamiento
puesto que se diseña de acuerdo a la estructura de los niveles del medio físico
como los cilindros, pistas y sectores.
Cada nivel contiene en el primer subnivel un índice de los restantes subniveles;
ocasionalmente se reservan los últimos elementos de este nivel como área de
desborde. El área principal de almacenamiento se encuentra entre el índice y el
área de desborde.
Una cualidad de ISAM es su alta velocidad de funcionamiento; su principal
desventaja es la escasa transportabilidad; es decir solo opera para un hardware
determinado.
La implementaciòn de este modelo requiere la aplicación de técnicas que
sustituyen en cierto grado algunas funciones del sistema operativo como son:
almacenamiento y recuperación de datos . En vista de ello, deberá obtenerse de
un medio exclusivo para el mantenimiento de los datos a manejar.
VSAM
Consiste en mantener en memoria principal un índice maestro, el cual contiene
los intervalos iniciales de las llaves y las referencias (ligas) hacia los archivos que
contienen subintervalos mas específicos de las llaves.
Cuando se determina el archivo que será cargado en memoria, este se consulta
para obtener un intervalo mas especifico y se carga el siguiente archivo en las
mismas localidades de memoria, es decir, se sobre escribe en el índice previo en
la memoria. Este proceso se repite hasta alcanzar el ultimo nivel el cual contendrá
la dirección lógica del dato buscado en el archivo principal.
La principal cualidad de VSAM es su transportabilidad, el inconveniente es la
cantidad de accesos a disco que se requieren para obtener el dato deseado.

V.P.M.

47

I.E.S


Según la cantidad de memoria disponible se diseñara la cantidad de memoria
de los bloques. A mayor cantidad de memoria, mayor tamaño de bloques y en
consecuencia menor cantidad de niveles y por lo tanto menos accesos a disco.

Unidad VI

Correspondencia entre la llave y la dirección física
•

6.1 Direccionamiento directo e indirecto.

•

6.2 Tipos de Correspondencia.

6.1 Direccionamiento directo e Indirecto
El direccionamiento de dos registros puede darse en forma directa e indirecta.
Se dice que es directa cuando es posible determinar la dirección mediante una
relación natural con la llave. Es indirecta cuando la llave debe ser alterada o se le
deben de aplicar operaciones para determinar la dirección del registro.
Un método ampliamente utilizado para generar direcciones físicas de los
registros es aquel que realiza una descomposición de la llave y aplica a cada
fragmento o a estos en su conjunto una serie de operaciones que darán como
resultado un numero relativamente grande (en proporción al tamaño del archivo
sumado) y del cual será generado un numero en un intervalo determinado, el cual
se utilizara como dirección en el esqueleto, Este método es mejor conocido como
Hashing.
Existen diversas formas de generar el numero final a partir del numero "grande",
las mas utilizadas son:
Método del residuo.
Es el de mayor aceptación y consiste en la determinación de un numero primo
(inmediatamente menor al total de registros esperados) que será utilizado como
divisor del numero grande. El residuo de esta división será el numero hash
buscado.
Método del centro de los cuadrados.
Consiste en obtener el cuadrado del numero "grande"; del valor resultante se
rescatan los dígitos centrales tantos como se requieran para direccionar el
esqueleto y se multiplican por un factor de ajuste para colocar el resultado en el
rango deseado.
Método del desplazamiento.
En este caso se consideran los dígitos mas externos del numero "grande". De
cada extremo se toman tantos dígitos como se requieran para el direccionamiento.
Estos se suman y se aplica un factor de ajuste.
Método del plegado.

V.P.M.

48

I.E.S


Es similar al anterior salvo que los dígitos de los extremos se suman en forma
encontrada, semejando que el numero total se encontrara escrito en una hoja y
esta fuera doblada por la mitad.
Método de conversión de base.
Se asume que el numero "grande" se encuentra en una base determinada
diferente de 10 al suprimirle los dígitos fuera de base. El valor resultante es
convertido a base 10 y se le aplica el factor de ajuste. Tomar los tres últimos
dígitos.
Método del análisis de dígitos.
Se obtiene una muestra de gran tamaño de llaves posibles y sus números hash
correspondientes, se analiza la frecuencia de repetición para cada una de las
columnas y se van descartando aquellos que presentan mayor repetición.
Finalmente, se toman las columnas con mayor variación y tantas como dígitos se
requieren. Se aplica factor de ajuste.
Una vez que se ha determinado la dirección hash por cualquiera de los métodos
anteriores, se implementara sobre una estructura que soporte tal
direccionamiento. Estos pueden ser:
• Esqueleto con desborde

V.P.M.

49

I.E.S


•

Archivo Intermedio para direccionamiento

Como puede verse, el modelo del Redireccionamiento ofrece la ventaja de que
el desperdicio provocado por una distribución inadecuada en el esqueleto no
afecta al archivo principal; para este modelo se afecta al archivo de
Redireccionamiento donde el tamaño de los registros es mucho menor y el archivo
principal crece conforma ocurren el arribo de los registros.

6.2 Tipos de Correspondencia
Manejo de cubos
Estadísticamente se ha comprobado que se presenta una distribución mas
adecuada en el esqueleto donde cada dirección hash tiene capacidad para
almacenar mas de un registro que en aquel donde cada localidad almacena solo
un registro y se extiende a una longitud equivalente a la cantidad de registros a
aceptar.
Se denomina tamaño de cubo (o cubeta) a la cantidad de registros que se
almacenan por dirección hash.
Los tamaños de cubo recomendables deben ajustarse a las características del
problema en cuestión, aunque generalmente oscila entre tres y cuatro.
Conforme se incrementa el tamaño del cubo, se reducen las posibilidades de
generar colisiones (y en consecuencia desbordes), agilizando así la localización
de registros; en contraparte, se tiende a desperdiciar espacio de almacenamiento
en la estructura.
El modelo de cubos puede implementarse sobre cualquiera de las estructuras
analizadas anteriormente (Esqueleto o Redireccionamiento). Se recomienda que
el desborde para estos casos se almacene en u archivo independiente con un
tamaño de cubo inferior al del archivo principal.

V.P.M.

50

I.E.S


La justificación de esto radica en que al implementar un tamaño de cubo mayor
de 1 en el área principal se prevé que pocos registros irán a desborde, con lo cual
se muy poco probable llenar un cubo grande en esta área (desborde).

Densidad de empaquetamiento
Al diseñar la estructura de acuerdo a un tamaño de cubo especifico, debe
procurarse un nivel de saturación que no sea extremadamente alto; es decir debe
preferirse sacrificar algunas localidades a cambio de optimizar el funcionamiento
del modelo. El parámetro que nos indica el nivel de saturación es conocido como
densidad de empaquetamiento.

V.P.M.

51

I.E.S


Unidad VII

Compactación de datos
•
•

7.1 Conceptos.
7.2 Método de Huffman.

7.1 Conceptos
COMPACTACIÓN DE DATOS
La compactación de datos tiene por objeto el almacenamiento de información
con un ahorro en el espacio requerido en el medio.
Los sistemas que incorporan técnicas de compactación normalmente utilizan
procesos a la entrada y salida del programa que permitan descompactar y
compactar respectivamente, de tal forma que mientras se realizan procesos en
línea, la información se encuentre en su formato original.
El resto de los sistemas (en una cantidad proporcionalmente baja) compacta y
descompacta solamente los datos a utilizar.
Los algoritmos de compactación normalmente se clasifican en:
•

Técnicas dependientes del tipo de datos.

Se aplican sobre archivos con una estructura, formato o tipo de contenido que se
conoce previamente.
•

Técnicas independientes del tipo de datos.

Se aplican sobre cualquier archivo sin importar su contenido.

Técnicas dependientes del tipo de datos.
Utilizan básicamente la sustitución y codificación de la información. Los principales
puntos que considera son:
1.- Eliminación de elementos redundantes.
Ejemplo:

V.P.M.

52

I.E.S


Sistema relación por número de registro (Lineal).

Sistema relación por campo común

2.- Conversión de números a notación compacta.
Ejemplo:

3.-Supresión de caracteres repetidos.

V.P.M.

53

I.E.S


4.- Tabulación de datos habituales
Ejemplo:

5.- Sustitución de texto idiomático.
Ejemplo:

7.2 Método de Huffman
Técnicas Independientes del tipo de dato.
MÉTODO DE HUFFMAN
V.P.M.

54

I.E.S


COMPACTAR
1. Realizar un recorrido por el archivo a compactar, e ir acumulando en
un arreglo de contadores de incidencias la cantidad de veces que
aparece cada carácter.
2. Construir un árbol binario de recorridos de tal forma que los
caracteres encontrados sean hojas en la estructura. Es importante
que los caracteres con mayor incidencias queden mas cercanos a la
raíz .
3. Etiquetar las ramas del árbol con bits, 0 rama izquierda, 1 rama
derecha.
4. Crear una tabla de códigos (vector) donde se registre el recorrido
desde la raíz hasta una hoja especifica, señalando los bits
encontrados en las ramas.
5. Recorrer el archivo original e ir acumulando los bits de la nueva
codificación hasta completar ocho de ellos, escribir en el archivo
destino el carácter del ASCII que corresponda a los ocho bits
codificados según la codificación normal.
DESCOMPACTAR
1. Recuperar de los contadores de incidencias almacenados el árbol de
recorridos y la cantidad de bits de relleno del ultimo carácter.
2. Recorrer el archivo compactado aplicando el siguiente procedimiento
para cada carácter.
•
•
•

V.P.M.

Obtener ordinal y convertirlo a binario.
Realizar recorrido al árbol hasta llegar a una hoja.
Guardar en el archivo destino (descompactado) el carácter
encontrado en la hoja.

55

I.E.S

V.P.M.


56

I.E.S


Unidad VIII

Acceso Multi-Llaves
•
•

8.1 Estructura Multilista
8.2 Métodos para el acceso multillave

8.1 Estructura Multilista
ACCESO MULTILLAVE
Esta organización se utiliza para establecer conexiones entre datos con
características similares. No es el objetivo principal el acceso rápido a una llave en
particular. En este tipo de organización deben determinarse e identificarse
aquellos campos en los que el rango de valores esta bien definido y que
representan una utilidad al acceso por cada uno de estos valores.
ATRIBUTO:

Es un campo con un rango de valores bien determinado, sobre el cual
es deseable una consulta.
CARACTERISTICA:

Es cada uno de los valores que puede tomar un atributo.

El modelo utiliza para su funcionamiento dos archivos:
•

•

V.P.M.

Archivo de cabecera.- Almacena las direcciones de inicio de cada
cadena de característica. Recomendablemente incluye un campo de
longitud de cadena que permite seleccionar el acceso de la cadena
mas corta cuando se conocen dos o mas características. Tendrá
tantos registros como características tenga el modelo.
Archivo Principal (Datos).- Además de los campos de
almacenamiento normales utilizan tantos campos adicionales como
atributos tenga el modelo; cada uno de estos será una liga al
siguiente registro con la misma característica.

57

I.E.S


Al aplicarle al archivo de cabecera un campo extra que contabilice el numero de
registros que conforman esa cadena hará mas sencilla la tarea al momento de
buscar la cadena mas corta, cuando se conozcan los valores de dos o mas
atributos.

V.P.M.

58

I.E.S


8.2 Métodos para el acceso multillave
a) Indexamiento.- Consiste en utilizar un índice denso para cada tipo de llave
distinta.
Ejemplo:

b) Redireccionamiento.- Consiste en utilizar archivos de redireccionamiento
como esqueletos, mientras que el archivo principal crece conforme se requiere.
Debe mantener ligas para la formación de las cadenas. Podrá utilizar cualquier
método para el calculo de direcciones.

Ejemplo:

V.P.M.

59

Apuntes de organizacion_de_archivos

Más contenido relacionado

La actualidad más candente

Destacado

Similar a Apuntes de organizacion_de_archivos

Más de Jesus Martinez

Apuntes de organizacion_de_archivos