Miguel Orquera
CLASIFICACION DE LOS
       MEDIOS FISICOS DE
      ALMACENAMIENTO
              
 Velocidad con la cual puede ser accesada.
 Costo por unidad de dato.
 Seguridad
   Pérdida de datos por fallas de energía o caída del sistema
   Falla física de un medio de almacenamiento.
 Puede diferenciarse el almacenamiento entre:
   Almacenamiento Volátil: pierde su contenido cuando se
    corta la energía.
   Almacenamiento no volátil:
      Su contenido persiste aún cuando se corta la energía.
      Incluye almacenamiento secundario y terciario, y memoria
       RAM con baterías.
MEDIOS FISICOS DE
          ALMACENAMIENTO
                               
 Cache – El mas rápido y costoso medio de
  almacenamiento; volátil; manejado por el sistema de
  hardware del computador.
 Memoria Principal:
    Rápido acceso (70 a 100 nanosegundos; 1 nanosegundo = 10–9
     segundos)
    Generalmente muy pequeña (y muy cara) para almacenar la
     base de datos entera.
       Actualmente se usa una capacidad de sobre varios Gigas.
       Su capacidad va en aumento y su costo por byte va disminuyendo
        en forma constante y rápida. (un factor de 2 cada 2 a 3 años)
    Volátil — El contenido de la memoria principal se pierde
     cuando se corta la energía o el sistema cae.
MEDIOS FISICOS DE
ALMACENAMIENTO (CONT.)
                          
 Memoria Flash
   Los datos sobreviven a fallas de energía.
   La lecturas son tan rápidas como la memoria Ram (100
    nanosegundos).
   La escritura es lenta (4 - 10 microsegundos), el borrado
    es mas lento ya que se borra todo en banco de
    memoria.
   El costo por unidad de almacenamiento es similar al
    de la memoria Ram.
   Ampliamente usados en cámaras digitales y
    computadores de bolsillo.
   También conocidos como EEPROM (Electrically
    Erasable Programmable Read-Only Memory)
MEDIOS FISICOS DE
 ALMACENAMIENTO (CONT.)
                                   
 Discos magnéticos
    Los datos son almacenados sobre la superficie de discos, y la
     lectura y escritura se realiza magnéticamente.
    Principal medio de almacenamiento de datos a largo plazo;
     típicamente almacena una base de datos entera.
    Para accesar a los datos deben ser movidos desde disco a memoria
     principal, y deben ser escritos nuevamente para almacenarlos.
       Su acceso es mucho mas lento que a la memoria principal.
    Acceso directo – es posible leer datos desde disco en cualquier
     orden a diferencia de las cintas magnéticas.
    Actual capacidad sobre 1 TB.
       Mucha mas grande capacidad y menor costo por byte que la memoria
        Ram.
       Crecimiento rápido y constante con el mejoramiento de la tecnología
        (factor de 2 a 3 cada 2 años).
    Sobrevive a las fallas de energía y caídas del sistema.
       Los daños en el disco pueden destruir a los datos, pero es raro.
MEDIOS FISICOS DE
 ALMACENAMIENTO (CONT.)
                             
 Almacenamiento óptico
   No volátil, datos son leídos ópticamente desde disco utilizando
    un láser.
   CD-ROM (700 MB), DVD (4.7 a 8.5 GB por cara, hasta 17 GB en
    DVD doble cara) y blu-ray (25GB los de simple cara y 50 GB los
    de doble cara son los mas populares.
   Los discos ópticos Write-one, read-many (WORM) son usados
    para almacenamiento de archivos (CD-R and DVD-R).
   Versiones de escritura múltiple también están disponibles (CD-
    RW, DVD-RW, y DVD-RAM)
   Lectura y escritura es mas lenta que los discos magnéticos.
   Las cajas de CDs, contienen varias unidades de discos y
    muchos discos, y un mecanismo para carga y descarga
    automática de discos, usados para almacenar grandes
    volúmenes de información.
MEDIOS FISICOS DE
ALMACENAMIENTO (CONT.)
                               
 Almacenamiento en Cinta
   no-volátil, usado principalmente para respaldos (para
    recuperación de datos cuando se daña el disco), y para
    archivar datos.
   Acceso secuencial – mucho mas lento que un disco
   Alta capacidad (disponibles cintas de una capacidad entre
    40 a 300 GB).
   Las cintas pueden ser removidas de su drive los costos
    de almacenamiento son mucho mas baratos que un disco
    pero su drive es caro.
   Las cajas de cintas están disponibles para almacenar
    cantidades masivas de datos.
      Cientos of terabytes (1 terabyte = 109 bytes) o aún pentabytes (1
       petabyte = 1012 bytes)
JERARQUIA DE
ALMACENAMIENTO
      
JERARQUIA DE
 ALMACENAMIENTO (CONT.)
                           
 Almacenamiento primario: Medios rápidos pero
  volátiles (cache, main memory).
 Almacenamiento secundario: siguiente nivel en la
  jerarquía, no-volátil, tiempo de acceso
  moderadamente rápido.
   También llamado almacenamiento en línea.
   Estos son: memoria flash y discos magnéticos.
 Almacenamiento terciario: El mas bajo nivel en la
  jerarquía, no-volátil, tiempo de acceso lento.
   También llamado almacenamiento fuera de línea.
   Estos son: cintas magnéticas y almacenamiento óptico.
MECANISMO DEL DISCO
       DURO
        
DISCOS MAGNETICOS
        
 Cabeza de lectura-escritura
     Su posición es muy cercana a la superficie del disco (casi tocándole)
     Lee y escribe información magnéticamente codificada.
 La superficie del disco se divide en pistas circulares.
     Entre 50.000 y 100.000 pistas por plato es lo usual.
 Cada pista está dividida en sectores.
     Un sector es la unidad mas pequeña de datos que puede ser leída o escrita.
     Típicamente el tamaño de un sector es de 512 bytes.
     Sectores por pista: 500 (en pista internas) a 1000 (en pistas externas)
 Para lectura/escritura de un sector
     El brazo del disco se mueve hasta colocar la cabeza lectora sobre la pista
      correcta.
     Los platos giran continuamente; los datos son leídos o escritos cuando un sector
      pasa bajo la cabeza.
 Montaje de las cabezas
     Varios platos se colocan sobre un mismo eje (típicamente de 2 a 5)
     Una cabeza por superficie de cada plato, montados sobre un brazo común.
 Cilindro i está formado por las i-ésimas pistas de todos los platos.
DISCOS MAGNETICOS
        
 Las primeras generaciones de discos eran susceptibles a caídas de
  las cabezas.
    Los primeros discos tenían sus superficies recubiertas de óxido
     metálico que podía desintegrarse ante una caída de la cabeza, dañando
     todo el disco.
    Las actuales versiones de discos son menos susceptibles a esos daños,
     aunque sectores individuales pueden se dañados.
    Controlador de disco – Es la interfaz entre el sistema informático y el
     hardware.
    Acepta comandos de alto nivel para leer o escribir un sector
    Inicia acciones como mover el brazo del disco a al pista correcta, y leer
     o escribir los datos
    Calcula y añade checksums a cada sector para verificar que los datos
     han sido leídos correctamente.
        Si los datos están corruptos, es muy probable que el checksum almacenado
         no concuerde con el recalculado.
        Asegura escrituras exitosas volviendo a leer un sector después de escribirlo.
    Ejecuta una reasignación de datos ubicados en sectores dañados.
SUBSISTEMA DE
              DISCO
                

Varios discos son conectados a un sistema de computación a través de un
controlador.
     Algunas funciones del controlador (checksum, reasignación de sectores
     dañados) a menudo se implementan en cada disco individual, lo que
     reduce la carga al controlador.
Familias de Interfaces de disco estandar:
     •Rango de estándares ATA (AT adaptor).
     •Rango de estándares SCSI (Small Computer System Interconnect).
     Hay varios tipos de cada estándar (difieren en su velocidad y capacidad).
MEDIDAS DE RENDIMIENTO
       DE LOS DISCOS
                                       
 Tiempo de acceso – El tiempo desde que se hace una solicitud de
  lectura o escritura hasta que comienza la transferencia de datos.
  Consiste de:
    Tiempo de búsqueda – tiempo que toma la colocación del brazo del disco
     en la pista adecuada.
          El tiempo promedio de búsqueda es la mitad del mayor tiempo de búsqueda.
          4 a 10 milisegundos en un disco típico.
    Latencia rotacional – tiempo que toma al sector que va ha ser accesado,
     colocarse bajo la cabeza lectora
          La latencia promedio es la mitad del mayor tiempo de latencia.
          4 a 11 milisegundos en un disco típico (5400 a 15000 r.p.m.)
 Velocidad de transferencia de datos – es la velocidad a la que se
  puede recuperar o guardar datos en le disco.
    25 a 100 MB por segundo es típico.
    Varios discos pueden compartir un controlador, por lo tanto, la velocidad
     que un controlador puede manejar es también importante.
          E.g. ATA-5: 66 MB/s, Ultra 320SCSI: 320 MB/s
          Fiber Channel: 256 MB/s
MEDIDAS DE RENDIMIENTO
        DE LOS DISCOS
                             
 Tiempo medio entre fallos (MTTF) – Es tiempo
  promedio que se espera que un disco opere sin fallas.
   Típicamente entre 57 a 136 años según los fabricantes,
     pero normalmente quedan obsoletos a los cinco años.
      E.g., Un MTTF de 1,200,000 horas significa que dados 1000
       discos nuevos, como promedio fallará uno cada 1200 horas.
   MTTF decrece con la edad de los discos.
OPTIMIZACION DEL ACCESO
   LOS BLOQUES DE DISCO
                                  
 Bloque – Una secuencia de sectores contiguos de una misma
  pista.
    Los datos son transferidos entre disco y memoria principal en
     bloques.
    Su tamaño varía desde 512 bytes a varios Kbytes.
       Bloques mas pequeños: mas transferencias desde disco.
       Bloques mas grandes: mas espacio desperdiciado con bloques
        parcialmente llenos.
       El tamaño típico de un bloque actual está entre 4 y 16 Kbytes.
 Planificación del brazo del disco: algoritmos ordenan los
  accesos pendientes a las pistas de tal manera que el movimiento
  del brazo se minimice.
    Algoritmo del ascensor: mueve el brazo en una dirección (desde
     las pistas externas a las internas o viceversa), procesando los
     siguientes requerimientos en esa dirección hasta que no haya mas,
     entonces invertir la dirección y repetir el proceso.
OPTIMIZACION DEL ACCESO
  LOS BLOQUES DE DISCO
         (Cont.)
           
 Organización de archivos – optimiza el tiempo de
  acceso a los bloques de acuerdo a como se espera que
  se accede a los datos.
   Almacena información relacionada en el mismo cilindro o
    en cilindros vecinos.
   Con el tiempo los archivos pueden quedar fragmentados
      Si los datos son insertados y borrados continuamente.
      O los bloques libres en el disco están dispersos, y los nuevos
       archivos tienen sus bloques dispersos en el disco.
      El acceso secuencial a un archivo fragmentado incrementa el
       movimiento del brazo del disco.
   Algunos sistemas tienen opciones para defragmentar los
    archivos del disco e incrementar la velocidad de acceso.
OPTIMIZACION DEL ACCESO
   LOS BLOQUES DE DISCO
          (Cont.)
            
 Memoria intermedia no volátil se sube la velocidad de escritura a disco
  escribiendo los bloques en un RAM no volátil para mas tarde pasar esos
  bloques a disco, cuando el sistema esté desocupado.
     RAM no volátil: RAM alimentada por baterías
           Aún si la energía falla. Los datos están seguros y serán escritos en disco cuando la
            energía retorne.
     El controlador hace la escrituras en disco cuando el disco no tiene otros
      requerimientos.
     Las operaciones de BDD que requieren que los datos sean guardados antes de
      continuar, pueden seguir que los datos sean escritos en disco.
     Las escrituras pueden ser reordenados para minimizar el movimiento del brazo.
 Disco de Archivo histórico – se provee un disco para la escritura de un
  archivo histórico secuencial de bloques actualizados.
 Es similar al RAM no volátil
           La escritura en archivo histórico es muy rápida mientras no se requieran hacer
            búsquedas.
           No necesita de un hardware especial
 El sistema de archivos típicamente reordena la escritura de discos para
  mejorar el rendimiento.

Almacenamiento en bases de datos

  • 1.
  • 2.
    CLASIFICACION DE LOS MEDIOS FISICOS DE ALMACENAMIENTO   Velocidad con la cual puede ser accesada.  Costo por unidad de dato.  Seguridad  Pérdida de datos por fallas de energía o caída del sistema  Falla física de un medio de almacenamiento.  Puede diferenciarse el almacenamiento entre:  Almacenamiento Volátil: pierde su contenido cuando se corta la energía.  Almacenamiento no volátil:  Su contenido persiste aún cuando se corta la energía.  Incluye almacenamiento secundario y terciario, y memoria RAM con baterías.
  • 3.
    MEDIOS FISICOS DE ALMACENAMIENTO   Cache – El mas rápido y costoso medio de almacenamiento; volátil; manejado por el sistema de hardware del computador.  Memoria Principal:  Rápido acceso (70 a 100 nanosegundos; 1 nanosegundo = 10–9 segundos)  Generalmente muy pequeña (y muy cara) para almacenar la base de datos entera.  Actualmente se usa una capacidad de sobre varios Gigas.  Su capacidad va en aumento y su costo por byte va disminuyendo en forma constante y rápida. (un factor de 2 cada 2 a 3 años)  Volátil — El contenido de la memoria principal se pierde cuando se corta la energía o el sistema cae.
  • 4.
    MEDIOS FISICOS DE ALMACENAMIENTO(CONT.)   Memoria Flash  Los datos sobreviven a fallas de energía.  La lecturas son tan rápidas como la memoria Ram (100 nanosegundos).  La escritura es lenta (4 - 10 microsegundos), el borrado es mas lento ya que se borra todo en banco de memoria.  El costo por unidad de almacenamiento es similar al de la memoria Ram.  Ampliamente usados en cámaras digitales y computadores de bolsillo.  También conocidos como EEPROM (Electrically Erasable Programmable Read-Only Memory)
  • 5.
    MEDIOS FISICOS DE ALMACENAMIENTO (CONT.)   Discos magnéticos  Los datos son almacenados sobre la superficie de discos, y la lectura y escritura se realiza magnéticamente.  Principal medio de almacenamiento de datos a largo plazo; típicamente almacena una base de datos entera.  Para accesar a los datos deben ser movidos desde disco a memoria principal, y deben ser escritos nuevamente para almacenarlos.  Su acceso es mucho mas lento que a la memoria principal.  Acceso directo – es posible leer datos desde disco en cualquier orden a diferencia de las cintas magnéticas.  Actual capacidad sobre 1 TB.  Mucha mas grande capacidad y menor costo por byte que la memoria Ram.  Crecimiento rápido y constante con el mejoramiento de la tecnología (factor de 2 a 3 cada 2 años).  Sobrevive a las fallas de energía y caídas del sistema.  Los daños en el disco pueden destruir a los datos, pero es raro.
  • 6.
    MEDIOS FISICOS DE ALMACENAMIENTO (CONT.)   Almacenamiento óptico  No volátil, datos son leídos ópticamente desde disco utilizando un láser.  CD-ROM (700 MB), DVD (4.7 a 8.5 GB por cara, hasta 17 GB en DVD doble cara) y blu-ray (25GB los de simple cara y 50 GB los de doble cara son los mas populares.  Los discos ópticos Write-one, read-many (WORM) son usados para almacenamiento de archivos (CD-R and DVD-R).  Versiones de escritura múltiple también están disponibles (CD- RW, DVD-RW, y DVD-RAM)  Lectura y escritura es mas lenta que los discos magnéticos.  Las cajas de CDs, contienen varias unidades de discos y muchos discos, y un mecanismo para carga y descarga automática de discos, usados para almacenar grandes volúmenes de información.
  • 7.
    MEDIOS FISICOS DE ALMACENAMIENTO(CONT.)   Almacenamiento en Cinta  no-volátil, usado principalmente para respaldos (para recuperación de datos cuando se daña el disco), y para archivar datos.  Acceso secuencial – mucho mas lento que un disco  Alta capacidad (disponibles cintas de una capacidad entre 40 a 300 GB).  Las cintas pueden ser removidas de su drive los costos de almacenamiento son mucho mas baratos que un disco pero su drive es caro.  Las cajas de cintas están disponibles para almacenar cantidades masivas de datos.  Cientos of terabytes (1 terabyte = 109 bytes) o aún pentabytes (1 petabyte = 1012 bytes)
  • 8.
  • 9.
    JERARQUIA DE ALMACENAMIENTO(CONT.)   Almacenamiento primario: Medios rápidos pero volátiles (cache, main memory).  Almacenamiento secundario: siguiente nivel en la jerarquía, no-volátil, tiempo de acceso moderadamente rápido.  También llamado almacenamiento en línea.  Estos son: memoria flash y discos magnéticos.  Almacenamiento terciario: El mas bajo nivel en la jerarquía, no-volátil, tiempo de acceso lento.  También llamado almacenamiento fuera de línea.  Estos son: cintas magnéticas y almacenamiento óptico.
  • 10.
  • 11.
    DISCOS MAGNETICOS   Cabeza de lectura-escritura  Su posición es muy cercana a la superficie del disco (casi tocándole)  Lee y escribe información magnéticamente codificada.  La superficie del disco se divide en pistas circulares.  Entre 50.000 y 100.000 pistas por plato es lo usual.  Cada pista está dividida en sectores.  Un sector es la unidad mas pequeña de datos que puede ser leída o escrita.  Típicamente el tamaño de un sector es de 512 bytes.  Sectores por pista: 500 (en pista internas) a 1000 (en pistas externas)  Para lectura/escritura de un sector  El brazo del disco se mueve hasta colocar la cabeza lectora sobre la pista correcta.  Los platos giran continuamente; los datos son leídos o escritos cuando un sector pasa bajo la cabeza.  Montaje de las cabezas  Varios platos se colocan sobre un mismo eje (típicamente de 2 a 5)  Una cabeza por superficie de cada plato, montados sobre un brazo común.  Cilindro i está formado por las i-ésimas pistas de todos los platos.
  • 12.
    DISCOS MAGNETICOS   Las primeras generaciones de discos eran susceptibles a caídas de las cabezas.  Los primeros discos tenían sus superficies recubiertas de óxido metálico que podía desintegrarse ante una caída de la cabeza, dañando todo el disco.  Las actuales versiones de discos son menos susceptibles a esos daños, aunque sectores individuales pueden se dañados.  Controlador de disco – Es la interfaz entre el sistema informático y el hardware.  Acepta comandos de alto nivel para leer o escribir un sector  Inicia acciones como mover el brazo del disco a al pista correcta, y leer o escribir los datos  Calcula y añade checksums a cada sector para verificar que los datos han sido leídos correctamente.  Si los datos están corruptos, es muy probable que el checksum almacenado no concuerde con el recalculado.  Asegura escrituras exitosas volviendo a leer un sector después de escribirlo.  Ejecuta una reasignación de datos ubicados en sectores dañados.
  • 13.
    SUBSISTEMA DE DISCO  Varios discos son conectados a un sistema de computación a través de un controlador. Algunas funciones del controlador (checksum, reasignación de sectores dañados) a menudo se implementan en cada disco individual, lo que reduce la carga al controlador. Familias de Interfaces de disco estandar: •Rango de estándares ATA (AT adaptor). •Rango de estándares SCSI (Small Computer System Interconnect). Hay varios tipos de cada estándar (difieren en su velocidad y capacidad).
  • 14.
    MEDIDAS DE RENDIMIENTO DE LOS DISCOS   Tiempo de acceso – El tiempo desde que se hace una solicitud de lectura o escritura hasta que comienza la transferencia de datos. Consiste de:  Tiempo de búsqueda – tiempo que toma la colocación del brazo del disco en la pista adecuada.  El tiempo promedio de búsqueda es la mitad del mayor tiempo de búsqueda.  4 a 10 milisegundos en un disco típico.  Latencia rotacional – tiempo que toma al sector que va ha ser accesado, colocarse bajo la cabeza lectora  La latencia promedio es la mitad del mayor tiempo de latencia.  4 a 11 milisegundos en un disco típico (5400 a 15000 r.p.m.)  Velocidad de transferencia de datos – es la velocidad a la que se puede recuperar o guardar datos en le disco.  25 a 100 MB por segundo es típico.  Varios discos pueden compartir un controlador, por lo tanto, la velocidad que un controlador puede manejar es también importante.  E.g. ATA-5: 66 MB/s, Ultra 320SCSI: 320 MB/s  Fiber Channel: 256 MB/s
  • 15.
    MEDIDAS DE RENDIMIENTO DE LOS DISCOS   Tiempo medio entre fallos (MTTF) – Es tiempo promedio que se espera que un disco opere sin fallas.  Típicamente entre 57 a 136 años según los fabricantes, pero normalmente quedan obsoletos a los cinco años.  E.g., Un MTTF de 1,200,000 horas significa que dados 1000 discos nuevos, como promedio fallará uno cada 1200 horas.  MTTF decrece con la edad de los discos.
  • 16.
    OPTIMIZACION DEL ACCESO LOS BLOQUES DE DISCO   Bloque – Una secuencia de sectores contiguos de una misma pista.  Los datos son transferidos entre disco y memoria principal en bloques.  Su tamaño varía desde 512 bytes a varios Kbytes.  Bloques mas pequeños: mas transferencias desde disco.  Bloques mas grandes: mas espacio desperdiciado con bloques parcialmente llenos.  El tamaño típico de un bloque actual está entre 4 y 16 Kbytes.  Planificación del brazo del disco: algoritmos ordenan los accesos pendientes a las pistas de tal manera que el movimiento del brazo se minimice.  Algoritmo del ascensor: mueve el brazo en una dirección (desde las pistas externas a las internas o viceversa), procesando los siguientes requerimientos en esa dirección hasta que no haya mas, entonces invertir la dirección y repetir el proceso.
  • 17.
    OPTIMIZACION DEL ACCESO LOS BLOQUES DE DISCO (Cont.)   Organización de archivos – optimiza el tiempo de acceso a los bloques de acuerdo a como se espera que se accede a los datos.  Almacena información relacionada en el mismo cilindro o en cilindros vecinos.  Con el tiempo los archivos pueden quedar fragmentados  Si los datos son insertados y borrados continuamente.  O los bloques libres en el disco están dispersos, y los nuevos archivos tienen sus bloques dispersos en el disco.  El acceso secuencial a un archivo fragmentado incrementa el movimiento del brazo del disco.  Algunos sistemas tienen opciones para defragmentar los archivos del disco e incrementar la velocidad de acceso.
  • 18.
    OPTIMIZACION DEL ACCESO LOS BLOQUES DE DISCO (Cont.)   Memoria intermedia no volátil se sube la velocidad de escritura a disco escribiendo los bloques en un RAM no volátil para mas tarde pasar esos bloques a disco, cuando el sistema esté desocupado.  RAM no volátil: RAM alimentada por baterías  Aún si la energía falla. Los datos están seguros y serán escritos en disco cuando la energía retorne.  El controlador hace la escrituras en disco cuando el disco no tiene otros requerimientos.  Las operaciones de BDD que requieren que los datos sean guardados antes de continuar, pueden seguir que los datos sean escritos en disco.  Las escrituras pueden ser reordenados para minimizar el movimiento del brazo.  Disco de Archivo histórico – se provee un disco para la escritura de un archivo histórico secuencial de bloques actualizados.  Es similar al RAM no volátil  La escritura en archivo histórico es muy rápida mientras no se requieran hacer búsquedas.  No necesita de un hardware especial  El sistema de archivos típicamente reordena la escritura de discos para mejorar el rendimiento.