SlideShare una empresa de Scribd logo
1 de 5
Descargar para leer sin conexión
Estado del Arte sobre el Almacenamiento
y Gestión de los Datos en la Nube
Jesús Á. Alonso López
Escuela Técnica Superior de
Ingenieros de Telecomunicación
Universidad de Valladolid
Valladolid, Spain
Email: jesus.alonso.muitic@gmail.com
Rafael Cano Parra
Escuela Técnica Superior de
Ingenieros de Telecomunicación
Universidad de Valladolid
Valladolid, Spain
Email: rcanoparra@gmail.com
Carlos E. Reyes Gonzalo
Escuela Técnica Superior de
Ingenieros de Telecomunicación
Universidad de Valladolid
Valladolid, Spain
Email: cereyesg@gmail.com
Resumen—Este documento recoge la investigación realizada
sobre algunos aspectos del almacenamiento y gestión de los
datos dentro del paradigma de la computación en la nube. Los
autores han revisado las preguntas de investigación abiertas y
han seleccionado tres en las que se han centrado para revisar el
estado del arte en relación con ellas: la seguridad en los datos,
la integridad de los datos y los problemas relacionados con la
realización de copias de seguridad.
I. INTRODUCCIÓN
La computación en la nube es un paradigma emergente que
afecta a diversos aspectos como son el almacenamiento de
los datos y la ejecución de las aplicaciones. Hace uso de
la virtualización para proporcionar ciertas ventajas frente al
sistema tradicional físico, tales como una percepción de re-
cursos infinitos, una gestión eficiente de recursos consumiendo
sólo aquellos que son necesarios, e incluso introduciendo el
concepto de “pagar por lo que utilizas”.
El almacenamiento en la nube surge como una concepto
dentro de la computación en la nube. Ofrece una solución de
virtualización del almacenamiento en la que los datos pueden
estar guardados en distintas ubicaciones físicas y usando
diferentes técnicas de gestión interna. En cambio, de cara al
usuario los datos se ofrecen de forma transparente, haciendo
uso de una aplicación de gestión, y permite aislarle de la
gestión de la infraestructura. A su vez, permite que los datos
estén disponibles para el usuario desde cualquier parte del
mundo a través de una conexión a Internet.
Actualmente, la computación en la nube se clasifica en
tres escenarios diferentes: infraestructura como servicio (IaaS),
plataforma como servicio (PaaS) y software como servicio
(SaaS). El almacenamiento en la nube se añade como un
nuevo escenario dentro de esta clasificación: el almacena-
miento como servicio (DaaS). Este escenario permite una
abstracción del almacenamiento de los datos a través de un
conjunto de interfaces de usuario, de forma que el usuario
puede interactuar con ellos sin conocer ni preocuparse sobre
cómo son gestionados y almacenados internamente sus datos.
He et al. [1] y Wu et al. [2] identifican cinco ventajas clave
relativas a la utilización del almacenamiento en la nube y a
las aplicaciones que hacen uso de éste, que son: facilidad de
gestión, manejando los datos con un simple explorador web;
Tabla I
ESCENARIOS DE LA COMPUTACIÓN EN LA NUBE
IaaS PaaS SaaS DaaS
Infrastructure
as a Service
Platform as a
Service
Software as a
Service
Data as a Ser-
vice
Servidores,
redes, sistemas
de almacena-
miento y otros
componentes
físicos.
Entornos de
desarrollo de
servicios.
Aplicación
completa
ofrecida como
un servicio.
Servicios de
almacena-
miento.
efectividad en el coste, eliminando los costes del hardware
y de su mantenimiento y ofreciendo niveles altos de dis-
ponibilidad y escalabilidad haciendo uso de la economía de
escala; bajo impacto ante cortes y mejoras, proveyendo un
coste efectivo en la redundancia del hardware y ofreciendo un
servicio ininterrumpido incluso durante cortes planeados y no
planeados; preparación ante desastres, ofreciendo seguridad a
través del almacenamiento de los datos de forma redundante y
distribuidos para que no haya pérdidas ante una recuperación
de un desastre; y planificación simplificada, como una solu-
ción flexible que provee nuevo almacenamiento según se va
necesitando.
A su vez, identifican seis oportunidades sobre su imple-
mentación originarias de las seis debilidades detectadas en
los distintos tipos de almacenamiento en la nube existentes.
Estas oportunidades son las siguientes: seguridad, un punto
recurrente en cualquier sistema; integridad de los datos, ase-
gurando que los datos almacenados son correctos; potencia,
ofreciendo la oportunidad de tener almacenamiento adicional;
tiempo y costes en la replicación, relativas a la rapidez con la
que se replican los datos y siendo importante para la resistencia
de los datos; costes, reduciendo éstos al quitar la necesidad
de comprar hardware adicional para el almacenamiento; y
fiabilidad.
Este artículo se centra en tres de las oportunidades anterio-
res, y se organiza de la siguiente forma. En la sección II se
mencionan algunos elementos que debería tener un sistemas
de almacenamiento en la nube seguro, de igual manera se
exponen problemas de casos reales. La sección III ofrece una
perspectiva general de los retos existentes para la integridad
de los datos, así como la descripción de algunos protocolos
propuestos para conseguir una solución efectiva. Los proble-
mas relacionados con el tiempo y coste de la replicación de
los datos mediante copias de seguridad son tratados en la
sección IV donde se hace hincapié en las técnicas para evitar
duplicaciones de los datos. Finalmente, en la sección V se
presentan las conclusiones y los trabajos futuros.
II. SEGURIDAD EN LOS DATOS
Según Kamara et al. [3] los avances en las tecnologías
de redes y el aumento en las necesidades de recursos de
computación exigen a muchas organizaciones a externalizar
sus necesidades de almacenamiento y computación. Al mover
sus datos a la nube los clientes pueden evitar los costos de
construir y mantener una infraestructura de almacenamiento
privado, optando en su lugar por pagarle a un proveedor
de servicios en función de sus necesidades. Para algunos,
esto proporciona varios beneficios como la disponibilidad
(es decir, ser capaz de acceder a los datos desde cualquier
lugar) y la fiabilidad (es decir, no tener que preocuparse de
las copias de seguridad) a un coste relativamente bajo. Pero
para otros clientes, estos cambios introducen elementos que
pueden significar riesgos de seguridad y privacidad. Parece
que el mayor obstáculo para la adopción de almacenamiento
en la nube (y la computación en la nube en general) es su
preocupación por la confidencialidad y la integridad de los
datos.
Esta reticencia se puede atribuir al deseo de proteger los
datos críticos de las obligaciones legales para preservar la
confidencialidad y la integridad de los datos. Esto último puede
ocurrir cuando el cliente es responsable de mantener datos que
permitan la identificación de personas o registros médicos e
información financiera.
Para abordar dichas preocupaciones Kamara et al. [3] pro-
pone un servicio de almacenamiento virtual privado (servicio
de almacenamiento criptográfico) que contemple los siguientes
elementos (por lo menos) de seguridad:
Confidencialidad: el proveedor de almacenamiento en la
nube no debe conocer ninguna información sobre los
datos del cliente.
Integridad: cualquier modificación de los datos del cliente
por el proveedor de almacenamiento en la nube debe ser
detectados por el cliente.
Disponibilidad: los datos del cliente se pueden acceder
desde cualquier máquina y en todo momento.
Fiabilidad: los datos del cliente son una copia de segu-
ridad fiable.
Eficiencia en la recuperación: los tiempos de recupera-
ción de datos son comparables a un servicio de almace-
namiento en la nube pública.
Posibilidad del intercambio de datos: los clientes pueden
compartir sus datos con terceros de confianza.
Un aspecto importante de un servicio de almacenamiento
criptográfico es que las propiedades de seguridad descritas
anteriormente se consiguen sobre la base de las garantías de
cifrado fuerte.
Otros elementos que comprometen la seguridad se exponen
para apreciar con mayor amplitud este campo. Por ejemplo,
Cachin et al. [4] advierte sobre los tiempos de inactividad
de los servicios contratados, que afectan la disponibilidad de
manera directa y refiere casos sucedidos en Google Mail, Hot-
mail, Amazon S3 y MobileMe, sugiere revisar este apartado en
los contratos de servicios con el proveedor de almacenamiento
en la nube. De igual manera se hace algunas preguntas y las
deja en el aire: ¿qué pasaría si se paga el servicio con retraso?
o ¿puede el proveedor de almacenamiento decidir que uno
de los documentos viola su política de seguridad y cancelar
su servicio o negarle el acceso a los datos? En el año 2008,
un proveedor de almacenamiento en la nube llamado LinkUp
(MediaMax) salió del negocio después de perder el 45 % de
los datos almacenados de sus clientes debido a un error del
administrador del sistema.
III. INTEGRIDAD DE LOS DATOS
Al igual que la seguridad en los datos, uno de los retos muy
ligado a éste que surge al popularizarse el almacenamiento
en la nube en el ámbito industrial y educativo es el de la
integridad de los datos. La integridad de los datos permite
asegurar al usuario que los datos que guarda y recupera
del almacenamiento en la nube son los mismos y no han
sufrido modificaciones ni durante las transmisiones ni en el
almacenamiento en la nube.
Las técnicas que se empezaron a utilizar para garantizar
la integridad de los datos en el almacenamiento en la nube
eran las tradicionales, tales como la firma digital, cifrado,
cortafuegos, aislamiento de entornos virtuales, etc. Surgieron
multitud de dudas sobre cómo eran tratados los datos de
los usuarios por los sistemas de almacenamiento en la nube,
y se detectó la necesidad de definir requisitos de seguridad
específicos para la computación en la nube.
Los protocolos que se han propuesto actualmente para
garantizar la integridad de los datos tienen dos aspectos de
completitud diferenciadores. El primero trata sobre si el diseño
está pensado para un único servidor o si permite asegurar la
integridad cuando los datos están distribuidos entre varios ser-
vidores. El segundo es relativo al carácter estático o dinámico
de los datos en el almacenamiento en la nube, es decir, si se
permiten realizar operaciones sobre ellos cuando está en la
nube o, en cambio, sólo se utiliza para un almacenamiento sin
modificaciones.
Feng et al. [5] comenta que los tres grandes sistemas de
almacenamiento en la nube existentes (Amazon Web Services,
Windows Azure Platform y Google App Engine) contienen
una vulnerabilidad básica, como es la falta de garantía de
que los datos almacenados en sus plataformas mantengan
su integridad sin ser modificados. Los tres sistemas utilizan
una huella digital cifrando los datos con el algoritmo MD5
y realizando la transmisión sobre canales seguros utilizando
el protocolo SSL, pero no van más allá sobre la garantía de
integridad de los datos dentro de sus plataformas. Por ello
propone un nuevo protocolo de no rechazo (NR) diseñado
específicamente para el contexto de la computación en la
nube, en el que utiliza un enlace de integridad entre dos
sesiones a través de un agente de confianza de terceros. Está
diseñado para un único servidor y no permite que los datos
sean dinámicos.
En el mismo año, Jianhong y Hua [6] proponen un protocolo
que combina la criptografía basad en la identidad y el sistema
de firma digital RSA. Este protocolo permite garantizar al
usuario la verificación de la integridad de sus datos, sin tener
una copia local de los ficheros de datos y prescindiendo ini-
cialmente de verificadores de terceros, aunque permite delegar
la autoridad de verificación de la integridad de sus datos en
agentes de confianza de terceros. Está diseñado para varios
servidores, pero no permite que los datos sean dinámicos.
Un protocolo similar al de Jianhong y Hua es el que propone
Luo y Bai [7]. Es un protocolo de verificación de la integridad
de los datos de forma remota basado en las firmas digitales
RSA y HLAs y utilizando agentes públicos de verificación.
Está diseñado para un único servidor, pero permite garantizar
la integridad incluso aunque los datos tengan modificaciones
dinámicas remotamente.
Por otra parte, la mayoría de los protocolos que se utilizan
para garantizar la integridad de los datos requieren un uso
elevado del procesador para el cifrado de los datos o un ancho
de banda grande para la transmisión de los datos. Kumar y
Saxena [8] proponen un protocolo diseñado específicamente
para ser utilizado en dispositivos pequeños tales como una
PDA o un teléfono inteligente, en los que el procesador, la
batería y el ancho de banda son limitados. El protocolo permite
garantizar la integridad de los datos realizando únicamente la
descarga y cifrado de una porción de bits de ellos, reduciendo
así el ancho de banda y la computación. Se crea una clave
criptográfica de cada porción de bits como un metadato y que
será la que se utilice para verificar la integridad de los datos
ante los agentes de verificación.
En el trabajo de Talib et al. [9] van más allá del diseño
de un protocolo para garantizar la integridad de los datos, y
proponen una capa llamada “CloudZone” basada en el uso
de sistemas multiagente en el que, además de garantizar la
integridad, permiten la reconstrucción de los datos originales
a través de la descarga de unos vectores desde los servidores
en la nube. Realiza una gestión de copias de seguridad interna
basada en reglas para permitir la recuperación de los datos,
los cuales pueden estar en varios servidores a la vez que se
toleran los cambios dinámicos sin perder la integridad de los
datos.
IV. DUPLICACIÓN DE DATOS
La duplicación de datos es un problema que un proveedor
de almacenamiento en la nube debe evitar con el fin de poder
hacer un uso óptimo de los recursos disponibles. La optimiza-
ción de la capacidad de almacenamiento le permitirá ahorrar
costes evitando la compra de nuevos servidores y supondrá
por supuesto menores gastos operativos: se necesitará menos
espacio para el centro de datos y la energía consumida tanto
para alimentar equipos como para refrigerar será menor.
En [10] se señala al cuello de botella que suponen las
transferencias de datos como uno de los obstáculos (y por
tanto oportunidades de investigación) de la computación en la
nube. Esto parece especialmente relevante para servicios de
almacenamiento y en concreto para la realización de copias
de seguridad en la nube. Los autores incluyen varios ejemplos
introducidos a su vez por Jim Gray en [11] en los que
se compara el precio y el tiempo necesarios para realizar
una copia de seguridad a través de la nube con lo que
costaría enviar por mensajería copias físicas de los discos.
La conclusión que extraen es que las copias de seguridad
completas (por ejemplo semanales) se pueden realizar a través
del envío de copias físicas mediante mensajería tradicional (vía
MRW, FedEx o similares) mientras que las copias de seguridad
incrementales diarias se pueden realizar a través de la nube.
Parece claro por tanto que los proveedores de servicios de
almacenamiento y de copias de seguridad en la nube deben
investigar en técnicas que les ayuden a reducir la cantidad de
datos que se deben enviar a través de la nube.
Las técnicas de-duplicación de datos permiten optimizar
el uso de los recursos detectando ficheros o fragmentos de
fichero duplicados y almacenando una única copia de cada
bloque de fichero. Con esto se consigue no sólo un mejor
aprovechamiento del almacenamiento de disco si no también
una reducción de los requerimientos de ancho de banda puesto
que hay menos información que transferir.
IV-A. Estrategias de de-duplicación
En función del tamaño de la información que se maneja se
distingue entre:
De-duplicación a nivel de fichero: permite guardar una
sola copia de cada fichero. Dos ficheros se consideran
idénticos si se obtiene el mismo valor al aplicar una
función hash.
De-duplicación a nivel de bloque: se trabaja a nivel
de bloque de fichero y se mantiene una sola copia
actualizada de cada bloque.
En función de la arquitectura del sistema de de-duplicación
se distingue entre:
De-duplicación en destino: la de-duplicación se realiza
en el dispositivo de almacenamiento destino. Reduce la
utilización de espacio en disco en destino pero no la
necesidad de ancho de banda para la transmisión de los
datos.
De-duplicación en origen: la de-duplicación se aplica en
origen antes de realizarse la transferencia. Se establece
una comunicación con el nodo donde ha de residir la
copia actualizada (típicamente el nodo en el que residen
las copias de seguridad) al que se le envían firmas de hash
para comprobar la existencia de duplicados. Los bloques
que se detectan como duplicados no se envían, y son
reemplazados por punteros a los bloques más actuales.
De esta forma se ahorra en espacio de almacenamiento
y en uso de ancho de banda.
Hay dos factores principales [12] que nos pueden indicar el
nivel de de-duplicación que se va a poder conseguir:
1. El tipo de datos: si conocemos el tipo de datos mane-
jados se puede anticipar en qué nivel va a ser efectiva
la de-duplicación. Así por ejemplo, los ficheros creados
dentro de una misma empresa contienen información
redundantes que es distribuida y copiada con frecuencia.
En el otro extremo, una aplicación que recoja datos de
la Naturaleza normalmente va a generar datos únicos en
los cuales será difícil encontrar patrones de repetición.
2. La frecuencia en que los datos son modificados: cuanto
menos se modifiquen los datos mayor es la frecuencia de
que todas las copias existentes de esos datos contengan
lo mismo. Por el contrario, actualizaciones frecuentes
en los datos hacen que los algoritmos tengan menos
probabilidades de encontrar datos duplicados.
Otro aspecto a considerar es el incremento en el volumen
de datos total; si éste aumenta es muy posible que se deba a
que se ha almacenado datos que no existían previamente. En
general, y salvo que el crecimiento se deba a la realización de
una copia de datos ya existentes, cuando el volumen total de
datos crece el ratio de de-duplicación será más bajo porque
hay más datos únicos.
IV-B. Revisión de algunos sistemas de de-duplicación para
almacenamiento en la nube
Entre la literatura existente se pueden encontrar varios
ejemplos de técnicas de de-duplicación de datos orientados a
mejorar el coste y el tiempo requeridos para hacer una copia
de seguridad en la nube.
Tan et al. [13] propone un sistema denominado SAM
(Semantic-AwareMulti-Tiered Source De-duplication) para
realizar copias de seguridad en la nube. El sistema utiliza
de-duplicación de datos híbrida, tanto a nivel de fragmento
como a nivel de fichero e intenta explotar la semántica de
los ficheros. Para ello se analiza meta información como el
dónde está situado, su fecha de última modificación, el tipo
de fichero y su tamaño. Según la evaluación realizada por los
autores se consigue una de-duplicación eficiente manteniendo
un sobre coste de procesamiento controlado. Consigue reducir
el tiempo empleado en realizar una copia de seguridad en un
38.7 %.
Los mismos autores recuerdan en [14] que no sólo se debe
mejorar el tiempo de realización de una copia de seguridad
si no también el tiempo de restauración. Proponen el sistema
CABdedupe que captura y utiliza lo que denominan “rela-
ciones causales” entre copias de seguridad cronológicas de
un conjunto de datos. Para ello utilizan unos componentes
denominados “File Monitor”, “File List” y “File Recipe”. “File
Monitor” es un demonio que anota todas las operaciones que
se realizan sobre los datos y los anota en las estructuras de
datos “File List” y “File Recipe”. Utilizando la información
que contienen esas estructuras de datos CABdedupe es capaz
de identificar qué ficheros y qué fragmentos de fichero han
cambiado desde la última copia de seguridad. Sólo aquellos
que han cambiado son transmitidos en la operación de copia
de seguridad o de restauración. Explotando esa información
consiguen mejorar el tiempo de ejecución de operaciones de
copia de seguridad y restauración en un ratio de 103:1.
La seguridad es un aspecto que ha de tenerse en cuenta
en los procesos de de-duplicación de datos. Así, Harnik et
al. [15] alertan sobre como la de-duplicación de un conjunto
de ficheros en un espacio en el que hay ficheros y/o ver-
siones de distintos usuarios puede suponer un riesgo para
la privacidad; en concreto demuestran en su artículo que el
proceso de-duplicación de varias copias de un mismo fichero
pertenecientes a distintos usuarios puede utilizarse para revelar
información acerca de los contenidos de los ficheros de otros
usuarios e incluso como un canal por el que software malicioso
puede comunicarse con el exterior saltándose la protección
de los cortafuegos. Como precisamente en los entornos de
ficheros compartidos por varios usuarios es donde las técnicas
de de-duplicación tiene más efectividad los autores intentan
subsanar los riesgos desvelados con una propuesta de sistema
que permite mejorar la privacidad a costa de un pequeño
descenso en la efectividad de la de-duplicación.
V. CONCLUSIONES Y TRABAJOS FUTUROS
Exponer algunos problemas relacionados con la seguridad
y la fiabilidad da pie para afirmar que existen frentes abiertos
para la investigación y el desarrollo de estas áreas, las solucio-
nes que se han encontrado corresponden en muchos casos al
entorno académico, por lo que se debe esperar para utilizarlos
en entorno reales. Corresponde a los clientes, en este caso a
los usuarios de los servicios de almacenamiento en la nube,
exigir elementos que ofrezcan confianza y garantía en caso
de modificación y/o perdida de datos a los proveedores de
almacenamiento en la nube.
La integridad de los datos es uno de los retos más discu-
tidos por la comunidad científica del almacenamiento en la
nube. Inicialmente se utilizaron las técnicas tradicionales de
seguridad e integridad, pero se requieren nuevos protocolos
específicos y adaptados a la computación en la nube. En este
artículo se hacen referencia a cinco protocolos de integridad
de los datos en el campo del almacenamiento en la nube
que presentan la evolución en este campo. Ofrecen soluciones
tanto para entornos de uno o varios servidores y para datos
tanto estáticos como dinámicos. Se basan en técnicas de
cifrado ya existentes como RSA o HLAs, tienen en cuenta
factores para la reducción de la computación y del ancho
de banda, e incluso van más allá y proponen una capa que
permita la recuperación de los datos gracias a las técnicas de
garantización de la integridad de los datos. Existen multitud
de líneas de investigación abiertas en aras a lograr protocolos
que sean eficientes, que permitan garantizar la integridad
para datos distribuidos en varios servidores, con un carácter
dinámico y prescindiendo de agentes externos de verificación
sin prescindir de la seguridad sobre la integridad de los datos.
Las técnicas de de-duplicación de datos aplicadas a la
obtención y restauración de copias de seguridad expuestas
anteriormente demuestran que hay esfuerzo de investigación
dedicado a solucionar el problema que supone la transferencia
de grandes volúmenes de información en la nube. En ese
sentido es de esperar que la de-duplicación de datos junto con
la mejora en el precio de conexiones del rango de decenas
de Gbps consigan hacer que los transferencias de datos en la
nube puedan mejorar la tasa de transferencia que se consigue
enviando físicamente discos por mensajería como DHL o
FedEx. Desde luego esto ayudaría a mejorar la credibilidad
de las soluciones de almacenamiento y copias de seguridad en
la nube.
REFERENCIAS
[1] Q. He, Z. Li, and X. Zhang, “Analysis of the key technology on
cloud storage,” in Future Information Technology and Management
Engineering (FITME), 2010 International Conference on, vol. 1, oct.
2010, pp. 426 –429.
[2] J. Wu, L. Ping, X. Ge, Y. Wang, and J. Fu, “Cloud storage as
the infrastructure of cloud computing,” in Intelligent Computing and
Cognitive Informatics (ICICCI), 2010 International Conference on, june
2010, pp. 380 –383.
[3] S. Kamara and K. Lauter, “Cryptographic cloud storage financial
cryptography and data security,” in Financial Cryptography and
Data Security, ser. Lecture Notes in Computer Science, R. Sion,
R. Curtmola, S. Dietrich, A. Kiayias, J. Miret, K. Sako, and
F. Sebé, Eds. Berlin, Heidelberg: Springer Berlin / Heidelberg,
2010, vol. 6054, ch. 13, pp. 136–149. [Online]. Available: http:
//dx.doi.org/10.1007/978-3-642-14992-4_13
[4] C. Cachin, I. Keidar, and A. Shraer, “Trusting the cloud,” SIGACT
News, vol. 40, pp. 81–86, Jun. 2009. [Online]. Available: http:
//doi.acm.org/10.1145/1556154.1556173
[5] J. Feng, Y. Chen, W.-S. Ku, and P. Liu, “Analysis of integrity vulnerabi-
lities and a non-repudiation protocol for cloud data storage platforms,”
in Parallel Processing Workshops (ICPPW), 2010 39th International
Conference on, sept. 2010, pp. 251 –258.
[6] Z. Jianhong and C. Hua, “Secuirty storage in the cloud computing:
A rsa-based assumption data integrity check without original data,” in
Educational and Information Technology (ICEIT), 2010 International
Conference on, vol. 2, sept. 2010, pp. V2–143 –V2–147.
[7] W. Luo and G. Bai, “Ensuring the data integrity in cloud data storage,”
in Cloud Computing and Intelligence Systems (CCIS), 2011 IEEE
International Conference on, sept. 2011, pp. 240 –243.
[8] R. Sravan Kumar and A. Saxena, “Data integrity proofs in cloud
storage,” in Communication Systems and Networks (COMSNETS), 2011
Third International Conference on, jan. 2011, pp. 1 –4.
[9] A. Talib, R. Atan, R. Abdullah, and M. Azrifah, “Cloudzone: Towards
an integrity layer of cloud data storage based on multi agent system
architecture,” in Open Systems (ICOS), 2011 IEEE Conference on, sept.
2011, pp. 127 –132.
[10] M. Armbrust, A. Fox, R. Griffith, A. D. Joseph, R. H. Katz,
A. Konwinski, G. Lee, D. A. Patterson, A. Rabkin, I. Stoica,
and M. Zaharia, “Above the clouds: A berkeley view of cloud
computing,” EECS Department, University of California, Berkeley,
Tech. Rep. UCB/EECS-2009-28, Feb 2009. [Online]. Available:
http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.html
[11] “A conversation with jim gray,” Queue, vol. 1, pp. 8–17, June 2003.
[Online]. Available: http://doi.acm.org/10.1145/864056.864078
[12] M. Dutch, “Understanding data deduplication ratios,” SNIA White
Paper, Storage Networking Industry Association, Jun. 2008.
[13] Y. Tan, H. Jiang, D. Feng, L. Tian, Z. Yan, and G. Zhou, “Sam:
A semantic-aware multi-tiered source de-duplication framework for
cloud backup,” in Parallel Processing (ICPP), 2010 39th International
Conference on, sept. 2010, pp. 614 –623.
[14] Y. Tan, H. Jiang, D. Feng, L. Tian, and Z. Yan, “Cabdedupe: A causality-
based deduplication performance booster for cloud backup services,”
in Parallel Distributed Processing Symposium (IPDPS), 2011 IEEE
International, may 2011, pp. 1266 –1277.
[15] D. Harnik, B. Pinkas, and A. Shulman-Peleg, “Side channels in cloud
services: Deduplication in cloud storage,” Security Privacy, IEEE, vol. 8,
no. 6, pp. 40 –47, nov.-dec. 2010.

Más contenido relacionado

La actualidad más candente

Estrada fernando 5 to pia
Estrada fernando 5 to piaEstrada fernando 5 to pia
Estrada fernando 5 to piafernandojr1212
 
Que es el almacenamiento en la nube
Que es el almacenamiento en la nubeQue es el almacenamiento en la nube
Que es el almacenamiento en la nubebebamartinez
 
Estrada fernando 5 to pia
Estrada fernando 5 to piaEstrada fernando 5 to pia
Estrada fernando 5 to piajassoncabrera
 
Que es el almacenamiento en la nube
Que es el almacenamiento en la nubeQue es el almacenamiento en la nube
Que es el almacenamiento en la nubetecolite
 
chavez perez almacenamiento en la nube
 chavez perez almacenamiento en la nube chavez perez almacenamiento en la nube
chavez perez almacenamiento en la nubeVanegas31
 

La actualidad más candente (10)

Computación Grid
Computación GridComputación Grid
Computación Grid
 
Almacenamiento en la Nube
Almacenamiento en la NubeAlmacenamiento en la Nube
Almacenamiento en la Nube
 
TRABAJO TUTORIAL TWTER
TRABAJO TUTORIAL TWTERTRABAJO TUTORIAL TWTER
TRABAJO TUTORIAL TWTER
 
Estrada fernando 5 to pia
Estrada fernando 5 to piaEstrada fernando 5 to pia
Estrada fernando 5 to pia
 
Informática
 Informática  Informática
Informática
 
Que es el almacenamiento en la nube
Que es el almacenamiento en la nubeQue es el almacenamiento en la nube
Que es el almacenamiento en la nube
 
Estrada fernando 5 to pia
Estrada fernando 5 to piaEstrada fernando 5 to pia
Estrada fernando 5 to pia
 
Que es el almacenamiento en la nube
Que es el almacenamiento en la nubeQue es el almacenamiento en la nube
Que es el almacenamiento en la nube
 
Clase doce 2011
Clase doce  2011Clase doce  2011
Clase doce 2011
 
chavez perez almacenamiento en la nube
 chavez perez almacenamiento en la nube chavez perez almacenamiento en la nube
chavez perez almacenamiento en la nube
 

Destacado

Pendidikan karakter untuk memperkecil virus kkn
Pendidikan karakter untuk memperkecil virus kknPendidikan karakter untuk memperkecil virus kkn
Pendidikan karakter untuk memperkecil virus kknthehaer
 
M2 t1 planificador_aamtic.docx
M2 t1 planificador_aamtic.docxM2 t1 planificador_aamtic.docx
M2 t1 planificador_aamtic.docxWilson Bermudez
 
Introduction to Social Annex
Introduction to Social AnnexIntroduction to Social Annex
Introduction to Social AnnexSocial Annex
 
Technical Writing in Energy and Resources: Risks and Opportunities
Technical Writing in Energy and Resources: Risks and OpportunitiesTechnical Writing in Energy and Resources: Risks and Opportunities
Technical Writing in Energy and Resources: Risks and OpportunitiesDr Robert Illes
 
Быстрый старт продаж в Интернет: или как запустить сайт за несколько дней
Быстрый старт продаж в Интернет: или как запустить сайт за несколько днейБыстрый старт продаж в Интернет: или как запустить сайт за несколько дней
Быстрый старт продаж в Интернет: или как запустить сайт за несколько днейAstra Media Group, Russia
 
Latest spanidsh projecto
Latest spanidsh projectoLatest spanidsh projecto
Latest spanidsh projectoly10026
 
Parte 85 - Los Archivos Hamilton
Parte 85 - Los Archivos HamiltonParte 85 - Los Archivos Hamilton
Parte 85 - Los Archivos Hamiltoncienciaspsiquicas
 
Qt vascular treatment
Qt vascular treatmentQt vascular treatment
Qt vascular treatmentQTVascular
 
Networking (Behargintza Leioa)
Networking (Behargintza Leioa)Networking (Behargintza Leioa)
Networking (Behargintza Leioa)Cristina Juesas
 
Scandinavian womens-fashion-proudmade
Scandinavian womens-fashion-proudmadeScandinavian womens-fashion-proudmade
Scandinavian womens-fashion-proudmadePROUDMADE
 
CTD0023B MDC Spring 2013 Registration and Advisement Training
CTD0023B MDC Spring 2013 Registration and Advisement Training CTD0023B MDC Spring 2013 Registration and Advisement Training
CTD0023B MDC Spring 2013 Registration and Advisement Training vzayas
 

Destacado (19)

Pendidikan karakter untuk memperkecil virus kkn
Pendidikan karakter untuk memperkecil virus kknPendidikan karakter untuk memperkecil virus kkn
Pendidikan karakter untuk memperkecil virus kkn
 
M2 t1 planificador_aamtic.docx
M2 t1 planificador_aamtic.docxM2 t1 planificador_aamtic.docx
M2 t1 planificador_aamtic.docx
 
Introduction to Social Annex
Introduction to Social AnnexIntroduction to Social Annex
Introduction to Social Annex
 
Resenha
ResenhaResenha
Resenha
 
JHT Marketing Portfolio
JHT Marketing PortfolioJHT Marketing Portfolio
JHT Marketing Portfolio
 
Technical Writing in Energy and Resources: Risks and Opportunities
Technical Writing in Energy and Resources: Risks and OpportunitiesTechnical Writing in Energy and Resources: Risks and Opportunities
Technical Writing in Energy and Resources: Risks and Opportunities
 
sales-plan
sales-plansales-plan
sales-plan
 
8th cs and is dec 2015
8th cs and is dec 20158th cs and is dec 2015
8th cs and is dec 2015
 
Быстрый старт продаж в Интернет: или как запустить сайт за несколько дней
Быстрый старт продаж в Интернет: или как запустить сайт за несколько днейБыстрый старт продаж в Интернет: или как запустить сайт за несколько дней
Быстрый старт продаж в Интернет: или как запустить сайт за несколько дней
 
Dia 6
Dia 6Dia 6
Dia 6
 
Latest spanidsh projecto
Latest spanidsh projectoLatest spanidsh projecto
Latest spanidsh projecto
 
Fiorillo Saycs 2015
Fiorillo Saycs 2015Fiorillo Saycs 2015
Fiorillo Saycs 2015
 
Parte 85 - Los Archivos Hamilton
Parte 85 - Los Archivos HamiltonParte 85 - Los Archivos Hamilton
Parte 85 - Los Archivos Hamilton
 
Qt vascular treatment
Qt vascular treatmentQt vascular treatment
Qt vascular treatment
 
Networking (Behargintza Leioa)
Networking (Behargintza Leioa)Networking (Behargintza Leioa)
Networking (Behargintza Leioa)
 
Blog
BlogBlog
Blog
 
Scandinavian womens-fashion-proudmade
Scandinavian womens-fashion-proudmadeScandinavian womens-fashion-proudmade
Scandinavian womens-fashion-proudmade
 
CTD0023B MDC Spring 2013 Registration and Advisement Training
CTD0023B MDC Spring 2013 Registration and Advisement Training CTD0023B MDC Spring 2013 Registration and Advisement Training
CTD0023B MDC Spring 2013 Registration and Advisement Training
 
дод сош
дод сошдод сош
дод сош
 

Similar a Estado artecloudstorage

Almacenamiento en la nube
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nubejosecabrera987
 
Almacenamiento en la red
Almacenamiento en la redAlmacenamiento en la red
Almacenamiento en la redevelynmariana
 
Ensayo de Seguridad en la nube
Ensayo de Seguridad en la nubeEnsayo de Seguridad en la nube
Ensayo de Seguridad en la nubemarizza6808
 
Ensayo seguridad en la nube
Ensayo seguridad en la nubeEnsayo seguridad en la nube
Ensayo seguridad en la nubeoerazo6808
 
Lopez marroquin almacenamiento en la nube
Lopez marroquin almacenamiento en la nubeLopez marroquin almacenamiento en la nube
Lopez marroquin almacenamiento en la nubemariolopez077
 
Almacenamiento en la nube
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nubeDiana Vargas
 
Hernandez sagastume-almacenamiento de la nube
Hernandez sagastume-almacenamiento de la nube Hernandez sagastume-almacenamiento de la nube
Hernandez sagastume-almacenamiento de la nube jorgesagastume77
 
Hernandez sagastume-almacenamiento de la nube
Hernandez sagastume-almacenamiento de la nubeHernandez sagastume-almacenamiento de la nube
Hernandez sagastume-almacenamiento de la nubejorgesagastume77
 
Almacenamiento en la nube
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nubeestuardoarriaza
 
Factibilidad del almacenamiento en la nube en empresas ecuatorianas
Factibilidad del almacenamiento en la nube en empresas ecuatorianasFactibilidad del almacenamiento en la nube en empresas ecuatorianas
Factibilidad del almacenamiento en la nube en empresas ecuatorianasXimenaOrellana05
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpapereduardohb32
 
Guía Redes e Internet parte 3.pdf
Guía Redes e Internet parte 3.pdfGuía Redes e Internet parte 3.pdf
Guía Redes e Internet parte 3.pdfAlbertoAndresMosquer
 

Similar a Estado artecloudstorage (20)

Almacenamiento en la nube
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nube
 
Almacenamiento en la red
Almacenamiento en la redAlmacenamiento en la red
Almacenamiento en la red
 
Ensayo de Seguridad en la nube
Ensayo de Seguridad en la nubeEnsayo de Seguridad en la nube
Ensayo de Seguridad en la nube
 
Ensayo seguridad en la nube
Ensayo seguridad en la nubeEnsayo seguridad en la nube
Ensayo seguridad en la nube
 
Lopez marroquin almacenamiento en la nube
Lopez marroquin almacenamiento en la nubeLopez marroquin almacenamiento en la nube
Lopez marroquin almacenamiento en la nube
 
Almacenamiento en la nube
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nube
 
Aspectos Legales del Cloud Computing
Aspectos Legales del Cloud ComputingAspectos Legales del Cloud Computing
Aspectos Legales del Cloud Computing
 
ESTUDIANTE
ESTUDIANTEESTUDIANTE
ESTUDIANTE
 
Hernandez sagastume-almacenamiento de la nube
Hernandez sagastume-almacenamiento de la nube Hernandez sagastume-almacenamiento de la nube
Hernandez sagastume-almacenamiento de la nube
 
Hernandez sagastume-almacenamiento de la nube
Hernandez sagastume-almacenamiento de la nubeHernandez sagastume-almacenamiento de la nube
Hernandez sagastume-almacenamiento de la nube
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nube
 
Almacenamiento en la nube
Almacenamiento en la nubeAlmacenamiento en la nube
Almacenamiento en la nube
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nube
 
Factibilidad del almacenamiento en la nube en empresas ecuatorianas
Factibilidad del almacenamiento en la nube en empresas ecuatorianasFactibilidad del almacenamiento en la nube en empresas ecuatorianas
Factibilidad del almacenamiento en la nube en empresas ecuatorianas
 
Cisco campus technology_whitpaper (1)
Cisco campus technology_whitpaper (1)Cisco campus technology_whitpaper (1)
Cisco campus technology_whitpaper (1)
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpaper
 
Cisco campus technology_whitpaper
Cisco campus technology_whitpaperCisco campus technology_whitpaper
Cisco campus technology_whitpaper
 
Meery
Meery Meery
Meery
 
Computacion en la nube
Computacion en la nubeComputacion en la nube
Computacion en la nube
 
Guía Redes e Internet parte 3.pdf
Guía Redes e Internet parte 3.pdfGuía Redes e Internet parte 3.pdf
Guía Redes e Internet parte 3.pdf
 

Más de silvanadennicce

Lab google docsejercicios_snna
Lab google docsejercicios_snnaLab google docsejercicios_snna
Lab google docsejercicios_snnasilvanadennicce
 
Cloud computing (computación en la nube)
Cloud computing (computación en la nube)Cloud computing (computación en la nube)
Cloud computing (computación en la nube)silvanadennicce
 
Los recursos de_la_web_2.0_para_el_manejo_de_informacion_academica
Los recursos de_la_web_2.0_para_el_manejo_de_informacion_academicaLos recursos de_la_web_2.0_para_el_manejo_de_informacion_academica
Los recursos de_la_web_2.0_para_el_manejo_de_informacion_academicasilvanadennicce
 
Informe sobre la sustentación de mi proyecto
Informe sobre la sustentación de mi proyectoInforme sobre la sustentación de mi proyecto
Informe sobre la sustentación de mi proyectosilvanadennicce
 
Torres gomez silvana paworrrrrrrrr point
Torres gomez silvana paworrrrrrrrr pointTorres gomez silvana paworrrrrrrrr point
Torres gomez silvana paworrrrrrrrr pointsilvanadennicce
 
Torres gomez silvana dennicce +tplagio1
Torres gomez silvana dennicce +tplagio1Torres gomez silvana dennicce +tplagio1
Torres gomez silvana dennicce +tplagio1silvanadennicce
 
Diapositivas para presentacion de proyecto (vivi)
Diapositivas para presentacion de proyecto (vivi)Diapositivas para presentacion de proyecto (vivi)
Diapositivas para presentacion de proyecto (vivi)silvanadennicce
 

Más de silvanadennicce (20)

Mermelada de fresa
Mermelada de fresaMermelada de fresa
Mermelada de fresa
 
Trabajo de mermeladas
Trabajo de mermeladasTrabajo de mermeladas
Trabajo de mermeladas
 
Un tema7
Un tema7Un tema7
Un tema7
 
Un tema8
Un tema8Un tema8
Un tema8
 
Curricular vitae
Curricular vitaeCurricular vitae
Curricular vitae
 
Lab google docsejercicios_snna
Lab google docsejercicios_snnaLab google docsejercicios_snna
Lab google docsejercicios_snna
 
Cloud computing (computación en la nube)
Cloud computing (computación en la nube)Cloud computing (computación en la nube)
Cloud computing (computación en la nube)
 
776 2207-1-pb
776 2207-1-pb776 2207-1-pb
776 2207-1-pb
 
Los recursos de_la_web_2.0_para_el_manejo_de_informacion_academica
Los recursos de_la_web_2.0_para_el_manejo_de_informacion_academicaLos recursos de_la_web_2.0_para_el_manejo_de_informacion_academica
Los recursos de_la_web_2.0_para_el_manejo_de_informacion_academica
 
Driver
DriverDriver
Driver
 
Informe sobre la sustentación de mi proyecto
Informe sobre la sustentación de mi proyectoInforme sobre la sustentación de mi proyecto
Informe sobre la sustentación de mi proyecto
 
Mi proyecto de vida
Mi proyecto de vidaMi proyecto de vida
Mi proyecto de vida
 
Diagnostico
DiagnosticoDiagnostico
Diagnostico
 
Taller diagnostico
Taller diagnosticoTaller diagnostico
Taller diagnostico
 
Taller diagnostico
Taller diagnosticoTaller diagnostico
Taller diagnostico
 
Presentacion
PresentacionPresentacion
Presentacion
 
Torres gomez silvana paworrrrrrrrr point
Torres gomez silvana paworrrrrrrrr pointTorres gomez silvana paworrrrrrrrr point
Torres gomez silvana paworrrrrrrrr point
 
Torres gomez silvana dennicce +tplagio1
Torres gomez silvana dennicce +tplagio1Torres gomez silvana dennicce +tplagio1
Torres gomez silvana dennicce +tplagio1
 
Diapositivas para presentacion de proyecto (vivi)
Diapositivas para presentacion de proyecto (vivi)Diapositivas para presentacion de proyecto (vivi)
Diapositivas para presentacion de proyecto (vivi)
 
Mi proyecto de vida
Mi proyecto de vidaMi proyecto de vida
Mi proyecto de vida
 

Estado artecloudstorage

  • 1. Estado del Arte sobre el Almacenamiento y Gestión de los Datos en la Nube Jesús Á. Alonso López Escuela Técnica Superior de Ingenieros de Telecomunicación Universidad de Valladolid Valladolid, Spain Email: jesus.alonso.muitic@gmail.com Rafael Cano Parra Escuela Técnica Superior de Ingenieros de Telecomunicación Universidad de Valladolid Valladolid, Spain Email: rcanoparra@gmail.com Carlos E. Reyes Gonzalo Escuela Técnica Superior de Ingenieros de Telecomunicación Universidad de Valladolid Valladolid, Spain Email: cereyesg@gmail.com Resumen—Este documento recoge la investigación realizada sobre algunos aspectos del almacenamiento y gestión de los datos dentro del paradigma de la computación en la nube. Los autores han revisado las preguntas de investigación abiertas y han seleccionado tres en las que se han centrado para revisar el estado del arte en relación con ellas: la seguridad en los datos, la integridad de los datos y los problemas relacionados con la realización de copias de seguridad. I. INTRODUCCIÓN La computación en la nube es un paradigma emergente que afecta a diversos aspectos como son el almacenamiento de los datos y la ejecución de las aplicaciones. Hace uso de la virtualización para proporcionar ciertas ventajas frente al sistema tradicional físico, tales como una percepción de re- cursos infinitos, una gestión eficiente de recursos consumiendo sólo aquellos que son necesarios, e incluso introduciendo el concepto de “pagar por lo que utilizas”. El almacenamiento en la nube surge como una concepto dentro de la computación en la nube. Ofrece una solución de virtualización del almacenamiento en la que los datos pueden estar guardados en distintas ubicaciones físicas y usando diferentes técnicas de gestión interna. En cambio, de cara al usuario los datos se ofrecen de forma transparente, haciendo uso de una aplicación de gestión, y permite aislarle de la gestión de la infraestructura. A su vez, permite que los datos estén disponibles para el usuario desde cualquier parte del mundo a través de una conexión a Internet. Actualmente, la computación en la nube se clasifica en tres escenarios diferentes: infraestructura como servicio (IaaS), plataforma como servicio (PaaS) y software como servicio (SaaS). El almacenamiento en la nube se añade como un nuevo escenario dentro de esta clasificación: el almacena- miento como servicio (DaaS). Este escenario permite una abstracción del almacenamiento de los datos a través de un conjunto de interfaces de usuario, de forma que el usuario puede interactuar con ellos sin conocer ni preocuparse sobre cómo son gestionados y almacenados internamente sus datos. He et al. [1] y Wu et al. [2] identifican cinco ventajas clave relativas a la utilización del almacenamiento en la nube y a las aplicaciones que hacen uso de éste, que son: facilidad de gestión, manejando los datos con un simple explorador web; Tabla I ESCENARIOS DE LA COMPUTACIÓN EN LA NUBE IaaS PaaS SaaS DaaS Infrastructure as a Service Platform as a Service Software as a Service Data as a Ser- vice Servidores, redes, sistemas de almacena- miento y otros componentes físicos. Entornos de desarrollo de servicios. Aplicación completa ofrecida como un servicio. Servicios de almacena- miento. efectividad en el coste, eliminando los costes del hardware y de su mantenimiento y ofreciendo niveles altos de dis- ponibilidad y escalabilidad haciendo uso de la economía de escala; bajo impacto ante cortes y mejoras, proveyendo un coste efectivo en la redundancia del hardware y ofreciendo un servicio ininterrumpido incluso durante cortes planeados y no planeados; preparación ante desastres, ofreciendo seguridad a través del almacenamiento de los datos de forma redundante y distribuidos para que no haya pérdidas ante una recuperación de un desastre; y planificación simplificada, como una solu- ción flexible que provee nuevo almacenamiento según se va necesitando. A su vez, identifican seis oportunidades sobre su imple- mentación originarias de las seis debilidades detectadas en los distintos tipos de almacenamiento en la nube existentes. Estas oportunidades son las siguientes: seguridad, un punto recurrente en cualquier sistema; integridad de los datos, ase- gurando que los datos almacenados son correctos; potencia, ofreciendo la oportunidad de tener almacenamiento adicional; tiempo y costes en la replicación, relativas a la rapidez con la que se replican los datos y siendo importante para la resistencia de los datos; costes, reduciendo éstos al quitar la necesidad de comprar hardware adicional para el almacenamiento; y fiabilidad. Este artículo se centra en tres de las oportunidades anterio- res, y se organiza de la siguiente forma. En la sección II se mencionan algunos elementos que debería tener un sistemas de almacenamiento en la nube seguro, de igual manera se exponen problemas de casos reales. La sección III ofrece una perspectiva general de los retos existentes para la integridad
  • 2. de los datos, así como la descripción de algunos protocolos propuestos para conseguir una solución efectiva. Los proble- mas relacionados con el tiempo y coste de la replicación de los datos mediante copias de seguridad son tratados en la sección IV donde se hace hincapié en las técnicas para evitar duplicaciones de los datos. Finalmente, en la sección V se presentan las conclusiones y los trabajos futuros. II. SEGURIDAD EN LOS DATOS Según Kamara et al. [3] los avances en las tecnologías de redes y el aumento en las necesidades de recursos de computación exigen a muchas organizaciones a externalizar sus necesidades de almacenamiento y computación. Al mover sus datos a la nube los clientes pueden evitar los costos de construir y mantener una infraestructura de almacenamiento privado, optando en su lugar por pagarle a un proveedor de servicios en función de sus necesidades. Para algunos, esto proporciona varios beneficios como la disponibilidad (es decir, ser capaz de acceder a los datos desde cualquier lugar) y la fiabilidad (es decir, no tener que preocuparse de las copias de seguridad) a un coste relativamente bajo. Pero para otros clientes, estos cambios introducen elementos que pueden significar riesgos de seguridad y privacidad. Parece que el mayor obstáculo para la adopción de almacenamiento en la nube (y la computación en la nube en general) es su preocupación por la confidencialidad y la integridad de los datos. Esta reticencia se puede atribuir al deseo de proteger los datos críticos de las obligaciones legales para preservar la confidencialidad y la integridad de los datos. Esto último puede ocurrir cuando el cliente es responsable de mantener datos que permitan la identificación de personas o registros médicos e información financiera. Para abordar dichas preocupaciones Kamara et al. [3] pro- pone un servicio de almacenamiento virtual privado (servicio de almacenamiento criptográfico) que contemple los siguientes elementos (por lo menos) de seguridad: Confidencialidad: el proveedor de almacenamiento en la nube no debe conocer ninguna información sobre los datos del cliente. Integridad: cualquier modificación de los datos del cliente por el proveedor de almacenamiento en la nube debe ser detectados por el cliente. Disponibilidad: los datos del cliente se pueden acceder desde cualquier máquina y en todo momento. Fiabilidad: los datos del cliente son una copia de segu- ridad fiable. Eficiencia en la recuperación: los tiempos de recupera- ción de datos son comparables a un servicio de almace- namiento en la nube pública. Posibilidad del intercambio de datos: los clientes pueden compartir sus datos con terceros de confianza. Un aspecto importante de un servicio de almacenamiento criptográfico es que las propiedades de seguridad descritas anteriormente se consiguen sobre la base de las garantías de cifrado fuerte. Otros elementos que comprometen la seguridad se exponen para apreciar con mayor amplitud este campo. Por ejemplo, Cachin et al. [4] advierte sobre los tiempos de inactividad de los servicios contratados, que afectan la disponibilidad de manera directa y refiere casos sucedidos en Google Mail, Hot- mail, Amazon S3 y MobileMe, sugiere revisar este apartado en los contratos de servicios con el proveedor de almacenamiento en la nube. De igual manera se hace algunas preguntas y las deja en el aire: ¿qué pasaría si se paga el servicio con retraso? o ¿puede el proveedor de almacenamiento decidir que uno de los documentos viola su política de seguridad y cancelar su servicio o negarle el acceso a los datos? En el año 2008, un proveedor de almacenamiento en la nube llamado LinkUp (MediaMax) salió del negocio después de perder el 45 % de los datos almacenados de sus clientes debido a un error del administrador del sistema. III. INTEGRIDAD DE LOS DATOS Al igual que la seguridad en los datos, uno de los retos muy ligado a éste que surge al popularizarse el almacenamiento en la nube en el ámbito industrial y educativo es el de la integridad de los datos. La integridad de los datos permite asegurar al usuario que los datos que guarda y recupera del almacenamiento en la nube son los mismos y no han sufrido modificaciones ni durante las transmisiones ni en el almacenamiento en la nube. Las técnicas que se empezaron a utilizar para garantizar la integridad de los datos en el almacenamiento en la nube eran las tradicionales, tales como la firma digital, cifrado, cortafuegos, aislamiento de entornos virtuales, etc. Surgieron multitud de dudas sobre cómo eran tratados los datos de los usuarios por los sistemas de almacenamiento en la nube, y se detectó la necesidad de definir requisitos de seguridad específicos para la computación en la nube. Los protocolos que se han propuesto actualmente para garantizar la integridad de los datos tienen dos aspectos de completitud diferenciadores. El primero trata sobre si el diseño está pensado para un único servidor o si permite asegurar la integridad cuando los datos están distribuidos entre varios ser- vidores. El segundo es relativo al carácter estático o dinámico de los datos en el almacenamiento en la nube, es decir, si se permiten realizar operaciones sobre ellos cuando está en la nube o, en cambio, sólo se utiliza para un almacenamiento sin modificaciones. Feng et al. [5] comenta que los tres grandes sistemas de almacenamiento en la nube existentes (Amazon Web Services, Windows Azure Platform y Google App Engine) contienen una vulnerabilidad básica, como es la falta de garantía de que los datos almacenados en sus plataformas mantengan su integridad sin ser modificados. Los tres sistemas utilizan una huella digital cifrando los datos con el algoritmo MD5 y realizando la transmisión sobre canales seguros utilizando el protocolo SSL, pero no van más allá sobre la garantía de integridad de los datos dentro de sus plataformas. Por ello propone un nuevo protocolo de no rechazo (NR) diseñado específicamente para el contexto de la computación en la
  • 3. nube, en el que utiliza un enlace de integridad entre dos sesiones a través de un agente de confianza de terceros. Está diseñado para un único servidor y no permite que los datos sean dinámicos. En el mismo año, Jianhong y Hua [6] proponen un protocolo que combina la criptografía basad en la identidad y el sistema de firma digital RSA. Este protocolo permite garantizar al usuario la verificación de la integridad de sus datos, sin tener una copia local de los ficheros de datos y prescindiendo ini- cialmente de verificadores de terceros, aunque permite delegar la autoridad de verificación de la integridad de sus datos en agentes de confianza de terceros. Está diseñado para varios servidores, pero no permite que los datos sean dinámicos. Un protocolo similar al de Jianhong y Hua es el que propone Luo y Bai [7]. Es un protocolo de verificación de la integridad de los datos de forma remota basado en las firmas digitales RSA y HLAs y utilizando agentes públicos de verificación. Está diseñado para un único servidor, pero permite garantizar la integridad incluso aunque los datos tengan modificaciones dinámicas remotamente. Por otra parte, la mayoría de los protocolos que se utilizan para garantizar la integridad de los datos requieren un uso elevado del procesador para el cifrado de los datos o un ancho de banda grande para la transmisión de los datos. Kumar y Saxena [8] proponen un protocolo diseñado específicamente para ser utilizado en dispositivos pequeños tales como una PDA o un teléfono inteligente, en los que el procesador, la batería y el ancho de banda son limitados. El protocolo permite garantizar la integridad de los datos realizando únicamente la descarga y cifrado de una porción de bits de ellos, reduciendo así el ancho de banda y la computación. Se crea una clave criptográfica de cada porción de bits como un metadato y que será la que se utilice para verificar la integridad de los datos ante los agentes de verificación. En el trabajo de Talib et al. [9] van más allá del diseño de un protocolo para garantizar la integridad de los datos, y proponen una capa llamada “CloudZone” basada en el uso de sistemas multiagente en el que, además de garantizar la integridad, permiten la reconstrucción de los datos originales a través de la descarga de unos vectores desde los servidores en la nube. Realiza una gestión de copias de seguridad interna basada en reglas para permitir la recuperación de los datos, los cuales pueden estar en varios servidores a la vez que se toleran los cambios dinámicos sin perder la integridad de los datos. IV. DUPLICACIÓN DE DATOS La duplicación de datos es un problema que un proveedor de almacenamiento en la nube debe evitar con el fin de poder hacer un uso óptimo de los recursos disponibles. La optimiza- ción de la capacidad de almacenamiento le permitirá ahorrar costes evitando la compra de nuevos servidores y supondrá por supuesto menores gastos operativos: se necesitará menos espacio para el centro de datos y la energía consumida tanto para alimentar equipos como para refrigerar será menor. En [10] se señala al cuello de botella que suponen las transferencias de datos como uno de los obstáculos (y por tanto oportunidades de investigación) de la computación en la nube. Esto parece especialmente relevante para servicios de almacenamiento y en concreto para la realización de copias de seguridad en la nube. Los autores incluyen varios ejemplos introducidos a su vez por Jim Gray en [11] en los que se compara el precio y el tiempo necesarios para realizar una copia de seguridad a través de la nube con lo que costaría enviar por mensajería copias físicas de los discos. La conclusión que extraen es que las copias de seguridad completas (por ejemplo semanales) se pueden realizar a través del envío de copias físicas mediante mensajería tradicional (vía MRW, FedEx o similares) mientras que las copias de seguridad incrementales diarias se pueden realizar a través de la nube. Parece claro por tanto que los proveedores de servicios de almacenamiento y de copias de seguridad en la nube deben investigar en técnicas que les ayuden a reducir la cantidad de datos que se deben enviar a través de la nube. Las técnicas de-duplicación de datos permiten optimizar el uso de los recursos detectando ficheros o fragmentos de fichero duplicados y almacenando una única copia de cada bloque de fichero. Con esto se consigue no sólo un mejor aprovechamiento del almacenamiento de disco si no también una reducción de los requerimientos de ancho de banda puesto que hay menos información que transferir. IV-A. Estrategias de de-duplicación En función del tamaño de la información que se maneja se distingue entre: De-duplicación a nivel de fichero: permite guardar una sola copia de cada fichero. Dos ficheros se consideran idénticos si se obtiene el mismo valor al aplicar una función hash. De-duplicación a nivel de bloque: se trabaja a nivel de bloque de fichero y se mantiene una sola copia actualizada de cada bloque. En función de la arquitectura del sistema de de-duplicación se distingue entre: De-duplicación en destino: la de-duplicación se realiza en el dispositivo de almacenamiento destino. Reduce la utilización de espacio en disco en destino pero no la necesidad de ancho de banda para la transmisión de los datos. De-duplicación en origen: la de-duplicación se aplica en origen antes de realizarse la transferencia. Se establece una comunicación con el nodo donde ha de residir la copia actualizada (típicamente el nodo en el que residen las copias de seguridad) al que se le envían firmas de hash para comprobar la existencia de duplicados. Los bloques que se detectan como duplicados no se envían, y son reemplazados por punteros a los bloques más actuales. De esta forma se ahorra en espacio de almacenamiento y en uso de ancho de banda. Hay dos factores principales [12] que nos pueden indicar el nivel de de-duplicación que se va a poder conseguir:
  • 4. 1. El tipo de datos: si conocemos el tipo de datos mane- jados se puede anticipar en qué nivel va a ser efectiva la de-duplicación. Así por ejemplo, los ficheros creados dentro de una misma empresa contienen información redundantes que es distribuida y copiada con frecuencia. En el otro extremo, una aplicación que recoja datos de la Naturaleza normalmente va a generar datos únicos en los cuales será difícil encontrar patrones de repetición. 2. La frecuencia en que los datos son modificados: cuanto menos se modifiquen los datos mayor es la frecuencia de que todas las copias existentes de esos datos contengan lo mismo. Por el contrario, actualizaciones frecuentes en los datos hacen que los algoritmos tengan menos probabilidades de encontrar datos duplicados. Otro aspecto a considerar es el incremento en el volumen de datos total; si éste aumenta es muy posible que se deba a que se ha almacenado datos que no existían previamente. En general, y salvo que el crecimiento se deba a la realización de una copia de datos ya existentes, cuando el volumen total de datos crece el ratio de de-duplicación será más bajo porque hay más datos únicos. IV-B. Revisión de algunos sistemas de de-duplicación para almacenamiento en la nube Entre la literatura existente se pueden encontrar varios ejemplos de técnicas de de-duplicación de datos orientados a mejorar el coste y el tiempo requeridos para hacer una copia de seguridad en la nube. Tan et al. [13] propone un sistema denominado SAM (Semantic-AwareMulti-Tiered Source De-duplication) para realizar copias de seguridad en la nube. El sistema utiliza de-duplicación de datos híbrida, tanto a nivel de fragmento como a nivel de fichero e intenta explotar la semántica de los ficheros. Para ello se analiza meta información como el dónde está situado, su fecha de última modificación, el tipo de fichero y su tamaño. Según la evaluación realizada por los autores se consigue una de-duplicación eficiente manteniendo un sobre coste de procesamiento controlado. Consigue reducir el tiempo empleado en realizar una copia de seguridad en un 38.7 %. Los mismos autores recuerdan en [14] que no sólo se debe mejorar el tiempo de realización de una copia de seguridad si no también el tiempo de restauración. Proponen el sistema CABdedupe que captura y utiliza lo que denominan “rela- ciones causales” entre copias de seguridad cronológicas de un conjunto de datos. Para ello utilizan unos componentes denominados “File Monitor”, “File List” y “File Recipe”. “File Monitor” es un demonio que anota todas las operaciones que se realizan sobre los datos y los anota en las estructuras de datos “File List” y “File Recipe”. Utilizando la información que contienen esas estructuras de datos CABdedupe es capaz de identificar qué ficheros y qué fragmentos de fichero han cambiado desde la última copia de seguridad. Sólo aquellos que han cambiado son transmitidos en la operación de copia de seguridad o de restauración. Explotando esa información consiguen mejorar el tiempo de ejecución de operaciones de copia de seguridad y restauración en un ratio de 103:1. La seguridad es un aspecto que ha de tenerse en cuenta en los procesos de de-duplicación de datos. Así, Harnik et al. [15] alertan sobre como la de-duplicación de un conjunto de ficheros en un espacio en el que hay ficheros y/o ver- siones de distintos usuarios puede suponer un riesgo para la privacidad; en concreto demuestran en su artículo que el proceso de-duplicación de varias copias de un mismo fichero pertenecientes a distintos usuarios puede utilizarse para revelar información acerca de los contenidos de los ficheros de otros usuarios e incluso como un canal por el que software malicioso puede comunicarse con el exterior saltándose la protección de los cortafuegos. Como precisamente en los entornos de ficheros compartidos por varios usuarios es donde las técnicas de de-duplicación tiene más efectividad los autores intentan subsanar los riesgos desvelados con una propuesta de sistema que permite mejorar la privacidad a costa de un pequeño descenso en la efectividad de la de-duplicación. V. CONCLUSIONES Y TRABAJOS FUTUROS Exponer algunos problemas relacionados con la seguridad y la fiabilidad da pie para afirmar que existen frentes abiertos para la investigación y el desarrollo de estas áreas, las solucio- nes que se han encontrado corresponden en muchos casos al entorno académico, por lo que se debe esperar para utilizarlos en entorno reales. Corresponde a los clientes, en este caso a los usuarios de los servicios de almacenamiento en la nube, exigir elementos que ofrezcan confianza y garantía en caso de modificación y/o perdida de datos a los proveedores de almacenamiento en la nube. La integridad de los datos es uno de los retos más discu- tidos por la comunidad científica del almacenamiento en la nube. Inicialmente se utilizaron las técnicas tradicionales de seguridad e integridad, pero se requieren nuevos protocolos específicos y adaptados a la computación en la nube. En este artículo se hacen referencia a cinco protocolos de integridad de los datos en el campo del almacenamiento en la nube que presentan la evolución en este campo. Ofrecen soluciones tanto para entornos de uno o varios servidores y para datos tanto estáticos como dinámicos. Se basan en técnicas de cifrado ya existentes como RSA o HLAs, tienen en cuenta factores para la reducción de la computación y del ancho de banda, e incluso van más allá y proponen una capa que permita la recuperación de los datos gracias a las técnicas de garantización de la integridad de los datos. Existen multitud de líneas de investigación abiertas en aras a lograr protocolos que sean eficientes, que permitan garantizar la integridad para datos distribuidos en varios servidores, con un carácter dinámico y prescindiendo de agentes externos de verificación sin prescindir de la seguridad sobre la integridad de los datos. Las técnicas de de-duplicación de datos aplicadas a la obtención y restauración de copias de seguridad expuestas anteriormente demuestran que hay esfuerzo de investigación dedicado a solucionar el problema que supone la transferencia de grandes volúmenes de información en la nube. En ese
  • 5. sentido es de esperar que la de-duplicación de datos junto con la mejora en el precio de conexiones del rango de decenas de Gbps consigan hacer que los transferencias de datos en la nube puedan mejorar la tasa de transferencia que se consigue enviando físicamente discos por mensajería como DHL o FedEx. Desde luego esto ayudaría a mejorar la credibilidad de las soluciones de almacenamiento y copias de seguridad en la nube. REFERENCIAS [1] Q. He, Z. Li, and X. Zhang, “Analysis of the key technology on cloud storage,” in Future Information Technology and Management Engineering (FITME), 2010 International Conference on, vol. 1, oct. 2010, pp. 426 –429. [2] J. Wu, L. Ping, X. Ge, Y. Wang, and J. Fu, “Cloud storage as the infrastructure of cloud computing,” in Intelligent Computing and Cognitive Informatics (ICICCI), 2010 International Conference on, june 2010, pp. 380 –383. [3] S. Kamara and K. Lauter, “Cryptographic cloud storage financial cryptography and data security,” in Financial Cryptography and Data Security, ser. Lecture Notes in Computer Science, R. Sion, R. Curtmola, S. Dietrich, A. Kiayias, J. Miret, K. Sako, and F. Sebé, Eds. Berlin, Heidelberg: Springer Berlin / Heidelberg, 2010, vol. 6054, ch. 13, pp. 136–149. [Online]. Available: http: //dx.doi.org/10.1007/978-3-642-14992-4_13 [4] C. Cachin, I. Keidar, and A. Shraer, “Trusting the cloud,” SIGACT News, vol. 40, pp. 81–86, Jun. 2009. [Online]. Available: http: //doi.acm.org/10.1145/1556154.1556173 [5] J. Feng, Y. Chen, W.-S. Ku, and P. Liu, “Analysis of integrity vulnerabi- lities and a non-repudiation protocol for cloud data storage platforms,” in Parallel Processing Workshops (ICPPW), 2010 39th International Conference on, sept. 2010, pp. 251 –258. [6] Z. Jianhong and C. Hua, “Secuirty storage in the cloud computing: A rsa-based assumption data integrity check without original data,” in Educational and Information Technology (ICEIT), 2010 International Conference on, vol. 2, sept. 2010, pp. V2–143 –V2–147. [7] W. Luo and G. Bai, “Ensuring the data integrity in cloud data storage,” in Cloud Computing and Intelligence Systems (CCIS), 2011 IEEE International Conference on, sept. 2011, pp. 240 –243. [8] R. Sravan Kumar and A. Saxena, “Data integrity proofs in cloud storage,” in Communication Systems and Networks (COMSNETS), 2011 Third International Conference on, jan. 2011, pp. 1 –4. [9] A. Talib, R. Atan, R. Abdullah, and M. Azrifah, “Cloudzone: Towards an integrity layer of cloud data storage based on multi agent system architecture,” in Open Systems (ICOS), 2011 IEEE Conference on, sept. 2011, pp. 127 –132. [10] M. Armbrust, A. Fox, R. Griffith, A. D. Joseph, R. H. Katz, A. Konwinski, G. Lee, D. A. Patterson, A. Rabkin, I. Stoica, and M. Zaharia, “Above the clouds: A berkeley view of cloud computing,” EECS Department, University of California, Berkeley, Tech. Rep. UCB/EECS-2009-28, Feb 2009. [Online]. Available: http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.html [11] “A conversation with jim gray,” Queue, vol. 1, pp. 8–17, June 2003. [Online]. Available: http://doi.acm.org/10.1145/864056.864078 [12] M. Dutch, “Understanding data deduplication ratios,” SNIA White Paper, Storage Networking Industry Association, Jun. 2008. [13] Y. Tan, H. Jiang, D. Feng, L. Tian, Z. Yan, and G. Zhou, “Sam: A semantic-aware multi-tiered source de-duplication framework for cloud backup,” in Parallel Processing (ICPP), 2010 39th International Conference on, sept. 2010, pp. 614 –623. [14] Y. Tan, H. Jiang, D. Feng, L. Tian, and Z. Yan, “Cabdedupe: A causality- based deduplication performance booster for cloud backup services,” in Parallel Distributed Processing Symposium (IPDPS), 2011 IEEE International, may 2011, pp. 1266 –1277. [15] D. Harnik, B. Pinkas, and A. Shulman-Peleg, “Side channels in cloud services: Deduplication in cloud storage,” Security Privacy, IEEE, vol. 8, no. 6, pp. 40 –47, nov.-dec. 2010.