1. Estado del Arte sobre el Almacenamiento
y Gestión de los Datos en la Nube
Jesús Á. Alonso López
Escuela Técnica Superior de
Ingenieros de Telecomunicación
Universidad de Valladolid
Valladolid, Spain
Email: jesus.alonso.muitic@gmail.com
Rafael Cano Parra
Escuela Técnica Superior de
Ingenieros de Telecomunicación
Universidad de Valladolid
Valladolid, Spain
Email: rcanoparra@gmail.com
Carlos E. Reyes Gonzalo
Escuela Técnica Superior de
Ingenieros de Telecomunicación
Universidad de Valladolid
Valladolid, Spain
Email: cereyesg@gmail.com
Resumen—Este documento recoge la investigación realizada
sobre algunos aspectos del almacenamiento y gestión de los
datos dentro del paradigma de la computación en la nube. Los
autores han revisado las preguntas de investigación abiertas y
han seleccionado tres en las que se han centrado para revisar el
estado del arte en relación con ellas: la seguridad en los datos,
la integridad de los datos y los problemas relacionados con la
realización de copias de seguridad.
I. INTRODUCCIÓN
La computación en la nube es un paradigma emergente que
afecta a diversos aspectos como son el almacenamiento de
los datos y la ejecución de las aplicaciones. Hace uso de
la virtualización para proporcionar ciertas ventajas frente al
sistema tradicional físico, tales como una percepción de re-
cursos infinitos, una gestión eficiente de recursos consumiendo
sólo aquellos que son necesarios, e incluso introduciendo el
concepto de “pagar por lo que utilizas”.
El almacenamiento en la nube surge como una concepto
dentro de la computación en la nube. Ofrece una solución de
virtualización del almacenamiento en la que los datos pueden
estar guardados en distintas ubicaciones físicas y usando
diferentes técnicas de gestión interna. En cambio, de cara al
usuario los datos se ofrecen de forma transparente, haciendo
uso de una aplicación de gestión, y permite aislarle de la
gestión de la infraestructura. A su vez, permite que los datos
estén disponibles para el usuario desde cualquier parte del
mundo a través de una conexión a Internet.
Actualmente, la computación en la nube se clasifica en
tres escenarios diferentes: infraestructura como servicio (IaaS),
plataforma como servicio (PaaS) y software como servicio
(SaaS). El almacenamiento en la nube se añade como un
nuevo escenario dentro de esta clasificación: el almacena-
miento como servicio (DaaS). Este escenario permite una
abstracción del almacenamiento de los datos a través de un
conjunto de interfaces de usuario, de forma que el usuario
puede interactuar con ellos sin conocer ni preocuparse sobre
cómo son gestionados y almacenados internamente sus datos.
He et al. [1] y Wu et al. [2] identifican cinco ventajas clave
relativas a la utilización del almacenamiento en la nube y a
las aplicaciones que hacen uso de éste, que son: facilidad de
gestión, manejando los datos con un simple explorador web;
Tabla I
ESCENARIOS DE LA COMPUTACIÓN EN LA NUBE
IaaS PaaS SaaS DaaS
Infrastructure
as a Service
Platform as a
Service
Software as a
Service
Data as a Ser-
vice
Servidores,
redes, sistemas
de almacena-
miento y otros
componentes
físicos.
Entornos de
desarrollo de
servicios.
Aplicación
completa
ofrecida como
un servicio.
Servicios de
almacena-
miento.
efectividad en el coste, eliminando los costes del hardware
y de su mantenimiento y ofreciendo niveles altos de dis-
ponibilidad y escalabilidad haciendo uso de la economía de
escala; bajo impacto ante cortes y mejoras, proveyendo un
coste efectivo en la redundancia del hardware y ofreciendo un
servicio ininterrumpido incluso durante cortes planeados y no
planeados; preparación ante desastres, ofreciendo seguridad a
través del almacenamiento de los datos de forma redundante y
distribuidos para que no haya pérdidas ante una recuperación
de un desastre; y planificación simplificada, como una solu-
ción flexible que provee nuevo almacenamiento según se va
necesitando.
A su vez, identifican seis oportunidades sobre su imple-
mentación originarias de las seis debilidades detectadas en
los distintos tipos de almacenamiento en la nube existentes.
Estas oportunidades son las siguientes: seguridad, un punto
recurrente en cualquier sistema; integridad de los datos, ase-
gurando que los datos almacenados son correctos; potencia,
ofreciendo la oportunidad de tener almacenamiento adicional;
tiempo y costes en la replicación, relativas a la rapidez con la
que se replican los datos y siendo importante para la resistencia
de los datos; costes, reduciendo éstos al quitar la necesidad
de comprar hardware adicional para el almacenamiento; y
fiabilidad.
Este artículo se centra en tres de las oportunidades anterio-
res, y se organiza de la siguiente forma. En la sección II se
mencionan algunos elementos que debería tener un sistemas
de almacenamiento en la nube seguro, de igual manera se
exponen problemas de casos reales. La sección III ofrece una
perspectiva general de los retos existentes para la integridad
2. de los datos, así como la descripción de algunos protocolos
propuestos para conseguir una solución efectiva. Los proble-
mas relacionados con el tiempo y coste de la replicación de
los datos mediante copias de seguridad son tratados en la
sección IV donde se hace hincapié en las técnicas para evitar
duplicaciones de los datos. Finalmente, en la sección V se
presentan las conclusiones y los trabajos futuros.
II. SEGURIDAD EN LOS DATOS
Según Kamara et al. [3] los avances en las tecnologías
de redes y el aumento en las necesidades de recursos de
computación exigen a muchas organizaciones a externalizar
sus necesidades de almacenamiento y computación. Al mover
sus datos a la nube los clientes pueden evitar los costos de
construir y mantener una infraestructura de almacenamiento
privado, optando en su lugar por pagarle a un proveedor
de servicios en función de sus necesidades. Para algunos,
esto proporciona varios beneficios como la disponibilidad
(es decir, ser capaz de acceder a los datos desde cualquier
lugar) y la fiabilidad (es decir, no tener que preocuparse de
las copias de seguridad) a un coste relativamente bajo. Pero
para otros clientes, estos cambios introducen elementos que
pueden significar riesgos de seguridad y privacidad. Parece
que el mayor obstáculo para la adopción de almacenamiento
en la nube (y la computación en la nube en general) es su
preocupación por la confidencialidad y la integridad de los
datos.
Esta reticencia se puede atribuir al deseo de proteger los
datos críticos de las obligaciones legales para preservar la
confidencialidad y la integridad de los datos. Esto último puede
ocurrir cuando el cliente es responsable de mantener datos que
permitan la identificación de personas o registros médicos e
información financiera.
Para abordar dichas preocupaciones Kamara et al. [3] pro-
pone un servicio de almacenamiento virtual privado (servicio
de almacenamiento criptográfico) que contemple los siguientes
elementos (por lo menos) de seguridad:
Confidencialidad: el proveedor de almacenamiento en la
nube no debe conocer ninguna información sobre los
datos del cliente.
Integridad: cualquier modificación de los datos del cliente
por el proveedor de almacenamiento en la nube debe ser
detectados por el cliente.
Disponibilidad: los datos del cliente se pueden acceder
desde cualquier máquina y en todo momento.
Fiabilidad: los datos del cliente son una copia de segu-
ridad fiable.
Eficiencia en la recuperación: los tiempos de recupera-
ción de datos son comparables a un servicio de almace-
namiento en la nube pública.
Posibilidad del intercambio de datos: los clientes pueden
compartir sus datos con terceros de confianza.
Un aspecto importante de un servicio de almacenamiento
criptográfico es que las propiedades de seguridad descritas
anteriormente se consiguen sobre la base de las garantías de
cifrado fuerte.
Otros elementos que comprometen la seguridad se exponen
para apreciar con mayor amplitud este campo. Por ejemplo,
Cachin et al. [4] advierte sobre los tiempos de inactividad
de los servicios contratados, que afectan la disponibilidad de
manera directa y refiere casos sucedidos en Google Mail, Hot-
mail, Amazon S3 y MobileMe, sugiere revisar este apartado en
los contratos de servicios con el proveedor de almacenamiento
en la nube. De igual manera se hace algunas preguntas y las
deja en el aire: ¿qué pasaría si se paga el servicio con retraso?
o ¿puede el proveedor de almacenamiento decidir que uno
de los documentos viola su política de seguridad y cancelar
su servicio o negarle el acceso a los datos? En el año 2008,
un proveedor de almacenamiento en la nube llamado LinkUp
(MediaMax) salió del negocio después de perder el 45 % de
los datos almacenados de sus clientes debido a un error del
administrador del sistema.
III. INTEGRIDAD DE LOS DATOS
Al igual que la seguridad en los datos, uno de los retos muy
ligado a éste que surge al popularizarse el almacenamiento
en la nube en el ámbito industrial y educativo es el de la
integridad de los datos. La integridad de los datos permite
asegurar al usuario que los datos que guarda y recupera
del almacenamiento en la nube son los mismos y no han
sufrido modificaciones ni durante las transmisiones ni en el
almacenamiento en la nube.
Las técnicas que se empezaron a utilizar para garantizar
la integridad de los datos en el almacenamiento en la nube
eran las tradicionales, tales como la firma digital, cifrado,
cortafuegos, aislamiento de entornos virtuales, etc. Surgieron
multitud de dudas sobre cómo eran tratados los datos de
los usuarios por los sistemas de almacenamiento en la nube,
y se detectó la necesidad de definir requisitos de seguridad
específicos para la computación en la nube.
Los protocolos que se han propuesto actualmente para
garantizar la integridad de los datos tienen dos aspectos de
completitud diferenciadores. El primero trata sobre si el diseño
está pensado para un único servidor o si permite asegurar la
integridad cuando los datos están distribuidos entre varios ser-
vidores. El segundo es relativo al carácter estático o dinámico
de los datos en el almacenamiento en la nube, es decir, si se
permiten realizar operaciones sobre ellos cuando está en la
nube o, en cambio, sólo se utiliza para un almacenamiento sin
modificaciones.
Feng et al. [5] comenta que los tres grandes sistemas de
almacenamiento en la nube existentes (Amazon Web Services,
Windows Azure Platform y Google App Engine) contienen
una vulnerabilidad básica, como es la falta de garantía de
que los datos almacenados en sus plataformas mantengan
su integridad sin ser modificados. Los tres sistemas utilizan
una huella digital cifrando los datos con el algoritmo MD5
y realizando la transmisión sobre canales seguros utilizando
el protocolo SSL, pero no van más allá sobre la garantía de
integridad de los datos dentro de sus plataformas. Por ello
propone un nuevo protocolo de no rechazo (NR) diseñado
específicamente para el contexto de la computación en la
3. nube, en el que utiliza un enlace de integridad entre dos
sesiones a través de un agente de confianza de terceros. Está
diseñado para un único servidor y no permite que los datos
sean dinámicos.
En el mismo año, Jianhong y Hua [6] proponen un protocolo
que combina la criptografía basad en la identidad y el sistema
de firma digital RSA. Este protocolo permite garantizar al
usuario la verificación de la integridad de sus datos, sin tener
una copia local de los ficheros de datos y prescindiendo ini-
cialmente de verificadores de terceros, aunque permite delegar
la autoridad de verificación de la integridad de sus datos en
agentes de confianza de terceros. Está diseñado para varios
servidores, pero no permite que los datos sean dinámicos.
Un protocolo similar al de Jianhong y Hua es el que propone
Luo y Bai [7]. Es un protocolo de verificación de la integridad
de los datos de forma remota basado en las firmas digitales
RSA y HLAs y utilizando agentes públicos de verificación.
Está diseñado para un único servidor, pero permite garantizar
la integridad incluso aunque los datos tengan modificaciones
dinámicas remotamente.
Por otra parte, la mayoría de los protocolos que se utilizan
para garantizar la integridad de los datos requieren un uso
elevado del procesador para el cifrado de los datos o un ancho
de banda grande para la transmisión de los datos. Kumar y
Saxena [8] proponen un protocolo diseñado específicamente
para ser utilizado en dispositivos pequeños tales como una
PDA o un teléfono inteligente, en los que el procesador, la
batería y el ancho de banda son limitados. El protocolo permite
garantizar la integridad de los datos realizando únicamente la
descarga y cifrado de una porción de bits de ellos, reduciendo
así el ancho de banda y la computación. Se crea una clave
criptográfica de cada porción de bits como un metadato y que
será la que se utilice para verificar la integridad de los datos
ante los agentes de verificación.
En el trabajo de Talib et al. [9] van más allá del diseño
de un protocolo para garantizar la integridad de los datos, y
proponen una capa llamada “CloudZone” basada en el uso
de sistemas multiagente en el que, además de garantizar la
integridad, permiten la reconstrucción de los datos originales
a través de la descarga de unos vectores desde los servidores
en la nube. Realiza una gestión de copias de seguridad interna
basada en reglas para permitir la recuperación de los datos,
los cuales pueden estar en varios servidores a la vez que se
toleran los cambios dinámicos sin perder la integridad de los
datos.
IV. DUPLICACIÓN DE DATOS
La duplicación de datos es un problema que un proveedor
de almacenamiento en la nube debe evitar con el fin de poder
hacer un uso óptimo de los recursos disponibles. La optimiza-
ción de la capacidad de almacenamiento le permitirá ahorrar
costes evitando la compra de nuevos servidores y supondrá
por supuesto menores gastos operativos: se necesitará menos
espacio para el centro de datos y la energía consumida tanto
para alimentar equipos como para refrigerar será menor.
En [10] se señala al cuello de botella que suponen las
transferencias de datos como uno de los obstáculos (y por
tanto oportunidades de investigación) de la computación en la
nube. Esto parece especialmente relevante para servicios de
almacenamiento y en concreto para la realización de copias
de seguridad en la nube. Los autores incluyen varios ejemplos
introducidos a su vez por Jim Gray en [11] en los que
se compara el precio y el tiempo necesarios para realizar
una copia de seguridad a través de la nube con lo que
costaría enviar por mensajería copias físicas de los discos.
La conclusión que extraen es que las copias de seguridad
completas (por ejemplo semanales) se pueden realizar a través
del envío de copias físicas mediante mensajería tradicional (vía
MRW, FedEx o similares) mientras que las copias de seguridad
incrementales diarias se pueden realizar a través de la nube.
Parece claro por tanto que los proveedores de servicios de
almacenamiento y de copias de seguridad en la nube deben
investigar en técnicas que les ayuden a reducir la cantidad de
datos que se deben enviar a través de la nube.
Las técnicas de-duplicación de datos permiten optimizar
el uso de los recursos detectando ficheros o fragmentos de
fichero duplicados y almacenando una única copia de cada
bloque de fichero. Con esto se consigue no sólo un mejor
aprovechamiento del almacenamiento de disco si no también
una reducción de los requerimientos de ancho de banda puesto
que hay menos información que transferir.
IV-A. Estrategias de de-duplicación
En función del tamaño de la información que se maneja se
distingue entre:
De-duplicación a nivel de fichero: permite guardar una
sola copia de cada fichero. Dos ficheros se consideran
idénticos si se obtiene el mismo valor al aplicar una
función hash.
De-duplicación a nivel de bloque: se trabaja a nivel
de bloque de fichero y se mantiene una sola copia
actualizada de cada bloque.
En función de la arquitectura del sistema de de-duplicación
se distingue entre:
De-duplicación en destino: la de-duplicación se realiza
en el dispositivo de almacenamiento destino. Reduce la
utilización de espacio en disco en destino pero no la
necesidad de ancho de banda para la transmisión de los
datos.
De-duplicación en origen: la de-duplicación se aplica en
origen antes de realizarse la transferencia. Se establece
una comunicación con el nodo donde ha de residir la
copia actualizada (típicamente el nodo en el que residen
las copias de seguridad) al que se le envían firmas de hash
para comprobar la existencia de duplicados. Los bloques
que se detectan como duplicados no se envían, y son
reemplazados por punteros a los bloques más actuales.
De esta forma se ahorra en espacio de almacenamiento
y en uso de ancho de banda.
Hay dos factores principales [12] que nos pueden indicar el
nivel de de-duplicación que se va a poder conseguir:
4. 1. El tipo de datos: si conocemos el tipo de datos mane-
jados se puede anticipar en qué nivel va a ser efectiva
la de-duplicación. Así por ejemplo, los ficheros creados
dentro de una misma empresa contienen información
redundantes que es distribuida y copiada con frecuencia.
En el otro extremo, una aplicación que recoja datos de
la Naturaleza normalmente va a generar datos únicos en
los cuales será difícil encontrar patrones de repetición.
2. La frecuencia en que los datos son modificados: cuanto
menos se modifiquen los datos mayor es la frecuencia de
que todas las copias existentes de esos datos contengan
lo mismo. Por el contrario, actualizaciones frecuentes
en los datos hacen que los algoritmos tengan menos
probabilidades de encontrar datos duplicados.
Otro aspecto a considerar es el incremento en el volumen
de datos total; si éste aumenta es muy posible que se deba a
que se ha almacenado datos que no existían previamente. En
general, y salvo que el crecimiento se deba a la realización de
una copia de datos ya existentes, cuando el volumen total de
datos crece el ratio de de-duplicación será más bajo porque
hay más datos únicos.
IV-B. Revisión de algunos sistemas de de-duplicación para
almacenamiento en la nube
Entre la literatura existente se pueden encontrar varios
ejemplos de técnicas de de-duplicación de datos orientados a
mejorar el coste y el tiempo requeridos para hacer una copia
de seguridad en la nube.
Tan et al. [13] propone un sistema denominado SAM
(Semantic-AwareMulti-Tiered Source De-duplication) para
realizar copias de seguridad en la nube. El sistema utiliza
de-duplicación de datos híbrida, tanto a nivel de fragmento
como a nivel de fichero e intenta explotar la semántica de
los ficheros. Para ello se analiza meta información como el
dónde está situado, su fecha de última modificación, el tipo
de fichero y su tamaño. Según la evaluación realizada por los
autores se consigue una de-duplicación eficiente manteniendo
un sobre coste de procesamiento controlado. Consigue reducir
el tiempo empleado en realizar una copia de seguridad en un
38.7 %.
Los mismos autores recuerdan en [14] que no sólo se debe
mejorar el tiempo de realización de una copia de seguridad
si no también el tiempo de restauración. Proponen el sistema
CABdedupe que captura y utiliza lo que denominan “rela-
ciones causales” entre copias de seguridad cronológicas de
un conjunto de datos. Para ello utilizan unos componentes
denominados “File Monitor”, “File List” y “File Recipe”. “File
Monitor” es un demonio que anota todas las operaciones que
se realizan sobre los datos y los anota en las estructuras de
datos “File List” y “File Recipe”. Utilizando la información
que contienen esas estructuras de datos CABdedupe es capaz
de identificar qué ficheros y qué fragmentos de fichero han
cambiado desde la última copia de seguridad. Sólo aquellos
que han cambiado son transmitidos en la operación de copia
de seguridad o de restauración. Explotando esa información
consiguen mejorar el tiempo de ejecución de operaciones de
copia de seguridad y restauración en un ratio de 103:1.
La seguridad es un aspecto que ha de tenerse en cuenta
en los procesos de de-duplicación de datos. Así, Harnik et
al. [15] alertan sobre como la de-duplicación de un conjunto
de ficheros en un espacio en el que hay ficheros y/o ver-
siones de distintos usuarios puede suponer un riesgo para
la privacidad; en concreto demuestran en su artículo que el
proceso de-duplicación de varias copias de un mismo fichero
pertenecientes a distintos usuarios puede utilizarse para revelar
información acerca de los contenidos de los ficheros de otros
usuarios e incluso como un canal por el que software malicioso
puede comunicarse con el exterior saltándose la protección
de los cortafuegos. Como precisamente en los entornos de
ficheros compartidos por varios usuarios es donde las técnicas
de de-duplicación tiene más efectividad los autores intentan
subsanar los riesgos desvelados con una propuesta de sistema
que permite mejorar la privacidad a costa de un pequeño
descenso en la efectividad de la de-duplicación.
V. CONCLUSIONES Y TRABAJOS FUTUROS
Exponer algunos problemas relacionados con la seguridad
y la fiabilidad da pie para afirmar que existen frentes abiertos
para la investigación y el desarrollo de estas áreas, las solucio-
nes que se han encontrado corresponden en muchos casos al
entorno académico, por lo que se debe esperar para utilizarlos
en entorno reales. Corresponde a los clientes, en este caso a
los usuarios de los servicios de almacenamiento en la nube,
exigir elementos que ofrezcan confianza y garantía en caso
de modificación y/o perdida de datos a los proveedores de
almacenamiento en la nube.
La integridad de los datos es uno de los retos más discu-
tidos por la comunidad científica del almacenamiento en la
nube. Inicialmente se utilizaron las técnicas tradicionales de
seguridad e integridad, pero se requieren nuevos protocolos
específicos y adaptados a la computación en la nube. En este
artículo se hacen referencia a cinco protocolos de integridad
de los datos en el campo del almacenamiento en la nube
que presentan la evolución en este campo. Ofrecen soluciones
tanto para entornos de uno o varios servidores y para datos
tanto estáticos como dinámicos. Se basan en técnicas de
cifrado ya existentes como RSA o HLAs, tienen en cuenta
factores para la reducción de la computación y del ancho
de banda, e incluso van más allá y proponen una capa que
permita la recuperación de los datos gracias a las técnicas de
garantización de la integridad de los datos. Existen multitud
de líneas de investigación abiertas en aras a lograr protocolos
que sean eficientes, que permitan garantizar la integridad
para datos distribuidos en varios servidores, con un carácter
dinámico y prescindiendo de agentes externos de verificación
sin prescindir de la seguridad sobre la integridad de los datos.
Las técnicas de de-duplicación de datos aplicadas a la
obtención y restauración de copias de seguridad expuestas
anteriormente demuestran que hay esfuerzo de investigación
dedicado a solucionar el problema que supone la transferencia
de grandes volúmenes de información en la nube. En ese
5. sentido es de esperar que la de-duplicación de datos junto con
la mejora en el precio de conexiones del rango de decenas
de Gbps consigan hacer que los transferencias de datos en la
nube puedan mejorar la tasa de transferencia que se consigue
enviando físicamente discos por mensajería como DHL o
FedEx. Desde luego esto ayudaría a mejorar la credibilidad
de las soluciones de almacenamiento y copias de seguridad en
la nube.
REFERENCIAS
[1] Q. He, Z. Li, and X. Zhang, “Analysis of the key technology on
cloud storage,” in Future Information Technology and Management
Engineering (FITME), 2010 International Conference on, vol. 1, oct.
2010, pp. 426 –429.
[2] J. Wu, L. Ping, X. Ge, Y. Wang, and J. Fu, “Cloud storage as
the infrastructure of cloud computing,” in Intelligent Computing and
Cognitive Informatics (ICICCI), 2010 International Conference on, june
2010, pp. 380 –383.
[3] S. Kamara and K. Lauter, “Cryptographic cloud storage financial
cryptography and data security,” in Financial Cryptography and
Data Security, ser. Lecture Notes in Computer Science, R. Sion,
R. Curtmola, S. Dietrich, A. Kiayias, J. Miret, K. Sako, and
F. Sebé, Eds. Berlin, Heidelberg: Springer Berlin / Heidelberg,
2010, vol. 6054, ch. 13, pp. 136–149. [Online]. Available: http:
//dx.doi.org/10.1007/978-3-642-14992-4_13
[4] C. Cachin, I. Keidar, and A. Shraer, “Trusting the cloud,” SIGACT
News, vol. 40, pp. 81–86, Jun. 2009. [Online]. Available: http:
//doi.acm.org/10.1145/1556154.1556173
[5] J. Feng, Y. Chen, W.-S. Ku, and P. Liu, “Analysis of integrity vulnerabi-
lities and a non-repudiation protocol for cloud data storage platforms,”
in Parallel Processing Workshops (ICPPW), 2010 39th International
Conference on, sept. 2010, pp. 251 –258.
[6] Z. Jianhong and C. Hua, “Secuirty storage in the cloud computing:
A rsa-based assumption data integrity check without original data,” in
Educational and Information Technology (ICEIT), 2010 International
Conference on, vol. 2, sept. 2010, pp. V2–143 –V2–147.
[7] W. Luo and G. Bai, “Ensuring the data integrity in cloud data storage,”
in Cloud Computing and Intelligence Systems (CCIS), 2011 IEEE
International Conference on, sept. 2011, pp. 240 –243.
[8] R. Sravan Kumar and A. Saxena, “Data integrity proofs in cloud
storage,” in Communication Systems and Networks (COMSNETS), 2011
Third International Conference on, jan. 2011, pp. 1 –4.
[9] A. Talib, R. Atan, R. Abdullah, and M. Azrifah, “Cloudzone: Towards
an integrity layer of cloud data storage based on multi agent system
architecture,” in Open Systems (ICOS), 2011 IEEE Conference on, sept.
2011, pp. 127 –132.
[10] M. Armbrust, A. Fox, R. Griffith, A. D. Joseph, R. H. Katz,
A. Konwinski, G. Lee, D. A. Patterson, A. Rabkin, I. Stoica,
and M. Zaharia, “Above the clouds: A berkeley view of cloud
computing,” EECS Department, University of California, Berkeley,
Tech. Rep. UCB/EECS-2009-28, Feb 2009. [Online]. Available:
http://www.eecs.berkeley.edu/Pubs/TechRpts/2009/EECS-2009-28.html
[11] “A conversation with jim gray,” Queue, vol. 1, pp. 8–17, June 2003.
[Online]. Available: http://doi.acm.org/10.1145/864056.864078
[12] M. Dutch, “Understanding data deduplication ratios,” SNIA White
Paper, Storage Networking Industry Association, Jun. 2008.
[13] Y. Tan, H. Jiang, D. Feng, L. Tian, Z. Yan, and G. Zhou, “Sam:
A semantic-aware multi-tiered source de-duplication framework for
cloud backup,” in Parallel Processing (ICPP), 2010 39th International
Conference on, sept. 2010, pp. 614 –623.
[14] Y. Tan, H. Jiang, D. Feng, L. Tian, and Z. Yan, “Cabdedupe: A causality-
based deduplication performance booster for cloud backup services,”
in Parallel Distributed Processing Symposium (IPDPS), 2011 IEEE
International, may 2011, pp. 1266 –1277.
[15] D. Harnik, B. Pinkas, and A. Shulman-Peleg, “Side channels in cloud
services: Deduplication in cloud storage,” Security Privacy, IEEE, vol. 8,
no. 6, pp. 40 –47, nov.-dec. 2010.