Victoria López
@victoriademates
www.tecnologiaUCM.es
Universidad Complutense de Madrid
2b
2
2b
3
2b
• Las grandes bases de datos no son caras
de almacenar (elephant vendors)
• Pero se necesita un supercomputador para
su procesamiento
4
• La paralelización ahorra mucho tiempo
• No sólo es útil en consultas sino también en
la ejecución de algoritmos o analíticas
• Ley de Amdalh (N=Nº procesadores)
5
6
Las aplicaciones internas de Google utilizan más de 100
nodos y externamente pueden ser utilizadas como cloud
7
8
9
• Nivel 1: Almacenar datos estáticos y computación
simple (Amazon S3, computación sobre datos
almacenados EC2)
• Nivel 2: Ejecutar procesos de gestión automática
sobre los datos (Copias de seguridad, instalación de un
SQL Server para ejecutar consultas, Google Big Query)
• Nivel 3 Gestión controlada por el usuario (Salesforce,
Splunk, Tableau, AWS)
10
11
12
Big Data Collection
13
Procesamiento
en tiempo real
Procesamiento
streamming
in-memory
Implementación
Open source del
modelo
MapReduce de
Google
Generalización
de MapReduce
Desarrollos de
Google

G tec sesion2b-host-cloud y cloudcomputing