Crecimiento del PIB real revisado sexenios neoliberales y nueva era del sober...
Procesamiento masivo de datos en MongoDB
1.
2.
3.
4. Procesamiento masivo de datos en MongoDB
Quijote
1
Caballero
2
Caballero
1
Quijote
1
Quijote
2
4
Quijote
Hidalgo
5
Hidalgo
6
Quijote
8
Hidalgo
1
Caballero
3
5. Procesamiento masivo de datos en MongoDB
Madrid
María
Valencia
Pedro
Valencia
Oscar
Madrid
Miguel
Madrid
Iván
David
Madrid
Bilbao
Juan
Bilbao
2
Madrid
4
Bilbao
Alberto
Valencia
2
6.
7. Procesamiento masivo de datos en MongoDB
Mucho más flexible que el framework de agregación
Procesos de ETL
Localidad de datos
Fuente de datos limitada
Lento en comparación con los métodos $group y $aggregation propios de MongoDB
8. Procesamiento masivo de datos en MongoDB
Ejemplo: Map
var mapFunction = function() {
var key = this.ciudad;
var value = {
nombre: this.nombre,
count: 1
};
emit( key, value );
};
9. Procesamiento masivo de datos en MongoDB
Ejemplo: Reduce
var reduceFunction = function(key, values) {
var reducedObject = {
ciudad: key,
nombres: "",
count:0
};
values.forEach( function(value) {
reducedObject.nombres += "|"+value.nombre;
reducedObject.count += value.count;
}
);
return reducedObject;
};;
12. Procesamiento masivo de datos en MongoDB
Características principales
Fuente de datos mucho más amplia
Combinación de diferentes fuentes de datos (¡¡¡joins!!!)
Procesos ETL
Ampliable el número de nodos de computación
Completamente integrado con Hive y Pig
Dificultad de programación
Posible pérdida de localidad de datos
Se añade un retardo en conversión de datos y serialización
Obliga a tener un esquema