UNIVERSIDAD NACIONAL AMAZÓNICA DE MADRE DE DIOS
ASIGNATURA: BIG DATA
1
TRANSFORMACIÓN Y TRABAJOS (JOBS)
(LABORATORIO)
Ejercicio Nro. 01 (Transformación 01):
VALIDACION DE DATOS, Este bloque es muy útil puesto que va permitir Eliminar duplicado,
Eliminar aquellos registros que no cumplan unas determinadas condiciones.
Hacer uso de un texto plano denominado TemperaturaGlobalTierraPorPais.txt, lo cual se
requiere eliminar aquellos valores nulos del campo country.
Sin embargo al realizar la validación de datos mostrará un error, debido a que no se tiene una
salida de todos valores (salida de los datos válidos y salida de los datos desechados, los no
válidos), para lo cual es necesario utilizar un Dummy (Transformación simulada – no hace nada),
este paso permite solo obtener los registros para poder pre visualizar.
Agregar un paso de Salida mediante un fichero de texto.
Ejercicio Nro. 02 (Transformación 2):
Usar el archivo de Excel denominado Ventas_2020_2022 raw_etl.xlsx para hacer lo siguiente:
1. Reemplazar en cadena (Replace in string)
Cambiar el valor Shiped (enviado) por “enviado” del atributo STATUS
2. Ordenar (Sort rows)
Ordenar descendentemente según los atributos ORDERNUMBER y ORDERLINENUMBER
3. Eliminar las filas duplicadas (Unique rows)
No puede existir 2 o más registros duplicados con ORDERNUMBER y ORDERLINENUMBER, ya
que la combinación de ambos deberían ser únicos.
4. Filtrar datos (Filter rows)
UNIVERSIDAD NACIONAL AMAZÓNICA DE MADRE DE DIOS
ASIGNATURA: BIG DATA
2
Eliminará todos aquellos registros que tengan como estado cancelled del atributo STATUS.
(Sugerencia: Debe agregarse 2 Dummys, 1 Datos válidos, 2. Datos descartados)
5. Calculator (Calculadora de datos)
Aplicar la calculadora de datos para añadir campos calculados (precio producto y mes pedido),
se requiere el mes debido a que existe errores en los datos de entrada correspondiente al
atributo MONTH_ID.
Tarea: Cargar los datos en un formato excel
6. Búsqueda de datos entre tablas (Database lookup)
Agregar el atributo de Población a la secuencia de transformación, mediante Database lookup
(conectar la base de datos world y tabla country) buscar por un atributo en común (Name de la
bd–mysql y Country de la secuencia ktr), ello tiene como fin adicionar un campo denominado
Población.
 Añadir la conexión a la base de datos mysql y Pentaho.
 Agregar el paso Database lookup, configurar la conexión y tabla
 Buscar los valores y comparar (Name = Country)
 Retornar el valor de la tabla buscado (Field= Population, New Name = Población)
7. Proceso de carga DataWarehouse (conocimiento previo de una tabla de dimensión y de
hecho)
Agregar una tabla de hecho, para ello se debe crear una base de datos denominada
datawarehouse, luego crear una tabla de hechos denominada Ventas_acumuladas
(Nomenclatura programación CamelCase):
numeroPedido, cantidadPedido, numeroLineaPedido, ventas, fechaPedido, estado, ciudad, pais,
PrecioProducto, mesPedido, población
CREATE TABLE 'datawarehouse'.'ventas_acumulada' (
numeroPedido INT NULL,
cantidadPedido VARCHAR(45) NULL,
numeroLineaPedido VARCHAR(45) NULL,
ventas INT NULL,
Definición. Especifique los campos de entrada y el tipo de función para realizar y devolver resultados.
También puede especificar un campo para eliminar del resultado (salida) después de calcular todos
los valores, lo cual es útil para eliminar valores temporales.
UNIVERSIDAD NACIONAL AMAZÓNICA DE MADRE DE DIOS
ASIGNATURA: BIG DATA
3
fechaPedido VARCHAR(45) NULL,
estado VARCHAR(45) NULL,
ciudad VARCHAR(45) NULL,
pais VARCHAR(45) NULL,
precioProducto VARCHAR(45) NULL,
mesPedido VARCHAR(45) NULL,
poblacion VARCHAR(45) NULL
);
Finalmente la salida de la tabla (Table output), para mostrar los datos en la tabla
Ventas_acumuladas.
Proceso de carga de una tabla de una base de datos DataWarehouse
- Crear estructura tabla en DataWarehouse
- Salida > Salida a tabla
- Crear conexión / tabla destion SQL en Pentaho
- Mapear campos del flujo con los campos de la tabla destion: Activar la casilla Specify Database
Fields (Guess para que adivine el mapeo)
8. Tablas resumen (Agrupan registros por valores únicos en uno o más campos clave)
Agrupar por uno o más campos específicos para obtener tablas resumidas, que sirvan para
cargar en una tabla u otro.
Obtener las Ventas totales en base al tipo (linea) del producto y fecha de compra
Agrupar (Memory group by) los campos de PRODUCTLINE (línea o tipo de producto) y
ORDERDATE, agregar un nuevo campo que contendrá la suma de las ventas. Finalmente la salida
será en un archivo excel que tenga el nombre de Agregación Ventas.xlsx
Nota: Diferencia entre Group By vs Memory Group By
Agrupar por (Group By) requiere ordenar por claves específicas, caso contrario el resultado
puede ser incorrecto, al momento de hacer clic en aceptar envía el siguiente mensaje:
Por ello, colocar el paso ordenar filas (Sort rows, ordena por uno o más campos específicos)
antes de Group by.
Agrupar memoria por (Memory Group By), en este paso no requiere ordenar por claves
específicas, y es el más recomendado y habitualmente usado.
Si los datos entrantes no están ordenados en las claves especificadas, el resultado de salida puede no
ser correcto. Recomendamos ordenar los datos entrantes dentro de la transformación.
UNIVERSIDAD NACIONAL AMAZÓNICA DE MADRE DE DIOS
ASIGNATURA: BIG DATA
4
Ejercicio Nro. 03: JOBS (Conocimiento previos de una tarea o jobs)
1. Flujo en paralelo
- Agregar el paso de Inicio (Start)
- Agregar el paso de transformación 1 y 2, realizados de los ejercicios anteriores
- Agregar el paso que finaliza (Success)
Opcional: Podemos agregar el paso verificar si el archivo existe (Checks if files exist)
2. Flujo de secuencia
De acuerdo al ejercicio nro. 2, se tiene una secuencia de los pasos para el proceso ETL, en base
a ello realizar lo siguiente:
- Extraer del ejercicio nro. 2, los pasos desde la entrada de datos hasta ingreso de datos a
tabla de BD, y copiar a una nueva transformación denominado Transf_E-T.ktr.
- Agregar un nuevo paso copy rows to results
- De las misma manera, extraer los pasos Ordenar para ventas totales, Ventas totales , Ventas
totales_2 y Salida, y copiar a una nueva transformación denominado Transf_Load.ktr.
- Agregar un nuevo paso Get rows to results
UNIVERSIDAD NACIONAL AMAZÓNICA DE MADRE DE DIOS
ASIGNATURA: BIG DATA
5
Crear un archivo para Jobs con extensión *. Kjb, realiza los siguientes pasos:
- Agregar el paso de Inicio (Start)
- Agregar el paso de Transf_E-T.ktr y Transf_Load.ktr, realizados de los ejercicios anteriores
- Agregar el paso que finaliza (Success)

Laboratorio_1.pdf

  • 1.
    UNIVERSIDAD NACIONAL AMAZÓNICADE MADRE DE DIOS ASIGNATURA: BIG DATA 1 TRANSFORMACIÓN Y TRABAJOS (JOBS) (LABORATORIO) Ejercicio Nro. 01 (Transformación 01): VALIDACION DE DATOS, Este bloque es muy útil puesto que va permitir Eliminar duplicado, Eliminar aquellos registros que no cumplan unas determinadas condiciones. Hacer uso de un texto plano denominado TemperaturaGlobalTierraPorPais.txt, lo cual se requiere eliminar aquellos valores nulos del campo country. Sin embargo al realizar la validación de datos mostrará un error, debido a que no se tiene una salida de todos valores (salida de los datos válidos y salida de los datos desechados, los no válidos), para lo cual es necesario utilizar un Dummy (Transformación simulada – no hace nada), este paso permite solo obtener los registros para poder pre visualizar. Agregar un paso de Salida mediante un fichero de texto. Ejercicio Nro. 02 (Transformación 2): Usar el archivo de Excel denominado Ventas_2020_2022 raw_etl.xlsx para hacer lo siguiente: 1. Reemplazar en cadena (Replace in string) Cambiar el valor Shiped (enviado) por “enviado” del atributo STATUS 2. Ordenar (Sort rows) Ordenar descendentemente según los atributos ORDERNUMBER y ORDERLINENUMBER 3. Eliminar las filas duplicadas (Unique rows) No puede existir 2 o más registros duplicados con ORDERNUMBER y ORDERLINENUMBER, ya que la combinación de ambos deberían ser únicos. 4. Filtrar datos (Filter rows)
  • 2.
    UNIVERSIDAD NACIONAL AMAZÓNICADE MADRE DE DIOS ASIGNATURA: BIG DATA 2 Eliminará todos aquellos registros que tengan como estado cancelled del atributo STATUS. (Sugerencia: Debe agregarse 2 Dummys, 1 Datos válidos, 2. Datos descartados) 5. Calculator (Calculadora de datos) Aplicar la calculadora de datos para añadir campos calculados (precio producto y mes pedido), se requiere el mes debido a que existe errores en los datos de entrada correspondiente al atributo MONTH_ID. Tarea: Cargar los datos en un formato excel 6. Búsqueda de datos entre tablas (Database lookup) Agregar el atributo de Población a la secuencia de transformación, mediante Database lookup (conectar la base de datos world y tabla country) buscar por un atributo en común (Name de la bd–mysql y Country de la secuencia ktr), ello tiene como fin adicionar un campo denominado Población.  Añadir la conexión a la base de datos mysql y Pentaho.  Agregar el paso Database lookup, configurar la conexión y tabla  Buscar los valores y comparar (Name = Country)  Retornar el valor de la tabla buscado (Field= Population, New Name = Población) 7. Proceso de carga DataWarehouse (conocimiento previo de una tabla de dimensión y de hecho) Agregar una tabla de hecho, para ello se debe crear una base de datos denominada datawarehouse, luego crear una tabla de hechos denominada Ventas_acumuladas (Nomenclatura programación CamelCase): numeroPedido, cantidadPedido, numeroLineaPedido, ventas, fechaPedido, estado, ciudad, pais, PrecioProducto, mesPedido, población CREATE TABLE 'datawarehouse'.'ventas_acumulada' ( numeroPedido INT NULL, cantidadPedido VARCHAR(45) NULL, numeroLineaPedido VARCHAR(45) NULL, ventas INT NULL, Definición. Especifique los campos de entrada y el tipo de función para realizar y devolver resultados. También puede especificar un campo para eliminar del resultado (salida) después de calcular todos los valores, lo cual es útil para eliminar valores temporales.
  • 3.
    UNIVERSIDAD NACIONAL AMAZÓNICADE MADRE DE DIOS ASIGNATURA: BIG DATA 3 fechaPedido VARCHAR(45) NULL, estado VARCHAR(45) NULL, ciudad VARCHAR(45) NULL, pais VARCHAR(45) NULL, precioProducto VARCHAR(45) NULL, mesPedido VARCHAR(45) NULL, poblacion VARCHAR(45) NULL ); Finalmente la salida de la tabla (Table output), para mostrar los datos en la tabla Ventas_acumuladas. Proceso de carga de una tabla de una base de datos DataWarehouse - Crear estructura tabla en DataWarehouse - Salida > Salida a tabla - Crear conexión / tabla destion SQL en Pentaho - Mapear campos del flujo con los campos de la tabla destion: Activar la casilla Specify Database Fields (Guess para que adivine el mapeo) 8. Tablas resumen (Agrupan registros por valores únicos en uno o más campos clave) Agrupar por uno o más campos específicos para obtener tablas resumidas, que sirvan para cargar en una tabla u otro. Obtener las Ventas totales en base al tipo (linea) del producto y fecha de compra Agrupar (Memory group by) los campos de PRODUCTLINE (línea o tipo de producto) y ORDERDATE, agregar un nuevo campo que contendrá la suma de las ventas. Finalmente la salida será en un archivo excel que tenga el nombre de Agregación Ventas.xlsx Nota: Diferencia entre Group By vs Memory Group By Agrupar por (Group By) requiere ordenar por claves específicas, caso contrario el resultado puede ser incorrecto, al momento de hacer clic en aceptar envía el siguiente mensaje: Por ello, colocar el paso ordenar filas (Sort rows, ordena por uno o más campos específicos) antes de Group by. Agrupar memoria por (Memory Group By), en este paso no requiere ordenar por claves específicas, y es el más recomendado y habitualmente usado. Si los datos entrantes no están ordenados en las claves especificadas, el resultado de salida puede no ser correcto. Recomendamos ordenar los datos entrantes dentro de la transformación.
  • 4.
    UNIVERSIDAD NACIONAL AMAZÓNICADE MADRE DE DIOS ASIGNATURA: BIG DATA 4 Ejercicio Nro. 03: JOBS (Conocimiento previos de una tarea o jobs) 1. Flujo en paralelo - Agregar el paso de Inicio (Start) - Agregar el paso de transformación 1 y 2, realizados de los ejercicios anteriores - Agregar el paso que finaliza (Success) Opcional: Podemos agregar el paso verificar si el archivo existe (Checks if files exist) 2. Flujo de secuencia De acuerdo al ejercicio nro. 2, se tiene una secuencia de los pasos para el proceso ETL, en base a ello realizar lo siguiente: - Extraer del ejercicio nro. 2, los pasos desde la entrada de datos hasta ingreso de datos a tabla de BD, y copiar a una nueva transformación denominado Transf_E-T.ktr. - Agregar un nuevo paso copy rows to results - De las misma manera, extraer los pasos Ordenar para ventas totales, Ventas totales , Ventas totales_2 y Salida, y copiar a una nueva transformación denominado Transf_Load.ktr. - Agregar un nuevo paso Get rows to results
  • 5.
    UNIVERSIDAD NACIONAL AMAZÓNICADE MADRE DE DIOS ASIGNATURA: BIG DATA 5 Crear un archivo para Jobs con extensión *. Kjb, realiza los siguientes pasos: - Agregar el paso de Inicio (Start) - Agregar el paso de Transf_E-T.ktr y Transf_Load.ktr, realizados de los ejercicios anteriores - Agregar el paso que finaliza (Success)