Este documento proporciona instrucciones para analizar datos sobre los álbumes de Pink Floyd utilizando herramientas de Hadoop como HDFS, Pig y Cat. Incluye comandos para cargar un archivo de datos sobre los álbumes en HDFS, comprobar que se haya cargado correctamente, calcular los álbumes que alcanzaron el top 10 en ventas en EEUU o Reino Unido, y obtener la posición máxima y mínima alcanzada por los álbumes de Pink Floyd en las listas de ventas de ambos países.
Master en Big Data y BI: Análisis de la discografía de Pink Floyd
1. 1
Master en Business Intelligence y Big Data
Paralelismo y Big Data
EOI Escuela de Organización Industrial http://www.eoi.es
Material de Carlos Martin De los Santos Ng
Pregunta 1
1. Partiendo de la discografía de Pink Floyd:
Año de publicación, Titulo, EEUU, UK
1967, The Piper at the Gates of Dawn,131,6
1968, A Saucerful of Secrets,999,9
1969, Music from the Film More,153,9
1969, Ummagumma,74,5
1970, Atom Heart Mother,55,1
1972, Obscured by Clouds, 46,6
1973, The Dark Side of the Moon, 1,1
1975, Wish you Were Here, 1,1
1977, Animals, 3,2
1979, The Wall, 1,3
1983, The Final Cut, 6,1
1987, A Momentary Lapse of Reason,3,3
1994, The Division Bell, 1,1
2014, The Endless River, 3, 1
Indicar los comandos empleados para resolver las siguientes preguntas
1. Crear un fichero llamado discos.txt
2. 2
Master en Business Intelligence y Big Data
Paralelismo y Big Data
EOI Escuela de Organización Industrial http://www.eoi.es
Material de Carlos Martin De los Santos Ng
2. Arrancar HDFS, Yarn y el job history
HDFS
YARN
JOB HISTORY
3. Subir el fichero a HDFS dentro de la carpeta
/user/bigdata/discos.txt
1.
3. 3
Master en Business Intelligence y Big Data
Paralelismo y Big Data
EOI Escuela de Organización Industrial http://www.eoi.es
Material de Carlos Martin De los Santos Ng
4. Ejecutar la instrucción ls sobre Hadoop para
indicar el tamaño del fichero
El tamaño es 425
4. 4
Master en Business Intelligence y Big Data
Paralelismo y Big Data
EOI Escuela de Organización Industrial http://www.eoi.es
Material de Carlos Martin De los Santos Ng
5. Arrancar pig en modo servidor (ejecutar sólo
pig y si se quiere eliminar trazas de log) y
ejecutar el siguiente comando: cat
/user/bigdata/discos.txt para confirmar que los
primeros puntos han funcionado correctamente
y el fichero está subido a HDFS
6. Cargar el fichero de hdfs en una variable
llamada discos
5. 5
Master en Business Intelligence y Big Data
Paralelismo y Big Data
EOI Escuela de Organización Industrial http://www.eoi.es
Material de Carlos Martin De los Santos Ng
7. Calcular los discos que estuvieron en los 10
primeros lugares en EEUU o UK
6. 6
Master en Business Intelligence y Big Data
Paralelismo y Big Data
EOI Escuela de Organización Industrial http://www.eoi.es
Material de Carlos Martin De los Santos Ng
8. Obtener la máxima y mínima posición que
ocuparon los discos de Pink Floyd en EEUU y en
UK
grunt> c = GROUP discos ALL;
grunt> maxkey= FOREACH c GENERATE MAX(discos.eeuu);
Resultado: (999)
Mínima posición que ocuparon los discos de Pink Floyd en
EEUU
grunt> c = GROUP discos ALL;
grunt> maxkey= FOREACH c GENERATE MIN(discos.eeuu);
Result ado: (1)
Máxima posición que ocuparon los discos de Pink Floyd en
UK
grunt> maxkey2= FOREACH c GENERATE MAX(discos.uk);
7. 7
Master en Business Intelligence y Big Data
Paralelismo y Big Data
EOI Escuela de Organización Industrial http://www.eoi.es
Material de Carlos Martin De los Santos Ng
grunt> dump maxkey2;