vpk9kx2mj7cp72
-
Upload
carlos-de-los-santos -
Category
Software
-
view
23 -
download
0
Transcript of vpk9kx2mj7cp72
1 Master en Business Intelligence y Big Data Paralelismo y Big Data
Pregunta 1 1. Partiendo de la discografía de Pink Floyd:
Año de publicación, Titulo, EEUU, UK
1967, The Piper at the Gates of Dawn,131,61968, A Saucerful of Secrets,999,91969, Music from the Film More,153,91969, Ummagumma,74,51970, Atom Heart Mother,55,11972, Obscured by Clouds, 46,61973, The Dark Side of the Moon, 1,11975, Wish you Were Here, 1,11977, Animals, 3,21979, The Wall, 1,31983, The Final Cut, 6,11987, A Momentary Lapse of Reason,3,31994, The Division Bell, 1,12014, The Endless River, 3, 1
Indicar los comandos empleados para resolver las siguientes preguntas
1. Crear un fichero llamado discos.txt
EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng
2 Master en Business Intelligence y Big Data Paralelismo y Big Data
2. Arrancar HDFS, Yarn y el job historyHDFS
YARN
JOB HISTORY
3. Subir el fichero a HDFS dentro de la carpeta /user/bigdata/discos.txt
1.
EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng
3 Master en Business Intelligence y Big Data Paralelismo y Big Data
4. Ejecutar la instrucción ls sobre Hadoop para indicar el tamaño del fichero
El tamaño es 425
EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng
4 Master en Business Intelligence y Big Data Paralelismo y Big Data
5. Arrancar pig en modo servidor (ejecutar sólo pig y si se quiere eliminar trazas de log) y ejecutar el siguiente comando: cat /user/bigdata/discos.txt para confirmar que los primeros puntos han funcionado correctamente y el fichero está subido a HDFS
6. Cargar el fichero de hdfs en una variable llamada discos
EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng
5 Master en Business Intelligence y Big Data Paralelismo y Big Data
7. Calcular los discos que estuvieron en los 10 primeros lugares en EEUU o UK
EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng
6 Master en Business Intelligence y Big Data Paralelismo y Big Data
8. Obtener la máxima y mínima posición que ocuparon los discos de Pink Floyd en EEUU y en UKgrunt> c = GROUP discos ALL; grunt> maxkey= FOREACH c GENERATE MAX(discos.eeuu);
Resultado: (999)
Mínima posición que ocuparon los discos de Pink Floyd en EEUUgrunt> c = GROUP discos ALL; grunt> maxkey= FOREACH c GENERATE MIN(discos.eeuu);
Result ado: (1)
Máxima posición que ocuparon los discos de Pink Floyd en UKgrunt> maxkey2= FOREACH c GENERATE MAX(discos.uk);
EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng
7 Master en Business Intelligence y Big Data Paralelismo y Big Data
grunt> dump maxkey2;
EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng