vpk9kx2mj7cp72

8
1 Master en Business Intelligence y Big Data Paralelismo y Big Data Pregunta 1 1. Partiendo de la discografía de Pink Floyd: Año de publicación, Titulo, EEUU, UK 1967, The Piper at the Gates of Dawn,131,6 1968, A Saucerful of Secrets,999,9 1969, Music from the Film More,153,9 1969, Ummagumma,74,5 1970, Atom Heart Mother,55,1 1972, Obscured by Clouds, 46,6 1973, The Dark Side of the Moon, 1,1 1975, Wish you Were Here, 1,1 1977, Animals, 3,2 1979, The Wall, 1,3 1983, The Final Cut, 6,1 1987, A Momentary Lapse of Reason,3,3 1994, The Division Bell, 1,1 2014, The Endless River, 3, 1 Indicar los comandos empleados para resolver las siguientes preguntas 1. Crear un fichero llamado discos.txt EOI Escuela de Organización Industrial http://www.eoi.es Material de Carlos Martin De los Santos Ng

Transcript of vpk9kx2mj7cp72

1 Master en Business Intelligence y Big Data Paralelismo y Big Data

Pregunta 1 1. Partiendo de la discografía de Pink Floyd:

Año de publicación, Titulo, EEUU, UK

1967, The Piper at the Gates of Dawn,131,61968, A Saucerful of Secrets,999,91969, Music from the Film More,153,91969, Ummagumma,74,51970, Atom Heart Mother,55,11972, Obscured by Clouds, 46,61973, The Dark Side of the Moon, 1,11975, Wish you Were Here, 1,11977, Animals, 3,21979, The Wall, 1,31983, The Final Cut, 6,11987, A Momentary Lapse of Reason,3,31994, The Division Bell, 1,12014, The Endless River, 3, 1

Indicar los comandos empleados para resolver las siguientes preguntas

1. Crear un fichero llamado discos.txt

EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng

2 Master en Business Intelligence y Big Data Paralelismo y Big Data

2. Arrancar HDFS, Yarn y el job historyHDFS

YARN

JOB HISTORY

3. Subir el fichero a HDFS dentro de la carpeta /user/bigdata/discos.txt 

1.

EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng

3 Master en Business Intelligence y Big Data Paralelismo y Big Data

4. Ejecutar la instrucción ls sobre Hadoop para indicar el tamaño del fichero 

El tamaño es 425

EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng

4 Master en Business Intelligence y Big Data Paralelismo y Big Data

5. Arrancar pig en modo servidor (ejecutar sólo pig y si se quiere eliminar trazas de log) y ejecutar el siguiente comando: cat /user/bigdata/discos.txt para confirmar que los primeros puntos han funcionado correctamente y el fichero está subido a HDFS

6. Cargar el fichero de hdfs en una variable llamada discos

EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng

5 Master en Business Intelligence y Big Data Paralelismo y Big Data

7. Calcular los discos que estuvieron en los 10 primeros lugares en EEUU o UK

EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng

6 Master en Business Intelligence y Big Data Paralelismo y Big Data

8. Obtener la máxima y mínima posición que ocuparon los discos de Pink Floyd en EEUU y en UKgrunt> c = GROUP discos ALL; grunt> maxkey= FOREACH c GENERATE MAX(discos.eeuu);

Resultado: (999)

Mínima posición que ocuparon los discos de Pink Floyd en EEUUgrunt> c = GROUP discos ALL; grunt> maxkey= FOREACH c GENERATE MIN(discos.eeuu);

Result ado: (1)

Máxima posición que ocuparon los discos de Pink Floyd en UKgrunt> maxkey2= FOREACH c GENERATE MAX(discos.uk);

EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng

7 Master en Business Intelligence y Big Data Paralelismo y Big Data

grunt> dump maxkey2;

EOI Escuela de Organización Industrial http://www.eoi.esMaterial de Carlos Martin De los Santos Ng