Deployment de Spark al Supercomputador Marenostrum III

24
Deployment de Spark al Supercomputador Marenostrum III Albert Calvo Ibáñez Director Jordi Torres, Codirector: Rubèn Tous Grau en Enginyeria Informàtica - Facultat d'Informàtica de Barcelona Universitat Politècnica de Catalunya - BarcelonaTech Abril 2016

Transcript of Deployment de Spark al Supercomputador Marenostrum III

Page 1: Deployment de Spark al Supercomputador Marenostrum III

Deployment de Spark al Supercomputador Marenostrum III

Albert Calvo Ibáñez

Director Jordi Torres, Codirector: Rubèn TousGrau en Enginyeria Informàtica - Facultat d'Informàtica de Barcelona

Universitat Politècnica de Catalunya - BarcelonaTech

Abril 2016

Page 2: Deployment de Spark al Supercomputador Marenostrum III

2

Índex

1. Context

2. Objectius

3. Planificació temporal

4. Pressupost

5. Desenvolupament

6. Resultats

7. Conclusions

Page 3: Deployment de Spark al Supercomputador Marenostrum III

3

1. Context

● Anàlisi de Dades Massives (Big Data)

– Cada dia es generen una mitjana de

2.5 Quintilions Bytes de informació

● Múltiples aplicacions

– Prendre decisions empresarials

– Detecció de frau

– Anàlisi de dades de dispositius de

baix cost

Page 4: Deployment de Spark al Supercomputador Marenostrum III

4

1. Context

- Framework Big Data

- Realitza les operacions a memòria

Page 5: Deployment de Spark al Supercomputador Marenostrum III

5

1. Context

-Permet treballar en diversos llenguatges: Scala, Python, R, Java

Page 6: Deployment de Spark al Supercomputador Marenostrum III

6

1. Context

- Pila unificada

Page 7: Deployment de Spark al Supercomputador Marenostrum III

7

2. Objectius

- Realitzar proves de rendiment a la plataforma MareNostrum III amb Spark

- Comparar la plataforma MareNostrum III amb altres plataformes

- Crear material didàctic, que serà utilizat en assignatures dels Màsters de la FIB

Page 8: Deployment de Spark al Supercomputador Marenostrum III

8

3. Planificació temporal

Bloc Descripció Metodologia

Bloc 0 Familiarització -

Bloc I Curs de GEP Cascada

Bloc II Desenvolupament del projecte

Scrum

Bloc III Preparació de la defensa Cascada

Bloc 0 01/08 fins 15/09, 2015

Bloc 1 15/09 fins 16/10, 2015

Bloc 2 16/10 fins 22/03, 2015/2016

Bloc 3 28/03 fins 11/04, 2016

Page 9: Deployment de Spark al Supercomputador Marenostrum III

9

4. Pressupost

Tipus de Cost Preu

Costos directes 9.444,71 €

Costos indirectes 34,40 €

Altres costos 25 €

Contingència (3%) 285,12 €

Imprevistos 476,1 €

TOTAL 10.265,33 €

Page 10: Deployment de Spark al Supercomputador Marenostrum III

10

5. Desenvolupament

Plataforma MareNostrum III

Centre de Càlcul DAC

- Aproximadament 50,000 cores- 115,5 TB de memòria

- 16 cores - 27,2 GB de memòria

Page 11: Deployment de Spark al Supercomputador Marenostrum III

11

5. Desenvolupament

Plataforma Bluemix

Plataforma Databricks

- Recursos sota demanda - Plataforma, de moment, inestable

- Academic Cloud Initiative - 12 cores - 18 GB de memòria

Page 12: Deployment de Spark al Supercomputador Marenostrum III

12

5. Desenvolupament

4 cores 4 GB memòria

8 cores 8 GB memòria

16 cores 16 GB memòria

Page 13: Deployment de Spark al Supercomputador Marenostrum III

13

6. Resultats

K-meansAlgoritme de Clustering

Dataset

Exemples Dimensions /Atributs

1M100d 1.000.000 100

10M10d 10.000.000 10

100M1d 100.000.000 1

Page 14: Deployment de Spark al Supercomputador Marenostrum III

14

6. Resultats

Reducció del temps d'execució afegint més recursos

4 8 160

20

40

60

80

100

120

BSC

DAC

#cores

#se

con

ds

Cas 1M100d

K-means, Speedup

Page 15: Deployment de Spark al Supercomputador Marenostrum III

15

6. Resultats

K-means, Speedup

4 8 160

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

BSC

DAC

#cores

#se

con

ds

4 8 160

20

40

60

80

100

120

140

BSC

DAC

#cores

#se

con

ds

Cas 100M1d

Cas 10M10d

Page 16: Deployment de Spark al Supercomputador Marenostrum III

16

6. Resultats

K-means, ScaleupTemps constant en incrementar el dataset i recursos

1x / 4 cores 2x / 8 cores 4x / 16 cores0

50

100

150

200

250

300

350

400

BSC1M100D

BSC 10M10D

DAC 1M100D

DAC 10M10D

#datasize / cores

#se

con

ds

Page 17: Deployment de Spark al Supercomputador Marenostrum III

17

6. Resultats

Naive BayesAlgoritme de classificació

Dataset

Exemples Features / Atributs

1M100f 1.000.000 100

10M10f 10.000.000 10

100M1f 100.000.000 1

Page 18: Deployment de Spark al Supercomputador Marenostrum III

18

6. Resultats

Reducció del temps d'execució afegint més recursos

Cas 1M100f

Naive Bayes, Speedup

4 8 160

5

10

15

20

25

30

BSC

DAC

#cores

#se

con

ds

Page 19: Deployment de Spark al Supercomputador Marenostrum III

19

6. Resultats

Naive Bayes, Speedup

Cas 100M1f

Cas 10M10f

4 8 160

5

10

15

20

25

30

35

BSC

DAC

#cores

#se

con

ds

4 8 160

20

40

60

80

100

120

140

160

BSC

DAC

#cores

#se

con

ds

Page 20: Deployment de Spark al Supercomputador Marenostrum III

20

6. Resultats

Naive Bayes, ScaleupTemps constant en incrementar dataset i recursos

1x / 4 cores 2x / 8 cores 4x / 16 cores0

10

20

30

40

50

60

70

BSC 1ME100F

BSC 10ME10F

DAC 1ME100F

DAC 10ME10F

#datasize/cores

#se

con

ds

Page 21: Deployment de Spark al Supercomputador Marenostrum III

21

6. Resultats

Spark Deployment and Performance Evaluation on the Marenostrum III

Obj. desenvolupar petites execucions amb Spark al Supercomputador.

Utilizada a l'assignatura, Supercomputers Architecture (SA) del màster MIRI.

Page 22: Deployment de Spark al Supercomputador Marenostrum III

22

6. Resultats

Inside Spark

Obj. Executar Spark a la plataforma Databricks

S'utilitzarà a l'assignatura, Cloud Computing(CC) del màster MEI.

Page 23: Deployment de Spark al Supercomputador Marenostrum III

23

7. Conclusions

- Treball de Fi de Grau exploratori

- Objectius proposats assolits

- Material realitzat útil

- La implicació del Director, Codirector i staff del BSC han fet possible aquest projecte

Page 24: Deployment de Spark al Supercomputador Marenostrum III

24

Deployment de Spark al Supercomputador Marenostrum III