Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar...

34
Schnelle Anfrageverarbeitung im Big Data Umfeld Alexander Ponomarenko HAW Hamburg, Master Informatik Hauptseminar Wintersemester 2016 20.12.2016

Transcript of Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar...

Page 1: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

SchnelleAnfrageverarbeitungimBigDataUmfeld

AlexanderPonomarenkoHAWHamburg,MasterInformatikHauptseminarWintersemester2016

20.12.2016

Page 2: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Agenda

• Motivation• BigDataundNoSQL• ApproximativeAnfrageverarbeitung• BlinkDB• SnappyData• Ziele• Risiken

20.12.2016 2

Page 3: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Motivation[2]

• Datenmengennehmenzu– 2012:2,8Zettabyte– 2020:40Zettabyte

• GroßeDatenmengen:Auswertungdauertlange

20.12.2016 3

1000 Kilobyte1000^2 Megabyte1000^3 Gigabyte1000^4 Terabyte1000^5 Petabyte1000^6 Exabyte1000^7 Zettabyte

Page 4: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

20.12.2016 4[1]

Page 5: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Motivation[3]

• 7,5TerabyteDaten• Durchschnittswertberechnen

• Verteiltauf100AmazonEC2• Hive/Hadoop

20.12.2016 5

0.5h

1.5h

Page 6: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Motivation

• Auswertungdauertzulangeà Ergebnismöglicherweisenutzlos

• WowerdenschnelleAntwortenbenötigt?– Preisvergleiche– KurzfristigerHandelmitWertpapieren– SozialeNetzwerke– ...

20.12.2016 6

Page 7: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

BigData[4,5]

20.12.2016 7

ProMinute:Facebook– 2,5MillionenInhalte

Twitter– 600.000TweetsInstagram– 220.000FotosEmail– über200Millionen

ProMinute:Google– über2MillionenSuchabfragen

Amazon– 80.000$UmsatzYouTube– 72StundenVideomaterial

Datensindunterschiedlichundnichtstrukturiert

RelationaleDBdafürnichtausgelegt

Page 8: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

NoSQL[6,7]

• NichtrelationaleDaten-Modelle• UnnötigeSQL-Features• SehrgroßeDatenmengen• VerteilteDB-Systeme:SchnellesLesenundSchreiben

• HochverfügbarkeitwichtigeralsKonsistenz

20.12.2016 8

Page 9: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Nochschneller??

20.12.2016 9[B1]

Page 10: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

HardDisks

½- 1Stunde 1- 5Minuten 1Sekunde

?Memory

Anfrageverarbeitung aufSamples

100TBauf1000Knoten[9]

20.12.2016 10

Page 11: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

AnfrageverarbeitungaufSamples[10,11]

• Sample:„Stichprobe“/„Beispiel“/„Muster“à AlsoeinTeilderoriginalenDaten

• NureinTeilderDatenwirdausgewertet• Dadurchschneller• Sampleswerdenvorberechnet• Antwortistungenau• AberderFehlerderAntwortistbekannt

20.12.2016 11

Page 12: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Samples[11]

20.12.2016 12

WasistdasDurchschnittsgehaltallerEinträgeinderTabelle?

80.848,17€

ID Stadt Gehalt1 Hamburg 50.000€2 Berlin 62.492€3 Hamburg 78.212€4 Hamburg 120.242€5 Berlin 98.341€6 Hamburg 75.453€7 Hamburg 60.000€8 Berlin 72.492€9 Berlin 88.212€10 Hamburg 92.242€11 Berlin 70.000€12 Hamburg 102.492€

Page 13: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Samples[11]

20.12.2016 13

WasistdasDurchschnittsgehaltallerEinträgeinderTabelle?

80.848,17€73.611,00€+/- 7.237,17€

Sample

ID Stadt Gehalt1 Hamburg 50.000€2 Berlin 62.492€3 Hamburg 78.212€4 Hamburg 120.242€5 Berlin 98.341€6 Hamburg 75.453€7 Hamburg 60.000€8 Berlin 72.492€9 Berlin 88.212€10 Hamburg 92.242€11 Berlin 70.000€12 Hamburg 102.492€

80.848,17€

ID Stadt Gehalt Rate1 Hamburg 50.000,€ 1/45 Berlin 98.341,€ 1/48 Berlin 72.492,€ 1/4

Page 14: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Samples[11]

20.12.2016 14

WasistdasDurchschnittsgehaltallerEinträgeinderTabelle?

80.848,17€73.611,00€+/- 7.237,17€81.804,17€+/- 956,00€

Sample

ID Stadt Gehalt1 Hamburg 50.000€2 Berlin 62.492€3 Hamburg 78.212€4 Hamburg 120.242€5 Berlin 98.341€6 Hamburg 75.453€7 Hamburg 60.000€8 Berlin 72.492€9 Berlin 88.212€10 Hamburg 92.242€11 Berlin 70.000€12 Hamburg 102.492€

80.848,17€73.611,00€+/- 7.237,17€

ID Stadt Gehalt Rate1 Hamburg 50.000,€ 1/24 Hamburg 120.242,€ 1/25 Berlin 98.341,€ 1/27 Hamburg 60.000,€ 1/210 Hamburg 92.242,€ 1/211 Berlin 70.000,€ 1/2

Page 15: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Geschwindigkeit/Genauigkeit [9]

20.12.2016 15

Fehler

30Min

AusführungszeitaufgesamterDatenbasis

InteractiveQueries

2 SekAusführungszeit (Sample-Größe)

Page 16: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Geschwindigkeit/Genauigkeit [9]

20.12.2016 16

Fehler

30Min

AusführungszeitaufgesamterDatenbasis

InteractiveQueries

2 Sek

BereitsExistierender

Fehler

Ausführungszeit (Sample-Größe)

Page 17: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Sampling/keinSampling[9]

20.12.2016 17

0100200300400500600700800900

1000

1 10-1 10-2 10-3 10-4 10-5

Teilmengen dergesamten Datenbasis

Antw

ortzeitd

erAbfrage

(Sekun

den)

103

1020

18 13 10 8

(0.02%)(0.07%) (1.1%) (3.4%) (11%)

Fehler

Page 18: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Uniform/Stratified Samples[10,11]

20.12.2016 18

WasistdasDurchschnittsgehaltallerEinträgeinderTabelle?

UniformSample

ID Stadt Gehalt1 Hamburg 50.000€2 Berlin 62.492€3 Hamburg 78.212€4 Hamburg 120.242€5 Berlin 98.341€6 Hamburg 75.453€7 Hamburg 60.000€8 Berlin 72.492€9 Berlin 88.212€10 Hamburg 92.242€11 Berlin 70.000€12 Hamburg 102.492€

ID Stadt Gehalt Gewicht1 Hamburg 50.000,€ 1/65 Berlin 98.341,€ 1/6

ID Stadt Gehalt Gewicht1 Hamburg 50.000,€ 1/75 Berlin 98.341,€ 1/5

StratifiedSample

Page 19: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

BlinkDB[12]

• MassivparallelesFrameworkfürapproximativeAnfrageverarbeitungaufgroßenDatenmengen

• AntwortenineinersehrkurzenZeit• AntwortenmiteinergarantiertenFehlerquote• SkalierbaresSystem,dasfürPetabytevonDatenausgelegtist

20.12.2016 19

[B2]

Page 20: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

BlinkDB:Anfragen[10]

SELECTCOUNT(*)FROMSessionsWHEREGenre=’western’GROUPBYOSERROR0.1CONFIDENCE95%

SELECTCOUNT(*),ERRORAT95%CONFIDENCEFROMSessionsWHEREGenre=’western’GROUPBYOSWITHIN5SECONDS

20.12.2016 20

Page 21: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

SampleManagement[13]

• ZukünftigeAnfragensind„ähnlich“• Aberwasist„ähnlich“?• VerschiedeneModelle:– VorhersagbareAnfragen• Werte inWHERE,GROUPBY,HAVINGidentisch

– Vorhersagbare Anfrage-Prädikate• Häufigkeit vonWHERE,GROUPBY,HAVINGbleibt gleich

–MengenderSpaltenändernsichnicht• KeineAnnahmeüberWHERE,GROUPBY,HAVING

20.12.2016 21

Page 22: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

BlinkDB:SampleManagement[13]

• MengenderSpaltenändernsichnichtà „QueryColumn Set“(QCS)

• InrealenUmgebungenkommendieselbenQCSssehrhäufigvor– Beispieldaten:Facebook+Conviva

20.12.2016 22

Page 23: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

BlinkDB:BeispielfürQCSs[13]

20.12.2016 23

Page 24: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

BlinkDB:Ausführungsgeschwindigkeit[3]

20.12.2016 24

Page 25: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

BlinkDB:Aktueller Stand[19]

• Letzter Commit2014• Projekt steht still

à Gibt es etwas Aktuelleres?

20.12.2016 25

Page 26: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Anforderungen anBig-Data-Umgebungen[18]

• Kontinuierliches Stream-Processing• Sehr schreibintensive Workloads(OLTP)• Interaktive SQL-Analysen (OLAP)

20.12.2016 26

[B3]

à Lambda-Architektur

Page 27: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Vorhandene Lösungen[18]

• Hohe Komplexität• Niedrige Performance• Verschwendete Ressourcen• Interaktive Analysen ungenügend

à Verbesserungen möglich?

20.12.2016 27[B4]

Page 28: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

SnappyData[14,15,16]

20.12.2016 28

SingleUnifiedClusterOLTP+OLAP+Streaming

BatchDesignHoher Durchsatz

RealTimeDesignNiedrige LatenzHochverfügbarkeitConcurrency

ApproximateQueryProcessing

Page 29: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

SnappyData:Ziele[18]

• Schnelle interaktive Analysen• Geringe Investitionen inCluster-Infrastruktur• Geringere Komplexität(im Vergleich zur Lambda-Architektur)

• Einschränkungen:– Terabytes,nicht Petabytes– Keine UseCases,dieeine sehr geringe Latenzbenötigen (Bsp:Wertpapierhandel)

20.12.2016 29

Page 30: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Meine Ziele (1)

• ExperimentierplattformmitSnappyDataaufHAW-Clusterrealisieren(à geradedabei)

• ExperimentierplattformmitSnappyDatabeieinemCloud-Anbieter(AWS?)realisieren

• Performance-Analysendurchführen(TPCBenchmarks)

20.12.2016 30

Page 31: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Meine Ziele (2)

• GibteseineGrenze,abdersichdieapproximativeAnfrageverarbeitunglohnt?– AbwelcherDatenmenge?– BeiwelchenAnwendungsfällen?– BeiwelchenAbfragearten?

• Lässt sich dieQualität derGenauigkeitverbessern?

20.12.2016 31

Page 32: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Risiken

• Probleme bei derInstallation(HAW-Cluster+Cloud-Anbieter)

• Kosten derCloud-Anbieter• Keien Grenze definierbar,abdersich AQPlohnt

• Hürde:Statistische Modelle

20.12.2016 32

Page 33: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Fragen?

20.12.2016 33

Page 34: Schnelle Anfrageverarbeitung im Big Data Umfeldubicomp/projekte/master2… · Hauptseminar Wintersemester 2016 20.12.2016. Agenda •Motivation •Big Data und NoSQL •Approximative

Literatur1. U.S.Government’s DataExplosion (Infographic),https://whatsthebigdata.com/2014/09/15/u-s-governments-data-explosion-infographic/,letzterZugriff:12.12.20162. 2.800.000.000.000.000.000.000Byte:DasdigitaleUniversumschwilltan.http://www.spiegel.de/netzwelt/web/das-internet-der-dinge-erzeugt-2-8-zettabyte-daten-a-872280.html,

letzterZugriff:18.12.20163. Mozafari,B.BlinkDB:AMassively ParallelQueryEnginefor BigData,2013.http://istc-bigdata.org/index.php/blinkdb-a-massively-parallel-query-engine-for-big-data/,letzterZugriff:

18.12.20164. DominikKlein,Phuoc Tran-Gia,M.H.Bigdata,2013.http://www.gi.de/service/informatiklexikon/detailansicht/article/big-data.html,letzterZugriff:18.12.2016.5. TheDataExplosionin2014MinutebyMinute– Infographic,2014.http://aci.info/2014/07/12/the-data-explosion-in-2014-minute-by-minute-infographic/,letzterZugriff:18.12.20166. Hecht,R.,andJablonski,S.NoSQLevaluation:Ausecaseorientedsurvey.Proceedings- 2011InternationalConferenceonCloudandServiceComputing,CSC2011(2011),336–341.7. Pritchett,D.Base:anAcid Alternative.Queue6,3(2008),48–55.8. Dean,J.,andGhemawat,S.Mapreduce:simplifieddataprocessingonlargeclusters.Commun.ACM51,1(2008),107–113.9. Agarwal,S.Blinkdb:ApproximateQueriesonVeryLargeData,2013.https://spark-summit.org/wp-content/uploads/2013/10/BlinkDB-SparkSummit-v3.pptx,letzterZugriff:

18.12.2016.10. Agarwal,S.,Mozafari,B.,Panda,A.,Milner,H.,Madden,S.,andStoica,I.BlinkDB:querieswithboundederrorsandboundedresponsetimesonverylargedata.Proceedingsofthe

8thACMEuropeanConferenceonComputerSystems- EuroSys ’13(2013),29.11. Agarwal,S.Blinkdb:Qureying petabytes of data inseconds using sampling,2014.http://de.slideshare.net/Hadoop_Summit/t-1205p212agarwalv2,letzterZugriff:18.12.2016.12. Agarwal,S.,Iyer,A.P.,Panda,A.,Madden,S.,Mozafari,B.,and Stoica,I.Blinkand it’s done:interactive queries onvery largedata.Proceedings of the VLDBEndowment 5,12(2012),

1902–1905.13. Upreti,N.IntroductiontoBlinkDB :QuerieswithBoundedErrorsandBoundedResponseTimesonVeryLargeData,2014.http://de.slideshare.net/nitishupreti/blinkdb,letzterZugriff:

18.12.201614. http://www.snappydata.io/product,letzterZugriff:12.12.201615. https://pivotal.io/big-data/pivotal-gemfire,letzterZugriff:12.12.201616. https://spark.apache.org,letzterZugriff:12.12.201617. http://www.slideshare.net/sawjd/explore-big-data-at-speed-of-thought-with-spark-20-and-snappydata,letzterZugriff:12.12.201618. Mozafari,Jags Ramnarayan1Barzan and Menon,Sumedh Wale1Sudhir and Chakraborty,Neeraj Kumar1Hemant Bhanawat1Soubhik and Bachhav,Yogesh Mahajan1Rishitesh

Mishra1Kishor,SnappyData:Streaming,Transactions,and InteractiveAnalyticsinaUnifiedEngine,http://www.snappydata.io/snappy-industrial,letzterZugriff:18.12.201619. https://github.com/sameeragarwal/blinkdb,letzterZugriff:17.12.2016

BilderB1:http://www.amusingtime.com/images/017/funny-running-dog-picture.jpg,letzterZugriff:12.12.2016B2:http://blinkdb.org/figures/blinkdb-logo-withaffiliations.png,letzterZugriff:12.12.2016B3:http://lambda-architecture.net/img/la-overview_small.png,letzterZugriff:19.12.2016B4:http://nonbinaryreview.com/wp-content/uploads/doc_0.jpg,letzterZugriff:19.12.2016

20.12.2016 34