Post on 17-May-2020
Cloud Wars – what‘s the smartestdata platform
Vergleich Microsoft Azure, Amazon Web Services und Google Cloud Platform
Stefan Kirner & Thomas Neureuther Karlsruhe, 22.6.2016
• Teamleiter BI Solutions bei der inovex GmbH• Langjährige Erfahrung mit dem Microsoft BI Stack • Data Management Lösungen in der Cloud
2
• inovex Lab für den Research im Cloud Bereich • Spezialist für die Implementierung von data-driven-business
Lösungen • Erfahrungen im Microsoft SQL Server BI Stack.
Stefan KirnerTeamleiter BI Solutions bei der inovex GmbH
Werkstudent bei der inovex GmbH Thomas Neureuther
3NIST
Was ist Cloud Computing?
“Cloudcomputing is amodel forenabling ubiquitous, convenient,on-demand network access to asharedpool of configurable computingresources (e.g.,networks,servers,storage,applications, and services)thatcan be rapidly provisioned and releasedwith minimalmanagement effort orservice provider interaction”
4http://cavdar.net/cloud-computing/#/1
Warum Cloud Computing?
HierimFocus
5Microsoft (Thierry Gasser)
I/P/S-as-a-Service(On-Premises)
Storage
Servers
Networking
O/S
Middleware
Virtualization
Data
Applications
Runtime
Youmanage
Infrastructure(asaService)
Storage
Servers
Networking
O/S
Middleware
Virtualization
Data
Applications
Runtime
OtherM
anages
Youmanage
Platform(asaService)
OtherM
anages
Youmanage
Storage
Servers
Networking
O/S
Middleware
Virtualization
Applications
Runtime
Data
Software(asaService)
OtherM
anages
Storage
Servers
Networking
O/S
Middleware
Virtualization
Applications
Runtime
Data
6Albert Barron (Ibm) https://www.linkedin.com/pulse/20140730172610-9679881-pizza-as-a-service
Analogie der “as a Service“ Schichten
7http://www.adslzone.net/app/uploads/2014/09/cloud.jpg
Welche Public Cloud?
10Amazon Web Services
Public Cloud Anbieter
• Seit 2006• Iaas Marktführer• Dogfood für viele eigene Dienste (Amazon
Store, Video…)• “PaaS like services with the option of IaaS-
like control in some cases” - Dan Sullivan - Tom's IT Pro
Amazon Web Services9Screenshot Console AWS
Public Cloud Anbieter
• Seit 2010• Als PaaS gestartet wurde seit 2013
sukzessive erweitert mit IaaS-Komponenten
• Starke SaaS Komponenten• Dogfood für viele SaaS Dienste (Skype,
XBox etc)
Microsoft Azure
13
Azure Platform Services „Landscape“11https://i-msdn.sec.s-msft.com/dynimg/IC831231.png
http://www.infoworld.com/article/3051017/cloud-computing/the-importance-of-dogfooding-in-the-cloud.html
Public Cloud Anbieter
• Seit 2008– IaaS, PaaS• No “Dogfooding“ – Googles Dienste
basieren nicht auf GCP• CloudSDKundCLI,Console als
WebFrontend• Go, Java, Python
Google Cloud Platform
15
Google Cloud Platform13
Storage and Databases Big Data and Analytics Machine Learinig
Compute
Cloud ML
Cloud SpeachAPI
14Forrester- https://d0.awsstatic.com/analyst-reports/The%20Forrester%20Wave%20Enterprise%20Public%20Cloud%20Platforms,%20Q4%202014.pdf
Marktsituation
“The cloud wars between Amazon, Google, and Microsoft are heating up, with the three working tirelessly to attract the large business customers that bring in the big bucks.
From a technological perspective, though,the three cloud platforms are basically equal, and offer a similar sales pitch.”
Business Insider, April 2016
15Forrester- https://d0.awsstatic.com/analyst-reports/The%20Forrester%20Wave%20Enterprise%20Public%20Cloud%20Platforms,%20Q4%202014.pdf
MarktsituationGartner: 2015 Magic Quadrant for Cloud Infrastructure as a Service, Worldwide
16https://www.gartner.com/doc/reprints?id=1-2G45TQU&ct=150519&st=sb
MarktsituationGartner: 2016 Magic Quadrant for Enterprise Application Platform as a Service, Worldwide
17Synergy Research Group - https://www.srgresearch.com/
Marktsituation
18Synergy Research Group - https://www.srgresearch.com/
Marktsituation
19http://searchcloudcomputing.techtarget.com/tip/Compare-AWS-vs-Azure-vs-Google-big-data-services
„The cloud market is evolving quickly, withan ever-changing set of big data services.
While this makes cloud vendor comparisonsdifficult, it's worth the attempt, because theofferings from the top three cloud providers -- Amazon Web Services, Microsoft Azure and
Google -- aren't created equal.“
Jim O'Reilly
20
Fazit Marktsituation• EinheitlichesBildzuPaaS eherschwierig• UnterschiedlicheDefinitionen• Technologiennichtimmervergleichbar/bekannt• QualitativeVergleichedeckennurspezielleUsecases ab
Damüssenwirselberran!
• Web Interface und Bedienung• SDK‘s und Programmiersprachen• Tooling und Integration in
Entwicklungsumgebung• Dokumentation
21
Web Interface & HandhabungVergleich der Cloud Provider Services
22
Web Interface & Handhabung
• Übersichtlich und minimalistisches Web Interface mit Übersicht über Dienste
• Tooling• Plugins fürEclipse und
VisualStudiovorhanden• AWSCommandLine
Interface• AWSSDK• S3Browser
(Desktopanwendung)
AWS Management Console
23Azure Portal
Web Interface & Handhabung
• Web Portal mit sehr verschachtelter Kacheloptik
• Altes und neues Portal• Tooling
• BefehlszeilentoolsüberPowerShell• CLIauchfürLinux&Mac
• Azure SDK-MitpassendemToolkitfürVisualStudio
• Azure Explorer
Azure Portal
24GCP Console
Web Interface & Handhabung
• Schlichtes Web Interface • Tooling
• gcloud Tool- CLIfürGCPProdukteundServices
• CloudSDK• WenigIDEUnterstützung
25
DEMO TIME
AWS Portal und S3 Bucket26
Azure Ressourcengruppe und Speicherkonto27
GCP Storage Bucket28
29
Web Interface & Handhabung
Dienst WebConsole Azure Portal GCPConsoleBewertung Portal:☆☆☆
SDK:☆☆Tooling:☆☆Dokumentation:☆CLI:☆☆☆
Portal:☆☆SDK:☆☆Tooling:☆☆Dokumentation:☆☆☆CLI:☆☆
Portal:☆☆SDK:☆☆Tooling:☆Dokumentation:☆☆CLI:☆☆
Vergleich der Cloud Provider Services
30
Big Data /Analytics Use-Case
DataPresentation
VisualisierungundDashboard
Analyticsand Computation
AggregationundAnalyse
Collectionand Storage
EventBrokerundStreamProzessor
DataGeneration/Extraction
App, IoT oderSensordaten
31http://lambda-architecture.net/
Lambda Architecture
1. Weiterleiten der ankommenden Daten zu Speed und Batch Layer
2. Batch-Layer 1. BerechnenderBatchViews2. Rohdatenaufbewahren
3. Serving Layer indexiert die Batch Views
4. Speed-Layer erlaubt Echtzeit Views
5. Querys auf Batch und Echtzeit Views möglich
32https://blogs.technet.microsoft.com/msuspartner/2016/01/27/azure-partner-community-big-data-advanced-analytics-and-lambda-architecture/
Lambda Architektur
Viele Möglichkeiten Lambda Architektur mit Cloud Technologien abzubilden-> Architektur nicht an Dienste gebunden
LambdaArchitecture onAzureOptions for each Layer
33
Big Data /Analytics Use-Case
• Startup ULTRA TENDENCY aus Japan
• Sensorwerte erfassen und Strahlenwerte analysieren
• Umsetzung mittels Cloud basierter Analyse in Azure
34
Big Data /Analytics Use-Case
• ≈5000 Wetterstationen in Baden-Württemberg
• Weather Underground API• Temperatur, Niederschlag,
Luftdruck, Windgeschwindigkeit
• Aktualisierung ≈ 5 min
35
Pub/Sub Dataflow BigQuery DataStudio360
KinesisFirehose
S3 Elastic MapReduce
DataPipeline
QuickSight
EventHub
StreamAnalytics
DataFactory
PowerBI
DataGeneration
Collectionand Storage
AnalyticsandComputation
DataPresentation
DataLakeStore
Redshift
DataLakeAnalytics
DataLakeStore
Collection36
• Kontinuierlicher Strom von Daten empfangen und verarbeiten• Mehrere Publisher/Subscriber• Skalierbar• Hoch Verfügbar• Niedrige Latenzen
• Echtzeit Verarbeitung und Analyse
37
Streaming DiensteVergleich der Cloud Provider Services
38
Pub/Sub, Message Broker - Streaming
Dienst Kinesis Event Hub Pub/Sub
Beschreibung • NaheEchtzeit• ZeitbasierterEreignispuffer
• Datastrom vonverschiedenenProzessenoderGeräten
• Vereinfachtdasempfangen undveröffentlichen vonDatenströmeninEchtzeit
• Datenaufbewahrungbis7 Tage
• Azure EventHubsisteinhochgradigskalierbarerDienstfürdasVeröffentlichenundAbonnieren vonEreignissen
• Publish/Subscribe• Hochskalierbare
MessageQueuemitPush/Pull Delivery
39
Dienste zur Stream Verarbeitung
Dienst Kinesis FirehoseKinesis Analytics(Beta)Kinesis &Lambda
Stream Analytics Dataflow
Beschreibung • EchtzeitverarbeitungvonStreams
• Kinesis mit SQLbasierteAnfragen
• LambdaFunktionen umEventszuverarbeiten
• Firehose persistiertStreamnachS3,ES(1.5),Redshift
• SQLbasierteAbfragen• Windowing• Echtzeitdashboardsund
Warnungen
• ProgrammierungvonDataflows inJava
• DamitWindowing undquasijederOutputmöglich
40AWS Kinesis
Streaming Dienste
• Kinesis Firehose• SchreibtStreaminBlöckenauf
denS3Storage,ElasticsearchoderRedshift
• KeineMöglichkeitenderProgrammierung
• Kinesis Streams• Machtesnotwendigeinen
StreamReceiverzuprogrammierenunddiesenzudeployen
• AWSLambdaFunktionen• Kinesis Analytics (Beta)
41
Streaming Dienste
• Leistungsstarkes Modell• Eingabe
• EventHub,Blob,IoT Hub• MehrereEingabenmöglich
• Abfrage• SA-QL:SQLÄhnlicheSyntax• Window Operationenmöglich
• Ausgabe• Blob,SQL,PowerBI ....• MehrereAusgabenmöglich
Azure Stream Analytics
42Google DataFlow
Streaming Dienste
• Programmiermodell– Batch und Stream
Workload– Pipelineing als DAG– Arbeiten auf Collections
• Google Dataflow als Runner für das DataflowProgrammiermodell
Google Dataflow
43
Dienste zur Stream Verarbeitung
Dienst AmazonKinesis StreamAnalytics Dataflow
Bewertung Bedienung:☆☆LifecycleManagement:☆Möglichkeiten:☆☆
+SimpleBedienung- FürgleicheFunktionalitätwiebeiAzure coding erforderlich- Firehose eingeschränkteFunktionsumfang- Kinesis StreambenötigtselbstimplementiertenunddeploytenReceiver(z.B:AWSLambda)
Bedienung:☆☆☆LifecycleManagement:☆Möglichkeiten:☆☆☆
+SimpleBedienung+HoheFunktionalitätmitgeringemAufwand+SQLSyntaxfürAbfrage- Schlechtzuversionieren oderzuManagen
Bedienung:☆☆LifecycleManagement:☆☆Möglichkeiten:☆☆☆
ProgrammcodemitallenVor- undNachteilen+SehrguteSkalierbarkeitundBigDataFähigkeit- HöhererEinarbeitungsaufwand
44
Kosten Message Broker /Stream Verarbeitung
Dienst AmazonKinesis StreamAnalytics Dataflow
Preise Shard Stunde1,7ctPut Nutzlastpro1MioPuts (25KB)1,65ctVerlängerteDatenaufbewahrung2ct/h
Beispiel:2Eventsa35KBproSekunde≈13€/Monat
UnitStunde 3,1ctNutzlast0,1ctproGB
Beispiel:2Eventsa35KBproSekunde≈20€ StreamAnalytics/Monat≈9€ EventHub/Monat
Pub/Sub1MilionOperationen40ctHalbiertsichab 250MOperationen
Batch1ctGCEU/hStream1,5ctGCEU/h
45
DEMO TIME
Azure Stream Analytics46
AWS Kinesis47
GCP Pub/Sub48
GCP Dataflow49
Analytics and Computation50
• Daten auslesen, ggf. transformieren und schreiben (Vergleichbar mit ETL)
• Transformation eher schwieriger• Orchestrierung Dienste
• Zusammenfassen und Orchestrierung von Verarbeitungsschritten
• Neue Quellen und Ziele• Cloud und Hybride Szenarien
• Big-Data Fähigkeit
51
Orchestrierungs Dienste
52
Orchestrierungs Dienste
• Erstellen in AWS Management Console
• DesignerundVorlagen• PropertiesinDrop-Down
Feldernverwalten• Rechtüberschaubarer
FunktionsumfangohneDetailfunktionen
• DeckttypischeETL-Szenariengutab
• KeineEntwicklungsumgebungundCodeManagement
Data Pipeline
53
Orchestrierungs Dienste – Data Pipeline
• Hive in Data Pipeline• RessourceAnlegen• Skriptschreibenund
verknüpfen
54
Orchestrierungs Dienste
• Factory Dashboard• WerkzeugefürdasErstellen
derFactory• Zustandsüberwachung• ManuellesStartenvon
Vorgängen• AuslastungundDiagnosen
Data Factory
55
Orchestrierungs Dienste
• Data Factory Projekt• Templateserlauben
schnellesErstelleneinfacherAnwendungsfälle
• Deployment ausVisualStudiooderFactoryDashboard
• JSON-DokumenteohneToolunterstützungfüllenundverknüpfen• Designby Copy and Paste
Data Factory
56
Orchestrierungs Dienste
Dienst DataPipeline DataFactoryBewertung Bedienung:☆☆
LifecycleManagement:☆Möglichkeiten:☆☆
+SelbsterklärenderDesigner- KeineCodeCompletion oderSyntaxHighlightingoderValidierung- Code kannlediglichüberJSONexportiertund versioniert werden(händisch)
Bedienung:☆+LifecycleManagement:☆☆Möglichkeiten:☆☆
+TemplatesundVisualStudioUnterstützung- KeinDesignersondernzusammenfügenvonJSONDokumenten
SSISweitvoraus
57
DEMO TIME
Azure Data Factory58
AWS Data Pipeline59
Horizontal skalierende analytische Datenspeicher60
• ParallelverarbeitendeInstanzen• Massively ParallelProcessingArchitecture• Skalierbarkeit
• SQLQuerys
61
Horizontal skalierende analytische Datenspeicher
62
Analytische Datenspeicher
• Schnelle Skalierung der Cluster Instanzen über API Aufrufe
• Postgres-Fork nutzt spaltenbasierte Datenbank und massive parallele Verarbeitung
Redshift
63
Analytische Datenspeicher
•Data Lake (Beta) – Store & Analytics
– VerteilterSpeicher- undAnalysedienstgroßerDaten
– U-SQL– TSQLundC#– VisualStudioUnterstützung– DynamischeSkalierung– VerteilteHardwareund
Parallelisierunggänzlichabstrahiert
Data Factory - Data Lake Analytics (Beta)
64
Analytische Datenspeicher
• Unabhängige Skalierung von Compute- und Speicherressourcen innerhalb von Sekunden
• Vielfältige SQL Server-Funktionalität mit T-SQL Abfragen
SQL Data Warehouse (Beta)
65
Analytische Datenspeicher
•SQL Querys auf Terabyte von Daten •Import/Export Mechanismen•Bezahlung nach Datenmenge der Query•Keine Server•Browsertool vorhanden (sonst REST oder CLI) - SDK für .Net, Java, Python, Go
Google Big Query
66
Analytische Datenspeicher
Dienst AWSRedshift Azure DataLake BigQuery
Beschreibung • Postgres Fork• MassivParallel
• StoreundAnalytics• U-SQLalsMischung
vonC#und T-SQL
• Serverless• PayperQuery
Preise • $0.25proStundefürdc1.large
• $0.85proStundefürds2.xlarge
• AnalyticsEinheit0,017$/Minute
• Abgeschlossener Auftrag0,025$
SQL-DWH:ab0,70$/h
• $5proqueryed TB• $0.02perGBSpeicher• $0.01per200MBInsert
Dienst AmazonRedshift Azure DataLake BigQuery
Bewertung Bedienung:☆+LifecycleManagement:☆☆Möglichkeiten:☆☆
- KeineEntwicklungsunterstützungimWebInterfaceoderEntwicklungsumgebung
Bedienung:☆☆☆LifecycleManagement:☆☆Möglichkeiten:☆☆☆
+VisualStudioUnterstützung+StrukturierteundSemistrukturierteDaten
Bedienung:☆☆+LifecycleManagement:☆☆Möglichkeiten:☆☆
+WebTooling
67
Analytische Datenspeicher
68
DEMO TIME
AWS Redshift – und Kinesis als Quelle69
Azure Data Lake Analytics70
GCP Big Query71
Data Presentation72
• Daten Präsentieren• Umfangreiche Visualisierungen• Dashboards und Reports über Web
• SaaS
• Anbindung an Datenbanken• Real-Time Anbindung
73
Datenvisualisierung
74
Datenvisualisierung
Dienst AmazonQuickSight MicrosoftPowerBi(keinTeil vonAzure abergutintegrierbar)
GoogleDataStudio360(beta)
Beschreibung • Beta(nurfürausgewählteKunden)
• EchtzeitBImitStreamAnalyticsmöglich
• AnbindunganDatenbankenundandereDatenspeicher
• Beta(nurfürausgewählteKunden)
• Alternativ guteIntegrationvonBIToolswieTableau,Qlik undeinigenanderen
Dienst AmazonQuickSight MicrosoftPowerBi(keinTeil vonAzure abergutintegrierbar)
GoogleDataStudio360(beta)
Bewertung Bedienung:☆+Möglichkeiten:☆+
- Closed Beta
Bedienung:☆☆☆Möglichkeiten:☆☆☆
+VieleDatenquellen+On-PremEntwicklungmöglich
Bedienung:☆+Möglichkeiten:☆+
- Beta
75
Datenvisualisierung
76
DEMO TIME
Power Bi – Daten von Stream Analytics77
Google Data Studio78�https://datastudio.google.com/#/reporting/0B_U5RNpwhcE6bzVYT2FSNmRBUWc
79http://www.tecchannel.de/a/amazon-web-services-versus-microsoft-windows-azure,2071501,3
„Unterm Strich lässt sich sagen, dass Microsoft aufgrund seiner PaaS-Historie technologisch in diesem
Bereich einen deutlichen Vorsprung hat. Amazon AWS hingegen ist derzeit
noch der unumstrittene Innovations-und Marktführer im IaaS-Umfeld.“
René Büst - Senior Analyst und Cloud Practice Lead bei Crisp Research
80
Vergleich der Cloud Provider
AmazonWeb Services MicrosoftAzure GoogleCloud Platform
Stream ☆☆ ☆☆☆ ☆☆
Orchestration ☆☆+ ☆☆ -
MPP ☆☆ ☆☆+ ☆☆+
Datenvisualisierung ☆+ ☆☆☆ ☆+
Für diesen Use Case hat Microsoft die Nase vorn
81
Demnächst auch als Artikelserie auf:
blog.inovex.deRegelmäßige Beiträge zu den aktuellsten Technologie-
Themen rund um Web, Mobile, Analytics, Data Center & Co.
Vielen Dank
Stefan Kirner &Thomas Neureuther
inovex GmbHLudwig-Erhard-Allee 676131 Karlsruhe
stefan.kirner@inovex.detneureuther@inovex.de
SolcheProjekteundTechnologiensindfürdich
interessant?
Wirsuchen
CloudSolutionArchitects
undWerkstudentenfürDataManagement&Analytics
UndvieleandereJobsaufhttps://www.inovex.de/de/karriere
/stellenangebote