Cloud Wars–what‘sthe smartestdataplatform? · PDF file• Microsoft Certified...

Post on 07-Feb-2018

218 views 1 download

Transcript of Cloud Wars–what‘sthe smartestdataplatform? · PDF file• Microsoft Certified...

Cloud Wars – what‘s thesmartest data platform?

Vergleich Microsoft Azure, Amazon Web Services und Google Cloud Platform

Stefan Kirner PASSCamp, 06.12.2016

2

ReferentSpeaker Bio: Stefan Kirner

• Teamleiter Business Intelligence Solutions bei der inovex GmbH• Mehr als 15 Jahre Erfahrung mit dem Microsoft Business Intelligence Toolset• Microsoft Certified Systems Expert (MCSE) für Business Intelligence • Microsoft Certified Systems Associate (MCSA) für Cloud Platform• Microsoft P-TSP Data Platform• Leitung SQL PASS e.V. Community Karlsruhe• Sprecher auf zahlreichen Konferenzen zu BI und Cloud Themen

3

inovex ist ein IT-Projekthaus mit dem Schwerpunkt „Digitale Transformation“:

Digital Consulting · DatenprodukteWeb · Apps · Smart Devices · BI Big Data · Data Science · SearchReplatforming · Cloud · DevOpsData Center Automation & HostingTrainings · Coachings

Wir nutzen Technologien, um unsere Kunden glücklich zu machen.Und uns selbst.

inovex gibt es in Karlsruhe · Pforzheim · München · Köln · Hamburg

Und natürlich unter www.inovex.de

4NIST

Was ist Cloud Computing?

“Cloud computing is a model forenabling ubiquitous, convenient, on-demand network access to a shared

pool of configurable computing

resources [...] that can be rapidlyprovisioned and released withminimal management effort orservice provider interaction”

5http://cavdar.net/cloud-computing/#/1

Warum Cloud Computing?

Hier im Focus

6Microsoft (Thierry Gasser)

I/P/S-as-a-Service(On-Premises)

Storage

Servers

Networking

O/S

Middleware

Virtualization

Data

Applications

Runtime

You

man

ag

e

Infrastructure(as a Service)

Storage

Servers

Networking

O/S

Middleware

Virtualization

Data

Applications

Runtime

Oth

er M

an

ag

es

You

man

ag

e

Platform(as a Service)

Oth

er M

an

ag

es

You

man

ag

e

Storage

Servers

Networking

O/S

Middleware

Virtualization

Applications

Runtime

Data

Software(as a Service)

Oth

er M

an

ag

es

Storage

Servers

Networking

O/S

Middleware

Virtualization

Applications

Runtime

Data

7Albert Barron (Ibm) https://www.linkedin.com/pulse/20140730172610-9679881-pizza-as-a-service

Analogie der “as a Service“ Schichten

8http://www.adslzone.net/app/uploads/2014/09/cloud.jpg

Welche Public Cloud?

10Amazon Web Services

Public Cloud Anbieter

• Seit 2006• Iaas Marktführer• Dogfood für viele eigene Dienste

(Amazon Store, Video…)• “PaaS like services with the option of

IaaS-like control in some cases” - Dan Sullivan - Tom's IT Pro

Amazon Web Services10Screenshot Console AWS

Public Cloud Anbieter

• Seit 2010• Als PaaS gestartet wurde seit 2013

sukzessive erweitert mit IaaS-Komponenten

• Starke SaaS Komponenten• Dogfood für viele SaaS Dienste

(Skype, XBox etc)

Microsoft Azure

13

Azure Platform Services „Landscape“12https://i-msdn.sec.s-msft.com/dynimg/IC831231.png

http://www.infoworld.com/article/3051017/cloud-computing/the-importance-of-dogfooding-in-the-cloud.html

Public Cloud Anbieter

• Seit 2008– IaaS, PaaS• No “Dogfooding“ – Googles Dienste

basieren nicht auf GCP• Cloud SDK und CLI, Console als

WebFrontend

• Go, Java, Python

Google Cloud Platform

15

Google Cloud Platform14

Storage and Databases Big Data and Analytics Machine Learinig

Compute

Cloud ML

Cloud Speach API

15Forrester- https://d0.awsstatic.com/analyst-reports/The%20Forrester%20Wave%20Enterprise%20Public%20Cloud%20Platforms,%20Q4%202014.pdf

Marktsituation

“The cloud wars between Amazon, Google, and Microsoft are heating up, with the three working tirelessly to attract the large business customers that bring in the big bucks.

From a technological perspective, though,the three cloud platforms are basically equal, and offer a similar sales pitch.”

Business Insider, April 2016

16Forrester- https://d0.awsstatic.com/analyst-reports/The%20Forrester%20Wave%20Enterprise%20Public%20Cloud%20Platforms,%20Q4%202014.pdf

MarktsituationGartner: 2015 Magic Quadrant for Cloud Infrastructure as a Service, Worldwide

17https://www.gartner.com/doc/reprints?id=1-2G45TQU&ct=150519&st=sb

MarktsituationGartner: 2016 Magic Quadrant for Enterprise

Application Platform

as a Service, Worldwide

18Synergy Research Group - https://www.srgresearch.com/

Marktsituation

19Synergy Research Group - https://www.srgresearch.com/

Marktsituation

20http://searchcloudcomputing.techtarget.com/tip/Compare-AWS-vs-Azure-vs-Google-big-data-services

„The cloud market is evolving quickly, with an ever-changing set of big data

services. While this makes cloud

vendor comparisons difficult, it's

worth the attempt, because theofferings from the top three cloud

providers -- Amazon Web Services, Microsoft Azure and Google -- aren't

created equal.“Jim O'Reilly

21

Fazit Marktsituation• Einheitliches Bild zu PaaS eher schwierig• Unterschiedliche Definitionen • Technologien nicht immer vergleichbar/bekannt• Qualitative Vergleiche decken nur spezielle Use

cases ab

Da müssen wir selber ran!

• Web Interface und Bedienung• SDK‘s und Programmiersprachen• Tooling und Integration in

Entwicklungsumgebung• Dokumentation

22

Web Interface & HandhabungVergleich der Cloud Provider Services

23

Web Interface & Handhabung

• Übersichtlich und minimalistisches Web Interface mit Übersicht über Dienste

• Tooling• Plugins für Eclipse und Visual

Studio vorhanden• AWS Command Line Interface• AWS SDK• S3 Browser

(Desktopanwendung)

AWS Management Console

24Azure Portal

Web Interface & Handhabung

• Web Portal mit sehr verschachtelter Kacheloptik

• Altes und neues Portal• Tooling

• Befehlszeilentools über Power Shell• CLI auch für Linux &

Mac • Azure SDK -Mit passendem

Toolkit für Visual Studio• Azure Explorer

Azure Portal

25GCP Console

Web Interface & Handhabung

• Schlichtes Web Interface • Tooling

• gcloud Tool - CLI für GCP Produkte und Services

• Cloud SDK• Wenig IDE Unterstützung

26

DEMO TIME

AWS Portal und S3 Bucket27

Azure Ressourcengruppe und Speicherkonto28

GCP Storage Bucket29

30

Web Interface & Handhabung

Dienst Web Console Azure Portal GCP ConsoleBewertung Portal:☆☆☆

SDK: ☆☆Tooling: ☆☆Dokumentation: ☆CLI: ☆☆☆

Portal:☆☆SDK: ☆☆Tooling: ☆☆Dokumentation: ☆☆☆

CLI: ☆☆

Portal:☆☆SDK: ☆☆Tooling: ☆Dokumentation: ☆☆CLI: ☆☆

Vergleich der Cloud Provider Services

31

Big Data /Analytics Use-Case

Data Presentation

Visualisierung und Dashboard

Analytics and Computation

Aggregation und Analyse

Collection and Storage

Event Broker und Stream Prozessor

Data Generation / Extraction

App, IoT oder Sensordaten

32http://lambda-architecture.net/

Lambda Architecture

1. Weiterleiten der ankommenden Daten zu Speed und Batch Layer

2. Batch-Layer

1. Berechnen der Batch Views2. Rohdaten aufbewahren

3. Serving Layer indexiert die Batch Views

4. Speed-Layer erlaubt Echtzeit Views

5. Querys auf Batch und Echtzeit Views möglich

33https://blogs.technet.microsoft.com/msuspartner/2016/01/27/azure-partner-community-big-data-advanced-analytics-and-lambda-architecture/

Lambda Architektur

Viele Möglichkeiten Lambda Architektur mit Cloud Technologien abzubilden-> Architektur nicht an Dienste gebunden

Lambda Architecture on AzureOptions for each Layer

35

Big Data /Analytics Use-Case

• ≈5000 Wetterstationen in Baden-Württemberg

• Weather Underground API• Temperatur, Niederschlag,

Luftdruck, Windgeschwindigkeit

• Aktualisierung ≈ 5 min

36

Pub/Sub DataflowBig Query Data

Studio 360

KinesisFirehose

S3 Elastic MapReduce

Data Pipeline

Quick Sight

Event Hub

Stream Analytics

Data Factory

PowerBI

Data Generation

Collection and Storage

Analytics and

Computation

Data Presentation

Data LakeStore

Redshift

Data LakeAnalytics

Data LakeStore

Collection

37

• Kontinuierlicher Strom von Daten empfangen und verarbeiten

• Mehrere Publisher/Subscriber• Skalierbar• Hoch Verfügbar• Niedrige Latenzen

• Echtzeit Verarbeitung und Analyse

38

Streaming DiensteVergleich der Cloud Provider Services

39

Pub/Sub, Message Broker - Streaming

Dienst Kinesis Event Hub Pub/Sub

Beschreibu

ng

• Nahe Echtzeit• Zeitbasierter Ereignispuffer

• Datastrom von verschiedenen Prozessen oder Geräten• Vereinfacht das

empfangen und veröffentlichen von Datenströmen in Echtzeit

• Datenaufbewahrung bis 7 Tage

• Azure Event Hubs ist ein hochgradig skalierbarer Dienst für das Veröffentlichen und Abonnieren von Ereignissen

• Publish/Subscribe• Hoch skalierbare

Message Queue mit Push/Pull Delivery

40

Dienste zur Stream Verarbeitung

Dienst Kinesis FirehoseKinesis

Analytics(Beta)Kinesis & Lambda

Stream Analytics Dataflow

Beschreibun

g

• Echtzeitverarbeitung von Streams

• Kinesis mit SQL basierte Anfragen

• Lambda Funktionen um Events zu verarbeiten

• Firehose persistiert Stream nach S3, ES

• SQL basierte Abfragen• Windowing• Echtzeitdashboards

und Warnungen

• Programmierung von Dataflows in Java

• Damit Windowing und quasi jeder Output möglich

41AWS Kinesis

Streaming Dienste

• Kinesis Firehose

• Schreibt Stream in Blöcken auf den S3 Storage, Elasticsearch oder Redshift

• Keine Möglichkeiten der Programmierung

• Kinesis Streams

• Macht es notwendig einen Stream Receiver zu programmieren und diesen zu deployen

• AWS Lambda Funktionen • Kinesis Analytics (Beta)

42

Streaming Dienste

• Leistungsstarkes Modell• Eingabe

• Event Hub, Blob, IoT Hub• Mehrere Eingaben möglich

• Abfrage• SA-QL: SQL Ähnliche Syntax• Window Operationen möglich

• Ausgabe• Blob, SQL, PowerBI ....• Mehrere Ausgaben möglich

Azure Stream Analytics

43Google DataFlow

Streaming Dienste

• Programmiermodell– Batch und Stream

Workload– Pipelineing als DAG– Arbeiten auf

Collections• Google Dataflow als

Runner für das DataflowProgrammiermodell

Google Dataflow

44

Dienste zur Stream Verarbeitung

Dienst Amazon Kinesis Stream Analytics DataflowBewertung Bedienung:☆☆

Lifecycle Management: ☆

Möglichkeiten: ☆☆

+ Simple Bedienung- Für gleiche Funktionalität wie bei Azure coding erforderlich- Firehose eingeschränkte Funktionsumfang- Kinesis Stream benötigt selbst implementierten und deploytenReceiver (z.B: AWS Lambda)

Bedienung:☆☆☆Lifecycle Management: ☆

Möglichkeiten: ☆☆☆

+ Simple Bedienung+ Hohe Funktionalität mit geringem Aufwand+ SQL Syntax für Abfrage- Schlecht zu versionieren oder zu Managen

Bedienung:☆☆Lifecycle Management: ☆☆

Möglichkeiten: ☆☆☆

Programmcode mit allen Vor-und Nachteilen+ Sehr gute Skalierbarkeit und Big Data Fähigkeit- Höherer Einarbeitungsaufwand

45

Kosten Message Broker /Stream Verarbeitung

Dienst Amazon Kinesis Stream Analytics DataflowPreise Shard Stunde 1,7ct

Put Nutzlast pro 1 MioPuts (25KB) 1,65ctVerlängerte Datenaufbewahrung 2ct/h

Beispiel: 2 Events a 35KB pro Sekunde≈13€/Monat

Unit Stunde 3,1ct Nutzlast 0,1ct pro GB

Beispiel: 2 Events a 35KB pro Sekunde≈20€ Stream Analytics/Monat≈9€ Event Hub/Monat

Pub/Sub1 Milion Operationen 40ctHalbiert sich ab 250M Operationen

Batch 1ct GCEU/hStream 1,5ct GCEU/h

46

DEMO TIME

Azure Stream Analytics47

AWS Kinesis48

GCP Pub/Sub49

GCP Dataflow50

Analytics and Computation

51

• Daten auslesen, ggf. transformieren und schreiben (Vergleichbar mit ETL)

• Transformation eher schwieriger• Orchestrierung Dienste

• Zusammenfassen und Orchestrierung von Verarbeitungsschritten

• Neue Quellen und Ziele• Cloud und Hybride Szenarien

• Big-Data Fähigkeit

52

Orchestrierungs Dienste

53

Orchestrierungs Dienste

• Erstellen in AWS Management Console

• Designer und Vorlagen• Properties in Drop-Down

Feldern verwalten• Recht überschaubarer

Funktionsumfang ohne Detailfunktionen

• Deckt typische ETL-Szenarien gut ab

• Keine Entwicklungsumgebung und Code Management

Data Pipeline

54

Orchestrierungs Dienste – Data Pipeline

• Hive in Data Pipeline• Ressource Anlegen• Skript schreiben und

verknüpfen

55

Orchestrierungs Dienste

• Factory Dashboard• Werkzeuge für das

Erstellen der Factory• Zustandsüberwachung• Manuelles Starten von

Vorgängen• Auslastung und

Diagnosen

Data Factory

56

Orchestrierungs Dienste

• Data Factory Projekt• Templates erlauben

schnelles Erstellen einfacher Anwendungsfälle

• Deployment aus Visual Studio oder Factory Dashboard

• JSON-Dokumente ohne Toolunterstützung füllen und verknüpfen• Design by Copy and

Paste

Data Factory

57

Orchestrierungs Dienste

Dienst Data Pipeline Data FactoryBewertung Bedienung:☆☆

Lifecycle Management: ☆Möglichkeiten: ☆☆

+ Selbsterklärender Designer- Keine Code Completion oder Syntax Highlighting oder Validierung - Code kann lediglich über JSON exportiert und versioniert werden (händisch)

Bedienung:☆+Lifecycle Management: ☆☆Möglichkeiten: ☆☆

+ Templates und Visual Studio Unterstützung- Kein Designer sondern zusammenfügen von JSON Dokumenten

SSIS weit voraus

58

DEMO TIME

Azure Data Factory59

AWS Data Pipeline60

Horizontal skalierende analytische Datenspeicher

61

• Parallel verarbeitende Instanzen • Massively Parallel Processing Architecture• Skalierbarkeit

• SQL Querys

62

Horizontal skalierende analytische Datenspeicher

63

Analytische Datenspeicher

• Schnelle Skalierung der Cluster Instanzen über API Aufrufe

• Postgres-Fork nutzt spaltenbasierte Datenbank und massive parallele Verarbeitung

Redshift

64

Analytische Datenspeicher

• Ganz frisch (Dez 16)• SQL Abfragen über semi-

strukturierte Dateien im S3 Store

• Serverless, kein ETL • Basierend auf Presto• Automatische Skalierung

AWS Athena

65

Analytische Datenspeicher

•Verteilter Speicher- und Analysedienst semi-strukturierter Daten•U-SQL – TSQL und C#•Visual Studio Unterstützung•Dynamische Skalierung•Verteilte Hardware und Parallelisierung gänzlich abstrahiert

Data Lake Store & Analytics

66

Analytische Datenspeicher

• Unabhängige Skalierung von Compute- und Speicherressourcen innerhalb von Sekunden

• Vielfältige SQL Server-Funktionalität mit T-SQL Abfragen

• Pausierbar, spart Geld

SQL Data Warehouse

67

Analytische Datenspeicher

•SQL Querys auf Terabyte von Daten •Import/Export Mechanismen•Bezahlung nach Datenmenge der Query•Serverless•Browsertool vorhanden (sonst REST oder CLI) - SDK für .Net, Java, Python, Go

Google Big Query

68

Analytische Datenspeicher

Dienst AWS Redshift Azure Data Lake Big QueryBeschreibun

g

• Postgres Fork• Massiv Parallel

• Store und Analytics• U-SQL als

Mischung von C# und T-SQL

• Serverless• Pay per Query

Preise • $0.25 pro Stunde für dc1.large

• $0.85 pro Stunde für ds2.xlarge

• Analytics Einheit 0,017$/Minute

• Abgeschlossener Auftrag 0,025$

• SQL-DWH: ab 0,70$/h

• $5 pro queryed TB• $0.02 per GB Speicher• $0.01 per 200 MB

Insert

Dienst Amazon Redshift Azure Data Lake Big QueryBewertung Bedienung:☆+

LifecycleManagement: ☆☆Möglichkeiten: ☆☆

- Keine Entwicklungsunterstützung im Web Interface oder Entwicklungsumgebung

Bedienung:☆☆☆LifecycleManagement: ☆☆Möglichkeiten: ☆☆☆

+ Visual Studio Unterstützung+ Strukturierte und Semistrukturierte Daten

Bedienung:☆☆+LifecycleManagement: ☆☆Möglichkeiten: ☆☆

+ Web Tooling

69

Analytische Datenspeicher

70

DEMO TIME

AWS Redshift – und Kinesis als Quelle71

Azure Data Lake Analytics72

GCP Big Query73

Data Presentation

74

• Daten Präsentieren• Umfangreiche Visualisierungen• Dashboards und Reports über Web

• SaaS

• Anbindung an Datenbanken• Real-Time Anbindung

75

Datenvisualisierung

76

Datenvisualisierung

Dienst Amazon Quick Sight

Microsoft Power Bi(bzw. Embedded)

Google Data Studio 360

Beschreibu

ng

• Public Preview• Redshift Anbindung - Kein Streaming- Wenige visuals

(keine Maps!)- Keine Interaktivität

zwischen den Visuals

• GA mit SLAs• Echtzeit BI mit

Stream Analytics möglich

• Anbindung vieler Datenquellen

• Interaktivität

• Public Preview• Big Query

Anbindung• Wenige

Datenquellen • Weniger visuals• Keine Interaktivität

Dienst Amazon Quick Sight

Microsoft Power Bi(bzw. Embedded)

Google Data Studio 360 (beta)

Bewertung Bedienung:☆☆Möglichkeiten: ☆+Visuals:☆Connectivity: ☆☆

Public Preview

Bedienung:☆☆☆Möglichkeiten: ☆☆☆Visuals:☆☆☆Connectivity:☆☆☆

+ On-Prem Entwicklung möglich

Bedienung:☆☆Möglichkeiten: ☆+Visuals:☆☆Connectivity:☆

Public Preview

77

Datenvisualisierung

Alternativ gute Integration von Frontend-Tools wie Tableau, Qlik und Co

78

DEMO TIME

Power Bi – Daten von Stream Analytics79

Google Data Studio80https://datastudio.google.com/#/reporting/0B_U5RNpwhcE6bzVYT2FSNmRBUWc

81

Datenvisualisierung Google Data Studio 360

82

Datenvisualisierung AWS Quicksight

83

Vergleich der Cloud Provider

Amazon Web Services

Microsoft Azure Google Cloud Platform

Stream ☆☆ ☆☆☆ ☆☆

Orchestration ☆☆+ ☆☆ -

MPP ☆☆ ☆☆+ ☆☆+

Datenvisualisieru

ng

☆☆ ☆☆☆ ☆☆

Für diesen Use Case hat Microsoft die Nase vorn

84http://www.tecchannel.de/a/amazon-web-services-versus-microsoft-windows-azure,2071501,3

„Unterm Strich lässt sich sagen, dass Microsoft aufgrund seiner PaaS-Historie technologisch in

diesem Bereich einen deutlichen Vorsprung hat. Amazon AWS

hingegen ist derzeit noch der unumstrittene Innovations- und Marktführer im IaaS-Umfeld.“

René Büst - Senior Analyst und Cloud Practice Lead bei Crisp Research

85

Auch als Artikelserie auf:

blog.inovex.dehttp://bit.ly/2gwpF0R

Regelmäßige Beiträge zu den aktuellsten Technologie-Themen rund um Web, Mobile, Analytics, Data Center & Co.

86

Youtube Mitschnitt vom Meetup:

https://www.youtube.com/watch?v=2NrgPdGSXhE&t=65s

Vielen Dank

Stefan Kirner

inovex GmbHLudwig-Erhard-Allee 676131 Karlsruhe

stefan.kirner@inovex.deb-stkirn@microsoft.com

Solche Projekte und Technologien sind für dich

interessant?

Wir suchen

Cloud Solution Architects

und Werkstudenten für Data Management & Analytics

Und viele andere Jobs auf https://www.inovex.de/de/karriere

/stellenangebote