ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon...

27
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved. SUMMIT Amazon Redshift Les nouveautés et bonnes pratiques ft. Euronext Amadou Merico Solutions Architect Amazon Web Services ANT202 Philippe Planchon Architect Director Euronext

Transcript of ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon...

Page 1: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Amazon RedshiftLes nouveautés et bonnes pratiquesft. Euronext

Amadou Merico Solutions ArchitectAmazon Web Services

A N T 2 0 2

Philippe PlanchonArchitect DirectorEuronext

Page 2: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Amazon Redshift – Entrepôt de données moderneRapide, élastique et entièrement managé

Interrogation massivement parallèle de gigaoctets à l'exaoctet de données

Etendez les requêtes au Data lake S3

Performance

Stockage orienté colonnespour optimiser les

performances des requêtes

Format ouvert

Interrogation des donnéesstockées dans Redshift ou

dans Amazon S3 au format CSV, Json, Parquet…

Economie

Tarif à partir de $0.25 par heure sans engagement ni

frais initiaux

$

Sécurité

Tracabilité complète; chiffrement de bout en bout;

Page 3: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Alimente le plus grand nombre de

déploiementsd’entrepôts de

données dans le cloud

Amazon Redshift

Page 4: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

EURONEXT DATAWAREHOUSE MIGRATION TO REDSHIFT

2 Avril 2019

Page 5: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

│ 5

Marché régulé Euronext

EURONEXT LA BOURSE PAN-EUROPÉENNE

POINT D’ACCÈS AUX 6 MARCHÉS EUROPÉENS

Euronext sales offices

Centre technologique

Sales offices à Hong Kong, New York et Singapoure

MODÈLE FÉDÉRAL

CARNET D’ORDRE UNIQUE

UN SEUL FLUX DE DONNÉES

UN SEUL COLLEGE DES RÉGULATEURS

UN RULE BOOK HARMONISÉ

DUBLIN

LONDON

PARIS

BRUSSELS

AMSTERDAM

FRANKFURT

MUNICHZURICH

MILAN

MADRID

LISBON

PORTO

Page 6: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

│ 6

EURONEXT: LES CHIFFRES CLES

6Marchés locaux, un

seul college de régulateurs

1,300Companies listées

(€3.4 trillion en market cap)

1Un carnet d’ordres

unique

€1,000 bn Levés sur nos

marchés en 2018

+400indices

AEX® CAC 40® BEL 20® PSI 20® ISEQ 20®

128,000+ Produits listés

Cash ADV:€8,109 MILLION

Derivatives ADV:585,310 contrats

en 2018

225Membres actifs

3,5 billionMessages a day

100%Disponibilité des

marchés Euronext

52μs Roundtrip moyenpour nos clients

19 μs Roundtrip minimal

Page 7: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

│ 7

NOTRE STRATÉGIE DE DONNÉES ET LE LANCEMENT DU CLOUD

La donnée est au cœur de l’activité d’Euronext Reporting vers les régulateurs Business intelligence Facturation Revenus liés a la vente de donnée

Notre solution actuelle a atteint ses limites Obsolescence technologique Fonctionnalités de BI limitées Cout d’opération

Euronext a lancé en 2017 son plan de “Data Strategy” afin de construire une

nouvelle plateforme de données

La Data Strategy a initié la migration dans le cloud

Cette migration est également un facteur d’accélération de la stratégie technologique d’ Euronext

AWS a été sélectionné parmi d’autres propositions pour sa flexibilité, un écosystème riche et mature et un chiffrage transparent

Une feuille de route a été mise en place allant de la mise en place de la « landing zone » à l’élaboration de projets autour de l’IA.

En 2019 l’étape majeure est la migration du Datawarehouse qui met en place les fondements des projets à venir.

Page 8: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

│ 8

OPTIQ

TradingEngines

OPTIQ

TradingEngines

FileTransfer

EURONEXT DATA WAREHOUSE ON AWS REDSHIFT – CURRENT STATUS

S3

KAFKA [IA]

ProduceFIX Binary Messages

LegacyAPPS

IACA Cloud

Kafka ConnectEngine

IDS

RedshiftTalend Jobs

Step functions•Orders•Quotes•Market Limit•Trades•Reference Data

1. Sanitization2. Avro Transcoding

3. Parquet Transcoding

OPTIQ

TradingEngines

OPTIQ

TradingEngines

OPTIQ

TradingEngines

OPTIQ

TradingEngines

•Reporting•Billing•Surveillance•Monitoring

1,5 billionsRows inserted

per day

200 billionsLargest table in

Redshift

3 NodesRedshift cluster on 3 ds2.8xlarge

Page 9: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

│ 9

CONTRAINTES ET OBJECTIFS

LESSONS LEARNED

PerformanceL’organisation de la donnée est primordial pour les performance de Redshift, distribution and sort keys

PerformanceNos tests avec Spectrum se sontheurtés a une faible performances de chargement

Cost

Utiliser des reserved instances pour Redshift donne un bon compromisperformance / costs (vs Spectrum) en particulier grace a “Elastic resize”

Scalability Redshift scalable par design pour le stockage et compute

1- PERFORMANCE

3- COST

2- AGILITY

4- RELIABILITY

Un large nombre de données à gérer

Des process ETL en respect avec les SLA internes et ceux des régulateurs

Facilité d’adaptation des modèles et des capacités de stockage

Assurer des coûts raisonnables et controllables

Des obligations de reprise régulées

Des obligations de maintien de service journalier auprès des régulateurs

43

1 2

Page 10: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

│ 10

OPTIQ

TradingEngines

OPTIQ

TradingEngines

FileTransfer

EURONEXT DATA STRATEGY NEXT STEPS

S3

KAFKA [IA]

Kafka

ProduceFIX Binary Messages

LegacyAPPS

3rd party Data

IACA Cloud

Kafka ConnectEngine

IDS

Redshift

EMR

Real-Time Processing

Real Time Consumer

Real Time Consumer

Talend JobsStep functions

•Orders•Trades•Ref Data

1. Sanitization2. Avro Transcoding

3. Parquet Transcoding

ProduceAVRO Messages

Consume AVRO Messages

OPTIQ

TradingEngines

OPTIQ

TradingEngines

OPTIQ

TradingEngines

OPTIQ

TradingEngines

Data Shop

Advanced Analytics

Page 11: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Découvrons ensemble les nouvelles fonctionnalitésd’Amazon Redshift…

Page 12: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

features and enhancements released*

Beaucoup d’améliorations et d’innovations

Automatically enabled short query acceleration

Support for lateral column alias reference

New Quick Starts

New CloudWatch metrics

Customized Recommendations with AdvisorCurrent and trailing tracks for release update

Federated authentication with single sign-on

Improved performancefor commits

COPY from Parquet and ORC file formats

Additional Spectrum regions

Support for Scalar JSON and Ion data types

Late materialization for faster query processing

Support for DATE data type with Spectrum

Short Query Acceleration

Utilization reports

Machine learning integration to accelerate dashboards and interactive analysis

Improved resource management for memory-intensive queries

Faster string manipulation

Support for Parquet and ORC in Kinesis Data Firehose

Improved workload management console experience

Query Editor

Support for late-binding views

SQL Scalar user-defined functions

Integration with AWS Glue

Support for Nested Data with Spectrum

Spectrum support for DATE data type

Improved performance for UNION ALL queries

Free upgrade from DC1 to DC2 RIs

Query monitoring rules (QMR)

Support for Zstandard high compression encoding

Query processing improvements

Support for Python UDF logging module

Enhanced VPC routing

Automatically hopping queries without restarts

Support for uppercase column names

Result Caching for Repeat Queries

Support for LISTAGG DISTINCT

Support for ORC and Grok file formats

Integration with QuickSight

DMS support with Redshift

3.5x Improved Throughput

Improved performance for repeat queries

Un apercu de ce qui a été fait*…

*Depuis re:Invent 2017

Page 13: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Compiled code cache

Support for lateral column alias reference

Resource management for memory-intensive queries

Late materialization

Result caching

Joins involving large numbers of NULL values in a join key column

Queries with intermediate subquery results that can be distributed

Cluster resize operations

Queries that refer to stable functions with constant expressions

Short query acceleration

Queries operating over CHAR and VARCHAR columns

Single-row inserts

Performance accrue

Expressions on the partition columns of external tablesFaster string manipulation

Complex EXCEPT subqueries

Commit processing enhancements

DC2 nodes

2x the number of tables in a cluster

Hash join memory utilization optimizations and cache line

prefetching

COPY operation when ingesting data from Parquet

and ORC formats

Performance improvement for queries that refer to stable functions

over constant expressions

Improvements for the COPY operation when ingesting data from Parquet and ORC formats

Query processing improvements

Query rewrites that pushdown selective joins into a subquery

Query planning

Page 14: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Amazon Redshift est3X plus performant selon les benchmarks standards

Normalized Queries Per Hour (QPH)

Que

ries

per

hou

rA

s a

% o

f re

dshi

ft 6

mon

ths

ago

JUL 2018 AUG 2018 SEP 2018 OCT 2018MAY 2018

100%

181%

237%284%

350%

Higher is better

115%

JUN 2018

Page 15: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

ChargementRequêtageDéchargementBackup

Amazon Redshift architectureTraitement hautement parallèle (MPP)

Noeud principal

SQL endpoint

Stocke les méta-données

Coordonne les noeuds de calcul

Noeuds de calcul

Stockage des données sur disques locaux

Exécute les requêtes en parallèle

Stockage, chargement, déchargement

Noeuds Redshift Spectrum

Execute les requêtes directement sur les données stockées dansAmazon Simple Storage Service (Amazon S3)

SQL clients/BI tools

128GB RAM

16TB disk

16 cores

JDBC/ODBC

128gb ram

16TB disk

16 coresCompute node

128gb ram

16TB disk

16 coresCompute node

128gb ram

16TB disk

16 coresCompute node

Leadernode

Amazon S3

...1 2 3 4 N

AmazonRedshiftSpectrum

Page 16: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Caching Layer

Concurrency Scaling pour les pics d’activité(GA)

Ajoutautomatiquede clusters de calcul

Performance constantemême avec plusieurs milliersde requêtesconcurrentes

Aucuneinitialisationrequise

ElasticitéPour s’adapterautomatiquementà la charge

Nouveau!

Backup

Redshift Managed S3

Page 17: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Résultats avec la fonctionnalité Concurrency Scaling

Toutes les 24h d’utilisation de votrecluster principal, vousobtenez 1h de credit d’utilisation d’un cluster concurrent.

Concurrency Scaling estgratuit pour plus de 97% des clients Redshift.

Auto-scaling resources for bursts of user activity

Redshift Redshift with auto-scaling

Higher is better

Que

ries

per

hou

r

Page 18: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Redshift Elastic Resize (GA)

Rajoute des noeudsAu cluster Redshift

Redistribueles donnéesEn quelquesminutes

Délai de transition Minimal

Augmente la capacité de stockage et de calcul à la demande

Adapte la capacité en quelquesminutes

New!

Redshift Cluster

Stockage S3 managépar Redshift

JDBC/ODBC

Leader Node

CN2CN1 CN3 CN4

Backup

Page 19: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Editeur de requêtes intégré

Executez les requêtes SQL directement dans la console AWSLes résultats sontimmédiatement visiblesdans la console

Evite d’avoir à installer un client externe avec les pilotes JDBC/ODBC

Disponible depuis Octobre!

Page 20: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Redshift Advisor

© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.

>96% of clusters

Bénéficient de recommandations sur

mesure

Fournit des recommandations

spécifiquesPour améliorer la

performance et réduireles coûts

WLM

Recommandationsd’optimisation de la configuration des

queues WLM

Basées sur les métriques

d’utilisation de votre cluster

Redshift

Recommandationsintelligentes

Lancé en Juillet!

Page 21: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Amazon Redshift Administration intelligente

Répartition automatiquedes données afin d’ optimiser la performance et l’espacedisque utilisé

Fournit automatiquementdes recommandations baséessur les métriques d’utilisationde votre cluster Redshift.

ALL

keyA keyB keyC keyD

Node 1

Slice 1 Slice 2

Node 2

Slice 3 Slice 4

EVEN

Node 1

Slice 1 Slice 2

Node 2

Slice 3 Slice 4

KEY

Node 1

Slice 1 Slice 2

Node 2

Slice 3 Slice 4Clé de distribution recommandée

Plus besoin de gérer les clés de distribution!

Bientôt disponible

Advise

Page 22: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Amazon Redshift Administration intelligente

VacuumAnalyze Ajustementde la

configuration WLM

AutoAuto Auto

Les processus de maintenance tels que vacuum & analyzeseront managés par Amazon Redshift et automatiquementexecutés en arrière-plan

& automatiquesdéjà disponibles.

& configuration automatiques à venir.

Objectif zero-maintenance.

Disponible

Page 23: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Procédures stockées PL/pgSQL

Possibilité d’importer vosprocédures stockéesexistantes dans Redshift

Support des procédures stockéesPL/pgSQL, permettant ainsi l’importdans Redshift de procedures stockéesexistantes.

Simplifie la migration vers Redshift!

Bientôt disponible

là ou se trouve la donnée pour faire de la validation ouimplementer unelogique métier

Page 24: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Amazon Redshift Spectrum

Redshift Spectrumquery engine

Requétez à la foisRedshift et S3

Redshift data

Data lake S3

Permet d’étendre l’entrepôt de données au Data Lake S3

Sans chargement ou ETL requis

Découple le stockage des noeuds de calcul

Requéter les données S3 sans chargement

Parquet, ORC, Avro, Grok, and CSV supportés

Unload au format ParquetSpectrum Request Accelerator

Bientôtdisponible!

Page 25: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Intégration avec Amazon Lake Formation Bientôt disponible!

KinesisSocial Web

Sensors Devices

LOBCRM

ERPOLTP

IAM KMS

Catalogue de

données

Athena

EMR

Elasticsearch

AI Services

QuickSight

Redshift

Page 26: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.

Quelques bonnes pratiques

Dimensionnez votre cluster selon vos besoinsen quelques minutes pour adapter la capacitépour changer de type de noeud (Dense Compute, Dense Storage)

Utilisez la pour le chargement de données d’Amazon S3

Privilégiez les traitements pour profiter de la puissance du cluster Redshift

: stockez les données froides dans S3 et accédez-y à tout moment avec Redshift Spectrum

Enrichissez vos données du Data Warehouse Redshift avec les données du grâce à .

Page 27: ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon S3 au format CSV, Json, Parquet ... COPY from Parquet and ORC file formats. Additional

© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T

Merci!

Amadou [email protected]

A N T 2 0 2

Philippe [email protected]