ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon...
Transcript of ANT202 Amazon Redshift Les nouveautéset bonnespratiques ft. …... · 2019-04-03 · dans Amazon...
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Amazon RedshiftLes nouveautés et bonnes pratiquesft. Euronext
Amadou Merico Solutions ArchitectAmazon Web Services
A N T 2 0 2
Philippe PlanchonArchitect DirectorEuronext
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Amazon Redshift – Entrepôt de données moderneRapide, élastique et entièrement managé
Interrogation massivement parallèle de gigaoctets à l'exaoctet de données
Etendez les requêtes au Data lake S3
Performance
Stockage orienté colonnespour optimiser les
performances des requêtes
Format ouvert
Interrogation des donnéesstockées dans Redshift ou
dans Amazon S3 au format CSV, Json, Parquet…
Economie
Tarif à partir de $0.25 par heure sans engagement ni
frais initiaux
$
Sécurité
Tracabilité complète; chiffrement de bout en bout;
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Alimente le plus grand nombre de
déploiementsd’entrepôts de
données dans le cloud
Amazon Redshift
EURONEXT DATAWAREHOUSE MIGRATION TO REDSHIFT
2 Avril 2019
│ 5
Marché régulé Euronext
EURONEXT LA BOURSE PAN-EUROPÉENNE
POINT D’ACCÈS AUX 6 MARCHÉS EUROPÉENS
Euronext sales offices
Centre technologique
Sales offices à Hong Kong, New York et Singapoure
MODÈLE FÉDÉRAL
CARNET D’ORDRE UNIQUE
UN SEUL FLUX DE DONNÉES
UN SEUL COLLEGE DES RÉGULATEURS
UN RULE BOOK HARMONISÉ
DUBLIN
LONDON
PARIS
BRUSSELS
AMSTERDAM
FRANKFURT
MUNICHZURICH
MILAN
MADRID
LISBON
PORTO
│ 6
EURONEXT: LES CHIFFRES CLES
6Marchés locaux, un
seul college de régulateurs
1,300Companies listées
(€3.4 trillion en market cap)
1Un carnet d’ordres
unique
€1,000 bn Levés sur nos
marchés en 2018
+400indices
AEX® CAC 40® BEL 20® PSI 20® ISEQ 20®
128,000+ Produits listés
Cash ADV:€8,109 MILLION
Derivatives ADV:585,310 contrats
en 2018
225Membres actifs
3,5 billionMessages a day
100%Disponibilité des
marchés Euronext
52μs Roundtrip moyenpour nos clients
19 μs Roundtrip minimal
│ 7
NOTRE STRATÉGIE DE DONNÉES ET LE LANCEMENT DU CLOUD
La donnée est au cœur de l’activité d’Euronext Reporting vers les régulateurs Business intelligence Facturation Revenus liés a la vente de donnée
Notre solution actuelle a atteint ses limites Obsolescence technologique Fonctionnalités de BI limitées Cout d’opération
Euronext a lancé en 2017 son plan de “Data Strategy” afin de construire une
nouvelle plateforme de données
La Data Strategy a initié la migration dans le cloud
Cette migration est également un facteur d’accélération de la stratégie technologique d’ Euronext
AWS a été sélectionné parmi d’autres propositions pour sa flexibilité, un écosystème riche et mature et un chiffrage transparent
Une feuille de route a été mise en place allant de la mise en place de la « landing zone » à l’élaboration de projets autour de l’IA.
En 2019 l’étape majeure est la migration du Datawarehouse qui met en place les fondements des projets à venir.
│ 8
OPTIQ
TradingEngines
OPTIQ
TradingEngines
FileTransfer
EURONEXT DATA WAREHOUSE ON AWS REDSHIFT – CURRENT STATUS
S3
KAFKA [IA]
ProduceFIX Binary Messages
LegacyAPPS
IACA Cloud
Kafka ConnectEngine
IDS
RedshiftTalend Jobs
Step functions•Orders•Quotes•Market Limit•Trades•Reference Data
1. Sanitization2. Avro Transcoding
3. Parquet Transcoding
OPTIQ
TradingEngines
OPTIQ
TradingEngines
OPTIQ
TradingEngines
OPTIQ
TradingEngines
•Reporting•Billing•Surveillance•Monitoring
1,5 billionsRows inserted
per day
200 billionsLargest table in
Redshift
3 NodesRedshift cluster on 3 ds2.8xlarge
│ 9
CONTRAINTES ET OBJECTIFS
LESSONS LEARNED
PerformanceL’organisation de la donnée est primordial pour les performance de Redshift, distribution and sort keys
PerformanceNos tests avec Spectrum se sontheurtés a une faible performances de chargement
Cost
Utiliser des reserved instances pour Redshift donne un bon compromisperformance / costs (vs Spectrum) en particulier grace a “Elastic resize”
Scalability Redshift scalable par design pour le stockage et compute
1- PERFORMANCE
3- COST
2- AGILITY
4- RELIABILITY
Un large nombre de données à gérer
Des process ETL en respect avec les SLA internes et ceux des régulateurs
Facilité d’adaptation des modèles et des capacités de stockage
Assurer des coûts raisonnables et controllables
Des obligations de reprise régulées
Des obligations de maintien de service journalier auprès des régulateurs
43
1 2
│ 10
OPTIQ
TradingEngines
OPTIQ
TradingEngines
FileTransfer
EURONEXT DATA STRATEGY NEXT STEPS
S3
KAFKA [IA]
Kafka
ProduceFIX Binary Messages
LegacyAPPS
3rd party Data
IACA Cloud
Kafka ConnectEngine
IDS
Redshift
EMR
Real-Time Processing
Real Time Consumer
Real Time Consumer
Talend JobsStep functions
•Orders•Trades•Ref Data
1. Sanitization2. Avro Transcoding
3. Parquet Transcoding
ProduceAVRO Messages
Consume AVRO Messages
OPTIQ
TradingEngines
OPTIQ
TradingEngines
OPTIQ
TradingEngines
OPTIQ
TradingEngines
Data Shop
Advanced Analytics
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Découvrons ensemble les nouvelles fonctionnalitésd’Amazon Redshift…
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
features and enhancements released*
Beaucoup d’améliorations et d’innovations
Automatically enabled short query acceleration
Support for lateral column alias reference
New Quick Starts
New CloudWatch metrics
Customized Recommendations with AdvisorCurrent and trailing tracks for release update
Federated authentication with single sign-on
Improved performancefor commits
COPY from Parquet and ORC file formats
Additional Spectrum regions
Support for Scalar JSON and Ion data types
Late materialization for faster query processing
Support for DATE data type with Spectrum
Short Query Acceleration
Utilization reports
Machine learning integration to accelerate dashboards and interactive analysis
Improved resource management for memory-intensive queries
Faster string manipulation
Support for Parquet and ORC in Kinesis Data Firehose
Improved workload management console experience
Query Editor
Support for late-binding views
SQL Scalar user-defined functions
Integration with AWS Glue
Support for Nested Data with Spectrum
Spectrum support for DATE data type
Improved performance for UNION ALL queries
Free upgrade from DC1 to DC2 RIs
Query monitoring rules (QMR)
Support for Zstandard high compression encoding
Query processing improvements
Support for Python UDF logging module
Enhanced VPC routing
Automatically hopping queries without restarts
Support for uppercase column names
Result Caching for Repeat Queries
Support for LISTAGG DISTINCT
Support for ORC and Grok file formats
Integration with QuickSight
DMS support with Redshift
3.5x Improved Throughput
Improved performance for repeat queries
Un apercu de ce qui a été fait*…
*Depuis re:Invent 2017
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Compiled code cache
Support for lateral column alias reference
Resource management for memory-intensive queries
Late materialization
Result caching
Joins involving large numbers of NULL values in a join key column
Queries with intermediate subquery results that can be distributed
Cluster resize operations
Queries that refer to stable functions with constant expressions
Short query acceleration
Queries operating over CHAR and VARCHAR columns
Single-row inserts
Performance accrue
Expressions on the partition columns of external tablesFaster string manipulation
Complex EXCEPT subqueries
Commit processing enhancements
DC2 nodes
2x the number of tables in a cluster
Hash join memory utilization optimizations and cache line
prefetching
COPY operation when ingesting data from Parquet
and ORC formats
Performance improvement for queries that refer to stable functions
over constant expressions
Improvements for the COPY operation when ingesting data from Parquet and ORC formats
Query processing improvements
Query rewrites that pushdown selective joins into a subquery
Query planning
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Amazon Redshift est3X plus performant selon les benchmarks standards
Normalized Queries Per Hour (QPH)
Que
ries
per
hou
rA
s a
% o
f re
dshi
ft 6
mon
ths
ago
JUL 2018 AUG 2018 SEP 2018 OCT 2018MAY 2018
100%
181%
237%284%
350%
Higher is better
115%
JUN 2018
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
ChargementRequêtageDéchargementBackup
Amazon Redshift architectureTraitement hautement parallèle (MPP)
Noeud principal
SQL endpoint
Stocke les méta-données
Coordonne les noeuds de calcul
Noeuds de calcul
Stockage des données sur disques locaux
Exécute les requêtes en parallèle
Stockage, chargement, déchargement
Noeuds Redshift Spectrum
Execute les requêtes directement sur les données stockées dansAmazon Simple Storage Service (Amazon S3)
SQL clients/BI tools
128GB RAM
16TB disk
16 cores
JDBC/ODBC
128gb ram
16TB disk
16 coresCompute node
128gb ram
16TB disk
16 coresCompute node
128gb ram
16TB disk
16 coresCompute node
Leadernode
Amazon S3
...1 2 3 4 N
AmazonRedshiftSpectrum
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Caching Layer
Concurrency Scaling pour les pics d’activité(GA)
Ajoutautomatiquede clusters de calcul
Performance constantemême avec plusieurs milliersde requêtesconcurrentes
Aucuneinitialisationrequise
ElasticitéPour s’adapterautomatiquementà la charge
Nouveau!
Backup
Redshift Managed S3
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Résultats avec la fonctionnalité Concurrency Scaling
Toutes les 24h d’utilisation de votrecluster principal, vousobtenez 1h de credit d’utilisation d’un cluster concurrent.
Concurrency Scaling estgratuit pour plus de 97% des clients Redshift.
Auto-scaling resources for bursts of user activity
Redshift Redshift with auto-scaling
Higher is better
Que
ries
per
hou
r
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Redshift Elastic Resize (GA)
Rajoute des noeudsAu cluster Redshift
Redistribueles donnéesEn quelquesminutes
Délai de transition Minimal
Augmente la capacité de stockage et de calcul à la demande
Adapte la capacité en quelquesminutes
New!
Redshift Cluster
Stockage S3 managépar Redshift
JDBC/ODBC
Leader Node
CN2CN1 CN3 CN4
Backup
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Editeur de requêtes intégré
Executez les requêtes SQL directement dans la console AWSLes résultats sontimmédiatement visiblesdans la console
Evite d’avoir à installer un client externe avec les pilotes JDBC/ODBC
Disponible depuis Octobre!
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Redshift Advisor
© 2018, Amazon Web Services, Inc. or its affiliates. All rights reserved.
>96% of clusters
Bénéficient de recommandations sur
mesure
Fournit des recommandations
spécifiquesPour améliorer la
performance et réduireles coûts
WLM
Recommandationsd’optimisation de la configuration des
queues WLM
Basées sur les métriques
d’utilisation de votre cluster
Redshift
Recommandationsintelligentes
Lancé en Juillet!
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Amazon Redshift Administration intelligente
Répartition automatiquedes données afin d’ optimiser la performance et l’espacedisque utilisé
Fournit automatiquementdes recommandations baséessur les métriques d’utilisationde votre cluster Redshift.
ALL
keyA keyB keyC keyD
Node 1
Slice 1 Slice 2
Node 2
Slice 3 Slice 4
EVEN
Node 1
Slice 1 Slice 2
Node 2
Slice 3 Slice 4
KEY
Node 1
Slice 1 Slice 2
Node 2
Slice 3 Slice 4Clé de distribution recommandée
Plus besoin de gérer les clés de distribution!
Bientôt disponible
Advise
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Amazon Redshift Administration intelligente
VacuumAnalyze Ajustementde la
configuration WLM
AutoAuto Auto
Les processus de maintenance tels que vacuum & analyzeseront managés par Amazon Redshift et automatiquementexecutés en arrière-plan
& automatiquesdéjà disponibles.
& configuration automatiques à venir.
Objectif zero-maintenance.
Disponible
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Procédures stockées PL/pgSQL
Possibilité d’importer vosprocédures stockéesexistantes dans Redshift
Support des procédures stockéesPL/pgSQL, permettant ainsi l’importdans Redshift de procedures stockéesexistantes.
Simplifie la migration vers Redshift!
Bientôt disponible
là ou se trouve la donnée pour faire de la validation ouimplementer unelogique métier
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Amazon Redshift Spectrum
Redshift Spectrumquery engine
Requétez à la foisRedshift et S3
Redshift data
Data lake S3
Permet d’étendre l’entrepôt de données au Data Lake S3
Sans chargement ou ETL requis
Découple le stockage des noeuds de calcul
Requéter les données S3 sans chargement
Parquet, ORC, Avro, Grok, and CSV supportés
Unload au format ParquetSpectrum Request Accelerator
Bientôtdisponible!
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Intégration avec Amazon Lake Formation Bientôt disponible!
KinesisSocial Web
Sensors Devices
LOBCRM
ERPOLTP
IAM KMS
Catalogue de
données
Athena
EMR
Elasticsearch
AI Services
QuickSight
Redshift
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T© 2017, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Quelques bonnes pratiques
Dimensionnez votre cluster selon vos besoinsen quelques minutes pour adapter la capacitépour changer de type de noeud (Dense Compute, Dense Storage)
Utilisez la pour le chargement de données d’Amazon S3
Privilégiez les traitements pour profiter de la puissance du cluster Redshift
: stockez les données froides dans S3 et accédez-y à tout moment avec Redshift Spectrum
Enrichissez vos données du Data Warehouse Redshift avec les données du grâce à .
© 2019, Amazon Web Services, Inc. or its affiliates. All rights reserved.S U M M I T
Merci!
Amadou [email protected]
A N T 2 0 2
Philippe [email protected]