· 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon...

47
AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营 AWS 中国(宁夏)区域由西云数据运营 AWS 中国(北京)区域由光环新网运营 AWS 上 构建企业数据湖

Transcript of  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon...

Page 1:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

在 AWS 上构建企业数据湖

Page 2:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Data Lake on AWS

Page 3:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

为何要将 AWS 用于大数据与分析?

敏捷性 可扩展性

更快地获得见解

极广泛和极深入的功能成本低廉

数据迁移变得轻松

Page 4:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

构建数据湖的一般步骤

设置存储1

移动数据2

清理、准备数据及编写数据目录

3

配置并实施安全性与合规性政策

4

使数据可用于分析5

Page 5:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

定义 AWS 数据湖

数据湖可提供以下功能:

关系数据和非关系数据

扩展到 Amazon EBS

多元化的分析和机器学习工具集

无需移动数据即可处理数据

旨在实现低成本存储和分析

OLTP ERP CRM LoB

数据仓库

商业智能

数据湖

1001100001001010111001

0101011100101010000101

1111011010

0011110010110010110

0100011000010

设备 Web 传感器 社交

目录

机器学习

DW 查询 大数据处理 交互 实时

Page 6:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

用户定义的函数

• 加入自己的函数和代码

• 无需预置服务器即可执行

处理和查询准备就绪

完全托管的处理和查询

• 在 Amazon S3 中转换、查询数据及编写数据目录

• 无需管理实体实例

Lambda 函数

Page 7:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Data Lake on AWS

目录与搜索 访问与用户界面

数据提取

分析和服务

S3

Amazon

DynamoDBAmazon Elasticsearch

Service (Amazon ES)

AWS

AppSync

Amazon

API GatewayAmazon

Cognito

AWS

KMS

AWS

CloudTrail

管理与安全

IAMAmazon

CloudWatch

AWS

SnowballAWS Storage

Gateway

Amazon

Kinesis Data

Firehose

AWS Direct

Connect

AWS Database

Migration

服务 (AWS DMS)

Amazon

Athena

Amazon

EMRAWS

Glue

Amazon

Redshift

DynamoDB

Amazon

QuickSight

Amazon

Kinesis

Amazon ES Amazon

NeptuneAmazon

RDS

集中存储

AWS

Glue

可扩展、安全、经济高效

Page 8:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

现代化无服务器数据湖组件

AWS Lambda AWS GlueAmazon S3Amazon

CloudWatch

Events

Amazon

Athena

Page 9:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon S3 是放置数据湖的极佳位置

极为全面的数据输入方

强安全性、合规性和审计功能

对象级控制无与伦比的持久性、可用性和可扩展性

通过数据洞悉业务

Page 10:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

数据湖需要处理各种并发数据源

快速提取所有数据源

IoT、传感器数据、点击流数据、社交媒体源、流式处理日志

Oracle、MySQL、MongoDB、DB2、SQL Server、Amazon RDS

本地 ERP、大型主机、实验室设备、NAS 存储

离线传感器数据、NAS、本地 Hadoop

本地数据湖、EDW、大型数据集合

提取方法

Amazon S3

Kinesis Data Firehose

AWS DMS

Storage Gateway

Snowball Edge

DX

Page 11:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

选择正确的数据格式

并没有所谓的“最佳”数据格式

• 所有格式都需要权衡,具体取决于工作负载和工具

• CSV、TSV、JSON 都很简单,但效率欠佳

• 压缩并存储或存档为原始输入

• 列式压缩通常为首选方式

• Parquet 或 ORC

• 减少所需存储空间 = 降低成本

• 提高扫描和查询效率

• 行式 (AVRO) 存储适合完整数据扫描

• 整理为分区

• 随时间推移合并为更大分区

重点关注成本、性能和支持

Page 12:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

支持 Glue ETL 和 Athena Analysis

的数据湖

Page 13:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

数据准备工作大约占数据湖工作总量的 80%

构建训练集

清理和整理数据

收集数据集

挖掘数据模式

优化算法

其他

Page 14:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

使用 AWS Glue 设置目录、ETL 和数据准备

完成无服务器预置、配置和扩展,在 Apache Spark 上运行 ETL 作业

仅为作业实际使用的资源付费

爬取数据源、识别数据格式并提供架构和转换建议

自动执行 ETL 作业构建、维护和运行操作

Page 15:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS Glue:组件

数据目录

Hive 元存储与增强功能兼容

爬网程序自动提取元数据并创建表

与 Athena、Amazon Redshift Spectrum 集成

作业执行

在无服务器 Spark 平台上运行作业

提供灵活时间安排

处理依赖关系解析、监控和警报

作业编写

自动生成 ETL 代码

在开源框架上构建 – Python 和 Spark

以开发人员为中心 –编辑、调试、共享

Page 16:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

通过 Hive 元存储 API 或 Hive SQL 管理表元数据。受 Hive、Presto、Spark

等工具支持。

我们增加了以下扩展功能:

搜索元数据以查找数据

连接信息 – JDBC URL、凭证

分类,用于识别并解析文件随着架构发展和其他元数据更新,对表元数据进行版本控制

使用 Hive DDL、批量导入填充数据或通过爬网程序自动填充

AWS Glue 数据目录

Page 17:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

爬网程序会自动构建数据目录并使其保持同步

自动发现新数据、提取架构定义

检测架构更改和版本表

检测 Amazon S3 上的 Hive 样式分区

• 常见类型的内置分类器;使用 Grok 表达式的自定义分类程序

• 临时运行或按计划运行;无服务器 –仅需在爬网程序运行时付费

AWS Glue 数据目录:爬网程序

Page 18:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

数据目录:检测分区

file 1 file N… file 1 file N…

date=10 date=15…

month=Nov

S3 存储桶层次结构 表定义

估计各级别文件之间的架构相似性,以便处理半结构化日志、架构演变...

sim=.99 sim=.95

sim=.93month

date

col 1

col 2

str

str

int

float

列 类型

Page 19:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

数据目录:表详细信息

表架构

表属性

数据统计

嵌套字段

Page 20:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS Glue 中的作业编写

• 您可自行选择开始使用方式

• AWS Glue 生成的 Python 代码

• 将笔记本或 IDE 连接到 AWS

Glue

• 引入 AWS Glue 的现有代码

Page 21:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

1. 自定义映射

2. AWS Glue 生成转换图和 Python 代码

3. 将笔记本连接到开发终端节点以自定义代码

作业编写:自动生成代码

Page 22:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

人类可读、可编辑且可迁移的 PySpark 代码

灵活:AWS Glue 的 ETL 库可简化复杂的半结构化数据的处理

可自定义:使用原生 PySpark、导入自定义库和/或利用 AWS Glue 库

协作:通过 GitHub 共享代码段,跨作业重用代码

作业编写:ETL 代码

Page 23:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

作业编写:AWS Glue 动态帧

动态帧架构

A C D [ ]

X Y

B1 B2

与 Spark 数据帧类似,但更适合:

• 清理和重构半结构化数据集,例如,JSON、Avro、Apache 日志...

无需预先确定架构:

• 动态推断架构,通过单次传递完成转换

轻松应对意外情况:

• 通过选择(例如,整数或字符串)跟踪新字段和不一致的更改数据类型

• 自动标记并分离错误记录

Page 24:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

作业执行:安排和监控借助基于事件的依赖关系全局编写作业

轻松重复使用并利用跨组织边界的工作

多重触发机制

基于时间表:例如当日时间

基于事件:例如作业完成

按需:例如 Lambda

更多:Amazon S3 通知和 Amazon

CloudWatch Events

CloudWatch 提供的日志和警报

市场营销:按客户细分的广告支出

基于事件的 Lambda 触发器

销售额:按客户细分的收入

时间表

基于数据

集中:按客户细分的 ROI

每周销售额 基于数据

Page 25:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

作业执行:无服务器

自动配置 VPC 和基于角色的访问

客户可以指定为各个作业分配的容量

自动扩展资源(根据正式发布后路线图)

您只需在使用资源时按使用量付费

无需预置、配置或管理服务器

Amazon VPC Amazon VPC

计算实例

Page 26:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon Athena

速度极快

适用于大型数据集的交互式性能事件。Athena 自动并行执行查询,须臾之间即可返

回大量结果。

开放、强大、标准 立即开始查询 按查询付费

Athena 是无服务器的。只需指向您存储在 Amazon S3 中的数据,定义架构并使用内置查询编辑器即可开始查询。

Amazon Athena 使用支持ANSI SQL 的 Presto,还可处理大量标准数据格式,包括CSV、JSON、ORC、Avro

和 Parquet

使用 Amazon Athena,您只需为运行的查询付费。您需要为查询扫描的每 TB 数据支付

5 USD。

Amazon Athena 是一种交互式查询服务,可使用此服务通过标准 SQL 在Amazon S3 中轻松分析数据。

Page 27:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Ad-hoc 使用案例

Page 28:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

S3

Athena

AWS Glue 数据目录

查询数据

热数据

热/冷数据应用程序请求

SaaS 使用案例

Page 29:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

AWS 服务日志

应用程序日志

来自外部供应商的数据

S3

Athena

更新表分区

查询数据

S3

通过 Athena CTAS 和 INSERT

INTO 执行 ETL

ETL 和查询使用案例

Glue 数据目录

Page 30:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

利用 Glue ETL 实时收集数据

AWS Glue 数据目录

Page 31:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

使用 Glue 数据库连接器导出数据

AWS Glue 数据目录

Page 32:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

利用 Amazon Redshift 打造现代化数据仓库

Page 33:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon Redshift

速度极快

加速获得所有分析工作负载类型的洞察;采用机器学习、

列式存储和 MPP 技术

规模不受限制

扩展您的数据湖

成本仅为原来的十分之一

即使分析需求和数据量不可预测,也可动态扩展以保证

性能

以开放格式就地分析Amazon S3 数据湖中的数据,并将数据加载到 Redshift 的

高性能 SSD 中

最低仅需 0.25 USD,管理任务自动执行,从而节省成本,并消除了停机对业务的影响;价格低至每年每 TB

1000 USD

快速、简单且经济高效的数据仓库,可将查询扩展到数据湖

使用 SQL 工具以开放格式(如 Parquet、ORC 和 JSON)分析数据

Page 34:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon Redshift Spectrum 和 Athena 支持直接从 Amazon S3 数据湖查询数据

Page 35:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

处理数据仓库工作负载

更多客户使用

Amazon

快速、可扩展、简单、经济高效

Page 36:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon Redshift 速度很快机器学习助力加速

机器学习 机器学习预测查询运行时间1

较短查询路由到“快速”队列2

如果查询结果不在缓存中,则执行查询,并缓存结果

3

工作原理:分析和

BI/控制面板工具

计算节点 计算节点 计算节点

Amazon

Redshift

结果缓存

Page 37:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

缓存层

并发性扩展

按需自动创建更多集群

即使并行处理数千

个查询,高速性能始终不变

无需预先混合

快速扩展以适应不断变化的查询工作负载

备份

Redshift 托管的 S3

1

2 3

Page 38:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Redshift 弹性大小调整功能

向 Redshift 集群添加更多节点

在繁忙时段更快运行查询

转换时间极短

按需扩展计算和存储资源

数分钟内扩展和缩减

Redshift 集群

Redshift 托管的 S3

JDBC/ODBC

领导节点

CN2CN1 CN3 CN4

备份

Page 39:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon Redshift Spectrum

Amazon Redshift Spectrum查询引擎

跨 Redshift 和 S3 查询

Redshift 数据

01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010 01100111 01100101 01110100 00100000 01100001 00100000 01101000 01101111 01100010 01100010 01111001 00001101 00001010

S3数据湖

将数据仓库扩展到 S3 数据湖中的 EB 级数据

无需加载

单独扩展计算和存储资源

直接查询 S3 中存储的数据

Parquet、ORC、Avro、Grok 和 CSV 数据格式

Page 40:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Amazon Redshift 智能维护

清空分析 WLM 并发设置

自动自动 自动

清空和分析等维护过程将在后台自动运行。

Redshift 自动调整 WLM 并发设置以提供最佳吞吐量。

向零维护转变。

Page 41:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Re

dsh

ift 年度费用

(US

D) –基于

1 年

预留实例

(RI)

价格

Redshift 是经济超高效的云数据仓库

超高性价比

预留实例节省量

高达75%的唯一数据仓库

$560,640

$264,902

$944,941

REDSHIFT 供应商 1 供应商 2 供应商 3

每年的价格

© 2018, Amazon Web Services, Inc. 或其附属公司。保留所有权利。

越低越好

Page 42:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

客户

Page 43:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Nasdaq 在全球范围内运营金融交易平台,并处理大量数据。

挑战:

Nasdaq 希望将其巨量历史数据作为单个数据集进行分析。

解决方案:

• 使用 Amazon Redshift 进行交互式查询

• 将 Amazon S3 用作数据湖,使用基于 EMR 的 Presto 处理历史数据

Page 44:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Nasdaq 利用 AWS 构建数据湖

Nasdaq 所有 7 家交易平台的数据(订单、报价、交易执行)

平面文件

运营数据库

EMR

Redshift

S3

SQL客户端

• 将原有的本地仓库迁移到 Amazon

Redshift

• 每个交易日插入 48 亿行(订单、交易、报价)

• 从多个来源提取数据、进行验证并暂存在 S3 中

• Redshift 从 S3 读取数据以快速进行查询

• 使用基于 EMR 的 Presto 和 S3 分析大规模历史数据集

Page 45:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Club Factory

Page 46:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

Club Factory

Page 47:  · 2020-01-14 · Amazon Elasticsearch Service (Amazon ES) AWS AppSync Amazon API Gateway Amazon Cognito AWS KMS AWS CloudTrail 管理与安全 IAM

AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营

谢谢!