[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

55
양승도, Sr. Mgr, Solutions Architect Data Freedom을 위한 Database 최적화 전략

Transcript of [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Page 1: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

양승도, Sr. Mgr, Solutions Architect

Data Freedom을 위한Database 최적화 전략

Page 2: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

본 강연에서 다룰 내용

▪ Data Freedom, 왜?

▪ Data Freedom, 무엇인가?

▪ Data Freedom, 어떻게?▪ Use the right tool

▪ Utilize the managed services

▪ Database migration

▪ Data Lake

▪ 실제 적용 사례

▪ Call to Action !

Page 3: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Freedom, Why?

Page 4: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Long time ago…

데이터베이스 플랫폼의 통합은 훌륭한 아이디어

였습니다 ???

Page 5: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

그러나, 그 결과는 침체…

감사에 대한두려움

AUDIT

독점적소유권

속박되고 형벌적라이센싱

아주 비싸고

Page 6: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Monolithic Architecture

“아마존닷컴은 10년전 (1995년) 웹 서버와 데이터베이스 백엔드를 가지는모놀리식(Monolithic) 애플리케이션 이었습니다.”

A Conversation with Werner Vogels , 2006 http://queue.acm.org/detail.cfm?id=1142065

Page 8: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Monolithic Architecture 의 한계

모든것을 포함 단단히 결합 모듈화 불가능

Page 9: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

10년 전부터 시작된 변화

▪ 오픈소스 데이터베이스 시스템이 성숙하기 시작

▪ 관리형 데이터베이스 서비스가 가능

▪ 스토리지는 더 이상 데이터 아키텍쳐의 제약사항이 아님

▪ Cloud?

▪ DevOps?

▪ Microservices?

Page 10: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

5년전(2001년) 아마존은 주요한 아키텍쳐 변화가있었는데, 2 티어(tier)기반에서 서로 다른애플리케이션 기능을 제공하는 분산 서비스플랫폼으로 변화하였습니다… 여러분이 지금Amazon.com의 첫화면에 들어온다면, 그페이지를 생성하기 위해 100여개가 넘는서비스를 호출하여 만들고 있습니다.”

A Conversation with Werner Vogels , 2006

Page 11: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Freedom, What?

Page 12: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

상용 데이터베이스로 부터 독립

지속적으로 증가하는 독점적인 상용 데이터베이스의 비용과 감사에 대한 위험으로 부터독립할 수 있는 방안이 필요

기존 독점적인 사용데이터베이스의 비용을 어떻게

줄일 수 있는지?

기존 독점적인 상용데이터베이스는 감사의 위험이

상시 존재

비용 위험

Page 13: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

기존 데이터 관리의 문제 해결

대부분 데이터는 자산으로 평가 받지 못하고 소모되고 있음

Page 14: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

신속한 빅데이터 활용

대부분의 기업이 빅데이터를 저장하고 있지만 비즈니스 결과를 생산할 수 있는 활용 부족

4% of companiesuse analytics effectively (2)

70%of data

generated by customers

80%of data stored

3%prepared for

analysis

0.5%being

analyzed

<0.5%being

operationalized80% of CEOsthinking data mining and analysis are strategically

important (1)(1) 2015 PWC CEO Survey; (2) 2013 Bain and Company - The Value of Big Data

Page 15: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

새로운 비즈니스 과제 수행

최근 4차 산업혁명의 중요한 화두인 AI & Machine Learning 기반의 다양한 새로운 비즈니스과제 수행을 위한 방법론 대두

이미지 패턴 분석 음성 인식 및자연어 처리

자율 주행 자동차

Page 16: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

목적에 적합한 다양한 데이터베이스 선택

마이크로서비스 및 DevOps에 적합한 데이터베이스 및 관련 서비스에 대한 구체적인 대안이필요

SearchFeed

Tracking

SpamStat Updater

API

마이크로서비스 아키텍처기존 모놀리식 아키텍처

Data Store

Applications

Page 17: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Freedom, How?

Page 18: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

데이터베이스 선택 시 고려사항

RDBMS 또는NoSQL ?

MySQL/PostgreSQL 또는 Aurora ?

Redis, Memcached, 또는

ElastiCache ?

?MongoDB,

Cassandra 또는DynamoDB ?

Page 19: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

데이터베이스 선택 시 고려사항

확장성 및 지연속도 요구사항?

트랜잭션 및 정합성요구사항?

비즈니스 진입시기 및 서버

제어권 요구사항?

?읽기/쓰기 형태,

스토리지 및IOPS 요구사항?

Page 20: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Tier Anti-Pattern

Data Tier

Page 21: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

용도에 맞는 툴을 사용

App Tier

Web Tier

Data Tier

Search

Hadoop

Cache ETLBlob Store

SQLNoSQLData

Warehouse

Page 22: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Cache

RDBMS Data Warehouse

Blob Store

Request rateHigh Low

Cost/GBHigh Low

LatencyLow High

Archive

Hadoop

Struct

ure

Low

High

NoSQL

Page 23: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

용도에 맞는 툴을 사용

App Tier

Web Tier

Data Tier

Amazon RDS

Amazon CloudSearch

Amazon DynamoDB

Amazon ElastiCache

Amazon Elastic MapReduce

Amazon S3

Amazon Glacier

Amazon Redshift AWS Data Pipeline

Page 24: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

AWS 데이터베이스 서비스

RDS Open Source

RDS Commercial

Aurora

Migration for DB Freedom

DynamoDB& DAX

ElastiCache EMR AmazonRedshift

RedshiftSpectrum

AthenaElasticsearchService

QuickSightGlue

LexPollyRekognition Machine

Learning

Databases to Elevate your AppsRelational Non-Relational

& In-Memory

Analytics to Engage your Data Inline Data Warehousing Reporting

Data Lake

Amazon AI to Drive the FutureDeep Learning, MXNet

Database Migration ServiceSchema Conversion Tool

AWS는필요워크로드에적합한다양한데이터베이스서비스를제공

Page 25: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

AWS 데이터베이스 서비스

AWS는데이터베이스서비스와관련RDB, Big Data, Analytics, NoSQL 등포괄적인서비스를제공하고있으며,다양한형태의관리형데이터베이스서비스를제공함

Big Data

RDS

Aurora

DatabaseMigrationService

Relational Databases

DynamoDB

ElastiCache

NoSQL & In-Memory

AmazonRedshift

EMR

Data Pipeline

Athena

Big Data

QuickSight

Elasticsearch

Amazon ML

Analytics

Page 26: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

AWS 데이터베이스 서비스

Commercial Open source Amazon Aurora

Page 27: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

AWS 관리형 데이터베이스 서비스

Power, HVAC, net

Rack & stack

Server maintenance

OS installation

OS patches

DB s/w patches

Database backups

Scaling

High availability

DB s/w installs

App optimization

Your Server

Power, HVAC, net

Rack & stack

Server maintenance

OS installation

Amazon EC2

OS patches

DB s/w patches

Database backups

Scaling

High availability

DB s/w installs

App optimization

Amazon RDS

Power, HVAC, net

Rack & stack

Server maintenance

OS installation

OS patches

DB s/w patches

Database backups

Scaling

High availability

DB s/w installs

App optimization

Page 28: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

“No server is easier to manage than no server”

Werner Vogels(CTO, Amazon.com)

Image: 20081108 DDP Werner_Vogels / Guido van Nispen / license

Page 29: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

AWS Database Migration Service (AWS DMS)

DMS는 최소한의 중단 시간으로 쉽고 안전하게 AWS로데이터베이스를 마이그레이션 합니다. 가장 널리사용되는 상용 및 오픈 소스 데이터베이스간에데이터를 마이그레이션 할 수 있습니다.

Amazon Aurora

Page 30: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

AWS Schema Conversion Tool (AWS SCT)

SCT는 데이터베이스 엔진 또는 데이터웨어 하우스엔진간에 마이그레이션 할 때, 데이터베이스 스키마 및코드 변환 작업을 자동화합니다.

Amazon Aurora

Page 31: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Database Migration Process

Page 32: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Lake

Page 33: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Lake는 무엇인가?

▪ Data Lake는 시스템이나 저장소 내에 원시데이터 형식으로 데이터를 저장하는 방법으로, 다양한 스키마와 구조 형식의 데이터를 지원함

▪ 원시 데이터에서 시각화, 분석 및 기계 학습을포함한 다양한 작업에 사용되는 변형 된 데이터에이르기까지 기업의 모든 데이터를 단일 저장소에저장하는 것

▪ 구조화된(Structure) 관계형 데이터베이스 (행 및열), 반 구조화(Semi-Structure) 된 데이터 (CSV, 로그, XML, JSON), 구조화되지 않은(Unstructured) 데이터 (전자 메일, 문서, PDF, 이미지, 오디오, 비디오)가 포함

Page 34: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Lake의 특징과 장점

모든 소스의 데이터를 한 곳에저장하고 분석

“데이터가 너무 많은 장소에 분산.한 곳에서 볼 수 없을까?

1. 모든 데이터를 한곳에(One Centralized Location)

Page 35: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Lake의 특징과 장점

사전에 정의된 방식을 강제하지않고, 데이터를 신속하게 수집

“다양한 소스에서 어떻게데이터를 신속하게 수집?

효율적으로 관리?

2. 신속한 데이터 추출 및 저장(Quickly Ingest Data)

Page 36: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Lake의 특징과 장점

저장공간과 분석을 위한 컴퓨팅리소스를 분리.

각 구성요소를 별도로 확장.

생성되는 데이터가 점점 증가.저장공간의 확장을 어떻게?

3. 데이터 저장과 처리를 분리(Decouple Compute & Storage)

Page 37: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Lake의 특징과 장점

4. 구조화 없이 분석 처리(Schema on Read)

여러가지 종류의 분석 및 처리프레임워크를 동일한 데이터에

적용할 수 있는 방법?

Data Lake 는 쓰기가 아닌 읽기에스키마를 적용하여 ad-hoc 분석이

가능.

Page 38: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Modern Data Architecture

Speed (Real-time)

Ingest ServingData sources

Scale (Batch)

Transactions

Web logs / cookies

ERP

AWS Database Migration

AWS Direct Connect

Internet Interfaces Amazon S3

Raw Data

Amazon S3

Staged Data(Data Lake)

Amazon EMRETL

Amazon RedShift

Data Warehouse

Amazon RDS Legacy Apps

Data analysts

Data scientists

Business users

Engagement platforms

Amazon ElasticSearch

Amazon Athena

Amazon Kinesis

Connected devices

Social media

Advanced Analytics

MLlib

Event CaptureAmazon Kinesis

Stream AnalysisAmazon EMR Event

Scoring

Amazon AI

Event HandlerAWS Lambda Response Handler

AWS Lambda

Near-Zero LatencyAmazon DynamoDB

Automation / events

Page 39: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

43

사용하지 않고 흘려 보냈던,

빅데이터• 모바일 데이터• 소셜 데이터• 기계 센서 데이터• 위치시공간 데이터• 외부 데이터

빅데이터 플랫폼

비즈니스 가치

Page 40: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Production Use Cases

Page 41: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

45

Page 42: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

의 Data Lake

AmazonS3

Page 43: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

의 Data Lake

FINRA uses Amazon EMR and Amazon S3 to process up to 75 billion trading events per day and securely store over 5 petabytes of data, attaining savings of $10-20mm per year.

Page 44: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

의 Data Lake

Page 45: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

▪ Most recent two years of data is kept in the Redshift data warehouse and snapshotted into S3 for disaster recovery

▪ Data between two and five years old is kept in S3

▪ Presto on EMR is used to ad-hoc query data in S3

▪ Average daily ingest of over 7B rows

▪ Migrated off legacy DW to AWS (start to finish) in 7 man-months

Page 46: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

새로운 비즈니스

A full-service residential real estate brokerage

Redfin 은 수억 건의부동산 정보와

수백만의 고객 정보를관리

”Hot Homes” 알고리즘사용. 500여 종류의특성들을 분석하여

자동으로 매매 가능성을계산

“Day One” 부터 AWS 클라우드를 모든 부분에

사용

https://aws.amazon.com/solutions/case-studies/redfin/

Page 47: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

새로운 비즈니스

There's an 80% chance this home will sell in the next 11 days – go tour it soon.

Hot Homes

Page 48: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

새로운 비즈니스

Ingest/Collect

Consume/visualize

Store Process/analyze

Data1 4

0 9

5

Amazon S3Data lake

Amazon EMR

AmazonKinesis

Amazon RedShift

Answers & Insights

Hot HomesUsers

Properties

Agents

유저 프로파일에 의한 추천

Hot HomesSimilar Homes

Agent Follow-upAgent Scorecard

MarketingA/B TestingReal Time Data…

Amazon DynamoDB

BI / Reporting

Page 49: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Call to Action

Page 50: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

데이터 중심의 비즈니스

▪ 데이터 버스 구성 – 데이터의 수집, 저장, 분석, 시각화, 예측 등 각단계에서 데이터가 효율적으로 사용될 수 있도록 데이터 버스를효과적으로 구성

▪ 적합한 도구 사용 – 데이터의 엑세스 패턴, 온도, 작업 형태에 따라올바른 저장소 및 도구를 사용

▪ 관리형 서비스 – 데이터 및 비즈니스 요건의 변화에 대한 빠른 대응 및비용 효율적인 빅 데이터 환경 관리를 위하여 관리형 서비스 사용

▪ 다양한 실험 – 적은 비용으로 많은 실험을 수행함으로써 새로운비즈니스 요구에 빠르게 대응

Page 51: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

데이터 전략 워크샵으로 시작

데이터전략워크샵은, AWS 기반의어떤데이터플랫폼서비스를통해서성공적으로비즈니스가치를실현할수있는지검증하는방법을제공

Data Strategy Workshop

Data Freedom Workshop Data Lake Workshop

신규 및 기존 데이터 워크로드에 대한 현황을수집하고 진단해서 AWS의 다양한데이터베이스 서비스 중에 최적 대안을도출하고 이를 검증할 수 있는 계획 수립

빅데이터를 저장, 처리, 분석, 활용할 수 있는AWS Data Lake를 기반으로 도출할 비즈니스결과를 조사하고 이에 필요 데이터와 서비스대안을 도출해서 타당성 검증을 위한 계획 수립

Page 52: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Freedom Workshop

신규및기존데이터워크로드에대한현황을수집하고진단해서AWS의다양한데이터베이스서비스중에최적대안을도출하고이를검증할수있는계획수립

Data Freedom Workshop PoC

POC 수행 및결과 검증

데이터 워크로드현황 조사

DF1.0

데이터 워크로드진단 및 분석

DF2.0

AWS 대안 도출

DF3.0

POC 계획 수립

DF4.0

현황 진단 계획

Page 53: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
Page 54: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

Data Lake Workshop

빅데이터 워크샵 기반의 단기과제 도출 방안

Data Lake Workshop PoC

타당성 검토 및인프라 검증

빅데이터 기회발굴

DL1.0

환경진단 및개선과제 도출

DL2.0

아키텍처 설계안도출

DL3.0

과제 도출 및계획 수립

DL4.0

현황 진단 계획

Page 55: [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략

감사합니다.