[E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
-
Upload
amazon-web-services-korea -
Category
Technology
-
view
73 -
download
1
Transcript of [E-commerce & Retail Day] Data Freedom을 위한 Database 최적화 전략
양승도, Sr. Mgr, Solutions Architect
Data Freedom을 위한Database 최적화 전략
본 강연에서 다룰 내용
▪ Data Freedom, 왜?
▪ Data Freedom, 무엇인가?
▪ Data Freedom, 어떻게?▪ Use the right tool
▪ Utilize the managed services
▪ Database migration
▪ Data Lake
▪ 실제 적용 사례
▪ Call to Action !
Data Freedom, Why?
Long time ago…
데이터베이스 플랫폼의 통합은 훌륭한 아이디어
였습니다 ???
그러나, 그 결과는 침체…
감사에 대한두려움
AUDIT
독점적소유권
속박되고 형벌적라이센싱
아주 비싸고
Monolithic Architecture
“아마존닷컴은 10년전 (1995년) 웹 서버와 데이터베이스 백엔드를 가지는모놀리식(Monolithic) 애플리케이션 이었습니다.”
A Conversation with Werner Vogels , 2006 http://queue.acm.org/detail.cfm?id=1142065
Why does everyone hate me?
Image: 1869 / ptwo / license
Monolithic Architecture 의 한계
모든것을 포함 단단히 결합 모듈화 불가능
10년 전부터 시작된 변화
▪ 오픈소스 데이터베이스 시스템이 성숙하기 시작
▪ 관리형 데이터베이스 서비스가 가능
▪ 스토리지는 더 이상 데이터 아키텍쳐의 제약사항이 아님
▪ Cloud?
▪ DevOps?
▪ Microservices?
5년전(2001년) 아마존은 주요한 아키텍쳐 변화가있었는데, 2 티어(tier)기반에서 서로 다른애플리케이션 기능을 제공하는 분산 서비스플랫폼으로 변화하였습니다… 여러분이 지금Amazon.com의 첫화면에 들어온다면, 그페이지를 생성하기 위해 100여개가 넘는서비스를 호출하여 만들고 있습니다.”
A Conversation with Werner Vogels , 2006
Data Freedom, What?
상용 데이터베이스로 부터 독립
지속적으로 증가하는 독점적인 상용 데이터베이스의 비용과 감사에 대한 위험으로 부터독립할 수 있는 방안이 필요
기존 독점적인 사용데이터베이스의 비용을 어떻게
줄일 수 있는지?
기존 독점적인 상용데이터베이스는 감사의 위험이
상시 존재
비용 위험
기존 데이터 관리의 문제 해결
대부분 데이터는 자산으로 평가 받지 못하고 소모되고 있음
신속한 빅데이터 활용
대부분의 기업이 빅데이터를 저장하고 있지만 비즈니스 결과를 생산할 수 있는 활용 부족
4% of companiesuse analytics effectively (2)
70%of data
generated by customers
80%of data stored
3%prepared for
analysis
0.5%being
analyzed
<0.5%being
operationalized80% of CEOsthinking data mining and analysis are strategically
important (1)(1) 2015 PWC CEO Survey; (2) 2013 Bain and Company - The Value of Big Data
새로운 비즈니스 과제 수행
최근 4차 산업혁명의 중요한 화두인 AI & Machine Learning 기반의 다양한 새로운 비즈니스과제 수행을 위한 방법론 대두
이미지 패턴 분석 음성 인식 및자연어 처리
자율 주행 자동차
목적에 적합한 다양한 데이터베이스 선택
마이크로서비스 및 DevOps에 적합한 데이터베이스 및 관련 서비스에 대한 구체적인 대안이필요
SearchFeed
Tracking
SpamStat Updater
API
마이크로서비스 아키텍처기존 모놀리식 아키텍처
Data Store
Applications
Data Freedom, How?
데이터베이스 선택 시 고려사항
RDBMS 또는NoSQL ?
MySQL/PostgreSQL 또는 Aurora ?
Redis, Memcached, 또는
ElastiCache ?
?MongoDB,
Cassandra 또는DynamoDB ?
데이터베이스 선택 시 고려사항
확장성 및 지연속도 요구사항?
트랜잭션 및 정합성요구사항?
비즈니스 진입시기 및 서버
제어권 요구사항?
?읽기/쓰기 형태,
스토리지 및IOPS 요구사항?
Data Tier Anti-Pattern
Data Tier
용도에 맞는 툴을 사용
App Tier
Web Tier
Data Tier
Search
Hadoop
Cache ETLBlob Store
SQLNoSQLData
Warehouse
Cache
RDBMS Data Warehouse
Blob Store
Request rateHigh Low
Cost/GBHigh Low
LatencyLow High
Archive
Hadoop
Struct
ure
Low
High
NoSQL
용도에 맞는 툴을 사용
App Tier
Web Tier
Data Tier
Amazon RDS
Amazon CloudSearch
Amazon DynamoDB
Amazon ElastiCache
Amazon Elastic MapReduce
Amazon S3
Amazon Glacier
Amazon Redshift AWS Data Pipeline
AWS 데이터베이스 서비스
RDS Open Source
RDS Commercial
Aurora
Migration for DB Freedom
DynamoDB& DAX
ElastiCache EMR AmazonRedshift
RedshiftSpectrum
AthenaElasticsearchService
QuickSightGlue
LexPollyRekognition Machine
Learning
Databases to Elevate your AppsRelational Non-Relational
& In-Memory
Analytics to Engage your Data Inline Data Warehousing Reporting
Data Lake
Amazon AI to Drive the FutureDeep Learning, MXNet
Database Migration ServiceSchema Conversion Tool
AWS는필요워크로드에적합한다양한데이터베이스서비스를제공
AWS 데이터베이스 서비스
AWS는데이터베이스서비스와관련RDB, Big Data, Analytics, NoSQL 등포괄적인서비스를제공하고있으며,다양한형태의관리형데이터베이스서비스를제공함
Big Data
RDS
Aurora
DatabaseMigrationService
Relational Databases
DynamoDB
ElastiCache
NoSQL & In-Memory
AmazonRedshift
EMR
Data Pipeline
Athena
Big Data
QuickSight
Elasticsearch
Amazon ML
Analytics
AWS 데이터베이스 서비스
Commercial Open source Amazon Aurora
AWS 관리형 데이터베이스 서비스
Power, HVAC, net
Rack & stack
Server maintenance
OS installation
OS patches
DB s/w patches
Database backups
Scaling
High availability
DB s/w installs
App optimization
Your Server
Power, HVAC, net
Rack & stack
Server maintenance
OS installation
Amazon EC2
OS patches
DB s/w patches
Database backups
Scaling
High availability
DB s/w installs
App optimization
Amazon RDS
Power, HVAC, net
Rack & stack
Server maintenance
OS installation
OS patches
DB s/w patches
Database backups
Scaling
High availability
DB s/w installs
App optimization
“No server is easier to manage than no server”
Werner Vogels(CTO, Amazon.com)
Image: 20081108 DDP Werner_Vogels / Guido van Nispen / license
AWS Database Migration Service (AWS DMS)
DMS는 최소한의 중단 시간으로 쉽고 안전하게 AWS로데이터베이스를 마이그레이션 합니다. 가장 널리사용되는 상용 및 오픈 소스 데이터베이스간에데이터를 마이그레이션 할 수 있습니다.
Amazon Aurora
AWS Schema Conversion Tool (AWS SCT)
SCT는 데이터베이스 엔진 또는 데이터웨어 하우스엔진간에 마이그레이션 할 때, 데이터베이스 스키마 및코드 변환 작업을 자동화합니다.
Amazon Aurora
Database Migration Process
Data Lake
Data Lake는 무엇인가?
▪ Data Lake는 시스템이나 저장소 내에 원시데이터 형식으로 데이터를 저장하는 방법으로, 다양한 스키마와 구조 형식의 데이터를 지원함
▪ 원시 데이터에서 시각화, 분석 및 기계 학습을포함한 다양한 작업에 사용되는 변형 된 데이터에이르기까지 기업의 모든 데이터를 단일 저장소에저장하는 것
▪ 구조화된(Structure) 관계형 데이터베이스 (행 및열), 반 구조화(Semi-Structure) 된 데이터 (CSV, 로그, XML, JSON), 구조화되지 않은(Unstructured) 데이터 (전자 메일, 문서, PDF, 이미지, 오디오, 비디오)가 포함
Data Lake의 특징과 장점
모든 소스의 데이터를 한 곳에저장하고 분석
“데이터가 너무 많은 장소에 분산.한 곳에서 볼 수 없을까?
1. 모든 데이터를 한곳에(One Centralized Location)
Data Lake의 특징과 장점
사전에 정의된 방식을 강제하지않고, 데이터를 신속하게 수집
“다양한 소스에서 어떻게데이터를 신속하게 수집?
효율적으로 관리?
2. 신속한 데이터 추출 및 저장(Quickly Ingest Data)
Data Lake의 특징과 장점
저장공간과 분석을 위한 컴퓨팅리소스를 분리.
각 구성요소를 별도로 확장.
생성되는 데이터가 점점 증가.저장공간의 확장을 어떻게?
3. 데이터 저장과 처리를 분리(Decouple Compute & Storage)
Data Lake의 특징과 장점
4. 구조화 없이 분석 처리(Schema on Read)
여러가지 종류의 분석 및 처리프레임워크를 동일한 데이터에
적용할 수 있는 방법?
Data Lake 는 쓰기가 아닌 읽기에스키마를 적용하여 ad-hoc 분석이
가능.
Modern Data Architecture
Speed (Real-time)
Ingest ServingData sources
Scale (Batch)
Transactions
Web logs / cookies
ERP
AWS Database Migration
AWS Direct Connect
Internet Interfaces Amazon S3
Raw Data
Amazon S3
Staged Data(Data Lake)
Amazon EMRETL
Amazon RedShift
Data Warehouse
Amazon RDS Legacy Apps
Data analysts
Data scientists
Business users
Engagement platforms
Amazon ElasticSearch
Amazon Athena
Amazon Kinesis
Connected devices
Social media
Advanced Analytics
MLlib
Event CaptureAmazon Kinesis
Stream AnalysisAmazon EMR Event
Scoring
Amazon AI
Event HandlerAWS Lambda Response Handler
AWS Lambda
Near-Zero LatencyAmazon DynamoDB
Automation / events
43
사용하지 않고 흘려 보냈던,
빅데이터• 모바일 데이터• 소셜 데이터• 기계 센서 데이터• 위치시공간 데이터• 외부 데이터
빅데이터 플랫폼
비즈니스 가치
Production Use Cases
45
의 Data Lake
AmazonS3
의 Data Lake
FINRA uses Amazon EMR and Amazon S3 to process up to 75 billion trading events per day and securely store over 5 petabytes of data, attaining savings of $10-20mm per year.
의 Data Lake
▪ Most recent two years of data is kept in the Redshift data warehouse and snapshotted into S3 for disaster recovery
▪ Data between two and five years old is kept in S3
▪ Presto on EMR is used to ad-hoc query data in S3
▪ Average daily ingest of over 7B rows
▪ Migrated off legacy DW to AWS (start to finish) in 7 man-months
새로운 비즈니스
A full-service residential real estate brokerage
Redfin 은 수억 건의부동산 정보와
수백만의 고객 정보를관리
”Hot Homes” 알고리즘사용. 500여 종류의특성들을 분석하여
자동으로 매매 가능성을계산
“Day One” 부터 AWS 클라우드를 모든 부분에
사용
https://aws.amazon.com/solutions/case-studies/redfin/
새로운 비즈니스
There's an 80% chance this home will sell in the next 11 days – go tour it soon.
Hot Homes
새로운 비즈니스
Ingest/Collect
Consume/visualize
Store Process/analyze
Data1 4
0 9
5
Amazon S3Data lake
Amazon EMR
AmazonKinesis
Amazon RedShift
Answers & Insights
Hot HomesUsers
Properties
Agents
유저 프로파일에 의한 추천
Hot HomesSimilar Homes
Agent Follow-upAgent Scorecard
MarketingA/B TestingReal Time Data…
Amazon DynamoDB
BI / Reporting
Call to Action
데이터 중심의 비즈니스
▪ 데이터 버스 구성 – 데이터의 수집, 저장, 분석, 시각화, 예측 등 각단계에서 데이터가 효율적으로 사용될 수 있도록 데이터 버스를효과적으로 구성
▪ 적합한 도구 사용 – 데이터의 엑세스 패턴, 온도, 작업 형태에 따라올바른 저장소 및 도구를 사용
▪ 관리형 서비스 – 데이터 및 비즈니스 요건의 변화에 대한 빠른 대응 및비용 효율적인 빅 데이터 환경 관리를 위하여 관리형 서비스 사용
▪ 다양한 실험 – 적은 비용으로 많은 실험을 수행함으로써 새로운비즈니스 요구에 빠르게 대응
데이터 전략 워크샵으로 시작
데이터전략워크샵은, AWS 기반의어떤데이터플랫폼서비스를통해서성공적으로비즈니스가치를실현할수있는지검증하는방법을제공
Data Strategy Workshop
Data Freedom Workshop Data Lake Workshop
신규 및 기존 데이터 워크로드에 대한 현황을수집하고 진단해서 AWS의 다양한데이터베이스 서비스 중에 최적 대안을도출하고 이를 검증할 수 있는 계획 수립
빅데이터를 저장, 처리, 분석, 활용할 수 있는AWS Data Lake를 기반으로 도출할 비즈니스결과를 조사하고 이에 필요 데이터와 서비스대안을 도출해서 타당성 검증을 위한 계획 수립
Data Freedom Workshop
신규및기존데이터워크로드에대한현황을수집하고진단해서AWS의다양한데이터베이스서비스중에최적대안을도출하고이를검증할수있는계획수립
Data Freedom Workshop PoC
POC 수행 및결과 검증
데이터 워크로드현황 조사
DF1.0
데이터 워크로드진단 및 분석
DF2.0
AWS 대안 도출
DF3.0
POC 계획 수립
DF4.0
현황 진단 계획
Data Lake Workshop
빅데이터 워크샵 기반의 단기과제 도출 방안
Data Lake Workshop PoC
타당성 검토 및인프라 검증
빅데이터 기회발굴
DL1.0
환경진단 및개선과제 도출
DL2.0
아키텍처 설계안도출
DL3.0
과제 도출 및계획 수립
DL4.0
현황 진단 계획
감사합니다.