AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석...

24
AI 기반의 빅데이터품질관리 위세아이텍 데이터관리 (DM) 사업본부장 최용준 상무 2017. 4. 6.

Transcript of AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석...

Page 1: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

AI기반의 빅데이터품질관리

위세아이텍 데이터관리(DM) 사업본부장 최용준 상무

2017. 4. 6.

Page 2: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

2

Page 3: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

3

Page 4: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

4

12|00 READ

FAX & M ODEM S

Page 5: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

5

0

※ 출처: KISTI, 『빅데이터 산업의 현황과 전망 』(2013)

GAGR 낙관적 60.0% 보수적 39.4%

GAGR 25.1%

※ 출처: 한국데이터진흥원, 『2016년 데이터산업백서』

GAGR 7.8%

Page 6: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

6

Page 7: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

7

Page 8: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

8

데이터 품질 관리

제도 및 표준

데이터 품질 관리 도구 (SW)

Page 9: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

9

수집 원천 변환 활용

Page 10: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

10

측정 정의 분석 개선 Measure Define Analisys Improve

Page 11: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

11

비표준 데이터항목의 문제

Page 12: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

12

정확성의 기준은? SQL 로 진단을 ?

Page 13: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

13

데이터품질 진단 결과 오류가 발견되면 ?

개선 방안 도출 오류의 발생 지점 분석

원인 제거 일정 수립

담당자 확인

오류 유형 및 원인 파악

정보화 담당자 즉시 개선 현업 데이터 개선 캠페인

개선데이터 도출 및 반영

개선 일정 수립

AP 수정/구조 변경 비즈니스 변경

원인 제거

非 오류 처리

Page 14: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

14

지표 및 방법

빅데이터의 범위

정형 데이터

비정형 데이터

다양한 관점의 접근 방법

품질관리 모형

인적 비용 최소화를

위한 자동화

개선 평가 진단 전처리

품질 평가 라이프사이클 전 과정을 대상

다양한 유형의 데이터

진단 기술 개발

Page 15: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

15

빅데이터 전문가 의견수렴 표준화 추진 산업별 적용 및 검증

주기적 컨퍼런스를 통한 지표 객관성 확보

국내 표준화 추진 ISO 표준화 추친

실제 산업적용을 통해 ‘기준과 방법’의 정교화 및 고도화

도출

검증

산업별 특징 고려

- 우선 순위 및

중요도

값 관리

보안

값 관리

보안

데이터

이해

관계자

데이터 생명주기 (Life Cycle)

활용 관리 수집 생성

값 관리

보안

법률

금융

의료

실측기반 유형분석

실적용 고도화

다양한 계층 만족도 및 요구 기반

산업별특징 및 고려사항 반영

오류 사례의 유형화 및 일반화

데이터 全단계 주기별 상황 고려

기업 경영진

데이터 활용자

데이터 생성자

데이터 관리자

오류 사례 유형화

Page 16: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

16

정형 DQI 비(반)정형 DQI

빅데이터 품질평가 프레임워크

전체 산업계 전반의

공통 빅데이터 품질 지표

산업계 특성을 반영한

산업별 빅데이터 품질 지표

조직, 절차, 아키텍처 측면의

빅데이터 관리체계 품질 지표

빅데이터품질 수준 성숙 모형

Page 17: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

17

Real Time

Batch

전처리 진단 개선

BigData 분석

구문 분석 주제어 분석 중복 분석 유사도 측정

Decision Tree NLP SVM Clustering K-Means

기준정보 Meta Data 도메인 정보 데이터품질 패턴 데이터

피드백 데이터

지표 관리 진단대상 품질 기준 산업별 품질관리 모델

패턴 분석 이상값 탐지

DNN

평가

Page 18: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

18

인공지능 알고리즘

데이터 유형 자동 판별

수치 (금액,율,측정치..)

코드,날짜

명칭, 텍스트

이미지, 영상

문서

지표 및 방법 자동 매칭

수치

코드,날짜

명칭, 텍스트

이미지, 영상

문서

메타데이터 수집/분석

의미

형식

데이터

패턴

분석

Page 19: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

19

(날짜, 코드) 데이터 규칙 적용

날짜

코드

4/32, 20170300

성별코드 : M, F, Z, 0

문서, 이미지

비정형텍스트 분석 기술

산업별 업무규칙 관리

법률

의료

• 산업별 특화된 업무규칙 축적 및 추천

축적/피드백

• 메타분석 • 내용인식

금융

….

정상값

(수치) 이상값 탐지 : 아웃라이어

몸무게 130kg

몸무게 130kg 연령 4살

단일 항목 탐지

이상값

이상값

상관관계 복수 항목 탐지

몸무게 300kg

(텍스트) 명칭 오류 탐지

Text Data Clustering

인공지능 알고리즘

Page 20: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

20

원천데이터 수집 텍스트 형식 분석 텍스트의미 분석

비정형 원천데이터

문단간 연관성 분석

인공신경망 기반 유사도 분석

어휘의미 패턴 분석

텍스트 형식 분석 엔진

문서서식 검증

비정형 데이터 수집기

텍스트 수집 DB

언어자원 사전

정규표현 사전

서식 검증 규칙DB

Page 21: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

21

평가 개선

인공지능 알고리즘

Page 22: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

22

진단모델 선정

1

파일 유형 파악

2

의미 파악

3

메타 정보 추출

4

이상값 측정

5

업무규칙 Pool

JPEG

GIF

PNG

WAV

MP4

……..

기본 메타 분석

자동차 사고

X-RAY

MRI

CT

VOC

………

의미 분석 내용 메타 추출 이상값 측정 진단 모델 적용

품질 진단

6

95%

피드백/학습

업무 규칙 도출

의료

X-RAY “흉부 X-RAY 사진에는 흉부 사진만 나온다. “

CT “CT 촬영사진에는 빈 이미지가 나오면 안된다.”

업무규칙(BR) 예시

X-RAY 사진

X-RAY

• 팔 • 다리 • 흉부

MRI

진단모델 결과

• ……..

팔 X-RAY 사진 팔이

안나옴 (빈사진)

이상값 발견

Page 23: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

23

생성 및 관리 주체 데이터 생성 절차 시스템 환경 비즈니스 환경

오류 데이터 존재

잘못된 의사결정 사회적 경제적 손실 기관의 대외 신인도 하락

오류 데이터의 발현

Page 24: AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석 중복 분석 유사도 측정 Decision TreeNLP SVM K-Means Clustering Meta Data

감사합니다.

경기도 성남시 분당구 삼평동 621번지 이노밸리 C동 5층

대표전화 (02) 6246-1400 / 대표팩스 (02) 6246-1415

Email: [email protected] / http://www.wise.co.kr

위세아이텍 DM 사업본부장

최용준 상무 / [email protected]