AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석...
Transcript of AI기반의 빅데이터품질관리 · BigData 기준정보분석 구문 분석 주제어 분석...
AI기반의 빅데이터품질관리
위세아이텍 데이터관리(DM) 사업본부장 최용준 상무
2017. 4. 6.
2
3
4
12|00 READ
FAX & M ODEM S
5
0
※ 출처: KISTI, 『빅데이터 산업의 현황과 전망 』(2013)
GAGR 낙관적 60.0% 보수적 39.4%
GAGR 25.1%
※ 출처: 한국데이터진흥원, 『2016년 데이터산업백서』
GAGR 7.8%
6
7
8
데이터 품질 관리
제도 및 표준
데이터 품질 관리 도구 (SW)
9
수집 원천 변환 활용
10
측정 정의 분석 개선 Measure Define Analisys Improve
11
비표준 데이터항목의 문제
12
정확성의 기준은? SQL 로 진단을 ?
13
데이터품질 진단 결과 오류가 발견되면 ?
개선 방안 도출 오류의 발생 지점 분석
원인 제거 일정 수립
담당자 확인
오류 유형 및 원인 파악
정보화 담당자 즉시 개선 현업 데이터 개선 캠페인
개선데이터 도출 및 반영
개선 일정 수립
AP 수정/구조 변경 비즈니스 변경
원인 제거
非 오류 처리
14
지표 및 방법
빅데이터의 범위
정형 데이터
비정형 데이터
다양한 관점의 접근 방법
품질관리 모형
인적 비용 최소화를
위한 자동화
개선 평가 진단 전처리
품질 평가 라이프사이클 전 과정을 대상
다양한 유형의 데이터
진단 기술 개발
15
빅데이터 전문가 의견수렴 표준화 추진 산업별 적용 및 검증
주기적 컨퍼런스를 통한 지표 객관성 확보
국내 표준화 추진 ISO 표준화 추친
실제 산업적용을 통해 ‘기준과 방법’의 정교화 및 고도화
도출
검증
산업별 특징 고려
- 우선 순위 및
중요도
값 관리
보안
값 관리
보안
데이터
이해
관계자
데이터 생명주기 (Life Cycle)
활용 관리 수집 생성
값 관리
보안
법률
금융
의료
실측기반 유형분석
실적용 고도화
다양한 계층 만족도 및 요구 기반
산업별특징 및 고려사항 반영
오류 사례의 유형화 및 일반화
데이터 全단계 주기별 상황 고려
기업 경영진
데이터 활용자
데이터 생성자
데이터 관리자
오류 사례 유형화
16
정형 DQI 비(반)정형 DQI
빅데이터 품질평가 프레임워크
전체 산업계 전반의
공통 빅데이터 품질 지표
산업계 특성을 반영한
산업별 빅데이터 품질 지표
조직, 절차, 아키텍처 측면의
빅데이터 관리체계 품질 지표
빅데이터품질 수준 성숙 모형
17
Real Time
Batch
전처리 진단 개선
BigData 분석
구문 분석 주제어 분석 중복 분석 유사도 측정
Decision Tree NLP SVM Clustering K-Means
기준정보 Meta Data 도메인 정보 데이터품질 패턴 데이터
피드백 데이터
지표 관리 진단대상 품질 기준 산업별 품질관리 모델
패턴 분석 이상값 탐지
DNN
평가
18
인공지능 알고리즘
데이터 유형 자동 판별
수치 (금액,율,측정치..)
코드,날짜
명칭, 텍스트
이미지, 영상
문서
지표 및 방법 자동 매칭
수치
코드,날짜
명칭, 텍스트
이미지, 영상
문서
메타데이터 수집/분석
의미
형식
데이터
패턴
분석
19
(날짜, 코드) 데이터 규칙 적용
날짜
코드
4/32, 20170300
성별코드 : M, F, Z, 0
문서, 이미지
비정형텍스트 분석 기술
산업별 업무규칙 관리
법률
의료
• 산업별 특화된 업무규칙 축적 및 추천
축적/피드백
• 메타분석 • 내용인식
금융
….
정상값
(수치) 이상값 탐지 : 아웃라이어
몸무게 130kg
몸무게 130kg 연령 4살
단일 항목 탐지
이상값
이상값
상관관계 복수 항목 탐지
몸무게 300kg
(텍스트) 명칭 오류 탐지
Text Data Clustering
인공지능 알고리즘
20
원천데이터 수집 텍스트 형식 분석 텍스트의미 분석
비정형 원천데이터
문단간 연관성 분석
인공신경망 기반 유사도 분석
어휘의미 패턴 분석
텍스트 형식 분석 엔진
문서서식 검증
비정형 데이터 수집기
텍스트 수집 DB
언어자원 사전
정규표현 사전
서식 검증 규칙DB
21
평가 개선
인공지능 알고리즘
22
진단모델 선정
1
파일 유형 파악
2
의미 파악
3
메타 정보 추출
4
이상값 측정
5
업무규칙 Pool
JPEG
GIF
PNG
WAV
MP4
……..
기본 메타 분석
자동차 사고
X-RAY
MRI
CT
VOC
………
의미 분석 내용 메타 추출 이상값 측정 진단 모델 적용
품질 진단
6
95%
피드백/학습
업무 규칙 도출
의료
X-RAY “흉부 X-RAY 사진에는 흉부 사진만 나온다. “
CT “CT 촬영사진에는 빈 이미지가 나오면 안된다.”
업무규칙(BR) 예시
X-RAY 사진
X-RAY
• 팔 • 다리 • 흉부
MRI
진단모델 결과
• ……..
팔 X-RAY 사진 팔이
안나옴 (빈사진)
이상값 발견
23
생성 및 관리 주체 데이터 생성 절차 시스템 환경 비즈니스 환경
오류 데이터 존재
잘못된 의사결정 사회적 경제적 손실 기관의 대외 신인도 하락
오류 데이터의 발현
감사합니다.
경기도 성남시 분당구 삼평동 621번지 이노밸리 C동 5층
대표전화 (02) 6246-1400 / 대표팩스 (02) 6246-1415
Email: [email protected] / http://www.wise.co.kr
위세아이텍 DM 사업본부장
최용준 상무 / [email protected]