[분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링
-
Upload
boaz-bigdata -
Category
Data & Analytics
-
view
241 -
download
9
Transcript of [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링
Webtoon의가능성 예측을 위한 통계적 모델링
OSMU
01OSMU�:�One�Source�Multi�Use
장난감
게임
팬시용품
이모티콘
잡화
01웹툰의 무한확장 : OSMU
OSMU
영화
도서
드라마
장난감
게임
팬시용품
이모티콘
잡화
01웹툰의 무한확장 : OSMU
OSMU
영화
도서
드라마
국내 웹툰시장 규모 추이 - KT 경제경영연구소
전체 웹툰 시장에서OSMU 시장이 차지하는비율이 빠른 속도로 증가
01웹툰 OSMU�시장 규모 증가
OSMU 가능성 예측
통계적으로 모델링 해보자!
01주제선정 : 웹툰의 OSMU�가능성 예측
02데이터 수집 : 웹 크롤링
웹툰 제목
사이트명
작가명
장르
완결 여부
OSMU 여부
댓글 참여수
추천수
평점
작가영향력
연재기간
‘화’ 수
조회수
이용자 정보
연재 요일(완)
크롤링 시점이후 변화
현재OSMU 진행 중인
웹툰정보
수집 완료 항목 수집 불가 항목
02최종 수집 데이터 항목
최종 크롤링 시점 : 2016.12.20
웹툰이미지
컬러, 감성
모델링 변수
추가적인전처리 필요
02이미지 전처리 : RGB 값 추출전처리 1단계 ㅇ웹툰 이미지 1컷 기준으로 상위 출현컬러 6색의 RGB값 추출, 3화까지 모든 웹툰 컷별로 수행
* 각 웹툰별로 1컷 기준으로 3화까지 컬러 추출 실행 (1화당 보통 3~10컷으로 구성)
* 웹툰별로 (9컷 ~ 30컷) x 6색의, 총 54~180개의 RGB 값 확보
* K-means clustering 을 사용하여 이미지에서 많이 사용된 컬러 k개를 반환해주는 (python의 color_thief 모듈)
02이미지 전처리 : 대표색으로의 분류전처리 2단계 1단계에서 확보한 RGB값 색상을 KS 기본색 15색과 거리계산을 통해 기본색 이름 부여
KS�기본 15색(유채색12+무채색3)
‘거리계산’
* python의 color_math 모듈에 내장되어 있는 delta cie 2000 equation 을 사용하여 컬러값들의 거리계산
* 1단계에서 확보한 RGB값과 KS 기본 15색과의 거리 계산을 통해 거리가 가장 가까운 색으로 기본색 이름 부여
02이미지 전처리 : 감성어휘 매칭전처리 3단계
‘거리계산’
* 1단계에서 확보한 RGB값과 40개의 감성어휘에 부여된 색상들과의 거리 계산을 통해거리가 가장 가까운 색에 해당하는 감성어로 감성어휘 부여
1단계에서 확보한 RGB값 색상을 감성어휘(40개)와 거리계산을 통해 색상에 감성어휘 부여
02이미지 전처리 결과
전처리 2단계
전처리 3단계
전처리 결과
전처리 결과 1~3단계 전처리 결과를 바탕으로 웹툰별 출현빈도 상위 10개 색에 대해 기본색, 감성어휘 확보
노랑 하양
수수한
+
제목 사이트 작가 완결여부 연재일수
색채1 색채2 색채3 감성1 감성2 감성3 무채색
총화 장르 평점 댓글참여수 추천수 작가영향력
에피소드 옴니버스 스토리 일상 코믹
판타지 액션 드라마 순정 감성
스릴러 시대극 스포츠
네이버/다음 0:미완 1:완결
03모델링에 사용할 변수 선정
작가가 현재까지연재했던 웹툰수
마지막 업데이트 날짜 : 2016.12.20
03모델링에 사용된 최종 변수
03모델링 전체 Process
모델의 Overfitting을 방지하기 위해5-folds cross-validation을 통해 모델링
모델링
Specificity
Accuracy
AUC
03최종 모델 선정Ridge
RegressionLASSO
RegressionGeneralized
Boosted ModelRandomForest
0.6931
0.5390
0.7553
0.7146
0.6471
0.6999
0.5455
0.7553
0.7159
0.6504
0.7308
0.6429
0.7327
0.7159
0.6878
0.7394
0.6792
0.7273
0.7159
0.7033BalancedAccuracy
Sensitivity
Specificity
Accuracy
AUC
03최종 모델 선정Ridge
RegressionLASSO
RegressionGeneralized
Boosted ModelRandomForest
0.6931
0.5390
0.7553
0.7146
0.6471
0.6999
0.5455
0.7553
0.7159
0.6504
0.7308
0.6429
0.7327
0.7159
0.6878
0.7394
0.6792
0.7273
0.7159
0.7033
: 모델이 실제 OSMU가 된 웹툰을 올바르게 예측할 비율
: 모델의 웹툰 OSMU 여부(O/X) 예측 정확도에 대한 보정값BalancedAccuracy
Sensitivity
Sensitivity
Specificity
Accuracy
BalancedAccuracy
AUC
03최종 모델 선정Ridge
RegressionLASSO
RegressionRandomForest
GeneralizedBoosted Model
GeneralizedBoosted Model
Sensitivity
Specificity
Accuracy
BalancedAccuracy
AUC
03최종 모델 선정Ridge
RegressionLASSO
RegressionRandomForest
GeneralizedBoosted Model
04최종 모델링 결과 : Boosted�Model
BOOSTED�METHOD(부스팅)
변수 영향력
Input Output
타당성 평가
Black�Box
변수 선택
모형 적합
Variable�1
Variable�3
Variable�2
Variable�4
Linear�Model
변수 중요도
Ensemble�Method
Input Output
04최종 모델링 결과 : Boosted�Model
BOOSTED�METHOD(부스팅)
변수 영향력
Input Output
타당성 평가
Black�Box
변수 선택
모형 적합
Variable�1
Variable�3
Variable�2
Variable�4
Linear�Model
변수 중요도
Ensemble�Method
Input Output
모델의 OSMU 예측 결과
04최종 예측 결과 : 미완결 웹툰의 OSMU�예측
현재OSMU (O)
현재OSMU (X)
예측 (O) 13개 7개
예측 (X) 4개 0개
현재OSMU (O)
현재OSMU (X)
예측 (O) 6개 18개
예측 (X) 0개 0개
04향후 모델 활용 가능성