13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 ·...

12
1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적 여러 개의 요인(변수: variable)종합하여 단순화시켜서 종합적인 특성을 살핌. 1. 설명변수의 선택 2. 일단 모수 통계(ANOVA, )실행하기 변수의 분포가 가설조건(assumption of the analysis of variance)만족하는지 여부를 확인 (만약 가설- homogeneity normality test 변수의 변환(data transformation)결정) 주성분 분석의 실시. 특히 0 값이 많은 경우는 변수에 일정수치를 해준후 log 변환. 3. 보고자하는 관점에 따라 분석시 공분산 (covariance matrix) 또는 상관 행렬(correlation matrix)선택적으로 사용. · 공분산행렬 사용: 변수들의 절대 값을 이용한 행렬을 구하여 성분분석을 수행. - 가령 식물플랑크톤의 종별 개체수 혹은 영양염 농도로 수괴 특성 분석을 하는데 이들 절대적 수치가 수괴특성분석시 중요하다면 분산행렬을 이용한 주성분분석을 해야 한다. 이분석 결과는 수치의 변화가 변수일수록 주성분분석시 많은 영향을 것이다. · 상관행렬 사용: 하지만 모든 변수를 표준화하여 변수들의 상대적인 변화에 촛점을 둔다든지, 특히 변수의 단위가 다를 경우에는 상관행렬을 이용한 성분분석을 실행해야 한다. - 가령 어떤 변수는 변화량이 작지만 이런 작은 변화가 변화량이 변수와 같은 영향을 가진다면 상관행렬을 이용한 성분분석이 적당할 것이다. 물론 두가지 행렬을 이용한 결과를 비교해보는 것도 사용한 변수들의 중요성과 차이를 이해하고 주성분분석의 결과를 해석하는데 도움을 준다. 4. 주성분 분석에서 얻어진 고유치(Eigenvalue) 혹은 고유벡터(Eigenvector) 또는 인자 부하량 (factor loading)해석. 분산행렬에서는 고유벡터와 인자부하량사이의 값이 다르지만 상관행렬에서는 같은 값이며 같은 의미이다. 기여율이 높은 주성분(대체로 1 에서 3 주성분)에서 고유벡터나

Transcript of 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 ·...

Page 1: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

1

강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적 – 여러 개의 요인(변수: variable)을 종합하여 단순화시켜서 종합적인 특성을 살핌. 1. 설명변수의 선택 2. 일단 모수 통계(ANOVA, )를 실행하기 전 각 변수의 분포가 가설조건(assumption of the analysis of variance)을 만족하는지 여부를 확인 후 (만약 가설- homogeneity 와 normality test로 변수의 변환(data transformation)을 결정) 주성분 분석의 실시. 특히 0값이 많은 경우는 변수에 일정수치를 더 해준후 log로 변환. 3. 보고자하는 관점에 따라 분석시 공분산 (covariance matrix) 또는 상관 행렬(correlation matrix)을 선택적으로 사용. · 공분산행렬 사용: 변수들의 절대 값을 이용한 행렬을 구하여 성분분석을 수행. - 가령 식물플랑크톤의 종별 개체수 혹은 영양염 농도로 수괴 특성 분석을 하는데 이들 절대적 수치가 수괴특성분석시 중요하다면 분산행렬을 이용한 주성분분석을 해야 한다. 이분석 결과는 수치의 변화가 큰 변수일수록 주성분분석시 많은 영향을 줄 것이다.

· 상관행렬 사용: 하지만 모든 변수를 표준화하여 변수들의 상대적인 변화에 촛점을 둔다든지, 특히 변수의 단위가 다를 경우에는 상관행렬을 이용한 주 성분분석을 실행해야 한다.

- 가령 어떤 변수는 그 변화량이 작지만 이런 작은 변화가 변화량이 큰 변수와 같은 영향을 가진다면 상관행렬을 이용한 주 성분분석이 적당할 것이다. 물론 두가지 행렬을 이용한 결과를 비교해보는 것도 사용한 각 변수들의 중요성과 차이를 이해하고 주성분분석의 결과를 해석하는데 도움을 준다.

4. 주성분 분석에서 얻어진 고유치(Eigenvalue) 혹은 고유벡터(Eigenvector) 또는 인자 부하량 (factor loading)의 해석. 분산행렬에서는 고유벡터와 인자부하량사이의 값이 다르지만 상관행렬에서는 같은 값이며 같은 의미이다. 기여율이 높은 주성분(대체로 제 1에서 제 3 주성분)에서 고유벡터나

Page 2: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

2

인자부하량의 절대값이 높은 변수가 주성분에 가장 큰 영향을 주며 이를 통해서 결과를 해석할 수 있다. 아래에 예를 참조 예) 다음의 결과는 한강에 유입되는 7개 지천에 대한 수질 조사 이다. 이 결과를 이용하여 어느 지천이 가장 오염되었는지 알아보기 위해 주 성분분석을 실시하였다.

설명변수 용존산소량 생물학적 산소요구량

표본 (x1) (x2) 1. 남한강 10.2 1.7 2. 북한강 10.1 2.6 3. 임진강 8.4 7.4 4. 섬진강 11.0 1.1 5. 주천강 9.9 1.0 6. 왕숙천 9.1 2.7 7. 청계천 1.2 47.5

용존 산소량 – 낮을 수록 생물이 서식이 어렵다. 생물학적 산소요구량 - 물 속의 유기물이 분해되는데 필요한 용존 산소량으로 수치가 높을수록 오염된 강이다.

· 공분산행렬을 이용한 주성분 분석의 결과 고유치(Eigenvalue) proportion 제 1 주성분 0.999 제 2 주성분 0.001 고유벡터(Eigenvector) 제 1 주성분 제 2 주성분

용존산소량 -0.1905 0.9817 생물학적 산소요구량 0.9817 0.1905

Page 3: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

3

인자 부하량 (factor loading) 제 1 주성분: 용존산소 = - 0.1905, BOD = 0.9817 제 2 각 ID의 Score 계산방법 = 제 1주성분 첫번째 인자 부하량*(첫번째인자 실측데이타 – 평균) + 2번째인자부하량*(2번째인자 실측자료-평균) = -0.1905*(10.2-8.5571)+0.9817*(1.7-9.1429) = -7.619 주성분 득점(Scores)

ID 제 1 주성분 제 2 주성분 1. 남한강 -7.619 0.194 2. 북한강 -6.717 0.268 3. 임진강 -1.681 -0.486 4. 섬강 -8.361 0.866 5. 주천강 -8.250 -0.233 6. 왕숙천 -6.428 -0.695 7. 청계천 39.056 0.085

해석- 이 주성분 분석의 결과는 제 1주성분이 99%이상을 설명한다. 제 1주성분의 득점은 주로 생물학적산소 요구량에 의해 결정나며 제 2 주성분은 주로 용존산소량에 의해 득점이 결정났다. 하지만 여기에서 제 2주성분은 1% 미만이므로 무시해도 상관없다. 그러므로 이 주성분 분석에서 제 1주성분의 득점이 가장 높은 청계천이 가장 오염된 강이며 섬강이 가장 깨끗하다라고 해석할 수 있다. · 상관행렬을 이용한 주성분 분석의 결과 고유치(Eigenvalue) proportion 제 1 주성분 0.994 제 2 주성분 0.006

Page 4: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

4

고유벡터(Eigenvector) 제 1 주성분 제 2 주성분

용존산소량 0.7071 0.7071 생물학적 산소요구량 -0.7071 0.7071 주성분 득점 ID 제 1 주성분 제 2 주성분 1. 남한강 0.655 0.194 2. 북한강 0.597 0.054 3. 임진강 0.039 -0.105 4. 섬진강 0.849 0.182 5. 주천강 0.621 -0.054 6. 왕숙천 0.382 -0.152 7. 청계천 -3.144 0.037 해석- 이 주성분 분석의 결과는 제 1주성분이 99%이상을 설명한다. 제 1주성분의 득점이 + 인 경우는 주로 용존산소량에 – 인 경우는 생물학적산소 요구량에 의해 결정나며 제 2 주성분은 주로 용존산소량과생물학적산소 요구량모두에 의해 득점이 결정났다. 하지만 여기에서도 제 2주성분은 1% 미만이므로 무시해도 상관없다. 그러므로 이 주성분 분석에서 제 1주성분의 득점이 가장 낮은 청계천이 가장 오염된 강이며 그다음은 임진강이라고 해석할 수 있다. · 다음은 주성분 분석을 위한 예제 SPSS 수행과정과 output 그리고 결과요약 그림

Page 5: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

5

메뉴 – 분석(Analyze) – 데이터 축소(Dimension Reduction) – 요인분석(Factor)

Page 6: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

6

Output – 상관행렬 선택시

Page 7: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

7

Page 8: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

8

Factor scores appeared on the data sheet

Minitab software 활용 결과 (score plot)

543210-1-2

0.50

0.25

0.00

-0.25

-0.50

첫 번째 성분

두 번

째 성

청계천

왕숙천

주천강

섬진강

임진강

북한강

남한강

C2, ..., C5의 점수 그림

변수 PC1 PC2

DO -0.510 -0.085

BOD 0.503 0.410

Page 9: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

9

POC 0.485 -0.849

Ecoli 0.502 0.324

Output – 공분산 행렬 선택시

Page 10: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

10

Page 11: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

11

Factor scores appeared on the data sheet

Minitab software 활용 결과 Loadings 변수 PC1 PC2

DO -0.001 0.139

BOD 0.003 -0.989

POC 0.000 -0.045

Ecoli 1.000 0.003

Score plot

2000015000100005000

22

20

18

16

14

12

10

첫 번째 성분

두 번

째 성

청계천

왕숙천

주천강

섬진강

임진강

북한강

남한강

C2, ..., C5의 점수 그림

Page 12: 13. 주성분 분석(PCA)contents.kocw.net/KOCW/document/2016/ust/jusejong/13.pdf · 2017-01-23 · 1 강의 13 – 다변량 분석 (주성분 분석) 13. 주성분 분석(PCA) 목적

12

Example for the Presentation of PCA analysis

A) Loading plot

B) Score plot