수원대학교 통계정보학과 김 진 흠 email: [email protected] 2006. 9. 13

수원대학교 통계정보학과수원대학교 통계정보학과김 진 흠김 진 흠

email: email: [email protected]

2006. 9. 13 2006. 9. 13

mailto:[email protected]

몇가지 용어들몇가지 용어들

주성분 분석주성분 분석

인자 분석인자 분석

군집 분석군집 분석

참고 문헌참고 문헌

행은 개체행은 개체 ( ), ( ), 열은 변수열은 변수 ( ), ( ), 일반적으로 일반적으로

고객만족자료

11 12 1

21 22 2

1 2

p

p

n n np

x x x

x x x

x x x

X

n pn p

◈ ◈ 상관계수 행렬: : 행렬

(( 대각원소는 대각원소는 1)1)

◈ ◈ 공분산 행렬: : : : 행렬 행렬

(( 대각원소는 분산대각원소는 분산 , , 그 외는 공분산그 외는 공분산 ))

◈ ◈ 평균:

변수 의 표본평균변수 의 표본평균

1

1 n

j iji

m xn

( 1, , )j p

jX

p p( )jkS s

1

1( )( )

1

n

jk ij j ik ki

s x m x mn

( , 1, , )j k p

( )jkR r p p

jkjk

jj kk

sr

s s ( 1, , )j k p

vs.vs.

◈ ◈ 중심화중심화 : :

(( 평균은 평균은 0, 0, 분산과 공분산은 불변분산과 공분산은 불변 ))

◈ ◈ 표준화표준화 : :

(( 평균은 평균은 0, 0, 분산은 분산은 1, 1, 공분산은 상관계공분산은 상관계수수 ))

ij ij ij jx y x m

ij jij ij

jj

x mx z

s

◈ ◈ 유크리드 거리는 변수 간 서로 연관이 없고 유크리드 거리는 변수 간 서로 연관이 없고

분산이 분산이 1 1 임을 가정한 측도임을 가정한 측도

◈ ◈ Mahalanobis Mahalanobis 거리는 변수 간 상관의 크기와거리는 변수 간 상관의 크기와

방향을 고려한 측도방향을 고려한 측도

(( 제곱 유크리드 거리 제곱 유크리드 거리 vs. Mahalanobis vs. Mahalanobis 거리거리 ))

◈ ◈ : : 상수벡터상수벡터 , ,

: : 확률벡터라 할 때확률벡터라 할 때 ,,

1 2( , , , )pa a a a

1 2( , , , )pX X X X

1 1 2 2 p pY a X a X a X a X

◈ ◈ 변수변수 (( 집단집단 ) ) 간 종속 관계에 관심 있을 때간 종속 관계에 관심 있을 때

Discrete MDA

MANOVADiscrete DA,

ConjointANOVA범주형

MDACCADA, Logistic

RegMultiple Reg연속형

2 개 +

Discrete MDAMANOVADiscrete DAt-test범주형

MDACCADA, Logistic

RegRegression연속형1 개

범주형연속형범주형연속형

2 개 +1 개

종속변수

독립변수

◈ ◈ 변수 간 내적 종속 관계에 관심이 있을 때변수 간 내적 종속 관계에 관심이 있을 때

Multi-way Contingency table, Loglinear Model, Correspondence AnalysisPCA, FA2 개 +

2-Way Contingency table, Loglinear ModelCorrelation analysis

2 개

범주형연속형

자료 형태변수개수　

( Principal Component ( Principal Component Analysis)Analysis)

원변수의 선형결합 원변수의 선형결합 (( 소위 주성분소위 주성분 )) 으로으로

표현된 몇 개의 변수표현된 몇 개의 변수 ( < )( < ) 로 원변수 간의 로 원변수 간의

공분산 구조를 설명하고자 함공분산 구조를 설명하고자 함

p

차원 축소로 해석이 쉬워지고차원 축소로 해석이 쉬워지고 , , 주성분주성분

지시자를 통해 개체 간 특성에 따른지시자를 통해 개체 간 특성에 따른

분류가 가능분류가 가능

1. 2001. 200 대 기업의 재무상황을 평가하기 위해 대 기업의 재무상황을 평가하기 위해

각 기업으로부터 각 기업으로부터 2020 여개의 재무변수를 여개의 재무변수를

측정했을 때측정했을 때 , 20, 20 여개의 변수 대신 여개의 변수 대신 2,32,3개개

정도의 지시자를 개발하여 기업의 재무정도의 지시자를 개발하여 기업의 재무

특성 파악을 손쉽게특성 파악을 손쉽게

2. 20002. 2000 명의 대학생들을 대상으로 사회적 명의 대학생들을 대상으로 사회적

태도태도 , , 문화적 경향문화적 경향 , , 라이프 스타일 등 라이프 스타일 등

100100 여 개 문항에 대한 설문조사를 했을 여 개 문항에 대한 설문조사를 했을

때때 , , 모집단을 세분화하여 집단 별 사회적 모집단을 세분화하여 집단 별 사회적

특성을 파악 특성을 파악

고유값 을 고유값 을

갖는 공분산행렬 라 하고갖는 공분산행렬 라 하고 , , 개 선형개 선형

결합이 다음과 같다고 할 때결합이 다음과 같다고 할 때 , ,

를 구하는 문제를 구하는 문제 !!!!

1( , , )pX X X 1 2 0p

p

1 2, , , pa a a

1 1 11 1 12 2 1p pY a X a X a X a X

2 2 21 1 22 2 2 p pY a X a X a X a X

1 1 2 2p p p p pp pY a X a X a X a X

◈ ◈ 두 조건두 조건

1.1. 주성분의 분산 을 최대로주성분의 분산 을 최대로

2.2. 주성분은 서로 독립 관계를 유지하도록주성분은 서로 독립 관계를 유지하도록

◈ ◈ 해해 : : 를 에 를 에

대응하는 고유벡터라 하면대응하는 고유벡터라 하면 , , 번째 주성분은 번째 주성분은

( )i i iVar Y a a

1 2, , , pe e e 1 2, , , p

1 1 2 2i i i i ip pY e X e X e X e X

i

1.1.

2. 2. 총 분산총 분산 ( ( 의 대각원소 합의 대각원소 합 ))

==

( )i iVar Y

1 2 p

◈ ◈ 답은 주관적임답은 주관적임

◈ ◈ 참고하는 기준들참고하는 기준들

1. 11. 1 보다 큰 고유값을 갖는 주성분들 보다 큰 고유값을 갖는 주성분들

(( 표준화된 자료를 사용했을 때에만표준화된 자료를 사용했을 때에만 ))

2. Scree 2. Scree 그림그림 (( 가로축가로축 : : 주성분 개수주성분 개수 , , 세로축세로축 : : 고유값고유값 ): ):

기울기가 심하게 변하기 전까지의 주성분만 이용기울기가 심하게 변하기 전까지의 주성분만 이용

3. 3. 총 분산을 설명하는 양으로총 분산을 설명하는 양으로

◈ ◈ 주성분 계수와 부호를 고려하여주성분 계수와 부호를 고려하여

◈ ◈ 예예 : : 인체 측정 자료인체 측정 자료

(( 신체의 전반적인 크기신체의 전반적인 크기 ))1 1 2 3 4 50.34 0.45 0.40 0.55 0.47Y X X X X X

(( 신장대비 체중으로 본 신체적 형태신장대비 체중으로 본 신체적 형태 ))2 1 2 3 4 50.60 0.41 0.54 0.08 0.42Y X X X X X

◈ ◈ 주성분 공간 위에 각 개체의 주성분 점수 주성분 공간 위에 각 개체의 주성분 점수

를 나타내어 를 나타내어

개체들의 분포형태 및 개체간 유사성 등을 개체들의 분포형태 및 개체간 유사성 등을

관찰 개체 플롯관찰 개체 플롯

◈ ◈ 행렬 의 개 행렬 의 개

행 좌표값을 나타낸 플롯과 함께 나타내면 행 좌표값을 나타낸 플롯과 함께 나타내면

개체 특성 파악이 용이해짐 변수 플롯개체 특성 파악이 용이해짐 변수 플롯

1 2, , , ( )se x e x e x s p

1 2[ | | | ]se e e p

◈ ◈ 공분산 행렬공분산 행렬 (( 중심화 자료중심화 자료 ) ) vs. 상관계수 행렬상관계수 행렬 (( 표준화 자표준화 자료료 ))

- - 상관계수행렬은 척도불변하기 때문에 측정 단위에 무관상관계수행렬은 척도불변하기 때문에 측정 단위에 무관

- - 변수간 분산이 크게 다르면 변이가 큰 분산을 갖는 변수변수간 분산이 크게 다르면 변이가 큰 분산을 갖는 변수

들에 의해 주성분이 결정될 수 있음들에 의해 주성분이 결정될 수 있음

- - 동일 단위로 측정되었을 때는 공분산 행렬 선호 동일 단위로 측정되었을 때는 공분산 행렬 선호

◈ ◈ 주성분 분석 주성분 분석 vs. 인자 분석인자 분석

- - 주성분 분석은 개체 중심의 차원 축소주성분 분석은 개체 중심의 차원 축소 , , 인자분석은 변수인자분석은 변수

중심의 차원 축소 중심의 차원 축소

-- 개체 간 친소 관계 위주로 보기 위해서는 주성분 분석의 개체 간 친소 관계 위주로 보기 위해서는 주성분 분석의

개체 플롯개체 플롯 , , 변수들을 시각적으로 군집화하기 위한 변수들을 시각적으로 군집화하기 위한

목적으로는 인자 분석의 변수 플롯 선호목적으로는 인자 분석의 변수 플롯 선호

◈ ◈ 문법문법

PROC PRINCOMP <options>;PROC PRINCOMP <options>;

BY BY variablesvariables;;

VAR VAR variablesvariables;;

◈ ◈ 여러 옵션들여러 옵션들 ＊＊ DATA=DATA=SAS-data-set SAS-data-set : : 분석 대상이 되는 분석 대상이 되는 SAS data setSAS data set

＊＊ OUT=OUT=SAS-data-set SAS-data-set : : 원자료와 주성분 점수를 포함하는 원자료와 주성분 점수를 포함하는

SAS dada set SAS dada set 생성생성

＊＊ OUTSTAT=OUTSTAT= SAS-data-set SAS-data-set : : 기술통계량기술통계량 (( 평균평균 , , 표준편차표준편차 , , 자료수자료수 , , 공분공분산산 , ,

상관계수상관계수 ), ), 고유값과 고유벡터을 포함하는 고유값과 고유벡터을 포함하는

SAS data set SAS data set 생성생성

＊＊ COV: COV: 공분산 행렬로 주성분 분석 수행공분산 행렬로 주성분 분석 수행 , , 생략하면 상관계수 행렬로 생략하면 상관계수 행렬로

주성분 분석 수행주성분 분석 수행

＊＊ N= : N= : 주성분의 개수 지정주성분의 개수 지정 , , 생략하면 변수 개수 만큼생략하면 변수 개수 만큼

◈ ◈ 예예

DATA satis;DATA satis;

INPUT subject gender $ age x1 x2 x3 x4 x5;INPUT subject gender $ age x1 x2 x3 x4 x5;

DATALINES;DATALINES;

1 F 10 1 2 4 1 11 F 10 1 2 4 1 1

10 M 50 5 5 5 4 410 M 50 5 5 5 4 4

;;

PROC PRINCOMP DATA=satis COV OUTSTAT=out1 OUT=out2;PROC PRINCOMP DATA=satis COV OUTSTAT=out1 OUT=out2;

VAR x1-x5;VAR x1-x5;

RUN;RUN;

◈ ◈ 입력자료가 원자료 행렬 대신 공분산 행렬이나 입력자료가 원자료 행렬 대신 공분산 행렬이나

상관계수 행렬인 경우상관계수 행렬인 경우

* SAS data set * SAS data set 정의 시 정의 시 TYPE=CORR(TYPE=CORR( 혹은 혹은 COV) COV) 옵션을 사용옵션을 사용

하여 입력 자료가 상관 계수 행렬 혹은 공분산 행렬임을 표시하여 입력 자료가 상관 계수 행렬 혹은 공분산 행렬임을 표시

* * 문자형 변수인 문자형 변수인 _TYPE_ _TYPE_ 은 은 CORR , COV , STD , N CORR , COV , STD , N 값을 갖고값을 갖고 ,,

_NAME_ _NAME_ 은 변수의 이름을 가짐은 변수의 이름을 가짐

* TYPE=CORR * TYPE=CORR 인 경우에는 인 경우에는 _TYPE_ _TYPE_ 변수에 반드시 변수에 반드시 CORRCORR 이 이

포함 되어야 하고포함 되어야 하고 , TYPE=COV , TYPE=COV 인 경우에는 인 경우에는 _TYPE_ _TYPE_ 변수에변수에

반드시 반드시 COV , STD , N COV , STD , N 이 포함 되어야 함이 포함 되어야 함

◈ ◈ 예제 예제 (( 표본 상관행렬표본 상관행렬 )) Data bloodcor( TYPE=CORR);Data bloodcor( TYPE=CORR);

input _type_ $ _name_ $ x1 x2 x3 x4 x5 x6 x7 x8;input _type_ $ _name_ $ x1 x2 x3 x4 x5 x6 x7 x8;


Corr x1 1 . . . . . . . Corr x1 1 . . . . . . .

Corr x2 0.29 1 . . . . . .Corr x2 0.29 1 . . . . . .

Corr x3 0.20 0.42 1 . . . . .Corr x3 0.20 0.42 1 . . . . .

Corr x4 -0.06 0.29 0.42 1 . . . .Corr x4 -0.06 0.29 0.42 1 . . . .

Corr x5 -0.11 -0.38 -0.52 -0.88 1 . . .Corr x5 -0.11 -0.38 -0.52 -0.88 1 . . .

Corr x6 -0.25 -0.35 -0.44 -0.08 0.21 1 . .Corr x6 -0.25 -0.35 -0.44 -0.08 0.21 1 . .

Corr x7 -0.23 -0.16 -0.15 0.02 0.03 0.19 1 .Corr x7 -0.23 -0.16 -0.15 0.02 0.03 0.19 1 .

Corr x8 0.06 -0.13 -0.08 -0.13 0.15 0.08 0.42 1Corr x8 0.06 -0.13 -0.08 -0.13 0.15 0.08 0.42 1

STD . 0.37 41.25 1.94 0.08 0.08 4.04 2.73 0.30STD . 0.37 41.25 1.94 0.08 0.08 4.04 2.73 0.30

N . 100 100 100 100 100 100 100 100N . 100 100 100 100 100 100 100 100

;;

Run;Run;

◈ ◈ Ods Graphics Ods Graphics 사용사용

고유값고유값 , , 주성분점수 행렬주성분점수 행렬 , , 주성분 패턴주성분 패턴

(( 원변수와 주성분과의 상관계수원변수와 주성분과의 상관계수 )) 을을

그래프 형식으로 출력그래프 형식으로 출력

SAS PROGRAMSAS PROGRAM

PROC PRINCOMP DATA=satis OUTSTAT=out1 OUT=out2;PROC PRINCOMP DATA=satis OUTSTAT=out1 OUT=out2;

VAR x1-x5; VAR x1-x5;

RUN;RUN;


PROC PRINT DATA=out1;PROC PRINT DATA=out1;

RUN;RUN;



RUN;RUN;

( Factor Analysis )( Factor Analysis )

변수들 간에 존재하는 상관구조를 몇 개의변수들 간에 존재하는 상관구조를 몇 개의

공동 요인공동 요인 (( 인자인자 )) 에 의해 설명하고자 함에 의해 설명하고자 함

차원축소가 가능하며 해석이 용이해짐차원축소가 가능하며 해석이 용이해짐

- - 공통인자 모형공통인자 모형 : ,: ,

:: 확률벡터확률벡터 , :, : 인자적재행렬인자적재행렬

1

2

p

X

XX

X

11 12 1

21 22 2

1 2

m

m

p p pm

l l l

l l lL

l l l

( )m p

X LF F m

:: 공통인자벡터공통인자벡터 , ,

대각 행렬 대각 행렬 :: 특수인자벡터특수인자벡터

1

2 (0, )

m

F

FF I

F

1

2 (0, : )

p

번째 변수의 분산번째 변수의 분산 == 공통성공통성 ++ 특수분산 특수분산

2 2

1

( )m

i ij ij

Var X l

i

,L

◈ ◈ 대표적인 세가지 방법대표적인 세가지 방법 : : 주성분법주성분법 , , 주축인자법주축인자법 , , 최대우도법최대우도법

* * 주축인자법주축인자법 : : 의 시작값을 갖고서 을 추정한 후의 시작값을 갖고서 을 추정한 후

동일한 과정을 반복하여 수렴해가 얻어질동일한 과정을 반복하여 수렴해가 얻어질

때까지때까지

* * 최대우도법최대우도법 : : 의 분포가 정규분포라는 가정하에의 분포가 정규분포라는 가정하에

◈ ◈ 공통인자의 개수는 주관적이지만 고유인자 공헌도공통인자의 개수는 주관적이지만 고유인자 공헌도 ,,

scree scree 그림을 참고하여 결정그림을 참고하여 결정

L

,F

◈ ◈ 인자패턴에 대한 좀더 쉬운 해석이 가능하도록 인자패턴에 대한 좀더 쉬운 해석이 가능하도록

하기 위해서 하기 위해서

◈ ◈ 공통성은 직교변환에 의해 변하지 않음공통성은 직교변환에 의해 변하지 않음

◈ ◈ 대표적인 세가지 방법대표적인 세가지 방법 : :

Varimax, Quartimax(Varimax, Quartimax(직교회전직교회전 ), Promax(), Promax( 사각회전사각회전 ))

-Varimax: -Varimax: 동일인자 내 변동이 커지도록동일인자 내 변동이 커지도록

-Quartimax: -Quartimax: 동일변수 내 변동이 커지도록동일변수 내 변동이 커지도록

Biplot: Biplot: ◈ ◈ 변수플롯변수플롯 : : 인자공간 상에 인자적재행렬을 표시인자공간 상에 인자적재행렬을 표시

변수 간 내적은 두 변수 간 상관관계와 유사변수 간 내적은 두 변수 간 상관관계와 유사 , ,

즉 가까이 있으면즉 가까이 있으면 (( 각이 작으면각이 작으면 ) ) 서로 밀접한 서로 밀접한

관계를 뜻함관계를 뜻함

◈ ◈ 개체플롯개체플롯 : : 인자공간 상에 인자점수를 표시인자공간 상에 인자점수를 표시

인자점수 간 거리는 두 개체 간 인자점수 간 거리는 두 개체 간 Mahalanobis Mahalanobis

거리 거리


PROC FACTOR <options>;PROC FACTOR <options>;



◈ ◈ 예예 DATA satis;DATA satis;

INPUT subject gender $ age x1 x2 x3 x4 x5;INPUT subject gender $ age x1 x2 x3 x4 x5;


1 F 10 1 2 4 1 11 F 10 1 2 4 1 1

10 M 50 5 5 5 4 410 M 50 5 5 5 4 4

;;

PROC FACTOR DATA=satis COV OUTSTAT=out1 OUT=out2 ROTATE=VARIMAX;PROC FACTOR DATA=satis COV OUTSTAT=out1 OUT=out2 ROTATE=VARIMAX;


RUN;RUN;


PROC FACTOR DATA=satis OUTSTAT=out1 OUT=out2PROC FACTOR DATA=satis OUTSTAT=out1 OUT=out2

METHOD=PRINCIPAL NFACTORS=2METHOD=PRINCIPAL NFACTORS=2 ROTATE=VARIMAX PLOT; ROTATE=VARIMAX PLOT;


RUN;RUN;

Initial Factor Method: Principal ComponentsInitial Factor Method: Principal Components

Rotation Method: VarimaxRotation Method: Varimax



RUN;RUN;

( Cluster Analysis )( Cluster Analysis )

관심 있는 변수에 대해 서로 유사한 특성을관심 있는 변수에 대해 서로 유사한 특성을

지닌 개체들을 묶어 군집을 만들고 군집 내지닌 개체들을 묶어 군집을 만들고 군집 내

개체들의 특성을 파악하고 군집 간 특성을개체들의 특성을 파악하고 군집 간 특성을

서로 비교하기 위함서로 비교하기 위함

1. 1. 전국의 소비자들을 나이전국의 소비자들을 나이 , , 성성 , , 소득소득 , , 라이프 라이프 스타일스타일

등을 기준으로 그룹으로 나눈 뒤 각 그룹을 겨냥한 등을 기준으로 그룹으로 나눈 뒤 각 그룹을 겨냥한

제품개발 및 홍보에 활용제품개발 및 홍보에 활용

2. 2. 프로야구 선수프로야구 선수 ((투수부문투수부문 )) 들의 연봉 협상을 위해 들의 연봉 협상을 위해

지난 시즌 동안의 이긴 게임수지난 시즌 동안의 이긴 게임수 , , 진 게임수진 게임수 , , 방어율방어율 ,,

출전 게임수출전 게임수 , , 출전 이닝수출전 이닝수 , , 구원 게임수 등에 구원 게임수 등에 따라따라

투수들을 몇 개의 그룹으로 나누는 데 활용투수들을 몇 개의 그룹으로 나누는 데 활용

절차절차 1: 1: 개체 간 유사성을 재는 측도를 선택개체 간 유사성을 재는 측도를 선택

절차절차 2: 2: 사용할 군집방법 선택사용할 군집방법 선택

(( 계보적 군집방법계보적 군집방법 / / 비계보적 군집방법비계보적 군집방법 ))

절차절차 3: 3: 군집의 개수 결정군집의 개수 결정

절차절차 4: 4: 군집에 대한 해석군집에 대한 해석

◈ ◈ 일반적으로 유클리드 거리일반적으로 유클리드 거리 (( 표준화 자료표준화 자료 ) ) 많이 사용많이 사용

◈ ◈ 두 개체 에 대해 자료값 벡터가 두 개체 에 대해 자료값 벡터가 , ,

라면라면 , , 두 개체 간 제곱 유클리드두 개체 간 제곱 유클리드

거리는거리는

,i j 1 2( , , , )i i i ipx x x x

1 2( , , , )j j j jpx x x x

2 2 2 21 1 2 2( ) ( ) ( )ij i j i j ip jpD x x x x x x

중심 연결법중심 연결법

최단 최단 ( ( 단일 단일 ) ) 연결법연결법

최장 최장 ( ( 완전 완전 ) ) 연결법연결법

평균 연결법 평균 연결법

Ward Ward 방법방법

중심 연결법중심 연결법

최단 최단 ( ( 단일 단일 ) ) 연결법연결법

최장 최장 ( ( 완전 완전 ) ) 연결법연결법

평균 연결법 평균 연결법

Ward Ward 방법방법

군집 대표값군집 대표값 (( 평균평균 ) ) 간의 거리로간의 거리로 ,,

즉즉

와 의 와 의

제곱 유클리드 거리제곱 유클리드 거리

1 2 1 11 1( , ) ( , , )pd C C m m m

2 21 2( , , )pm m m

두 군집 간 모든 가능한 쌍들의두 군집 간 모든 가능한 쌍들의

거리 중에서 가장 짧은 거리로 거리 중에서 가장 짧은 거리로

대체적으로 가늘고 긴 사슬대체적으로 가늘고 긴 사슬

(chain) (chain) 모양모양 , , 즉즉

1 2 1 2 1 1 2 2( , ) min{ ( , ) | , }d C C d x x x C x C


거리 중에서 가장 긴 거리로 거리 중에서 가장 긴 거리로

대체적으로 동그란 모양대체적으로 동그란 모양 , , 즉즉

1 2 1 2 1 1 2 2( , ) max{ ( , ) | , }d C C d x x x C x C


거리 평균으로 거리 평균으로

1 1 2 2

1 2 1 21 2

1( , ) ( , )

x C x C

d C C d x xn n

군집 내 편차제곱합이 최소화 군집 내 편차제곱합이 최소화

(( 하나의 군집으로 묶음으로 해서 하나의 군집으로 묶음으로 해서

생기는 정보 손실을 최소화생기는 정보 손실을 최소화 ) ) 되는 되는

해를 찾음해를 찾음 , , 즉즉

편차제곱합의 변화량 편차제곱합의 변화량

1 2 1 2

1 2 1 2( , ) ( , ) ( , ) ( , )i i ii C C i C i C

E C C d x m d x m d x m

1.RMSSTD(root-mean-square standard deviation), 1.RMSSTD(root-mean-square standard deviation),

SPR(semi-partial ): SPR(semi-partial ): 증가 폭이 큰 지점에서증가 폭이 큰 지점에서

2. : 2. : 감소 폭이 큰 지점에서감소 폭이 큰 지점에서

3. CCC(cubic clustering criterion)3. CCC(cubic clustering criterion)

2R

2R


PROC CLUSTER PROC CLUSTER METDOD=METDOD=namename<options>;<options>;


COPY COPY variablesvariables;;

ID ID variablevariable;;

VAR VAR variablesvariables; ;

◈ ◈ 여러 옵션들여러 옵션들 * METHOD=* METHOD=namename: AVERAGE | AVE, CENTROID | CEN, COMPLETE | COM, : AVERAGE | AVE, CENTROID | CEN, COMPLETE | COM,

SINGLE | SIN, WARD | WAR SINGLE | SIN, WARD | WAR 등등

* DATA=* DATA=SAS-data-setSAS-data-set: : 분석 대상이 되는 분석 대상이 되는 SAS data setSAS data set

* OUTTREE=* OUTTREE= SAS-data-set SAS-data-set: : 수형도를 그리는 데 사용될 수형도를 그리는 데 사용될 SAS dada set SAS dada set 생성생성 ,,

TREE TREE 프로시저에서 입력 자료로 사용됨프로시저에서 입력 자료로 사용됨

* STANDARD | STD : * STANDARD | STD : 자료의 표준화자료의 표준화

* CCC: CCC, , SPR * CCC: CCC, , SPR 출력출력

* RMSSTD : RMSSTD * RMSSTD : RMSSTD 출력출력

* RSQUARE|RSQ: , SPR * RSQUARE|RSQ: , SPR 출력출력

* COPY statement: input data set* COPY statement: input data set 으로부터 나열한 변수들을 으로부터 나열한 변수들을

output data setoutput data set 으로 복사됨으로 복사됨

* ID statement: * ID statement: 군집 계보나 수형도에서 개체 표시로 사용될 변수 지정군집 계보나 수형도에서 개체 표시로 사용될 변수 지정

2R

2R


PROC TREE <options>;PROC TREE <options>;


COPY COPY variablesvariables;;


◈ ◈ 여러 옵션들여러 옵션들 * DATA=* DATA=SAS-data-setSAS-data-set: : 분석 대상이 되는 분석 대상이 되는 SAS data setSAS data set

* OUT=* OUT= SAS-data-set SAS-data-set: : 군집번호 및 군집번호 및 COPY COPY 문에서 나열한 문에서 나열한 변수들이 변수들이

저장된 저장된 output data set output data set 생성생성

* NCLUSTERS|NCL|N=* NCLUSTERS|NCL|N=nn: OUT=SAS-data-set : OUT=SAS-data-set 에 포함될 에 포함될 군집의 군집의

개수 지정개수 지정

* HORIZONAL|HOR: * HORIZONAL|HOR: 수평 수형도로 표시 수평 수형도로 표시

* COPY statement: output data set* COPY statement: output data set 에 포함할 변수 지정에 포함할 변수 지정

* ID statement: * ID statement: 수형도에서 개체 표시로 사용될 변수 지정수형도에서 개체 표시로 사용될 변수 지정

◈ ◈ 예예 PROC CLUSTER DATA=test STANDARD METHOD=WARD OUTTREE=out1 ;PROC CLUSTER DATA=test STANDARD METHOD=WARD OUTTREE=out1 ;

VAR x1-x5; VAR x1-x5;

PROC TREE DATA=out1 HORIZONAL OUT=out2 NCLUSTERS=5;PROC TREE DATA=out1 HORIZONAL OUT=out2 NCLUSTERS=5;

ID country;ID country;

COPY x1-x5;COPY x1-x5;

RUN; RUN;

절차절차 1 : 1 : 각 군집의 초기값을 선택각 군집의 초기값을 선택 (( 예예 : : 처음 개의 자료처음 개의 자료 ))

절차절차 2 : 2 : 적절한 규칙에 따라 초기값을 대체하는 과정적절한 규칙에 따라 초기값을 대체하는 과정

을 수행을 수행

절차절차 3 : 3 : 모든 개체를 가장 가까운 거리에 있는 군집 모든 개체를 가장 가까운 거리에 있는 군집

으로 할당으로 할당

절차절차 4 : 4 : 군집의 대표값군집의 대표값 (( 평균평균 )) 을 계산을 계산

절차절차 5 : 5 : 군집 중심의 변화량이 충분히 수렴할 때까지군집 중심의 변화량이 충분히 수렴할 때까지

절차 절차 3~43~4 를 반복를 반복

:: --

k


PROC FASTCLUS PROC FASTCLUS

MAXCLUSTERS=MAXCLUSTERS=nn|RADIUS=|RADIUS=tt <options>; <options>;




◈ ◈ 여러 옵션들여러 옵션들

* MAXCLUSTERS|MAXC=* MAXCLUSTERS|MAXC=nn: : 최대 허용 군집의 개수최대 허용 군집의 개수

* RADIUS=* RADIUS=tt: : 새로운 새로운 seedseed 가 되기 위한 최소 거리 가 되기 위한 최소 거리 (default=0)(default=0)

* DATA=* DATA=SAS-data-setSAS-data-set: : 분석 대상이 되는 분석 대상이 되는 SAS data setSAS data set

* OUT=* OUT= SAS-data-set SAS-data-set: : 군집번호 및 군집 분석에 사용된 변수들이 저장된 군집번호 및 군집 분석에 사용된 변수들이 저장된

output data set output data set 생성생성

* SEED=* SEED= SAS-data-set SAS-data-set: : 초기 군집 초기 군집 seed seed 값이 들어 있는 값이 들어 있는 SAS data setSAS data set

* REPLACE=FULL|PART|NONE|RANDOM; default * REPLACE=FULL|PART|NONE|RANDOM; default 값은 값은 FULLFULL

* RANDOM=* RANDOM=nn; RANDOM ; RANDOM 옵션에서 쓰일 난수 생성을 위한 시작값 지정옵션에서 쓰일 난수 생성을 위한 시작값 지정

* CONVERGE|CONV=* CONVERGE|CONV=cc: : 수렴 한계 지정수렴 한계 지정

* MAXITER=* MAXITER=nn: : 최대 반복 횟수 지정최대 반복 횟수 지정

* SUMMARY: seed * SUMMARY: seed 초기값초기값 , , 군집별 평균 및 분산 출력 요구군집별 평균 및 분산 출력 요구

◈ ◈ 예예 PROC STANDARD DATA=test OUT=out1 MEAN=0 STD=1;PROC STANDARD DATA=test OUT=out1 MEAN=0 STD=1;


PROC FASTCLUS DATA=out1 OUT=out2 MAXCLUSTERS=4 MAXITER=100;PROC FASTCLUS DATA=out1 OUT=out2 MAXCLUSTERS=4 MAXITER=100;


PROC MEANS DATA=out2;PROC MEANS DATA=out2;

BY CLUSTER;BY CLUSTER;


RUN;RUN;


PROC CLUSTER DATA=nutrient STANDARD METHOD=WARDPROC CLUSTER DATA=nutrient STANDARD METHOD=WARD

RMSSTD RSQUARE OUT=out1;RMSSTD RSQUARE OUT=out1;

VAR energy fat calcium;VAR energy fat calcium;

ID food;ID food;

RUN;RUN; 영양소 자료영양소 자료


PROC TREE DATA=out1 NCLUSTERS=3 OUT=out2;PROC TREE DATA=out1 NCLUSTERS=3 OUT=out2;

ID food;ID food;

COPY energy fat calcium;COPY energy fat calcium;

RUN;RUN;



VAR food cluster energy fat calcium; VAR food cluster energy fat calcium;

RUN;RUN;


PROC MEANS DATA=out2;PROC MEANS DATA=out2;

VAR energy fat calcium; VAR energy fat calcium;

BY cluster; BY cluster;

RUN;RUN;


PROC FASTCLUS DATA=nstd OUT=out1 MAXITER=100 MAXCLUSTERS=3;PROC FASTCLUS DATA=nstd OUT=out1 MAXITER=100 MAXCLUSTERS=3;

VAR energy fat calcium;VAR energy fat calcium;

RUN;RUN;

PROC PRINT DATA=back;PROC PRINT DATA=back;

VAR food cluster energy fat calcium;VAR food cluster energy fat calcium;

RUN;RUN;


PROC MEANS DATA=back;PROC MEANS DATA=back;

VAR energy fat calcium; VAR energy fat calcium;

BY cluster; BY cluster;

RUN;RUN;

(1) Johnson, R.A. and Wichern, D.W. (1998). (1) Johnson, R.A. and Wichern, D.W. (1998).

Applied Multivariate Statistical Analysis Fourth Edition, Prentice Hall, London.Applied Multivariate Statistical Analysis Fourth Edition, Prentice Hall, London.

(2) Sharma, S. (1996). Applied Multivariate Techniques, Wiley, New York.(2) Sharma, S. (1996). Applied Multivariate Techniques, Wiley, New York.

(3) (3) 강현철 외 강현철 외 33 인 인 (2005). (2005). 다변량 자료분석 입문다변량 자료분석 입문 , , 자유아카데미자유아카데미 ..

(4) (4) 김기영김기영 , , 전명식 전명식 (1997). (1997). 다변량 통계자료분석 다변량 통계자료분석 22 판판 , , 자유아카데미자유아카데미 ..

(5) (5) 허명회 허명회 (1999). (1999). 사회과학을 위한 다변량 자료분석사회과학을 위한 다변량 자료분석 , , 자유아카데미자유아카데미 ..

[ [ 감 사 합 니 다 감 사 합 니 다 !! ]!! ]

4455550M10

4553350M9

4443140M8

3355440M7

1143130M6

3432130F5

2255220F4

2255220F3

1232110F2

1142110F1

X5( 색 상 )

X4( 디자인 )

X3( 편리성 )

X2( 성능 )

X1( 가격 )

Age( 연령 )

Gender( 성 별 )

obs

고객 만족 자료고객 만족 자료

영양소 자료영양소 자료

1213Shrimp6

175Tuna5

4696Sardines4

2054Salmon3

2116Perch2

2095Mackerel1

CalciumFatEnergyFish Typeobs

평 균평 균

공분산 행렬공분산 행렬

상관계수 행렬상관계수 행렬

수원대학교 통계정보학과 김 진 흠 email: [email protected] 2006. 9. 13

Documents

Transcript of 수원대학교 통계정보학과 김 진 흠 email: [email protected] 2006. 9. 13