일원분산분석 ( one-way ANOVA )
description
Transcript of 일원분산분석 ( one-way ANOVA )
1
Marketing Research
일원분산분석 (one-way ANOVA) 분산분석 (analysis of variance ; ANOVA) : 각 모집단이 정규분포를 이루며 분산이
같다는 가정 하에 두 개 이상의 독립 모집단들의 평균값을 비교하는데 사용하는 통계기법이며 , 이때의 검증통계량은 F 이다 .
분산분석의 원리• 두 모집단으로부터 각각 n=5 의 표본을 추출하고 각 표본의 평균을 계산한 결과 .
제 13 장 분산분석제 13 장 분산분석
A
3.0 8.0
7.0 5.0
5.0 6.0
4.0 7.0
6.0 4.0
평균 5.0 6.0
B
3.0 9.0
7.0 6.0
5.0 7.0
4.0 8.0
6.0 5.0
5.0 7.0
C
4.7 5.8
5.0 5.8
5.0 6.0
5.2 6.0
5.1 6.4
5.0 6.0
일원분산분석 : 두 개 이상의 모집단들의 평균값 ( 또는 처치집단들의 평균값 ) 을 비교하는 것으로 두 개의 독립모집단의 평균비교를 확장한 것이다 .
2
Marketing Research• A 와 B 를 비교하면 , A 에 비해 B 의 경우 두 모집단의 평균차이가 있을 가능성이
높다 . 왜냐하면 A 에 비해 B 의 경우 두 평균값들의 분산이 더 크기 때문이다 .• A 와 C 를 비교하면 , A 에 비해 C 의 경우 두 모집단의 평균차이가 있을 가능성이
높다 . 왜냐하면 A 에 비해 C 의 경우 각 집단내의 분산이 더 작기 때문이다 .• 요약 : 두 개 이상의 모집단으로부터 표본을 추출한 경우 표본평균값 간의 차이가
클수록 ( 집단간 분산이 클수록 ) 그리고 각 표본의 요소들 간의 차이가 작을수록 (집단 내 분산이 작을수록 ) 모집단의 평균값에는 차이가 있을 가능성이 높다 . → 분산분석은 이러한 논리에 바탕을 두고 분산값들을 분석함으로써 모집단 평균의 차이를 검증하는 통계기법 .
분산분석의 절차• 자연모집단들의 평균간에 차이가 있는 가를 보는 것 ( 예를 들어 신입생들의
수능시험 평균성적이 세 대학교간에 차이가 있는가 ?) 이지만 , 어떤 실험변수에 여러 수준의 처치를 가하고 그 결과가 다르게 나타나는지를 보는데도 자주 사용됨 .
• 교육방법 / A, B / 판매실적
• n 개의 실험대상을 무작위로 k 개의 집단으로 나누고 각각의 집단에 처치를 가하여 실험대상으로부터 처치에 따른 결과 값을 추정 ( 각 집단의 크기 n1, n2, …, nk).
처치수준 (treatment level)
처치변수 (treatment variable)
결과변수 무작위화
3
Marketing Research• 분산분석을 위한 기본자료의 배열
• 전체 제곱합 (total variance ; total sum of squares ; Total SS)
처치 1 처치 2 … 처치 k
x11 x12 … x1k
x21 x22 … x2k
· · ·
· · ·
· · ·
xn1 xn2 … xnk
집단평균
집단평균으로부터의 편차의 제곱합 …
1X 2X kX 전체평균:X
1
1
2
11
n
ii XX
2
1
2
22
n
ii XX
kn
ikik XX
1
2
k
j
n
iij
j
XX1 1
2
4
Marketing Research• 집단간 제곱합 (between variance ; sum of squares due to treatment ; SST)
• 집단내 제곱합 (within variance ; sum of squares due to error ; SSE)
• 전체 제곱합 (Total SS) = 집단간 제곱합 (SST) + 집단내 제곱합 (SSE)• SST 와 SSE 를 각각의 자유도로 나누면 MST 와 MSE 를 얻게 되며 이로부터
검증통계량 F 값을 계산할 수 있다 .
k
jjj XXn
1
2
k
j
n
ijij
j
XX1 1
2
분산분석표
원천 제곱합 (SS) 자유도 제곱평균 (MS) Fobs
처치 ( 집단간 )
k – 1
오차 (집단내 ) n – k
합계 n – 1
2
1
k
jjj XXnSST
k
j
n
ijij
j
XXSSE1 1
2
k
j
n
iij
j
XXSSTotal1 1
2
)1k(SSTMST
)kn(SSEMSE
MSE
MST
5
Marketing Research• k 개 모집단 평균값들 ( 혹은 k 개 처치집단 평균값들 ) 간에 차이가 있는지를 조사하기 위한
가설설정과 검증절차 .
1) H0 : μ1=μ2=…=μk
H1 : 모든 μ 가 동일하지는 않다 . 즉 최소한 어떤 두 개의 평균값들간에는 차이가 있다 .
2) Fobs 계산 :
3) F-table 에서 Fcrit 값을 찾는다 : Fcrit = F(α; k-1, n-k) ( 여기서 k-1 과 n-k 는 각각 집단간
및 집단내 분산의 자유도이다 .)
4) 기각역은 Fcrit값의 우측에 위치한다 . 따라서 Fobs ≥ Fcrit이면 H0는 기각되고 Fobs < Fcrit
이면 Ho는 기각되지 않는다 .
분산분석의 예 : A 잡지회사의 영업부에서는 영업사원 교육을 위한 네 가지 교육프로그램의 효과에 차이가 있는지를 조사하기 위하여 실험을 실시하였다 . 이 실험에서 28 명의 신입사원들을 무작위로 네 집단으로 나누어 교육프로그램 A, B, C, D 로써 교육을 실시하였다 . 교육도중 5 명이 탈락하고 교육을 마친 후 1 주일간의 장기구독 판매실적은 다음의 표와 같다 . 여기서 신입사원들을 무작위로 네 집단으로 나누었으므로 각 집단에 속한 사원들의 교육이전 판매능력은 동일한 것으로 가정된다 . 이러한 자료로써 교육프로그램에 따라 판매실적이 다르다고 할 수 있는가 (α=.05)?
)(
1
knSSE
kSST
MSE
MSTFobs
6
Marketing Research 가설검증
1) Ho : μ1=μ2=μ3=μ4
H1 : 모든 μ 가 동일하지는 않다 ( 즉 , 어떤 집단의
평균값은 다른 집단의 평균값과 다르다 ).
2) F-test 를 한다 .
3) Fobs 계산을 위하여 분산분석표를 작성한다 . 먼저 , 각 집단의 평균값과 전체 평균값을 계산하면 ,
교육프로그램별 판매실적교육프로그램
A B C D
658773798169
75698381727976
597867628376
94898088
교육프로그램별 판매실적과 평균교육프로그램
A B C D
658773798169
75698381727976
597867628376
94898088
75.67
78.43
70.83
87.75
ix 3477.x
29091347788
347787347765
2
22
1 1
2
.,....
..XXSSTotalk
j
n
iij
j
6712347775874347743787
347767756
22
2
1
2
........
..XXnSSTk
jjj
91961758788
677587677565
2
22
1 1
2
.,....
..XXSSEk
j
n
ijij
j
7
Marketing Research
4) Fcrit =F(α;k-1, n-k) = F(.05 ; 3, 19) = 3.13
5) F = 3.13 보다 우측이 기각영역이 되면 Fobs = 3.77 은 기각역에 위치하므로 H0는
기각된다 . 따라서 모든 교육프로그램효과가 동일하지는 않다 . 즉 , 최소한 어느 두 가지 프로그램간에는 그 효과가 다르다고 결론지을 수 있다 .
분산분석표
원천 제곱합 (SS) d.f.
평균제곱(MS)
Fobs
처치 ( 집단간 )
SST = 712.6 3MST = 237.5
3.77
오차 (집단내 ) SSE = 1,196.9
19
MSE = 63.0
합계 Total SS = 1,909.2
22
5.237146.712)1k(SSTMST
0.634239.196,1)kn(SSEMSE
773063
5237.
.
.
MSE
MSTFobs
3.13
Fobs = 3.77
.05
C, D 가 기각하는데 있어 가장 많이 공헌 (contribution)
8
Marketing Research 분산분석의 추가 이슈들
• 추가 1 : p-value 를 이용한 가설검증 → “ p-value/ 자유도 (3, 19) 의 F 분포”는
다음 영역임 .
• 추가 2 : 사후다중비교 ; 분산분석결과 네 집단 중 적어도 어느 두 집단간에는
평균차이가 있다고 결론 내렸다 . 그러면 6 개의 두 집단 비교 중 어느 두
집단에서 차이가 있는가 (4C2 = 6) ? 이를 위하여 사후다중비교 (post hoc multiple c
omparisons) 를 할 수 있다 .
3.77
p-value F(.05 ; 3, 19) = 3.19 / F(.025 ; 3, 19) =
3.90
3.77 은 3.13 와 3.19 사이에 위치하므로 .025< p-value < .05 라고 할 수 있다 . p-value <α=.05 보다 작으므로 H0 는 역시 기각된다 .
9
Marketing Research• 추가 3 : 분산분석에 의한 두 집단 평균의 비교 – 일반적으로 두 집단의
평균차이검증을 위해서는 t-test 를 사용하지만 분산분석에 의한 F-test 에
의해서도 물론 가능하다 . 12 장의 판매사원 교육프로그램 예를 통해 분산분석에
의한 가설검증을 하면 , 귀무가설과 대립가설은 t-test 의 경우와 같다 .
분산분석결과 Fobs=2.70 으로 나타나며 , Fcrit = F(.05 ; 2-1, 18-2) = 4.49 로서 H0는
기각되지 않는다 .
(tobs)2 = (1.64)2 = 2.70 = Fobs
(tcrit)2 = (2.12)2 = 4.49 = Fcrit로 나타남을 알 수 있다 . 이와 같이 두 모집단
평균차이검증을 위하여 F-test 를 하더라도 t-test 결과와 같다 . 그러나 t-test
가 보다 간편하므로 흔히 t-test 를 사용한다 .
10
Marketing Research 분산분석 ( 무작위 블럭디자인 ; paired-difference test)
마케팅 관리자가 패키지 디자인으로 두 가지가 아닌 세 가지를 비교하고자 하는 경우 , 선정된 수퍼마켓을 세 집단을 나누어 각 집단의 수퍼마켓에 A, B, C 중 한 가지 패키지 디자인의 비누를 진열하여 매출을 비교한다면 수퍼마켓의 크기 , 내점고객수 , 그 지역의 소득 , 경쟁상황 등 여러 가지 요인들이 매출에 영향을 줄 수 있다 ( 외생변수 ). 그러므로 무작위 블럭디자인 (randomized block design) 을 통해서 실험을 해야 한다 . 이 실험에서 4 개의 수퍼마켓을 선정하여 각 수퍼마켓에 세 가지 디자인의 비누를 모두 진열하였다 . 그 결과 각 수퍼마켓에서 패키지 디자인별로 다음과 같이 매출이 실현되었다 . 이 경우 각 수퍼마켓의 조건이 세 가지 디자인의 비누판매에 공통적으로 영향을 미치며 , 이와 같은 변수를 블럭 (block) 변수라고 한다 . 이 자료로부터 패키지 디자인에 따라 매출이 다르다고 할 수 있는가 ?
수퍼마켓별 각 패키지 디자인의 판매실적
패키지 디자인
A B C
수퍼마켓
1 17 34 23
2 15 26 21
3 1 23 8
4 0 22 16
한 처치변수의 수준 (treatment level) 에 따라 결과변수의 값이 달라지는가를 조사할 때 외생변수로 작용할 수 있는 변수를 통제하기 위하여 블럭변수로 처리한 것으로 엄격히 말해 한 개의 처치변수의 효과를 조사하는 것 .
11
Marketing Research
가설검증• H0 : μ1=μ2=μ3, H1 : 모든 μ 가 동일하지는 않다 .
• F-test 를 한다 .
• 분산분석표를 작성하여 Fobs를 구한다 .
무작위 블럭디자인의 분산분석표
원천 제곱합 (SS) 자유도 평균제곱 (MS) Fobs
처치 ( 집단간 )
SST t – 1 MST=SST/(t-1)MST/MSE
블럭 SSB b – 1 MSB=SSB/(b-1)MSB/MSE
오차 ( 집단내 ) SSE
(b-1)(t-1)
MSE=SSE/(b-1)(t-1)
합계 Total SS bt – 1
b : 블럭의 수
t : 처치의 수
무작위 블럭디자인의 분산분석표
원천 제곱합 (SS) d.f. 평균제곱 (MS) Fobs
처치 ( 집단간 )
547.17 2 273.58 36.09
블럭 348.00 3 116.00 15.30
오차 ( 집단내 ) 45.50 6 7.58
합계 940.67 11
주관심대상
12
Marketing Research• 관심의 대상 : 패키지 디자인에 따라 매출이 다른가에 관한 것이므로 Fobs( 처치 )=36.
09 를 다음의 Fcrit과 비교한다 (α=.05)
Fcrit = F(α; t-1, (b-1)(t-1)) = F(.05 ; 2, 6) = 5.14
• Fobs> Fcrit이므로 H0는 기각되며 , α=.05 에서 패키지 디자인에 따라 매출이 달라질
수 있다는 결론을 내릴 수 있다 . 또한 F(.005 ; 2, 6) = 14.54 이므로 p-value < .005
이고 따라서 H0는 α=.005 에서도 기각된다 ( 자유도가 커질수록 F 값은 작아지는
경향이 있다 ).
• 추가적으로 원래 관심의 대상은 아니지만 슈퍼마켓간에 매출이 동일하다 (μ1=μ2=μ3=μ4)
는 귀무가설을 생각할 수 있는데 ,
H0 : μ1=μ2=μ3=μ4 , H1 : 모든 μ 가 동일하지는 않다 .
Fobs = 15.30, Fcrit = F(α ; b-1, (b-1)(t-1)) = F(.05; 3, 6) = 4.76
Fobs> Fcrit이므로 H0는 기각되며 , α=.05 에서 비누매출이 동일하지는 않다는
결론을 내릴 수 있다 . 또한 F(.005 ; 3, 6) = 112.92 이므로 p-value < .005 이고
따라서 H0는 α=.005 에서도 기각된다 .
13
Marketing Research 이원분산분석 (factorial design) : 2 개 이상의 독립처치변수의 수준변화에 따른
결과변수값의 변화를 조사하기 위한 실험디자인으로 이때 각 처치변수를 factor라고 부른다 (factor A 의 처치수준 a, factor B 의 처치수준 b 일 때 이 실험디자인을 a×b factorial design 이라 부르며 처치변수가 2 개이므로 처치효과(treatment effect) 를 조사하기 위하여 이원분산분석 (two-way ANOVA) 을 적용 ) . 이원분산분석 결과 : 처치효과로서 주효과와 상호작용효과 .
• 주효과 (main effect) : 한 처치변수의 변화가 결과변수에 미치는 영향에 관한 것 .• 상호작용효과 (interaction effect) : 다른 처치변수의 변화에 따라 한 처치변수가
결과변수에 미치는 영향에 관한 것 . 예 : 탄산화 정도와 단맛정도가 청량음료태도에 미치는 영향을 알기 위한 실험으로
각 처치변수의 수준을 고 · 저로 하는 경우 이 실험디자인은 2×2 factorial design 이 된다 .• 두 처치변수의 주 효과태도
탄산화
태도
단맛저 저고 고
탄산화의 정도가 높을수록
태도가 호의적이며 단맛 정도가
높을수록 태도가 비호의적인
것으로 추정 .
14
Marketing Research• 두 가지 처치변수의 상호작용효과
태도
단맛
태도
단맛저 저고 고
고탄산화
고탄산화
저탄산화 저탄산화
다른 처치변수의 변화에 따라 한 처치변수가 결과변수에 미치는 영향에 관한 것 .
저탄산화에 비해 고탄산화 경우 태도가 호의적이며 이러한 경향은 단 맛의 고 · 저에 관계없이 동일하게 나타난다 : 상호작용효과는 없다고 할 수 있다 .
저탄산화에 비해 고탄산화의 경우 태도가 호의적 ( 저단맛의 경우 : 탄산화의 정도에 따라 태도가 크게 다르지 않음 ; 고단맛의 경우 : 저탄산에 비해 고탄산의 경우 태도가 호의적 : 상호작용효과가 있는 것으로 추정 .
15
Marketing Research
팩토리얼 디자인에 의한 이원분산분석의 예 : 저관여 신제품의 경우 소비자의 광고에 대한태도는 브랜드태도에 상당한 영향을 미칠 수 있다 . 신제품 광고로서 세 가지 광고대안을 개발하였으며 피실험자들에게 노출시킨 후 광고태도를 측정하여 소비자들이 좋아하는 광고를 선택하고자 한다 . 마케터는 이러한 광고대안들에 대한 태도가 남녀간에 다를지도 모른다고 생각하고 남 · 녀 중 어느 집단이 어떤 광고를 더 좋아하는지 알기를 원했다 남 · 녀 각각 9 명의 피실험자들을 다음과 같이 6 개의 cells 에 할당하고 각 피실험자에게 세 가지 광고 중 하나를 보여주었다 . 피실험자들은 광고태도를 0 ~ 5.0( 간격 0.1) 의 척도상에 표시하였다 . 그 결과는 다음과 같다 . 이때 , 세 가지의 연구문제를 생각할 수 있다 .• 광고대안에 따라 광고태도가 다른가 (α=.05) ?• 성별에 따라 광고태도가 다른가 (α=.05) ?• 성별과 광고대안 간에는 상호작용효과가 있는가 (α=.05) ?
a×b factorial design 에 대한 이원분산분석표원천 제곱합 (SS) 자유도 평균제곱 (MS) Fobs
Factor A SS(A) (a-1) MS(A) = SS(A)/(a-1) MS(A)/MSE
Factor B SS(B) (b-1) MS(B) = SS(B)/(b-1) MS(B)/MSE
상호작용 A×B SS(AB) (a-1)(b-1)MS(AB) = SS(AB)/(a-1)(b-
1)MS(AB)/
MSE
오차 SSE (n-ab) MSE = SSE/(n-ab)
합계 Total SS (n-1)
16
Marketing Research
< 가설검증 >
• H0 : μ1=μ2=μ3, H1 : 모든 μ 가 동일하지는 않다 .
H0 : μ 남= μ 여 , H1 : μ 남≠ μ 여
H0 : 상호작용효과가 없다 . H1 : 상호작용효과가 있다 .
• 2×3 factorial design 에 의한 이원분산분석 ( 세 개의 F-검증 )
• cell 별로 평균을 계산하면…
남 · 여별 각 광고에 대한 태도점수
성별광고
1 2 3
남 4.1 3.1 3.5
3.9 2.8 3.2
4.3 3.3 3.6
여 2.7 1.9 2.7
3.1 2.2 2.3
2.6 2.3 2.5
자료의 평균값
성별광고
계1 2 3
남 4.10 3.06 3.43 3.53
여 2.80 2.13 2.50 2.48
계 3.45 2.60 2.97 3.00
자료의 이원분산분석표
원천 제곱합 (SS) 자유도 평균제곱(MS)
Fobs
광고 (A) 2.1811 2 1.090621.8
1
성별 (B) 5.0139 1 5.0139100.28
상호작용 (A×B) .1344 2 .0672 1.34
오차 .6000 12 .0500
합계 7.9294 17
17
Marketing Research• 연구가설별로 F-table 에서 Fcrit를 찾는다 .• 이원분산분석의 경우 보통 상호작용과정을 먼저 조사 .
상호작용효과가 유의적 : 전체 패턴을 주의 깊게 해석 ( 주효과를 추가적으로 조사하지만 , 의미는 크지 않다 .)
상호작용효과가 비유의적 : 주효과를 조사하고 유의적이면 이에 따라 해석 . 상호작용효과에 대한 검증 : Fobs = 1.34 < Fcrit = F(.05 : 2, 12) = 3.89 ∴
상호작용효과는 유의적이지 않음 . 광고대안 (A) 의 주효과에 대한 검증 : Fobs = 21.81 > Fcrit = F(.05 : 2, 12) = 3.89 ∴
광고대안 (A) 의 주효과는 유의적 . 성별 (B) 의 주효과에 대한 검증 : Fobs = 100.28 > Fcrit = F(.05 : 1, 12) = 4.75 ∴ 성별 (B)
의 주효과는 유의적 .
광고
광고태도
123
1
2
3
4
남
여
남녀 모두 광고 1 을 광고 2 보다 선호하는 경향이 있으며 ,
전체적으로 남자가 여자보다 실험용 광고에 대한 태도가 호의적
이며 , 성별에 따라 특정 광고를 선호하는 경향이 다르지 않다
(6 개 평균태도점수 간의 차이가 통계적 유의성이 있는지 알기 위해
사후다중비교를 실시해야 함 ).
Comment : 남자가 여자보다 실험광고를 선호하며 , 광고 1 을 세 개 중 가장 선호하는 것으로 추정 .