제 4장 확률분포 Probability Distribution -...
Transcript of 제 4장 확률분포 Probability Distribution -...
1
제 4장. 확률분포(Probability Distribution)
확률분포는 측정값이 정수로 나타나는 이산확률분포와 실수 값으로 나타나는 연속확률분포로 나
뉜다.
이산 확률분포의 종류: 이항분포, 포아송 분포, 초 기하분포, 음 이항분포, 다항분포
연속 확률분포: 정규 분포, t 분포, 2 분포, F 분포, 지수 분포
4.1 확률변수와 확률분포
확률은 표본공간의 수직선 위에서 변수에 대한 높이로 나타나며, 이러한 수직선 상의 수를 확률변
수(Random Variable)라 하고, 확률변수 x 는 표본공간에서 정의된 실수 함수로 정의한다.
(예 1) 동전 하나를 던져 앞면이면 1, 뒷면이면 0 을 취하는 변수 x
1 (head)
0 (tail)x
각각이 나올 확률은 1/ 2 이므로 이에 대한 표기는
1( 1)
2P x ,
1( 0)
2P x
이때 수직선 상에는 x 가 1, 0 인 두 수가 있고, 각 수에 대한 높이인 1/ 2 은 확률이 된다.
(예 2) 동전을 두 번 던져 나오는 변량을 x 라 하면 두 번다 앞면이 나오는 변수 값을 0 , 한 번
은 앞면 한 번은 뒷면인 경우를 1, 두 번다 뒷면의 경우를 2 로 변량화 한다. 여기서 표본 공간은
{ , , , }S hh ht th tt 이다.
부분 공간은 { }oE hh , 1 { , }E ht th , 2 { }E tt
이들을 확률변수로 나타내면
1( 0) ( )
4oP x P E ,
1
2( 1) ( )
4P x P E ,
2
1( 2) ( )
4P x P E
앞으로 표본공간 1 2{ , , , }nS e e e 는 확률변수 1 2{ , , , }nx x x x 로 대치하여 사용하며 어떤 특
정변수 값 ix 에 대한 확률은 ( )iP x 로 표시된다.
4.1.1 이산 확률변수
확률변수 x 가 취하는 모든 값은 셀 수 있는 정수 값인 1 2 3, , , , nx x x x 을 가지며 이것은 이산 확
률변수 이고, 여기에 확률 값을 대응시킨 함수를 확률 질량함수(Probability Mass Function)라 한
다. 즉 질량함수는 다음과 같이 표시된다.
( ), , 1,2,( )
0, others
i iP x x x x if x
( )f x 의 성질
(1) 모든 x 에 대하여 ( ) 0if x
2
(2) 1
( ) 1 1n
i i
i i
f x p
(3) ( ) ( )i
i
a x b
P a x b f x
이것의 일반적인 그래프는 막대 그래프이다.
[보기 4_1] 동전을 3 회 던져 나오는 변수를 x 라 하자. 그러면 x 는 세 번 모두 앞면인 경우
( hhh )를 0 , 두 면이 앞이고 한 면이 뒤인 경우( hht , hth 또는 thh )를 1 , 한 면이 앞이고 두
면이 뒤인 경우( htt , tht 또는 tth )를 2 , 그리고 모두 뒷면인 경우( ttt )를 3 으로 한 변량이다. 변
수 x 에 대한 확률을 각각 구하여라.
(풀이) 세 번 던져 나올 수 있는 짝, 즉 표본 공간 S 와 변수에 대한 확률은 다음과 같다.
{ , , , , , , , }S hhh hht hth thh htt tht tth ttt
1( 0)
8P x ,
3( 1)
8P x ,
3( 2)
8P x ,
1( 3)
8P x
변수 x 에 대한 확률 ( )iP x x 를 도표로 요약하면
ix ( )iP x x 표본 공간
0 1/8 { }hhh
1 3/8 { },{ },{ }hht hth thh
2 3/8 { },{ },{ }htt tht tth
3 1/8 { }ttt
4.1.2 연속 확률변수
셀 수 없이 연속적으로 나타나는 변수이며, 이것의 그래프는 일반적으로 히스토그램이다. 확률의
수학적 표현은
( ) ( )b
aP a x b f x dx
확률밀도 함수 ( )f x 의 성질
(1) ( ) 0f x
(2) ( ) 1f x dx
(3) ( ) ( )b
aP a x b f x dx
[보기 4_2] 다음의 확률밀도 함수에 대해 (1) c 의 값을 구하라. (2) (1 2)P x 의 값을 구하여
라.
2 0 3( )
0 others
cx xf x
3
(풀이) (1)
33
2 3
00
1[ ] 9 1
3 9
xcx dx c c c
(2)
32
2 2
11
1 1 1 8 1 7(1 2) [ ] ( )
9 9 3 9 3 3 27
xP x x dx
4.1.3 누적 분포함수(Cumulative Distribution Function)
단순히 분포함수라고도 하며 ix x 또는 ix x 에 해당하는 누적된 면적의 확률 함수이다. 이것
은 다음과 같이 정의된다.
이산인 경우: ( ) ( ) ( )i i i
ix
F x P x x p x
연속인 경우: ( ) ( ) ( )x
i iF x P x x f t dt
이산인 경우 누적분포 함수는 로부터 ix 까지 사이에 있는 모든 확률변수에 대한 확률을 더한
값이며, 연속인 경우는 적분한 것으로 그것은 우측의 그림처럼 적분면적에 해당한다. [보기 4_3] 다음의 확률밀도 함수에서 분포함수를 구하여라.
210 3
( ) 9
0 others
x xf x
(풀이) (1) 0x : ( ) 0F x
(2) 0 3x :
32
0 0
1( ) ( )
9 27
x x xF x f t dt t dt
(3) 3x : 3 3
2 3 3
00 0
1 1( ) ( ) [ ] 1
9 27F x f t dt t dt t
누적분포 함수의 성질
(1) 0 ( ) 1F x
(2) 1 2x x 이면 1 2( ) ( )F x F x
(3) ( ) ( ) ( )P a x b F b F a
(4) lim ( ) 1, lim ( ) 0x x
F x F x
(5) 확률밀도 함수: ( ) ( )d
f x F xdx
(6) ( )F x 는 우측으로 연속
[보기 4_4] 확률밀도 함수가 다음과 같을 때 x 의 분포함수를 구하고 이를 써서
(0 1)P x 을 구하여라. 2
, 1 2( ) 3
0, others
xx
f x
(풀이) (1) 1x : ( ) 0F x
4
(2) 1 2x :
32
1
1( )
3 9
x xF x t dt
(3) 2x : 2
2 3 2
11
1 1 1( ) [ ] (8 1) 1
3 9 9F x t dt t
(4) 1
(0 1) ( 1) ( 0)9
P x F x F x
4.2 기대값과 분산
확률변수는 평균과 분산을 가지며 이는 해당 모집단의 평균과 분산이다. 확률변수 x 에 대한 평균
을 기대 값이라고도 하며 분산과 함께 확률분포의 특징을 나타낸다.
4.2.1기대값(Expected Value)
확률변수 x 가취하는값을 1 2, , , nx x x , 확률을 1 2( ), ( ), , ( )np x p x p x 이라하면
즉 ( ) ( )i iP x x p x
확률변수 x 의평균또는기대값: 1 1 2 2( ) ( ) ( )n nx p x x p x x p x
기대값은확률변수 x 의중심적경향을나타내는값으로대표값이며, 기호로 ( )E x 또는평균이라는의미에
서 로표시한다.
확률변수 x 에 대한 기대값(평균)
(1) x 가 이산 확률변수 일 때: 1
( ) ( )n
i i
i
E x x p x
(2) x 가 연속 확률변수 일 때: ( ) ( )E x xf x dx
여기서 1
( ) 1n
i
i
p x
, 1 1 1
( ) ( ) ( ) ( ) 0n n n
i x i i i x i x x
i i i
x p x x p x p x
x 의 함수 ( )g x 의 기대값
x 가 이산 확률변수 일 때: 1
{ ( )} ( ) ( )n
i i
i
E g x g x p x
x 가 연속 확률변수 일 때: { ( )} ( ) ( )E g X g x f x dx
[보기 4_5] 2 개의 주사위를 던질 때 나오는 눈금의 합을 확률변수 x 라 할 때, x 에 대한 평균
( )E x 를 구하여라.
(풀이) x 가 취할 수 있는 값: 2,3,4, ,12
각 수에 대한 확률: 1 2 3 1
, , , ,36 36 36 36
기대값(평균값):
1
1 2 5 6 5 1( ) ( ) (2 ) (3 ) (6 ) (7 ) (8 ) (12 ) 7
36 36 36 36 36 36
n
i i
i
E x x p x
5
이것을 일상적인 방법(Conventional Method)으로 평균치를 구해보자.
2,3,4, ,12의 도수는 11n 개
2 3 12 777
11 11x
[보기 4_6] 복권 100,000 매를 판매하고 당첨자 수와 상금은 아래와 같다. 복권 한 장 당 기대할
수 있는 당첨금은 얼마인가?
등 수 당첨자 수 상금
1 등
2 등
3 등
등 외
1
100
1,000
98,899
1,000,000
100,000
10,000
0
(풀이) 1
( ) [(1 1,000,000) (100 100,000) (1,000 10,000)100,000
E x
21,000,000210
100,000
평균계산으로 구해보면 총 도수는 100,000 .
총 상금은 각 도수에 상금을 곱한 것이므로 계산은 위와 동일하게 나온다.
따라서 한 장 당 받을 수 있는 평균은 210 .
[보기 4_7] 확률변수가 다음과 같은 확률분포를 가질 때 2[( 1) ]E x 의 기대 값을 구하여라.
x 0 1 2 3
( )f x 1/6 1/3 1/3 1/6
(풀이) 2 2 1 1 1 1 7
[( 1) ] ( 1) ( ) (1 ) (0 ) (1 ) (4 )6 3 3 6 6
iE x x f x
기대 값의 성질
1 2, , ,a b c c 는 상수일 때
(1) ( )E a a , ( ) ( )E ax aE x
(2) ( ) ( ) ( )E x y E x E y
(3) 확률변수 ,x y 가 독립: ( ) ( ) ( )E xy E x E y
(4) ( ) ( )E ax b aE x b
(5) 1 1 2 2 1 1 2 2[ ( ) ( )] [ ( )] [ ( )]E c g x c g x c E g x c E g x
[보기 4_8] 주머니에 흰 공( w 로 표시) 3 개, 검은 공 ( b 로 표시) 5 개가 들어 있다. 주머니에서
2 개를 꺼낼 때 색이 같으면 1,000 원, 색이 다르면 500원을 준다. 평균적인 기대 값은 얼마인가?
(풀이) 모두 흰색 또는 검은 색을 꺼낼 확률:
1 3 2 5 2
8 2
1 3 10 13[ ]
8!/ 2! 6! 28p C C
C
6
색이 다를 확률: 2 1
151
28p p
기대값: 1 1 2 2
13 15( ) ( )(1,000) ( )(500) 196
28 28E x p x p x
[보기 4_9] 확률변수 x 에 대한 값의 평균이 12일 때 3 1y x 의 평균 값을 구하여라.
(풀이) ( ) 12E x , ( ) (3 1) 3 ( ) (1) 3(12) 1 37E y E x E x E
4.2.2 분산(Variance)
분산은 기대값 ( )E x 로부터 떨어진 정도로 ( )Var x , 또는 2 ( )x 로 표시한다.
확률변수의 분산
(1) x 가 이산변수 일 때: 2 2( ) ( ) [ ( )]Var x E x E x
(증명) ( )Var x 2 2 2 2 2[( ) ] ( 2 ) ( ) 2 ( )E x E x x E x E x
( )E x 이므로 2 2 2 2 2 2[( ) ] ( ) 2 ( )E x E x E x
2 2
1
( ) [( ) ] ( ) ( )n
i i
i
Var x E x x p x
, [1
( ) ( )n
i i
i
E x x p x
]
(2) x 가 연속변수 일 때: 2 2( ) ( )Var x x f x dx
(증명) 2 2( ) [( ) ] ( ) ( )Var x E x x f x dx
2 2( ) ( 2 ) ( )Var x x x f x dx
2 2( ) 2 ( ) ( )x f x dx x f x dx f x dx
여기서 ( )x f x dx
, ( ) 1f x dx
이므로
2 2( ) [( ) ] ( ) ( )Var x E x x f x dx
[보기 4_10] 동전을 3 회 던질 때 앞면이 나오는 회수를 x 라 하면 x 가 취할 수 있는 값에 대한
확률이 다음과 같을 때 평균과 분산을 구하여라.
x 0 1 2 3
( )p x 1/8 3/8 3/8 1/8
(풀이) 1 3 3 1 3
[(0) ( ) (1) ( ) (2) ( ) (3) ( )8 8 8 8 2
2 2 2 2 21 3 3 1 3 3( ) [(0) ( ) (1) ( ) (2) ( ) (3) ( )] ( )
8 8 8 8 2 4Var x
[보기 4_11] 확률변수 x 의 확률밀도 함수가 다음과 같을 때 기대 값과 분산을 구하여라.
6 (1 ), 0 1( )
0, others
x x xf x
7
(풀이)
3 41 1 1
2 2 3 1
00 0 0
1( ) ( ) 6 (1 ) 6 ( ) 6[ ]
3 4 2
x xE x xf x dx x x dx x x dx
4 51 1
2 3 4 1
00 0
3( ) 6 ( ) 6[ ]
4 5 10
x xx f x dx x x dx
12 2 2
0
3 1 1( ) ( ) ( )
10 2 20Var x x f x dx
분산의 특성
,a b 가 상수 일 때
(1) ( ) 0Var a , 2( ) ( )Var ax a Var x , ( ) ( )Var x a Var x
(2) ,x y 가 독립일 때
( ) ( ) ( )Var x y Var x Var y , 2 2( ) ( ) ( )Var ax by a Var x b Var y
(3) ,x y 가 종속일 때
( ) ( ) ( ) 2 ( , )Var x y Var x Var y Cov x y
2 2( ) ( ) ( ) 2 ( , )Var ax by a Var x b Var y abCov x y
[보기 4_12] 두 확률변수 ,x y 가 서로 독립이고 ( ) 12E x , ( ) 10E y , ( ) 0.5Var x ,
( ) 0.75Var y 일 때 5 3 6z x y 의 평균과 분산을 구하여라.
(풀이) ( ) 5 ( ) 3 ( ) 6 (5 12) (3 10) 6 36E z E x E y
2 2( ) 5 ( ) 3 ( ) (25 0.5) (9 0.75) 19.25Var z V x V y
4.2.3 표준편차
표준편차는 분산의 평방근 값으로 표시한다. 즉
( )s Var x
[보기 4_13] x 의 확률밀도 함수가 다음과 같이 주어질 때 평균, 분산 및 표준편차를 각각 구하
여라.
3( ) 3 ( 0)xf x e x
(풀이) 3
0 0( ) 3 xx f x dx xe dx
이러한 것에 대한 적분은 다음과 같이 부분적분으로 계산한다.
3 3u x du dx , 3 31
3
x xdv e dx v e
3 3 3
0
1 13 (3 )( ) ( )(3 )
3 3
x x xxe dx uv vdu x e e dx
3
3 3 3
0
1 1[ ( 3 ) [ ]
3 3 3
xx x x e
xe e d x xe
: 1
3
분산: 2 2
0( ) ( )Var x x f x dx
8
※2 3(3 )xx e dx
의 적분: 2 2u x du xdx ,
3 33 x xdv e dx v e
2 3 3 2 3 3( )( ) ( )(2 ) (2 )x x x xuv vdu x e e xdx x e x e dx
뒤에 부분을 한번 더 부분 적분하면
' 2 ' 2u x du dx , 3 31
' '3
x xdv e dx v e
3 3 3 3 32 1 2 2 2(2 ) ( )[ ( 3 )]
3 3 3 3 9
x x x x xx e dx xe e d x xe e
3 2
0
2 2 2( ) [ ( )]
3 9 9
xVar x e x x
표준편차: 2
( ) 2 / 93
s Var x
4.3 결합 확률분포
두 개 이상의 변수를 동시에 고려하는 확률분포다. 예를 들면 학생의 두 성적인 통계학과 전산학
의 관계를 규명할 때 이러한 확률분포를 사용한다. 다른 예로 옷을 맞추는데 키와 가슴둘레를 동
시에 고려하는 것과 같이 결합된 두 변수 이상을 사용하는 확률이다.
결합 확률함수의 성질
i) 이산의 경우
(1) ( , ) 0f x y
(2) ( , ) 1x y
f x y
(3) [ , ] ( , )a x b c y d
P a x b c y d f x y
ii) 연속의 경우
(1) ( , ) 0f x y
(2) ( , ) 1f x y dxdy
(3) [ , ] ( , )d b
c aP a x b c y d f x y dxdy
(예제 14) 결합 밀도함수가 다음과 같은 때
26 , (0 1, 0 1)( , )
0, others
x y x yf x y
3 1(0 , 2)
4 3P x y 를 구하여라.
(풀이) 1 3/ 4
2 3 3 3/ 4 2 1
0 1/31/3 0
3 1(0 , 2) 6 2 [ ] [ ]
4 3P x y dy x y dx x ydy x y
3 2 23 1 27 8 3( ) [(1) ( ) ] ( )( )4 3 64 9 8
[보기 4_15] 주머니에 3 개의 검은 공, 2 개의 붉은 공, 3 개의 흰 공이 있다. 임의로 2 개의 공
을 뽑을 때 검은 공의 개수를 x , 붉은 공의 개수를 y 로 변량화 하여 결합 확률분포를 구하여라.
9
(1) 검은 공과 붉은 공이 1개도 뽑히지 않을 확률: 3 2 3 2
8 2
3(0,0)
28
o oC C Cf
C
(2) 검은 공 0 , 붉은 공이 1개 뽑힐 확률: 3 2 1 3 1
8 2
2 3 3(0,1)
28 14
oC C Cf
C
(3) 검은 공 1, 붉은 공이 0 개 뽑힐 확률: 3 1 2 0 3 1
8 2
3 3 9(1,0)
28 28
C C Cf
C
(4) 검은 공 1, 붉은 공이 1개 뽑힐 확률: 3 1 2 1 3 0
8 2
3 2 3(1,1)
28 14
C C Cf
C
(5) 검은 공 0 , 붉은 공이 2 개 뽑힐 확률: 3 2 2 3 0
8 2
1(0,2)
28
oC C Cf
C
(6) 검은 공 2 , 붉은 공이 0 개 뽑힐 확률: 3 2 2 0 3 0
8 2
3(2,0)
28
C C Cf
C
이들을 교차하는 표로 만들어 보면
0 1 2 ( )f y
0
1
2
3/28 9/28 3/28
3/14 3/14 0
1/28 0 0
15/28
12/28
1/28
( )f x 10/28 15/28 3/28 1
위의 결합 확률질량 함수는 다음과 같다.
3 2 3
8 2
( , )x y z x yC C C
f x yC
, ( 0,1,2x , 0,1,2y , 0 2x y )
결합 확률분포 함수 ( , )f x y 가 x 또는 y 만의 분포이면 다음과 같이 정의된다.
(1) 이산 확률변수 일 때: ( ) ( , )y
f x P x y , ( ) ( , )x
f y P x y
(2) 연속 확률변수 일 때: ( ) ( , )f x f x y dy
( ) ( , )f y f x y dx
여기서 ( )f x 와 ( )f y 는 위의 표에서 각각 가로 합과 세로 합이며, x 와 y 의 확률밀도 함수이
다. 이것을 확률변수 x 와 y 의 주변 확률분포(Marginal Probability)라 한다.
[보기 4_16] 확률밀도 함수가 다음과 같이 주어졌을 때 각각의 주변 확률분포를 구하여라.
2, 0 1( , )
0, others
x yf x y
(풀이) 1
1( ) 2 2[ ] 2(1 ), 0 1xx
f x dy y x x
00
( ) 2 2[ ] 2 , 0 1y
yf y dx x y y
결합 확률분포의 독립
10
두 확률변수 ,x y 가 독립이면 다음의 관계가 성립한다.
( , ) ( ) ( ) ( , )f x y f x f y x y
이 경우 평균과 분산은 주변분포를 사용하여 다음과 같이 계산된다.
(1) 이산과 연속일 때 각각의 평균
( ) ( )x
x
E x x f x , ( ) ( )y
y
E y y f y
( )x x f x dx
, ( )y f y dy
(2) 이산과 연속일 때 각각의 분산 2 2( ) ( ) ( ) ( , )x x
x y
Var x E x x f x y ,
2 2( ) ( ) ( ) ( , )y y
x y
Var y E y y f x y
2 2( ) ( ) ( ) ( , )x xVar x E x x f x y dxdy
2 2( ) ( ) ( ) ( , )y yVar y E y y f x y dxdy
[보기 4_17] 다음의 결합 밀도함수가 주어졌을 때 다음 물음에 답하라.
2, 0 1( , )
0 others
x yf x y
(1) y 가 주어질 때 x 의 조건부 확률 및 확률의 평균과 분산
(2) 확률 1 3
(0 | )2 4
P x y
(풀이) (1) 확률: ( , ) 2 1
( | )( ) 2
f x yf x y
f y y y
평균: 0
1( | ) ( | ) ( )
2
y yE x y xf x y dx x dx
y
분산:
22 2
0
1( | ) [ ( | )] ( ) ( )
2 12
y y yVar x y E x E x y x dx
y
(2) 1/ 2 1/ 2
0 0
1 3 3 4 2(0 | ) ( | )
2 4 4 3 3P x y f x dx dx
4.4 공분산과 상관관계
구 확률변수가 확률적으로 어떻게 결합되어 있는가를 나타내는 지표.
4.4.1 공분산(Covariance)
,x y 가 종속이고 각각의 평균을 중심으로 하여 같은 방향으로의 변화 정도를 의미하는 것
이며, ( )( )x yx y 의 기대 값을 공분산이라 한다. 기호는
( , ) [( )( ) ( )xy x y x yCov x y E x y E xy 또는
11
( , ) ( ) ( ) ( )xyCov x y E xy E x E y
(증명) 두 확률변수 ,x y 에 대한 기대 값이 각각 ,x y 라 할 때 공분산은 다음과 같다.
( , ) [( )( )] ( )x y y x x yCov x y E x y E xy x y
( ) ( ) ( ) ( )y x x y x yE xy E x E y E xy
( ) ( ) ( )E xy E x E y
이산인 경우: ( , ) ( )( ) ( , )x y
x y
Cov x y x y f x y
연속인 경우: ( , ) ( )( ) ( , )x yCov x y x y f x y dxdy
,x y 가 독립인 경우의 공분산
( , ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 0Cov x y E xy E x E y E x E y E x E y
( ) ( ) ( ) 2 ( , ) ( ) ( )Var x y Var x Var y Cov x y Var x Var y
공분산의 성질
, , ,a b c d 가 상수일 때
( , ) ( , )Cov ax b cy d acCov x y
[보기 4_18] ,x y 의 결합확률 밀도함수가 다음과 같을 때 ,x y 의 공분산은 얼마인가?
2, 0 , 0 1( , )
0, 0 , , 0, 1
x y yf x y
x x y y y
(풀이)
31 1
2 1
0 00 0 0
1( ) 2 [ ] [ ]
3 3
yy y
E x xdxdy x dy
31 1 1
2 1
0 00 0 0 0
2 2( ) 2 2 [ ] 2 [ ]
3 3
yy y
E y y dxdy y x dy y dy
2 31 1 1
3 1
0 00 0 0 0
1( ) 2 2 [ ] [ ]
2 4 4
yyx y
E xy xy dxdy y dy y dy
1 1 2 1( , ) ( ) ( ) ( ) ( )
4 3 3 36Cor x y E xy E x E y
[보기 4_19] 두 확률변수 ,x y 에 대한 자료가 다음과 같이 주어졌을 때 두 변수간의 공분산
( , )Cov x y 를 구하여라.
x 60 55 75 80 80 y 75 70 80 85 90
(풀이) 1
( , ) [(60 75) (55 70) (75 80) (80 85) (80 90)] 56705
E x y
1( ) (60 55 75 80 80) 70
5E x
1( ) (75 70 80 85 90) 80
5E y
12
( , ) 5670 (70 80) 70Cov x y
4.4.2 상관계수(Correlation Coefficient)
공식: ( , )
( , ) ( , )xy
x y x y
Cov x yCorr x y x y
상관계수가 1이면 두 변수가 완전히 비례관계에 있다.
상관계수가 1 이면 두 변수가 완전히 반 비례관계에 있다.
상관계수가 0 이면 두 변수가 관계가 없음을 의미한다.
상관계수의 성질
(1) ( , ) ( , )x y y x
(2) 1 1xy
(3) ( , ) 1, ( , ) 1x x x x
(4) 상수 0ac 일 때: ( , ) ( , )ax b cy d x y
0ac 일 때: ( , ) ( , )ax b cy d x y
[보기 4_20] 변수 ,x y 에서 ,x y 의 표준편차는 각각 2.28, 7.73 공분산은 9.38 일 때 상관계수
는 얼마인가?
(풀이) ( , ) 9.38
( , ) ( , ) 0.718(2.28)(5.73)x y
Cov x yCorr x y x y
[보기 4_21] 두 확률변수 ,x y 의 결합 밀도함수가 다음과 같이 주어 졌을 때 상관계수 ( , )x y
를 구하여라.
3( , )
30
x yf x y
, 1,2x , 1,2y
(풀이) ,x y 의 주변밀도 함수:
2
1
3 3 1 3 2 6 3( )
30 30 30 30y
x y x x xf x
2
1
3 3 6 9 2( )
30 30 30 30x
x y y y yf y
평균: 2
1
1
9 15 39( ) ( ) 1( ) 2( )
30 30 30y
x xf x
2
2
1
11 13 37( ) ( ) 1( ) 2( )
30 30 30y
y yf y
분산: 2
2 2 2 2 2 2
1
9 15 39 183( ) ( ) [ ( )] 1 ( ) 2 ( ) ( )
30 30 30 300x
x x f x x
22 2 2 2 2 2
1
11 13 37 521( ) ( ) [ ( )] 1 ( ) 2 ( ) ( )
30 30 30 900x
y y f y y
13
공 분산: 2 2
1 1
( , ) ( , ) ( ) ( )x y
x y xy f x y x y
4 5 7 8 39 37 119(1 1 ) (1 2 ) (2 1 ) (2 2 ) ( )
30 30 30 30 30 30 300
1/ 2
119 / 300( , ) 0.6675
[(183/ 300)(521/ 900)]x y
SPSS 통계처리문제
[보기 4_22]두 확률변수 ,x y 에 대한 자료가 다음으로 주어졌을 때 상관계수를 구하라.
x 5 10 2 6 7 6 8 4 7 5 y 8 10 4 8 6 7 8 5 9 5
(풀이)1 60
(5 10 2 6 7 6 8 4 7 5) 6.010 10
x
1 70(8 10 4 8 6 7 8 5 9 5) 7.0
10 10y
( , ) ( ) ( ) ( )xyCov x y E xy E x E y
1(40 100 8 48 42 42 64 20 63 25) (6)(7)
10
45242 3.2
10
2 2 2 2 21[(5 6) (10 6) (7 6) (5 6) ] 4.4
10x
2 2 2 2 21[(8 7) (10 7) (9 7) (5 7) ] 3.4
10y
3.2( , ) ( , ) 0.827
(4.4)(3.4)
xy
x y
Corr x y x y
SPSS 통계처리[4_22_상관계수.sav]
분석>상관분석>이변량 상관계수
이변량 상관계수 보조창이 뜨면 변수 [x]와 [y]를 변수로 이동. 상관계수는 Pearson을 check. 유
의성 검정은 양쪽을 선택. 옵션버튼을 눌러 통계량의 두 check란을 모두check.
계속>확인
상관계수 결과
기술통계량
6.00 2.211 10
7.00 1.944 10
x
y
평균 표준편차 N
14
※ Pearson은 모분산에 대한 상관계수이고 Kendall이나 Spearman은 비모수에 대한 상관계수.
비모수상관
이변량 상관계수
이변량 상관계수 프로시저는 Pearson 상관계수, Spearman 의 Rho 및 Kendall 의 타우-b 를 계산하
고 각 유의수준과 함께 출력합니다. 상관계수는 변수나 순위 순서의 관련성을 측정합니다. 상관계수
를 계산하기 전에 잘못된 결과를 나타낼 수 있는 이상값의 유무와 데이터의 선형성 여부를 확인합
니다. Pearson 의 상관계수는 선형 관계의 측도입니다. 두 변수가 완벽하게 관련되어 있을 수는 있
으나 선형 관계가 아닌 경우 Pearson 의 상관계수는 그 관계 측정에 적합한 통계량이 아닙니다.
예제. 한 농구 팀이 이긴 경기 수는 게임당 평균 점수와 관련이 있습니까? 산점도를 통해 선형 관
계를 파악할 수 있습니다. 1994–1995 NBA 시즌의 데이터를 분석해 보면 Pearson 의 상관계수
(0.581)는 0.01 수준에서 유의합니다. 시즌마다 경기에서 많이 이길수록 상대편 팀의 점수는 낮아
진다고 생각할 수 있습니다. 이러한 변수는 음(–0.401)으로 상관되며 0.05 수준에서 유의합니다.
통계량. 각 변수에 대해 결측되지 않은 값이 있는 케이스 수, 평균, 표준편차를 선택할 수 있습니다.
각 대응변수에 대해 Pearson 의 상관계수, Spearman 의 Rho, Kendall 의 타우-b, 편차의 교차곱,
공분산을 선택할 수 있습니다
상관계수
1 .827**
.003
44.000 32.000
4.889 3.556
10 10
.827** 1
.003
32.000 34.000
3.556 3.778
10 10
Pearson 상관계수
유의확률 (양쪽)
제곱합 및 교차곱
공분산
N
Pearson 상관계수
유의확률 (양쪽)
제곱합 및 교차곱
공분산
N
x
y
x y
상관계수는 0.01 수준(양쪽)에서 유의합니다.**.
상관계수
1.000 .675**
. .010
10 10
.675** 1.000
.010 .
10 10
1.000 .786**
. .007
10 10
.786** 1.000
.007 .
10 10
상관계수
유의확률(양측)
N
상관계수
유의확률(양측)
N
상관계수
유의확률(양측)
N
상관계수
유의확률(양측)
N
x
y
x
y
Kendall의 tau_b
Spearman의 rho
x y
상관 유의수준이 0.01입니다(양측).**.
15
연습 문제
1. 같은 동전을 3 번 던져 앞면( h )과 뒷면( t )이 나타나는 문제에서 확률변수 x 를 앞면의 개수라
하자. 앞면과 뒷면이 나타날 확률은 각각 1/ 2 라 할 때
(1) 확률변수 x 의 확률밀도 함수 ( )f x 와 누적분포 함수 ( )F x 를 구하여라.
(2) 기대 값과 분산을 구하여라.
(3) 확률변수 x 의 값이 0 이거나 3 이면 1000 원을 받고, 그 외의 경우에는 400 원을 내어 준다
면 기대 금액은 얼마인가?
2. 확률밀도 함수가 다음과 같을 때 다음의 확률을 구하여라
1, 1 4
( ) 3
0, others
xf x
(1) 확률 (1 2)P x (2) 확률 (2.5 )P x
3. 다음과 같은 확률분포가 있다. 확률변수 x 의 기대 값과 분산을 각각 구하여라.
x 1 2 3 4 5
( )p x 0.35 0.25 0.12 0.2 0.8
4. 연속 확률변수 x 의 확률밀도 함수가 다음과 같다. 2(1 ), | | 1
( )0, others
k x xf x
(1) k 를 구하여라.
(2) 확률 1
( 2 )2
P x 를 구하여라.
(3) ( )E x 와 ( )Var x 를 구하여라.
(4) 2[(2 1) ]E x 을 구하여라.
(5) 누적 분포함수 ( ) ( )F x P X x 를 구하여라.
5. 다음과 같은 결합 확률분포가 있다.
1 2 3
2 0.24 0.12 0.24
5 0.16 0.08 0.16
(1) ,x y 의 주변 확률분포를 각각 구하여라.
(2) ( ), ( ), ( ), ( )E x E y Var x Var y 를 각각 구하여라.
(3) ( , )Cor x y 와 ( , )Corr x y 를 각각 구하여라.
(4) x 와 y 가 독립인지 조사하여라.