제 4장 확률분포 Probability Distribution -...

15
1 제 4장. 확률분포(Probability Distribution) 확률분포는 측정값이 정수로 나타나는 이산확률분포와 실수 값으로 나타나는 연속확률분포로 나 뉜다. 이산 확률분포의 종류: 이항분포, 포아송 분포, 초 기하분포, 음 이항분포, 다항분포 연속 확률분포: 정규 분포, t 분포, 2 분포, F 분포, 지수 분포 4.1 확률변수와 확률분포 확률은 표본공간의 수직선 위에서 변수에 대한 높이로 나타나며, 이러한 수직선 상의 수를 확률변 수(Random Variable)라 하고, 확률변수 x 는 표본공간에서 정의된 실수 함수로 정의한다. (예 1) 동전 하나를 던져 앞면이면 1 , 뒷면이면 0 을 취하는 변수 x 1 (head) 0 (tail) x 각각이 나올 확률은 1/2 이므로 이에 대한 표기는 1 ( 1) 2 Px , 1 ( 0) 2 Px 이때 수직선 상에는 x 1, 0 인 두 수가 있고, 각 수에 대한 높이인 1/2 은 확률이 된다. (예 2) 동전을 두 번 던져 나오는 변량을 x 라 하면 두 번다 앞면이 나오는 변수 값을 0 , 한 번 은 앞면 한 번은 뒷면인 경우를 1 , 두 번다 뒷면의 경우를 2 로 변량화 한다. 여기서 표본 공간은 { , , ,} S hh ht th tt 이다. 부분 공간은 { } o E hh , 1 { , } E ht th , 2 {} E tt 이들을 확률변수로 나타내면 1 ( 0) ( ) 4 o Px PE , 1 2 ( 1) ( ) 4 Px PE , 2 1 ( 2) ( ) 4 Px PE 앞으로 표본공간 1 2 {, , , } n S ee e 는 확률변수 1 2 { , , , } n x xx x 로 대치하여 사용하며 어떤 특 정변수 값 i x 에 대한 확률은 ( ) i Px 로 표시된다. 4.1.1 이산 확률변수 확률변수 x 가 취하는 모든 값은 셀 수 있는 정수 값인 1 2 3 , , , , n xx x x 을 가지며 이것은 이산 확 률변수 이고, 여기에 확률 값을 대응시킨 함수를 확률 질량함수(Probability Mass Function)라 한 다. 즉 질량함수는 다음과 같이 표시된다. ( ), , 1, 2, () 0, others i i Px x x x i fx () fx 의 성질 (1) 모든 x 에 대하여 ( ) 0 i fx

Transcript of 제 4장 확률분포 Probability Distribution -...

Page 1: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

1

제 4장. 확률분포(Probability Distribution)

확률분포는 측정값이 정수로 나타나는 이산확률분포와 실수 값으로 나타나는 연속확률분포로 나

뉜다.

이산 확률분포의 종류: 이항분포, 포아송 분포, 초 기하분포, 음 이항분포, 다항분포

연속 확률분포: 정규 분포, t 분포, 2 분포, F 분포, 지수 분포

4.1 확률변수와 확률분포

확률은 표본공간의 수직선 위에서 변수에 대한 높이로 나타나며, 이러한 수직선 상의 수를 확률변

수(Random Variable)라 하고, 확률변수 x 는 표본공간에서 정의된 실수 함수로 정의한다.

(예 1) 동전 하나를 던져 앞면이면 1, 뒷면이면 0 을 취하는 변수 x

1 (head)

0 (tail)x

각각이 나올 확률은 1/ 2 이므로 이에 대한 표기는

1( 1)

2P x ,

1( 0)

2P x

이때 수직선 상에는 x 가 1, 0 인 두 수가 있고, 각 수에 대한 높이인 1/ 2 은 확률이 된다.

(예 2) 동전을 두 번 던져 나오는 변량을 x 라 하면 두 번다 앞면이 나오는 변수 값을 0 , 한 번

은 앞면 한 번은 뒷면인 경우를 1, 두 번다 뒷면의 경우를 2 로 변량화 한다. 여기서 표본 공간은

{ , , , }S hh ht th tt 이다.

부분 공간은 { }oE hh , 1 { , }E ht th , 2 { }E tt

이들을 확률변수로 나타내면

1( 0) ( )

4oP x P E ,

1

2( 1) ( )

4P x P E ,

2

1( 2) ( )

4P x P E

앞으로 표본공간 1 2{ , , , }nS e e e 는 확률변수 1 2{ , , , }nx x x x 로 대치하여 사용하며 어떤 특

정변수 값 ix 에 대한 확률은 ( )iP x 로 표시된다.

4.1.1 이산 확률변수

확률변수 x 가 취하는 모든 값은 셀 수 있는 정수 값인 1 2 3, , , , nx x x x 을 가지며 이것은 이산 확

률변수 이고, 여기에 확률 값을 대응시킨 함수를 확률 질량함수(Probability Mass Function)라 한

다. 즉 질량함수는 다음과 같이 표시된다.

( ), , 1,2,( )

0, others

i iP x x x x if x

( )f x 의 성질

(1) 모든 x 에 대하여 ( ) 0if x

Page 2: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

2

(2) 1

( ) 1 1n

i i

i i

f x p

(3) ( ) ( )i

i

a x b

P a x b f x

이것의 일반적인 그래프는 막대 그래프이다.

[보기 4_1] 동전을 3 회 던져 나오는 변수를 x 라 하자. 그러면 x 는 세 번 모두 앞면인 경우

( hhh )를 0 , 두 면이 앞이고 한 면이 뒤인 경우( hht , hth 또는 thh )를 1 , 한 면이 앞이고 두

면이 뒤인 경우( htt , tht 또는 tth )를 2 , 그리고 모두 뒷면인 경우( ttt )를 3 으로 한 변량이다. 변

수 x 에 대한 확률을 각각 구하여라.

(풀이) 세 번 던져 나올 수 있는 짝, 즉 표본 공간 S 와 변수에 대한 확률은 다음과 같다.

{ , , , , , , , }S hhh hht hth thh htt tht tth ttt

1( 0)

8P x ,

3( 1)

8P x ,

3( 2)

8P x ,

1( 3)

8P x

변수 x 에 대한 확률 ( )iP x x 를 도표로 요약하면

ix ( )iP x x 표본 공간

0 1/8 { }hhh

1 3/8 { },{ },{ }hht hth thh

2 3/8 { },{ },{ }htt tht tth

3 1/8 { }ttt

4.1.2 연속 확률변수

셀 수 없이 연속적으로 나타나는 변수이며, 이것의 그래프는 일반적으로 히스토그램이다. 확률의

수학적 표현은

( ) ( )b

aP a x b f x dx

확률밀도 함수 ( )f x 의 성질

(1) ( ) 0f x

(2) ( ) 1f x dx

(3) ( ) ( )b

aP a x b f x dx

[보기 4_2] 다음의 확률밀도 함수에 대해 (1) c 의 값을 구하라. (2) (1 2)P x 의 값을 구하여

라.

2 0 3( )

0 others

cx xf x

Page 3: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

3

(풀이) (1)

33

2 3

00

1[ ] 9 1

3 9

xcx dx c c c

(2)

32

2 2

11

1 1 1 8 1 7(1 2) [ ] ( )

9 9 3 9 3 3 27

xP x x dx

4.1.3 누적 분포함수(Cumulative Distribution Function)

단순히 분포함수라고도 하며 ix x 또는 ix x 에 해당하는 누적된 면적의 확률 함수이다. 이것

은 다음과 같이 정의된다.

이산인 경우: ( ) ( ) ( )i i i

ix

F x P x x p x

연속인 경우: ( ) ( ) ( )x

i iF x P x x f t dt

이산인 경우 누적분포 함수는 로부터 ix 까지 사이에 있는 모든 확률변수에 대한 확률을 더한

값이며, 연속인 경우는 적분한 것으로 그것은 우측의 그림처럼 적분면적에 해당한다. [보기 4_3] 다음의 확률밀도 함수에서 분포함수를 구하여라.

210 3

( ) 9

0 others

x xf x

(풀이) (1) 0x : ( ) 0F x

(2) 0 3x :

32

0 0

1( ) ( )

9 27

x x xF x f t dt t dt

(3) 3x : 3 3

2 3 3

00 0

1 1( ) ( ) [ ] 1

9 27F x f t dt t dt t

누적분포 함수의 성질

(1) 0 ( ) 1F x

(2) 1 2x x 이면 1 2( ) ( )F x F x

(3) ( ) ( ) ( )P a x b F b F a

(4) lim ( ) 1, lim ( ) 0x x

F x F x

(5) 확률밀도 함수: ( ) ( )d

f x F xdx

(6) ( )F x 는 우측으로 연속

[보기 4_4] 확률밀도 함수가 다음과 같을 때 x 의 분포함수를 구하고 이를 써서

(0 1)P x 을 구하여라. 2

, 1 2( ) 3

0, others

xx

f x

(풀이) (1) 1x : ( ) 0F x

Page 4: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

4

(2) 1 2x :

32

1

1( )

3 9

x xF x t dt

(3) 2x : 2

2 3 2

11

1 1 1( ) [ ] (8 1) 1

3 9 9F x t dt t

(4) 1

(0 1) ( 1) ( 0)9

P x F x F x

4.2 기대값과 분산

확률변수는 평균과 분산을 가지며 이는 해당 모집단의 평균과 분산이다. 확률변수 x 에 대한 평균

을 기대 값이라고도 하며 분산과 함께 확률분포의 특징을 나타낸다.

4.2.1기대값(Expected Value)

확률변수 x 가취하는값을 1 2, , , nx x x , 확률을 1 2( ), ( ), , ( )np x p x p x 이라하면

즉 ( ) ( )i iP x x p x

확률변수 x 의평균또는기대값: 1 1 2 2( ) ( ) ( )n nx p x x p x x p x

기대값은확률변수 x 의중심적경향을나타내는값으로대표값이며, 기호로 ( )E x 또는평균이라는의미에

서 로표시한다.

확률변수 x 에 대한 기대값(평균)

(1) x 가 이산 확률변수 일 때: 1

( ) ( )n

i i

i

E x x p x

(2) x 가 연속 확률변수 일 때: ( ) ( )E x xf x dx

여기서 1

( ) 1n

i

i

p x

, 1 1 1

( ) ( ) ( ) ( ) 0n n n

i x i i i x i x x

i i i

x p x x p x p x

x 의 함수 ( )g x 의 기대값

x 가 이산 확률변수 일 때: 1

{ ( )} ( ) ( )n

i i

i

E g x g x p x

x 가 연속 확률변수 일 때: { ( )} ( ) ( )E g X g x f x dx

[보기 4_5] 2 개의 주사위를 던질 때 나오는 눈금의 합을 확률변수 x 라 할 때, x 에 대한 평균

( )E x 를 구하여라.

(풀이) x 가 취할 수 있는 값: 2,3,4, ,12

각 수에 대한 확률: 1 2 3 1

, , , ,36 36 36 36

기대값(평균값):

1

1 2 5 6 5 1( ) ( ) (2 ) (3 ) (6 ) (7 ) (8 ) (12 ) 7

36 36 36 36 36 36

n

i i

i

E x x p x

Page 5: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

5

이것을 일상적인 방법(Conventional Method)으로 평균치를 구해보자.

2,3,4, ,12의 도수는 11n 개

2 3 12 777

11 11x

[보기 4_6] 복권 100,000 매를 판매하고 당첨자 수와 상금은 아래와 같다. 복권 한 장 당 기대할

수 있는 당첨금은 얼마인가?

등 수 당첨자 수 상금

1 등

2 등

3 등

등 외

1

100

1,000

98,899

1,000,000

100,000

10,000

0

(풀이) 1

( ) [(1 1,000,000) (100 100,000) (1,000 10,000)100,000

E x

21,000,000210

100,000

평균계산으로 구해보면 총 도수는 100,000 .

총 상금은 각 도수에 상금을 곱한 것이므로 계산은 위와 동일하게 나온다.

따라서 한 장 당 받을 수 있는 평균은 210 .

[보기 4_7] 확률변수가 다음과 같은 확률분포를 가질 때 2[( 1) ]E x 의 기대 값을 구하여라.

x 0 1 2 3

( )f x 1/6 1/3 1/3 1/6

(풀이) 2 2 1 1 1 1 7

[( 1) ] ( 1) ( ) (1 ) (0 ) (1 ) (4 )6 3 3 6 6

iE x x f x

기대 값의 성질

1 2, , ,a b c c 는 상수일 때

(1) ( )E a a , ( ) ( )E ax aE x

(2) ( ) ( ) ( )E x y E x E y

(3) 확률변수 ,x y 가 독립: ( ) ( ) ( )E xy E x E y

(4) ( ) ( )E ax b aE x b

(5) 1 1 2 2 1 1 2 2[ ( ) ( )] [ ( )] [ ( )]E c g x c g x c E g x c E g x

[보기 4_8] 주머니에 흰 공( w 로 표시) 3 개, 검은 공 ( b 로 표시) 5 개가 들어 있다. 주머니에서

2 개를 꺼낼 때 색이 같으면 1,000 원, 색이 다르면 500원을 준다. 평균적인 기대 값은 얼마인가?

(풀이) 모두 흰색 또는 검은 색을 꺼낼 확률:

1 3 2 5 2

8 2

1 3 10 13[ ]

8!/ 2! 6! 28p C C

C

Page 6: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

6

색이 다를 확률: 2 1

151

28p p

기대값: 1 1 2 2

13 15( ) ( )(1,000) ( )(500) 196

28 28E x p x p x

[보기 4_9] 확률변수 x 에 대한 값의 평균이 12일 때 3 1y x 의 평균 값을 구하여라.

(풀이) ( ) 12E x , ( ) (3 1) 3 ( ) (1) 3(12) 1 37E y E x E x E

4.2.2 분산(Variance)

분산은 기대값 ( )E x 로부터 떨어진 정도로 ( )Var x , 또는 2 ( )x 로 표시한다.

확률변수의 분산

(1) x 가 이산변수 일 때: 2 2( ) ( ) [ ( )]Var x E x E x

(증명) ( )Var x 2 2 2 2 2[( ) ] ( 2 ) ( ) 2 ( )E x E x x E x E x

( )E x 이므로 2 2 2 2 2 2[( ) ] ( ) 2 ( )E x E x E x

2 2

1

( ) [( ) ] ( ) ( )n

i i

i

Var x E x x p x

, [1

( ) ( )n

i i

i

E x x p x

]

(2) x 가 연속변수 일 때: 2 2( ) ( )Var x x f x dx

(증명) 2 2( ) [( ) ] ( ) ( )Var x E x x f x dx

2 2( ) ( 2 ) ( )Var x x x f x dx

2 2( ) 2 ( ) ( )x f x dx x f x dx f x dx

여기서 ( )x f x dx

, ( ) 1f x dx

이므로

2 2( ) [( ) ] ( ) ( )Var x E x x f x dx

[보기 4_10] 동전을 3 회 던질 때 앞면이 나오는 회수를 x 라 하면 x 가 취할 수 있는 값에 대한

확률이 다음과 같을 때 평균과 분산을 구하여라.

x 0 1 2 3

( )p x 1/8 3/8 3/8 1/8

(풀이) 1 3 3 1 3

[(0) ( ) (1) ( ) (2) ( ) (3) ( )8 8 8 8 2

2 2 2 2 21 3 3 1 3 3( ) [(0) ( ) (1) ( ) (2) ( ) (3) ( )] ( )

8 8 8 8 2 4Var x

[보기 4_11] 확률변수 x 의 확률밀도 함수가 다음과 같을 때 기대 값과 분산을 구하여라.

6 (1 ), 0 1( )

0, others

x x xf x

Page 7: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

7

(풀이)

3 41 1 1

2 2 3 1

00 0 0

1( ) ( ) 6 (1 ) 6 ( ) 6[ ]

3 4 2

x xE x xf x dx x x dx x x dx

4 51 1

2 3 4 1

00 0

3( ) 6 ( ) 6[ ]

4 5 10

x xx f x dx x x dx

12 2 2

0

3 1 1( ) ( ) ( )

10 2 20Var x x f x dx

분산의 특성

,a b 가 상수 일 때

(1) ( ) 0Var a , 2( ) ( )Var ax a Var x , ( ) ( )Var x a Var x

(2) ,x y 가 독립일 때

( ) ( ) ( )Var x y Var x Var y , 2 2( ) ( ) ( )Var ax by a Var x b Var y

(3) ,x y 가 종속일 때

( ) ( ) ( ) 2 ( , )Var x y Var x Var y Cov x y

2 2( ) ( ) ( ) 2 ( , )Var ax by a Var x b Var y abCov x y

[보기 4_12] 두 확률변수 ,x y 가 서로 독립이고 ( ) 12E x , ( ) 10E y , ( ) 0.5Var x ,

( ) 0.75Var y 일 때 5 3 6z x y 의 평균과 분산을 구하여라.

(풀이) ( ) 5 ( ) 3 ( ) 6 (5 12) (3 10) 6 36E z E x E y

2 2( ) 5 ( ) 3 ( ) (25 0.5) (9 0.75) 19.25Var z V x V y

4.2.3 표준편차

표준편차는 분산의 평방근 값으로 표시한다. 즉

( )s Var x

[보기 4_13] x 의 확률밀도 함수가 다음과 같이 주어질 때 평균, 분산 및 표준편차를 각각 구하

여라.

3( ) 3 ( 0)xf x e x

(풀이) 3

0 0( ) 3 xx f x dx xe dx

이러한 것에 대한 적분은 다음과 같이 부분적분으로 계산한다.

3 3u x du dx , 3 31

3

x xdv e dx v e

3 3 3

0

1 13 (3 )( ) ( )(3 )

3 3

x x xxe dx uv vdu x e e dx

3

3 3 3

0

1 1[ ( 3 ) [ ]

3 3 3

xx x x e

xe e d x xe

: 1

3

분산: 2 2

0( ) ( )Var x x f x dx

Page 8: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

8

※2 3(3 )xx e dx

의 적분: 2 2u x du xdx ,

3 33 x xdv e dx v e

2 3 3 2 3 3( )( ) ( )(2 ) (2 )x x x xuv vdu x e e xdx x e x e dx

뒤에 부분을 한번 더 부분 적분하면

' 2 ' 2u x du dx , 3 31

' '3

x xdv e dx v e

3 3 3 3 32 1 2 2 2(2 ) ( )[ ( 3 )]

3 3 3 3 9

x x x x xx e dx xe e d x xe e

3 2

0

2 2 2( ) [ ( )]

3 9 9

xVar x e x x

표준편차: 2

( ) 2 / 93

s Var x

4.3 결합 확률분포

두 개 이상의 변수를 동시에 고려하는 확률분포다. 예를 들면 학생의 두 성적인 통계학과 전산학

의 관계를 규명할 때 이러한 확률분포를 사용한다. 다른 예로 옷을 맞추는데 키와 가슴둘레를 동

시에 고려하는 것과 같이 결합된 두 변수 이상을 사용하는 확률이다.

결합 확률함수의 성질

i) 이산의 경우

(1) ( , ) 0f x y

(2) ( , ) 1x y

f x y

(3) [ , ] ( , )a x b c y d

P a x b c y d f x y

ii) 연속의 경우

(1) ( , ) 0f x y

(2) ( , ) 1f x y dxdy

(3) [ , ] ( , )d b

c aP a x b c y d f x y dxdy

(예제 14) 결합 밀도함수가 다음과 같은 때

26 , (0 1, 0 1)( , )

0, others

x y x yf x y

3 1(0 , 2)

4 3P x y 를 구하여라.

(풀이) 1 3/ 4

2 3 3 3/ 4 2 1

0 1/31/3 0

3 1(0 , 2) 6 2 [ ] [ ]

4 3P x y dy x y dx x ydy x y

3 2 23 1 27 8 3( ) [(1) ( ) ] ( )( )4 3 64 9 8

[보기 4_15] 주머니에 3 개의 검은 공, 2 개의 붉은 공, 3 개의 흰 공이 있다. 임의로 2 개의 공

을 뽑을 때 검은 공의 개수를 x , 붉은 공의 개수를 y 로 변량화 하여 결합 확률분포를 구하여라.

Page 9: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

9

(1) 검은 공과 붉은 공이 1개도 뽑히지 않을 확률: 3 2 3 2

8 2

3(0,0)

28

o oC C Cf

C

(2) 검은 공 0 , 붉은 공이 1개 뽑힐 확률: 3 2 1 3 1

8 2

2 3 3(0,1)

28 14

oC C Cf

C

(3) 검은 공 1, 붉은 공이 0 개 뽑힐 확률: 3 1 2 0 3 1

8 2

3 3 9(1,0)

28 28

C C Cf

C

(4) 검은 공 1, 붉은 공이 1개 뽑힐 확률: 3 1 2 1 3 0

8 2

3 2 3(1,1)

28 14

C C Cf

C

(5) 검은 공 0 , 붉은 공이 2 개 뽑힐 확률: 3 2 2 3 0

8 2

1(0,2)

28

oC C Cf

C

(6) 검은 공 2 , 붉은 공이 0 개 뽑힐 확률: 3 2 2 0 3 0

8 2

3(2,0)

28

C C Cf

C

이들을 교차하는 표로 만들어 보면

0 1 2 ( )f y

0

1

2

3/28 9/28 3/28

3/14 3/14 0

1/28 0 0

15/28

12/28

1/28

( )f x 10/28 15/28 3/28 1

위의 결합 확률질량 함수는 다음과 같다.

3 2 3

8 2

( , )x y z x yC C C

f x yC

, ( 0,1,2x , 0,1,2y , 0 2x y )

결합 확률분포 함수 ( , )f x y 가 x 또는 y 만의 분포이면 다음과 같이 정의된다.

(1) 이산 확률변수 일 때: ( ) ( , )y

f x P x y , ( ) ( , )x

f y P x y

(2) 연속 확률변수 일 때: ( ) ( , )f x f x y dy

( ) ( , )f y f x y dx

여기서 ( )f x 와 ( )f y 는 위의 표에서 각각 가로 합과 세로 합이며, x 와 y 의 확률밀도 함수이

다. 이것을 확률변수 x 와 y 의 주변 확률분포(Marginal Probability)라 한다.

[보기 4_16] 확률밀도 함수가 다음과 같이 주어졌을 때 각각의 주변 확률분포를 구하여라.

2, 0 1( , )

0, others

x yf x y

(풀이) 1

1( ) 2 2[ ] 2(1 ), 0 1xx

f x dy y x x

00

( ) 2 2[ ] 2 , 0 1y

yf y dx x y y

결합 확률분포의 독립

Page 10: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

10

두 확률변수 ,x y 가 독립이면 다음의 관계가 성립한다.

( , ) ( ) ( ) ( , )f x y f x f y x y

이 경우 평균과 분산은 주변분포를 사용하여 다음과 같이 계산된다.

(1) 이산과 연속일 때 각각의 평균

( ) ( )x

x

E x x f x , ( ) ( )y

y

E y y f y

( )x x f x dx

, ( )y f y dy

(2) 이산과 연속일 때 각각의 분산 2 2( ) ( ) ( ) ( , )x x

x y

Var x E x x f x y ,

2 2( ) ( ) ( ) ( , )y y

x y

Var y E y y f x y

2 2( ) ( ) ( ) ( , )x xVar x E x x f x y dxdy

2 2( ) ( ) ( ) ( , )y yVar y E y y f x y dxdy

[보기 4_17] 다음의 결합 밀도함수가 주어졌을 때 다음 물음에 답하라.

2, 0 1( , )

0 others

x yf x y

(1) y 가 주어질 때 x 의 조건부 확률 및 확률의 평균과 분산

(2) 확률 1 3

(0 | )2 4

P x y

(풀이) (1) 확률: ( , ) 2 1

( | )( ) 2

f x yf x y

f y y y

평균: 0

1( | ) ( | ) ( )

2

y yE x y xf x y dx x dx

y

분산:

22 2

0

1( | ) [ ( | )] ( ) ( )

2 12

y y yVar x y E x E x y x dx

y

(2) 1/ 2 1/ 2

0 0

1 3 3 4 2(0 | ) ( | )

2 4 4 3 3P x y f x dx dx

4.4 공분산과 상관관계

구 확률변수가 확률적으로 어떻게 결합되어 있는가를 나타내는 지표.

4.4.1 공분산(Covariance)

,x y 가 종속이고 각각의 평균을 중심으로 하여 같은 방향으로의 변화 정도를 의미하는 것

이며, ( )( )x yx y 의 기대 값을 공분산이라 한다. 기호는

( , ) [( )( ) ( )xy x y x yCov x y E x y E xy 또는

Page 11: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

11

( , ) ( ) ( ) ( )xyCov x y E xy E x E y

(증명) 두 확률변수 ,x y 에 대한 기대 값이 각각 ,x y 라 할 때 공분산은 다음과 같다.

( , ) [( )( )] ( )x y y x x yCov x y E x y E xy x y

( ) ( ) ( ) ( )y x x y x yE xy E x E y E xy

( ) ( ) ( )E xy E x E y

이산인 경우: ( , ) ( )( ) ( , )x y

x y

Cov x y x y f x y

연속인 경우: ( , ) ( )( ) ( , )x yCov x y x y f x y dxdy

,x y 가 독립인 경우의 공분산

( , ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 0Cov x y E xy E x E y E x E y E x E y

( ) ( ) ( ) 2 ( , ) ( ) ( )Var x y Var x Var y Cov x y Var x Var y

공분산의 성질

, , ,a b c d 가 상수일 때

( , ) ( , )Cov ax b cy d acCov x y

[보기 4_18] ,x y 의 결합확률 밀도함수가 다음과 같을 때 ,x y 의 공분산은 얼마인가?

2, 0 , 0 1( , )

0, 0 , , 0, 1

x y yf x y

x x y y y

(풀이)

31 1

2 1

0 00 0 0

1( ) 2 [ ] [ ]

3 3

yy y

E x xdxdy x dy

31 1 1

2 1

0 00 0 0 0

2 2( ) 2 2 [ ] 2 [ ]

3 3

yy y

E y y dxdy y x dy y dy

2 31 1 1

3 1

0 00 0 0 0

1( ) 2 2 [ ] [ ]

2 4 4

yyx y

E xy xy dxdy y dy y dy

1 1 2 1( , ) ( ) ( ) ( ) ( )

4 3 3 36Cor x y E xy E x E y

[보기 4_19] 두 확률변수 ,x y 에 대한 자료가 다음과 같이 주어졌을 때 두 변수간의 공분산

( , )Cov x y 를 구하여라.

x 60 55 75 80 80 y 75 70 80 85 90

(풀이) 1

( , ) [(60 75) (55 70) (75 80) (80 85) (80 90)] 56705

E x y

1( ) (60 55 75 80 80) 70

5E x

1( ) (75 70 80 85 90) 80

5E y

Page 12: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

12

( , ) 5670 (70 80) 70Cov x y

4.4.2 상관계수(Correlation Coefficient)

공식: ( , )

( , ) ( , )xy

x y x y

Cov x yCorr x y x y

상관계수가 1이면 두 변수가 완전히 비례관계에 있다.

상관계수가 1 이면 두 변수가 완전히 반 비례관계에 있다.

상관계수가 0 이면 두 변수가 관계가 없음을 의미한다.

상관계수의 성질

(1) ( , ) ( , )x y y x

(2) 1 1xy

(3) ( , ) 1, ( , ) 1x x x x

(4) 상수 0ac 일 때: ( , ) ( , )ax b cy d x y

0ac 일 때: ( , ) ( , )ax b cy d x y

[보기 4_20] 변수 ,x y 에서 ,x y 의 표준편차는 각각 2.28, 7.73 공분산은 9.38 일 때 상관계수

는 얼마인가?

(풀이) ( , ) 9.38

( , ) ( , ) 0.718(2.28)(5.73)x y

Cov x yCorr x y x y

[보기 4_21] 두 확률변수 ,x y 의 결합 밀도함수가 다음과 같이 주어 졌을 때 상관계수 ( , )x y

를 구하여라.

3( , )

30

x yf x y

, 1,2x , 1,2y

(풀이) ,x y 의 주변밀도 함수:

2

1

3 3 1 3 2 6 3( )

30 30 30 30y

x y x x xf x

2

1

3 3 6 9 2( )

30 30 30 30x

x y y y yf y

평균: 2

1

1

9 15 39( ) ( ) 1( ) 2( )

30 30 30y

x xf x

2

2

1

11 13 37( ) ( ) 1( ) 2( )

30 30 30y

y yf y

분산: 2

2 2 2 2 2 2

1

9 15 39 183( ) ( ) [ ( )] 1 ( ) 2 ( ) ( )

30 30 30 300x

x x f x x

22 2 2 2 2 2

1

11 13 37 521( ) ( ) [ ( )] 1 ( ) 2 ( ) ( )

30 30 30 900x

y y f y y

Page 13: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

13

공 분산: 2 2

1 1

( , ) ( , ) ( ) ( )x y

x y xy f x y x y

4 5 7 8 39 37 119(1 1 ) (1 2 ) (2 1 ) (2 2 ) ( )

30 30 30 30 30 30 300

1/ 2

119 / 300( , ) 0.6675

[(183/ 300)(521/ 900)]x y

SPSS 통계처리문제

[보기 4_22]두 확률변수 ,x y 에 대한 자료가 다음으로 주어졌을 때 상관계수를 구하라.

x 5 10 2 6 7 6 8 4 7 5 y 8 10 4 8 6 7 8 5 9 5

(풀이)1 60

(5 10 2 6 7 6 8 4 7 5) 6.010 10

x

1 70(8 10 4 8 6 7 8 5 9 5) 7.0

10 10y

( , ) ( ) ( ) ( )xyCov x y E xy E x E y

1(40 100 8 48 42 42 64 20 63 25) (6)(7)

10

45242 3.2

10

2 2 2 2 21[(5 6) (10 6) (7 6) (5 6) ] 4.4

10x

2 2 2 2 21[(8 7) (10 7) (9 7) (5 7) ] 3.4

10y

3.2( , ) ( , ) 0.827

(4.4)(3.4)

xy

x y

Corr x y x y

SPSS 통계처리[4_22_상관계수.sav]

분석>상관분석>이변량 상관계수

이변량 상관계수 보조창이 뜨면 변수 [x]와 [y]를 변수로 이동. 상관계수는 Pearson을 check. 유

의성 검정은 양쪽을 선택. 옵션버튼을 눌러 통계량의 두 check란을 모두check.

계속>확인

상관계수 결과

기술통계량

6.00 2.211 10

7.00 1.944 10

x

y

평균 표준편차 N

Page 14: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

14

※ Pearson은 모분산에 대한 상관계수이고 Kendall이나 Spearman은 비모수에 대한 상관계수.

비모수상관

이변량 상관계수

이변량 상관계수 프로시저는 Pearson 상관계수, Spearman 의 Rho 및 Kendall 의 타우-b 를 계산하

고 각 유의수준과 함께 출력합니다. 상관계수는 변수나 순위 순서의 관련성을 측정합니다. 상관계수

를 계산하기 전에 잘못된 결과를 나타낼 수 있는 이상값의 유무와 데이터의 선형성 여부를 확인합

니다. Pearson 의 상관계수는 선형 관계의 측도입니다. 두 변수가 완벽하게 관련되어 있을 수는 있

으나 선형 관계가 아닌 경우 Pearson 의 상관계수는 그 관계 측정에 적합한 통계량이 아닙니다.

예제. 한 농구 팀이 이긴 경기 수는 게임당 평균 점수와 관련이 있습니까? 산점도를 통해 선형 관

계를 파악할 수 있습니다. 1994–1995 NBA 시즌의 데이터를 분석해 보면 Pearson 의 상관계수

(0.581)는 0.01 수준에서 유의합니다. 시즌마다 경기에서 많이 이길수록 상대편 팀의 점수는 낮아

진다고 생각할 수 있습니다. 이러한 변수는 음(–0.401)으로 상관되며 0.05 수준에서 유의합니다.

통계량. 각 변수에 대해 결측되지 않은 값이 있는 케이스 수, 평균, 표준편차를 선택할 수 있습니다.

각 대응변수에 대해 Pearson 의 상관계수, Spearman 의 Rho, Kendall 의 타우-b, 편차의 교차곱,

공분산을 선택할 수 있습니다

상관계수

1 .827**

.003

44.000 32.000

4.889 3.556

10 10

.827** 1

.003

32.000 34.000

3.556 3.778

10 10

Pearson 상관계수

유의확률 (양쪽)

제곱합 및 교차곱

공분산

N

Pearson 상관계수

유의확률 (양쪽)

제곱합 및 교차곱

공분산

N

x

y

x y

상관계수는 0.01 수준(양쪽)에서 유의합니다.**.

상관계수

1.000 .675**

. .010

10 10

.675** 1.000

.010 .

10 10

1.000 .786**

. .007

10 10

.786** 1.000

.007 .

10 10

상관계수

유의확률(양측)

N

상관계수

유의확률(양측)

N

상관계수

유의확률(양측)

N

상관계수

유의확률(양측)

N

x

y

x

y

Kendall의 tau_b

Spearman의 rho

x y

상관 유의수준이 0.01입니다(양측).**.

Page 15: 제 4장 확률분포 Probability Distribution - KOCWcontents.kocw.net/KOCW/document/2013/koreasejong/HongSungsik… · xx 12 이면 F x F x( ) ( ) 12 d (3) P a x b F b F a( ) ( )

15

연습 문제

1. 같은 동전을 3 번 던져 앞면( h )과 뒷면( t )이 나타나는 문제에서 확률변수 x 를 앞면의 개수라

하자. 앞면과 뒷면이 나타날 확률은 각각 1/ 2 라 할 때

(1) 확률변수 x 의 확률밀도 함수 ( )f x 와 누적분포 함수 ( )F x 를 구하여라.

(2) 기대 값과 분산을 구하여라.

(3) 확률변수 x 의 값이 0 이거나 3 이면 1000 원을 받고, 그 외의 경우에는 400 원을 내어 준다

면 기대 금액은 얼마인가?

2. 확률밀도 함수가 다음과 같을 때 다음의 확률을 구하여라

1, 1 4

( ) 3

0, others

xf x

(1) 확률 (1 2)P x (2) 확률 (2.5 )P x

3. 다음과 같은 확률분포가 있다. 확률변수 x 의 기대 값과 분산을 각각 구하여라.

x 1 2 3 4 5

( )p x 0.35 0.25 0.12 0.2 0.8

4. 연속 확률변수 x 의 확률밀도 함수가 다음과 같다. 2(1 ), | | 1

( )0, others

k x xf x

(1) k 를 구하여라.

(2) 확률 1

( 2 )2

P x 를 구하여라.

(3) ( )E x 와 ( )Var x 를 구하여라.

(4) 2[(2 1) ]E x 을 구하여라.

(5) 누적 분포함수 ( ) ( )F x P X x 를 구하여라.

5. 다음과 같은 결합 확률분포가 있다.

1 2 3

2 0.24 0.12 0.24

5 0.16 0.08 0.16

(1) ,x y 의 주변 확률분포를 각각 구하여라.

(2) ( ), ( ), ( ), ( )E x E y Var x Var y 를 각각 구하여라.

(3) ( , )Cor x y 와 ( , )Corr x y 를 각각 구하여라.

(4) x 와 y 가 독립인지 조사하여라.