Tong In Oh, Kyung Hee Univ. Fall Semester, 2015 3.2...

Tong In Oh, Kyung Hee Univ. Fall Semester, 2015

1

3.2 확률분포

• 모집단: 연구조사의대상인전체집단• 모든관측값/측정값들의집합으로추론하고자하는대상단위들의전체

• 표본: 모집단의일부만추출한것• 실제측정된관측값/측정값들의일부분, 모집단의부분집합

• 모집단의성격과특성을제대로표현하는표본선정이중요

• 표본의크기와대표성 (그림 3.2.1)

• 예: (A지역주민의주변환경에대한만족도조사)

• 모집단의평균이이구간에있을확률


2

3.2.1 정규분포

• 측정자료의개수가커질수록도수분포형태는어떤값을중심으로좌우대칭인종모양곡선을가짐

• 중심극한정리 (central limit theorem) – 줄자를읽는예

• 연속확률분포가정규분포 (normal distribution) – 그림 3.2.2

• 𝑓 𝑥 =1

2𝜋𝜎2𝑒− 𝑥−𝜇 2

2𝜎2 , −∞ < 𝑥 < ∞

• 통계적추론에서기본이되는확률분포• 평균(μ) 기준으로좌우대칭종모양, 𝑓 𝜇 가가장큰값

• −∞또는∞에서 0에수렴

• 𝑓 𝑥 ≥ 0, −∞∞

𝑓 𝑥 𝑑𝑥 = 1

• 𝑃 𝑎 ≤ 𝑥 ≤ 𝑏 = 𝑎𝑏𝑓 𝑥 𝑑𝑥

• μ는분포의중심값, σ는분포의퍼짐정도 – 그림 3.2.4


3

3.2.2 표준정규분포

• 표본 1 = 𝑥11 𝑥12 𝑥13 𝑥14 ⋯ 𝑥1𝑁 평균 𝑥1, 표준편차 𝑠1



• 표본 i = 𝑥𝑖1 𝑥𝑖2 𝑥𝑖3 𝑥𝑖4 ⋯ 𝑥𝑖𝑁 평균 𝑥𝑖, 표준편차 𝑠𝑖

• 표본평균들의평균 𝐸 𝑥 = μ, 분산 V 𝑥 =𝜎2

𝑁, 표준편차 σ 𝑥 =

𝜎

𝑁

• 표본표준편차들의평균 𝐸 𝑠 = 𝜎

• 평균(μ) 0, 표준편차(σ) 1 = z 분포 = 표준화

• 𝑧 =𝑋−𝜇

𝜎~𝑁(0,1)

• 𝑓 𝑧 =1

2𝜋𝑒−𝑧2

2


4

3.2.3 t 분포

• 표본의크기가 30개미만으로적고, 모집단의표준편차를모르지만, 모집단이정규분포를따른다고가정했을때,

• 표본의표준편차가모집단의표준편차와비슷하다는전제가없을때사용

• 자유도 (𝑑𝑓: degree of freedom): 주어진조건하에서자유롭게변화할수있는점수• 𝑑𝑓 = n − k (n: 사례수, k: 통계적제한조건)

• 𝑇 = 𝑋−𝜇

𝑆/ 𝑁~𝑡(𝑛 − 1) ( 𝑋: 표본의평균, S: 표본의표준편차)

• 평균 0을중심으로좌우대칭의종모양

• 같은표준편차에서도 Z 분포보다높이가낮고완만한확률분포곡선

• 𝑇 𝑥 ≥ 0, −∞∞

𝑇 𝑥 𝑑𝑥 = 1

• 𝑑𝑓 = n − 1

• 자유도가커지면표준정규분포의모양에근접 (그림 3.2.6 과그림 3.2.7)


5

3.2.4 𝜒2 분포

• 정규분포를이루는모집단에서표본들을추출하였을경우, 각표본의표준화된확률변수의제곱의합이이루는분포

• 모집단이정규분포인표본들의각분산(𝑆2)의표본분포는 𝜒2 분포

• 모집단의분산을검정하는데사용

• 𝜒2 =(𝑛−1)𝑆2

𝜎2~𝜒2 𝑛 − 1 , 𝑆2 =

𝑥𝑖− 𝑋2

𝑛−1• 0부터−∞까지연속분포

• 자유도에따라다르나왼쪽으로치우쳐있음 (그림 3.2.8)

• 𝑑𝑓 = n − 1

• 최빈값(mode)= 𝑑𝑓 − 2

• 중앙값(median)= 𝑑𝑓 − 0.7


6

3.2.5 F 분포

• 두정규모집단의분산비교에대한추론에사용되는분포

• 𝐹 = 𝑉1 𝑘1 𝑉2 𝑘2

~𝐹(𝑘1, 𝑘2)

•1

𝐹~𝐹(𝑘2, 𝑘1)

• 𝐹(𝑘2, 𝑘1; 1 − 𝛼) =1

𝐹(𝑘1,𝑘2;𝛼)

• 두모집단이정규분포를가질때, 각각의표본집단의표본분산(𝑆12,

𝑆22)과모집단의분산 (𝜎1

2, 𝜎22)의비

𝑆12 𝜎1

2

𝑆22 𝜎2

2는 (𝑛1 − 1, 𝑛2 − 1)인 F분포

를따른다.

• F.INV 함수 = 1

𝐹~𝐹(𝑘2, 𝑘1) (그림 3.2.9의좌측)

• F.INV.RT 함수=𝐹~𝐹 𝑘1, 𝑘2 (그림 3.2.9의우측)

• 확률값을구할때, F.DIST 함수, F.DIST.RT 함수


7

3.3 신뢰구간추정

• 통계량으로부터모수를알아내는일 = 추정• 모수 (population parameter): 모집단에대한값으로모평균, 모분산, 모표준편차

• 통계량 (statistic or statistical measure): 모집단으로부터발췌하여측정한표본의평균, 분산, 표준편차등으로동일한모집단으로부터얻은결과라도표본마다다소다른값을가짐

• 추정치구하는방법• 점추정: 모수의참값이라고추측되는하나의수값을택함 (표본평균)

• 구간추정: 모수의참값이속할것으로기대되는범위를택하는것

• 신뢰구간추정• 만일오차를 α로설정하였을때

• 신뢰구간 (confidence interval): 모수가포함될가능성이있는구간

• 신뢰수준 (confidence level) 또는신뢰도: 100(1- α)%인구간이며 90%, 95%, 99%가널리쓰인다. 표본평균을이용하여모평균을추정할때 95% 신뢰도의의미는모집단평균이신뢰구간에포함될확률이 95%라는의미이다.


8

3.3.1 모분산을아는경우신뢰구간추정

• 모분산(𝜎2 )을알고있는모집단의모평균(μ)을표본집단의평균 ( 𝑋)로부터추정

• 크기 n인표본의평균 𝑋는다음의확률변수 Z로표준화

• 𝑧 = 𝑋−𝜇

𝜎 𝑛… 표준정규분포의신뢰구간계산

• 그림 3.3.1

• 1 − 𝛼 = P( 𝑋 − 𝑧 𝛼 2𝜎

𝑛≤ 𝜇 ≤ 𝑋 + 𝑧 𝛼 2

𝜎

𝑛)

• 유의수준(𝛼)=1-[신뢰수준(%)/100]

• 표준정규분포에서확률변수를구하는함수: ‘NORM.S.INV’• 주의: 확률변수 𝑧 𝛼 2를구하므로, 1 − 𝛼 2입력

• 구간: 𝑧 𝛼 2𝜎

𝑛or ‘CONFIDENCE.NORM(α,σ,n)’ 함수

• 그림 3.3.2~그림 3.3.4까지작성


9

3.3.2 모분산모르는경우신뢰구간추정

• 모집단이정규분포를이룬다는가정

• 표본의크기에따라모표준편차를대체할수있는방법

(1) 표본의수가 30개이상

• 표본평균 ( 𝑋)의분포는근사적으로정규분포를이루며, 모표준편차(𝜎)가표본표준편차(S) 와가까움

• 𝑋 − 𝑧 𝛼 2𝑆

𝑛≤ 𝜇 ≤ 𝑋 + 𝑧 𝛼 2

𝑆

𝑛

(2) 표본의수가 30개미만

• 표본통계량 𝑋−𝜇

𝑆 𝑛사용, 정규분포가아닌자유도 n-1의 t분포를따름

• 𝑋 − t(𝑛−1, 𝛼 2)𝑆

𝑛≤ 𝜇 ≤ 𝑋 + t(𝑛−1, 𝛼 2)

𝑆

𝑛

• ‘T.INV’, ‘TINV’, ‘T.INV.2T’ and ‘TDIST’, ‘T.DIST’, ‘T.DIST.2T’

• 신뢰구간: t(𝑛−1, 𝛼 2)𝑆

𝑛or ‘CONFIDENCE.T’ (그림 3.3.7)


10

3.4 가설검증

• 통계적가설검정 (statistical hypothesis testing)• 표본으로부터주어진정보를이용하여, 모수(population parameter; 모평균, 모분산등)에대한예상, 주장또는단순한추측과같은가설의옳고그름을판정하는과정

①모집단의평균비교

②모집단의모비율비교

③모집단의모분산비교

• 결과의종류또는상태에따라사용할수있는가설검정방법이다르기때문에각분석방법의의미를이해하고적절한방법을선택하는것이매우중요

• 가설검정의순서①분석할결과의특성을파악하여가설검정방법결정

②가설을설정 (귀무가설(𝐻0), 대립가설(𝐻𝑎))

③표본으로부터통계량계산

④정해진유의수준에서임계치결정후, 통계량과임계치비교

⑤비교후어떤가설을선택할것인지결정한후결론제시


11

3.4.1 가설검정

• 가설(hypothesis): 표본분석의결과를토대로모수에대한주장이나예상을설정한것

(1) 귀무가설• 모집단이가지고있는알수없는특성에대한주장이나예상

• 검정되기전까지는모집단의특성을잘반영하고있는것가정

• “같다”, “차이가없다”, “효과가없다”등으로설정

(2) 대립가설• 귀무가설이기각될경우대신채택되는가설

• 귀무가설과는상호배타적

• 대립가설은가설검증을하는처음에설정

• 검정• 양측검정

• 단측검정

• 그림 3.4.1


12

통계적판단의오류

• 1종오류(α): 유의수준 (level of significance) 또는위험률

• 2종오류(β): (1- β)의값을검출력 (power of test)

• 가설검정은사실인귀무가설을기각하는제1종의오류를가능한줄이고, 귀무가설의타당치않음을찾아내는검출력을크게하는것이바람직함

• 두종류의오류를동시에줄일수는없음


13

가설검정방법의선택

• 가설검정에사용할표본집단의통계량특성에따라선택

• (1) 모집단의개수에따라• Z-검정과 t-검정사용

• 모집단의개수에따라 “검정통계량”의계산방법과식이다름

• 모집단이하나일때:• 하나의모집단의확률분포와하나의값이있을때이들을비교 (그림 3.4.4(a))

• 모집단이두개일때:• 기존의방법으로실험을하여결과를얻은후, 새로운방법으로실험을하여얻

은결과와비교 (그림 3.4.4(b))

• (2) 모분산을알고있는지에따라

• (3) 표본수에따라

• 그림 3.4.2

• (4) 표본의특성에따라 (표본집단의선정과독립성)

• 두모집단의모분산이같은지또는다른지에따라 (F검정결과)


14


15

모집단이하나일때가설검정

• Z-test 를이용한모평균검정• 귀무가설: 𝜇 = 𝜇0 , 대립가설: 𝜇 ≠ 𝜇0

• 𝑧 = 𝑋−𝜇

𝜎 𝑛or 𝑧 =

𝑋−𝜇

𝑆 𝑛

• =NORM.S.INV(0.025)=-1.96

• =NORM.S.DIST(1.96, TRUE)

• 𝑋 − 1.96𝜎

𝑛≤ 𝜇 ≤ 𝑋 + 1.96

𝜎

𝑛

• 예제 3.10

• T-test 를이용한모평균검정

• 𝑇 = 𝑋−𝜇

𝑆 𝑛,자유도 n-1인 t-분포

• 𝑋 − t(𝑛−1, 𝛼 2)𝑆

𝑛≤ 𝜇 ≤ 𝑋 + t(𝑛−1, 𝛼 2)

𝑆

𝑛

• 예제 3.11


16

두모집단의비교

• Z-test 를이용한두모집단의비교

• 𝑧 =( 𝑋− 𝑌)−(𝜇1−𝜇2)

𝜎12 𝑛1+ 𝜎2

2 𝑛2

, 𝑧 =( 𝑋− 𝑌)−(𝜇1−𝜇2)

𝑆12 𝑛1+ 𝑆2

2 𝑛2

• 예제 3. 12

• Z-검정: 평균에대한두집단


17

쌍체비교 (paired comparison)

• 하나의개체를선택한후두개의다른실험을수행하여두개의표본집단의통계치를비교

• 하나의모집단으로볼수있음

• 𝑇 =( 𝑋− 𝑌)−(𝜇1−𝜇2)

𝑆𝐷 𝑛, 𝑆𝐷 = (𝑋𝑖 − 𝑌𝑖)의표준편차

• 자유도 n-1

• 예제 3. 13

• 피어슨상관계수(r) : 두데이터집합사이의선형관계를표현 (관계의정도와방향성)


18

F-test를이용한모집단의분산비교

• 두모집단이정규분포를따름

• 분산을모르며, 표본의수가적을때, 평균을비교하기위해 t-test

• 이때, 두모집단의분산이같음 or 다름에따라다른방식

• 귀무가설: 두모분산이같다 = 𝜎12 𝜎2

2 = 1

• 𝐹 = 𝑆12 𝑆2

2

• 𝐹 ≥ 𝐹(𝑛1 − 1, 𝑛2 − 1;𝛼

2)또는 𝐹 ≤ 𝐹(𝑛1 − 1, 𝑛2 − 1; 1 −

𝛼

2)

• 예제 3.14

• 분모>:F.INV, 분모


19

등분산가정두모집단의평균검정

• 두모집단이정규분포를만족

• 분산을모르며, 표본의수가적으나, 두모집단이같은크기의분산을가질때 (F-검정의결과)

• 두표본집단의평균차이 ( 𝑋 − 𝑌)이용

• 검정통계량: ( 𝑋− 𝑌)−(𝜇1−𝜇2)

𝜎12 𝑛1+ 𝜎2

2 𝑛2

=( 𝑋− 𝑌)−(𝜇1−𝜇2)

𝜎 1 𝑛1+ 1 𝑛2

• 공동분산을모분산으로사용:

𝑆𝑝2 =

1𝑛1 𝑋𝑖 − 𝑋

2 + 1𝑛2 𝑌𝑖 − 𝑌

2

𝑛1 + 𝑛2 − 2=(𝑛1 − 1)𝑆1

2 + (𝑛2 − 1)𝑆22

𝑛1 + 𝑛2 − 2

• 검정통계량: ( 𝑋− 𝑌)−(𝜇1−𝜇2)

𝑆𝑝 1 𝑛1+ 1 𝑛2, 자유도 (𝑛1 + 𝑛2 − 2)


20

이분산가정두모집단의평균검정

• 두모집단이정규분포를만족

• 분산을모르며, 표본의수가적고, 두모집단이서로다른분산을가질때(F-검정의결과) = 이분산가정 t-검정

• 검정통계량: ( 𝑋− 𝑌)−(𝜇1−𝜇2)

𝑆12 𝑛1+ 𝑆2

2 𝑛2

• 등분산가정 t-검정의자유도: 𝑑𝑓 = 𝑛1 + 𝑛2 − 2

• 이분산가정 t-검정의자유도: 𝑑𝑓 =( 𝑆1

2 𝑛1+ 𝑆22 𝑛2)

2

( 𝑆12 𝑛1)

2

𝑛1−1+( 𝑆22 𝑛2)

2

𝑛2−1

• 예제 3.17


21

T-test

• 단지모집단의모평균을검정하려고할때,

• 데이터가많은경우 (T.TEST를이용하면 matrix 구현)

• 함수임으로데이터수정시자동수정

• 예제 3.13, 3.16, 3.17을 T.TEST 함수를이용하여다시계산하기


22

회귀분석 (Regression analysis)

• 관련된변수들간의상호관련성을수학적인함수형태로표현

• 수학적모형을가정하고측정된변수들의자료로부터모형을추정• 종속변수(dependent variable): 다른변수의영향을받아값이결정되는변수

• 독립변수(independent variable): 다른변수에영향을주며, 독립적으로결정

• 단순회귀분석/다중회귀분석• 단순회귀: 두개의변수사이의선형관계분석

• 다중회귀: 여러변수사이의선형관계분석

• 단순회귀식모형의가정


23

최소제곱법 (least square method)

• Sum of squares (SS)

• 회귀직선의유의성검정


24

상관분석

• 연구하고자하는변수들간의관련성을분석• 상관계수 (0 < 𝜌, 𝑟 < 1)

• 다중상관관계

• 𝑟 =𝐶𝑜𝑣(𝑋,𝑌)

𝑉𝑎𝑟(𝑋)×𝑉𝑎𝑟(𝑌)=

𝐸 𝑋𝑌 −𝐸 𝑋 𝐸(𝑌)

{𝐸 𝑋2 −[𝐸(𝑋)]2}×{𝐸 𝑌2 −[𝐸(𝑌)]2}

• Ex 3.19

Tong In Oh, Kyung Hee Univ. Fall Semester, 2015 3.2...

Documents

Transcript of Tong In Oh, Kyung Hee Univ. Fall Semester, 2015 3.2...