역학연구와통계적방법 -...

50
역학연구와 통계적 방법 서울대학교 보건대학원 김 호 내용은 W.Ahrens & I. Piget의 Handbook of Epidemiology(Springer, 2005)중에서 Wolfgan Ahrens, Klaus Krickeberg, Iris Piget 저 Introduction to Epidemiology중 4장을 기본으로 하여 역자의 해석을 첨가하였음을 밝힙니다.

Transcript of 역학연구와통계적방법 -...

Page 1: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

역학연구와 통계적 방법

서울대학교 보건대학원 김 호

본 내용은 W.Ahrens & I. Piget의 ‘Handbook of Epidemiology(Springer, 2005)’ 중에서Wolfgan Ahrens, Klaus Krickeberg, Iris Piget 저 ‘Introduction to Epidemiology’ 중 4장을

기본으로 하여 역자의 해석을 첨가하였음을 밝힙니다.

Page 2: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

순 서

들어가며

자료분석의 원칙

통계적 사고

다변량 분석

자료처리에서의 문제점

메타분석

맺는 말

Page 3: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

들어가며

역학(Epidemiology)그리스어로 인구집단(population)+위에(upon)

인구 집단의 질병 분포와 그 원인을 연구하는 학문

통계학(Statistics)국가(state)+산술(arithmetic)

역학연구에 있어서 필수 불가결의 요소가 됨

역학연구 초기 단계에서의 고려할 사항수집할 변수들의 정의와 단위

사용할 요약값

사용할 통계적 모형

가설검정 형태로 표현되는 연구 목적

주어진 검정력을 이용하여 계산된 표본수 혹은 주어진 표본수로 계산된 검정력

둔감도와 민감도 조사 방법론

→ 이들을 사후에 고려하면 결과의 타당도와 해석력에 문제가 생김

Page 4: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

자료 분석의 원칙

1단계: 자료의 정리(cleaning)

질문들

측정오차나 입력오류는 없나?

연구센터 간의 측정값 차이가 있나?

입력 시 임의로 사용한 오차 제거법이 있나?

입력 단계에서 지워진 자료가 있나?

이상치가 있나?

내적일치성에 위반되는 자료가 있나?

확인방법

EDA (탐색적 자료 분석): 산점도, 상자그림, 줄기-잎 그림 등

(비)모수적 통계량 비교: 평균, 중앙값, 표준편차, 사분위범위 비교 등

2단계: 자료의 구조 이해

상관계수 추정, 산점도 등의 그래프, 요약값을 이용

이들 값은 기술적인 성질만 가짐

Page 5: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

자료 분석의 원칙

3단계: 연구의 관심 모수 추정예: 상대위험도 혹은 발생율

관심 모수의 점 추정치 뿐만 아니라 산포에 관련된 추정치(예: 표준오차) 혹은 신뢰구간을 함께 제시함이 바람직함

“역학연구에서 통계적 유의성이란 개념이 많이 쓰여왔다. 불행하게도통계적 가설검정이라는 전통적 개념은 역학연구에 있어 해석적 의미를강조하는 새로운 그리고 대안적인 개념보다는 훨씬 더 유용하지 못한개념이다(Rothman & Greenland, Modern Epidemiology, 1998)”통계적 가설 검정이 개념적인 문제점이 있음에도 불구하고 가설을 검증해야 하는 역학연구 최종 단계에서 광범위하게 사용됨

정교한 모형이라도 연구 내용을 충분히 고려하여 역학적 해석을 하지 않으면 잘못된 결론을 내리게 됨

통계적인 타당성이 결여된 모형에서 도출된 결론도 오류를 가짐

4단계: 보고서 작성이상에서 얻어진 결과들을 종합하여 해석

연구 결과의 종합은 해당 연구 결과 뿐 아니라 선행연구 결과를 포함함

Page 6: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

통계적 사고

역학연구의 목적개인이 아닌 집단의 건강에 대한 결정요인과 그 분포에 대한 이해

즉 인간의 건강과 그의 원인에 대한 분석을 통계적으로 사고하는것

역학연구에 있어서의 통계적 사고기술적인 영역

Farr 등에 의해 연구된 기술적연구: 건강통계, 건강연보 혹은 유사한 출판물 형태 및 그래프

지리정보시스템을 이용한 질병 유행양상을 시각적으로 보게 하는 것

추론적인 영역임상시험 분야

질병의 원인을 밝히는 역학연구

위험요인의 수준과 인구집단 간의 질병의 상대 빈도를 비교하는 연구

민감도와 특이도

네이만-피어슨(Neyman-Pearson)의 가설검정 이론 이후 역학에서통계적인 사고가 획기적으로 사용됨

치료방법의 효능 판정, 예방적 목적의 처지 및 진단 문제

Page 7: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

통계적 사고

역학연구에서의 통계적 고려의 불충분

대립가설을 기각하지 못함=귀무가설 채택

임의의 유의수준과 p값 사용

다수의 가설을 같이 검정하는 경우 다중비교 논리 사용하지 않음

통계학의 유용한 개념을 사용하지 않음

원인-결과에 따른 해석이 불충분하여 틀린 결론을 내림

통계적인 가설 검정은 연구가설을 증명할 수 있는 하나의 충분조건이며, 이화학적, 생물학적, 의학적, 사회과학적 증거가 더 중요한경우가 많음

통계적 사고가 중요한 분야

여러 요인이 혼재된 건강 결정요인 연구

생태학적 관찰연구에서의 원인-결과 연구

임상시험

의학적 혹은 정책적 판단의 효과에 대한 연구

Page 8: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

다변량 분석

변수

결과(반응, 종속) 변수: 건강 결과

설명(독립) 변수: 건강 결과를 설명하는 원인

다변량 분석

최근 측정된 변수의 개수가 관찰값의 수보다 많아지는 경향이 있음: 유전체역학, 분자역학

이런 문제를 해결하기 위해 차원을 축소하는 방법으로 다변량분석이 이용됨

다변량 분석법

변수를 결과, 설명변수로 구분하지 않고 전체 변수간의 구조를 파악

종속변수와 설명변수를 구분하여 변수들 간의 관계를 파악

다변량 분석의 단점

해석이 모호하게 됨

동일한 자료라도 다른 결과를 줌

Page 9: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

다변량 분석

전체자료의 구조를 이해하는 방법요인분석: 많은 수의 변수를 적은 수의 잠재변수(latent variable)로 축소하는 방법

군집분석: 주어진 자료의 구조를 이용하여 자료의 하위 그룹(군집)을 찾는방법

판별분석: 결과변수를 알고 있는 경우 오분류의 확률을 최소화 시키면서 그결과를 판별해주는 방법

변수들 간의 관계를 파악하는 방법2ⅹ2 분할표: 결과변수와 하나의 설명변수

여러 개의 설명변수를 고려하는 것이 필요-보정(adjustment)

회귀분석법단순회귀법: 하나의 설명변수만 이용

다중회귀법: 2개 이상의 설명변수 이용

가정: 독립성, 정규성, 동일분포성, 공분산성, 선형성

가정 및 변수의 특성이 맞지 않는 경우 다른 통계적 모형을 적용함

로지스틱 회귀분석법, 일반화선형모형, 시계열 분석, 생존분석, 그래픽-체인 모형

비모수적 방법

Page 10: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

자료처리에서의 문제점

자료

변수를 정밀하게 측정하는 것이 매우 중요

입력 단계에서도 문제가 없어야 함

만약 자료에 오류가 있다면?

오류에 대한 추가 정보가 있을 시 어느 정도 보정이 가능

매달 측정한 종양 자료 중 결측값 혹은 이상치가 발견된 경우 기존의 관찰값을 근거로 계산한 값을 사용

이러한 보정이 연구가설의 검정력, 추정치의 신뢰구간에 미치는 영향을 알아보는 것이 중요하지만 매우 복잡한 과정임

측정오차 보정을 위한 통계적 이론의 배경

참 값의 설명변수와 오차를 포함한 대리변수 간의 관계를 이용하여

대리변수와 결과변수의 관계를 보정함

다양한 보정법이 존재함

충분한 계획과 조사가 필요

Page 11: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

자료처리에서의 문제점

결측값 처리 방법

결측의 발생 과정에 관계된 정보를 가진 모든 변수를 이용하여 결측값을 생성(impute)함

생성된 자료값을 넣어 보통의 자료분석법을 실시

이 경우 자료수가 증가되어 더 유의한 결과를 낼 수 있음

통계적인 과장임으로 해석에 유의해야 함

자료의 생성과 주입이 미치는 영향에 대한 추가 분석이 이루어 져야 함

Page 12: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

메타분석

메타분석

계량적 역학연구의 결과를 종합하기 위함 방법

목적: 중요한 결과를 얻었지만 통계적으로 유의하지 않은 개별 연구의 결과를 통계적으로 종합하는 것

학술지 발표 논문 결과만 이용하는 경우 오류가 발생할 수 있음: 출판오류(publication bias)

문제점

개별연구마다 통제변수가 다르고 각 연구가 가지는 변이가 다름 → 연구결과 종합에 문제가 있고, 최종적으로 변이가 있는 결론을 내릴 수있음

임의효과 모형으로 연구들간의 이질성을 보정하는 방법이 있지만 해석이 난해함

이런 문제점에도 불구하고 연구들 간에 경향이 존재한다면 이를 종합하기 위한 합리적인 방법임

개별 연구의 특성을 충분히 고려하는 것이 중요함

Page 13: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

맺는 말

역학연구에 있어 통계분석은 매우 중요하며, 전체 연구가 올바르기 위해선 올바른 통계분석이 필요함

비윤리적인 문제들-통계적인 측면에서

무조건 p값을 0.05이하로 만드는 조건을 찾고, 그 조건이 가장 적합한 것처럼 기술하는 것 - 임의적인 자료의 취사선택, 분석방법의선택, 분석조건의 선택

중도 탈락자와 무응답자를 무시하고 분석 – 최종 분석 집단과 특성

이 다를 수 있음

개인 정보 사용에 주의해야 함

연구의 재현성(reproducibility)

Page 14: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

김병수 외 2인은 통계의 오용과 오류에 대한 용어를 정의하면서...

"통계의 오용은 무의식적이건 또는 고의건간에 사실을 왜곡, 오해시키는 통계의 사용을 뜻한다. 따라서 오용된 통계는 사실을오해시킨다는 점에서 허위성이 내포된다. 또 통계를 보고 듣는사람으로 하여금 사실을 오해시키는 것 외에 무의미하게 사용되는 것도 포함된다. 이런 경우는 통계의 오용이라기 보다 남용이라고 할 수 있다."

통계적 오용(misuse)과 통계적 오류(fallacy):학술논문과 통계적 기법 (자유아카데미) - 최종후 / 이재창 -

Page 15: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

"통계의 오류는 통계분석에서 통계적 방법 적용의 과오나 통계해석의 과오에서 유발되는 사실의 왜곡이다. 즉, 학술논문 등에서 통계적 방법을 잘못 적용했거나 통계적 이론 또는 해석을 잘못한 경우이다."

...라고 했다.

통계적 오용(misuse)과 통계적 오류(fallacy):학술논문과 통계적 기법 (자유아카데미) - 최종후 / 이재창 -

Page 16: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

통계의 오용이라 할 때 이는 크게 둘로 나뉘어 요약될 수 있다.1) 무의미한 통계 (meaningless statistics)2) 엉터리 통계 (phony statistics)

오늘날 통계의 오용은 신문, 잡지, 방송 등에서 흔히 찾아 볼 수있다. - 특히 상품 광고나 정치 광고문 등 -

통계적 오용(misuse)과 통계적 오류(fallacy):학술논문과 통계적 기법 (자유아카데미) - 최종후 / 이재창 -

Page 17: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

통계의 오류 역시 다음과 같이 둘로 나뉠 수 있다.1) 통계적 기법을 잘못 적용: 연구문제 정립이 잘못 되었거나 잘못

정립된 연구문제에 대하여 올바른 통계기법을 적용함으로써 범하게되는 오류 역시 이에 해당된다.

2) 분석결과에 대한 그릇된 해석

통계의 오용은 통계학과는 거리가 있으나 통계의 오류는 통계학에대한 학문적 소양결핍에서 비롯되는 문제이다.

통계적 오용(misuse)과 통계적 오류(fallacy):학술논문과 통계적 기법 (자유아카데미) - 최종후 / 이재창 -

Page 18: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

궁극적으로 통계의 오용과 통계적 오류의 문제는 통계적 사고의 확립을 통해 막을 수 있다. 통계적 사고의 확립은 연구자의 윤리성의 문제와도 부분적으로 관련되어 있다. 통계 이용자나 통계적기법을 활용하는 연구자가 개인적 기호선택의 편견으로서의 주관성을 택함으로 해서 통계나 통계적 기법을 조작하는 그릇된의도가 작용할 때 이는 통계적 기법을 이용한 자기 방어수단일뿐이다.

통계적 오용(misuse)과 통계적 오류(fallacy):학술논문과 통계적 기법 (자유아카데미) - 최종후 / 이재창 -

Page 19: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

통계의 오용의 종류

의도된 자료의 취사선택

의도된 설문

과장된 일반화

왜곡된 표본

추정된 오차에 대한 오류 혹은 오용

잘못된 원인결과

자료조작

Page 20: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

통계분석의 기본 개념

가설의 검정

실제 검정결과

귀무가설이 옳 음

귀무가설이 틀 림

귀무가설 채 택 옳음 제 2 종 오류

귀무가설 기 각 제 1 종 오류 옳음

• 귀무가설 & 대립가설

• 제1종 오류(α) & 제2종 오류(β)

α, β 의 결정기준?절대적 기준은 없다!연구자가 주관적으로

결정

일반적으로α = 0.01 or 0.05β = 0.1 or 0.2

기초통계

Page 21: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

대립가설 vs 귀무가설

대립가설 연구자가 주장하고자 하는 가설

연구가설; 직접 검정 불가

alternative hypothesis(H1)

귀무가설 대립가설의 여사상

통계적 검정의 대상

null hypothesis(H0)

기초통계

Page 22: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

A(얻은 자료) -> B (연구가설)

-B -> -A

귀무가설 (-B) : 두 집단에 차이가 없다. (Ho)

대립가설 (B) : 두 집단에 차이가 있다. (Ha)

일종의 오류 : 옳은 귀무가설을 기각할 확률

= Pr (reject Ho | Ho is true)

이종의 오류 : 틀린 귀무가설을 받아들일 확률

= Pr (Not reject Ho | Ha is true)

Power = 1- 이종의 오류

= 있는 차이를 발견할 확률

기초통계

Page 23: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

의도된 자료의 취사선택

어떤 제약회사에서 신약의 효과를 검정하기 위해서 유의수준 95%의 임상시험을 20번 했다고 가정

Page 24: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

의도된 자료의 취사선택

어떤 제약회사에서 신약의 효과를 검정하기 위해서 유의수준 95%의 임상시험을 20번 했다고 가정

만약 약효가 전혀 없다고 가정했을 때 유의수준 95%의 의미는 ?

Page 25: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

의도된 자료의 취사선택

어떤 제약회사에서 신약의 효과를 검정하기 위해서 유의수준 95%의 임상시험을 20번 했다고 가정

만약 약효가 전혀 없다고 가정했을 때 유의수준 95%의 의미는 ?

19 임상시험의 결과를 폐기하고 1 결과를 홍보용으로 사용한다면 ?

Page 26: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

의도된 자료의 취사선택

약효가 전효 없는 물질로 200번 임상시험을 한다 해도 확률적으로 10번 정도는 약효가 관찰될 것이다.

Page 27: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

의도된 자료의 취사선택

약효가 전효 없는 물질로 200번 임상시험을 한다 해도 확률적으로 10번 정도는 약효가 관찰될 것이다.

모든 임상시험 결과를 공표하지 않는 기관 (제약회사, 담배회사등)

Page 28: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

의도된 자료의 취사선택

변수의 수(종속변수: 효과를 나타냄, 설명변수)를 늘림 -> 우연한 발견을 할 확률을 높임

모든 자료를 공개하는 것이 바람직

Page 29: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

의도된 설문

종부세 찬성 여부를 묻는데

1) 부동산세금이 외국에 비해서 아직도 적다 혹은 종부세 부과대상의 70%가 다가구보유 세대다 라고 이야기하고

2) 작년에 비해서 300%까지 오른 곳이 많고 소득이 없는 일가구소유 노인들의 예를 들면서 ….

Page 30: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

과장된 일반화 (Overgeneralization)

고온과 사망률 증가 -> 기온과 사망률 증가

많은 경우 연구자 보다는 해석 과정에서 발생

TV 인터뷰

Page 31: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

왜곡된(biased) 표본

표본조사와 전수조사

Target Population 과 sampling Population

표본오차 비표본오차 (예, 전화조사)

Page 32: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

추정된 오차에 대한 오류 혹은 오용

천만명의 서울시민 중 천명을 대상으로 설문조사를 하였다.

대표성 ? 임의성 (randomness)

65 % +- 5%

Page 33: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

추정된 오차에 대한 오류 혹은 오용

천만명의 서울시민 중 천명을 대상으로 설문조사를 하였다.

대표성 ? 임의성 (randomness)

65 % +- 5%

추정오차에 대한 설명 생략은 결과가 100% 정확하다는 잘못된 해석을 하게함

Page 34: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

잘못된 원인결과

A <-> B : 상관관계 관찰

Page 35: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

잘못된 원인결과

A <-> B : 상관관계 관찰

A -> B

B -> A

C-> A & C -> B

due purely to chance

Page 36: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

잘못된 원인결과

A <-> B : 상관관계 관찰

A -> B

B -> A

C-> A & C -> B

due purely to chance

해변에서 아이스크림 사먹은 사람수, 익사자수, (해변에 나온사람 수)

Page 37: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

무유

0.7134/0.1333=5.52상대위험도

28/(28+182)=0.133318228비노출

81/(81+29)=0.73642981노출

위험도질병상태

노출상태

표1. 질병상태와 노출상태에 따른 위험도 (예제1)

결론 : 노출상태와 질병상태에는 연관이 있다.

기초통계

Page 38: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

표2. 혼란변수 유무에 따른 위험도 (예제1)

무유

1.00상대위험도

0.80028비노출

0.8002080노출

위험도질병상태

노출상태

무유

1.00상대위험도

0.10018020비노출

0.10091노출

위험도질병상태

노출상태

남성 여성

결론 : 남녀 모두에서 노출상태와 질병상태에는 연관이 없다.

기초통계

Page 39: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

요약하면

전체 집단에서는 질병과 노출에 연관 있다.

남자에서는 질병과 노출에 연관 없다.

여자에서는 질병과 노출에 연관 없다.

? ? ?

기초통계

Page 40: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

무유

1.0000상대위험도

0.3636350200비노출

0.3636420240노출

위험도질병상태

노출상태

표3. 질병상태와 노출상태에 따른 위험도 (예제2)

결론 : 노출상태와 질병상태에는 연관이 없다.

기초통계

Page 41: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

표4. 혼란변수 유무에 따른 위험도 (예제2)

무유

2.45상대위험도

0.3900305195비노출

0.95455105노출

위험도질병상태

노출상태

무유

2.45상대위험도

0.1000455비노출

0.2455415135노출

위험도질병상태

노출상태

남성 여성

결론 : 남녀 모두에서 노출상태와 질병상태에는 연관이 있다.

기초통계

Page 42: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

요약하면

전체 집단에서는 질병과 노출에 연관 없다.

(RR=1.00)

남자에서는 질병과 노출에 연관 있다. (RR=2.45)

여자에서는 질병과 노출에 연관 있다. (RR=2.45)

? ? ?

기초통계

Page 43: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

정리

질병상태와노출여부는성별에의해혼란(Confounding) 되고 있다

이러한 경우 올바른 자료의 분석을 위해서는 성별은 질병상태와노출여부와 함께 반드시 고려해야 한다. (성별을 혼란변수라고 부른다.)이와 마찬가지로 어떠한 분석을 할 때 가능한 혼란변수를 모두 고려해야만올바른분석결과를얻을수있다.

기초통계

Page 44: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

NoYes

1.43Relative Risk

0.0311240077Owner-Occupied

0.0466182185Rented

RiskCHD ?

Housing Tenure

표5. Housing tenure by CHD(coronary heart disease) outcome after six years, SHHS (Scottish Heart Health Study) men

기초통계

Page 45: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

문제점

집을 소유하지 못한 사람들은 빈곤한 사람들 ( more disadvantaged social group)이 많다. >> 집소유 형태는 생활양식(lifestyle)에 의해 혼란되고 있을수 있다.

>> 특히 흡연자의 비율은 57% 대 35% 로 세입자들이 높다. 그리고 흡연은 CHD에서 잘 알려진 위험요인이다

기초통계

Page 46: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

표6. Housing tenure by CHD(coronary heart disease) outcome after six years, SHHS (Scottish Heart Health Study) men

NoYse

1.27RR

0.0271172248Owner-occupied

0.034592333Rented

RiskCHD

Housing Tenure

Smokers NonSmokers

NoYse

1.33RR

0.041067829Owner-occupied

0.054789852Rented

RiskCHD

Housing Tenure

기초통계

Page 47: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

결론

표5에서와 마찬가지로 가옥소유형태는 CHD에 위험인자로 작용한다. 하지만, 흡연을 고려한 후에는 상대위험비가 줄었다. 흡연자, 비흡연자 모두에서 상대위험비의 감소가 일어나므로 흡연은 혼란변수라고 볼 수 있다. * 상대위험비의 감소 폭은 크지 않으므로 혼란의 정도는 약하다고결론 내린다. 원자료 : Mark Woodward (1999), Epidemiology-study design and data analysis

기초통계

Page 48: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

자료조작

selective reporting에서부터 완전한 허구 자료의 보고 까지다양하게 존재

연구가설에 부합하는 자료만 사용하는 경우

Outlier 처리에 주의

Page 49: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

References

Christensen, R. and T. Reichert, 1976 "Unit Measure Violations in Pattern Recognition, Ambiguity and Irrelevancy," Pattern Recognition, vol. 4, pp. 239-245.Pergamon Press.

Hooke, R., 1983, How to tell the liars from the statisticians; Marcel Dekker, Inc., New York, NY.

Jaffe, A.J. and H.F. Spirer, 1987, Misused Statistics; Marcel Dekker, Inc., New York, NY.

Campbell, S.K., 1974, Flaws and Fallacies in Statistical Thinking; Prentice Hall, Inc., Englewood Cliffs, NJ.

Oldberg, T., "An Ethical Problem in the Statistics of Defect Detection Test Reliability," 2005, Speech to the Golden Gate Chapter of the American Society for Nondestructive Testing. Published on the Web by ndt.net at http://www.ndt.net/article/v10n05/oldberg/oldberg.htm.

Oldberg, T. and R. Christensen, 1995, "Erratic Measure" in NDE for the Energy Industry 1995; The American Society of Mechanical Engineers, New York, NY. Republished on the Web by ndt.net at http://www.ndt.net/article/v04n05/oldberg/oldberg.htm.

Page 50: 역학연구와통계적방법 - hosting03.snu.ac.krhosting03.snu.ac.kr/~hokim/seminar/misuse20070406.pdf · eda (탐색적자료분석): 산점도, 상자그림, 줄기-잎그림등

’07 보건학개론 김호

연락처

김호

[email protected]

02) 740-8874

http: //plaza.snu.ac.kr/~hokim