8 장 로지스틱 회귀분석

8.1 개요

로지스틱 회귀분석 (0,1) 기존의 선형 회귀분석의 종속변수 (Y) 를 범주형으로

확장한 것이다 .

범주형 변수 -( 카테고리 ) Y 가 주식의 보유 / 매도 / 매수 를 나타내면 이

변수는 3 개의 범주를 갖는 범주형 변수라고 정의된다 .

8.1 개요

분류 - 0 과 1 로 분류 로지스틱 회귀 분석은 하나의 집단에 속하지만 어느

집단인지 모르는 새로운 관찰치에 대해서 예측변수를 이용하여 특정 집단으로 분류하기 위해 사용될 수 있으며 이를 분류라 한다 .

프로파일링 - 관찰치들의 유사점 . 예측 변수를 이용하여 각 집단 내의 관찰치들 간의

유사점을 찾기 위해 집단에 대한 정보를 갖고 있는 데이터에서 사용하기도 하는데 . 이를 프로파일링 이라 한다 .

8.1 개요

로지스틱 회귀 분석은 다음과 같은 의사결정문제에 적용가능하다 .1. 반납 / 미납으로 고객을 분류하기 ( 분류 )2. 남녀 최고경영진을 판별하는 요인 찾기 (

프로파일링 )3. 신용점수와 같은 정보에 기초하여 대출의 승인 /

비승인을 예측하기 ( 분류 )

8.1 개요

다중 선형 / 로지스틱 회귀분석의 다른점 다중 선형 회귀분석은 연속형 Y 값을 예측 로지스틱 회귀분석은 어떤 집단에 속할것인지 예측

로지스틱 회귀분석의 2 단계 과정 :

1. 각 집단에 속하는 확률의 추정치를 계산 .

2. 각 관찰치를 어느 한 집단으로 분류하기 위해서 이러한 확률들에 분류 기준값을 적용 .

8.2 로지스틱 회귀분석

로지스틱 회귀분석 범주형 출력변수를 설명 또는 예측하기 위한

모형이 필요한 경우에 사용 .

로짓의 숨은 개념 ( 중간 과정 ): 집단 0/1 에 속한 확률 p 를 구함 .


식 (8.1)

식 (8.2)- 로지스틱 반응함수


식 (8.3)- 승산 계산

식 (8.4)- 사건의 확률 계산

집단 1 에 속하는 승산

집단 0 에 속하는 승산


승산 (odds)=>p/(1-p) p 는 어떤 사건이 발생할 확률 , 로 계산하며 ,

0 에서 무한대의 범위를 갖도록 바꿔 , 확률값을 더 편리하게 사용하기 위한 식입니다 .확률값이 0 에 가까우면 작은 값을 갖고 , 1 에 가까우면 큰 값을 갖도록 합니다 .

예 : 요일중에서 일요일을 무작위로 선택할확률 과 승산은 ?확률은 1/7 이고 승산은 1/6 , 6 to 1 , 6-1 ( 모두 six – to – one 이라 읽는다 )

결과를 얻지 못할 방법의 수

결과를 얻을 방밥의 수


식 (8.5)- 승산과 예측변수 관계식(8.2)+(8.4)

식 (8.6)- 로지스틱 모형의 표준화된 공식

(a) 승산 (b) 로짓


데이터 전처리 ( 예 1: 개인대출의 승인 )1. 학습 / 평가용 집합을 무작위로 데이터를 나눈다 .(60:40)2. 범주형 예측변수에 대해서는 더미변수를 만든다 .

EduProf EducGrad Securities CD Online Credit-Card

0 전문직 교육받은 경우

대학원졸업 교육을 받은 경우

고객이 은행에 증권계좌를 가지고 있는 경우

계좌 가진 경우

뱅킹을 사용하는 경우

은행의 신용카드를 보장한 경우

1 그외의 경우 그외의 경우 그외의 경우 그외의 경우

그외의 경우 기외의 경우


단일 예측변수를 이용한 로지스틱 회귀분석 단일 예측변수인 소득을 사용하여 고객 분류 하고

확률의 관점에서 종속변수와 설명변수 간의 관계를 나타낸다 .

승산의 관점에서 표현한 표현식


최대우도 추정치에 따라 추정된 추정 모형 우도란 ?/ 최대우도란 ?

어떤 시행의 결과 (Evidence) E 가 주어졌다 할 때 , 만일 주어진 가설 H 가 참이라면 , 그러한 결과 E 가 나올 정도는 얼마나 되겠느냐 하는 것이다 . 즉 결과 E 가 나온 경우 , 그러한 결과가 나올 수 있는 여러 가능한 가설들을 평가할 수 있는 측도가 곧 우도인 셈이다 .

우도함수을 최대로 하는 모수의 추정값을 최대우도추정량이라고 한다 .

1. 최대우도추정치2. B0=-6.3525 B1=0.0392


소득의 함수이 개인대출에 대한 실제 데이터 좌표점들과 이를 적합시킨 로지스틱 곡선

분류기준값 : C = c/(1-c) 고객의 대출제안 수락의 승산 예연소득이 50000 달러인 고객

대출제안 수락의 확률

나온 수락의 확률을 분류기준값과 비교한다 .


로지스틱 회귀분석의 추정 : 모수추정치의 계산 로지스틱 회귀분석에서 Y 와 베타 모수의 관계는 비선형이다 . 다중 회귀분석의 최소자승법이 아닌 , 최대우도법을 사용하여 베타

모수를 추정한다 .( 즉 모집단이 갖고 있는 것과 동일한 데이터를 얻는 가능성를 최대화하는 추정치를 찾는 것이다 .)

좋은 점근성을 보장하기 위하여 컴퓨터 프로그램을 사용하여 모수를 반복적으로 추정한다 .


최대우도추정량의 특징 일치성

표본의 크기가 증가함에 따라 참의 값과 다를 추정확률은 0 으로 수렴한다 .

점근적 효율성 최대우도추정량의 분산은 일치추정량 중에서 가능한

최소값을 가진다 . 점근적 정규성 분포

표본의 크기가 클 경우 , 다중 선형 회귀 분석과 유사한 방식으로 신뢰구간을 계산하고 통계적 검정을 수행할 수 있다 .


예 : P 값을 제외한 상태에서 12 개의 예측변수를 갖는 모형

에측변수의 값이 클수록 대출제안 수락확률이 높다 .

확률계산


승산을 이용한 결과 분석 승산 (odds) 가정

개인대출제안에 대한 고객수락모형은 담음과 같이 소득에 대한 함수로 정의된다 .

기본적인 승산의 예 :소득이 0 인 고객이 대출제안을 수락할 승산은 exp[6.3525+(0.0392)(0)]=0.0017 로 추정된다 .

소득이 100,000 달러의 경우 승산은 exp[6.3525+(0.0392)(100)]=0.088 이 된다 .


소득 , 즉 x1 의 값은 x1 에서 x1+1 만큼 증가하고 반면 다른 예측변수는 일정한 값으로 고정되었다고 할때의 승산율은 다음과 같이 계산 된다 .

8.3 선형회귀분석이 범주형 반응변수에 적합하지 않은 이유 1. 각 관찰치에 대해서 Y 를 예측하거나 관찰치를 분류하기 위해 사용하는

모형이 반드시 0 또는 1 의 예측변수값을 갖는 것은 아니다 . 2. 만약 Y 가 오직 0 과 1 의 값만을 가진다면 그것은 정규분포라고 할수

없다 . 데이터 집합에서 1 이라는 숫자의 분포에 더 적합한 분포는 p=P(Y=1) 을 가지는 이항분포이다 .

3. 모든 집단에 대해서 Y 의 분산이 일정하다는 가정은 충족되지 않는다 . Y는 이항분포를 따르기 때문에 분산은 nP(1-p) 이다 .

3 개의 예측변수를 이용하여 개인대출 (PL, 대출이 받아들여진 고객은 PL=1, 그외는 PL=0 으로 표기함 ) 을 추정하는 다중 선형 회귀분석에 적용할 경우 다음과 같이 출력값의 일부를 얻게 된다 . 이 추정모형은 다음과 같다 .

예를 들어 연소득이 50000달러이고 가족이 2 명이며

유니버셜 은행의 CD 계좌를 갖지 않은 고객의 대출 제안은 수락은 -0.2346+(0.0329)(0)=-0.009 로

예측된다 .

8.4 분류 성과의 평가

가장 많이 사용되는 성과 측정치 정오분류표 리프트 도표

목적 :1. 예측변수만을 이용하여 관찰치가 속한 집단을 정확하게

분류하는것이다 . 2. 비록전체 모형의 정확도가 다소 낮아진다고 하더라도 특별히

관심하는 집단에 속하는 관찰치를 찾아내는데 뛰어난 능력을 보이는 모형을 찾는 것이다 .

정오분류표 분류 시스템의 데이터 분류문제에 있어서 실제값 ( 정답 ) 과 예측값 ( 실험결과 ) 의

정보를 담고 있다 .

정오분류표 의 각각의 항은 다음의 의미를 가지게 된다 . a 는 부정값인 데이터를 긍정값으로 예측한 올바른 예측들의 갯수이다 . b 는 부정값인 데이터를 부정값으로 예측한 잘못된 예측들의 갯수이다 . c 는 긍정값인 데이터를 긍정값으로 예측한 잘못된 예측들의 갯수이다 . d 는 긍정값인 데이터를 부정값으로 예측한 올바른 예측들의 갯수이다 .

현재값

긍정값 부정값

예측값 긍정값 a b

부정값 c d

리프트 도표 Lift chart- 로지스틱 회귀모형에 의한 응답에 대한 기대

반응률을 나타낸다 ), ROC(Receiver Operating Character-istic - 민감도와 특이도에 대한 곡선


로지스틱 회귀분석의 정오분류표를 얻는 순서1. 추정식으로 소속집단의 확률계산2. 분류기준값으로 관찰치의 소속집단을 결정3. 예측된 집단과 관찰치의 실제집단 비교

예 :

변수 선정 : 최종 모형의 선택에 있어서 변수투입에 따른 비용 , 오류의 경향성 그리고 모형의 복잡성 등과 같은 실제적인 문제들을 고려해야 한다 .

8.5 전체 적합도 평가

적합도 평가 : 모형이 데이터에 잘 적합되었는지에 대한 평가는 분석의 목적이

대체로 프로파일링인 경우에 중요하며 , 분석의 목적이 정확한 분류에 있는 경우에는 모형의 적합성에 대한 평가가 상대적으로 덜 중요하다 .

전체 적합도 평가 모형의 편차 D 를 단순 모형의 편차 D0 과 비교한다 . 다중 R2 의 측정치는 (D0-D)/D0 로계산 단순모형의 편차 D0=D/(1-R*R) 로 계산

모형이 편차

정오분류표와 리프트 도표는 최적의 모형을 만드는데 사용한 데이터와 동일한 데이터를 사용하기 때문에 이 정오분류표와 리프트 도표는 미래의 성과 측정치를 제공하지 못한다 . 따라서 학습용 집합의 정오분류표와 리프트 도표는 과적합화문제와 데이터 입력오류 또는 작업데이터 테이블의 잘못된 선택 등으로 인해 발생하는 기술적인 문제를 발견하기 위한 용도로 사용된다 .

8.6 예제분석 :

예제 분석 순서1. 모형의 적합화 추정2. 모형의 해석3. 모형의 성과4. 적합도5. 변수선정

8.6 예제분석 :

목적 : 데이터 집합에 포함되지 않은 새로운 항공기가

연착될지 여부를 정확하게 예측하는 것이다 . 종속변수는 이진변수로서 연착변수이며 연착은 1 그외는 0 으로 표시한다 .

예제의 변수 내역

20 대 항공기에 대한 표본

4 개 범주형 변수를 포함한다 . X1= 출발항공 x2 = 항공사 x3= 요일군 Y = 비행상태

1:월 - 수 =>컨티넨탈

2: 목 - 일 => 델 타

1:월 - 수 / 2: 목 -일

최악의 공항=>LAD

데이터 전처리1. 범주형 예측변수를 위해 더미변수를 만든다 .(

출발공항 2 개 , 도착공항 2 개 , 항공사 7 개 , 요일은 6 개 , 출발시간은 15 개 , 기상악화로 인한 연착 1 개 )

2. 학습용과 평가용 데이터를 60:40 의 비율로 나눈다 .

모형의 적합화와 추정1. 이 로직스틱 회귀모형에서 음의 계수가 1 보다 낮은

승산계수로 변환 되는것을 살펴야 한다 .2. 양의 로지스틱 회귀계수가 어떻게 1 보다 큰

승산계수로 변환되는지에 대하여 깊게 살펴야 한다 .

로지스틱 회귀분석의 추정결과

모형의 해석 : 예 : 도착공항인 JFK 의 계수는 -0.67 로

추정된다 . ( 이것은 LGA 에 도착하는 항공기가 JFK 에 도착하는 항공기보다 연착될 경향이 더 크다는 것을 의미한다 .)- 기준집단은 LGA 이다 .

모형의 성과 목적 :

항공기 가 연착할지 여부를 확인하여 항공기의 연착을 줄이거나 연착에 따른 효과를 경감시킬 수 있도록 관련 자원들을 관리하는데 있다 .

적합도 목적 :

추정된 로지스틱 모형이 학습용 데이터에 얼마나 잘 적합되었는지를 보기 위해서는 학습용데이터를 이용하여 편차와 같은 적합도 측정치 , 정오분류표 , 리프트 도표를 계산하기 위함 .

모형의 편차는 1.124 로 나타난다 . 낮은 다중 R2(13.45%) 은 모형이 유용하지 않다는것을 의미한다 .

엑셀의 CHIDIST 를 이용하여 CHIDIST(1299-

1124,24)=0.00

로지스틱 회귀모형이 단순모형보다 더 좋은

모델임을 설명해줌

변수 선정 : 변수 제거 재그룹화 변수군 선택 알고리즘

예 :

8.7 3 개 이상의 집단을 분류하는 로지스틱 회귀분석

m 개의 집단이 있을때에는 m 개의 확률값의 1 이기 때문에 m-1 개의 확률을 추정하면 된다 .

순위형 집단 : 순위정보를 가진 집단을 말한다 .( 매수 , 보유 , 매도 ) m=2 일때에는 이진형 로지스틱 회귀모형으로 사용 3<=m<=5 에는 확장된 로직스틱 회귀모형을 사용

모형에 대한 해석과 계산 단순화 :1. 집단에 속할 누적확률을 조사한다 .

예 : m=3 인 집단을 가진다고 할 때 1= 매수 ,2= 보유 ,3= 매수로 표기한다 . 모형에 의해 추정된 확률값은 P(Y<=1)( 매수를 추천할 확률 ) 과

P(Y<=2)( 매수 또는 보유를 추천 할 확률 ) 이다 .

2. 예측변수들의 함수로서 각 로짓 모형을 구축한다 .

주식추천에서 하난의 예측변수 x 를 갖는다면 다음의 2 개 식이 구해진다 .

3 개 집단의 사례에서 다음의 식이 얻어진다 . 여기서 a0,b0,b1 은 학습용 집합을 통해 얻는

추정치이다 .

명목형 집단 집단들이 순위형이 아니고 단순히 서로 다를 때 이러한 집단은

명목형 집단에 속한다 . 다음은 예측변수와의 관계가 선형인 m-1 개의 유사 로싲등식을

보여준다 .

학습용 집합을 이용하여 4 개의 로지스틱 회귀계수를 추정할 경우 , 각 집단에 속할 확률은 다음과 같이 추정될 수 있다 .

8 장 로지스틱 회귀분석

Documents

Transcript of 8 장 로지스틱 회귀분석