로짓 분석을 설명하기 앞서 선형확률모형에 대한 언급을 하도록한다.
(로짓 분석을 왜 이용하는지에 대한 배경이 되기 때문이다.)
선형확률모형 (LPM)
feature(설명변수)의 값이 주어졌을 때, label(종속변수)의 조건부 기댓값을 도출할 수 있음.
예를들면, smoker를 0,1으로 분류하는 label이 있다고 가정하자.
여기에는 Age, Education, income, Price라는 feature가 있다.
식은 다음과 같이 구성된다.
이를 간단하게 표현하면 다음과 같다.
B1은 y의 절편이다.
B2는 age가 변화할때 Y가 변화하는 정도이다.
마찬가지로 B5까지 동일하게 해석할 수 있으나, P는 담배가격으로 개별인원을 의미하는 i와 무관하게 적용된다.
u는 잔차로 해석할 수 있다.
각 feature의 계수는 다른 조건이 일정할 때 (편미분의 개념) feature가 1단위 증가할 때, Y에 미치는 영향의 정도를 의미한다.
여기에 변수를 추가하거나, feautre간의 상관성을 설명해줄 수 있는 파생변수를 형성하는 작업을 수행할 수 있다.
하지만, 선형확률모형의 한계점이 있기에, 이 이상의 작업은 큰 의미가 없다.
1. feature의 값에 상관없이 Y와 선형관계가 있음을 가정한다. (만약 income이 1억인 경우는 y를 어떻게 해석할것인가라는 문제)
2. 확률은 0에서 1 사이의 값으로 도출되어야 하지만, 여기서 추정된 Y는 0,1사이의 값을 가진다고 보장하지 못한다. (애초에 OLS추정이 가진 특성임)
3. 만약 feature을 조정하여 y를 0,1 사이의 값으로 조정하더라도 그렇게되면 오차항(u)이 정규분포를 따른다는 가정에 어긋난다.
4. 오차항(u)이 이분산성을 가지기 때문에, 통상적인 추론을 하지 못한다.
이처럼 OLS추정에 대한 기본 가정에 어긋나는 경우가 존재하며, 해석과 feature 조정이 어렵기 때문에 로지스틱 분석에서는 로짓, 프로빗 모형을 사용하게 되는 것이다.
로짓모형
로짓모형에서 가장 중요한 두가지 요구사항이 존재한다.
1. feature의 값이변화하더라도 확률추정치는 0,1사이로 표현되어야 한다.
2. P(확률추정치)와 feature의 관계는 비선형관계이다. (길게 늘어뜨린 S자 형태를 취하는데 sigmoid함수를 생각하면 된다)
여기서 대문자 I는 앞서 사용한 Y와 동일하다.
i는 개개인별 정보를 의미한다. (일종의 ID로 개인마다 나이, 교육, 소득 등이다르므로 X에 들어갈 것도 상이함)
BX, u는 위의 식과 동일하다.
여기서 I ≥ 0인 경우는 Y=1 (True)로 흡연자를 의미한다. (반대는 비흡연자로 Y=0)
그리고 식을 다시 써보면,
과 같은 형태가 될 것이다.
그렇다면 흡연자로 판단하는 경우는 u ≥ -BX 가 성립한다.
이때, 잔차항(u)의 분포가 0을 중심으로 대칭을 이루는 정규분포이면? (LPM에서 언급한 오차항의 정규분포 가정을 생각하자)
다음과 같은 식이 도출된다.
이를 그래프로 표현하면 다음과 같다.
여기에 더해 오차항(잔차항, u)의 확률분포가 로지스틱 확률 분포를 따른다고 가정한다고 하면 다음과 같은 식을 표현할 수 있다.
여기서 이 식을 정리해보자.
여기서 z = BX + u 인데, featrue인 X가 -∞, ∞의 범위로 되더라도 결국 P는 0, 1사이의 값으로 도출되는 것을 확인할 수 있다.
한 걸음 더 나가보자. (Odds ratio 산출)
드디어 Odds ratio를 도출할 수 있었다. 이는 흡연을 할 확률이 비흡연일 확률보다 몇배 높은지 알 수 있는 지표이다.
그렇다면 여기에 자연로그 ln을 해보자.
이제야 우리는 다음과 같은 식을 도출할 수 있다. (위의 식)
정리하자면, odds ratio에 자연로그를 취한 값을 로짓이라 부르고 위 식을 로짓모형이라고 한다.
앞에서 살펴본 LPM에서는 P,X가 선형관계를 유지한다 가정했지만, 로짓모형은 로짓(Odds ratio의 로그값)과 X가 선형관계를 이루고 있음을 확인할 수 있다. 따라서 로짓함수는 Odds ratio를 이용하여 feature의 선형결합을 변환함으로서 P의 추정을 더욱 용이하게 해주는 것이다.
그렇다면, logit 모형의 특징은 무엇일까?
1. P는 0,1 사이의 값을 가지므로, featrue인 X가 결합된 로짓은 -∞, ∞의 범위를 가질 수 있다. 따라서 로짓의 값이 무한정인 것이다.
2. L = BX + u로 선형관계이지만 P는 X와 비선형관계이다.
3. P / (1-P)는 P = 1/2일 때, 1이된다. 이때, L = 0으로 된다. 해석하자면, L이 양의 값으로 증가할 때, 사건이 발생할 가능성은 높아진다.
4. Odds ratio의 로그 값이 L이므로 B(feature 계수)의 의미는 feature(X)가 한단위 변화할 때 Odds ratio의 로그값이 변화하는정도를 의미한다.
5. L = BX + u에서 B를 추정하게 되면 Odds ratio를 활용해 특정인 i가 흡연을 선택할 확률을 구할 수 있다.
6. 간단한 OLS 추정에서는 계수를 활용하여 한계효과 (편미분값, 다른 feature가 일정할 때 특정 feature의 1단위 변화시 label의 변화량)을 쉽게 도출할 수 있지만, 로짓모형에서 한계효과는 좀 더 복잡하게 구현된다.
- 사건의 발생확률은 설명변수의 변화에 따른 영향 + 변화된 확률 자체에도 의존하기 때문이다. (참고로 STATA는 margins라는 명령어를 활용한다. 해석을 할때는, X1 feature의 평균이 1단위 변화할때, Y(label)가 일어날 확률의 변화량으로 해석하면 된다.
추가
로짓모형에서 선형결합으로 도출된 값이 odds ratio의 로그값으로 도출되고, 그 로그의 지수 값인 odds ratio를 구하게 된다. 그렇게 구해진 odds ratio로 P를 도출한다고 정리할 수 있다.
'공부 > 통계학' 카테고리의 다른 글
등분산 검정 (파이썬) (0) | 2022.01.11 |
---|---|
정규성 검정 (Python) (0) | 2022.01.11 |
Chi-square-test (카이제곱검정) (0) | 2021.11.18 |
T-test (T 검정) (0) | 2021.11.17 |
로짓모형, 프로빗모형의 추정 (+최우법) (0) | 2021.11.17 |
댓글