728x90
반응형
카이제곱 분포
χ2 분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다.
카이제곱 분포의 형태
카이제곱 검정은 위의 카이제곱 분포에 기반한 통계적 기법이다.
1. 어떤 경우에 사용하는가?
보통 관찰된 빈도와 기대되는 빈도가 유의미하게 다른지 검정하는 방법으로 자료형태는 빈도 or 명목척도의 형태로 주어질 때 사용한다.
2. 어떤 것을 검정하는가?
적합도 검정 (goodness of fit test)
관찰된 빈도가 기댓값과 같은가? (즉, 표본이 모집단을 유의하게 대표하는가)
동질성 검정 (homogeniety test)
두 집단의 분포가 동질성을 갖는가?
독립성 검정 (test for independence)
변수(feature)가 두 개 이상일 때 사용되며, 기대빈도는 '독립적'이라고 기대하는 것을 의미하며 관찰빈도와의 차이를 통해 기대빈도의 진위여부를 밝힌다.
따라서, H0 (귀무가설)은 "두 변수의 연관성이 없다. 즉, 독립이다."이며, 대립가설은 "연관성이 존재한다."이다.
하지만, 카이제곱 검정의 결과는 연관성을 나타내지 인과성을 의미하지는 않는다.
3. 카이제곱 통계량 식은?
χ2 = Σ (관측값 - 기댓값)2 / 기댓값
+
로지스틱 회귀 모형에 대한 검정 방법도 카이제곱을 이용한다.
OLS (선형결합 회귀분석) | 로지스틱 회귀분석 | |
모형의 적합도 측정 | F-통계량으로 P-value 추출 (링크 참고) |
Chi-squared 통계량으로 P-value 추출 |
모형의 설명력 측정 | R^2, adj R^2(다중회귀) | Pseudo R^2 |
변수의 추정치 유의성 측정 | T-통계량으로 P-value 추출 | wald로 구한 Z-통계량으로 P-value 추출 |
종속변수 (Y, label, target) | 연속형변수 | 명목형변수 |
계수추정법 | 최소제곱법(Least squared) | 최우법 (ML) (링크 참고) |
참고)
카이제곱 분포도 시각화
2022.02.10 - [공부/통계학] - Distribution (분포도) python
그렇다면 논문을 잠깐 살펴보자.
2021.11.16 - [공부/논문리뷰] - 논문리뷰 (재무비율을 이용한 부도예측에 대한 연구)
재무비율 117개를 선정해서 최종 모형을 형성할 때 17개 재무비율 feature를 선정한다고 한다.
그런데, feature 를 선택함에 있어 t-test, 단일변량로짓 : Prob(chisq) < 0.05 라고 작성되어 있다.
여기에 의문이 발생하였다.
아니, 로짓을 어떻게 사용해서 변수를 추출한 것인가?
생각을 해본 결과는 다음과 같다.
먼저 117개 feature를 t-test로 필터링한다.
단일 변량 로짓으로 필터링된 특정 feature를 넣어서
모델의 적합도(유의성)을 카이제곱분포를 이용해 측정하게 된다.
그리고 유의수준 5%을 만족하는 feature를 선정하여 다음단계로 넘어간다.
이런 형태로 feature를 추출하는 것이라 생각하였다.
728x90
'공부 > 통계학' 카테고리의 다른 글
등분산 검정 (파이썬) (0) | 2022.01.11 |
---|---|
정규성 검정 (Python) (0) | 2022.01.11 |
T-test (T 검정) (0) | 2021.11.17 |
로짓모형, 프로빗모형의 추정 (+최우법) (0) | 2021.11.17 |
로짓분석 (0) | 2021.11.16 |
댓글