본문 바로가기
728x90

statsmodel4

로지스틱 회귀분석 (Logistic Regression) python 이번에는 로지스틱 회귀분석을 시행해보겠습니다. 이 포스트에는 코드 위주로 업로드되며, 관련 이론은 다음을 참고해주세요. 2021.11.16 - [공부/통계학] - 로짓분석 로짓분석 로짓 분석을 설명하기 앞서 선형확률모형에 대한 언급을 하도록한다. (로짓 분석을 왜 이용하는지에 대한 배경이 되기 때문이다.) 선형확률모형 (LPM) feature(설명변수)의 값이 주어졌을 때, label( signature95.tistory.com 2021.11.17 - [공부/통계학] - 로짓모형, 프로빗모형의 추정 (+최우법) 로짓모형, 프로빗모형의 추정 (+최우법) 2021.11.16 - [공부/모델링] - 로짓분석 앞서 다룬 로짓모형 https://signature95.tistory.com/10?category=98.. 2022. 2. 21.
ACF (auto-correlative function, 자기상관함수) python 자기상관함수는 보통 시계열 분석으로 도출된 잔차가 시간의 흐름에 따라 상관성이 존재하는지 확인하는 함수이다. 물론 ARIMA를 시행할 때, p,q를 설정하기 위해서도 ACF를 활용하기도 한다. 이번에는 자기상관성을 검정하고 이를 도표화하는 법을 알아보도록 한다. 데이터는 divvy data를 사용했으며 앞선 포스트에 이어지는 내용이기도 하다. 2022.01.19 - [공부/모델링] - Differential (차분) python Differential (차분) python 차분을 하는 이유는 non-stationary한 데이터를 차분을 통해 stationary하게 만들어주는 것이다. 데이터를 안정화하는 작업은 제곱, 로그화, 루트, 차분이 있는데 이번에는 차분을 해볼 것이다. 정상성 signature95.. 2022. 1. 20.
Stationary test (정상성 검정) python 시계열 데이터를 다루게 된다면, 정상성 검정이라는 것을 시행해야 한다. 시계열 데이터를 통해 회귀를 하게 된다면, 이는 과거 데이터를 가지고 미래를 예측하는 것과 같다. 따라서 통계적 속성이 일정해야 미래 데이터의 예측에 대한 신뢰성이 보장된다고 할 수 있을 것이다. 다음 그래프를 살펴보자 1번째 그래프는 정상성이 보장된 그래프이다. 이를 보면, 데이터의 분산이 평균을 중심으로 시간의 흐름에 따라 일정하게 유지되는 것을 확인할 수 있다. 반면 2번째 그래프는 분산이 일정하지 않고 추세도 하향하는 것을 볼 수 있다. 그렇다면, 회귀분석을 통해 미래를 예측하는 것은 아무래도 1번째 그래프가 더 쉬워보이는 것을 육안으로도 확인할 수 있을 것이다. 하지만, 표를 그려서 확인하는 것보다는 통계적인 검정을 활용하여.. 2022. 1. 19.
Forward feature selection (전진선택법) python 이전 filter method를 다룬 VIF (분산확장요인, python)에 이어서 작성하는 포스트입니다. 2022.01.11 - [공부/모델링] - VIF (분산확장요인, python) VIF (분산확장요인, python) Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조정하며 모형을 형성하고 예측 성능을 참고하여 Feature 선택) Embedded Method (예측 모형.. signature95.tistory.com Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조.. 2022. 1. 12.
728x90