728x90 python30 Stationary test (정상성 검정) python 시계열 데이터를 다루게 된다면, 정상성 검정이라는 것을 시행해야 한다. 시계열 데이터를 통해 회귀를 하게 된다면, 이는 과거 데이터를 가지고 미래를 예측하는 것과 같다. 따라서 통계적 속성이 일정해야 미래 데이터의 예측에 대한 신뢰성이 보장된다고 할 수 있을 것이다. 다음 그래프를 살펴보자 1번째 그래프는 정상성이 보장된 그래프이다. 이를 보면, 데이터의 분산이 평균을 중심으로 시간의 흐름에 따라 일정하게 유지되는 것을 확인할 수 있다. 반면 2번째 그래프는 분산이 일정하지 않고 추세도 하향하는 것을 볼 수 있다. 그렇다면, 회귀분석을 통해 미래를 예측하는 것은 아무래도 1번째 그래프가 더 쉬워보이는 것을 육안으로도 확인할 수 있을 것이다. 하지만, 표를 그려서 확인하는 것보다는 통계적인 검정을 활용하여.. 2022. 1. 19. Stepwise Feature Selection (단계선택법) python 이전 Wrapper method를 다룬 Backward Feature Selection (후진제거법, python)에 이어서 작성하는 포스트입니다. 2022.01.13 - [공부/모델링] - Backward Feature Selection (후진제거법) python Backward Feature Selection (후진제거법) python 이전 Wrapper method를 다룬 Forward Feature Selection (전진선택법, python)에 이어서 작성하는 포스트입니다. 2022.01.12 - [공부/모델링] - Forward feature selection (전진선택법) python Forward feature s.. signature95.tistory.com Feature selectio.. 2022. 1. 14. Backward Feature Selection (후진제거법) python 이전 Wrapper method를 다룬 Forward Feature Selection (전진선택법, python)에 이어서 작성하는 포스트입니다. 2022.01.12 - [공부/모델링] - Forward feature selection (전진선택법) python Forward feature selection (전진선택법) python 이전 filter method를 다룬 VIF (분산확장요인, python)에 이어서 작성하는 포스트입니다. 2022.01.11 - [공부/모델링] - VIF (분산확장요인, python) VIF (분산확장요인, python) Feature selection 방법은 크게.. signature95.tistory.com Feature selection 방법은 크게 3가지로 나뉜다.. 2022. 1. 13. Forward feature selection (전진선택법) python 이전 filter method를 다룬 VIF (분산확장요인, python)에 이어서 작성하는 포스트입니다. 2022.01.11 - [공부/모델링] - VIF (분산확장요인, python) VIF (분산확장요인, python) Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조정하며 모형을 형성하고 예측 성능을 참고하여 Feature 선택) Embedded Method (예측 모형.. signature95.tistory.com Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조.. 2022. 1. 12. VIF (분산확장요인, python) Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조정하며 모형을 형성하고 예측 성능을 참고하여 Feature 선택) Embedded Method (예측 모형 최적화, 회귀계수 추정 과정에서 각 Feature가 선택되는 방식) 이번에 살펴볼 것은 Filter Method 방법인 VIF(Variance Inflation Fector, 분산확장요인)이다. 먼저 VIF의 식을 보면 다음과 같다. VIF는 다중 공선성(Multicollinearity)을 측정하는데 필요한 방법으로 다중공선성이란, 독립변수(feature)간 상관관계가 있는 것을 의미한다. 일반적으로 OLS회귀 가정이나, 여러 회귀와 .. 2022. 1. 11. 비모수 검정 : Mann-Witney U-test (만 - 위트니 U 검정, python) 비모수 데이터에 대해 T-test와 비슷하게 사용할 수 있는 검정 방식으로 Mann-Witney U-test가 있다. import pandas as pd # 깃허브에 업로드된 데이터 불러오기 (보스턴 집값 데이터) data = pd.read_csv("https://raw.githubusercontent.com/signature95/tistory/main/dataset/boston.csv") data 출력 결과 CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTATMEDVCAT. MEDV 00.0063218.02.3100.5386.57565.24.0900129615.3396.904.9824.00 10.027310.07.0700.4696.42178.94.9671224217.8396.. 2022. 1. 11. 이전 1 2 3 4 5 다음 728x90