본문 바로가기
728x90

파이썬28

Forward feature selection (전진선택법) python 이전 filter method를 다룬 VIF (분산확장요인, python)에 이어서 작성하는 포스트입니다. 2022.01.11 - [공부/모델링] - VIF (분산확장요인, python) VIF (분산확장요인, python) Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조정하며 모형을 형성하고 예측 성능을 참고하여 Feature 선택) Embedded Method (예측 모형.. signature95.tistory.com Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조.. 2022. 1. 12.
VIF (분산확장요인, python) Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조정하며 모형을 형성하고 예측 성능을 참고하여 Feature 선택) Embedded Method (예측 모형 최적화, 회귀계수 추정 과정에서 각 Feature가 선택되는 방식) 이번에 살펴볼 것은 Filter Method 방법인 VIF(Variance Inflation Fector, 분산확장요인)이다. 먼저 VIF의 식을 보면 다음과 같다. VIF는 다중 공선성(Multicollinearity)을 측정하는데 필요한 방법으로 다중공선성이란, 독립변수(feature)간 상관관계가 있는 것을 의미한다. 일반적으로 OLS회귀 가정이나, 여러 회귀와 .. 2022. 1. 11.
웰치의 t 검정 : welch's t test (파이썬) 웰치의 t 검정은 정규분포를 따르지만, 이분산성을 가지는 데이터에 대해 t-test를 진행하는 것이다. 이를 시행하려면, 정규성 검정과 등분산성 검정을 시행해야한다. 이전 글 참고 2022.01.11 - [공부/모델링] - 정규성 검정 (Python) 정규성 검정 (Python) 정규성을 확인하는 방법은 시각적으로 표를 그려보는 방법, 통계 검정을 통해 확인하는 방법이 존재합니다. 시각화 Q-Q plot 통계 검정 Shapiro - Test Anderson - Test KS - Test Normal-Test Jarque_bera - Te.. signature95.tistory.com 2022.01.11 - [공부/모델링] - 등분산 검정 (파이썬) 등분산 검정 (파이썬) 등분산검정(Equal-varian.. 2022. 1. 11.
등분산 검정 (파이썬) 등분산검정(Equal-variance test)은 두 정규성을 만족하는 데이터에서 생성된 두 개의 데이터 집합으로부터 두 정규분포의 모분산이 같은지 확인하기 위한 검정이다. 바틀렛(bartlett), 플리그너(fligner), 레빈(levene) 검정을 주로 사용한다. 이는 scipy의 stats에서 이를 위한 bartlett, fligner, levene 명령을 제공한다. 참고) 등분산성을 검정하는 대표적인 이유로는 T-test 가정이 있다. (등분산성, 정규성, 독립성을 충족하는 데이터에 대한 평균 차이 유의성 검정) # 라이브러리 호출 import numpy as np import scipy as sp import matplotlib.pyplot as plt # Mac OS에서 한글 폰트 출력을 위.. 2022. 1. 11.
정규성 검정 (Python) 정규성을 확인하는 방법은 시각적으로 표를 그려보는 방법, 통계 검정을 통해 확인하는 방법이 존재합니다. 시각화 Q-Q plot 통계 검정 Shapiro - Test Anderson - Test KS - Test Normal-Test Jarque_bera - Test 정규성 검정을 설명하기 앞서, 정규성이란 어떤 것을 의미하는지 간단하게 확인할 필요가 있습니다. 따라서, 먼저 정규분포에 대해서 알아보자. 정규분포 (Nomal Distribution) 정규분포(Normal Distribution)는 Feature의 Value 분포를 그렸을 때, 중심(평균값)을 기준으로 좌우 대칭 형태로 나타나는 형태를 보인다. 육안으로는 Bell-Shape 형태를 따르는 것이다. 표준 정규분포(Standard normal .. 2022. 1. 11.
Chi-square-test (카이제곱검정) 카이제곱 분포 χ2 분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다. 카이제곱 분포의 형태 카이제곱 검정은 위의 카이제곱 분포에 기반한 통계적 기법이다. 1. 어떤 경우에 사용하는가? 보통 관찰된 빈도와 기대되는 빈도가 유의미하게 다른지 검정하는 방법으로 자료형태는 빈도 or 명목척도의 형태로 주어질 때 사용한다. 2. 어떤 것을 검정하는가? 적합도 검정 (goodness of fit test) 관찰된 빈도가 기댓값과 같은가? (즉, 표본이 모집단을 유의하게 대표하는가) 동질성 검정 (homogeniety test) 두 집단의 분포.. 2021. 11. 18.
728x90