본문 바로가기
728x90

전체 글60

Stepwise Feature Selection (단계선택법) python 이전 Wrapper method를 다룬 Backward Feature Selection (후진제거법, python)에 이어서 작성하는 포스트입니다. 2022.01.13 - [공부/모델링] - Backward Feature Selection (후진제거법) python Backward Feature Selection (후진제거법) python 이전 Wrapper method를 다룬 Forward Feature Selection (전진선택법, python)에 이어서 작성하는 포스트입니다. 2022.01.12 - [공부/모델링] - Forward feature selection (전진선택법) python Forward feature s.. signature95.tistory.com Feature selectio.. 2022. 1. 14.
Backward Feature Selection (후진제거법) python 이전 Wrapper method를 다룬 Forward Feature Selection (전진선택법, python)에 이어서 작성하는 포스트입니다. 2022.01.12 - [공부/모델링] - Forward feature selection (전진선택법) python Forward feature selection (전진선택법) python 이전 filter method를 다룬 VIF (분산확장요인, python)에 이어서 작성하는 포스트입니다. 2022.01.11 - [공부/모델링] - VIF (분산확장요인, python) VIF (분산확장요인, python) Feature selection 방법은 크게.. signature95.tistory.com Feature selection 방법은 크게 3가지로 나뉜다.. 2022. 1. 13.
Forward feature selection (전진선택법) python 이전 filter method를 다룬 VIF (분산확장요인, python)에 이어서 작성하는 포스트입니다. 2022.01.11 - [공부/모델링] - VIF (분산확장요인, python) VIF (분산확장요인, python) Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조정하며 모형을 형성하고 예측 성능을 참고하여 Feature 선택) Embedded Method (예측 모형.. signature95.tistory.com Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조.. 2022. 1. 12.
VIF (분산확장요인, python) Feature selection 방법은 크게 3가지로 나뉜다. Filter Method (Feature간 상관성 기반) Wrapper Method (Feature를 조정하며 모형을 형성하고 예측 성능을 참고하여 Feature 선택) Embedded Method (예측 모형 최적화, 회귀계수 추정 과정에서 각 Feature가 선택되는 방식) 이번에 살펴볼 것은 Filter Method 방법인 VIF(Variance Inflation Fector, 분산확장요인)이다. 먼저 VIF의 식을 보면 다음과 같다. VIF는 다중 공선성(Multicollinearity)을 측정하는데 필요한 방법으로 다중공선성이란, 독립변수(feature)간 상관관계가 있는 것을 의미한다. 일반적으로 OLS회귀 가정이나, 여러 회귀와 .. 2022. 1. 11.
비모수 검정 : Mann-Witney U-test (만 - 위트니 U 검정, python) 비모수 데이터에 대해 T-test와 비슷하게 사용할 수 있는 검정 방식으로 Mann-Witney U-test가 있다. import pandas as pd # 깃허브에 업로드된 데이터 불러오기 (보스턴 집값 데이터) data = pd.read_csv("https://raw.githubusercontent.com/signature95/tistory/main/dataset/boston.csv") data 출력 결과 CRIMZNINDUSCHASNOXRMAGEDISRADTAXPTRATIOBLSTATMEDVCAT. MEDV 00.0063218.02.3100.5386.57565.24.0900129615.3396.904.9824.00 10.027310.07.0700.4696.42178.94.9671224217.8396.. 2022. 1. 11.
웰치의 t 검정 : welch's t test (파이썬) 웰치의 t 검정은 정규분포를 따르지만, 이분산성을 가지는 데이터에 대해 t-test를 진행하는 것이다. 이를 시행하려면, 정규성 검정과 등분산성 검정을 시행해야한다. 이전 글 참고 2022.01.11 - [공부/모델링] - 정규성 검정 (Python) 정규성 검정 (Python) 정규성을 확인하는 방법은 시각적으로 표를 그려보는 방법, 통계 검정을 통해 확인하는 방법이 존재합니다. 시각화 Q-Q plot 통계 검정 Shapiro - Test Anderson - Test KS - Test Normal-Test Jarque_bera - Te.. signature95.tistory.com 2022.01.11 - [공부/모델링] - 등분산 검정 (파이썬) 등분산 검정 (파이썬) 등분산검정(Equal-varian.. 2022. 1. 11.
등분산 검정 (파이썬) 등분산검정(Equal-variance test)은 두 정규성을 만족하는 데이터에서 생성된 두 개의 데이터 집합으로부터 두 정규분포의 모분산이 같은지 확인하기 위한 검정이다. 바틀렛(bartlett), 플리그너(fligner), 레빈(levene) 검정을 주로 사용한다. 이는 scipy의 stats에서 이를 위한 bartlett, fligner, levene 명령을 제공한다. 참고) 등분산성을 검정하는 대표적인 이유로는 T-test 가정이 있다. (등분산성, 정규성, 독립성을 충족하는 데이터에 대한 평균 차이 유의성 검정) # 라이브러리 호출 import numpy as np import scipy as sp import matplotlib.pyplot as plt # Mac OS에서 한글 폰트 출력을 위.. 2022. 1. 11.
정규성 검정 (Python) 정규성을 확인하는 방법은 시각적으로 표를 그려보는 방법, 통계 검정을 통해 확인하는 방법이 존재합니다. 시각화 Q-Q plot 통계 검정 Shapiro - Test Anderson - Test KS - Test Normal-Test Jarque_bera - Test 정규성 검정을 설명하기 앞서, 정규성이란 어떤 것을 의미하는지 간단하게 확인할 필요가 있습니다. 따라서, 먼저 정규분포에 대해서 알아보자. 정규분포 (Nomal Distribution) 정규분포(Normal Distribution)는 Feature의 Value 분포를 그렸을 때, 중심(평균값)을 기준으로 좌우 대칭 형태로 나타나는 형태를 보인다. 육안으로는 Bell-Shape 형태를 따르는 것이다. 표준 정규분포(Standard normal .. 2022. 1. 11.
Chi-square-test (카이제곱검정) 카이제곱 분포 χ2 분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다. 카이제곱 분포의 형태 카이제곱 검정은 위의 카이제곱 분포에 기반한 통계적 기법이다. 1. 어떤 경우에 사용하는가? 보통 관찰된 빈도와 기대되는 빈도가 유의미하게 다른지 검정하는 방법으로 자료형태는 빈도 or 명목척도의 형태로 주어질 때 사용한다. 2. 어떤 것을 검정하는가? 적합도 검정 (goodness of fit test) 관찰된 빈도가 기댓값과 같은가? (즉, 표본이 모집단을 유의하게 대표하는가) 동질성 검정 (homogeniety test) 두 집단의 분포.. 2021. 11. 18.
T-test (T 검정) t 검정의 적용은 언제 하는 것일까? https://ko.wikipedia.org/wiki/T-테스트 t-테스트 - 위키백과, 우리 모두의 백과사전 t-테스트(t-test) 또는 t-검정 또는 스튜던트 t-테스트(Student's t-test)는 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정법이다. t-테스트는 일반적으로 검정통계량이 정규 분포를 ko.wikipedia.org t-테스트는 일반적으로 검정통계량이 정규 분포를 따르며 분포와 관련된 스케일링 변숫값들이 알려진 경우에 사용한다. 이 때 모집단의 분산과 같은 스케일링 항을 알 수 없으나 데이터를 기반으로 한 추정값으로 대체하면 검정통계량은 t-분포를 따른다. 예를 들어 t-테스트를 사용하여 두 데이터 세트(집단)의 평균이 서로 .. 2021. 11. 17.
728x90