728x90 전체 글60 Lasso Feature Selection (Embedded method) python 이전 포스트에 이어서 작성하는 내용입니다. 2022.01.14 - [공부/통계학] - Stepwise Feature Selection (단계선택법) python Stepwise Feature Selection (단계선택법) python 이전 Wrapper method를 다룬 Backward Feature Selection (후진제거법, python)에 이어서 작성하는 포스트입니다. 2022.01.13 - [공부/모델링] - Backward Feature Selection (후진제거법) python Backward Featur.. signature95.tistory.com 2022.02.22 - [공부/머신러닝] - Ridge regression (릿지 회귀) python Ridge regression (.. 2022. 4. 19. 오류 해결 코드 (ROC_AUC_score) python 로지스틱 회귀분석을 시행하고 나서 Accuracy, AUC_ROC 값을 도출하려는 중에 이런 에러 메세지가 발생했습니다. import statsmodels.api as sm from sklearn.metrics import accuracy_score, roc_auc_score logreg = sm.Logit(Y_train, X_train).fit() # 로지스틱 회귀 모델 생성 및 학습 pred = logreg.predict(X_train) # 성능 평가 print('Accuacy Score: ', accuracy_score(Y_train, pred)) print('ROC AUC Score: ', roc_auc_score(Y_train, pred)) 결과 값 (에러) Classification metri.. 2022. 4. 18. 구조변화 검정 (Chow-test) python 경제 분석 등 시계열 데이터를 분석하다보면, 특정 큰 사건 발생으로 경제 지표의 큰 변화가 발생하여 이후 예측에 영향을 주는 경우가 존재합니다. 이를 구조변화라고 하는데, 이번에는 구조 변화가 발생했다는 것을 어떻게 통계적으로 검정할 수 있는지 알아보도록 하겠습니다. 참고한 사이트는 다음과 같습니다. https://pypi.org/project/chowtest/ chowtest Python implementation of the Chow test (1960). pypi.org https://github.com/jtloong/chow_test GitHub - jtloong/chow_test: Python module to calculate time series Chow break statistics. Py.. 2022. 4. 8. 확률의 정의 (기초통계) 표본과 모집단의 이해 포스트에 이어서 작성하는 내용입니다. 2022.03.21 - [공부/기초통계] - 표본과 모집단의 이해 표본과 모집단의 이해 표본과 모집단을 그림으로 그리면 다음과 같이 표현할 수 있습니다. 분석가가 분석 목표로서 대상을 설정하는 전체를 모집단(population)이라고 하며, 조사와 통계기법을 적용한는 모집단의 일부 signature95.tistory.com 먼저 확률의 기본 개념부터 언급하겠습니다. 확률의 기본 개념에는 확률 실험과 표본 공간이라는 것이 존재합니다. 1. 확률 실험 (Random experiment) 실험의 결과를 확실하게 예측하지 못하는 실험을 의미 2. 표본공간 (Sample space) 확률실험의 결과로 얻는 모든 결과 값의 집합을 의미함 이 두 개념의 예시.. 2022. 4. 7. AR(p) 모형 이 포스트는 ARIMA 모형을 다루기 위한 내용으로 AR(p)에 대해 알아보고자 하여 작성하였습니다. ARIMA의 경우 먼저 p,d,q에 대해 파라미터를 지정해야 합니다. 여기서 p가 의미하는 것이 AR(p)라고 할 수 있습니다. p를 구하기 위해서는 ACF plot을 그려서 확인해야 합니다. 이에 대한 내용은 하단 링크를 참고하시면 됩니다. 2022.01.20 - [공부/통계학] - ACF (auto-correlative function, 자기상관함수) python ACF (auto-correlative function, 자기상관함수) python 자기상관함수는 보통 시계열 분석으로 도출된 잔차가 시간의 흐름에 따라 상관성이 존재하는지 확인하는 함수이다. 물론 ARIMA를 시행할 때, p,q를 설정하기.. 2022. 4. 6. Cross correlation (비교상관계수) python 이전에 다룬 ACF, PACF 이후 작성하는 부분입니다. 2022.01.20 - [공부/통계학] - ACF (auto-correlative function, 자기상관함수) python ACF (auto-correlative function, 자기상관함수) python 자기상관함수는 보통 시계열 분석으로 도출된 잔차가 시간의 흐름에 따라 상관성이 존재하는지 확인하는 함수이다. 물론 ARIMA를 시행할 때, p,q를 설정하기 위해서도 ACF를 활용하기도 한다. 이번 signature95.tistory.com 2022.01.20 - [공부/통계학] - PACF (Partial Auto Correlation Function, 편자기상관함수) python ACF (auto-correlative function, .. 2022. 4. 5. 선형회귀 분석2 (회귀계수) python 이전 포스트에 이어서 작성하는 내용입니다. 2022.04.01 - [공부/통계학] - 선형회귀 분석1 (결정계수 구하기) python 선형회귀 분석1 (결정계수 구하기) python 이번 포스트에서는 단순선형회귀 summary를 통해 도출된 결정계수, 회귀계수, 회귀계수의 표준편차, 회귀계수의 T값 등의 의미와 직접 구하는 방법을 알아보고자 합니다. 일반적인 OLS를 파이썬에 signature95.tistory.com 앞선 포스트에서는 결정계수에 대해서 알아보았는데, 이번에는 회귀계수에 대해 알아보고자 합니다. 선형회귀에서 회귀계수는 최소제곱법을 통해서 도출하는데, 잔차를 최소화하는 방식으로 진행됩니다. 여기서 잔차를 식으로 표현하면 다음과 같습니다. 위 식에서 우리는 y_hat이 x와 ß로 표현가능한 .. 2022. 4. 1. 선형회귀 분석1 (결정계수 구하기) python 이번 포스트에서는 단순선형회귀 summary를 통해 도출된 결정계수, 회귀계수, 회귀계수의 표준편차, 회귀계수의 T값 등의 의미와 직접 구하는 방법을 알아보고자 합니다. 일반적인 OLS를 파이썬에서 수행하려면 다양한 라이브러리가 있지만, summary를 통해 OLS 결과를 종합적으로 도출해주는 statsmodels 라이브러리로 이번 파트를 알아보도록 하겠습니다. 먼저 데이터는 보스턴 집값 데이터를 불러오도록 합니다. import pandas as pd from sklearn.datasets import load_boston # 데이터셋 불러오기 housing = load_boston() # feature, target 데이터 설정 feature = pd.DataFrame(housing.data, colu.. 2022. 4. 1. Monte Carlo simulation (몬테카를로 시뮬레이션) python 이전포스트에 이어서 작성하는 내용입니다. 2022.03.25 - [공부/통계학] - 통계적 추론과 바람직한 추정량 python 통계적 추론과 바람직한 추정량 python 통계추론의 의미는 모집단으로부터의 표본에 근거하여 모집단에 대한 정보를 알아내는 과정이라 할 수 있습니다. 먼저 통계추론은 추정(estimation)과 가설검정(hypothesis testing)으로 구분되는데, signature95.tistory.com 이번에는 지난 포스트에서 언급한 BLUE (Best Lenear Unbiased Estimator)의 특성을 몬테카를로 시뮬레이션으로 증명해보려 합니다. 몬테카를로 시뮬레이션은 표본추출 실험으로서 난수를 생성하여 소표본, 유한표본에서 추정량의 형태에 대해 연구하는데 유용하게 사용합니다... 2022. 3. 28. 통계적 추론과 바람직한 추정량 python 통계추론의 의미는 모집단으로부터의 표본에 근거하여 모집단에 대한 정보를 알아내는 과정이라 할 수 있습니다. 먼저 통계추론은 추정(estimation)과 가설검정(hypothesis testing)으로 구분되는데, 추정은 표본으로부터 미지의 모수를 추측하는 것으로 다시말해 표본의 통계량으로부터 모수의 특성을 추측하는 것입니다. 여기서 추정량은 모수를 추정하기 위한 표본의 함수인 통계량이며, 추정값은 추정량에 관측값을 대입하여 얻은 추정량의 값입니다. 추정량의 분포는 표본추출결과에 따라 변하며 이를 표로 나타낸 것이 표본분포라고 할 수 있습니다. 그렇다면, 바람직한 추정량에 대해 알아보도록 하겠습니다. 불편성 (Unbiasedness) 不偏, 치우치지 않는 특성 편의 bias는 추정량과 모수가 서로 다른경우.. 2022. 3. 25. 이전 1 2 3 4 ··· 6 다음 728x90