본문 바로가기
728x90

파이썬28

오차, 잔차, 편차의 차이 (기초통계) python 흔히 통계에서는 오차, 잔차, 편차에 대해 얘기하곤 합니다. 그렇다면 이 3가지의 차이는 어떻게 정의되는 것인지 살펴보도록 하겠습니다. 먼저 들어가기 앞서 데이터를 불러옵니다. (삼성전자 주가, 코스피 지수) import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import yfinance as yf # 한글폰트 출력 가능 코드 from matplotlib import rc rc('font', family='AppleGothic') # Mac Os #rc('font', family='NanumGothic') # Windows Os plt.rcParams['axes.unicode_minus'] .. 2022. 3. 19.
Ridge regression (릿지 회귀) python 릿지 회귀분석은 선형회귀분석의 과대적합 문제를 해소하기 위해 L2 규제를 적용하는 방식을 사용합니다. 과대 적합은 다음과 같은 표로 해석할 수 있습니다. 전체 Error는 분산과 편향의 제곱 합으로 표시할 수 있습니다. 즉 전체 Error를 최소화하는 회귀분석이 Least Square Method, 즉 OLS인 것입니다. 밑에 식을 한번 보겠습니다. N은 데이터의 개수입니다. 만약 1000개의 샘플데이터가 있다면 N=1000이 되는 것이죠. P는 feature의 개수입니다. 단순선형회귀인 경우에는 P=1이 되고 다중회귀에서는 P가 2이상인 값을 가집니다. y는 실제 target의 값입니다. ß는 가중치로서 OLS의 feature 계수라고 보시면 됩니다. 람다는 ridge 모형의 하이퍼파라미터로 alpha.. 2022. 2. 22.
로지스틱 회귀분석 (Logistic Regression) python 이번에는 로지스틱 회귀분석을 시행해보겠습니다. 이 포스트에는 코드 위주로 업로드되며, 관련 이론은 다음을 참고해주세요. 2021.11.16 - [공부/통계학] - 로짓분석 로짓분석 로짓 분석을 설명하기 앞서 선형확률모형에 대한 언급을 하도록한다. (로짓 분석을 왜 이용하는지에 대한 배경이 되기 때문이다.) 선형확률모형 (LPM) feature(설명변수)의 값이 주어졌을 때, label( signature95.tistory.com 2021.11.17 - [공부/통계학] - 로짓모형, 프로빗모형의 추정 (+최우법) 로짓모형, 프로빗모형의 추정 (+최우법) 2021.11.16 - [공부/모델링] - 로짓분석 앞서 다룬 로짓모형 https://signature95.tistory.com/10?category=98.. 2022. 2. 21.
Distribution (분포도) python 정규분포, 이항분포, t분포, 카이제곱분포 등 다양한 분포가 존재한다. 이번에는 파이썬을 활용하여 각 분포에 대해 그려보도록 한다. 정규분포 # 정규분포 그리는 함수 def normal_df(N, sigma, mu): # 라이브러리 호출 import numpy as np import scipy as sp import matplotlib.pyplot as plt import seaborn as sns # 한글폰트 출력 가능 코드 from matplotlib import rc rc('font', family='AppleGothic') # Mac Os #rc('font', family='NanumGothic') # Windows Os plt.rcParams['axes.unicode_minus'] = False.. 2022. 2. 10.
Mysql 기본명령어 12 (INSERT) 이전 포스트에 이어서 작성하는 내용입니다. 2022.02.08 - [공부/mysql] - Mysql 기본명령어 11 (CASE) Mysql 기본명령어 11 (CASE) 이전포스트에 이어서 작성하는 내용입니다. 2022.02.07 - [공부/mysql] - Mysql 기본명령어 10 (날짜 연산) Mysql 기본명령어 10 (날짜 연산) 이전 포스트에 이어서 작성하는 내용입니다. 2022.02.07 - [공부/mysq signature95.tistory.com 데이터베이스 테이블에 행을 추가하는 법은 먼저 INSERT 명령어를 사용합니다. 보통 문법은 다음과 같습니다. INSERT INTO table_name VALUES (value1, value2 …) 그렇다면 빈 테이블을 하나 가져오도록 하겠습니다. .. 2022. 2. 9.
기초 통계 (분산) python 이전 포스트에 이어서 작성하는 내용입니다. 2022.02.04 - [공부/통계학] - 기초 통계 (중심도 이해) python 기초 통계 (중심도 이해) python 이번에는 기초 통계에 대해서 알아보도록 하겠습니다. 대표적인 것으로 평균(mean), 중위값(median) 등이 있고, 평균은 산술, 기하, 가중, 절사 평균등 다양하게 표현될 수 있습니다. 먼저 평균에 대 signature95.tistory.com 이번에는 분산에 대해 알아보고자 합니다. 분산은 편차의 제곱 합에 데이터 개수만큼 나눠주면 되는 것인데요, 이를 식으로 쓰면 다음과 같습니다. 확률변수 X의 분산은 X의 기댓값과 X가 얼마나 떨어져 있는지 그 정도를 제곱한 것의 기댓값과 같다. 그렇다면 실습을 해보도록 하겠습니다. 먼저 데이터는 .. 2022. 2. 8.
728x90