회귀 Regression은 평균으로 회귀하는 경향이 존재한다.
데이터가 산점도 형태로 분포하고 있다고 가정해보자.
이를 회귀선으로 표현해보면 X(feature)가 특정 값을 취하는 경우 Y(target) 값을 밑의 경우와 같이 구할 수 있다.
이를 다시 표현하면, 소득이 100$에서 1000$까지 100$ 단위별로 10개의 집단이 있고 각각 집단 별로 10개의 데이터가 있다고 가정하자.
이는 다시 말하면, X는 10개의 고정된 값과 그 10개의 Y값을 가진다고 할 수 있다.
만약 X1 집단의 Y평균을 알고 싶다면, 식은 E(Y|X1)의 형태로 쓸 수 있다.
E(Y|X1)를 조건부 확률값이라 하고 의미는 X1 집단에 대한 Y의 기대치로
X1 집단 내의 Y값 평균을 의미하는 것이다.
예시로 본다면 각 집단별 Y의 평균은 E(Y|X1), E(Y|X2) … E(Y|X10)으로 표현할 수 있는 것이다.
이때 E(Y)는 전체의 평균을 의미하기 때문에 조건부 확률과 구분해야 한다. (참고 : 조건부 확률 링크)
다시 그림을 살펴보자.
여기 그림을 보면 각 X별로 조건부 확률값이 빨간 점으로 표시되어 있는 것과 더 나아가서 회귀선(점선)이 도출된 것도 알 수 있다.
즉, 회귀곡선을 기하학적으로 표현하면 다음과 같이 쓸 수 있다.
모집단 (Y)의 회귀곡선은 설명변수 X(feature)의 고정된 값에 대한
Y(target)의 조건부 평균 값의 연결선이다.
그렇다면, 회귀식을 다음과 같이 쓸 수 있을 것이다.
여기서 ß1은 절편 값을 의미한다. (X=0 일때 Y값)
ß2는 회귀계수 (regression coefficient)로 X가 한단위 변화할 때 조건부확률 값, E(Y|X)가 변화하는 정도를 의미한다.
하지만, 선형회귀 값에는 개별 관측치를 반영해야 하기에 오차항(error term)이 들어가게 된다. (물론 모집단이므로 오차항이라 말한 것이고 표본집단의 경우는 잔차 residual이라고 한다)
참고)
2022.03.19 - [공부/통계학] - 오차, 잔차, 편차의 차이 (기초통계) python
이를 반영한 회귀식을 쓰면 다음과 같다.
u_i가 의미하는 것은 실제 개별 관측치에서 조건부확률값을 뺀 값과 같다.
즉, 회귀선에서 개별관측치가 떨어진 정도를 의미하는 것이다.
오차항 u는 관측되지 않는 (설명되지 않는) 확률변수로서 음, 양의 값 둘다 가질 수 있다.
만약 회귀선 밑에 관측치가 존재한다면 u는 음이 될 것이고 위에 존재한다면 양이 되는 것이다.
그렇다면, X에 대한 u의 기대치를 도출해보록 한다.
다음과 같은 관측치가 존재한다고 가정하자.
여기서 기대치를 취해주면 다음과 같이 쓸 수 있다. (상수항의 기댓값은 상수 그 자체이기 때문)
여기서 u가 포함된 마지막 항만 남게 된다.
즉 회귀선이 Y의 조건부 확률값을 포함한다는 가정(기하학적 의미에서 언급)은 u의 조건부 확률값이 0이라는 것을 의미한다.
그렇다면, 오차항 u는 어떤 형태로 설명되는지 알아보도록 한다.
- 이론적인 모호성
- target 변수(Y)에 영향을 주는 feature(X)가 하나만 존재할 수는 없다.
- 핵심적인 역할을 하는 변수가 곧 X라고 할 수 있고, 이외에도 비체계적(nonsystemic)이거나 무작위(random)한 영향을 주는 다른 역할을 하는 변수도 존재할 것이다. 하지만 실생활에서 소비(Y)와 소득(X)로 예시를 보면, 소득이 높을 수록 소비가 큰 경향이 존재하지만, 이외에도 부양가족, 교육, 성별 등 다양한 영향을 주는 변수도 존재한다. 이런 부차적 요소를 결합한 것이 곧 u라고 할 수 있을 것이다.
- Data 확보
- feature가 여러개 있는 다중회귀의 경우, 변수에 대한 정량적인 data를 얻기 힘든 경우가 존재한다. 다시 소비와 소득으로 예를 들어보면, 소득뿐 아니라 가계의 부(wealth)까지 같이 고려해야 한다. 하지만, 실제 data에서는 가계의 부 요소는 알기 힘든 경우가 많다. 따라서 이론적으로도 상식적으로도 매우 필요한 변수지만, 생략할 수 밖에 없는 경우가 존재한다.
- 사람 행동의 예측 불가능성
- 흔히 현대에는 이성을 갖춘 인간이라 하지만, 실생활에는 비이성적인 선택을 하는 경우도 존재한다. 즉, 예측불가능한 randomness가 존재하기에 u가 이런 것을 반영한다고 할 수 있다.
- Simple is best
- target을 설명하는데 다양한 요인이 존재하지만, feature를 한번에 다 넣게 되면 모형의 복잡성이 높아지며 다중공선성 문제도 발생할 수 있다. 따라서 주요 변수를 제외한 나머지는 u로 귀결될 수 있다.
'공부 > 통계학' 카테고리의 다른 글
선형회귀 분석1 (결정계수 구하기) python (0) | 2022.04.01 |
---|---|
Monte Carlo simulation (몬테카를로 시뮬레이션) python (0) | 2022.03.28 |
로지스틱 회귀분석 (Logistic Regression) python (0) | 2022.02.21 |
일원분산분석 (One-way ANOVA) python (0) | 2022.02.15 |
기초 통계 (중심도 이해) python (0) | 2022.02.04 |
댓글