본문 바로가기
공부/통계학

선형회귀 기초

by signature95 2022. 3. 24.
728x90
반응형

 

회귀 Regression은 평균으로 회귀하는 경향이 존재한다.

 

데이터가 산점도 형태로 분포하고 있다고 가정해보자.

 

https://zief0002.github.io/modeling/slrd.html

 

 

이를 회귀선으로 표현해보면  X(feature)가 특정 값을 취하는 경우 Y(target) 값을 밑의 경우와 같이 구할 수 있다.

https://zief0002.github.io/modeling/slrd.html (여기서는 hat을 사용하여 y가 표본이라 봤지만, 이번 포스트에서는 y를 모집단으로 가정하고 설명한다)

 

이를 다시 표현하면, 소득이 100$에서 1000$까지 100$ 단위별로 10개의 집단이 있고 각각 집단 별로 10개의 데이터가 있다고 가정하자.

 

이는 다시 말하면, X는 10개의 고정된 값과 그 10개의 Y값을 가진다고 할 수 있다.

 

만약 X1 집단의 Y평균을 알고 싶다면, 식은 E(Y|X1)의 형태로 쓸 수 있다.

 

E(Y|X1)를 조건부 확률값이라 하고 의미는 X1 집단에 대한 Y의 기대치로
X1 집단 내의 Y값 평균을 의미하는 것이다.

 

예시로 본다면 각 집단별 Y의 평균은 E(Y|X1), E(Y|X2) … E(Y|X10)으로 표현할 수 있는 것이다.

 

이때 E(Y)는 전체의 평균을 의미하기 때문에 조건부 확률과 구분해야 한다. (참고 : 조건부 확률 링크)

 

 

다시 그림을 살펴보자.

 

여기 그림을 보면 각 X별로 조건부 확률값이 빨간 점으로 표시되어 있는 것과 더 나아가서 회귀선(점선)이 도출된 것도 알 수 있다.

 

즉, 회귀곡선을 기하학적으로 표현하면 다음과 같이 쓸 수 있다.

 

 

모집단 (Y)의 회귀곡선은 설명변수 X(feature)의 고정된 값에 대한
Y(target)의 조건부 평균 값의 연결선이다.

 

그렇다면, 회귀식을 다음과 같이 쓸 수 있을 것이다.

 

feature X의 함수는 X 별 Y의 조건부 확률값을 가진다.

 

 

여기서 ß1은 절편 값을 의미한다. (X=0 일때 Y값)

ß2는 회귀계수 (regression coefficient)로 X가 한단위 변화할 때 조건부확률 값, E(Y|X)가 변화하는 정도를 의미한다.

 

하지만, 선형회귀 값에는 개별 관측치를 반영해야 하기에 오차항(error term)이 들어가게 된다. (물론 모집단이므로 오차항이라 말한 것이고 표본집단의 경우는 잔차 residual이라고 한다)

 

참고)

2022.03.19 - [공부/통계학] - 오차, 잔차, 편차의 차이 (기초통계) python 

 

오차, 잔차, 편차의 차이 (기초통계) python

흔히 통계에서는 오차, 잔차, 편차에 대해 얘기하곤 합니다. 그렇다면 이 3가지의 차이는 어떻게 정의되는 것인지 살펴보도록 하겠습니다. 먼저 들어가기 앞서 데이터를 불러옵니다. (삼성전자

signature95.tistory.com

 

이를 반영한 회귀식을 쓰면 다음과 같다.

 

표본집단의 회귀계수, 절편, 오차항은 hat을 사용하게 되지만, 여기서는 모집단 가정이므로 hat을 사용하지 않음

 

u_i가 의미하는 것은  실제 개별 관측치에서 조건부확률값을 뺀 값과 같다.

즉, 회귀선에서 개별관측치가 떨어진 정도를 의미하는 것이다.

 

 

오차항 u는 관측되지 않는 (설명되지 않는) 확률변수로서 음, 양의 값 둘다 가질 수 있다. 

만약 회귀선 밑에 관측치가 존재한다면 u는 음이 될 것이고 위에 존재한다면 양이 되는 것이다.

 

그렇다면, X에 대한 u의 기대치를 도출해보록 한다.

 

다음과 같은 관측치가 존재한다고 가정하자.

 

 

여기서 기대치를 취해주면 다음과 같이 쓸 수 있다. (상수항의 기댓값은 상수 그 자체이기 때문)

 

 

여기서 u가 포함된 마지막 항만 남게 된다. 

 

 

즉 회귀선이 Y의 조건부 확률값을 포함한다는 가정(기하학적 의미에서 언급)은 u의 조건부 확률값이 0이라는 것을 의미한다.

 

 

그렇다면, 오차항 u는 어떤 형태로 설명되는지 알아보도록 한다.

 

  1. 이론적인 모호성
    1. target 변수(Y)에 영향을 주는 feature(X)가 하나만 존재할 수는 없다.
    2. 핵심적인 역할을 하는 변수가 곧 X라고 할 수 있고, 이외에도 비체계적(nonsystemic)이거나 무작위(random)한 영향을 주는 다른 역할을 하는 변수도 존재할 것이다. 하지만 실생활에서 소비(Y)와 소득(X)로 예시를 보면, 소득이 높을 수록 소비가 큰 경향이 존재하지만, 이외에도 부양가족, 교육, 성별 등 다양한 영향을 주는 변수도 존재한다. 이런 부차적 요소를 결합한 것이 곧 u라고 할 수 있을 것이다.
  2. Data 확보
    1. feature가 여러개 있는 다중회귀의 경우, 변수에 대한 정량적인 data를 얻기 힘든 경우가 존재한다. 다시 소비와 소득으로 예를 들어보면, 소득뿐 아니라 가계의 부(wealth)까지 같이 고려해야 한다. 하지만, 실제 data에서는 가계의 부 요소는 알기 힘든 경우가 많다. 따라서 이론적으로도 상식적으로도 매우 필요한 변수지만, 생략할 수 밖에 없는 경우가 존재한다.
  3. 사람 행동의 예측 불가능성
    1. 흔히 현대에는 이성을 갖춘 인간이라 하지만, 실생활에는 비이성적인 선택을 하는 경우도 존재한다. 즉, 예측불가능한 randomness가 존재하기에 u가 이런 것을 반영한다고 할 수 있다.
  4. Simple is best
    1. target을 설명하는데 다양한 요인이 존재하지만, feature를 한번에 다 넣게 되면 모형의 복잡성이 높아지며 다중공선성 문제도 발생할 수 있다. 따라서 주요 변수를 제외한 나머지는 u로 귀결될 수 있다.

 

 

728x90

댓글