표본과 모집단의 이해

728x90

표본과 모집단을 그림으로 그리면 다음과 같이 표현할 수 있습니다.

분석가가 분석 목표로서 대상을 설정하는 전체를 모집단(population)이라고 하며, 조사와 통계기법을 적용한는 모집단의 일부는 표본(sample)이라 합니다.

하지만, 모집단에서 추출한 표본통계치는 결과를 예측할 수 없습니다. 그렇기에 표본통계량이 곧 확률변수(확률이 계속 변화하기 때문)로서 작용하는 것이며 이 확률변수의 확률분포는 표본분포(Sample distribution)이라고 정의합니다.

참고로 확률변수와 확률분포의 관계, 의미는 다음과 같습니다.

여기서 만약 확률변수가 동전던지기와 같이 이산적인 값을 가지게 되면 이산확률변수라 칭하며 그런 확률변수의 분포를 이산확률분포라 합니다. 물론 반대로 연속적인 값을 가지는 경우는 연속확률변수이며 분포는 연속확률분포라고 할 수 있죠.

또한, 특정 확률변수 X가 어떤 실수 x 값을 취하는 확률을 함수로 표현하게 되면 이를 확률함수라고 합니다. 주로 f(x)로 표기하며 확률분포가 이루는 곡선 아래 면적의 합은 1이 됩니다. (전체 확률이 100%이므로)

정리해봅시다.

다시 돌아와서 표본과 모집단에 대해 더 알아봅니다.

위에서는 모집단의 특성을 유추하기 위해 표본을 사용한다고 언급했습니다. 유추하기 위해서는 표본의 특성을 사용해야 합니다.

먼저 방금전 파라미터에 대해 언급했는데, 파라미터(모수)는 분석가가 조사하고 싶은 모집단의 특성 값에 해당합니다. 즉, 이 모수를 추정하기 위해 통계량이라는 개념을 사용하는데 통계량은 표본의 확률변수를 사용하여 모수를 추정하기 위한 표본의 함수입니다.

그림으로 정리하면 다음과 같습니다.

또한, 표본에 적용되는 대수의 법칙, 중심극한정리가 있습니다.

대수의 법칙

표본의 수가 충분히 커지면 표본의 평균, 비율은 모평균, 비율에 근접하게 된다.

이는 Sample 수 n이 커질수록 표본 확률변수 x가 모집단의 특성인 파라미터(모수)에 근접하다는 것을 의미합니다.

중심극한정리 (Central Limit Theorem, CLT)

표본의 수가 충분하다면, 모수를 모르는 경우에도 표본 통계량을 통해 정규분포를 구성하여 모수를 추정할 수 있다.

여기서 표본의 수가 충분한 정도는 일반적으로 n이 30보다 큰 경우를 의미합니다.

이런 개념은 대수의 법칙에 의해 표본확률변수가 모수의 특성에 근접해지기 때문에 가능한 것입니다.

따라서 정리하면 평균과 분산을 모르는 모집단에서 n개의 표본을 임의추출한 경우, 표본의 크기가 충분히 큰 상황에서는 모집단의 분포에 관계없이 표본평균이 근사적으로 정규분포(평균, 분산/n)을 따른다 할 수 있습니다.

728x90

Cross correlation (비교상관계수) python (1)	2022.04.05
통계적 추론과 바람직한 추정량 python (0)	2022.03.25
오차, 잔차, 편차의 차이 (기초통계) python (0)	2022.03.19
confusion matrix (혼동행렬) python (0)	2022.03.17
Distribution (분포도) python (0)	2022.02.10

DataAnalyst