본문 바로가기
728x90

통계공부3

Chi-square-test (카이제곱검정) 카이제곱 분포 χ2 분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다. 카이제곱 분포의 형태 카이제곱 검정은 위의 카이제곱 분포에 기반한 통계적 기법이다. 1. 어떤 경우에 사용하는가? 보통 관찰된 빈도와 기대되는 빈도가 유의미하게 다른지 검정하는 방법으로 자료형태는 빈도 or 명목척도의 형태로 주어질 때 사용한다. 2. 어떤 것을 검정하는가? 적합도 검정 (goodness of fit test) 관찰된 빈도가 기댓값과 같은가? (즉, 표본이 모집단을 유의하게 대표하는가) 동질성 검정 (homogeniety test) 두 집단의 분포.. 2021. 11. 18.
T-test (T 검정) t 검정의 적용은 언제 하는 것일까? https://ko.wikipedia.org/wiki/T-테스트 t-테스트 - 위키백과, 우리 모두의 백과사전 t-테스트(t-test) 또는 t-검정 또는 스튜던트 t-테스트(Student's t-test)는 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정법이다. t-테스트는 일반적으로 검정통계량이 정규 분포를 ko.wikipedia.org t-테스트는 일반적으로 검정통계량이 정규 분포를 따르며 분포와 관련된 스케일링 변숫값들이 알려진 경우에 사용한다. 이 때 모집단의 분산과 같은 스케일링 항을 알 수 없으나 데이터를 기반으로 한 추정값으로 대체하면 검정통계량은 t-분포를 따른다. 예를 들어 t-테스트를 사용하여 두 데이터 세트(집단)의 평균이 서로 .. 2021. 11. 17.
로짓분석 로짓 분석을 설명하기 앞서 선형확률모형에 대한 언급을 하도록한다. (로짓 분석을 왜 이용하는지에 대한 배경이 되기 때문이다.) 선형확률모형 (LPM) feature(설명변수)의 값이 주어졌을 때, label(종속변수)의 조건부 기댓값을 도출할 수 있음. 예를들면, smoker를 0,1으로 분류하는 label이 있다고 가정하자. 여기에는 Age, Education, income, Price라는 feature가 있다. 식은 다음과 같이 구성된다. 이를 간단하게 표현하면 다음과 같다. B1은 y의 절편이다. B2는 age가 변화할때 Y가 변화하는 정도이다. 마찬가지로 B5까지 동일하게 해석할 수 있으나, P는 담배가격으로 개별인원을 의미하는 i와 무관하게 적용된다. u는 잔차로 해석할 수 있다. 각 featu.. 2021. 11. 16.
728x90