728x90 분류 전체보기60 Chi-square-test (카이제곱검정) 카이제곱 분포 χ2 분포는 k개의 서로 독립적인 표준정규 확률변수를 각각 제곱한 다음 합해서 얻어지는 분포이다. 이 때 k를 자유도라고 하며, 카이제곱 분포의 매개변수가 된다. 카이제곱 분포는 신뢰구간이나 가설검정 등의 모델에서 자주 등장한다. 카이제곱 분포의 형태 카이제곱 검정은 위의 카이제곱 분포에 기반한 통계적 기법이다. 1. 어떤 경우에 사용하는가? 보통 관찰된 빈도와 기대되는 빈도가 유의미하게 다른지 검정하는 방법으로 자료형태는 빈도 or 명목척도의 형태로 주어질 때 사용한다. 2. 어떤 것을 검정하는가? 적합도 검정 (goodness of fit test) 관찰된 빈도가 기댓값과 같은가? (즉, 표본이 모집단을 유의하게 대표하는가) 동질성 검정 (homogeniety test) 두 집단의 분포.. 2021. 11. 18. T-test (T 검정) t 검정의 적용은 언제 하는 것일까? https://ko.wikipedia.org/wiki/T-테스트 t-테스트 - 위키백과, 우리 모두의 백과사전 t-테스트(t-test) 또는 t-검정 또는 스튜던트 t-테스트(Student's t-test)는 검정통계량이 귀무가설 하에서 t-분포를 따르는 통계적 가설 검정법이다. t-테스트는 일반적으로 검정통계량이 정규 분포를 ko.wikipedia.org t-테스트는 일반적으로 검정통계량이 정규 분포를 따르며 분포와 관련된 스케일링 변숫값들이 알려진 경우에 사용한다. 이 때 모집단의 분산과 같은 스케일링 항을 알 수 없으나 데이터를 기반으로 한 추정값으로 대체하면 검정통계량은 t-분포를 따른다. 예를 들어 t-테스트를 사용하여 두 데이터 세트(집단)의 평균이 서로 .. 2021. 11. 17. 로짓모형, 프로빗모형의 추정 (+최우법) 2021.11.16 - [공부/모델링] - 로짓분석 앞서 다룬 로짓모형 https://signature95.tistory.com/10?category=986931 에 이어서 작성하는 포스트입니다. 로짓분석 로짓 분석을 설명하기 앞서 선형확률모형에 대한 언급을 하도록한다. (로짓 분석을 왜 이용하는지에 대한 배경이 되기 때문이다.) 선형확률모형 (LPM) feature(설명변수)의 값이 주어졌을 때, label( signature95.tistory.com 로짓 모형의 추정은 개별수준 (특정인이 흡연할 확률) & 그룹수준 (특정 그룹이 흡연할 확률) 등으로 구분지을 수 있다. 일반적인 OLS와 다르게 일반적인 모델의 추정 방식을 사용할 수 없다. 이 식을 한번 보자 이때, p=1 or 0인 경우, L은 다음.. 2021. 11. 17. 로짓분석 로짓 분석을 설명하기 앞서 선형확률모형에 대한 언급을 하도록한다. (로짓 분석을 왜 이용하는지에 대한 배경이 되기 때문이다.) 선형확률모형 (LPM) feature(설명변수)의 값이 주어졌을 때, label(종속변수)의 조건부 기댓값을 도출할 수 있음. 예를들면, smoker를 0,1으로 분류하는 label이 있다고 가정하자. 여기에는 Age, Education, income, Price라는 feature가 있다. 식은 다음과 같이 구성된다. 이를 간단하게 표현하면 다음과 같다. B1은 y의 절편이다. B2는 age가 변화할때 Y가 변화하는 정도이다. 마찬가지로 B5까지 동일하게 해석할 수 있으나, P는 담배가격으로 개별인원을 의미하는 i와 무관하게 적용된다. u는 잔차로 해석할 수 있다. 각 featu.. 2021. 11. 16. 논문리뷰 (재무비율을 이용한 부도예측에 대한 연구) 논문 리뷰 1. 재무비율을 이용한 부도예측에 대한 연구 : 한국의 외부감사대상기업을 대상으로 - 박종원,안성만(2014), 경영학연구,43(3),639-669 논문 소개에 앞서, 프로젝트를 수행하기전 방향성을 잡기위하여 논문을 리뷰하게 되었습니다. 따라서 해당 논문을 리뷰하며 여러 통계 분석 방법과 데이터 전처리, feature 선정 인사이트를 얻는 것이 목적입니다. 사용한 feature (재무비율) 부도 예측을 하기 위해 사용한 feature는 117개로 한국은행의 기업경영분석에 따른 재무비율입니다. 모델의 변별력 검정 AUROC, AR, K-S 통계량을 사용하였습니다. 데이터 구성 결산연도기준 2003년 ~ 2006년의 외부감사대상기업 데이터를 활용하였습니다. 부도의 정의 국내에서 사용하는 정의는 신.. 2021. 11. 16. 프로젝트 (부실기업 예측) UBION_Project 금융빅데이터 분석을 위해서는 기술적으로 단순히 접근하는 것이 아니라 기획자로서 노력해야 한다. 기술적인 부분도 물론 중요하지만, 데이터 사이언티스트의 역량을 잘 발휘하려면 목적성에 맞는 분석을 해야한다. 따라서 내가 원하는 정보를 얻기 위해서 도메인 지식을 활용하고 방향성을 명확히 잡아서 접근해야 한다. 또한, 통계지식을 활용한 결과치 해석을 절대로 놓치면 안된다. 기업 부실 분류 부실기업에 대한 논의도 필요함. (어떤 것을 부도로 설정할 것인지) 상장폐지, 채무 불이행, 오너리스크, 분식회계 등 다양한 요소가 존재하는데 부실에 대한 정의를 정확히 하고 넘어가야 함. 지금까지 결측치 전처리를 시행했으나, 이젠 정의와 방향성에 맞는 전처리를 시작해야 한다. 참고로 자산가치보다 부채.. 2021. 11. 16. 이전 1 ··· 6 7 8 9 10 다음 728x90