논문 리뷰
1. 재무비율을 이용한 부도예측에 대한 연구 : 한국의 외부감사대상기업을 대상으로 - 박종원,안성만(2014), 경영학연구,43(3),639-669
논문 소개에 앞서, 프로젝트를 수행하기전 방향성을 잡기위하여 논문을 리뷰하게 되었습니다. 따라서 해당 논문을 리뷰하며 여러 통계 분석 방법과 데이터 전처리, feature 선정 인사이트를 얻는 것이 목적입니다.
사용한 feature (재무비율)
부도 예측을 하기 위해 사용한 feature는 117개로 한국은행의 기업경영분석에 따른 재무비율입니다.
모델의 변별력 검정
AUROC, AR, K-S 통계량을 사용하였습니다.
데이터 구성
결산연도기준 2003년 ~ 2006년의 외부감사대상기업 데이터를 활용하였습니다.
부도의 정의
국내에서 사용하는 정의는 신BIS비율, 은행연합회의 불량정보기준, 금감원의 정의가 있습니다.
- 신 BIS 비율은 기업의 잠재적인 부실 가능성까지 포괄하는 가장 넓은 기준 신BIS 신BIS그림
- 불량정보기준은 국내 대부분의 금융기관에서 사용하며 BIS를 구체화하였지만, 은행의 부도 차주가 대상이므로 데이터의 수집에 어려움이 있음
- 금융결제원에서 제공하는 당좌수표 정지 및 약속어음부도로 당좌거래가 정지된 기업을 부도로 정의함. 당좌거래란?
선행연구
기존의 부도예측 연구는 Beaver(1966)의 단일변량분석과 Altman(1986)의 다변량판별분석으로 크게 2방향으로 진행되고 있음.
주요 이슈
- 어떤 feature가 다양한 지표, 정보를 포괄하고 있는가?
- 어떤 통계적 기법이 모델 구축에 적합한가?
통계적 기법
- 이원분류모형(Beaber)
- 간단하고 쉬운 접근이지만, 복잡하게 얽혀있는 여러 변수를 이용하기 어렵기에 현재는 다변량이 더 범용적으로 사용됨
- 다변량판별분석(Altman)
- 여러 feature(재무비율) 중 특정 재무비율이 부실에 미치는 영향을 정량적으로 표현함
- label(종속변수로 부실여부)이 비정량적인 경우 사용된다.
- 여러 feature를 고려해야 하므로 판별분석, PCA(주성분분석), 다중회귀분석을 사용하나, 보통 부도예측모형에서는 판별분석 및 로짓분석이 많이 사용됨
- 판별분석
- 계량화된 독립적인 feature를 사용하여 집단간 차이를 유의하게 설명할 수 있는 feature를 택하여 선형조합을 통해 판별식을 만들어 데이터를 분류한다.
- 신용평가, 부도예측, 주식평가, 채권 평가 등에 범용적으로 사용되는 방식이다.
- 단점
- 과거 데이터를 기준으로 미래를 예측하기에 큰 구조적인 변화(2008서브프라임모기지 등)을 반영하지 못한다.
- feature를 선택하는 기준이 모호하다.
- 비회계적인 data(오너리스크, 등)를 고려하기 어렵다.
- 분산, 공분산행렬이 일치(Box'sm Test로 검정)해야 하며, 예측치의 정규성이 가정되어야 한다.
- 로짓모형(Ohison)
- 판별분석의 가정(독립변수의 정규성, 집단간 공분산행렬일치)이 위배되어도 선택확률이 로짓함수(시그모이드를 생각하면 된다)를 취하는 가정하에 사용가능함.
- 위 가정을 다시 정리하면 오차랑이 로짓분포를 따라야 하는 가정이 필요하다고 할 수 있다.
- 분석 결과에 도출되는 P(확률)은 0,1사이의 값을 가짐으로서 부실이 나타날 확률을 보여준다.
- 각 feature의 유의성 검정이 가능하여 각 feature와 label의 상관성을 판단할 수 있다.
- 비선형적인 label(부실 or Not)을 판별할 수 있고, 선형회귀분석과 유사하게 사용할 수 있기에 유용하게 사용할 수 있다.
- 그룹형태의 자료가 있는 경우 오차항의 이분산성을 교정해야 하는 필요가 있다.
- 더 자세한 내용은 링크에서
- 프로빗모형(Probit)
- 오차항이 정규분포를 따른다는 가정이 있음.
- 로짓모형의 추정계수와 직접비교가 가능하지만, 분산이 다르기 때문에 이때 전환율(1.81 = pie^2/(3^(1/2)))를 곱해야 한다.
- 신경망모형(Neural Networks)
- 생존분석모형
기존연구와 차별점
- 상장기업을 대상으로 하는 연구와 다르게 외부감사기업 전체를 대상으로하여 data의 충분성을 확보함
- 당좌거래 정지를 부실로 판단하여 분석을 진행함
- 다변량 로지스틱 회기분석 (변수가 많은 로지스틱 분석)을 이용하여 예측모형을 개발함
- 총 117개의 재무비율 중 17개의 중요 feature를 선정하여 변별력이 우수한 모델을 개발함
부도 시점 인식 기준
1. 부도발생(당좌거래 정지) 시점 후 다음 연도에 정상화되면 정상으로 인식 2. 부도발생 시점 이후 데이터 분석 진행 X 3. 부도발생 시점 이후 해당 기업은 부도기업으로 인식 (부도기업의 데이터가 적은 경우에 활용) - 자료를 보면 2003년 2월에 부도를 인식하게 된다면, 2월을 부도시점으로 인식한다. (빠른 날을 채택) - 보통 결산은 12월에 진행하지만 제무제표의 공시는 3월에 하게된다. 하지만, 2월에 부도가 발생하면 2001년의 재무제표를 사용한다. - 실제로도 공시 전 부도가 발생(2003.2)하는 경우, 전년도 공시자료(2002)를 사용할 수 없다. - 또한, 부도의 신호는 전전년도(2001)의 재무제표에도 발생할 수 있다. - 결론적으로 12월 결산을 가정한다면 2003년의 부도 관측기간은 2003년 4월(2001년 자료 공시시점)에서 2004년 3월까지 12개월로 정의한다.
feature 선정
- 117개의 재무비율을 분석하는데, 각 재무비율이 정상기업과 부도기업간의 차이가 존재하는지 검증한다.
- 유의성 검정 방법 : T-test(Prob < 0.05), 단일변량로짓(Chisq < 0.05), AR >= 30%
- stepwise selection method(단계적 선택법)을 활용하여 적정한 feature를 선택하고 모델링을 시행한다.
댓글