본문 바로가기
728x90

전체 글60

로짓모형, 프로빗모형의 추정 (+최우법) 2021.11.16 - [공부/모델링] - 로짓분석 앞서 다룬 로짓모형 https://signature95.tistory.com/10?category=986931 에 이어서 작성하는 포스트입니다. 로짓분석 로짓 분석을 설명하기 앞서 선형확률모형에 대한 언급을 하도록한다. (로짓 분석을 왜 이용하는지에 대한 배경이 되기 때문이다.) 선형확률모형 (LPM) feature(설명변수)의 값이 주어졌을 때, label( signature95.tistory.com 로짓 모형의 추정은 개별수준 (특정인이 흡연할 확률) & 그룹수준 (특정 그룹이 흡연할 확률) 등으로 구분지을 수 있다. 일반적인 OLS와 다르게 일반적인 모델의 추정 방식을 사용할 수 없다. 이 식을 한번 보자 이때, p=1 or 0인 경우, L은 다음.. 2021. 11. 17.
로짓분석 로짓 분석을 설명하기 앞서 선형확률모형에 대한 언급을 하도록한다. (로짓 분석을 왜 이용하는지에 대한 배경이 되기 때문이다.) 선형확률모형 (LPM) feature(설명변수)의 값이 주어졌을 때, label(종속변수)의 조건부 기댓값을 도출할 수 있음. 예를들면, smoker를 0,1으로 분류하는 label이 있다고 가정하자. 여기에는 Age, Education, income, Price라는 feature가 있다. 식은 다음과 같이 구성된다. 이를 간단하게 표현하면 다음과 같다. B1은 y의 절편이다. B2는 age가 변화할때 Y가 변화하는 정도이다. 마찬가지로 B5까지 동일하게 해석할 수 있으나, P는 담배가격으로 개별인원을 의미하는 i와 무관하게 적용된다. u는 잔차로 해석할 수 있다. 각 featu.. 2021. 11. 16.
논문리뷰 (재무비율을 이용한 부도예측에 대한 연구) 논문 리뷰 1. 재무비율을 이용한 부도예측에 대한 연구 : 한국의 외부감사대상기업을 대상으로 - 박종원,안성만(2014), 경영학연구,43(3),639-669 논문 소개에 앞서, 프로젝트를 수행하기전 방향성을 잡기위하여 논문을 리뷰하게 되었습니다. 따라서 해당 논문을 리뷰하며 여러 통계 분석 방법과 데이터 전처리, feature 선정 인사이트를 얻는 것이 목적입니다. 사용한 feature (재무비율) 부도 예측을 하기 위해 사용한 feature는 117개로 한국은행의 기업경영분석에 따른 재무비율입니다. 모델의 변별력 검정 AUROC, AR, K-S 통계량을 사용하였습니다. 데이터 구성 결산연도기준 2003년 ~ 2006년의 외부감사대상기업 데이터를 활용하였습니다. 부도의 정의 국내에서 사용하는 정의는 신.. 2021. 11. 16.
프로젝트 (부실기업 예측) UBION_Project 금융빅데이터 분석을 위해서는 기술적으로 단순히 접근하는 것이 아니라 기획자로서 노력해야 한다. 기술적인 부분도 물론 중요하지만, 데이터 사이언티스트의 역량을 잘 발휘하려면 목적성에 맞는 분석을 해야한다. 따라서 내가 원하는 정보를 얻기 위해서 도메인 지식을 활용하고 방향성을 명확히 잡아서 접근해야 한다. 또한, 통계지식을 활용한 결과치 해석을 절대로 놓치면 안된다. 기업 부실 분류 부실기업에 대한 논의도 필요함. (어떤 것을 부도로 설정할 것인지) 상장폐지, 채무 불이행, 오너리스크, 분식회계 등 다양한 요소가 존재하는데 부실에 대한 정의를 정확히 하고 넘어가야 함. 지금까지 결측치 전처리를 시행했으나, 이젠 정의와 방향성에 맞는 전처리를 시작해야 한다. 참고로 자산가치보다 부채.. 2021. 11. 16.
가상환경 만들기 (Mac) 가상환경을 설치하기 위해선 먼저 파이썬을 설치해야 합니다. https://www.python.org/downloads/ Download Python The official home of the Python Programming Language www.python.org 를 통해서 파이썬을 설치한 후 진행하시면 됩니다. Mac OS인 특성상 터미널을 이용하여 진행하였습니다. 명령문은 다음과 같습니다. # Super User (관리자 권한으로 가상환경을 위한 라이브러리 생성) sudo pip3 install virtualenv # 가상환경 설치를 위한 경로 이동 및 디렉토리 생성 cd Desktop mkdir html # 가상환경 형성 virtualenv hello_flask # 가상환경 실행 cd hell.. 2021. 11. 15.
mysql 파이썬 활용법 (vscode, jupyer notebook 등을 활용하였음.) 먼저 pymysql 라이브러리를 설치하고 라이브러리를 불러온다. pip install pymysql import pymysql 그리고 나서 sql을 실행하면 된다. sample_db = pymysql.connect( user='root', password='패스워드 입력', host='localhost', database='스키마 이름 입력') # 커서 입력 cursor = sample_db.cursor() # sql 명령문 실행 (태이블 내의 모든 정보를 불러온다.) sql = "select * from 테이블 명 입력" # data 출력 cursor.execute(sql) result1 = cursor.fetchall() sample_d.. 2021. 11. 15.
mysql 다운받기 https://dev.mysql.com/downloads/mysql/ MySQL :: Download MySQL Community Server Select Operating System: Select Operating System… Microsoft Windows Ubuntu Linux Debian Linux SUSE Linux Enterprise Server Red Hat Enterprise Linux / Oracle Linux Fedora Linux - Generic Oracle Solaris macOS Source Code Select OS Version: All Windows (x86 dev.mysql.com mysql은 sql언어로 작동되는 db로 opensource라는 장점이 있다. 물론 파이.. 2021. 11. 14.
모델링 공부 [앙상블(Ensemble)] 앙상블은 조화 또는 통일을 의미합니다. 어떤 데이터의 값을 예측한다고 할 때, 하나의 모델을 활용합니다. 하지만 여러 개의 모델을 조화롭게 학습시켜 그 모델들의 예측 결과들을 이용한다면 더 정확한 예측 값을 구할 수 있을 것이다. 앙상블 학습은 여러 개의 결정 트리(Decision Tree)를 결합하여 하나의 결정 트리보다 더 좋은 성능을 내는 머신러닝 기법이다. 앙상블 학습의 핵심은 여러 개의 약 분류기 (Weak Classifier)를 결합하여 강 분류기(Strong Classifier)를 만드는 것입니다. 그리하여 모델의 정확성이 향상됩니다. 앙상블 학습법에는 세 가지 배깅(Bagging)과 부스팅(Boosting), 스태킹(Stacking)있다. Ref: tistory.. 2021. 11. 14.
VScode 설치 및 확장팩 VScode는 코딩을 위한 플랫폼이라 생각하면 될 것 같다. 나는 사실 anaconda를 처음 접하고 거기서 주피터노트북을 사용했던 경험도 있고 구글 코랩을 이용하기도 했었다. 하지만, 계속 이용하면서 여러 tool을 사용할 수 있는 vscode의 장점을 접하게 되어서 이를 이용하게 되었다. 다운로드를 받게 되면 이런 창이 뜰 것이다. 여기서 extension을 누르고 korean을 입력하게 되면 다음과 같은 화면이 뜬다. 이것을 설치하게 되면 VScode가 한글로 출력되는 것을 확인할 수 있을 것이다. 한글을 사용하는 것은 물론 프로그래밍을 계속하는 입장에서 무조건 좋다고 볼 수는 없지만, (인코딩 오류가 발생할 여지가 있음) 한국어 팩을 설치하여 좀 더 편한 환경을 만들어주는 것이 있기에 좋다고 판단.. 2021. 11. 14.
티스토리 시작에 앞서 데이터 분석에 많이 쓰이는 언어인 파이썬을 활용한 방식을 블로그에 업로드할 생각입니다. 저의 노트북은 Mac.OS를 사용하고 있기에 cmd도 명령프롬포트가 아닌 Terminal을 활용하고 있습니다. 또한 개발 환경은 VS code를 이용하고 있으며 깃허브에 관련 자료를 업로드하고 있습니다. 참고 2021.11.14기준 파이썬 최신 버전은 3.10이지만, 제 노트북에 있는 파이썬은 3.9.4입니다. 2021. 11. 14.
728x90