Project/부실가계 분류모델 5

부실가계 탐지 모형 - 결론

최종적인 성능지표는 다음과 같다. 흰색 칸에 있는 값들이 오버 샘플링 이전 하늘색 칸에 있는 값들이 오버샘플링 이후의 값들이다. 오버샘플링 이후에 정확도와 정밀도는 전체적으로 하락했으나 재현율은 크게 상승하였고 AUC도 상승하였다. 특히 로지스틱 회귀의 경우 오버 샘플링 이후 정확도는 다른 알고리즘들과 비슷한 수준이지만 다른지표들은 확실히 높았다. -의사결정나무 의사결정나무에서는 담보대출기관이 은행인지, 비은행금융기관인지의 여부가 2019년 2020년 공통적으로 가장 중요한 특징으로 나타났다. 반면 담보대출용도_거주주택 구입, 가구주 종사상 지위, 수도권 여부가 2019년에 비해 2020년에 더 중요해진 피처이다. -LightGBM LightGBM에서는 담보대출용도_거주주택 마련, 담보대출기관_은행여부의..

부실가계 분류모델 - 모델링 및 성능평가(균형 데이터 상황)

2021.05.25 - [Project/부실가계 분류모델 연구] - 부실가계 분류모델 - 의사결정나무, LightGBM(불균형 데이터 상황) 부실가계 분류모델 - 의사결정나무, LightGBM(불균형 데이터 상황) 2021.05.21 - [Project/부실가계 분류모델 연구] - 부실가계 탐지 모형 데이터 전처리- 범주형데이터 encoding 부실가계 탐지 모형 데이터 전처리- 범주형데이터 encoding 2021.04.26 - [Project/가계 부채 분석].. patrickstar-jjh.tistory.com 이번에는 트리기반 알고리즘인 의사결정나무와 LightGBM, 로지스틱 회귀 그리고 인공신경망 모형을 만들고 성능을 평가해볼 것이다. from imblearn.over_sampling impo..

부실가계 분류모델 - 모델링 및 성능평가(불균형 데이터 상황)

2021.05.21 - [Project/부실가계 분류모델 연구] - 부실가계 탐지 모형 데이터 전처리- 범주형데이터 encoding 부실가계 탐지 모형 데이터 전처리- 범주형데이터 encoding 2021.04.26 - [Project/가계 부채 분석] - 부실가계 탐지 모형 데이터 전처리- 파생변수 추가(DSR, DTA, HDRI, 부실가계) 부실가계 탐지 모형 데이터 전처리- 파생변수 추가(DSR, DTA, HDRI, 부실가계) 가계금융 patrickstar-jjh.tistory.com import pandas as pd import numpy as np import warnings warnings.filterwarnings("ignore") df = pd.read_csv('../data/2020가계..

부실가계 분류모델 - 데이터 전처리(데이터 encoding)

2021.04.26 - [Project/가계 부채 분석] - 부실가계 탐지 모형 데이터 전처리- 파생변수 추가(DSR, DTA, HDRI, 부실가계) 부실가계 탐지 모형 데이터 전처리- 파생변수 추가(DSR, DTA, HDRI, 부실가계) 가계금융복지조사 데이터? 2020 년도 가계금융복지조사 데이터는 통계청(가계자산조사), 금융감독원(가계신용조사), 한국은행(가구패널조사)에서 만든 가계 금융과 관련된 종합적인 데이터다. patrickstar-jjh.tistory.com 이전에 했던 데이터 전처리에 이어서 이번에는 학습하고자 하는 변수 추출 및 범주형 데이터들을 인코딩하고자 한다. # 데이터 reload data = pd.read_csv('./data/2020가계부채/label_2020.csv', eng..

부실가계 분류모델 - 데이터 전처리(파생변수 생성)

가계금융복지조사 데이터? 2020 년도 가계금융복지조사 데이터는 통계청(가계자산조사), 금융감독원(가계신용조사), 한국은행(가구패널조사)에서 만든 가계 금융과 관련된 종합적인 데이터다. 조사기간은 해당년도의 3 월 말~4 월 중으로 조사 주기는 1 년이다. 전국을 대상으로 약 20,000 가구를 시도별 자산비중을 고려하여 지역별 표본규모를 확정했으며 조사 항목은 가구 구성, 자산 및 금융자산 운용계획, 부채 및 부채상환능력, 소득 및 지출 등이 있다. 2020 년 가계금융복지조사 데이터에는 150 이상의 열(특징)을 가지고 개별 가구인 행(개별 가구)은 18065 개를 가진다. import pandas as pd import warnings warnings.filterwarnings("ignore") d..