Project/부실가계 분류모델

부실가계 분류모델 - 데이터 전처리(파생변수 생성)

patrck_jjh 2021. 6. 3. 16:21

가계금융복지조사 데이터?

 

 2020 년도 가계금융복지조사 데이터는 통계청(가계자산조사), 금융감독원(가계신용조사), 한국은행(가구패널조사)에서 만든 가계 금융과 관련된 종합적인 데이터다. 조사기간은 해당년도의 3 월 말~4 월 중으로 조사 주기는 1 년이다. 전국을 대상으로 약 20,000 가구를 시도별 자산비중을 고려하여 지역별 표본규모를 확정했으며 조사 항목은 가구 구성, 자산 및 금융자산 운용계획, 부채 및 부채상환능력, 소득 및 지출 등이 있다. 2020 년 가계금융복지조사 데이터에는 150 이상의 열(특징)을 가지고 개별 가구인 행(개별 가구)은 18065 개를 가진다. 

 


 

import pandas as pd
import warnings
warnings.filterwarnings("ignore")

data = pd.read_csv('./data/2020가계부채/가계부채_2020_rev.csv', engine='python', encoding='cp949')
data

 

 

154개의 column과 18064개의 row(개별가구)를 가진다

 

 

 

 

# DTA(총부채상환비율) 구하기
data['DTA'] = data["금융부채"]/data["금융자산"]

# DSR(총부채원리금상환비율) 구하기
data['DSR'] = data['원리금상환액']/data['처분가능소득(보완)[경상소득(보완)-비소비지출(보완)]']

# HDRI 계산
data['HDRI'] = ((1+data['DSR']-0.4)+(1+data['DTA']-1))*100

DTA, DSR를 계산하고 두 값을 통해 HDRI를 계산하여 파생 변수로 저장해주었다.

 

  • DSR = 원리금상환액/가처분소득
  • DTA = 금융부채/금융자산
  • HDRI = [(1+(DSR-0.4))+(1+(DTA-1))]*100

 

 

 

data2=data[(data['HDRI']>100) &  (data['DSR']>0.4) & (data['DTA']>1.0) ]
data2['부실가계']='1'
data2

# 부실가계로 판정된 가계는 총 1395가구

DSR이 40%이상이고 DTA가 100%이상인 가계(= HDRI>100)를 부실가계로 정의해주었다.(data2에 저장) 그 결과 18064가계 중 1395가계가 부실가계로 판단됬다.

 

 

 

# 부실가계와 아닌가구 merge
data3 = pd.merge(data, data2, how='outer')

# NaN 0으로 채우기
data3['부실가계']=data3['부실가계'].fillna(0)
data3

부실한 가계 데이터를 담고있는 data2를 기존 data와 merge하고 Nan값을 0으로 변경시킴으로써 data3에 종속변수인 "부실가계"를 담고있는 데이터를 저장했다.

 

 

data3.to_csv("../data/2020가계부채/label_2020.csv", mode="w",encoding='euc-kr')

# 파생변수 지정 데이터 1차 저장

1차적으로 csv파일로 저장해주었다.

 

 

 

 

<Git>

https://github.com/dudungE/house_debt_classification_model/blob/master/%EB%B6%80%EC%8B%A4%EA%B0%80%EA%B3%842020_%EC%A0%84%EC%B2%98%EB%A6%AC%2CEDA.ipynb