가계금융복지조사 데이터?
2020 년도 가계금융복지조사 데이터는 통계청(가계자산조사), 금융감독원(가계신용조사), 한국은행(가구패널조사)에서 만든 가계 금융과 관련된 종합적인 데이터다. 조사기간은 해당년도의 3 월 말~4 월 중으로 조사 주기는 1 년이다. 전국을 대상으로 약 20,000 가구를 시도별 자산비중을 고려하여 지역별 표본규모를 확정했으며 조사 항목은 가구 구성, 자산 및 금융자산 운용계획, 부채 및 부채상환능력, 소득 및 지출 등이 있다. 2020 년 가계금융복지조사 데이터에는 150 이상의 열(특징)을 가지고 개별 가구인 행(개별 가구)은 18065 개를 가진다.
import pandas as pd
import warnings
warnings.filterwarnings("ignore")
data = pd.read_csv('./data/2020가계부채/가계부채_2020_rev.csv', engine='python', encoding='cp949')
data
154개의 column과 18064개의 row(개별가구)를 가진다
# DTA(총부채상환비율) 구하기
data['DTA'] = data["금융부채"]/data["금융자산"]
# DSR(총부채원리금상환비율) 구하기
data['DSR'] = data['원리금상환액']/data['처분가능소득(보완)[경상소득(보완)-비소비지출(보완)]']
# HDRI 계산
data['HDRI'] = ((1+data['DSR']-0.4)+(1+data['DTA']-1))*100
DTA, DSR를 계산하고 두 값을 통해 HDRI를 계산하여 파생 변수로 저장해주었다.
- DSR = 원리금상환액/가처분소득
- DTA = 금융부채/금융자산
- HDRI = [(1+(DSR-0.4))+(1+(DTA-1))]*100
data2=data[(data['HDRI']>100) & (data['DSR']>0.4) & (data['DTA']>1.0) ]
data2['부실가계']='1'
data2
# 부실가계로 판정된 가계는 총 1395가구
DSR이 40%이상이고 DTA가 100%이상인 가계(= HDRI>100)를 부실가계로 정의해주었다.(data2에 저장) 그 결과 18064가계 중 1395가계가 부실가계로 판단됬다.
# 부실가계와 아닌가구 merge
data3 = pd.merge(data, data2, how='outer')
# NaN 0으로 채우기
data3['부실가계']=data3['부실가계'].fillna(0)
data3
부실한 가계 데이터를 담고있는 data2를 기존 data와 merge하고 Nan값을 0으로 변경시킴으로써 data3에 종속변수인 "부실가계"를 담고있는 데이터를 저장했다.
data3.to_csv("../data/2020가계부채/label_2020.csv", mode="w",encoding='euc-kr')
# 파생변수 지정 데이터 1차 저장
1차적으로 csv파일로 저장해주었다.
<Git>
'Project > 부실가계 분류모델' 카테고리의 다른 글
부실가계 탐지 모형 - 결론 (0) | 2021.06.03 |
---|---|
부실가계 분류모델 - 모델링 및 성능평가(균형 데이터 상황) (0) | 2021.06.03 |
부실가계 분류모델 - 모델링 및 성능평가(불균형 데이터 상황) (0) | 2021.06.03 |
부실가계 분류모델 - 데이터 전처리(데이터 encoding) (0) | 2021.06.03 |