Lending Club 대출 상환 예측 모델

프로젝트 개요

Lending Club 대출 데이터를 활용하여 사회 초년생의 대출 상환 여부를 예측하는 머신러닝 모델을 구축했습니다.

사회 초년생 집단을 기준으로 데이터를 필터링하고 전처리 및 피처 엔지니어링을 수행한 뒤

Logistic Regression과 Random Forest 모델을 학습하여 대출 상환 예측 성능을 비교 분석했습니다.

Data Analysis

Machine Learning

Data Processing

원본 Lending Club 데이터에는 다양한 loan_status 값이 포함되어 있어

대출 상환 여부를 명확히 예측하기 위한 학습 데이터 구성에 어려움이 있었습니다.

이를 해결하기 위해 Fully Paid와 Charged Off 상태만 선택하여

대출 상환 여부를 이진 분류 문제로 재정의했습니다.

이를 통해 모델 학습에 적합한 데이터셋을 구성할 수 있었습니다.

일부 변수는 결측치 비율이 높아 그대로 사용할 경우

데이터 신뢰성과 모델 성능에 부정적인 영향을 줄 수 있었습니다.

결측치 비율이 30% 이상인 컬럼을 제거하여

데이터 품질을 개선하고 분석 효율성을 높였습니다.

수치형 변수 간 높은 상관관계가 존재할 경우

모델 계수의 불안정성과 해석 어려움이 발생할 수 있었습니다.

이를 해결하기 위해 VIF(Variance Inflation Factor)를 계산하여 다중공선성을 검토하고

상관관계가 높은 변수는 제거하거나 통합했습니다.

예를 들어 fico_range_low와 fico_range_high를 평균값으로 통합하여

fico_score 변수로 재구성했습니다.

모델 평가 과정에서 일부 지표가 0.99 수준으로 높게 나타나 과적합 가능성을 확인했습니다.

이를 해결하기 위해

대규모 금융 데이터를 분석하면서

모델 학습 이전의 데이터 전처리 과정이 모델 성능에 큰 영향을 준다는 점을 경험했습니다.

특히 사회 초년생이라는 특정 집단을 정의하고 분석 데이터를 구성하는 과정에서

도메인에 맞는 데이터 필터링과 변수 설계의 중요성을 확인할 수 있었습니다.