개요
지금까지 머신러닝의 이론에 대해서 배웠는데 사실 이론적인 부분에 너무 치우쳐져 있었고, 실험코드를 써보는 것에 지나지 않았다. 그래서 우선 하나 쉬운 프로젝트를 잡고 분석해보면서 공부해보고자 했다.
그 주제는 "대출 가능 여부 예측 문제"이다
www.kaggle.com/altruistdelhite04/loan-prediction-problem-dataset
이 주제를 고르게 된 이유는 Kaggle에 Competition이 시행되었고, 그 과정에서 많은 분석 및 실험이 존재했기 때문이다.
대출 가능 여부를 예측하는 문제이므로 binary classification problem으로 보고 그에 맞는 알고리즘을 적용할 것이다.
데이터에 대한 분석을 해보자면 614개의 레코드(rows)에 Gender, Married, Dependents 등의 features이 있을 것이고, 우리는 그 중 Loan_Status를 예측할것이다.
배울 것
이 과정을 지내면서 배울것은 다음과 같다
1. data 가시화
2. features간의 중요도 비교 및 선택
3. data처리
4. missing data처리
5. 카테고리형 데이터와 번호 데이터를 처리하는 방법
6. outliers데이터 감지
7. 매 step마다 모델을 평가하는 것
사용할 스킬
이를 위해서는 다음과 같은 스킬을 사용해야 할 것이다.
1. sklearn, matplotlib, numpy, pandas, seaborn, scipy 등의 머신러닝 라이브러리
2. 숫자형 컬럼의 값을 채우기 위한 backward 'bfill' method, 카테고리형 값을 채우기 위한 most frequent value
3. 4개의 서로 다른 트레이닝 모델
1. logistic regression
2. KNeighbors Classifier
3. SVC
4. DecisionTreeClassifier
프로젝트 진행 스텝
몇일 동안 다음과 같은 스텝으로 이 프로젝트를 실행했다.
1. 데이터의 오버뷰
2. 손실 데이터 채우기
3. 데이터 분석
4. 모델 정의
5. [데이터 분석 -> 데이터 변형] x n
6. 결론
'ML' 카테고리의 다른 글
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 5 : 데이터 처리 (0) | 2021.03.24 |
---|---|
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 4 : feature selection (0) | 2021.03.24 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 3 : 모델 정의하기 (0) | 2021.03.21 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 2 : Null 데이터 채우기 (0) | 2021.03.21 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 1 : 데이터 오버뷰 (0) | 2021.03.21 |