1. 우선 머신러닝 및 데이터 분석을 위한 라이브러리를 import할 것이다.
2.pandas를 이용하여 csv 데이터를 읽어온다.
3. 읽어온 데이터를 확인해보니 각 콜럼의 데이터의 갯수가 다른 것을 확인할 수 있다. (NULL인 데이터 때문에)
4. 데이터를 학습하기전에 데이터의 형식을 재정의 할것이다.
Credit_History를 float에서 0 혹은 1인 boolean형태로 바꿔준다.
또한, 학습에 의미가 없는 Loan_ID 컬럼을 삭제해주고, 데이터의 중복성을 확인한다.
false(중복데이터 없음)을 확인할 수 있다.
5. 우리가 학습시키고자 하는 feature인 Loan_Status를 확인해보자.
Y의 비율과 N의 비율을 확인할 수 있다.
6. 다른 feature과 예측하고자 하는 Loan_Status의 분포를 확인해보자
7. 데이터를 Loan_Status에 대해서 그룹핑하고 컬럼별로 분석해보자
Loan_Status에 대해 데이터를 2분화 하고 중간값을 출력해본다.
또한 Null의 갯수를 콜럼별로 확인해볼 수 있다.
빈 데이터를 어떠한 값으로 채워야 올바른 데이터 학습을을 할 수 있을것이다.
이에 대한 것은 다음포스터에!
'ML' 카테고리의 다른 글
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 5 : 데이터 처리 (0) | 2021.03.24 |
---|---|
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 4 : feature selection (0) | 2021.03.24 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 3 : 모델 정의하기 (0) | 2021.03.21 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 2 : Null 데이터 채우기 (0) | 2021.03.21 |
첫번째 머신러닝 프로젝트 "대출 가능 여부 예측 문제" (0) | 2021.03.21 |