1. 데이터 나누기
데이터의 형태는 두가지로 나눌 수 있다.
1. 번호형 데이터
2. 카테고리형 데이터
왜냐하면 형태에 따라 데이터를 채우는 방식이 다르기 때문이다.
번호형 데이터 같은 경우, 평균으로 값을 채울수도 있을 것이고 카테고리형 데이터의 경우 비율이 가장 높은 데이터로 채울 수 있을것이다.
채우는 방식은 다양하겠지만 결국 두가지 형태로 데이터를 나눠야 함을 알 수 있다.
하나의 데이터가 카테고리형 데이터와 번호형 데이터로 나뉘어진것을 확인할 수 있다.
2. 데이터 채우기
이번 프로젝트에서는 카테고리형 데이터의 경우 가장 빈도수가 높은 것으로 빈 공간을 체울것이고, 번호형 데이터의 경우 이전의 값으로 값을 채울것이다.
결과적으로 두가지 데이터엔 null값이 없이 모두 채워짐을 확인할 수 없다.
3. 데이터를 번호형으로 바꾸기
Loan_Status를 따로 때어내고 Y, N을 0과 1로 매핑하여 값을 바꾸었다
또한 다른 모든 카테고리형 데이터를 레이블을 통해 값의 형태를 바꿀것이다.
Loan_Status와 다른 카테고리형 데이터가 모두 숫자형태로 바뀜을 볼 수 있다.
지금까지 Null을 채우고 데이터의 형태를 번호형 데이터로 바꾼것을 하나로 붙였다.
'ML' 카테고리의 다른 글
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 5 : 데이터 처리 (0) | 2021.03.24 |
---|---|
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 4 : feature selection (0) | 2021.03.24 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 3 : 모델 정의하기 (0) | 2021.03.21 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 1 : 데이터 오버뷰 (0) | 2021.03.21 |
첫번째 머신러닝 프로젝트 "대출 가능 여부 예측 문제" (0) | 2021.03.21 |