1. 트레이닝 데이터 / 테스트 데이터 셔플 및 분배1. 트레이닝 데이터 / 테스트 데이터 셔플 및 분배
골고루 잘 분배가 되었음을 y_train과 y_test의 비율과 원본 데이터의 y비율을 통해 알 수 있다
2. 모델 정의 및 평가 함수 정의
Classification problem을 해결하기 위한 대표적인 4개의 알고리즘을 가져와보았다.
그리고 training된 데이터들에 대하여 오류값을 계산하기 위한 함수들도 정의했다.
앞서 정의한 모델을 바탕으로 데이터를 fitting하는 함수를 만들었다. 위의 함수의 경우, train된 모델을 테스트하기 위해 train데이터를 이용하는 것이고 아래의 경우 train된 모델을 테스트하기 위해 training에 관여되지 않은 cross validate 데이터를 가져와서 평가하는 것이다.
'ML' 카테고리의 다른 글
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 5 : 데이터 처리 (0) | 2021.03.24 |
---|---|
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 4 : feature selection (0) | 2021.03.24 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 2 : Null 데이터 채우기 (0) | 2021.03.21 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 1 : 데이터 오버뷰 (0) | 2021.03.21 |
첫번째 머신러닝 프로젝트 "대출 가능 여부 예측 문제" (0) | 2021.03.21 |