이전까지 우리는 데이터에 대해서 살펴보았고, 손실된 값을 채워주었으며 모델을 정의하고 fitting했다. 예측 정확도는 어느정도 유의미한 수치를 보여주었으나 어떻게 하면 그 정확도를 올릴 수 있을지 한번 살펴보자.
우선 올바르게 feature를 선택하는 방식에 대해서 알아보자
machinelearningmastery.com/feature-selection-with-real-and-categorical-data/
나는 이 포스팅을 참조하면 feature를 어떻게 처리할 지에 대해서 공부하였다.
feature을 처리하는 방식들의 공통된 키는 feature의 갯수, 차원을 줄이는 것이다. 이렇게 하는 이유는 cost를 낮추기 위함도 있을 것이고, 의미없는 feature가 추가되면서 모델을 혼동시키지 않으려는 의도도 있을 것이다.
feature의 차수를 줄이는 방식에 따라서 크게 두가지로 나뉜다
1. feature를 선택 / 제거 해가면서 모델을 발전시킨다.
2. feature들의 projection(투영)을 통해 feature의 갯수를 줄인다.
여기서 1번은 target feature을 사용할지 하지 않을지에 따라서 또 supervised selection과 unsupervised selection으로 나뉘고 나뉜 selection method들은 또 각자의 선택방식을 기준으로 방식이 나뉜다.
아래를 참고하면 한눈에 볼 수 있을것이다.
또한 method를 선택하는데에서 끝나는게 아니다. method를 선택하더라도 여러 요인에 따라서 사용할 알고리즘들이 달라진다, Filter Methods를 예를 들어 살펴보자.
위의 그림을 살펴보면 우리는 feature의 데이터 타입에 따라서도 사용할 알고리즘이 달라짐을 볼 수 있다.
게다가 Categorical data를 numerical data로 변환시켜서 다른 알고리즘을 사용할 수 있고, 알고리즘 사용에 대한 제한은 거진 없다싶이 한것 같다. 그렇다면 어떤 알고리즘이 정답일까?
정답은 없다. 다양한 방식으로 데이터를 변형, 선택해보고 다양한 알고리즘을 사용함으로써 얻는 예측 확률을 비교하며 내가 예측하고자 하는 데이터셋에 맞는 방식을 선택해야 하는것이다. 두 데이터 셋이 같은 형식의 데이터이고 같은 방식의 feature selection method를 사용하더라도 전혀 다른 결과를 도출할 수 있다는 말이다.
그럼 다시 우리 프로젝트로 돌아가서 어떤 방식으로 feature의 차수를 낮출것인가?에 대해서 고민해보자.
우선 우리는 feature의 correlation을 확인하여 feature들의 projection을 만듦으로써 feature의 차원을 낮출 것이다. (즉, Dimentionality reduction)
우선 feature간의 상관관계를 한번 살펴보자.
상관관계를 보는 방식에 대해서 알아보자면, 0에 가까울 수록 두 feature의 상관관계가 없음을 의미하고 1에 가까울 수록 양의 상관관계가 큼을 의미하며 -1에 가까울 수록 음의 상관관계가 큼을 의미한다.
그리고 우리가 진행하는 방향은 상관관계가 큰 feature는 ApplicantIncome과 LoanAmout이고, 이 두 feature의 상관관계낮추기 위해 우리는 새로운 feature을 다음과 같이 정의할 것이다.
이렇게 정의된 feature을 포함해서 correlation을 확인해보자.
새로 만든 두 feature의 correlation이 0에 가까운 것을 확인할 수 있고, 알맞게 feature가 설정되었음을 확인할 수 있다.
이제 새로운 feature을 만들기 위해 사용되었던 feature을 삭제해주면 상관관계가 높은 feature들은 삭제된다.
'ML' 카테고리의 다른 글
DQN 2013 vs DQN 2015 방식 (0) | 2021.03.31 |
---|---|
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 5 : 데이터 처리 (0) | 2021.03.24 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 3 : 모델 정의하기 (0) | 2021.03.21 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 2 : Null 데이터 채우기 (0) | 2021.03.21 |
프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 1 : 데이터 오버뷰 (0) | 2021.03.21 |