ML

    프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 4 : feature selection

    이전까지 우리는 데이터에 대해서 살펴보았고, 손실된 값을 채워주었으며 모델을 정의하고 fitting했다. 예측 정확도는 어느정도 유의미한 수치를 보여주었으나 어떻게 하면 그 정확도를 올릴 수 있을지 한번 살펴보자. 우선 올바르게 feature를 선택하는 방식에 대해서 알아보자 machinelearningmastery.com/feature-selection-with-real-and-categorical-data/ How to Choose a Feature Selection Method For Machine Learning Feature selection is the process of reducing the number of input variables when developing a predictive ..

    프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 3 : 모델 정의하기

    1. 트레이닝 데이터 / 테스트 데이터 셔플 및 분배1. 트레이닝 데이터 / 테스트 데이터 셔플 및 분배 골고루 잘 분배가 되었음을 y_train과 y_test의 비율과 원본 데이터의 y비율을 통해 알 수 있다 2. 모델 정의 및 평가 함수 정의 Classification problem을 해결하기 위한 대표적인 4개의 알고리즘을 가져와보았다. 그리고 training된 데이터들에 대하여 오류값을 계산하기 위한 함수들도 정의했다. 앞서 정의한 모델을 바탕으로 데이터를 fitting하는 함수를 만들었다. 위의 함수의 경우, train된 모델을 테스트하기 위해 train데이터를 이용하는 것이고 아래의 경우 train된 모델을 테스트하기 위해 training에 관여되지 않은 cross validate 데이터를 가..

    프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 2 : Null 데이터 채우기

    1. 데이터 나누기 데이터의 형태는 두가지로 나눌 수 있다. 1. 번호형 데이터 2. 카테고리형 데이터 왜냐하면 형태에 따라 데이터를 채우는 방식이 다르기 때문이다. 번호형 데이터 같은 경우, 평균으로 값을 채울수도 있을 것이고 카테고리형 데이터의 경우 비율이 가장 높은 데이터로 채울 수 있을것이다. 채우는 방식은 다양하겠지만 결국 두가지 형태로 데이터를 나눠야 함을 알 수 있다. 하나의 데이터가 카테고리형 데이터와 번호형 데이터로 나뉘어진것을 확인할 수 있다. 2. 데이터 채우기 이번 프로젝트에서는 카테고리형 데이터의 경우 가장 빈도수가 높은 것으로 빈 공간을 체울것이고, 번호형 데이터의 경우 이전의 값으로 값을 채울것이다. 결과적으로 두가지 데이터엔 null값이 없이 모두 채워짐을 확인할 수 없다. ..

    프로젝트 1 : 대출 가능 여부 예측 문제 / 스텝 1 : 데이터 오버뷰

    1. 우선 머신러닝 및 데이터 분석을 위한 라이브러리를 import할 것이다. 2.pandas를 이용하여 csv 데이터를 읽어온다. 3. 읽어온 데이터를 확인해보니 각 콜럼의 데이터의 갯수가 다른 것을 확인할 수 있다. (NULL인 데이터 때문에) 4. 데이터를 학습하기전에 데이터의 형식을 재정의 할것이다. Credit_History를 float에서 0 혹은 1인 boolean형태로 바꿔준다. 또한, 학습에 의미가 없는 Loan_ID 컬럼을 삭제해주고, 데이터의 중복성을 확인한다. false(중복데이터 없음)을 확인할 수 있다. 5. 우리가 학습시키고자 하는 feature인 Loan_Status를 확인해보자. Y의 비율과 N의 비율을 확인할 수 있다. 6. 다른 feature과 예측하고자 하는 Loan_..

    첫번째 머신러닝 프로젝트 "대출 가능 여부 예측 문제"

    개요 지금까지 머신러닝의 이론에 대해서 배웠는데 사실 이론적인 부분에 너무 치우쳐져 있었고, 실험코드를 써보는 것에 지나지 않았다. 그래서 우선 하나 쉬운 프로젝트를 잡고 분석해보면서 공부해보고자 했다. 그 주제는 "대출 가능 여부 예측 문제"이다 www.kaggle.com/altruistdelhite04/loan-prediction-problem-dataset Loan Prediction Problem Dataset www.kaggle.com 이 주제를 고르게 된 이유는 Kaggle에 Competition이 시행되었고, 그 과정에서 많은 분석 및 실험이 존재했기 때문이다. 대출 가능 여부를 예측하는 문제이므로 binary classification problem으로 보고 그에 맞는 알고리즘을 적용할 것..