ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • TIL - 06.11
    TIL 2024. 6. 11. 21:19

    데이터의 분리 이유

    학습 / 평가 데이터 분리

     

    판단을 위해 / 과적합 방지를 위해

     

    조건사항 : 동일한 데이터(전처리 및 변경 이전) 를 나눌 것

    충분한 데이터 량 등..

     

     

    문제 발생 예시 : 과대`소 적합

     

    sklearn.model_selection_train_test_split

     random_state 랜덤 추출(실행 마다 변경 됨) / .stratify - 비율 보존 

     


    의사결정나무이론

    Node point 지정 간 조건 하 분할

    불순도가 낮아지는 방향으로 진행

    -> 과적합하게 적용 될 수 있음


     

    해결방안

    Random Foreset

     

    Bagging

    머신러닝의 문제점 : 학습할 데이터가 부족하다

    Bootstrapping + Aggregating 방법론

    Bootstrapping : 데이터를 복원, 추출해서 유사하지만 다른 데이터 집단을 생성하는 것

    Aggregating : 데이터의 예측, 분류 결과를 합치는 것

    Ensemble(앙상블) : 여러 개의 모델을 만들어 결과를 합치는 것

    'TIL' 카테고리의 다른 글

    TIL - 06.14  (0) 2024.06.17
    TIL - 06.12  (0) 2024.06.12
    TIL - 06.10  (0) 2024.06.10
    TIL - 05.28  (0) 2024.05.28
    TIL - 05.27  (0) 2024.05.27
Designed by Tistory.