-
TIL - 06.11TIL 2024. 6. 11. 21:19
데이터의 분리 이유
학습 / 평가 데이터 분리
판단을 위해 / 과적합 방지를 위해
조건사항 : 동일한 데이터(전처리 및 변경 이전) 를 나눌 것
충분한 데이터 량 등..
문제 발생 예시 : 과대`소 적합
sklearn.model_selection_train_test_split
random_state 랜덤 추출(실행 마다 변경 됨) / .stratify - 비율 보존
의사결정나무이론
Node point 지정 간 조건 하 분할
불순도가 낮아지는 방향으로 진행
-> 과적합하게 적용 될 수 있음
해결방안
Random Foreset
Bagging
머신러닝의 문제점 : 학습할 데이터가 부족하다
Bootstrapping + Aggregating 방법론
Bootstrapping : 데이터를 복원, 추출해서 유사하지만 다른 데이터 집단을 생성하는 것
Aggregating : 데이터의 예측, 분류 결과를 합치는 것
Ensemble(앙상블) : 여러 개의 모델을 만들어 결과를 합치는 것
'TIL' 카테고리의 다른 글
TIL - 06.14 (0) 2024.06.17 TIL - 06.12 (0) 2024.06.12 TIL - 06.10 (0) 2024.06.10 TIL - 05.28 (0) 2024.05.28 TIL - 05.27 (0) 2024.05.27