-
TIL - 06.20TIL 2024. 6. 21. 10:43
데이터 처리를위한 Encoding 과정에서 확인 할 점.
1. 무엇이 원본인가, 전체를 대상으로 처리하는가?
-> 일부만을 포함하고 있다면 각각에 대해 적용 시 문제가 생길 수 도 있다.
ex) Label은 각각의 요소에 대해서 번호 부여 : 일부 누락 시 생략될 수 있음
OneHot, Robust 집단의 평균과 편차에 관련된 연산 : 숫자가 바뀜.
1) 각 scaler 학습 값 저장을 위해 개별 변수로 지정
oe1, oe2.., le1,le2 ...
2) 이후 원본 데이터에 대해 학습한 encoder를 분할 column에 적용
문제 : label : 숫자나열은 가능하나 OHE : 이진분류는 불가하다
column내 변수 unique값이 동일한 갯수가 존재함을 확인했으나 불가했다.
이유 :
ValueError: The feature names should match those that were passed during fit. Feature names seen at fit time, yet now missing:
학습한 column의 명칭과 call 한 column의 명칭이 달라 진행이 안된다.
해결방안 : 딴거써
'TIL' 카테고리의 다른 글
TIL - 10.18 자소서 넋투리 (1) 2024.10.18 TIL - 08.22 (0) 2024.08.22 TIL - 06.19 (0) 2024.06.19 TIL - 06.17 (0) 2024.06.17 TIL - 06.14 (0) 2024.06.17