ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • TIL - 06.20
    TIL 2024. 6. 21. 10:43

    데이터 처리를위한 Encoding 과정에서 확인 할 점.

     

    1. 무엇이 원본인가, 전체를 대상으로 처리하는가?

     

    -> 일부만을 포함하고 있다면 각각에 대해 적용 시 문제가 생길 수 도 있다.

    ex) Label은 각각의 요소에 대해서 번호 부여 : 일부 누락 시 생략될 수 있음

          OneHot, Robust 집단의 평균과 편차에 관련된 연산 : 숫자가 바뀜.

      

    1) 각 scaler 학습 값 저장을 위해 개별 변수로 지정

    oe1, oe2.., le1,le2 ...

     

    2) 이후 원본 데이터에 대해 학습한 encoder를 분할 column에 적용

    문제 : label : 숫자나열은 가능하나  OHE : 이진분류는 불가하다

      column내 변수 unique값이 동일한 갯수가 존재함을 확인했으나 불가했다.

      이유 :

    ValueError: The feature names should match those that were passed during fit. Feature names seen at fit time, yet now missing:

    학습한 column의 명칭과 call 한 column의 명칭이 달라 진행이 안된다.

     

    해결방안 : 딴거써

     

     

    'TIL' 카테고리의 다른 글

    TIL - 10.18 자소서 넋투리  (1) 2024.10.18
    TIL - 08.22  (0) 2024.08.22
    TIL - 06.19  (0) 2024.06.19
    TIL - 06.17  (0) 2024.06.17
    TIL - 06.14  (0) 2024.06.17
Designed by Tistory.