전체 글
-
TIL - 06.24카테고리 없음 2024. 6. 26. 15:04
발표 내용 정리 하는 방법 중 몇가지 수치에 대한 정의 대상단순 수치 : 결과값 같은 경우는 생략해도 무관하나기준값 : R**2와 같이 사전에 미리 정의한 기준값은 미리 표기해야 적절하다. EX) PCA 0.6 이상, 클러스터별 분배가 50% 이하로 잘 된.. 등 z-score의 범위에 대해 설명할까?=> 할려면 할수록 말해야 할 내용이 많아진다.==>줄이자 PPT를 시각화 하면서 만든다=> 중간의 당연한 내용(OHE 시행함)이 빠질 수 도 있다. 전처리 과정과 정규화 구분하기이진분류 // Scaling
-
TIL - 06.20TIL 2024. 6. 21. 10:43
데이터 처리를위한 Encoding 과정에서 확인 할 점. 1. 무엇이 원본인가, 전체를 대상으로 처리하는가? -> 일부만을 포함하고 있다면 각각에 대해 적용 시 문제가 생길 수 도 있다.ex) Label은 각각의 요소에 대해서 번호 부여 : 일부 누락 시 생략될 수 있음 OneHot, Robust 집단의 평균과 편차에 관련된 연산 : 숫자가 바뀜. 1) 각 scaler 학습 값 저장을 위해 개별 변수로 지정oe1, oe2.., le1,le2 ... 2) 이후 원본 데이터에 대해 학습한 encoder를 분할 column에 적용문제 : label : 숫자나열은 가능하나 OHE : 이진분류는 불가하다 column내 변수 unique값이 동일한 갯수가 존재함을 확인했으나 불가했다. 이유 :Val..
-
-
TIL - 06.18카테고리 없음 2024. 6. 19. 10:46
공부는 역시 벼락치기!시발스케일링 - 이상치 제거 순서 나의 의견 : 제거하고 스케일링 해야함이유 : 스케일링의 방식 : 편차 기준 값의 재정렬 -> 스케일링 먼저 하고 제거하면 이상치가 적용된 상태에서의 정렬 : 남은 값들에 있어 의미가 퇴색됨. 조사 대상과 통계의 평균ex) 각 값을 Join 하기 전, 볼펜A와 B간의 길이의 평균 비는 1:1이후 소비자 구매 수량에 따라 A*3,B*1 는 평균비가 1:3으로 A쪽으로 쏠리게 된다. 이때 주목할 대상이 어디인가에 따라 이전값에 대해 이상•결측치 처리를 하거나 이후값에 처리를 하는것을 결정해야 한다.
-
TIL - 06.17TIL 2024. 6. 17. 21:28
데이터 전처리 작업 시 기준 정하기 어느 컬럼에 적용이 가능한가?ex ) price : 끝값이 중요 // time : 끝값 의미X(min : 일정값 , max : 사건, 사고) 그렇다면 그 영향은 어떻게 될 것인가?그 내용과 관련없는 다른 column의 값들은 ? 무작위로 갈려나가는데 어떤 특정 값(price의 극단값) 이라서 잘려나갈 가능성은? 화물 탑차에 적재하는 물건의 크기를 단순히 부피로 계산해도 되는가?적재 효율성을 싸그리 무시한 경우라고 할 수 있으나 평균적인 예상은 가능하다.그리고 무게와 관련된 포장의 한계점을 생각해본다면 .. 데이터 분석은 깊게 고민할 수록 내용이 많아져 어느정도 부분을 포기해야 할까 아니면 디테일을 챙겨야 할까? 새로 알게 된 코드import seaborn as s..
-
TIL - 06.14TIL 2024. 6. 17. 10:08
scaler 기준언제 어떻게 무엇에 적용할 것인가? MNIST 데이터 대상으로 RobustScaler 를 예시로 들어보자면 2차원 이하 값에 대해서 적용이 가능하기에 이를 해결하고자 적용 대상인 [ [ [ float*28 ]*28 ]*60000 ](float 범위는 0~255 : 명암비) 중 각 글자에 대해 적용 하는 방식을 생각해봤으나 최대, 최소 값이 기존 범위와는 다르게 개별적으로 적용되기에 통용되기엔 어려울 수도 있고, 대조 비가 늘어나는 것이니 글자 인식의 관점에서는 더욱 좋은 방식일 수 있다는 생각 또한 가능했다.
-
TIL - 06.12TIL 2024. 6. 12. 20:08
초안.# 선형회귀 훈련(적합)from sklearn.linear_model import LinearRegressionmodel_lr = LinearRegression()type(model_lr)sns.get_dataset_names()iris = sns.load_dataset('iris')model_lr.fit(X = X_1, y = y_1)# 가중치(w1)print(model_lr.coef_)# 편향(bias, w0)print(model_lr.intercept_)w1 = model_lr.coef_[0][0]w0 = model_lr.intercept_[0]print('y = {}x + {}'.format(w1.round(2),w0.round(2))) import seaborn as snsimport m..
-
TIL - 06.11TIL 2024. 6. 11. 21:19
데이터의 분리 이유학습 / 평가 데이터 분리 판단을 위해 / 과적합 방지를 위해 조건사항 : 동일한 데이터(전처리 및 변경 이전) 를 나눌 것충분한 데이터 량 등.. 문제 발생 예시 : 과대`소 적합 sklearn.model_selection_train_test_split random_state 랜덤 추출(실행 마다 변경 됨) / .stratify - 비율 보존 의사결정나무이론Node point 지정 간 조건 하 분할불순도가 낮아지는 방향으로 진행-> 과적합하게 적용 될 수 있음 해결방안Random Foreset Bagging머신러닝의 문제점 : 학습할 데이터가 부족하다Bootstrapping + Aggregating 방법론Bootstrapping : 데이터를 복원, 추출해서 유사하지만 다른 데이터 ..