전체 글
-
-
TIL - 06.18TIL 2024. 6. 19. 10:46
공부는 역시 벼락치기!시발스케일링 - 이상치 제거 순서 나의 의견 : 제거하고 스케일링 해야함이유 : 스케일링의 방식 : 편차 기준 값의 재정렬 -> 스케일링 먼저 하고 제거하면 이상치가 적용된 상태에서의 정렬 : 남은 값들에 있어 의미가 퇴색됨. 조사 대상과 통계의 평균ex) 각 값을 Join 하기 전, 볼펜A와 B간의 길이의 평균 비는 1:1이후 소비자 구매 수량에 따라 A*3,B*1 는 평균비가 1:3으로 A쪽으로 쏠리게 된다. 이때 주목할 대상이 어디인가에 따라 이전값에 대해 이상•결측치 처리를 하거나 이후값에 처리를 하는것을 결정해야 한다.
-
TIL - 06.17TIL 2024. 6. 17. 21:28
데이터 전처리 작업 시 기준 정하기 어느 컬럼에 적용이 가능한가?ex ) price : 끝값이 중요 // time : 끝값 의미X(min : 일정값 , max : 사건, 사고) 그렇다면 그 영향은 어떻게 될 것인가?그 내용과 관련없는 다른 column의 값들은 ? 무작위로 갈려나가는데 어떤 특정 값(price의 극단값) 이라서 잘려나갈 가능성은? 화물 탑차에 적재하는 물건의 크기를 단순히 부피로 계산해도 되는가?적재 효율성을 싸그리 무시한 경우라고 할 수 있으나 평균적인 예상은 가능하다.그리고 무게와 관련된 포장의 한계점을 생각해본다면 .. 데이터 분석은 깊게 고민할 수록 내용이 많아져 어느정도 부분을 포기해야 할까 아니면 디테일을 챙겨야 할까? 새로 알게 된 코드import seaborn as s..
-
TIL - 06.14TIL 2024. 6. 17. 10:08
scaler 기준언제 어떻게 무엇에 적용할 것인가? MNIST 데이터 대상으로 RobustScaler 를 예시로 들어보자면 2차원 이하 값에 대해서 적용이 가능하기에 이를 해결하고자 적용 대상인 [ [ [ float*28 ]*28 ]*60000 ](float 범위는 0~255 : 명암비) 중 각 글자에 대해 적용 하는 방식을 생각해봤으나 최대, 최소 값이 기존 범위와는 다르게 개별적으로 적용되기에 통용되기엔 어려울 수도 있고, 대조 비가 늘어나는 것이니 글자 인식의 관점에서는 더욱 좋은 방식일 수 있다는 생각 또한 가능했다.
-
TIL - 06.12TIL 2024. 6. 12. 20:08
초안.# 선형회귀 훈련(적합)from sklearn.linear_model import LinearRegressionmodel_lr = LinearRegression()type(model_lr)sns.get_dataset_names()iris = sns.load_dataset('iris')model_lr.fit(X = X_1, y = y_1)# 가중치(w1)print(model_lr.coef_)# 편향(bias, w0)print(model_lr.intercept_)w1 = model_lr.coef_[0][0]w0 = model_lr.intercept_[0]print('y = {}x + {}'.format(w1.round(2),w0.round(2))) import seaborn as snsimport m..
-
TIL - 06.11TIL 2024. 6. 11. 21:19
데이터의 분리 이유학습 / 평가 데이터 분리 판단을 위해 / 과적합 방지를 위해 조건사항 : 동일한 데이터(전처리 및 변경 이전) 를 나눌 것충분한 데이터 량 등.. 문제 발생 예시 : 과대`소 적합 sklearn.model_selection_train_test_split random_state 랜덤 추출(실행 마다 변경 됨) / .stratify - 비율 보존 의사결정나무이론Node point 지정 간 조건 하 분할불순도가 낮아지는 방향으로 진행-> 과적합하게 적용 될 수 있음 해결방안Random Foreset Bagging머신러닝의 문제점 : 학습할 데이터가 부족하다Bootstrapping + Aggregating 방법론Bootstrapping : 데이터를 복원, 추출해서 유사하지만 다른 데이터 ..
-
TIL - 06.10TIL 2024. 6. 10. 21:21
많은걸 하려 하지 말라할수 있는 것을 하자 EDA, Outlier, Missing Value, Encoding, Scaling 기존과의 차이 countplot : 범주형 자료의 빈도 수 시각화x : 범주형 자료 // y : 자료의 빈도 수 => 요일별 출현 횟수 ESD(Extreme Studentized Deviation)데이터가 정규분포를 따른다는 가정 하, 평균에서 표준편차의 3배 이상 떨어진 값(0.15%*2)(정규분포 : Log 로도 비대칭이 잡히지 않을 때, 샘플 크기가 작은 경우 불가) IQR(Inter Quantile Range)위와 동일조건 사용 가능Boxplot : 데이터의 사분위 수를 포함하여 분포를 보여주는 시각화 그래프, 상자-수염 그림 - 4분위 수 : 데이터를 순서에 따라 ..
-
통계학 - ANOVA기초수학/통계학 유사품 2024. 5. 31. 17:40
t-test 한계3개의 대상 일 시 95% 유지하는 것 어려움 (3!/2!) 분산 분석ANOVAAnalysis On Variation 분산 = 표준편차의 제곱단위(Unit)이 다름 = 데이터 정리 분석 머신러닝에 필요 degree of freedom : 자유도 ANOVA assumption 방식의 기반에는 normal(정규분포) 가 있고 이를 이동하면 표준정규분포가 된다 집단 간 분산 - Variation between groups집단 사이의 평균이 멀리 떨어질수록, 값이 커진다 집단 내 분산 - Variation Within groups집단 내의 분산이 크면, 집단 사이의 평균이 더 커야 귀무가설 기각 가능=> A,B 집단의 평균 키가 173, 174인데 분산이 30을 넘기면 거의 유사함. 실질..