TIL
-
TIL - 10.18 자소서 넋투리TIL 2024. 10. 18. 00:46
뭘 내가 아는척을 하려고 해도 아는 게 없으니 할 수 있는 말이 없다.그것도 기업입장에서, 경력자 입장에서 바라본다면 난 그냥 일반인보다 조금 더 아는 수준에 불과한데 내가 무슨 할말이 있겠는가.. 비전공자 인 이상 결국 할 수 있는 말은 ‘나 아픙로 자라쑤 이써요!’하는 혀짧은말정도 내가 하기 위해서 투자한 것은, 시간 : 자료구조, 네트워크, 클라우드, FastAPI원한것은 데이터 엔지니어, 행한것은 백엔드에 가까운데요? - 라고 말하기에도 부끄러운..수학이 싫어서 도망친자, 통계에서 벗어날 수 없다 - 데이터 분석정확히는 투자 시간 대비 가성비가 안나올거 같아서 안건드렸다 정도왜냐면 내가 전문적으로 공부하진 못하니까 / 시간이 부족하니까 그래서 추가 기능을 얻고자 하였고지금와서 보니 내가 가진 것도..
-
TIL - 06.20TIL 2024. 6. 21. 10:43
데이터 처리를위한 Encoding 과정에서 확인 할 점. 1. 무엇이 원본인가, 전체를 대상으로 처리하는가? -> 일부만을 포함하고 있다면 각각에 대해 적용 시 문제가 생길 수 도 있다.ex) Label은 각각의 요소에 대해서 번호 부여 : 일부 누락 시 생략될 수 있음 OneHot, Robust 집단의 평균과 편차에 관련된 연산 : 숫자가 바뀜. 1) 각 scaler 학습 값 저장을 위해 개별 변수로 지정oe1, oe2.., le1,le2 ... 2) 이후 원본 데이터에 대해 학습한 encoder를 분할 column에 적용문제 : label : 숫자나열은 가능하나 OHE : 이진분류는 불가하다 column내 변수 unique값이 동일한 갯수가 존재함을 확인했으나 불가했다. 이유 :Val..
-
-
TIL - 06.17TIL 2024. 6. 17. 21:28
데이터 전처리 작업 시 기준 정하기 어느 컬럼에 적용이 가능한가?ex ) price : 끝값이 중요 // time : 끝값 의미X(min : 일정값 , max : 사건, 사고) 그렇다면 그 영향은 어떻게 될 것인가?그 내용과 관련없는 다른 column의 값들은 ? 무작위로 갈려나가는데 어떤 특정 값(price의 극단값) 이라서 잘려나갈 가능성은? 화물 탑차에 적재하는 물건의 크기를 단순히 부피로 계산해도 되는가?적재 효율성을 싸그리 무시한 경우라고 할 수 있으나 평균적인 예상은 가능하다.그리고 무게와 관련된 포장의 한계점을 생각해본다면 .. 데이터 분석은 깊게 고민할 수록 내용이 많아져 어느정도 부분을 포기해야 할까 아니면 디테일을 챙겨야 할까? 새로 알게 된 코드import seaborn as s..
-
TIL - 06.14TIL 2024. 6. 17. 10:08
scaler 기준언제 어떻게 무엇에 적용할 것인가? MNIST 데이터 대상으로 RobustScaler 를 예시로 들어보자면 2차원 이하 값에 대해서 적용이 가능하기에 이를 해결하고자 적용 대상인 [ [ [ float*28 ]*28 ]*60000 ](float 범위는 0~255 : 명암비) 중 각 글자에 대해 적용 하는 방식을 생각해봤으나 최대, 최소 값이 기존 범위와는 다르게 개별적으로 적용되기에 통용되기엔 어려울 수도 있고, 대조 비가 늘어나는 것이니 글자 인식의 관점에서는 더욱 좋은 방식일 수 있다는 생각 또한 가능했다.
-
TIL - 06.12TIL 2024. 6. 12. 20:08
초안.# 선형회귀 훈련(적합)from sklearn.linear_model import LinearRegressionmodel_lr = LinearRegression()type(model_lr)sns.get_dataset_names()iris = sns.load_dataset('iris')model_lr.fit(X = X_1, y = y_1)# 가중치(w1)print(model_lr.coef_)# 편향(bias, w0)print(model_lr.intercept_)w1 = model_lr.coef_[0][0]w0 = model_lr.intercept_[0]print('y = {}x + {}'.format(w1.round(2),w0.round(2))) import seaborn as snsimport m..
-
TIL - 06.11TIL 2024. 6. 11. 21:19
데이터의 분리 이유학습 / 평가 데이터 분리 판단을 위해 / 과적합 방지를 위해 조건사항 : 동일한 데이터(전처리 및 변경 이전) 를 나눌 것충분한 데이터 량 등.. 문제 발생 예시 : 과대`소 적합 sklearn.model_selection_train_test_split random_state 랜덤 추출(실행 마다 변경 됨) / .stratify - 비율 보존 의사결정나무이론Node point 지정 간 조건 하 분할불순도가 낮아지는 방향으로 진행-> 과적합하게 적용 될 수 있음 해결방안Random Foreset Bagging머신러닝의 문제점 : 학습할 데이터가 부족하다Bootstrapping + Aggregating 방법론Bootstrapping : 데이터를 복원, 추출해서 유사하지만 다른 데이터 ..