일과 정리
-
TIL - 10.18 자소서 넋투리일과 정리/TIL 2024. 10. 18. 00:46
뭘 내가 아는척을 하려고 해도 아는 게 없으니 할 수 있는 말이 없다.그것도 기업입장에서, 경력자 입장에서 바라본다면 난 그냥 일반인보다 조금 더 아는 수준에 불과한데 내가 무슨 할말이 있겠는가.. 비전공자 인 이상 결국 할 수 있는 말은 ‘나 아픙로 자라쑤 이써요!’하는 혀짧은말정도 내가 하기 위해서 투자한 것은, 시간 : 자료구조, 네트워크, 클라우드, FastAPI원한것은 데이터 엔지니어, 행한것은 백엔드에 가까운데요? - 라고 말하기에도 부끄러운..수학이 싫어서 도망친자, 통계에서 벗어날 수 없다 - 데이터 분석정확히는 투자 시간 대비 가성비가 안나올거 같아서 안건드렸다 정도왜냐면 내가 전문적으로 공부하진 못하니까 / 시간이 부족하니까 그래서 추가 기능을 얻고자 하였고지금와서 보니 내가 가진 것도..
-
2주간의 전반적 정리일과 정리/WIL 2024. 9. 12. 19:50
왜 2주만에 쓰느냐? 첫주차는 OT였으니 수업이 거의 없었고이번에 맞으면서 배우니까 복습 안하면 정보 폭탄에 학점이 터질 것 같아서 쓰게 되었다. 현재 내가 수강하는 것은FastAPI 를 이용한 웹 Serving목적 : 데이터 파이프라인이란 무엇인지를 이해하고 최종과제에서 부족하다고 크게 느껴졌던 고객에게 서비스를 제공할 때 어떻게 해야 쉽게 전달 할 수 있는 방법을 배우고 그 행동 패턴에서 나오는 자료를 다시 수집할 수 있는 방법론을 배우기 위해내용 : FastAPI를 이용하여 직접적으로 Json 파일을 작성하지 않고 기본적인 양식을 만들 수 있다.현재까지는 기본적인 Hello와 라우터 설정에 대해 배웠으며객체지향의 클래스를 다루는 것이 어떤 의미인지 파악할 수 있었다.기대 : 클라우드 과제 할 때..
-
TIL - 06.24일과 정리/TIL 2024. 6. 26. 15:04
발표 내용 정리 하는 방법 중 몇가지 수치에 대한 정의 대상단순 수치 : 결과값 같은 경우는 생략해도 무관하나기준값 : R**2와 같이 사전에 미리 정의한 기준값은 미리 표기해야 적절하다. EX) PCA 0.6 이상, 클러스터별 분배가 50% 이하로 잘 된.. 등 z-score의 범위에 대해 설명할까?=> 할려면 할수록 말해야 할 내용이 많아진다.==>줄이자 PPT를 시각화 하면서 만든다=> 중간의 당연한 내용(OHE 시행함)이 빠질 수 도 있다. 전처리 과정과 정규화 구분하기이진분류 // Scaling
-
TIL - 06.20일과 정리/TIL 2024. 6. 21. 10:43
데이터 처리를위한 Encoding 과정에서 확인 할 점. 1. 무엇이 원본인가, 전체를 대상으로 처리하는가? -> 일부만을 포함하고 있다면 각각에 대해 적용 시 문제가 생길 수 도 있다.ex) Label은 각각의 요소에 대해서 번호 부여 : 일부 누락 시 생략될 수 있음 OneHot, Robust 집단의 평균과 편차에 관련된 연산 : 숫자가 바뀜. 1) 각 scaler 학습 값 저장을 위해 개별 변수로 지정oe1, oe2.., le1,le2 ... 2) 이후 원본 데이터에 대해 학습한 encoder를 분할 column에 적용문제 : label : 숫자나열은 가능하나 OHE : 이진분류는 불가하다 column내 변수 unique값이 동일한 갯수가 존재함을 확인했으나 불가했다. 이유 :Val..
-
-
TIL - 06.18일과 정리/TIL 2024. 6. 19. 10:46
공부는 역시 벼락치기!시발스케일링 - 이상치 제거 순서 나의 의견 : 제거하고 스케일링 해야함이유 : 스케일링의 방식 : 편차 기준 값의 재정렬 -> 스케일링 먼저 하고 제거하면 이상치가 적용된 상태에서의 정렬 : 남은 값들에 있어 의미가 퇴색됨. 조사 대상과 통계의 평균ex) 각 값을 Join 하기 전, 볼펜A와 B간의 길이의 평균 비는 1:1이후 소비자 구매 수량에 따라 A*3,B*1 는 평균비가 1:3으로 A쪽으로 쏠리게 된다. 이때 주목할 대상이 어디인가에 따라 이전값에 대해 이상•결측치 처리를 하거나 이후값에 처리를 하는것을 결정해야 한다.
-
TIL - 06.17일과 정리/TIL 2024. 6. 17. 21:28
데이터 전처리 작업 시 기준 정하기 어느 컬럼에 적용이 가능한가?ex ) price : 끝값이 중요 // time : 끝값 의미X(min : 일정값 , max : 사건, 사고) 그렇다면 그 영향은 어떻게 될 것인가?그 내용과 관련없는 다른 column의 값들은 ? 무작위로 갈려나가는데 어떤 특정 값(price의 극단값) 이라서 잘려나갈 가능성은? 화물 탑차에 적재하는 물건의 크기를 단순히 부피로 계산해도 되는가?적재 효율성을 싸그리 무시한 경우라고 할 수 있으나 평균적인 예상은 가능하다.그리고 무게와 관련된 포장의 한계점을 생각해본다면 .. 데이터 분석은 깊게 고민할 수록 내용이 많아져 어느정도 부분을 포기해야 할까 아니면 디테일을 챙겨야 할까? 새로 알게 된 코드import seaborn as s..