TIL
-
TIL - 06.10TIL 2024. 6. 10. 21:21
많은걸 하려 하지 말라할수 있는 것을 하자 EDA, Outlier, Missing Value, Encoding, Scaling 기존과의 차이 countplot : 범주형 자료의 빈도 수 시각화x : 범주형 자료 // y : 자료의 빈도 수 => 요일별 출현 횟수 ESD(Extreme Studentized Deviation)데이터가 정규분포를 따른다는 가정 하, 평균에서 표준편차의 3배 이상 떨어진 값(0.15%*2)(정규분포 : Log 로도 비대칭이 잡히지 않을 때, 샘플 크기가 작은 경우 불가) IQR(Inter Quantile Range)위와 동일조건 사용 가능Boxplot : 데이터의 사분위 수를 포함하여 분포를 보여주는 시각화 그래프, 상자-수염 그림 - 4분위 수 : 데이터를 순서에 따라 ..
-
TIL - 05.28TIL 2024. 5. 28. 21:11
분석기획서 작성 컬럼 종류이탈유저 분석 : 일반과 어떤 차이가 있는가?데이터의 값이 생각과는 다른 내용? 어떻게 해야할까? 분석 내용을 수정해야할까? 고민하는 것.=>언제든지 바뀔 수 있는 종이조각에 불가하다.그 숫자들을 어떻게 엮어보느냐?ex) 주 이용고객인 20~40 대의 특성이 무엇인가? 그중에서도 고가치를 추구하는 돈 많은 40~50대는?그들을 분석한다 통계적 가설 검정 효과의사결정에 필요한 이론적 근거를 확보객관적인 자료와 수치로 설득력을 높힌다모호한 상황에서 불확실성을 수치로 가시화한다체계화된 프로세스를 통해 다양한 리스크를 제거한다여러 통계 / AI 도구를 Custom 하여 활용할 수 있다 귀무(영)가설 (H0)/(Null Hypothesis): 두 그룹의 평균은 같다. 즉, 두 그룹 간..
-
TIL - 05.27TIL 2024. 5. 27. 22:44
통계학 오우 좀 쎈데? 뚱뚱하고 굼뜬 판다스(Pandas)를 위한 효과적인 다이어트 전략 - 오성우 - PyCon.KR 2019 (youtube.com)vectorization 에 관한 내용을 찾다 메모리, 시간 복잡도 낮추는 방법론으로 좋아보였다.그래서 요약도 했다. 사람마다 코드 쓰는 스타일이 다르니 보고 베끼면서 배울 것들이 너무 많다.점점 사장되가는 방법도 있고 새로운 시각화 방식이라 배워볼만한 것이 다 있어서 취사 선택을 하기위한 선택만 하는것만으로도 시간이 훌쩍 지나버리고야 만다. 지금부터는 파이썬 공부보다는 통계학을 배우기 위한 노력을 기울어야겠다.내일 도서관가서 ' 수학보다 데이터 문해력' 이라는 책을 빌리고, ADsP 책을 보면서 문제도 풀어보면서 익혀야겠다.
-
TIL - 05.23TIL 2024. 5. 24. 09:11
상관 분석(相關 分析, 영어: correlation analysis, dependence analysis : 두 변수 간에 어떤 선형적 관계 상관 분석 - 위키백과, 우리 모두의 백과사전 (wikipedia.org) 일정한 형태(특정값, 선분 기준으로 뭉쳐져 있음)를 가진 상관 관계 그래프.그 관계성과 관계없는 경계값 존재 (50000, 35000 구간 등 가로 직선)를 확인하고 머신러닝에 적합한 자료인가 를 판단하고 영향을 미칠 것 같다면 제거 할 것. 머신러닝 학습을 위한 데이터 셋, 테스트를 위한 데이터 셋으로 나누는 것은 전처리 이전에 나눠야 한다.why? 전처리 과정또한 전체적인 데이터 구성에 영향을 미치기 때문
-
TIL - 05.22TIL 2024. 5. 22. 22:16
많은 컬럼의 unique값 구하고 그 그래프를 그리는 방법 2가지더보기list = ['Mortgage Loan','Not Specified', 'Personal Loan', 'Student Loan','Debt Consolidation Loan','Auto Loan', 'Payday Loan','Credit-Builder Loan', 'Home Equity Loan']# 에 대해 1개 이상이면 T / Fdef seg(col) : for i in col : bank[i]=np.where(bank[i]bank002 = bank.groupby('Customer_ID',as_index = False)[['Mortgage Loan','Not Specified', 'Personal Loan', ..
-
TIL - 05.21TIL 2024. 5. 21. 11:07
# 핸즈온 머신러닝 'tenserflow' 인공지능 : 사람의 능력, 기능 -> 컴퓨터로 구현 (머신러닝 아닌 예시 : 전문가 시스템)머신러닝 : 대량의 데이터를 활용하여 스스로 패턴이나 규칙, 특성을 학습한다. ( 데이터 의존적 - driven)딥러닝 : + 인공신경망으로 이뤄져있다. (neural networks) : 최초의 신경망 : Perceptron, Signoid?임계점을 꼭 필요로 하지 않는다.(일부만 가지고 있다?) 방식 예시머신러닝 : SYM, K-nearset neighbor, random foerst딥러닝 : DNN, CNN, RNN(LSTM) , Transformer, GPT .. SupervisedClassification - Labeling -Regression : 회귀..