전체 글
-
TIL - 06.10TIL 2024. 6. 10. 21:21
많은걸 하려 하지 말라할수 있는 것을 하자 EDA, Outlier, Missing Value, Encoding, Scaling 기존과의 차이 countplot : 범주형 자료의 빈도 수 시각화x : 범주형 자료 // y : 자료의 빈도 수 => 요일별 출현 횟수 ESD(Extreme Studentized Deviation)데이터가 정규분포를 따른다는 가정 하, 평균에서 표준편차의 3배 이상 떨어진 값(0.15%*2)(정규분포 : Log 로도 비대칭이 잡히지 않을 때, 샘플 크기가 작은 경우 불가) IQR(Inter Quantile Range)위와 동일조건 사용 가능Boxplot : 데이터의 사분위 수를 포함하여 분포를 보여주는 시각화 그래프, 상자-수염 그림 - 4분위 수 : 데이터를 순서에 따라 ..
-
통계학 - ANOVA기초수학/통계학 유사품 2024. 5. 31. 17:40
t-test 한계3개의 대상 일 시 95% 유지하는 것 어려움 (3!/2!) 분산 분석ANOVAAnalysis On Variation 분산 = 표준편차의 제곱단위(Unit)이 다름 = 데이터 정리 분석 머신러닝에 필요 degree of freedom : 자유도 ANOVA assumption 방식의 기반에는 normal(정규분포) 가 있고 이를 이동하면 표준정규분포가 된다 집단 간 분산 - Variation between groups집단 사이의 평균이 멀리 떨어질수록, 값이 커진다 집단 내 분산 - Variation Within groups집단 내의 분산이 크면, 집단 사이의 평균이 더 커야 귀무가설 기각 가능=> A,B 집단의 평균 키가 173, 174인데 분산이 30을 넘기면 거의 유사함. 실질..
-
TIL - 05.28TIL 2024. 5. 28. 21:11
분석기획서 작성 컬럼 종류이탈유저 분석 : 일반과 어떤 차이가 있는가?데이터의 값이 생각과는 다른 내용? 어떻게 해야할까? 분석 내용을 수정해야할까? 고민하는 것.=>언제든지 바뀔 수 있는 종이조각에 불가하다.그 숫자들을 어떻게 엮어보느냐?ex) 주 이용고객인 20~40 대의 특성이 무엇인가? 그중에서도 고가치를 추구하는 돈 많은 40~50대는?그들을 분석한다 통계적 가설 검정 효과의사결정에 필요한 이론적 근거를 확보객관적인 자료와 수치로 설득력을 높힌다모호한 상황에서 불확실성을 수치로 가시화한다체계화된 프로세스를 통해 다양한 리스크를 제거한다여러 통계 / AI 도구를 Custom 하여 활용할 수 있다 귀무(영)가설 (H0)/(Null Hypothesis): 두 그룹의 평균은 같다. 즉, 두 그룹 간..
-
통계학 - 3 : 통계적 가설기초수학/통계학 유사품 2024. 5. 28. 21:09
통계적 가설 검정주어진 자료가 특정 가설을 충분히 뒷받침하는지 여부를 결정하는 통계적 추론 방법정량적인 측정량의 정의객관적으로 누구나 납득할만한 기준 필요A/B 테스트에서의 두 집단의 매출 비교세그멘트(연령 등 특정 기준에 따른 유저 그룹) 에 따른 특성(매출, 방문) 차이 확인두 집단(투약 실험) 의 의학적 효과 (혈당 등) 차이 검사 통계적 가설 검정의 효과의사결정에 필요한 이론적 근거를 확보객관적인 자료와 수치로 설득력을 높힌다모호한 상황에서 불확실성을 수치로 가시화한다체계화된 프로세스를 통해 다양한 리스크를 제거한다여러 통계 / AI 도구를 Custom 하여 활용할 수 있다. 귀무(영)가설 (H0)/(Null Hypothesis): 두 그룹의 평균은 같다. 즉, 두 그룹 간에는 유의한 차이가 없다..
-
TIL - 05.27TIL 2024. 5. 27. 22:44
통계학 오우 좀 쎈데? 뚱뚱하고 굼뜬 판다스(Pandas)를 위한 효과적인 다이어트 전략 - 오성우 - PyCon.KR 2019 (youtube.com)vectorization 에 관한 내용을 찾다 메모리, 시간 복잡도 낮추는 방법론으로 좋아보였다.그래서 요약도 했다. 사람마다 코드 쓰는 스타일이 다르니 보고 베끼면서 배울 것들이 너무 많다.점점 사장되가는 방법도 있고 새로운 시각화 방식이라 배워볼만한 것이 다 있어서 취사 선택을 하기위한 선택만 하는것만으로도 시간이 훌쩍 지나버리고야 만다. 지금부터는 파이썬 공부보다는 통계학을 배우기 위한 노력을 기울어야겠다.내일 도서관가서 ' 수학보다 데이터 문해력' 이라는 책을 빌리고, ADsP 책을 보면서 문제도 풀어보면서 익혀야겠다.
-
통계학 -2 /code 해례본기초수학/통계학 유사품 2024. 5. 27. 21:32
df.order_id.value_counts() 더보기Syntax:df['column']: This is the dictionary-like access method. You use the column name as a key inside square brackets.df.column: This is the attribute access method. You use a dot followed by the column name.Flexibility:df['column']: This method is more flexible because it works with any column name, including those with spaces or special characters. For example, ..
-
통계학 - 평균기초수학/통계학 유사품 2024. 5. 27. 15:56
평균 : Average , MeanA single number or value that best represent a set of data 평균은 다양한 종류가 있다.산술평균 외에도 수십가지가 존재. DistributionProbabiliy Distribution개개의 데이터가 실현되기 전의 가능성을 수식화하여 정리 한 것확률 분포는 실제로 자주 볼 수 있는 일부 확률의 케이스들을 체계적으로 정리 한 것많은 경우 독립적이고 동일한 분포를 같는(iid) 확률 변수의 경우 원래의 변수 자체가 정규분포를 따르지 않더라도 표본 평균의 분포가 정규 분포를 따르는 경향이 있다. CLT : 중심 극한 정리 Central limit theory => 표본평균의 분포 가 정규 분포를 따르는 경우?정규 분포를 이용..
-
통계학기초수학/통계학 유사품 2024. 5. 27. 10:32
개인화 추천모델 과거의 기록 : 너가 누구인가? // Cold start : 새로 가입한 대상으론 적용하기 어렵다 해결 : 정보가 적더라도 그 주기를 당겨서 매번 업데이트 해볼까?하루에 N번 / 몇번 하는 것이 적절할 것인가? 개인화 vs 연관화이유 설명과 핵심지표로 설득하기 CTR : 클릭 전환율 연관화 동작 : 기존 작품과 유사성이 존재하는 CTR추천에 따른 전환율 상승 확인 가능 개인화 동작 : 추천하려는 작품(팝업작품) 과 유저 사이의 유사도 CTR유저가 좋아할만한 작품을 추천하면 CTR이 극적으로 상승=> 행렬 분해 알고리즘과 embedding vector 활용 : ML지식 필요 추가 분석 : 매출 추척, Action item방문 목적 : 신규 열람과 앱 방문은 별개 // 짬 나는 시간..