-
통계학기초수학/통계학 유사품 2024. 5. 27. 10:32
개인화 추천모델
과거의 기록 : 너가 누구인가? // Cold start : 새로 가입한 대상으론 적용하기 어렵다
해결 : 정보가 적더라도 그 주기를 당겨서 매번 업데이트 해볼까?
하루에 N번 / 몇번 하는 것이 적절할 것인가?
개인화 vs 연관화
이유 설명과 핵심지표로 설득하기
CTR : 클릭 전환율
연관화 동작 : 기존 작품과 유사성이 존재하는 CTR
추천에 따른 전환율 상승 확인 가능
개인화 동작 : 추천하려는 작품(팝업작품) 과 유저 사이의 유사도 CTR
유저가 좋아할만한 작품을 추천하면 CTR이 극적으로 상승
=> 행렬 분해 알고리즘과 embedding vector 활용 : ML지식 필요
추가 분석 : 매출 추척, Action item
방문 목적 : 신규 열람과 앱 방문은 별개 // 짬 나는 시간(출근, 점심, 퇴근) 에 보기에 : 쿠폰을 보내도 열람 유저가 적다.
대규모 전처리(TB) : 쿼리 기반 어려움
흥미롭군, 좋군 으로 끝나는 분석이 아닌
그렇다면 우리는 앞으로 어떻게 해야겠구나!/하지말아야겠구나! 하는 생각이 절로 드는 분석
CVR이 떨어지는데 Missing POP이 상승한다?
데이터 리터러시
확률이란?
고전적 확률
P(A) = 사건 A 경우의 수 / 전체 경우의 수
모든 경우의 수가 동일한 확률Fair 를 가진다는 가정 하
통계적 확률
N번의 시행을 반복 할 때, 사건 A가 발생한 횟수 n(A) 라고 한다면 : P(A) = n(A)/N
실제 시행을 반복할 수 없을 땐 사용할 수 없는 정의 : 시뮬레이션이 가능하다면 유용하게 사용 할 수 있음(Monte Carlo : repeated random sampling)
확률 : 불확실성(Uncertainty) 을 계량할 수 있음
ex) 소규모 샘플에서 일반적인 경향을 추정할 때, 통계를 이용하면 객관적이고 정확한 추정이 가능하다
더보기R vs Python
- 모든 건 케바케, 사바사입니다..만
- 통계전공자들은 일반적으로 R을 사용하여 통계모형을 사용하는 데에 익숙합니다.
- 그 외에 SPSS와 SAS를 많이 씁니다.
- 개발자들은 일반적으로 Python을 사용하여 통계와 머신러닝, AI 도구를 다루는 걸 선호합니다.
- Python은 여타 다른 도구(데이터 베이스, 스케쥴러 등)과의 접착성이 좋습니다
- 통계 외에 일반적인 개발 도구로서의 활용이 가능합니다 (백엔드 개발 등)
- 더 최신의 AI 도구들이 개발되어 있으며, 병렬 처리 등의 확장이 용이합니다.
- 통계 학사 수준의 도구도 모두 지원하지는 않습니다(ex. stepwise)
- R은 설치와 활용이 조금 더 쉬우며, 조금 더 직관적인 코드 인터페이스를 가지고 있습니다.
- 더욱 다양한 통계 도구를 기본적으로 지원하며, 라이브러리 생태계도 더 넓습니다.
- R을 이용한 개발은 현실적으로 어려우며, 최적화도 훨씬 어렵습니다.
- 현시점에서 데이터와 관련된 팀은 90% 이상 파이썬을 활용하고 있습니다
- 코딩 테스트 또한 파이썬 혹은 SQL이 대부분이며, R을 지원하지 않습니다
- 일부 연구(계량 경제 등)을 제외하면 R을 실사용하는 경우는 점점 더 줄어들고 있습니다
- 신입~주니어의 경우 도구에 대한 제한이 엄청나게 크지는 않습니다
- 단, 이 경우에는 도구를 넘어선 이론이나 프로젝트 경험을 통한 어필이 가능해야 합니다.
'기초수학 > 통계학 유사품' 카테고리의 다른 글
통계학 - ANOVA (0) 2024.05.31 통계학 - 3 : 통계적 가설 (0) 2024.05.28 통계학 -2 /code 해례본 (0) 2024.05.27 통계학 - 평균 (0) 2024.05.27