-
머신러닝 기초
더보기Supervised Learning
UnSupervised Learning
Reinforecement Learning
clustering 은 군집화
train_set, test_set
Stratified sampling
산점도 alpha = 0.1 // 숫자가 낮을수록 밀도가 높을수록 표시됨 : 흐리게
correation : 선형적 관계 ( 비례, 반비레) 에 유용하나, 원점에 대해 대칭적인 경우엔 파악할 수 없음 (0)
단순한 침대수, 방수, 인구수는 중요하지 않지만 비교 대상이 있을 경우 의미 있어질 수 있음(예시 : 나누기)
rooms per household : total room / households
머신러닝 알고리즘을 위한 데이터 준비 : 전처리
- interpolation(보간법) : 시계열 데이터에서 많이 씀 (spline)
- 머신러닝 쓰는 방법(heavy)
많은 컬럼의 unique값 구하고 그 그래프를 그리는 방법 2가지
더보기list = ['Mortgage Loan','Not Specified', 'Personal Loan', 'Student Loan','Debt Consolidation Loan','Auto Loan', 'Payday Loan','Credit-Builder Loan', 'Home Equity Loan'] # 에 대해 1개 이상이면 T / F def seg(col) : for i in col : bank[i]=np.where(bank[i]<1, 0, 1) seg(list) bank002 = bank.groupby(['Mortgage Loan','Not Specified', 'Personal Loan', 'Student Loan','Debt Consolidation Loan','Auto Loan', 'Payday Loan','Credit-Builder Loan', 'Home Equity Loan'],as_index = False)['Customer_ID'].nunique() T = 0 for i in list : T += bank002[bank002[i] == 1]['Customer_ID'].sum() print(f"'{i}' : [{bank002[bank002[i] == 1]['Customer_ID'].sum()}],") print(f"'None' : [{5704}]")
bank002 = bank.groupby('Customer_ID',as_index = False)[['Mortgage Loan','Not Specified', 'Personal Loan', 'Student Loan','Debt Consolidation Loan','Auto Loan', 'Payday Loan','Credit-Builder Loan', 'Home Equity Loan']].sum() bank002 T = 0 for i in list : T += bank002[bank002[i] == 4][i].sum()//4 print(f"'{i}' : [{bank002[bank002[i] == 4][i].sum()//4}],") print(f"'None' : [{5704}]") # bank002[bank002['Mortgage Loan'] == 4]['Mortgage Loan'].sum()//4
'Mortgage Loan' : [3920],
'Not Specified' : [3960],
'Personal Loan' : [3888],
'Student Loan' : [3880],
'Debt Consolidation Loan' : [3880],
'Auto Loan' : [3820],
'Payday Loan' : [3993],
'Credit-Builder Loan' : [3966],
'Home Equity Loan' : [3925],
'None' : [35232] = T
data = {'Mortgage Loan' : [3920],'Not Specified' : [3960],'Personal Loan' : [3888],'Student Loan' : [3880],'Debt Consolidation Loan' : [3880],'Auto Loan' : [3820],'Payday Loan' : [3993],'Credit-Builder Loan' : [3966],'Home Equity Loan' : [3925], 'None' : [35232]} data1 = pd.DataFrame(data) data1.T # # 데이터프레임 생성 data1 = pd.DataFrame(data) plt.bar(data1.T.index, data1.T[0])
data = { 'Loan Type': ['Mortgage Loan', 'Not Specified', 'Personal Loan', 'Student Loan', 'Debt Consolidation Loan', 'Auto Loan', 'Payday Loan', 'Credit-Builder Loan', 'Home Equity Loan', 'None'], 'Count': [3920, 3960, 3888, 3880, 3880, 3820, 3993, 3966, 3925, 5704] } # 데이터프레임 생성 data1 = pd.DataFrame(data) # 막대 그래프 그리기 plt.figure(figsize=(12, 6)) plt.bar(data1['Loan Type'], data1['Count'], color='skyblue') plt.xlabel('Loan Type') plt.ylabel('Count') plt.title('Loan Distribution') plt.xticks(rotation=45, ha='right') # x축 레이블 각도 조정 plt.tight_layout() # 레이아웃 조정 plt.show()
상관 분석(相關 分析, 영어: correlation analysis, dependence analysis : 두 변수 간에 어떤 선형적 관계
과감한 목표를 세우고 아무것도 없어도 결론을 한번 뽑아보려 노력해볼것. - 주니어니까~
감정
두렵다고만 생각하지 말라 : 작은것도 한걸음부터
해보고 나면 언젠가 벌써? 할 정도로 빠르게 결과가 나온다
개선
애매하게 정리해서 흔들리던 Pandas관련 지식을 강의를 들어서 해결했다!
장기적으로
내가 차별화 할 수 있는 능력이 무엇인지 찾고 그것을 키울 수 있도록 고민하자