ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 파이썬 - 데이터 전처리/시각화 2
    파이썬 정리/데이터 전처리, 시각화 툴 2024. 5. 9. 17:35

    Line 

    연속형 데이터

    시계열에 따른 데이터 변화 및 추이 시각화

    import seaborn as sns
    data = sns.load_dataset('flights')
    
    df = data[['year','passengers']].groupby('year').sum().reset_index()
    
    plt.plot(df['year'],df['passengers'])
    plt.show()

     

     

     

    Bar

    막대그래프 범주형 데이터

    각각의 막대로 크기를 비교하는 것이 효과적

    ex)카테고리 별 값 크기 시각적 비교

     

    plt.bar(x,y)
    ...

     

     

     

     

    Historgram

    연속적인 데이더의 분포 ,  데이터의 빈도를 시각화 해서 특정 정보를 얻고자 할 때 유용하게 사용

     

    plt.hist(data, bins=30) # 구간들의 범위
    plt.xlabel('Value')
    plt.ylabel('Frequency')
    plt.title('Histogram')
    plt.show()

     

     

    Pie

    전체에서 각 부분의 비율확인

    여러가지 범주형 데이터의 분포도

    sizes = [30,20,25,15,10]
    labels = ['A','B','C','D','E']
    #auto pct
    plt.pie(sizes, labels=labels)
    plt.title('Pie Chart')
    plt.show()

     

    Box plot

    데이터의 분포와 이상치를 시각적으로 보여주는 그래프

    중앙값 4분위수 최소 최대값 제공(이상치 확인)

    데이터 통계적 특성 파악에 매우 용의한 그래프

     

    특정 카테고리의 데이터 값 확인할 때 도움 될 수 있?

    import seaborn as sns
    iris = sns.load_dataset("iris")
        
    sepal_lengths_list = [iris[iris['species']==s]['sepal_length'].tolist()\
    for s in iris['species'].unique()]
    
    
    plt.boxplot(sepal_lengths_list, labels=iris['species'].unique())
    plt.show()

     

    노란색 중앙값

    25~75% 구간 표시 박스

    최소 최대 값 수직선

    outilers? 평균에 영향을 주는 ~ 제거? // 다른 방법으로도 가능하다?

     

    sns.boxplot(x='species', y='sepal_length', data=iris)
    plt.show()

     

     

    Scatter - 산정도

    두 변수간의 관계를 점으로 표시하여 보여주는 그래프

    상관분석, 관계성 검사 간 이용.

    ex) 선형태를 띄며 우상향 증가 // 산개분포 // 군집도 // 이상치 등 확인

     

    plt.scatter(iris['petal_length'],iris['petal_width'])
    plt.xlabel('Petal length')
    plt.ylabel('Petal width')
    plt.show()

     

    iris.corr(numeric_only=True)
    #전처리 후 확인iris[..] or numeric_only =True

     

     

Designed by Tistory.