-
파이썬 - 데이터 전처리/시각화 2파이썬 정리/데이터 전처리, 시각화 툴 2024. 5. 9. 17:35
Line
연속형 데이터
시계열에 따른 데이터 변화 및 추이 시각화
import seaborn as sns data = sns.load_dataset('flights') df = data[['year','passengers']].groupby('year').sum().reset_index() plt.plot(df['year'],df['passengers']) plt.show()
Bar
막대그래프 범주형 데이터
각각의 막대로 크기를 비교하는 것이 효과적
ex)카테고리 별 값 크기 시각적 비교
plt.bar(x,y) ...
Historgram
연속적인 데이더의 분포 , 데이터의 빈도를 시각화 해서 특정 정보를 얻고자 할 때 유용하게 사용
plt.hist(data, bins=30) # 구간들의 범위 plt.xlabel('Value') plt.ylabel('Frequency') plt.title('Histogram') plt.show()
Pie
전체에서 각 부분의 비율확인
여러가지 범주형 데이터의 분포도
sizes = [30,20,25,15,10] labels = ['A','B','C','D','E'] #auto pct plt.pie(sizes, labels=labels) plt.title('Pie Chart') plt.show()
Box plot
데이터의 분포와 이상치를 시각적으로 보여주는 그래프
중앙값 4분위수 최소 최대값 제공(이상치 확인)
데이터 통계적 특성 파악에 매우 용의한 그래프
특정 카테고리의 데이터 값 확인할 때 도움 될 수 있?
import seaborn as sns iris = sns.load_dataset("iris") sepal_lengths_list = [iris[iris['species']==s]['sepal_length'].tolist()\ for s in iris['species'].unique()] plt.boxplot(sepal_lengths_list, labels=iris['species'].unique()) plt.show()
노란색 중앙값
25~75% 구간 표시 박스
최소 최대 값 수직선
outilers? 평균에 영향을 주는 ~ 제거? // 다른 방법으로도 가능하다?
sns.boxplot(x='species', y='sepal_length', data=iris) plt.show()
Scatter - 산정도
두 변수간의 관계를 점으로 표시하여 보여주는 그래프
상관분석, 관계성 검사 간 이용.
ex) 선형태를 띄며 우상향 증가 // 산개분포 // 군집도 // 이상치 등 확인
plt.scatter(iris['petal_length'],iris['petal_width']) plt.xlabel('Petal length') plt.ylabel('Petal width') plt.show()
iris.corr(numeric_only=True) #전처리 후 확인iris[..] or numeric_only =True
'파이썬 정리 > 데이터 전처리, 시각화 툴' 카테고리의 다른 글
파이썬 - 데이터 전처리/시각화 (0) 2024.05.09