사용 데이터
MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv
https://grouplens.org/datasets/movielens/
import pandas as pd
movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId')
+) year 컬럼은 title에서 추출하여 따로 추가해둔 상태
데이터에 가장 많이 출현하는 개봉연도
movies['year'].value_counts()
year에 대한 개수를 보여준다.
<결과>
2002 311
2006 295
2001 294
2007 284
2000 283
...
1902 1
1903 1
1919 1
1922 1
1917 1
Name: year, Length: 107, dtype: int64
이처럼 영화 개봉연도 별로 얼마나 많은 영화가 저장되어 있는지 확인할 수 있지만, 한 눈에 전체 데이터를 알아보기 힘들다.
-> 데이터 시각화를 위한 seaborn 라이브러리를 사용해보자.
Seaborn
Seaborn은 matplotlib 기반의 파이썬 시각화 라이브러리이다.
matplotlib보다 쉽고, 직관적으로 시각화를 할 수 있어서 데이터 분석가들에게 인기가 좋다.
User guide and tutorial — seaborn 0.11.2 documentation
seaborn.pydata.org
%matplotlib inline
import seaborn as sns
import matplotlib.pyplot as plt # seaborn figure 크기 조절을 위해서
seaborn 라이브러리를 import한다.
plt.figure(figsize=(50, 10))
sns.countplot(data=movies, x='year', order=sorted(movies['year'].unique()))
먼저 그래프의 size를 설정한다.
예제는 seaborn에서 countplot이라는 그래프 형식을 사용한다.
-> countplot ( [데이터], [x축], [order 방식])
<결과>
'python > data analysis' 카테고리의 다른 글
[Pandas] seaborn - heatmap을 사용한 데이터 상관관계 시각화 (0) | 2021.08.26 |
---|---|
[Pandas] get_dummies를 사용한 수치화된 데이터 생성 (0) | 2021.08.26 |
[Pandas] apply 함수를 사용한 데이터 분석 (0) | 2021.08.25 |
[Pandas] str.extract를 사용한 데이터 전처리 + 결측값 핸들링하기 (0) | 2021.08.25 |
[Pandas] csv 파일 읽기 및 쓰기 (0) | 2021.08.25 |