[Pandas] seaborn을 사용한 데이터 시각화

사용 데이터

MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv

https://grouplens.org/datasets/movielens/

import pandas as pd

movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId')

+) year 컬럼은 title에서 추출하여 따로 추가해둔 상태

데이터에 가장 많이 출현하는 개봉연도

movies['year'].value_counts()

year에 대한 개수를 보여준다.

<결과>

2002    311
2006    295
2001    294
2007    284
2000    283
       ... 
1902      1
1903      1
1919      1
1922      1
1917      1
Name: year, Length: 107, dtype: int64

이처럼 영화 개봉연도 별로 얼마나 많은 영화가 저장되어 있는지 확인할 수 있지만, 한 눈에 전체 데이터를 알아보기 힘들다.

-> 데이터 시각화를 위한 seaborn 라이브러리를 사용해보자.

Seaborn

Seaborn은 matplotlib 기반의 파이썬 시각화 라이브러리이다.

matplotlib보다 쉽고, 직관적으로 시각화를 할 수 있어서 데이터 분석가들에게 인기가 좋다.

Official seaborn tutorial

User guide and tutorial — seaborn 0.11.2 documentation

seaborn.pydata.org

%matplotlib inline

import seaborn as sns
import matplotlib.pyplot as plt # seaborn figure 크기 조절을 위해서

seaborn 라이브러리를 import한다.

plt.figure(figsize=(50, 10))
sns.countplot(data=movies, x='year', order=sorted(movies['year'].unique()))

먼저 그래프의 size를 설정한다.

예제는 seaborn에서 countplot이라는 그래프 형식을 사용한다.

-> countplot ( [데이터], [x축], [order 방식])

<결과>

'python > data analysis' 카테고리의 다른 글

[Pandas] seaborn - heatmap을 사용한 데이터 상관관계 시각화 (0)	2021.08.26
[Pandas] get_dummies를 사용한 수치화된 데이터 생성 (0)	2021.08.26
[Pandas] apply 함수를 사용한 데이터 분석 (0)	2021.08.25
[Pandas] str.extract를 사용한 데이터 전처리 + 결측값 핸들링하기 (0)	2021.08.25
[Pandas] csv 파일 읽기 및 쓰기 (0)	2021.08.25

사용 데이터

데이터에 가장 많이 출현하는 개봉연도

Seaborn

'python > data analysis' 카테고리의 다른 글

티스토리툴바