<사용 데이터>
MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv
https://grouplens.org/datasets/movielens/
Read Data
csv 파일 읽기
import pandas as pd pd.read_csv('[파일 경로]/movies.csv')
Pandas를 통해 해당 경로의 파일을 읽을 수 있다.
read_csv가 아닌 read_excel, read_pickle 등 다양한 파일 형식을 읽을 수 있다.
<결과 예시>

csv 파일을 읽으면 기본적으로 1열에 0부터 시작하는 index를 부여한다.
movies = pd.read_csv('[파일 경로]/movies.csv')
만약, 파일을 읽을 때 변수에 저장하면, 해당 파일을 변수를 통해 여러 가지 분석을 할 수 있게 된다.
+) Google Colab 사용 시 파일 읽기
Google Drive의 파일에 접근하고 싶다면 드라이브 마운트 과정이 필요하다.

colab 왼 편의 폴더 아이콘을 클릭하고 '드라이브 마운트' 아이콘을 클릭한다.

이제 구글 드라이브 폴더에 접근 가능하다, 원하는 파일의 '경로 복사' 통해 파일 경로를 쉽게 복사할 수 있다.
인덱스 설정
movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId')
만약 movieId를 index로 설정하고 싶다면 위와 같이 index_col 옵션을 부여한다.
<결과 예시>

Shape
movies.shape
데이터의 shape(행, 열)
<결과>
(9742, 2)
데이터 샘플 확인
# movies.head(10) //읽어온 파일의 처음 10건 확인 # movies.tail(10) //읽어온 파일의 마지막 10건 확인 movies.sample(10) //읽어온 파일을 랜덤하게 10건 확인
<결과>

데이터 컬럼 확인
movies.columns
<결과>
Index(['title', 'genres'], dtype='object')
Save Data
movies.to_csv('[파일 경로]/save_test.csv')
csv 파일을 지정된 경로에 저장
이 역시 to_excel, to_pickle 등 다양한 파일 형식으로 저장할 수 있다.
'python > data analysis' 카테고리의 다른 글
[Pandas] seaborn - heatmap을 사용한 데이터 상관관계 시각화 (0) | 2021.08.26 |
---|---|
[Pandas] get_dummies를 사용한 수치화된 데이터 생성 (0) | 2021.08.26 |
[Pandas] apply 함수를 사용한 데이터 분석 (0) | 2021.08.25 |
[Pandas] seaborn을 사용한 데이터 시각화 (0) | 2021.08.25 |
[Pandas] str.extract를 사용한 데이터 전처리 + 결측값 핸들링하기 (0) | 2021.08.25 |