python

    [Pandas] 영화 평점 데이터 분석

    [Pandas] 영화 평점 데이터 분석

    최근 Pandas를 통해 영화 평점 데이터를 분석하면서 실습했던 내용을 기록한다. 사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv, ratings.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') ratings = pd.read_csv('[파일 경로]/ratings.csv') 영화에 대한 목록(movies)과 각 영화에 대한 평점(ratings) 데이터 겨울왕국 평점보기 당연히 평점이 높을 것으로 예상되는 겨울왕국(Frozen)은 사람들이 어떻게 평점을 주었는지에 ..

    [Pandas] 멱함수 분포

    [Pandas] 멱함수 분포

    여러 통계 데이터는 대부분 정규분포를 띄고 있다는 말이 있지만, 최근 수많은 데이터 분석을 통해 그렇지만은 않다고 밝혀졌다. 여기서는 통계 데이터 분포로서 자주 등장하는 멱함수 분포에 대해 알아보겠다. 사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> ratings.csv https://grouplens.org/datasets/movielens/ import pandas as pd ratings = pd.read_csv('[파일 경로]/ratings.csv') 사용자(userId)가 영화(movieId)에 대해 평점(rating)을 부여한 데이터 사람들는 평균적으로 몇 개의 영화에 대해서 rating을 남겼는가? groupby() users = ratings.gro..

    [Pandas] describe(), hist()를 통한 데이터 분석

    [Pandas] describe(), hist()를 통한 데이터 분석

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> ratings.csv https://grouplens.org/datasets/movielens/ import pandas as pd ratings = pd.read_csv('[파일 경로]/ratings.csv') describe() ratings['rating'].describe() 데이터의 개수 및 최대,최소값 분석 count 100836.000000 mean 3.501557 std 1.042529 min 0.500000 25% 3.000000 50% 3.500000 75% 4.000000 max 5.000000 Name: rating, dtype: float64 hist() ratings['rating'].his..

    [Pandas] seaborn - heatmap을 사용한 데이터 상관관계 시각화

    [Pandas] seaborn - heatmap을 사용한 데이터 상관관계 시각화

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') genres_dummies = movies['genres'].str.get_dummies(sep='|') 영화 별로 어떤 장르에 속하는지에 대한 데이터 corr() genres_dummies.corr() 데이터의 상관관계를 알 수 있다. 각 장르별 상관관계를 상관계수로서 표현한다. 두 장르의 관계가 1에 가깝다는 것은: 두 장르가 자주 같이 출현한다는 것 두 장르의 관계가 -..

    [Pandas] get_dummies를 사용한 수치화된 데이터 생성

    [Pandas] get_dummies를 사용한 수치화된 데이터 생성

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') +) year 컬럼은 title에서 추출하여 따로 추가해둔 상태 장르 데이터 숫자형으로 변경하기 현재 movies 데이터에 genres 컬럼을 살펴보면 한 영화가 여러 장르를 갖고 있다. 따라서 각 영화가 'Adventure' 장르를 갖고 있는지 알기 위해서는 movies['Adventure'] = movies['genres'].apply(lambda x: 'Adventure..

    [Pandas] apply 함수를 사용한 데이터 분석

    [Pandas] apply 함수를 사용한 데이터 분석

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') +) year 컬럼은 title에서 추출하여 따로 추가해둔 상태 genre 분석 apply 함수를 사용해 movies 데이터의 장르를 분석해보자. apply apply 함수는 특정 데이터 컬럼에 특정 함수를 반복적으로 적용시킬 수 있는 함수이다. 예시를 보면 이해가 빠를 것이다. sample_genre = movies['genres'][1] sample_genre.split(..

    [Pandas] seaborn을 사용한 데이터 시각화

    [Pandas] seaborn을 사용한 데이터 시각화

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') +) year 컬럼은 title에서 추출하여 따로 추가해둔 상태 데이터에 가장 많이 출현하는 개봉연도 movies['year'].value_counts() year에 대한 개수를 보여준다. 2002 311 2006 295 2001 294 2007 284 2000 283 ... 1902 1 1903 1 1919 1 1922 1 1917 1 Name: year, Length: 1..

    [Pandas] str.extract를 사용한 데이터 전처리 + 결측값 핸들링하기

    [Pandas] str.extract를 사용한 데이터 전처리 + 결측값 핸들링하기

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') 판다스에서 문자열 관련 함수를 사용하거나 전처리를 하기 위해서는 str을 붙여주어야 한다. 그중 원하는 문자열을 추출하는 extract 함수에 대해 알아보겠다. 개봉연도 데이터 정제하기(데이터 전처리, Preprocessing) movies 데이터의 title에서 괄호 ( ) 안의 연도 4자리를 추출하고 싶을 때, 정규 표현식을 사용하면 편리하다. movies['year'] ..