python/data analysis

    [Pandas] get_dummies를 사용한 수치화된 데이터 생성

    [Pandas] get_dummies를 사용한 수치화된 데이터 생성

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') +) year 컬럼은 title에서 추출하여 따로 추가해둔 상태 장르 데이터 숫자형으로 변경하기 현재 movies 데이터에 genres 컬럼을 살펴보면 한 영화가 여러 장르를 갖고 있다. 따라서 각 영화가 'Adventure' 장르를 갖고 있는지 알기 위해서는 movies['Adventure'] = movies['genres'].apply(lambda x: 'Adventure..

    [Pandas] apply 함수를 사용한 데이터 분석

    [Pandas] apply 함수를 사용한 데이터 분석

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') +) year 컬럼은 title에서 추출하여 따로 추가해둔 상태 genre 분석 apply 함수를 사용해 movies 데이터의 장르를 분석해보자. apply apply 함수는 특정 데이터 컬럼에 특정 함수를 반복적으로 적용시킬 수 있는 함수이다. 예시를 보면 이해가 빠를 것이다. sample_genre = movies['genres'][1] sample_genre.split(..

    [Pandas] seaborn을 사용한 데이터 시각화

    [Pandas] seaborn을 사용한 데이터 시각화

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') +) year 컬럼은 title에서 추출하여 따로 추가해둔 상태 데이터에 가장 많이 출현하는 개봉연도 movies['year'].value_counts() year에 대한 개수를 보여준다. 2002 311 2006 295 2001 294 2007 284 2000 283 ... 1902 1 1903 1 1919 1 1922 1 1917 1 Name: year, Length: 1..

    [Pandas] str.extract를 사용한 데이터 전처리 + 결측값 핸들링하기

    [Pandas] str.extract를 사용한 데이터 전처리 + 결측값 핸들링하기

    사용 데이터 MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ import pandas as pd movies = pd.read_csv('[파일 경로]/movies.csv', index_col='movieId') 판다스에서 문자열 관련 함수를 사용하거나 전처리를 하기 위해서는 str을 붙여주어야 한다. 그중 원하는 문자열을 추출하는 extract 함수에 대해 알아보겠다. 개봉연도 데이터 정제하기(데이터 전처리, Preprocessing) movies 데이터의 title에서 괄호 ( ) 안의 연도 4자리를 추출하고 싶을 때, 정규 표현식을 사용하면 편리하다. movies['year'] ..

    [Pandas] csv 파일 읽기 및 쓰기

    [Pandas] csv 파일 읽기 및 쓰기

    MovieLens 영화 데이터 -> ml-latest-small.zip -> movies.csv https://grouplens.org/datasets/movielens/ Read Data csv 파일 읽기 import pandas as pd pd.read_csv('[파일 경로]/movies.csv') Pandas를 통해 해당 경로의 파일을 읽을 수 있다. read_csv가 아닌 read_excel, read_pickle 등 다양한 파일 형식을 읽을 수 있다. csv 파일을 읽으면 기본적으로 1열에 0부터 시작하는 index를 부여한다. movies = pd.read_csv('[파일 경로]/movies.csv') 만약, 파일을 읽을 때 변수에 저장하면, 해당 파일을 변수를 통해 여러 가지 분석을 할 수 ..