본문 바로가기

개발

구글 코랩(Colab)에서 json 파일 열기

json 파일은 어떻게 여는 건지, 파이참으로 열면

이렇게 뭔 암호같은 딕셔너리만 가득해서 무서웠는데.. ㅋㅋㅋ

사실 별 거 아니었다!

이 포스팅에서는 구글 드라이브에 마운트하는 방법을 다루지만,

그냥 런타임에 올리고 똑같이 해도 된다.

먼저 구글 드라이브 내에 폴더를 새로 파서,

json 파일을 넣어준다.

 

from google.colab import drive
drive.mount('/content/drive')

구글 드라이브에 마운트 해 주고,

# 파일 넣어둔 폴더로 이동
% cd /content/drive/본인경로

파일을 넣어둔 구글 드라이브 폴더 경로를 넣어준다. (해당 폴더로 경로 이동)

 

(생략 가능 : 파일 미리보기)

# json 파일 프린트
from glob import glob
for filename in glob('*.json'):
  print(filename)

이렇게 하면 해당 폴더의 json 파일을 모두 불러올 수 있는데,

# 각 파일의 shape, head 출력
from IPython.display import display

def preview():
  for filename in glob('*.json'):
    df = pd.read_json(filename)
    print(filename, df.shape)
    display(df.head())
    print('\n')
    
preview()

다음의 코드로 각 파일의 shape와 head를 출력할 수 있다.


위의 과정은 사실 생략 가능하고,

판다스의 pd.read_json으로 파일을 읽어와 변수에 저장하는 것만 해도 된다.

actors = pd.read_json('actors.json')
directors = pd.read_json('directors.json')
movies = pd.read_json('movies.json')
producers = pd.read_json('producers.json')

만약 데이터가

이런 식으로 리스트 안에 딕셔너리가 있는 식이라면, 

pd.read_json(df, orient='records')

를 하면 데이터가 잘 분리된다.

 

하지만 한 column만 그런 경우엔 작동하지 않는데.. ^^

이거 때문에 시간 엄청 날렸다.

해결하면 방법 추가하겠음...