목록판다스(Pandas) (3)
imhamburger 님의 블로그
1. requests로 영화데이터 가져오기 사전에 영화진흥위원회에 가입하여 Key를 발급받아야 한다.import requestsimport osimport pandas as pd#영화진흥위원회에서 정해진 REST 방식을 이용하여 url 요청형식 맞추기def gen_url(dt="20120101", url_param={}): base_url = "http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json" key = get_key() url = f"{base_url}?key={key}&targetDt={dt}" for key, value in url_param.items()..
partition_cols 을 이용하면 데이터 용량을 줄일 수 있다.partition_cols은 일반적으로 데이터프레임을 저장할 때 특정 열(Column)을 기준으로 데이터를 분할하는 데 사용되는 인수이다. partition_cols은 보통 Parquet 또는 ORC 파일 형식 저장에서 사용되며, 데이터를 여러 파일 또는 폴더로 나눠서 저장한다.이렇게하면, 방대한 데이터가 있을 때 더 관리하기 쉬워지고 데이터를 빠르게 찾아 로드할 수 있다. 게다가 큰 장점은 용량이 적다는 것! 아래는 실제로 partition_cols을 사용하여 저장한 데이터와 그렇지 않은 데이터의 용량 크기 차이를 보여준다. Partition_cols을 사용하는 방법은 간단하다.{데이터테이블명}.to_parquet('{저장할 파일경로}..
판다스(Pandas)를 사용하기 위해 주피터노트북을 사용하였다. pyenv로 가상환경을 만들고 그 안에 주피터노트북을 설치하였다. 1. 주피터노트북을 실행하고 pandas를 import한다.import pandas as pd 2. csv파일로 된 데이터를 불러오기 위해 다음과 같이 입력한다.df = pd.read_csv('{파일경로}', on_bad_lines='skip')on_bad_lines='skip'을 추가한 이유는 내가 가지고있는 csv파일 안에 형식이 안맞는 데이터들이 좀 있어서 스킵하고 사용하였다. 인코딩 에러메세지가 떴다. 해결방법은 아래 코드처럼 encoding = "latin"을 넣어주면 된다.df = pd.read_csv('~/data/csv/240717/csv.csv', on_bad..