'판다스(Pandas)' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록판다스(Pandas) (3)

imhamburger 님의 블로그

데이터엔지니어 부트캠프 - 영화 박스오피스 데이터 ETL(Extraction / Transform / Load) (7월의 기록)

1. requests로 영화데이터 가져오기 사전에 영화진흥위원회에 가입하여 Key를 발급받아야 한다.import requestsimport osimport pandas as pd#영화진흥위원회에서 정해진 REST 방식을 이용하여 url 요청형식 맞추기def gen_url(dt="20120101", url_param={}): base_url = "http://www.kobis.or.kr/kobisopenapi/webservice/rest/boxoffice/searchDailyBoxOfficeList.json" key = get_key() url = f"{base_url}?key={key}&targetDt={dt}" for key, value in url_param.items()..

판다스(Pandas) 2024. 8. 4. 14:33

판다스(Pandas) - Partition_cols 이해하기

partition_cols 을 이용하면 데이터 용량을 줄일 수 있다.partition_cols은 일반적으로 데이터프레임을 저장할 때 특정 열(Column)을 기준으로 데이터를 분할하는 데 사용되는 인수이다. partition_cols은 보통 Parquet 또는 ORC 파일 형식 저장에서 사용되며, 데이터를 여러 파일 또는 폴더로 나눠서 저장한다.이렇게하면, 방대한 데이터가 있을 때 더 관리하기 쉬워지고 데이터를 빠르게 찾아 로드할 수 있다. 게다가 큰 장점은 용량이 적다는 것! 아래는 실제로 partition_cols을 사용하여 저장한 데이터와 그렇지 않은 데이터의 용량 크기 차이를 보여준다. Partition_cols을 사용하는 방법은 간단하다.{데이터테이블명}.to_parquet('{저장할 파일경로}..

판다스(Pandas) 2024. 7. 27. 10:13

판다스(Pandas) - csv파일 불러오기, unicode 에러 해결하기

판다스(Pandas)를 사용하기 위해 주피터노트북을 사용하였다. pyenv로 가상환경을 만들고 그 안에 주피터노트북을 설치하였다. 1. 주피터노트북을 실행하고 pandas를 import한다.import pandas as pd 2. csv파일로 된 데이터를 불러오기 위해 다음과 같이 입력한다.df = pd.read_csv('{파일경로}', on_bad_lines='skip')on_bad_lines='skip'을 추가한 이유는 내가 가지고있는 csv파일 안에 형식이 안맞는 데이터들이 좀 있어서 스킵하고 사용하였다. 인코딩 에러메세지가 떴다. 해결방법은 아래 코드처럼 encoding = "latin"을 넣어주면 된다.df = pd.read_csv('~/data/csv/240717/csv.csv', on_bad..

판다스(Pandas) 2024. 7. 25. 09:28

이전 Prev 1 Next 다음

목록판다스(Pandas) (3)

imhamburger 님의 블로그

티스토리툴바