목록2024/12/10 (1)
imhamburger 님의 블로그

파이널 프로젝트에서 DB 설계를 하던 중 3개의 웹사이트에서 크롤링한 데이터를 DB에 적재할 때 중복값 처리는 어떻게 할지 고민이었다.같은 웹사이트에서 가져오는 데이터라면 고유번호를 기준으로 DB에 적재하면 되는데 각기 다른 사이트이기에 이 방법은 쓸 수 없었다. 하지만 중복값이라는 건 어쨋든 같은 데이터이기 때문에... 대표 1개의 웹사이트를 정해서 먼저 DB에 데이터를 적재한 후,나머지 2개를 DB에 넣을 때 같은 값이 있을 경우에 "hosts"라는 컬럼 안에 site_id와 url 이 추가되는 것으로 처리하였다. Mongodb 초기 설계{ "_id": ObjectId("..."), "title": "뮤지컬 공연 제목", "start_time": "2024-11-20T19:00:00", "en..
데이터 엔지니어링
2024. 12. 10. 14:50