목록2024/08/11 (1)
imhamburger 님의 블로그
데이터엔지니어 부트캠프 - 아파치 스파크(Apache Spark) 이해하기, 에어플로우에 적용시키기 (5주차)
팀프로젝트가 끝나고 아파치 스파크(Apache Spark)를 배웠다.스파크는 빅데이터 처리를 위한 오픈 소스 분산 처리 시스템이다. 스파크 이전에 하둡이라는 기존 분산 처리 시스템이 있긴한데, 하둡보다 분산 처리 시스템이 빠르고 메모리 내에서 데이터를 처리하기 때문에 효율적인 실시간 데이터 처리도 가능하다. 분산 처리를 왜 써야하지?사실 데이터가 적다면 굳이 쓸 필요가 없을 것이다. 그런데 빅데이터의 경우 분산처리를 안한다면 방대한 양의 데이터를 처리하는데 시간이 엄~청 오래 걸릴 것이다. 예를들어,카페에서 커피를 100잔 만들어야된다고 가정해보자. 그리고 커피 1잔을 만드는 데 드는 시간을 1분이라고 할 때, 일하는 사람이 한 사람뿐이라면 100분을 투자해야 100잔을 만들 수 있다.그렇지만, 일하는 ..
데이터엔지니어 부트캠프
2024. 8. 11. 13:53