목록스파크(Spark) (4)
imhamburger 님의 블로그

제플린 context select box 구현하는 방법은 공식문서를 따라하면 된다. sql 로 구현하기SELECT genreAlt, COUNT(*) AS cntFROM ${table=movdir}where genreAlt like '%${genreAlt}%'GROUP BY genreAltORDER BY cnt DESC LIMIT 10 결과genreAlt 부분에 보고싶은 장르만 입력하면 된다. "판타지"를 입력하였을 때 판타지가 포한된 장르가 나온걸 볼 수 있다. 근데 직접 입력하는 것이 아닌 선택박스로 바꾸고 싶다면??SELECT genreAlt, COUNT(*) AS cntFROM ${table=movdir}where genreAlt like '%${genreAlt=드라..

JSON파일을 읽어와 스파크에서 파싱하기 1. JSON파일 불러오기jdf = spark.read.option("multiline","true").json('/home/data/movies')json파일 안에 데이터 형식 단일이 아닌 여러줄로 구성되어 있는 경우, multiline 값을 true로 줘야한다. 2. JSON파일 schema 확인하기jdf.printSchema()root |-- companys: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- companyCd: string (nullable = true) | | |-- companyNm: string (nullable = tr..

지난글에서 스파크가 뭔지?에 대해 설명하였다. 스파크는 빅데이터 처리를 위한 오픈 소스 분산 처리 시스템이다.그리고 분산 처리를 하기위해 스파크에서 중요한 역할을 하는 두 가지 핵심 컴포넌트가 있다. 컴포넌트의 의미는 각각 독립된 모듈이라고 생각하면 된다. 두 가지 핵심 컴포넌트를 설명하기 전에 알아야할 개념이 있다.바로 '클러스터' 이다. 클러스터는 여러 대의 컴퓨터(노드)가 서로 연결되어 협력하여 작업을 수행하는 시스템을 말한다.이는 빅데이터 처리를 위해 여러 노드가 병렬로 작업을 수행하며, 각 노드는 독립적인 컴퓨터로서 네트워크를 통해 상호작용한다. 그러니까, 카페에서 커피 100잔을 만들 때 어떤 사람은 아메리카노, 어떤 사람은 카푸치노, 어떤 사람은 카페 라떼 등.. 나누어 만들지만 어쨋든 주..

1. Apache Zeppelin process died 오류 맥에서 Zeppelin을 start했는데 위와 같은 오류가 발생했다.위와 같은 오류가 발생하는 이유는 2가지이다.localhost:8080에 이미 무언가가 돌아가고 있거나설치한 자바의 JAVA_HOME 경로가 잘못되었거나나는 설치한 자바의 경로가 잘못되어 위의 오류 메세지가 떴다. 따라서, .zshrc 에 아래 코드를 추가해주니 해결할 수 있었다. (참고로 나는 jdk 17버전을 설치하였다.)export JAVA_HOME=/usr/local/opt/openjdk@17export PATH=$JAVA_HOME/bin:$PATH 자바를 설치하면 아래와 같은 설명이 나오는데 꼭 읽어보고 추가해줘야할 건 추가해주자. 다시 실행한 결과, + spark..