'스파크(Spark)' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록스파크(Spark) (4)

imhamburger 님의 블로그

스파크(Spark) - 제플린으로 만든 그래프에 select box 구현하기

제플린 context select box 구현하는 방법은 공식문서를 따라하면 된다. sql 로 구현하기SELECT genreAlt, COUNT(*) AS cntFROM ${table=movdir}where genreAlt like '%${genreAlt}%'GROUP BY genreAltORDER BY cnt DESC LIMIT 10 결과genreAlt 부분에 보고싶은 장르만 입력하면 된다. "판타지"를 입력하였을 때 판타지가 포한된 장르가 나온걸 볼 수 있다. 근데 직접 입력하는 것이 아닌 선택박스로 바꾸고 싶다면??SELECT genreAlt, COUNT(*) AS cntFROM ${table=movdir}where genreAlt like '%${genreAlt=드라..

스파크(Spark) 2024. 8. 21. 23:33

스파크(Spark) - JSON파일을 읽어와 아파치스파크에서 파싱하기

JSON파일을 읽어와 스파크에서 파싱하기 1. JSON파일 불러오기jdf = spark.read.option("multiline","true").json('/home/data/movies')json파일 안에 데이터 형식 단일이 아닌 여러줄로 구성되어 있는 경우, multiline 값을 true로 줘야한다. 2. JSON파일 schema 확인하기jdf.printSchema()root |-- companys: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- companyCd: string (nullable = true) | | |-- companyNm: string (nullable = tr..

스파크(Spark) 2024. 8. 20. 12:24

스파크(Spark) - 분산 처리 시스템 구조 이해하기

지난글에서 스파크가 뭔지?에 대해 설명하였다. 스파크는 빅데이터 처리를 위한 오픈 소스 분산 처리 시스템이다.그리고 분산 처리를 하기위해 스파크에서 중요한 역할을 하는 두 가지 핵심 컴포넌트가 있다. 컴포넌트의 의미는 각각 독립된 모듈이라고 생각하면 된다. 두 가지 핵심 컴포넌트를 설명하기 전에 알아야할 개념이 있다.바로 '클러스터' 이다. 클러스터는 여러 대의 컴퓨터(노드)가 서로 연결되어 협력하여 작업을 수행하는 시스템을 말한다.이는 빅데이터 처리를 위해 여러 노드가 병렬로 작업을 수행하며, 각 노드는 독립적인 컴퓨터로서 네트워크를 통해 상호작용한다. 그러니까, 카페에서 커피 100잔을 만들 때 어떤 사람은 아메리카노, 어떤 사람은 카푸치노, 어떤 사람은 카페 라떼 등.. 나누어 만들지만 어쨋든 주..

스파크(Spark) 2024. 8. 14. 19:29

Apache Zeppelin process died 오류, Zeppelin 포트번호 변경하기

1. Apache Zeppelin process died 오류 맥에서 Zeppelin을 start했는데 위와 같은 오류가 발생했다.위와 같은 오류가 발생하는 이유는 2가지이다.localhost:8080에 이미 무언가가 돌아가고 있거나설치한 자바의 JAVA_HOME 경로가 잘못되었거나나는 설치한 자바의 경로가 잘못되어 위의 오류 메세지가 떴다. 따라서, .zshrc 에 아래 코드를 추가해주니 해결할 수 있었다. (참고로 나는 jdk 17버전을 설치하였다.)export JAVA_HOME=/usr/local/opt/openjdk@17export PATH=$JAVA_HOME/bin:$PATH 자바를 설치하면 아래와 같은 설명이 나오는데 꼭 읽어보고 추가해줘야할 건 추가해주자. 다시 실행한 결과, + spark..

스파크(Spark) 2024. 8. 9. 14:05

이전 Prev 1 Next 다음

목록스파크(Spark) (4)

imhamburger 님의 블로그

티스토리툴바