Apache Zeppelin(아파치 제플린)
in Data on Engineering
Apache Zeppelin 장점
- Apache Spark와 궁합이 잘맞음
- Interactive한 레포트 작성 가능
Apache Zeppelin Install
- 홈페이지 접속 후 다운로드
- 용량이 큰 것은 빅쿼리, 카산드라 등이 모두 빌드된 것이고 작은 것은 스파크만 빌드
- 압축 풀기
cd /folder
: 압축을 푼 폴더로 들어가기- 빌드 :
./bin/zeppelin.sh
- 빌드 후 실행 :
./bin/zeppelin-daemon.sh start
- 종료 :
./bin/zeppelin-daemon.sh stop
localhost:8080
로 접속- 종료해도 죽지 않는다면(2번 이상 실행해서)
ps -al
로 Zepplin PID를 찾은 후,kill -9 <PID>
로 죽이기
Apache Zeppelin
- 자동완성 기능 :
control + .
또는tab
(0.8.0 version에서 추가됨!) - 각종 설정을 변경하고 싶을 경우
/$ZEPPELIN_FOLDER/conf/
에 있는 *.template 파일의 이름에서 .template를 제거한 후 설정하면 됩니다- ex) 기본 포트인 8080을 변경하고 싶은 경우
/conf/zeppelin-site.xml.template
을/conf/zeppelin-site.xml
로 수정한 후, zeppelin.server.port라고 작성된 곳의 value에 포트를 변경해주면 됩니다
- Zeppelin의 Notebook 파일은
$ZEPPELIN_HOME/notebook
폴더에 저장됩니다! Jupyter Notebook과 다르게 json 파일로 저장됩니다 - default라고 되어있는 버튼을 클릭하면 Report 형태(Code 숨김)로 볼 수 있습니다
- 우측 최상단 Anonymous를 클릭하면 하단에 메뉴가 나옵니다. 다른 부분은 직접 클릭해보면 알 수 있고, Interpreter를 눌러보겠습니다
- 각종 Interpreter 설정을 할 수 있는 곳입니다. 위 사진은 Spark 부분의 옵션값 페이지입니다
Tutorial
- Zeppelin Tutorial을 해봤습니다
- 이런 식으로 코드를 작성해서 사용합니다!
- 빠른 데이터 시각화가 가능합니다
- settings를 클릭하면 더 자세한 설정 가능
bank.toDF().registerTempTable("bank")
를 통해 bank라는 TempTable 생성했습니다!
Dynamic Form
- Dynamic Form은 사용자가 클릭만으로 쉽게 조작할 수 있도록 도와줍니다!
- 코딩을 할 줄 모르는 사람에게 유용
- Select form은
${formName=defaultValue,option1|option2...}
이런 방식으로 생성
- Checkbox form은
${checkbox:formName=defaultValue1|defaultValue2...,option1|option2...}
이런 방식으로 생성 - Text input도 있습니다! Zeppelin 공식문서 참고해주세요!
카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)
PM을 위한 데이터 리터러시 강의를 만들었습니다. 문제 정의, 지표, 실험 설계, 문화 만들기, 로그 설계, 회고 등을 담은 강의입니다
이 글이 도움이 되셨거나 다양한 의견이 있다면 댓글 부탁드립니다 :)