설치

  1. 사전 준비 : 컴퓨터에 자바 8 이나 그 이상의 버전을 설치해야 하며 JAVA_HOME 환경변수를 세팅해야 한다.

    스크린샷 2023-03-10 오전 11.10.27.png

  2. 스파크 다운로드 페이지 접속 - 링크

    스크린샷 2023-03-10 오전 10.44.46.png

<aside> 💡 PySpark

  1. 다운로드 파일 압축해제 및 주요 디렉터리 및 파일 설명
# tar 파일 압축해제
tar -xf spark-3.3.2-bin-hadoop3.tgz

# 폴더 이동 및 파일 확인
cd spark-3.3.2-bin-hadoop3
ls

스크린샷 2023-03-10 오전 11.01.08.png

파이스파크 셸 사용해보기

# pyspark shell 실행하기 
cd bin
./pyspark
strings = spark.read.text("../README.md")
strings.show(10, truncate = False)
strings.count()