2장. 아파치 스파크 다운로드 및 시작

<aside> 💡 PySpark

아파치 스파크 2.2 릴리스 이후 스파크를 파이썬으로 배우려는 개발자들은 PyPI 저장소로부터 파이스파크(PySpark)를 설치하는 방법이 있다. 오직 파이썬으로만 프로그래밍한다면 스칼라, 자바, R 등을 실행하는 데 필요한 다른 라이브러리들은 필요가 없으므로 바이너리 크기도 더 작게 만들 수 있다. PyPI로 파이스파크를 설치하려면 ‘pip install pyspark’ 명령어로 설치할 수 있다. </aside>

# tar 파일 압축해제
tar -xf spark-3.3.2-bin-hadoop3.tgz

# 폴더 이동 및 파일 확인
cd spark-3.3.2-bin-hadoop3
ls

스크린샷 2023-03-10 오전 11.01.08.png

README.md
- 스파크 셸 사용법, 소스 빌드 방법, 단독 스파크 실행 법, 스파크 문서의 링크 및 설정 가이드에 대한 내용 등이 담겨져 있다.
bin
- 스파크 셸들을 포함하여(spark-sql, pyspark, spark-shell, sparkR) 스파크와 상호 작용할 수 있는 대부분의 스크립트가 담겨져 있다. 여기의 셸과 실행 파일은 나중에 spark-submit을 사용하여 단독 스파크 애플리케이션을 제출하거나 쿠버네티스로 스파크를 실행할 때 도커 이미지를 만들고 푸시하는 스크립트 작성을 위해 사용될 예정이다.
sbin
- 이 디렉터리 내에 포함된 대부분의 스크립트는 다양한 배포 모드에서 클러스터의 스파크 컴포넌트들을 시작하고 중지하기 위한 관리 목적이다.
kubernetes
- 스파크 2.4 릴리스부터 이 디렉터리에 쿠버네티스 클러스터에서 쓰는 스파크를 위한 도커 이미지 제작을 위한 Dockerfile들을 담고 있따. 또한, 도커 이미지 빌드 전 스파크 배포본을 어떻게 만들지에 대한 가이드를 제공하는 파일도 포함되어 있다.
data
- 몇몇 기능의 입력으로 사용되는 *.txt 파일이 포함되어 있다.
examples
- 입문 예제 코드와 이해를 위한 문서들이 포함되어 있다. 스파크는 자바, 파이썬, R, 스칼라에 대한 예제들을 제공한다.

# pyspark shell 실행하기 
cd bin
./pyspark

strings = spark.read.text("../README.md")
strings.show(10, truncate = False)
strings.count()