스파크 SQL과 아파치 하이브

사용자 정의 함수(user-defined function, UDF)

스파크 SQL UDF

# 큐브 함수 생성
def cubed(s):
    return s*s*s

# UDF로 등록
spark.udf.register("cubed", cubed, LongType())

# 임시 뷰 생성
spark.range(1,9).createOrReplaceTempView("udf_test")

# udf 사용
spark.sql("select id, cubed(id) as id_cubed from udf_test").show()

스파크 SQL에서 평가 순서 및 null 검사

SELECT s FROM test1 WHERE s IS NOT NULL AND strlen(s) > 1

판다스 UDF로 pyspark UDF 속도 향상 및 배포