Выполнить код PySpark из приложения Java / Scala - PullRequest
4 голосов
/ 08 апреля 2020

Есть ли способ выполнить код PySpark из приложения Java / Scala в существующей SparkSession?

В частности, учитывая код PySpark, который получает и возвращает фрейм данных pyspark, существует ли способ его отправки в Java / Scala SparkSession и получить выходной фрейм данных:

String pySparkCode = "def my_func(input_df):\n" +
    "    from pyspark.sql.functions import *\n" +
    "    return input_df.selectExpr(...)\n" +
    "            .drop(...)\n" +
    "            .withColumn(...)\n"

SparkSession spark = SparkSession.builder().master("local").getOrCreate()

Dataset inputDF = spark.sql("SELECT * from my_table")

outputDf = spark.<SUBMIT_PYSPARK_METHOD>(pySparkCode, inputDF)

...