Question

Я обрабатываю свои данные с помощью Scala Spark и хочу использовать pySpark / python для дальнейшей обработки.

Ниже приведен пример для Pyspark -> scala, но я ищу scala-> Pyspark

Ниже приведены несколько подходов, которые я нашел для Scala-> PySpark

Jython - это один путь -> но он не имеет всех API / библиотек, как Python
Метод труб -> val pipedData = data.rdd.pipe("hdfs://namenode/hdfs/path/to/script.py")

Но с Pipe я теряю преимущества dataframe, а в python мне может понадобиться преобразовать его в Dataframe / DataSet.

Есть ли какой-нибудь другой лучший способ, как Scala spark может общаться с PYSpark с помощью того же sparkContext / сеанса?

Запуск PySpark из Scala / Java Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.