Запуск PySpark из Scala / Java Spark - PullRequest
0 голосов
/ 14 мая 2019

Я обрабатываю свои данные с помощью Scala Spark и хочу использовать pySpark / python для дальнейшей обработки.

Ниже приведен пример для Pyspark -> scala, но я ищу scala-> Pyspark

https://www.crowdstrike.com/blog/spark-hot-potato-passing-dataframes-between-scala-spark-and-pyspark/

Ниже приведены несколько подходов, которые я нашел для Scala-> PySpark

  1. Jython - это один путь -> но он не имеет всех API / библиотек, как Python
  2. Метод труб -> val pipedData = data.rdd.pipe("hdfs://namenode/hdfs/path/to/script.py")

Но с Pipe я теряю преимущества dataframe, а в python мне может понадобиться преобразовать его в Dataframe / DataSet.

Есть ли какой-нибудь другой лучший способ, как Scala spark может общаться с PYSpark с помощью того же sparkContext / сеанса?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...