Я обрабатываю свои данные с помощью Scala Spark и хочу использовать pySpark / python для дальнейшей обработки.
Ниже приведен пример для Pyspark -> scala, но я ищу scala-> Pyspark
https://www.crowdstrike.com/blog/spark-hot-potato-passing-dataframes-between-scala-spark-and-pyspark/
Ниже приведены несколько подходов, которые я нашел для Scala-> PySpark
- Jython - это один путь -> но он не имеет всех API / библиотек, как Python
- Метод труб ->
val pipedData = data.rdd.pipe("hdfs://namenode/hdfs/path/to/script.py")
Но с Pipe я теряю преимущества dataframe, а в python мне может понадобиться преобразовать его в Dataframe / DataSet.
Есть ли какой-нибудь другой лучший способ, как Scala spark может общаться с PYSpark с помощью того же sparkContext / сеанса?