Мой сценарий использования выглядит следующим образом:
- Чтение одного или нескольких информационных кадров в приложении spark-scala.
- Получите вызываемый Python с функцией 'compute', которая принимает каквведите несколько фреймов данных и в результате создайте один фрейм данных.
- Передайте фреймы данных в вызываемый Python в качестве аргументов.
- Получите результирующий фрейм данных из вызываемого Python.
- Выполните дополнительную постобработку на этом результирующем фрейме данных и, наконец, сохраните его.
Может ли кто-нибудь помочь достичь такой плавной интеграции scala-pyspark?Задача состоит в том, чтобы иметь возможность запускать преобразования на основе Python для фреймов данных из приложения scala-spark.Вызываемый объект будет аналогичен UDF, за исключением того, что он будет принимать несколько фреймов данных в качестве входных данных и возвращать один фрейм данных:
def compute(df1, df2, df3) :
...
return result_df
Рабочий пример будет очень полезен.
С наилучшими пожеланиями