Скомпилируйте и запустите скрипт pyspark как часть приложения Spark-scala - PullRequest
1 голос
/ 27 сентября 2019

Мой сценарий использования выглядит следующим образом:

  1. Чтение одного или нескольких информационных кадров в приложении spark-scala.
  2. Получите вызываемый Python с функцией 'compute', которая принимает каквведите несколько фреймов данных и в результате создайте один фрейм данных.
  3. Передайте фреймы данных в вызываемый Python в качестве аргументов.
  4. Получите результирующий фрейм данных из вызываемого Python.
  5. Выполните дополнительную постобработку на этом результирующем фрейме данных и, наконец, сохраните его.

Может ли кто-нибудь помочь достичь такой плавной интеграции scala-pyspark?Задача состоит в том, чтобы иметь возможность запускать преобразования на основе Python для фреймов данных из приложения scala-spark.Вызываемый объект будет аналогичен UDF, за исключением того, что он будет принимать несколько фреймов данных в качестве входных данных и возвращать один фрейм данных:

def compute(df1, df2, df3) :
   ...
   return result_df

Рабочий пример будет очень полезен.

С наилучшими пожеланиями

...