Question

Мой сценарий использования выглядит следующим образом:

Чтение одного или нескольких информационных кадров в приложении spark-scala.
Получите вызываемый Python с функцией 'compute', которая принимает каквведите несколько фреймов данных и в результате создайте один фрейм данных.
Передайте фреймы данных в вызываемый Python в качестве аргументов.
Получите результирующий фрейм данных из вызываемого Python.
Выполните дополнительную постобработку на этом результирующем фрейме данных и, наконец, сохраните его.

Может ли кто-нибудь помочь достичь такой плавной интеграции scala-pyspark?Задача состоит в том, чтобы иметь возможность запускать преобразования на основе Python для фреймов данных из приложения scala-spark.Вызываемый объект будет аналогичен UDF, за исключением того, что он будет принимать несколько фреймов данных в качестве входных данных и возвращать один фрейм данных:

def compute(df1, df2, df3) :
   ...
   return result_df

Рабочий пример будет очень полезен.

С наилучшими пожеланиями

Скомпилируйте и запустите скрипт pyspark как часть приложения Spark-scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Скомпилируйте и запустите скрипт pyspark как часть приложения Spark-scala

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы