Работают ли определяемые пользователем функции (UDF) в SPARK распределенным образом? - PullRequest
2 голосов
/ 03 августа 2020

Работают ли определяемые пользователем функции (UDF) в SPARK распределенным образом, если данные хранятся на разных узлах, или все данные накапливаются в главном узле для обработки? Если он работает распределенным образом, то можем ли мы преобразовать любую функцию из python, предопределенную или определяемую пользователем, в искровой UDF, как указано ниже:

spark.udf.register ("myFunctionName ", functionNewName)

1 Ответ

1 голос
/ 03 августа 2020

Фрейм данных Spark распределяется по кластеру по разделам. Каждый раздел обрабатывается UDF, поэтому ответ - да. Вы также можете увидеть это в Spark UI.

...