запускать UDF параллельно в Spark DataFrame для данной строки - PullRequest
0 голосов
/ 05 ноября 2018

Рассмотрим следующий код API данных:

df
.withColumn("resultA",expensiveUDF($"inputA"))
.withColumn("resultB",expensiveUDF($"inputB"))
.show()

оба вызова UDF будут выполняться последовательно, поскольку они находятся в одной задаче. Есть ли способ, чтобы эти UDF-вызовы выполнялись одновременно? Поскольку они независимы друг от друга, это не должно быть слишком сложным.

Я пытался увеличить spark.task.cpus, но это не решило проблему.

Я знаю, что есть способ использовать многопоточность в Spark в коде UDF, но это не то, что я хочу делать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...