Question

Рассмотрим следующий код API данных:

df
.withColumn("resultA",expensiveUDF($"inputA"))
.withColumn("resultB",expensiveUDF($"inputB"))
.show()

оба вызова UDF будут выполняться последовательно, поскольку они находятся в одной задаче. Есть ли способ, чтобы эти UDF-вызовы выполнялись одновременно? Поскольку они независимы друг от друга, это не должно быть слишком сложным.

Я пытался увеличить spark.task.cpus, но это не решило проблему.

Я знаю, что есть способ использовать многопоточность в Spark в коде UDF, но это не то, что я хочу делать.

запускать UDF параллельно в Spark DataFrame для данной строки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

запускать UDF параллельно в Spark DataFrame для данной строки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов