Рассмотрим следующий код API данных:
df
.withColumn("resultA",expensiveUDF($"inputA"))
.withColumn("resultB",expensiveUDF($"inputB"))
.show()
оба вызова UDF будут выполняться последовательно, поскольку они находятся в одной задаче. Есть ли способ, чтобы эти UDF-вызовы выполнялись одновременно? Поскольку они независимы друг от друга, это не должно быть слишком сложным.
Я пытался увеличить spark.task.cpus
, но это не решило проблему.
Я знаю, что есть способ использовать многопоточность в Spark в коде UDF, но это не то, что я хочу делать.