Я прочитал несколько статей о "функциях столбца" в spark. Похоже, они являются стандартными функциями UDF, которые принимают параметр столбца и возвращают тип столбца. например,
def removeAllWhitespace(col: Column): Column = {
regexp_replace(col, "\\s+", "")
}
В одной из статей говорится: «UDF - это черный ящик для движка Spark, тогда как функции, которые принимают аргумент Column и возвращают Column, не являются черным ящиком для Spark».
Пример выше в Scala. Можно ли сделать то же самое в python с теми же преимуществами в производительности?