У меня есть функция Python, такая как:
def blank_as_null(x):
return when(col(x) != "", col(x)).otherwise(None)
Я использую эту функцию без запуска udf(blank_as_null, StringType())
, как предлагается в документации: http://spark.apache.org/docs/2.2.0/api/python/pyspark.sql.html или в этом видео: https://youtu.be/AsW0QzbYVow?t=42m33s (в 42:33 вы можете увидеть код, вызывающий функцию udf
)
И тогда я сделаю что-то вроде:
myData.withColumn('myColumn', blank_as_null('myColumn'))
будет тамкакая польза от регистрации функции python в первую очередь?При каких условиях регистрация выгодна?Когда это не имеет значения?Или регистрация производится автоматически под капотом?