Функция Spark Column для Python - PullRequest
0 голосов
/ 25 января 2019

Я прочитал несколько статей о "функциях столбца" в spark. Похоже, они являются стандартными функциями UDF, которые принимают параметр столбца и возвращают тип столбца. например,

def removeAllWhitespace(col: Column): Column = {
  regexp_replace(col, "\\s+", "")
}

В одной из статей говорится: «UDF - это черный ящик для движка Spark, тогда как функции, которые принимают аргумент Column и возвращают Column, не являются черным ящиком для Spark».

Пример выше в Scala. Можно ли сделать то же самое в python с теми же преимуществами в производительности?

1 Ответ

0 голосов
/ 25 января 2019

Составление объектов из pyspark.sql.functions:

from pyspark.sql.functions import regexp_replace

def remove_all_whitespace(col):
    return regexp_replace(col, "\\s+", "")

Использование:

df = spark.createDataFrame(["fo oo  oo   ooo"], "string")
df.select(remove_all_whitespace("value"))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...