Question

Я прочитал несколько статей о "функциях столбца" в spark. Похоже, они являются стандартными функциями UDF, которые принимают параметр столбца и возвращают тип столбца. например,

def removeAllWhitespace(col: Column): Column = {
  regexp_replace(col, "\\s+", "")
}

В одной из статей говорится: «UDF - это черный ящик для движка Spark, тогда как функции, которые принимают аргумент Column и возвращают Column, не являются черным ящиком для Spark».

Пример выше в Scala. Можно ли сделать то же самое в python с теми же преимуществами в производительности?

Miguel A. Friginal · Answer 1 · 25 января 2019

Составление объектов из pyspark.sql.functions:

from pyspark.sql.functions import regexp_replace

def remove_all_whitespace(col):
    return regexp_replace(col, "\\s+", "")

Использование:

df = spark.createDataFrame(["fo oo  oo   ooo"], "string")
df.select(remove_all_whitespace("value"))

Функция Spark Column для Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Функция Spark Column для Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов