Question

Можно ли в любом случае использовать pandas_udf в pyspark 2.2

CapsLk · Answer 1 · 05 мая 2019

На самом деле вы создаете функцию, а затем pandas_udf из этой данной функции. Если вы хотите использовать его как pyspark udf, все, что вам нужно сделать, это создать pyspark udf из этой функции. С приведенным примером документации по кирпичам данных:

from pyspark.sql.functions import *
from pyspark.sql.types import *

def multiply_func(a, b):
    return a * b

#the return type depends on your values, so it can be DoubleType()
multiply_func_udf = udf(lambda x,y: multiply_func(x,y), IntegerType())

#then you can call like
spark_df.withColumn("multiplied_values",multiply_func_udf(col("x"),col("y"))

Используйте pandas_udf с spark 2.2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Используйте pandas_udf с spark 2.2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы