Я делаю курс UCSanDiegoX: DSE230x на edx.В части о пользовательских функциях используется этот код:
def count_nan(V):
A = unpackArray(V, data_type=np.float16)
return int(sum(np.isnan(A)))
Count_nan_udf = udf(count_nan, IntegerType())
Хотя они не объясняют, откуда эти функции берутся, то есть как импортировать их в пространство имен.
Iнашел udf здесь:
from pyspark.sql.functions import udf
И IntegerType
:
from pyspark.sql.types import IntegerType
Хотя я не нахожу unpackArray
.Нужно ли вообще его импортировать?