У меня есть искровое задание, которое выполняет некоторый анализ данных, и между началом каждого задания очень много времени (1-2 часа).Я знаю, что некоторая работа не распараллелена и не считается работой, поэтому не отображается в пользовательском интерфейсе менеджера ресурсов.Я надеялся узнать, что занимает так много времени?Вот моя функция:
def analyse(df, columns):
return reduce(
lambda a, b: a.union(b),
(
df.agg(
F.count(F.when(F.isnull(c), c)).alias('NULL Count'),
F.countDistinct(df[c]).alias('Distinct Values')
).select(F.lit(c).alias("Column Name"), "NULL Count", 'Distinct Values')
for c in columns
)
)
Есть идеи?