Spark (Pyspark) - длительная задержка между заданиями - PullRequest
0 голосов
/ 19 сентября 2018

У меня есть искровое задание, которое выполняет некоторый анализ данных, и между началом каждого задания очень много времени (1-2 часа).Я знаю, что некоторая работа не распараллелена и не считается работой, поэтому не отображается в пользовательском интерфейсе менеджера ресурсов.Я надеялся узнать, что занимает так много времени?Вот моя функция:

def analyse(df, columns):
    return reduce(
        lambda a, b: a.union(b),
        (
            df.agg(
                F.count(F.when(F.isnull(c), c)).alias('NULL Count'),
                F.countDistinct(df[c]).alias('Distinct Values')
            ).select(F.lit(c).alias("Column Name"), "NULL Count", 'Distinct Values')
            for c in columns
        )
    )

Есть идеи?

...