Я новичок в PySpark.
Я прочитал файл паркета.Я хочу сохранить только столбцы, имеющие не менее 10 значений
Я использовал описание, чтобы получить количество ненулевых записей для каждого столбца
Как теперь извлечь имена столбцов, которые имеют меньшечем 10 значений, а затем отбросьте эти столбцы перед записью в новый файл
df = spark.read.parquet(file)
col_count = df.describe().filter($"summary" == "count")