Если я вас правильно понимаю, вы хотите выполнить фильтрацию столбца , прежде чем передать его в список.
Например, у вас есть df, который выглядит следующим образом, гдестолбец c nan free ,
from pyspark.sql.functions import isnan, count, when
import numpy as np
df = spark.createDataFrame([(1.0, np.nan, 0.0), (np.nan, 2.0, 9.0),\
(np.nan, 3.0, 8.0), (np.nan, 4.0, 7.0)], ('a', 'b', 'c'))
df.show()
# +---+---+---+
# | a| b| c|
# +---+---+---+
# |1.0|NaN|0.0|
# |NaN|2.0|9.0|
# |NaN|3.0|8.0|
# |NaN|4.0|7.0|
# +---+---+---+
Вам даны решения и материалы для производства
df.select([count(when((isnan(c)),c)).alias(c) for c in df.columns]).show()
# +---+---+---+
# | a| b| c|
# +---+---+---+
# | 3| 1| 0|
# +---+---+---+
, но вы хотите
# +---+---+
# | a| b|
# +---+---+
# | 3| 1|
# +---+---+
Чтобы получить этот вывод, вы можете попробовать это
rows = df.collect()
#column filtering based on your nan condition
nan_columns = [''.join(key) for _ in rows for (key,val) in _.asDict().items() if np.isnan(val)]
nan_columns = list(set(nan_columns)) #may sort if order is important
#nan_columns
#['a', 'b']
df.select([count(when((isnan(c)),c)).alias(c) for c in nan_columns]).show()
# +---+---+
# | a| b|
# +---+---+
# | 3| 1|
# +---+---+