Я хотел бы удалить столбцы, которые содержат все нулевые значения, используя dropna()
. С Pandas вы можете сделать это, установив ключевое слово аргумент axis = 'columns'
в dropna()
. Здесь пример в посте GitHub.
Как мне это сделать в PySpark? dropna()
доступно как преобразование в PySpark, однако axis
не является доступным ключевым словом .
Примечание: я не хочу транспонировать мой фрейм данных, чтобы это работало.
Как бы я отбросил столбец мебели с этого кадра данных?
data_2 = { 'furniture': [np.NaN ,np.NaN ,np.NaN], 'myid': ['1-12', '0-11', '2-12'], 'clothing': ["pants", "shoes", "socks"]}
df_1 = pd.DataFrame(data_2)
ddf_1 = spark.createDataFrame(df_1)
ddf_1.show()