Я использую PySpark для создания дополнительного BinaryColumn в моем фрейме данных, а затем использую его для фильтрации фрейма данных. Этот процесс показывает ошибку.
Нажмите здесь, чтобы посмотреть данные
Нажмите здесь, чтобы увидеть двоичный столбец
Нажмите здесь, чтобы увидеть схему
Нажмите здесь, чтобы увидеть ошибку
Вы добавляете binary_col к df_bc данных, а не к df_.
binary_col
df_bc
df_
Попробуйте получить доступ к binary_col из df_bc данных,
df_filter=df_bc.where(df_bc.binary_col) df_filter.show()
попробуйте использовать filter функцию
filter
df_filter = df_bc.filter(col('binary_col') == 'false') df_filter.show()