Бинарный столбец, созданный в фрейме данных PySpark, не может использоваться в качестве фильтра? - PullRequest
0 голосов
/ 16 марта 2020

Я использую PySpark для создания дополнительного BinaryColumn в моем фрейме данных, а затем использую его для фильтрации фрейма данных. Этот процесс показывает ошибку.

  1. Данные:

Нажмите здесь, чтобы посмотреть данные

Создан двоичный столбец:

Нажмите здесь, чтобы увидеть двоичный столбец

Нажмите здесь, чтобы увидеть схему

Фильтр и ошибка:

Нажмите здесь, чтобы увидеть ошибку

Ответы [ 2 ]

0 голосов
/ 16 марта 2020

Вы добавляете binary_col к df_bc данных, а не к df_.

Попробуйте получить доступ к binary_col из df_bc данных,

df_filter=df_bc.where(df_bc.binary_col)
df_filter.show()
0 голосов
/ 16 марта 2020

попробуйте использовать filter функцию

df_filter = df_bc.filter(col('binary_col') == 'false')
df_filter.show()
...