У меня есть плоский файл, в котором есть столбец 998. Мне нужно проверить, если столбец 998 присутствует и столбец 999 нет, а затем поместить эти данные в новый DF.
Я пробовал следующее:
Создал функцию has_column(df, columnName)
, которая возвращает True
или False
. Протестировал эту функцию:
print(has_column(df,'_998')) - True
print(has_column(df,'_999')) - False
В моем фильтре я пробую следующее:
validRecordsDF=df.filter((has_column(df,'_996') == True & has_column(df,'_997') == False)).collect()
Здесь это не работает в Spark - TypeError: condition should be string or Column
Мне нужно это для Отфильтруйте только те записи, которые имеют 998 столбцов.
Если в Spark есть какой-либо другой подход, сообщите мне.