Есть ли способ выбрать всю строку в виде столбца для ввода в фильтр Pyspark udf?
У меня есть сложная функция фильтрации "my_filter", которую я хочу применить ко всему DataFrame:
my_filter_udf = udf(lambda r: my_filter(r), BooleanType())
new_df = df.filter(my_filter_udf(col("*"))
Но
col("*")
выдает ошибку, потому что это недопустимая операция.
Я знаю, что могу преобразовать фрейм данных в RDD, а затем использовать метод фильтра RDD, но я НЕ хочу конвертировать его в RDD и затем обратно в фрейм данных. Мой DataFrame имеет сложные вложенные типы, поэтому вывод схемы завершается неудачно, когда я снова пытаюсь преобразовать RDD в информационный кадр.