Я написал функцию FilterFunction в Spark для фильтрации строк из набора данных. Он работает нормально, но новое требование заключается в том, что мне нужно сохранить все пропущенные строки в другом месте. Каков наилучший способ сделать это?
Моя цель состоит в том, чтобы я не проходил один и тот же набор данных дважды;один раз, чтобы отфильтровать строки, которые я хочу, и один раз, чтобы получить пропущенные строки.
Возможно ли это сделать? Я думаю, мне не нужно использовать FilterFunction, если есть другой способ. Пожалуйста помоги. Спасибо.
public class MyFilterFunction implements FilterFunction<Row> {
@Override
public boolean call(Row row) {
boolean filter = false
// Some business logic here
return filter;
}
}