Во многих предыдущих вопросах освещаются различные способы удаления повторяющихся строк с пропущенными значениями, однако ни один из них не касается следующего случая. Пример исходных данных:
df <- data.frame(x = c(1, NA, 1), y=c(NA, 1, 1), z=c(0, NA, NA))
print(df)
Желаемый результат:
df2 <- data.frame(x = c(1, 1), y=c(NA, 1), z=c(0, NA))
print(df2)
В этом случае вторая строка была удалена, потому что это идеальное подмножество строки 3. В реальном приложении я хочу удалите строки, которые содержат всю избыточную информацию в не пропавших столбцах, и сохраните строку, в которой меньше всего отсутствует. . Я мог бы сделать это очень медленно для l oop, но с сотнями столбцов и тысячами строк это плохой вариант.