У меня много много больших файлов (> 100 1-10 ГБ) с тем же форматом данных, которые содержат много повторяющихся строк между ними.
Файлы A B C D могут иметь одинаковую строку где-то во всех них, и я хочу только удалить ВСЕ дублирующие строки между ВСЕМИ файлами.
Либо объединить их в 1 и удалить дубликаты - это хорошо, но я бы лучше держал их отдельно и просто удалял строки, которые существуют где-то еще (если это возможно).
Я пробовал сортировать -u * .txt> deduped.txt, но память - это МАССОВАЯ проблема (не знаю, будет ли она работать, потому что я отменил ее, так как она принимала AGES).
Пиковая при максимальной памяти и процессоре 24/7 с этим методом.