Как я могу найти и удалить дубликаты строк из текстовых файлов ~ 800 ГБ? - PullRequest
0 голосов
/ 20 февраля 2020

У меня есть набор данных текстовых файлов на ~ 800 ГБ, всего около 50 тыс. TXT-файлов. все повторяющиеся строки удалены из всех текстовых файлов.

Я не могу найти способ сделать это, который не займет месяцы для обработки моего компьютера, в идеале, я хотел бы сохранить его меньше, чем неделя.

1 Ответ

1 голос
/ 20 февраля 2020
sort -u <data.txt >clean.txt

Все, что вам нужно, это большой диск.

sort достаточно эффективен: он автоматически разбивает файл на управляемые фрагменты, сортирует каждый по отдельности, а затем объединяет их (что можно сделать в O (N) время); и при объединении он удалит дубликаты (из-за опции -u). Но вам потребуется как минимум место для выходного файла, плюс место для всех промежуточных файлов.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...