Question

У меня есть набор данных текстовых файлов на ~ 800 ГБ, всего около 50 тыс. TXT-файлов. все повторяющиеся строки удалены из всех текстовых файлов.

Я не могу найти способ сделать это, который не займет месяцы для обработки моего компьютера, в идеале, я хотел бы сохранить его меньше, чем неделя.

Amadan · Answer 1 · 20 февраля 2020

sort -u <data.txt >clean.txt

Все, что вам нужно, это большой диск.

sort достаточно эффективен: он автоматически разбивает файл на управляемые фрагменты, сортирует каждый по отдельности, а затем объединяет их (что можно сделать в O (N) время); и при объединении он удалит дубликаты (из-за опции -u). Но вам потребуется как минимум место для выходного файла, плюс место для всех промежуточных файлов.

Как я могу найти и удалить дубликаты строк из текстовых файлов ~ 800 ГБ?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу найти и удалить дубликаты строк из текстовых файлов ~ 800 ГБ?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы