Дублированные строки в TXT-файле 3 ТБ - PullRequest
1 голос
/ 09 сентября 2010

Скажем, есть TXT-файл объемом 3 ТБ, в котором каждая строка является строкой. Как найти в них эти дублированные строки? Это вопрос интервью от моего друга. Нам лучше прояснить эти вопросы после собеседования, в случае следующего.

PS: Если я интервьюирую, я скажу интервьюеру: Как вы, ребята, можете хранить так много строк в файле TXT? Это действительно плохая идея!

Ответы [ 11 ]

0 голосов
/ 09 сентября 2010

Имеет ли значение скорость?

Очевидное решение, которое приходит на ум, это загрузить, скажем, первые 1000 строк в некоторый класс Set, а затем прочитать оставшиеся строки по одной за раз ипроверьте, содержатся ли они в наборе.Затем прочитайте следующие 1000 строк и повторите.Таким образом, вы сохраняете в памяти одновременно только 1000 строк.

Не думаю, что вы наберете много очков брауни за то, что сказали интервьюеру, что хранить такое количество данных в текстовом файле - плохая идея,Кто знает, как появился этот текстовый файл ... может быть, это результат какой-то устаревшей системы или кто знает что.Есть совершенно законные причины его существования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...