У меня два очень больших файла (и ни один из них не помещается в память ). В каждом файле есть одна строка (в которой нет пробелов и длина 99/100/101 символов) в каждой строке.
Обновление: Строки расположены не в любом порядке.
Обновление2: Я работаю с Java в Windows.
Теперь я хочу выяснить, как лучше всего выяснить все строки, встречающиеся в обоих файлах.
Я думал об использовании внешней сортировки слиянием для сортировки обоих файлов, а затем провел сравнение, но я не уверен, что это будет лучшим способом сделать это. Поскольку строки в основном имеют одинаковую длину, мне всегда было интересно, было бы неплохо вычислять какой-нибудь хэш для каждой строки, поскольку это должно облегчить сравнение между строками, но тогда это будет означать, что мне нужно хранить хэши вычислено для строк, с которыми я столкнулся из файлов до сих пор, чтобы их можно было использовать позже при сравнении их с другими строками. Я не могу определить, что именно будет лучшим способом. Я ищу ваши предложения.
Когда вы предлагаете решение, укажите также, будет ли решение работать, если бы было более 2 файлов, и во всех них нужно было найти строки.