У меня есть следующий сценарий:
- текстовый файл URL A
- текстовый файл URL B
Размер каждого файла составляет около 4 ГБ.
Мне нужно вычислить:
- все URL-адреса в A, которых нет в B
- все URL-адреса в B, которых нет в A
Все примеры Java-diff, которые я нахожу в сети, загружают весь список в память (либо с помощью Map, либо с помощью решения MMap).Моя система не имеет подкачки и не хватает памяти, чтобы сделать это без внешней памяти.
Кто-нибудь знает решение для этого?
Этот проект может выполнять огромные сортировки файлов, не тратя тонны памяти https://github.com/lemire/externalsortinginjava
Я ищу что-то подобное, но для генерации различий.Я собираюсь начать с попытки реализовать это, используя этот проект в качестве основы.