Я пытаюсь реализовать программу дедупликации данных в облаке с помощью Java.
Я не уверен, как приступить к реализации.
Во-первых, я хотел сделать простое сравнение файлов по размеру, дате и имени файла. Однако это неэффективно, поскольку файл может иметь то же содержимое, но с другим именем.
Я выбрал простой алгоритм, который
загрузка файла -> чанкинг файла -> хэширование Рабина-Карпа -> определить, можно ли загрузить файл.
Это будет хорошо или есть улучшения?
Где бы я мог узнать больше информации об этом? Я пытался просматривать Интернет, но ничего не могу найти. Большинство из них просто разбиты на определенные реализации, но без объяснения или подробностей о фрагментации файла или хэшировании Рабина-Карпа.
Я хотел бы знать, какие библиотеки Java следует изучить в отношении этой программы.