В Lucene в C # я пытаюсь выяснить, содержит ли индекс дублирующиеся файлы или почти идентичные, чтобы увидеть, нужно ли его заменить новым файлом. Для этого я решил, что можно использовать класс MoreLikeThis, а затем получить список связанных документов. Затем, после сравнения этих связанных документов, посмотрите, соответствуют ли они документу, в который я добавляю, скажем, совпадению на 90%. Затем программа спросит, является ли пользователь дубликатами и какой из них оставить.
- Можно ли это сделать с помощью Lucene? ... и это лучший способ сделать это?
- Если это невозможно, использует ли Алгоритм расстояния Левенштейна самый эффективный способ сравнения двух файлов, чтобы определить, имеют ли они одинаковое совпадение?
Спасибо!