Разница между двумя файлами в Lucene - PullRequest
1 голос
/ 08 февраля 2012

В Lucene в C # я пытаюсь выяснить, содержит ли индекс дублирующиеся файлы или почти идентичные, чтобы увидеть, нужно ли его заменить новым файлом. Для этого я решил, что можно использовать класс MoreLikeThis, а затем получить список связанных документов. Затем, после сравнения этих связанных документов, посмотрите, соответствуют ли они документу, в который я добавляю, скажем, совпадению на 90%. Затем программа спросит, является ли пользователь дубликатами и какой из них оставить.

  1. Можно ли это сделать с помощью Lucene? ... и это лучший способ сделать это?
  2. Если это невозможно, использует ли Алгоритм расстояния Левенштейна самый эффективный способ сравнения двух файлов, чтобы определить, имеют ли они одинаковое совпадение?

Спасибо!

1 Ответ

0 голосов
/ 08 февраля 2012

для сравнения документов с lucene вы также можете использовать TermFreqVector и сохранить TermVector в своем индексе. Также вы можете вычислить сходство Дирихле с этим vecotr.

...