lucene удаляет дубликаты во время индекса - PullRequest
0 голосов
/ 14 апреля 2020

Я индексирую набор документов, используя lucene, например

Document doc = new Document();
doc.add(new StringField("resource", resource, Field.Store.YES));
doc.add(new TextField("relevance",  Float.toString(relevance), Field.Store.YES));
doc.add(new SortedNumericDocValuesField("relevanceNumeric",  NumericUtils.floatToSortableInt(relevance)));
w.addDocument(doc);

Бывает, что я вставляю несколько одинаковых документов. У меня нет способа предотвратить это (или проверить это заранее). Есть ли способ сказать lucene, чтобы удалить дубликаты или даже не вставлять их в индекс. Я хотел бы сделать это во время индексации, а не во время поиска.

Спасибо D063520

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...