Дубликаты при использовании Nutch -> решения поиска эластичных - PullRequest
2 голосов
/ 23 февраля 2012

Я просканировал некоторые данные с помощью Nutch и сумел внедрить их в эластичный поиск.Но у меня есть одна проблема: если я снова введу просканированные данные, это создаст дубликаты.Есть ли способ запретить это?

Кто-нибудь сумел решить эту проблему или есть предложения по ее решению?

/ Samus

Ответы [ 2 ]

2 голосов
/ 13 марта 2012

Если вы индексируете каждую страницу / документ, сканированный с одним и тем же идентификатором, в ElasticSearch, он не будет дублировать его. Вы можете использовать контрольную сумму / хэш-функцию, чтобы превратить URL страницы в отдельный идентификатор.

Вы также можете использовать Operation_type, чтобы гарантировать, что если этот идентификатор уже проиндексирован, он не должен переиндексировать его:

Операция index также принимает тип op_type, который можно использовать для принудительного операция создания, допускающая поведение «положить-если-отсутствует». Когда создать используется, операция индекса завершится неудачей, если документ с этим идентификатором уже существует в индексе.

API индекса ElasticSearch

2 голосов
/ 25 февраля 2012

С одной стороны, вы можете сохранить индекс контрольной суммы всех данных, которые вы ввели вasticSearch в несколько дБ, и перекрестно ссылаться на них, прежде чем пытаться отправить данные вasticSearch. Или же вы можете выполнить запрос «больше похоже на этот», чтобы увидеть похожие документы и принять решение на его основе.

ССЫЛКА - http://www.elasticsearch.org/guide/reference/query-dsl/mlt-field-query.html

...