Если вы индексируете каждую страницу / документ, сканированный с одним и тем же идентификатором, в ElasticSearch, он не будет дублировать его. Вы можете использовать контрольную сумму / хэш-функцию, чтобы превратить URL страницы в отдельный идентификатор.
Вы также можете использовать Operation_type, чтобы гарантировать, что если этот идентификатор уже проиндексирован, он не должен переиндексировать его:
Операция index также принимает тип op_type, который можно использовать для принудительного
операция создания, допускающая поведение «положить-если-отсутствует». Когда создать
используется, операция индекса завершится неудачей, если документ с этим идентификатором
уже существует в индексе.
API индекса ElasticSearch