Эти варианты часто управляются сайтом как перенаправление, поэтому вы получите только один документ.В качестве альтернативы, сайты могут предоставить канонический тег , который StormCrawler использует в качестве значения URL, если он присутствует.
StormCrawler просматривает документы один за другим и не знает других URL-адресов.Вы можете реализовать это вне SC следующим образом:
- свертывание результатов при запросе индекса
- дедупликация содержимого индекса, например, с помощью MapReduce
Одним из вариантов в SC для обработки любых оставшихся дубликатов будет создание пользовательских метаданных, например хеша содержимого, и изменение болта индексатора ES, чтобы он использовал это значение, если оно присутствует вместо нормализованного URL дляидентификатор документа.Затем вы получите один документ, но не сможете выбрать, какой из URL использовать (http или https).