Архивирование старых сайтов с помощью StormCrawler и Elasticsearch - PullRequest
0 голосов
/ 12 июня 2018

когда шторм-сканер повторно посещает веб-сайт, который уже был получен ранее, он обновляет соответствующий документ в индексе эластичного поиска.То есть старый контент перезаписывается новым.

Есть ли какая-либо функциональность stormcrawler, которая позволяет нам сохранять старую версию определенных полей и снабжать ее отметкой времени?

Мы изучилиупругий поиск ролловер API и глотать трубопроводы.Каналы загрузки выглядят многообещающе для изменения документов эластичного поиска при операциях обновления.Есть ли способ добавить параметр конвейера (т. Е.? Pipe = xxx) через конфигурацию stormcrawler к соответствующим запросам эластичного поиска?

1 Ответ

0 голосов
/ 12 июня 2018

Одним из вариантов может быть использование URL + метка времени в качестве ключа и сохранение каждой версии документа отдельно.Вы должны были бы дедуплицировать во время поиска все же.Для этого потребуется небольшое изменение кода.

В настоящее время мы не можем добавлять параметры через конфигурацию, но это должно быть выполнимо.Я никогда не использовал конвейеры в ES, нельзя ли настроить их использование по умолчанию для определенного индекса?

...