Что произойдет, если ранее URL «FETCHED» был удален на стороне веб-сервера и StormCrawler снова перейдет к нему? - PullRequest
0 голосов
/ 28 мая 2019

У нас есть много сайтов, которые обновляются, добавляются и удаляются.Мне любопытно, как Stormcrawler обрабатывает сайт с URL-адресом, который ранее был «FETCHED», когда в следующий раз, когда SC достигает его, он был удален и генерирует перенаправление или 404. Что происходит с контентом, который поступил изстарая версия страницы в индексе «Index»?

Я знаю, что URL в индексе «Status», вероятно, меняется на «REDIRECTION» или «FETCH ERROR» или что-то еще, но как насчет самого контента??Это удалено?Это осталось?Я пытаюсь выяснить, как SC реагирует здесь, и если мне придется работать над очисткой этих потерянных документов в индексе «Index».

Я бы ожидал, что SC удалит содержимое, если его больше нет, ноЯ думал, что попрошу быть уверенным.

1 Ответ

1 голос
/ 30 мая 2019

Как вы указали, отсутствующий URL-адрес получит статус FETCH_ERROR, который после повторной попытки несколько раз (параметр max.fetch.errors - по умолчанию 3) превратится в состояние ОШИБКА.

Содержимое будет удалено, если вы подключите DeletionBolt к средству обновления состояния, см. пример топологии .

...