Удаление извлеченных записей автоматически при возникновении ошибки Fetch_Error - PullRequest
0 голосов
/ 17 января 2019

Работая на Storm Crawler 1.13, успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте и в соответствии с crawler-conf при следующем повторном посещении индекса состояния, обновленного как FETCH_ERROR для отсутствующего URL, и когда я проверяю основной индекс, запись с этим URL все еще там.Как я могу удалить эту запись автоматически всякий раз, когда появляется FETCH_ERROR .

1 Ответ

0 голосов
/ 17 января 2019

Состояние FETCH_ERROR преобразуется в ОШИБКУ после нескольких последовательных попыток (устанавливается fetch.error.count ). Как только это произойдет, кортеж отправляется в потоке удаления с помощью AbstractStatusUpdaterBolt , и если у вас подключен DeletionBolt, то URL-адрес будет удален из индекса содержимого Elasticsearch. Он останется в индексе состояния, хотя и будет пересматриваться или не основываться на расписании для ОШИБК.

...