Question

Работая на Storm Crawler 1.13, успешно запустил сканер на веб-сайте, и одна из страниц была удалена на веб-сайте и в соответствии с crawler-conf при следующем повторном посещении индекса состояния, обновленного как FETCH_ERROR для отсутствующего URL, и когда я проверяю основной индекс, запись с этим URL все еще там.Как я могу удалить эту запись автоматически всякий раз, когда появляется FETCH_ERROR .

Julien Nioche · Answer 1 · 17 января 2019

Состояние FETCH_ERROR преобразуется в ОШИБКУ после нескольких последовательных попыток (устанавливается fetch.error.count ). Как только это произойдет, кортеж отправляется в потоке удаления с помощью AbstractStatusUpdaterBolt , и если у вас подключен DeletionBolt, то URL-адрес будет удален из индекса содержимого Elasticsearch. Он останется в индексе состояния, хотя и будет пересматриваться или не основываться на расписании для ОШИБК.

Удаление извлеченных записей автоматически при возникновении ошибки Fetch_Error

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Удаление извлеченных записей автоматически при возникновении ошибки Fetch_Error

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы