Перенаправление URL-адреса в stormcrawler отображает обход этой страницы в состоянии ошибки - PullRequest
0 голосов
/ 10 марта 2020

Я пытаюсь сканировать URL, который выглядит примерно так: https://something.com/forums. Индекс состояния в Storm Crawler первоначально устанавливает запись в состояние «Перенаправление», а новый перенаправленный URL-адрес, который должен быть обнаружен, переходит в состояние «Ошибка» с сообщением, подобным источнику ошибок - фильтрации содержимого.

Может ли кто-нибудь помочь мне решить эту проблему?

1 Ответ

0 голосов
/ 10 марта 2020

тот факт, что это происходит от перенаправления, не имеет значения. Целевой URL извлекается, но что-то происходит при выполнении фильтров разбора

https://github.com/DigitalPebble/storm-crawler/blob/b19bf717fe8a9e4d289ec06c00530c05a1392670/core/src/main/java/com/digitalpebble/stormcrawler/bolt/JSoupParserBolt.java#L352

Можете ли вы посмотреть журналы и посмотреть, можете ли вы найти связанные message?

PS : только что добавили новую утилиту для отладки фильтров разбора. Извлеките S C из master, соберите его и измените зависимость в своем проекте на 1.17-SNAPSHOT, после чего вы сможете протестировать фильтры разбора в URL.

...