Обработка перенаправлений в Storm-Crawler - PullRequest
0 голосов
/ 18 мая 2018

С SC, могу ли я следить за перенаправлениями, не испуская исходящие ссылки?Должен ли перенаправленный URL быть введен в мой бэкэнд как «ОТКРЫТЫЙ» или нет?Похоже, это не из моих небольших экспериментов со следующей установкой:

crawler.yaml:        redirections.allowed: true
                     parser.emitOutlinks: false
urlfilters.json:     "maxDepth": 2

Наконец, когда страница рассматривается как перенаправляющая на другую, пройдёт ли она остальную часть топологии для этой страницы (я имею в виду всебихает сборщик) или нет?

1 Ответ

0 голосов
/ 18 мая 2018

Исходящие ссылки и перенаправления обрабатываются отдельно, см. JSoupParserBolt.java # L341 .Большинство перенаправлений происходит в FetcherBolt, где конфигурация emitoulinks не применяется в любом случае.

Цель перенаправления будет иметь статус DISCOVERED, если она уже не существует с другим состоянием.

Имейте в виду, что перенаправленные URL-адреса проходят фильтрацию и нормализацию так же, как и любые внешние ссылки, поэтому может быть что-то, что препятствует добавлению URL-адресов, например фильтрация по имени хоста.

Наконец, когда страница рассматривается как перенаправляющая на другую, пройдет ли она через остальную часть топологии для этой страницы (я имею в виду то, что находится за сборщиком) или нет?

Нет, см. FetcherBolt

...