Question

В Stormcrawler, если я добавлю -^(http|https):\/\/example.com\/page\/?date в default-regex-filters.txt, но я все еще вижу

2019-03-20 08:49:58.110 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsing : starting https://example.com/page/?date=1999-9-16&t=list
2019-03-20 08:49:58.117 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsed https://example.com/page/?date=1999-9-16&t=list in 6 msec

в журналах, но в индексе нет документов. Stormcrawler избегает URL-адреса, или он все еще выбирает его, или он просто получает URL-адрес из таблицы состояния и затем оценивает его?

Julien Nioche · Answer 1 · 20 марта 2019

Фильтрация применяется к последующему разбору исходящих ссылок, «выжившие» URL-адреса отправляются на болт обновления состояния. Это влияет на обнаружение URL-адресов, другими словами, если URL-адрес отправляется носиком, он будет обработан.

Разъяснение того, как работает Stormcrawler default-regex-filters.txt

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разъяснение того, как работает Stormcrawler default-regex-filters.txt

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы