В Stormcrawler, если я добавлю -^(http|https):\/\/example.com\/page\/?date в default-regex-filters.txt, но я все еще вижу
-^(http|https):\/\/example.com\/page\/?date
2019-03-20 08:49:58.110 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsing : starting https://example.com/page/?date=1999-9-16&t=list 2019-03-20 08:49:58.117 c.d.s.b.JSoupParserBolt Thread-5-parse-executor[7 7] [INFO] Parsed https://example.com/page/?date=1999-9-16&t=list in 6 msec
в журналах, но в индексе нет документов. Stormcrawler избегает URL-адреса, или он все еще выбирает его, или он просто получает URL-адрес из таблицы состояния и затем оценивает его?
Фильтрация применяется к последующему разбору исходящих ссылок, «выжившие» URL-адреса отправляются на болт обновления состояния. Это влияет на обнаружение URL-адресов, другими словами, если URL-адрес отправляется носиком, он будет обработан.