Stormcrawler's ContentParseFilter - PullRequest
       8

Stormcrawler's ContentParseFilter

0 голосов
/ 06 сентября 2018

Если я установлю StormCrawler ContentParseFilter равным

"pattern": "//DIV[@id=\"site-body\"]",

означает ли это, что это ЕДИНСТВЕННОЕ место, где он будет искать ссылки на другие страницы при обработке каждого URL? Мне интересно, если я установлю это, если он начнет игнорировать все URL-адреса в меню и тому подобное.

Спасибо! Jim

1 Ответ

0 голосов
/ 06 сентября 2018

См. страницу WIKI для фильтров ParseFilters

ContentFilter позволяет ограничить текст документа текстом, покрытым выражением Xpath

это никак не влияет на извлечение ссылок, но направлено на улучшение индексированного текста.

...