Как запретить Nutch / Solr индексировать меню или другой HTML-контент? - PullRequest
0 голосов
/ 09 июня 2018

Я работал с Solr и Nutch, чтобы сканировать и индексировать весь контент с моего сайта в интрасети (html, pdf, doc и т. Д.).Наконец-то все заработало (если у кого-то возникли проблемы с сканером, см. Мой другой вопрос или отправьте мне сообщение о помощи), теперь проблема, с которой я сталкиваюсь, заключается в том, что ВСЕ HTML-контент индексируется, включая навигационные меню.Я бы хотел исключить такой контент, нижние колонтитулы и т. Д., Чтобы результаты поиска были чистыми и актуальными.

Кто-нибудь знает, как исключить определенные части HTML-страницы из индексации?Мои исследования привели меня к статье ниже, которая включает в себя применение патча https://issues.apache.org/jira/browse/NUTCH-585

Как мне применить этот патч к моему Nutch?Среда: Windows Server 2012 r2, версия Java "1.8.0_171", solr-7.3.0., Версия 1.8.Кто-нибудь знает другую альтернативу?Спасибо, вся помощь приветствуется.

...