Я использую Nutch / Solr / SolrNet для своих поисковых решений, я должен сказать, что это работает удовольствие.На новом сайте, над которым я работаю, я использую мастер-страницы, в результате содержимое в верхнем и нижнем колонтитулах индексируется и искажает результаты.Например, у меня есть ссылка на страницу «Свяжитесь с нами» в шапке.Теперь, когда я ищу «Контакт», результат возвращает все страницы на сайте.
Есть ли настраиваемый анализатор Nutch, который я могу передать div-идентификатору, и тогда он только индексирует содержимое внутри div.1003 *
Или, если есть сканеры на основе .NET, которые я могу настроить.