Пользовательский парсер для Nutch (или .NET Crawler с открытым исходным кодом) - PullRequest
0 голосов
/ 24 мая 2011

Я использую Nutch / Solr / SolrNet для своих поисковых решений, я должен сказать, что это работает удовольствие.На новом сайте, над которым я работаю, я использую мастер-страницы, в результате содержимое в верхнем и нижнем колонтитулах индексируется и искажает результаты.Например, у меня есть ссылка на страницу «Свяжитесь с нами» в шапке.Теперь, когда я ищу «Контакт», результат возвращает все страницы на сайте.

Есть ли настраиваемый анализатор Nutch, который я могу передать div-идентификатору, и тогда он только индексирует содержимое внутри div.1003 *

Или, если есть сканеры на основе .NET, которые я могу настроить.

Ответы [ 2 ]

1 голос
/ 01 июля 2011

Вы можете реализовать фильтр Nutch (мне нравится Jericho HTML Parser ), чтобы извлекать только те части страницы, которые необходимо проиндексировать с помощью манипуляции DOM.Вы можете использовать класс TextExtractor , чтобы получить чистый текст (без тегов HTML), который будет использоваться в вашем индексе.Я обычно сохраняю эти данные в пользовательских полях.

1 голос
/ 25 мая 2011

См. https://issues.apache.org/jira/browse/NUTCH-585 и https://issues.apache.org/jira/browse/NUTCH-961

Кстати, вы получите более релевантную аудиторию, разместив в списке пользователей Nutch

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...