Question

Я использую Nutch / Solr / SolrNet для своих поисковых решений, я должен сказать, что это работает удовольствие.На новом сайте, над которым я работаю, я использую мастер-страницы, в результате содержимое в верхнем и нижнем колонтитулах индексируется и искажает результаты.Например, у меня есть ссылка на страницу «Свяжитесь с нами» в шапке.Теперь, когда я ищу «Контакт», результат возвращает все страницы на сайте.

Есть ли настраиваемый анализатор Nutch, который я могу передать div-идентификатору, и тогда он только индексирует содержимое внутри div.1003 *

Или, если есть сканеры на основе .NET, которые я могу настроить.

Butifarra · Answer 1 · 01 июля 2011

Вы можете реализовать фильтр Nutch (мне нравится Jericho HTML Parser ), чтобы извлекать только те части страницы, которые необходимо проиндексировать с помощью манипуляции DOM.Вы можете использовать класс TextExtractor , чтобы получить чистый текст (без тегов HTML), который будет использоваться в вашем индексе.Я обычно сохраняю эти данные в пользовательских полях.

Julien Nioche · Answer 2 · 25 мая 2011

См. https://issues.apache.org/jira/browse/NUTCH-585 и https://issues.apache.org/jira/browse/NUTCH-961

Кстати, вы получите более релевантную аудиторию, разместив в списке пользователей Nutch

Пользовательский парсер для Nutch (или .NET Crawler с открытым исходным кодом)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пользовательский парсер для Nutch (или .NET Crawler с открытым исходным кодом)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы