Индексирование HTML с помощью Solr - PullRequest
1 голос
/ 08 апреля 2011

Я сканирую наш большой веб-сайт (ы) с помощью Nutch, а затем индексирую с помощью Solr, и результаты довольно хорошие. Однако на сайте есть несколько структур меню, которые индексируют и портят результаты запроса.

Каждое из этих меню четко определено в DIV, поэтому <div id="RHBOX"> ... </div> or <div id="calendar"> ...</div> и некоторые другие.

Мне нужно в какой-то момент удалить содержимое этих DIVS.

Я предполагаю, что правильное место находится во время индексации по solr, но не могу понять, как.

Шаблон будет выглядеть примерно как (<div id="calendar">).*?(<\/div>), но я не могу заставить его работать в <tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />, и я не совсем уверен, где его поместить в schema.xml.

Когда я помещаю этот шаблон в schema.xml, он не анализируется.

Я добавляю эту строку для редактирования

1 Ответ

0 голосов
/ 08 апреля 2011

вы смотрели на HTML различные токенайзеры HTML, доступные в solr?

http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters#solr.HTMLStripWhitespaceTokenizerFactory

они должны помочь вам решить эту проблему. Вы не должны индексировать HTML-теги сами. однако если вам необходимо однозначно идентифицировать определенные теги, вам нужно будет создать отдельные поля и сохранить содержимое этих специальных тегов в этих полях.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...