Я сканирую наш большой веб-сайт (ы) с помощью Nutch, а затем индексирую с помощью Solr, и результаты довольно хорошие.Однако на сайте есть несколько структур меню, которые индексируют и портят результаты запроса.
Каждое из этих меню четко определено в DIV, поэтому <div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>
и некоторые другие.
Мне нужно в какой-то момент удалить содержимое этих DIVS.
Я предполагаю, что правильное место находится во время индексации по solr, но не может понять, как.
Шаблон будет выглядеть примерно как (<div id="calendar">).*?(<\/div>)
, но я не могу заставить это работать в <tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />
и я не совсем уверен, где поместить его в schema.xml.
Когда я помещаю этот шаблон в schema.xml, он не анализируется.