Я работаю над старым, большим сайтом, созданным давным-давно другим разработчиком. Он использовал Lucene в качестве движка для поиска по сайту, индексируя все страницы в их полной HTML-форме: (Некоторые части для ясности опущены)
$this->index = Zend_Search_Lucene::open($path);
$html = file_get_contents($document["path"]);
$doc = Zend_Search_Lucene_Document_Html::loadHTML($html);
$doc->addField(Zend_Search_Lucene_Field::Text('url', $document["path"]));
$this->index->addDocument($doc);
Проблема в том, что навигация сайта, нижний колонтитул и верхний колонтитул также индексируются - поиск «copyright» возвращает каждую страницу.
Есть ли какой-нибудь переключатель, который я мог бы щелкнуть при индексации полного HTML-контента? У меня нет опыта работы с Lucene, но индексирование всей страницы кажется довольно бесполезным, если нет способа исключить элементы, присутствующие на каждой странице. Или мне просто переписать результаты поиска, чтобы просто проиндексировать контент из базы данных, вместо того, чтобы циклически пересылать его по HTTP?