Apache Nutch: управление DOM перед анализом - PullRequest
0 голосов
/ 20 декабря 2011

Я хочу удалить определенные элементы из ответа на странице, прежде чем он будет передан до конца. В частности, я хочу пометить части своих страниц, т.е.

 <div class="noindex">I shall not be indexed</div>

И хочу удалить их до синтаксического разбора, чтобы впоследствии «NutchDexment» не присутствовало в NutchDocument. Я планирую окружить мою навигацию, заголовок, содержимое нижнего колонтитула этим, потому что сейчас они присутствуют в каждом документе в индексе.

Спасибо, Пол

1 Ответ

3 голосов
/ 24 декабря 2011

У вас есть альтернатива для этого:

...