XPathFilter служит для другой цели - извлечения метаданных из выражений Xpath.Существует также ContentFilter , который ближе к тому, что вам нужно, поскольку он позволяет ограничить область извлечения текста набором xpath, однако он не дает вам способа отфильтровывать определенные теги иоставьте все остальное.
На этом этапе лучше всего использовать ParserBolt на основе Tika: его можно настроить с помощью mapper , которая по умолчанию установлена в identityMapper, но может использоватьо любой другой реализации, предоставленной Tika или вами, см. документацию Tika по HTML mapper .
Не стесняйтесь открыть вопрос о GH, чтобы запросить новый тип parseFilter для исключения некоторых элементов HTML, какэто может быть полезно иметь.У нас есть проблема, связанная с тегами googleon / googleoff , и это может быть способом ее реализации.
РЕДАКТИРОВАТЬ : с тех пор мы выпустили TextExtractor, см. Объявление о выпуске StormCrawler 1.13