пользовательское выражение xpath с тика - PullRequest
4 голосов
/ 24 августа 2011

Я пытаюсь создать пользовательский xpath contentHandler для tika, который распознает сложное выражение xpath, используя код из org / apache / tika / sax / BodyContentHandler.java (потому что я использую tika для других вещей)

Этоxpath работает

/xhtml:html/xhtml:body/descendant:node()

, но это не

//xhtml:div[@id='someid']/descendant:node()

Я хочу интегрировать contentHandler Тики (потому что он исправляет несбалансированные теги содержимого html и недопустимый символ) с оценщиком xpath из javax.xml.XPath.Какой правильный способ сделать это.Есть ли способ получить исходные данные после того, как tika проверила и исправила html-контент?

1 Ответ

2 голосов
/ 04 ноября 2011

Функция XPath, включенная в Tika, поддерживает только подмножество функций XPath (см. XPathParser ). Для более сложных запросов XPath я рекомендую использовать что-то вроде javax.xml.xpath .

...