Я пытаюсь создать пользовательский xpath contentHandler для tika, который распознает сложное выражение xpath, используя код из org / apache / tika / sax / BodyContentHandler.java (потому что я использую tika для других вещей)
Этоxpath работает
/xhtml:html/xhtml:body/descendant:node()
, но это не
//xhtml:div[@id='someid']/descendant:node()
Я хочу интегрировать contentHandler Тики (потому что он исправляет несбалансированные теги содержимого html и недопустимый символ) с оценщиком xpath из javax.xml.XPath.Какой правильный способ сделать это.Есть ли способ получить исходные данные после того, как tika проверила и исправила html-контент?