Вы можете использовать XPath для извлечения данных из HTML:
String html = //...
//read the HTML into a DOM
StreamSource source = new StreamSource(new StringReader(html));
DOMResult result = new DOMResult();
Transformer transformer = TransformerFactory.newInstance().newTransformer();
transformer.transform(source, result);
Node root = result.getNode();
//use XPath to get the title
XPath xpath = XPathFactory.newInstance().newXPath();
String title = xpath.evaluate("/html/title", root);
Однако, чтобы это работало, HTML должен быть правильно сформированным XHTML. Например, тег «
» действителен в HTML, но недопустим в XHTML, поскольку он не закрыт. Это должно быть "
", чтобы быть действительным в XHTML.