Просто наблюдение: Reddit генерирует XHTML, что означает, что он совместим с XML.Таким образом, вы можете просто использовать библиотеку XPath.например (беззастенчиво скопировано с http://www.ibm.com/developerworks/library/x-javaxpathapi.html с незначительными изменениями),
import java.io.IOException;
import org.w3c.dom.*;
import org.xml.sax.SAXException;
import javax.xml.parsers.*;
import javax.xml.xpath.*;
public class XPathExample {
public static void main(String[] args)
throws ParserConfigurationException, SAXException,
IOException, XPathExpressionException {
DocumentBuilderFactory domFactory = DocumentBuilderFactory.newInstance();
domFactory.setNamespaceAware(true); // never forget this!
DocumentBuilder builder = domFactory.newDocumentBuilder();
// replace the following line with code to retrieve and parse the URL of your choice
Document doc = builder.parse("books.xml");
XPathFactory factory = XPathFactory.newInstance();
XPath xpath = factory.newXPath();
XPathExpression expr
= xpath.compile("//a[class='title']/text()");
Object result = expr.evaluate(doc, XPathConstants.NODESET);
NodeList nodes = (NodeList) result;
for (int i = 0; i < nodes.getLength(); i++) {
System.out.println(nodes.item(i).getNodeValue());
}
}
}
Очевидно, что не будет работать на всех веб-сайтах, но будет работать на любом, который обслуживает XHTML.