Вы можете использовать простой код для этого;
Tidy tidy = new Tidy();
tidy.setMakeClean(true);
tidy.setXmlOut( true);
URL url = new URL("url_string_here");
FileOutputStream fileOutputStream = new FileOutputStream("outXHTML.xml");
Document doc = tidy.parseDOM( url.openStream(), fileOutputStream);
Надеюсь, это поможет.