Я использую tagoup для очистки некоторого HTML-кода, который я выскабливаю из Интернета, и получаю следующую ошибку при разборе страниц с комментариями:
The data "- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - " is not legal for a JDOM comment: Comment data cannot start with a hyphen.
Я использую JDOM 1.1, и вот код, который выполняет фактическую очистку:
SAXBuilder builder = new org.jdom.input.SAXBuilder("org.ccil.cowan.tagsoup.Parser"); // build
// Don't check the doctype! At our usage rate, we'll get 503 responses
// from the w3.
builder.setEntityResolver(dummyEntityResolver);
Reader in = new StringReader(str);
org.jdom.Document doc = builder.build(in);
String cleanXmlDoc = new org.jdom.output.XMLOutputter().outputString(doc);
Есть идеи, что происходит, или как это исправить? Мне нужно иметь возможность анализировать страницы с длинными строками комментариев <!--------- data ------------>