Question

Я использую tagoup для очистки некоторого HTML-кода, который я выскабливаю из Интернета, и получаю следующую ошибку при разборе страниц с комментариями:

The data "- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - " is not legal for a JDOM comment: Comment data cannot start with a hyphen.

Я использую JDOM 1.1, и вот код, который выполняет фактическую очистку:

    SAXBuilder builder = new org.jdom.input.SAXBuilder("org.ccil.cowan.tagsoup.Parser"); // build
    // Don't check the doctype! At our usage rate, we'll get 503 responses
    // from the w3.
    builder.setEntityResolver(dummyEntityResolver);
    Reader in = new StringReader(str);
    org.jdom.Document doc = builder.build(in);
    String cleanXmlDoc = new org.jdom.output.XMLOutputter().outputString(doc);

Есть идеи, что происходит, или как это исправить? Мне нужно иметь возможность анализировать страницы с длинными строками комментариев 

Mark Byers · Answer 1 · 11 апреля 2010

Комментарий XML / HTML / SGML начинается с --, заканчивается -- и не содержит --. Объявление комментария содержит ноль или более комментариев.

Ваш пример строки может быть переформатирован как:

<!----
  ----
  - data
  ----
  ----
  ---->

Как видите, - data не является допустимым комментарием и, следовательно, документ не является допустимым HTML. В вашем конкретном случае вы, вероятно, можете это исправить, заменив регулярное выражение /<?!--.*?-->/ пустой строкой, но имейте в виду, что это изменение может также нарушить некоторые действительные документы.

JDOM 1.1: дефис не является допустимым символом комментария

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

JDOM 1.1: дефис не является допустимым символом комментария

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы