Разбор не XML-файла в Java - PullRequest
       13

Разбор не XML-файла в Java

1 голос
/ 29 августа 2009

Я хочу разобрать документ, который не является чистым xml. Например

my name is <j> <b> mike</b>  </j>

пример 2

 my name is  <mytag1 attribute="val" >mike</mytag1> and yours is <mytag2> john</mytag2>

Означает, что мой ввод не является чистым xml. Это похоже на HTML, но теги не являются HTML. Как я могу разобрать его в Java?

Ответы [ 2 ]

5 голосов
/ 29 августа 2009

Ваши примеры допустимы в формате XML, за исключением отсутствия элемента документа. Если вы знаете, что это всегда так, то вы можете просто обернуть набор фиктивных тегов вокруг всего и использовать стандартный синтаксический анализатор (SAX, DOM ...)

С другой стороны, если вы получаете что-то более уродливое (например, теги не совпадают или разнесены друг от друга), вам придется сделать что-то нестандартное, включающее ряд правил, которые вам необходимо принять решение о том, что будет уникальным для вашего приложения. (например, как мне обработать открывающий тег, который не имеет закрывающего тега? Что мне делать, если закрывающий тег находится вне родительского тега?)

0 голосов
/ 29 августа 2009

Есть несколько парсеров, которые принимают не правильно сформированный html и превращают его в правильно сформированный xml, вот несколько сравнений с примерами , которые включают самые популярные, за исключением, может быть, HTMLParser, Вероятно, это то, что вам нужно.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...