Question

Я хочу разобрать документ, который не является чистым xml. Например

my name is <j> <b> mike</b>  </j>

пример 2

 my name is  <mytag1 attribute="val" >mike</mytag1> and yours is <mytag2> john</mytag2>

Означает, что мой ввод не является чистым xml. Это похоже на HTML, но теги не являются HTML. Как я могу разобрать его в Java?

G__ · Answer 1 · 29 августа 2009

Ваши примеры допустимы в формате XML, за исключением отсутствия элемента документа. Если вы знаете, что это всегда так, то вы можете просто обернуть набор фиктивных тегов вокруг всего и использовать стандартный синтаксический анализатор (SAX, DOM ...)

С другой стороны, если вы получаете что-то более уродливое (например, теги не совпадают или разнесены друг от друга), вам придется сделать что-то нестандартное, включающее ряд правил, которые вам необходимо принять решение о том, что будет уникальным для вашего приложения. (например, как мне обработать открывающий тег, который не имеет закрывающего тега? Что мне делать, если закрывающий тег находится вне родительского тега?)

serg · Answer 2 · 29 августа 2009

Есть несколько парсеров, которые принимают не правильно сформированный html и превращают его в правильно сформированный xml, вот несколько сравнений с примерами , которые включают самые популярные, за исключением, может быть, HTMLParser, Вероятно, это то, что вам нужно.

Разбор не XML-файла в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Разбор не XML-файла в Java

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов