Это расширение этого вопроса . Я пытаюсь проанализировать фрагменты HTML, встроенные в резервную копию XML блога Blogger, и повторно пометить их тегами InDesign.
Blogger не стандартизирует HTML для каких-либо своих сообщений, и сообщения могут быть написаны в Word, Windows Live Writer, родном интерфейсе Blogger или текстовых редакторах, что приводит к множеству различных форм HTML. Некоторые сообщения не отмечают абзацы и используют только двойные <br>
s между абзацами - другие используют фактические теги <p>
.
Как лучше всего анализировать это нестандартное скопление тегов?
Кроме того, каждый пост не является полным HTML-файлом - это просто фрагмент, который вставляется в шаблон & mdash; это означает, что нет общей структуры HTML для анализа (<html><body></body></html>
и т. Д.). Синтаксический анализ XML / HTML?
Вот некоторые потенциальные примеры, в основном стандартный HTML, отсутствующие абзацы:
This is a section of a blog post. It has <a href="#">links</a> and lists and stuff. Weee....
<br>
<br>
Here's a list
<br/>
<br />
<ul><li>Item 1</li><li>Item 2</li><ul>
And another paragraph here...
<br>
<br/>
Etc.
Слово HTML выглядит так - http://www.timeatlas.com/mos/images/stories/word_html_tags.png