Question

Я загружаю HTML с веб-сайта. Файл может быть довольно большим, поэтому во время загрузки файла я хочу уже проанализировать доступные фрагменты HTML, чтобы процесс стал быстрее для конечного пользователя моей программы. У меня нет контроля над тем, как создаются чанки, поэтому чанк может начинаться с середины слова, например вот так:

chunk 1 --->  <div class="storyti
chunk 2 --->  tle"><a href="htt
chunk 3 --->  p://www.xkcd.com/">XKCD</a>
...and so on.

Я видел пример, где libxml2 использовался для точного анализа фрагментов XML, как я описал. Может ли libxml2 также анализировать фрагменты HTML? Я проверил с помощью tidy html-файлов, которые я собираюсь загрузить, он сообщает о предупреждениях, но не об ошибках. Может ли libxml2 проанализировать и эти фрагменты HTML?

Praveen S · Answer 1 · 15 августа 2010

libxml2 имеет синтаксический анализатор html, который поддерживает искаженный / поврежденный html. Пожалуйста, проверьте ссылку здесь.

Mark Payton · Answer 2 · 14 августа 2010

Ну, похоже, это не правильный XHTML. Есть ли какой-нибудь способ привести в порядок куски HTML?

You · Answer 3 · 14 августа 2010

Если содержимое XHTML, вы можете использовать libxml2 для его анализа (так как это на самом деле XML). С другой стороны, если это обычный HTML, вам придется использовать синтаксический анализатор SGML.

libxml2 парсинг чанка HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

libxml2 парсинг чанка HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы