libxml2 парсинг чанка HTML - PullRequest
       9

libxml2 парсинг чанка HTML

2 голосов
/ 14 августа 2010

Я загружаю HTML с веб-сайта. Файл может быть довольно большим, поэтому во время загрузки файла я хочу уже проанализировать доступные фрагменты HTML, чтобы процесс стал быстрее для конечного пользователя моей программы. У меня нет контроля над тем, как создаются чанки, поэтому чанк может начинаться с середины слова, например вот так:

chunk 1 --->  <div class="storyti
chunk 2 --->  tle"><a href="htt
chunk 3 --->  p://www.xkcd.com/">XKCD</a>
...and so on.

Я видел пример, где libxml2 использовался для точного анализа фрагментов XML, как я описал. Может ли libxml2 также анализировать фрагменты HTML? Я проверил с помощью tidy html-файлов, которые я собираюсь загрузить, он сообщает о предупреждениях, но не об ошибках. Может ли libxml2 проанализировать и эти фрагменты HTML?

Ответы [ 3 ]

2 голосов
/ 15 августа 2010

libxml2 имеет синтаксический анализатор html, который поддерживает искаженный / поврежденный html. Пожалуйста, проверьте ссылку здесь.

0 голосов
/ 14 августа 2010

Ну, похоже, это не правильный XHTML. Есть ли какой-нибудь способ привести в порядок куски HTML?

0 голосов
/ 14 августа 2010

Если содержимое XHTML, вы можете использовать libxml2 для его анализа (так как это на самом деле XML). С другой стороны, если это обычный HTML, вам придется использовать синтаксический анализатор SGML.

...