Я загружаю HTML с веб-сайта. Файл может быть довольно большим, поэтому во время загрузки файла я хочу уже проанализировать доступные фрагменты HTML, чтобы процесс стал быстрее для конечного пользователя моей программы. У меня нет контроля над тем, как создаются чанки, поэтому чанк может начинаться с середины слова, например вот так:
chunk 1 ---> <div class="storyti
chunk 2 ---> tle"><a href="htt
chunk 3 ---> p://www.xkcd.com/">XKCD</a>
...and so on.
Я видел пример, где libxml2 использовался для точного анализа фрагментов XML, как я описал. Может ли libxml2 также анализировать фрагменты HTML? Я проверил с помощью tidy html-файлов, которые я собираюсь загрузить, он сообщает о предупреждениях, но не об ошибках. Может ли libxml2 проанализировать и эти фрагменты HTML?