libxml parse html - сломанные непарные теги - PullRequest
0 голосов
/ 04 ноября 2010

Мне нужно проанализировать HTML-страницу в C ++ с libxml. Я сталкиваюсь с проблемой при использовании некоторой функции doc = htmlParseDoc ((xmlChar *) ptr, NULL); консоль замечает проблему, похоже, что парсер сломался li> Сейчас li - непарный тег. Синтаксический анализатор скажет число открытых тегов li несоответствие закрытых тегов / li. Может быть, какая-то помощь, что с этим делать? Я прошу любую помощь и прошу прощения за английский это не мой родной язык. Я пытался опрятно, но опрятно транскате эту часть HTML с сообщением. Я пытался разобрать интерфейс xpath, но это не сработало.

1 Ответ

1 голос
/ 04 ноября 2010

Если вы открыты для использования управляемого кода (C #) в Windows, вы можете использовать HTML Agility Pack для работы с этим ошибочным вводом HTML.

В противном случае, что-то вроде Tidy может работать на вас.

...