libXML ослабил разбор HTML - PullRequest
       5

libXML ослабил разбор HTML

2 голосов
/ 17 сентября 2010

Я пытаюсь соскрести некоторый контент со страницы HTML.Я использую libxml2 и htmlReadMemory, чтобы получить xmlDocPtr.HTML-код прост, но у него есть проблема.Это в основном следующее:

<tr><td><tr><td>Some content</td></tr></td></tr>

libxml не любит вложенные tr, tds.Он продолжает выдавать мне следующую ошибку:

HTML parser error : Unexpected end tag : td
      </TD>
           ^
HTML parser error : Unexpected end tag : tr
    </TR>

Я использую следующую опцию: HTML_PARSE_RECOVER.

На данный момент ничего, что я делаю, не позволяет libxml для анализа HTML из-за этого.Я не могу изменить HTML, потому что у меня нет доступа к нему.

У кого-нибудь есть какие-либо подсказки, как я могу получить libxml для анализа такого рода HTML?

Спасибо

1 Ответ

5 голосов
/ 17 сентября 2010

Какой именно вызов вы используете для разбора? Я бы предложил объединить эти опции, если вы не хотите никаких ошибок / предупреждений:

HTML_PARSE_RECOVER|HTML_PARSE_NOERROR|HTML_PARSE_NOWARNING
...