Я пытаюсь соскрести некоторый контент со страницы HTML.Я использую libxml2 и htmlReadMemory, чтобы получить xmlDocPtr.HTML-код прост, но у него есть проблема.Это в основном следующее:
<tr><td><tr><td>Some content</td></tr></td></tr>
libxml не любит вложенные tr, tds.Он продолжает выдавать мне следующую ошибку:
HTML parser error : Unexpected end tag : td
</TD>
^
HTML parser error : Unexpected end tag : tr
</TR>
Я использую следующую опцию: HTML_PARSE_RECOVER.
На данный момент ничего, что я делаю, не позволяет libxml для анализа HTML из-за этого.Я не могу изменить HTML, потому что у меня нет доступа к нему.
У кого-нибудь есть какие-либо подсказки, как я могу получить libxml для анализа такого рода HTML?
Спасибо