Мне нужно получить некоторый контент со страницы HTML (допустимый XHTML). Я хватаю страницу с помощью curl и сохраняю ее в памяти.
Я поиграл с идеей использовать regex с библиотекой PCRE, но просто не смог найти никаких примеров, использующих его с C. Затем я перешел к просмотру HTML-парсеров, и опять-таки, выбор не очень хороший. Все, что я мог найти, это скудный документированный модуль для libxml под названием HTMLparser.
Есть ли альтернативы? Если нет, то примеры для чего я нашел уже?