Разобрать источник HTML-страницы с помощью libcurl и C - PullRequest
0 голосов
/ 29 января 2010

Как я могу напечатать источник веб-страницы, указанный в curl_easy_setopt, без тегов html? Итак, печатать только текст в источнике?

1 Ответ

3 голосов
/ 29 января 2010

Curl / libcurl предназначен только для загрузки HTML-страницы. Чтобы извлечь из него информацию, вам понадобятся другие инструменты.

Самое общее решение - использовать HTML-парсер. Хорошим примером в C является HTMLparser из libxml .

...