Разбор HTML для поиска конкретных ссылок (без ключевых слов) - PullRequest
0 голосов
/ 26 апреля 2010

Я писал об этом раньше, но я не уверен, как ответить на мой первоначальный вопрос, так как я могу только комментировать или отвечать на свой вопрос.

В любом случае, мне нужно получить 4 ссылки с веб-сайта, последние стабильные ссылки сборки для windows и linux и последние ссылки сборки разработки для windows и linux (всего 4 ссылки) в моем приложении C ++.

Я могу загрузить страницу (http://www.sourcemod.net/snapshots.php) с помощью LibCURL, которая уже реализована в проекте, но после этого я не уверен. Я смотрел на парсеры, но не могу думать о том, как я иду чтобы отличить ссылку от ссылки. Очевидно, с помощью парсера я мог получить первую ссылку из каждой таблицы, но это не кажется эффективным и даст мне только ссылки на сборки Windows.

Похоже, что ссылки, которые мне нужны, будут в четвертой таблице в обеих таблицах, но я просто очень хорошо знаю, как это сделать, поэтому любая помощь будет признательна.

Ответы [ 2 ]

0 голосов
/ 26 апреля 2010

Я не слишком знаком с c ++, но если вы не найдете более хороших решений, есть BeautifulSoup для Python, который действительно хорош для анализа Html и даже хорошо работает с искаженными документами. А вот статья CodeProject с высокой оценкой о встраивании Python в C / C ++ , в которой говорится: «Эта статья написана для программистов, имеющих больше опыта в C / C ++, чем в Python, учебник использует практический подход и опускает все теоретические дискуссии ".

(я не читал его лично, как я уже говорил, не очень знаком с C ++)

0 голосов
/ 26 апреля 2010

Может быть, вы найдете расположение фактических загрузок, http://www.sourcemod.net/smdrop/, легче разобрать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...