Анализировать данные сайта в C ++ - PullRequest
0 голосов
/ 08 апреля 2011

Поэтому я пытаюсь разработать программу, которая будет анализировать данные на веб-сайте, отправлять эти данные в переменную, которую я затем смогу использовать для функций внутри программы.

В частности, я пытаюсь проанализировать эту страницу(Перейдите на вкладку дебаффов)

http://worldoflogs.com/reports/rt-1smdoscr7neq0k6b/spell/94075/

Источник довольно прост и выглядит следующим образом.

    <td><a href='/reports/rt-1smdoscr7neq0k6b/details/62/' class='actor'><span class='Warrior'>Zonnza</span></a></td>
    <td>100</td>
</tr>
<tr>
    <td><a href='/reports/rt-1smdoscr7neq0k6b/details/3/' class='actor'><span class='DeathKnight'>Fillzholez</span></a></td>
    <td>89</td>
</tr>

Пока я хочу толькоцифры и имя, за исключением того, что находится между <td></td> и между <span class=''></span> тегами.Есть ли способ сделать то, что я ищу?

Любая помощь будет принята с благодарностью.

Ответы [ 3 ]

2 голосов
/ 08 апреля 2011

Я бы посмотрел на Tag Soup . Это парсер для HTML, который может справиться со всем ужасным HTML, который там есть. C ++ порт также доступен (не использовал его, поэтому не могу комментировать, насколько он стабилен).

1 голос
/ 08 апреля 2011

Нет библиотек C ++ для того, что вы пытаетесь сделать (если вы не собираетесь связывать с половиной Mozilla или WebKit), но вы можете рассмотреть возможность использования Java с HTMLUnit .

А для тех, кто предлагает регулярные выражения, обязательна ссылка .

0 голосов
/ 08 апреля 2011

Нет необходимости использовать C ++, когда подойдет sscanf в стиле C, или даже perl или любой язык с поддержкой регулярных выражений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...