Используйте C #, чтобы получить текст из таблицы HTML - PullRequest
1 голос
/ 29 февраля 2012

Мне нужны советы и возможные примеры кода для анализа таблицы HTML с веб-сайта.Я использую класс webclient, чтобы загрузить HTML с адреса.Затем мне нужно найти таблицу, из которой я хочу получить данные.Например, если идентификатор таблицы равен <table id="cia_list", я хочу просмотреть теги <td> и получить только текст внутри них.Как лучше всего подойти к этому?

1 Ответ

4 голосов
/ 29 февраля 2012

Раньше я преобразовывал HTML в XML, а затем использовал XSLT для анализа результатов.Если вы хотите воспользоваться этим подходом, я бы порекомендовал взглянуть на SGMLReader , который будет обрабатывать преобразование.

Люди будут часто пытаться использовать регулярные выражения, чтобы делать то, о чем вы говорите.Это то, против чего я обычно советую.Вот забавный пост, в котором рассматриваются некоторые причины, по которым этого не делать:

RegEx соответствует открытым тегам, за исключением автономных тегов XHTML

...