C # Поиск через HTML - PullRequest
       1

C # Поиск через HTML

2 голосов
/ 02 мая 2011

За последние несколько месяцев я написал несколько программ, которые загружают HTML-страницы в строку и выполняют различные операции, такие как извлечение фрагментов.В основном я писал свой собственный графический интерфейс для некоторых веб-сайтов, у которых нет API.

Я сделал это, собрав воедино множество операторов String.Substring(), String.IndexOf() и String.LastIndexOf().

Я понимаю, что это, вероятно, не лучший способ сделать это - я просто написал несколько «быстрых и грязных» испытаний для начала.

Как правильно извлекать токены из веб-страницы?Спасибо:)

Ответы [ 2 ]

3 голосов
/ 02 мая 2011

Для XHTML загрузите его в XmlDocument или XDoxument.

Для (не-X) HTML загрузите его в HTML Agility Pack * HtmlDocument - API почти такой же, как XmlDocument, поэтому он должен быть знаком.

3 голосов
/ 02 мая 2011

Использование Html Agility Pack

...