Как соскрести текст со страницы в HTTPWebRequest? - PullRequest
0 голосов
/ 22 декабря 2011

как бы почистить определенный текст с веб-сайта с помощью HTTPWebRequest?

У меня есть этот код, но он работает только с HREF, как мне заставить его работать с текстом?

Воткод для очистки у меня есть:

// setup variables for scraping
int startPos = 0, endPos = 0, length = 0;
string tempString = "";

// do the scraping
startPos = html.IndexOf("");
endPos = html.IndexOf(">", startPos);
length = endPos - startPos;
tempString = html.Substring(startPos, length);

Например, если на странице был этот код, как я могу сделать так, чтобы он только очищал1ddiariesareback ?:

<s class="hash">#</s><b>the1ddiariesareback</b></span></a>

1 Ответ

4 голосов
/ 22 декабря 2011

Я предлагаю использовать HTML Agility Pack для загрузки и анализа HTML для вас.

Вы можете запросить объектную модель, используя синтаксис XPath или LINQ to XML.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...