Как получить текст сайта с помощью C #? - PullRequest
0 голосов
/ 15 января 2012

Я пытаюсь получить текст с сайта без исходного кода.

У меня есть этот код:

HttpWebRequest myRequest = (HttpWebRequest)WebRequest.Create("http://www.google.com");
myRequest.Method = "GET";
WebResponse myResponse = myRequest.GetResponse();
StreamReader sr = new StreamReader(myResponse.GetResponseStream(), System.Text.Encoding.UTF8);
string result = sr.ReadToEnd();
sr.Close();
myResponse.Close();
Console.WriteLine(result);

Что, конечно, даст мне текст, а также исходный код. Как мне избавиться от исходного кода?

1 Ответ

4 голосов
/ 15 января 2012

Я предлагаю использовать HTML-анализатор, такой как HTML Agility Pack - после загрузки в него документа вы можете извлечь текст из верхнего узла, используя его свойство InnerText.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...